欢迎访问一彩娱乐,一彩平台,一彩娱乐注册,招商主管qq77479,一彩娱乐有限公司网站!

水处理咨询热线:
400-029-4680
栏目导航
行业资讯
行业资讯
新闻动态
联系我们
服务热线
400-029-4680
电话:029-893237890
电话:13700273261
18792799963
邮 编:710065
地址: 西安市雁塔区电子正街双桥国际
有趣而精彩的性能开放式人工智能机械手
浏览: 发布日期:2019-02-27

今年2? 五月,开放式? 一组机器人挑战已经启动,它们基于? 穆乔科? 物理模拟器? 健身房? 在这个环境中,早期强化学习算法无法直接解决的两组八个难题被重新设计,包括机械臂的末端控制和机械臂抓取物体。。 这些都是困难的任务?开放式? 我自己也在研究它。 他们认为这是一项算法测试任务,在深度强化学习发展到一个新时代后,可以作为新的基准。 他们也欢迎其他机构与学校的研究人员一起研究这些任务,将深度强化学习的表现推向一个新的水平。。

机器人任务3 -? 转动鸡蛋,示意图

今天(美国时间7? 在这个月的30号? 日本) )? 我已经对机械手任务2的“旋转箱”给出了自己的答案,展示了一个异常灵活的旋转箱机械手。。 更奇妙的是,通过在模拟器中的深入研究学习到的方案可以直接转移到真实的机器人身上,而无需任何微调。。

一彩娱乐注册

机器人任务2 -? 转动盒子,用真正的机器人跑步。

开放式也制作了一个很酷的介绍视频,请参见下文。。

开放式? 呼叫这个系统? 手指。开放式? 在过去的一年里,学习强化学习系统的首选思想再次得到体现:在完全模拟的环境中训练,然后将训练结果转移到现实世界的机械结构中。

由于大规模高速并行训练模拟环境?开放式? 过去研究中积累的系统设计和变量选择经验已经取得了良好的效果。对于强化学习算法,开放式? 我再次选择去医院? 5v5人工智能? 用于? 多酚氧化酶 (近端战略优化),这当然也再次显示出来?PPO? 作为通用强化学习算法的优越性。当然,该系统最大的亮点在于,它可以在虚拟环境中完全训练,并且可以直接转移到真实操纵器和真实物体的控制中,而无需真实世界的精确物理模型。

一彩娱乐

两个手指夹旋转,滑动和手指同步旋转,三种?手指? 向人类介绍类似运动模式任务的全自动学习

任务中使用的操纵器模型是参考? 影子灵巧手? 诡计多端的。这是一个全手工设计,有20个? 4驱动自由度? 二十四个半驱动自由度? 关节机械手,它的尺寸和人手一样。这项任务要求在机械手的手掌中放置一个正方形或六边形棱镜,然后要求机械手将其旋转到指定的角度,例如将某一侧旋转到顶部。该系统只能观察五个指尖的空间坐标和三个固定角度的彩色摄像机拍摄的图像。

尽管这种机械手已经在市场上销售了几十年,但是如何让它像人类一样有效地控制物体一直是机器人控制领域的一个长期问题。。与空间定位和运动等问题不同,传统的多自由度机械手控制方法不仅运行缓慢,而且必须对自由度做出一些限制,这也限制了它们控制现实世界物体的能力。

为了使机械手能够通过深度强化学习翻转一彩娱乐主管物体,需要考虑以下问题:

可以在现实世界中工作。尽管强化学习在许多模拟器环境和游戏中表现出了优异的性能,但是针对解决现实世界任务的强化学习的研究仍然非常有限。开放式? 手指的最终目标是在真正的机器人上完成任务。
高自由度控制。普通机械臂(如末端带有夹具的工业机械臂)只有7个? 机器人有多达24个自由度。? 一个自由度,就是不让5? 手指打架相当困难。
一些噪声信息的观察。当手指在现实世界中工作时,它不可避免地会遇到噪声和传感器读数的延迟。当一个手指的传感器受到其他手指或物体的影响而无法返回读数时,手指? 只能处理部分信息。此外,真实物理系统的许多细节(如摩擦和滑动)无法直接观察到,系统必须做出自己的推断。
能够操作多个对象。Dactyl? 的设计目标是足够灵活,以翻转和定向许多不同类型的对象。这意味着不可能选择仅对某些几何形状有效的策略。
开放式? 的解决方案

一般来说,Open人工智能? 完全在模拟器环境中,没有任何人工输入,让?Dactyl? 通过强化学习训练面向对象的任务。训练结束后,学习到的策略可以直接在真实的机器人上工作,无需任何微调。

然而,事实上,学习机器人控制方法面临着一个困境。模拟环境中的机器人可以很容易地获得大量数据,并训练出足够复杂的策略,但是大多数控制问题建模不够精确,这使得学习到的策略很难转移到现实世界中的机器人。即使仅仅模拟了“两个物体接触”的简单现象,这仍然是一个开放的科学研究问题,没有一个被广泛接受和足够好的模型。直接在真实机器人上训练自然可以根据真实世界的物理规律学习好的策略,但是真实世界的训练只能以真实世界的速度进行。当前的强化学习算法受到样本效率问题的限制,需要几年的试验经验来解决相对简单的物体翻转问题。(财力雄厚的谷歌真的这么做了。详情请参阅这篇文章。)。可以说,谷歌利用其财务优势尝试了许多研究方法,这些方法在理论上对整个领域都是可行的。

开放式? 的训练技能特别是“领域随机化”。它不追求建模的最佳模拟,而是在充满丰富变化的环境中学习各种知识和经验。这种方法兼具模拟器和现实世界学习的优点:在模拟器环境中学习可以使模拟器比现实世界的速度更快,并快速积累经验;同时,在将“逼真”替换为“可变”后,在模拟器只能近似建模的任务中,它也可以获得更好的性能。

包括?开放式? 包括我在内的许多研究人员已经通过实验证明了任务随机化对越来越复杂的任务的明显促进作用。近期最有力的例子是?OpenAI? 训练过的?DOT 2 5 V5?AI。在这个机械手控制任务中,OpenAI? 它还在探索大规模任务随机化是否能带来超越现有机器人控制方法的性能。

穆乔科? 与实际物理系统相比,物理模拟器有以下缺点:

在真实的机器人和正方形上测量诸如摩擦、阻尼和抗倾覆等物理特性是非常麻烦和困难的。此外,随着机械手的磨损,这些值将逐渐变化。 模拟器中只有固定参数的近似模型。
穆乔科?这是一个刚体运动模拟器,这意味着它不能模拟机械手指尖橡胶的接触变形,也不能模拟手指肌腱的拉伸。
在这项任务中,机械手只能通过触摸正方形几次来改变正方形的方向,但是接触力在模拟器中难以精确再现是出了名的。
如果仔细调整模拟器中的参数,模拟机械手的行为确实可以更好地与真实机械手的行为相匹配,但是上述功能很难用当前模拟器精确建模,调整参数毫无帮助。

因此?OpenAI? 取而代之的是,使用大规模分布式模拟训练环境,并随机选择这些环境中的物理属性和视觉特征。随机选择这些值是表征各种真实物理系统的不确定性的一种非常自然的方式,当然,这也可以防止系统过度适应特定的环境设置。根据?OpenAI? 研究人员认为,如果一种策略能够在所有这些不同的模拟环境中完成任务,那么它很可能直接在真实环境中完成任务。

在开发和测试阶段,OpenAI? 通过内置的运动控制传感器来验证学习到的机械手控制策略,这也能够隔离?Dactyl? 它自己的控制网络和视觉网络可以对系统性能进行“客观”的评估。

一彩娱乐登录 、

友情链接/LINKS

Copyright © 2002-2018 一彩娱乐 版权所有 / txt地图 HTML地图 XML地图百度XML地图