Summary of work related to general robot manipulation.
主流的抓取研究一般有2类: 2D平面抓取和6-DoF抓取。 2D平面抓取时, 机械抓手垂直于物体所在的平面,只能从一个方向抓取, 这对物体的抓取有很大限制。 6-DoF抓取可以从空间任意方向进行抓取, 有很大的灵活性。 6-DoF也不严格是指有6个自由度, 而是至少有6个自由度,三维旋转和三维的抓取中心。有时可能还有夹爪的宽度等, 一般也统称6-DoF抓取, 有些文献可能叫7-DoF抓取。
这里主要总结6-DoF的抓取, 不关注2D平面抓取。
-
Grasp Pose Detection in Point Clouds IJRR 2017 东北大学(美国)
-
GraspNet: An Efficient Convolutional Neural Network for Real-time Grasp Detection for Low-powered Devices IJCAI 2018 IBM Research
-
Volumetric Grasping Network: Real-time 6 DOF Grasp Detection in Clutte CoRL 2020 苏黎世联邦理工学院
上海交通大学团队系列工作:
-
GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping CVPR 2020
核心工作是提出了一个大型的抓取姿态检测数据集和评估系统, 包含约10万张图像和10亿个标注的抓取姿态。另外也提出了一个抓取检测网络作为基准。 基准网络的性能不是很好,AP值只有27左右 实用价值不大。
-
RGB Matters: Learning 7-DoF Grasp Poses on Monocular RGBD Images ICRA 2021
核心思路是把抓取姿态估计解耦成2个问题: 通过单目RGB图像产生热力图去预测在图像上的抓取位置和夹爪的方向,然后通过热力图和深度图预测夹爪的宽度和夹爪与图像的距离。 而以往的方法一般是通过RGBD图像得到点云,忽略了RGB图像中很多丰富的信息。 这种方法降低了对深度信息的依赖, 提高了在深度信息不太准的情况下的鲁棒性。 最终的效果相比GraspNet-1Billion中的基准网络有微小提升, AP值到28左右。
-
Contact-GraspNet: Efficient 6-DoF Grasp Generation in Cluttered Scenes ICRA 2021
-
Graspness Discovery in Clutters for Fast and Accurate Grasp Detection ICCV 2021
核心工作是提出了抓取质量度量-graspness, 预过滤掉了大多数低质量的抓取姿态, 极大地提高了效率和精度。 AP值大幅提升到67左右。 该工作已被集成到AnyGrasp中, 但未开源代码, 仅提供动态链接库供调用。
非官方的代码实现: https://github.com/rhett-chen/graspness_implementation
-
主要解决透明物体的抓取。
-
AnyGrasp: Robust and Efficient Grasp Perception in Spatial and Temporal Domains T-RO 2023
主要贡献是考虑了动态物体的抓取。
Graspnet-1 Billion解读: https://zhuanlan.zhihu.com/p/703428650
-
Keypoint-GraspNet: Keypoint-based 6-DoF Grasp Generation from the Monocular RGB-D input 2023 佐治亚理工学院
基于点云的抓取检测受到计算量的影响, 通常需要降低点云数量, 这会导致小物体的检测失败。 本文在直接在RGBD图像上生成抓取, 具体做法是检测图像空间夹爪关键点投影,然后使用PnP算法恢复6自由度抓取姿态
-
MonoGraspNet: 6-DoF Grasping with a Single RGB Image ICRA 2023 慕尼黑工业大学
核心是只使用RGD图像进行抓取姿态估计, 无需深度信息。
-
Efficient Heatmap-Guided 6-Dof Grasp Detection in Cluttered Scenes 2024 清华大学
当前大部分的抓取研究都采用了全部观察到的点云来预测抓取姿态, 忽略了从全局语义中挖掘的指导信息, 因此限制了高质量的抓取位姿生成和实时性。 本文提出了一个以抓取热图作为引导的高效局部抓取生成器。
-
Rethinking 6-Dof Grasp Detection: A Flexible Framework for High-Quality Grasping 2024 清华大学
本文试图解决6自由度机器人抓取任务中的场景级和目标导向抓取的问题。提出了一个灵活的抓取框架FlexLoG,由灵活的引导模块和本地抓取模型组成,能够同时处理场景级和目标导向抓取。
-
核心是高效、轻量, 可以部署到边缘设备。
-
Task-Oriented 6-DoF Grasp Pose Detection in Clutters ICRA 2025 中山大学
通常的抓取检测没有考虑面向不同任务的检测, 而人类在执行不同的任务时, 会以不同的方式抓取物体。本文主要研究了在杂乱场景下, 面向任务的6 dof抓取、
代表性工作: 北京大学王鹤课题组 https://hughw19.github.io/
-
提出了一个2阶段的灵巧抓取框架, 第一阶段针对物体点云输入生成若干抓取手势,从中挑选一个作为目标手势之后,第二阶段使用基于目标手势的强化学习策略来执行抓取。
-
关注不同物体不同位姿的几何差异,并利用通用策略-专家策略学习方法,极大地提升了 UniDexGrasp 的泛化能力
-
DexGraspNet: A Large-Scale Robotic Dexterous Grasp Dataset for General Objects Based on Simulation ICRA 2023
-
DexGraspNet 2.0: Learning Generative Dexterous Grasping in Large-scale Synthetic Cluttered Scenes CoRL 2024
-
Task-Oriented Dexterous Grasp Synthesis via Differentiable Grasp Wrench Boundary Estimator IROS 2024
-
Efficient Residual Learning with Mixture-of-Experts for Universal Dexterous Grasping 2024, 北大&BAAI
团队提出的ResDex训练方法在DexGraspNet 3000多个物体的抓取上达到当前最高成功率95%和最快训练速度。
-
Cross-Embodiment Dexterous Grasping with Reinforcement Learning 2024, 北大&BAAI
团队提出CrossDex,能够用单一策略控制不同类型的灵巧手,是首个跨具身的灵巧手抓取学习方法。
-
Learning Diverse Bimanual Dexterous Manipulation Skills from Human Demonstrations 2024, 北大&BAAI
团队提出BiDexHD框架,能够从任意的一条人类演示学会相应的灵巧手双手操作,首次实现可扩展、通用的双灵巧手操作学习。
1 google RT系列
2 Octo 2023
3 OpenVLA 2024
4 RobotBrain CVPR 2025, BAAI
HuggingFace: LeRobot 2024
上海交通大学 GraspNet-1Billion 2020
google: Open X-Embodiment 2023
斯坦福 Mobile ALOHA (这不是一个具体的数据, 而是一套机器人数据采集系统) 2024
智元: AgiBot-World 2025
数据集的区别:
GraspNet-1 Billion 主要专注于 抓取姿态检测 和 机器人视觉与操作,适用于需要大量抓取姿态数据的研究和应用。
Agibot World 则涵盖了 更广泛的任务类型,包括家庭、餐饮、工业、商超和办公场景中的多样化技能,适用于需要机器人在复杂环境中执行多种任务的应用。