NVIDIA在视觉AI领域的最新进展
NVIDIA研究人员本周在西雅图举办的计算机视觉与模式识别(CVPR)会议上展示了新的视觉生成AI模型和技术。{ width=50% }
这些进展涵盖了定制图像生成、3D场景编辑、视觉语言理解和自动驾驶感知等领域。
“NVIDIA副总裁兼学习与感知研究负责人Jan Kautz表示:“人工智能,尤其是生成AI,代表了一个关键的技术进步。”
“在CVPR上,NVIDIA研究团队分享了我们如何突破可能的边界,从强大的图像生成模型,可以极大加快专业创作者的创作速度,到自动驾驶软件,可以帮助实现下一代自动驾驶汽车。“
在50多个NVIDIA研究项目中,有两篇论文入围了CVPR最佳论文奖的决赛 – 一篇探讨扩散模型的训练动态,另一篇关于自动驾驶汽车的高清晰度地图。
此外,NVIDIA在CVPR自主大挑战End-to-End Driving at Scale赛道上获胜,战胜了全球450多个参赛作品。这一里程碑事件展示了NVIDIA在利用生成AI为综合自动驾驶车辆模型方面的开创性工作,还获得了CVPR的创新奖。
本次研究项目的重头戏之一是JeDi,这是一种新技术,允许创作者快速定制扩散模型 – 这是文本到图像生成的主要方法 – 以描绘特定的对象或字符,仅仅使用几张参考图像,而不是费时的在自定义数据集上进行微调的过程。
另一个突破是FoundationPose,这是一个新的基础模型,可以即时理解和跟踪视频中物体的3D姿态,无需为每个物体单独进行训练。它创下了新的性能记录,并可以解锁新的增强现实和机器人应用。
NVIDIA研究人员还推出了NeRFDeformer,这是一种编辑由神经辐射场(NeRF)捕捉的3D场景的方法,只需使用单个2D快照,而不必手动重新创建变化或重新创建整个NeRF。这可以简化用于图形、机器人和数字孪生应用的3D场景编辑。
在视觉语言方面,NVIDIA与麻省理工学院合作开发了VILA,这是一个新的视觉语言模型系列,实现了在理解图像、视频和文本方面的最先进性能。凭借增强的推理能力,VILA甚至可以通过结合视觉和语言理解来理解互联网迷因。
NVIDIA的视觉AI研究涵盖了许多行业,包括一打探索自主车辆感知、映射和规划的新方法。NVIDIA AI研究团队副总裁Sanja Fidler正在介绍视觉语言模型在自动驾驶汽车中的潜力。
NVIDIA在CVPR的研究广度展示了生成AI如何赋予创作者能力、加速制造业和医疗保健的自动化,同时推动自主性和机器人技术的进步。
查看:NLEPs: 建立LLMs和符号推理之间的桥梁
想要从行业领袖那里了解更多关于AI和大数据的信息吗?请查看在阿姆斯特丹、加利福尼亚和伦敦举办的AI&Big Data Expo。这一全面的活动与包括智能自动化会议、BlockX、数字转型周和网络安全和云博览会在内的其他主要活动同地举办。
探索由TechForge提供的其他即将举办的企业技术活动和网络研讨会。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
NVIDIA在视觉AI领域的最新进展