2024-06-19发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1045个字)

NVIDIA在视觉AI领域的最新进展

NVIDIA研究人员本周在西雅图举办的计算机视觉与模式识别（CVPR）会议上展示了新的视觉生成AI模型和技术。{ width=50% }

这些进展涵盖了定制图像生成、3D场景编辑、视觉语言理解和自动驾驶感知等领域。
“NVIDIA副总裁兼学习与感知研究负责人Jan Kautz表示：“人工智能，尤其是生成AI，代表了一个关键的技术进步。”
“在CVPR上，NVIDIA研究团队分享了我们如何突破可能的边界，从强大的图像生成模型，可以极大加快专业创作者的创作速度，到自动驾驶软件，可以帮助实现下一代自动驾驶汽车。“
在50多个NVIDIA研究项目中，有两篇论文入围了CVPR最佳论文奖的决赛 – 一篇探讨扩散模型的训练动态，另一篇关于自动驾驶汽车的高清晰度地图。
此外，NVIDIA在CVPR自主大挑战End-to-End Driving at Scale赛道上获胜，战胜了全球450多个参赛作品。这一里程碑事件展示了NVIDIA在利用生成AI为综合自动驾驶车辆模型方面的开创性工作，还获得了CVPR的创新奖。
本次研究项目的重头戏之一是JeDi，这是一种新技术，允许创作者快速定制扩散模型 – 这是文本到图像生成的主要方法 – 以描绘特定的对象或字符，仅仅使用几张参考图像，而不是费时的在自定义数据集上进行微调的过程。
另一个突破是FoundationPose，这是一个新的基础模型，可以即时理解和跟踪视频中物体的3D姿态，无需为每个物体单独进行训练。它创下了新的性能记录，并可以解锁新的增强现实和机器人应用。
NVIDIA研究人员还推出了NeRFDeformer，这是一种编辑由神经辐射场（NeRF）捕捉的3D场景的方法，只需使用单个2D快照，而不必手动重新创建变化或重新创建整个NeRF。这可以简化用于图形、机器人和数字孪生应用的3D场景编辑。
在视觉语言方面，NVIDIA与麻省理工学院合作开发了VILA，这是一个新的视觉语言模型系列，实现了在理解图像、视频和文本方面的最先进性能。凭借增强的推理能力，VILA甚至可以通过结合视觉和语言理解来理解互联网迷因。
NVIDIA的视觉AI研究涵盖了许多行业，包括一打探索自主车辆感知、映射和规划的新方法。NVIDIA AI研究团队副总裁Sanja Fidler正在介绍视觉语言模型在自动驾驶汽车中的潜力。
NVIDIA在CVPR的研究广度展示了生成AI如何赋予创作者能力、加速制造业和医疗保健的自动化，同时推动自主性和机器人技术的进步。

查看:NLEPs: 建立LLMs和符号推理之间的桥梁

想要从行业领袖那里了解更多关于AI和大数据的信息吗？请查看在阿姆斯特丹、加利福尼亚和伦敦举办的AI&Big Data Expo。这一全面的活动与包括智能自动化会议、BlockX、数字转型周和网络安全和云博览会在内的其他主要活动同地举办。
探索由TechForge提供的其他即将举办的企业技术活动和网络研讨会。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

NVIDIA在视觉AI领域的最新进展

https://www.gptnb.com/2024/06/19/2024-06-18-auto2-wuIfOo/

作者

ByteAILab

发布于

2024-06-19

更新于

2025-03-21

NVIDIA在视觉AI领域的最新进展

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新