2024-04-27发表2025-03-21更新 ByteAILab 6 分钟读完 (大约962个字)

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

Open-Sora 在开源社区悄悄更新了，现在单镜头支持长达16秒的视频生成，分辨率最高可达720p，并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。

生成个横屏圣诞雪景，发b站

再生成个竖屏，发抖音

还能生成单镜头16秒的长视频，这下人人都能过把编剧瘾了

怎么玩？指路
GitHub：https://github.com/hpcaitech/Open-Sora

更酷的是，Open-Sora 依旧全部开源，包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo示例和详尽的上手教程。

Open-Sora 技术报告全面解读

最新功能概览
作者团队在GitHub上正式发布了Open-Sora 技术报告，根据笔者的了解，本次更新主要包括以下几项关键特性：

时空扩散模型ST-DiT-2
作者团队表示，他们对Open-Sora 1.0中的STDiT架构进行了关键性改进，旨在提高模型的训练稳定性和整体性能。…

多阶段训练
根据Open-Sora 技术报告指出，Open-Sora 采用了一种多阶段训练方法，每个阶段都会基于前一个阶段的权重继续训练。相较于单一阶段训练，这种多阶段训练通过分步骤引入数据，更高效地实现了高质量视频生成的目标。…

统一的图生视频/视频生视频框架
作者团队表示，基于Transformer的特性，可以轻松扩展 DiT 架构以支持图像到图像以及视频到视频的任务。他们提出了一种掩码策略来支持图像和视频的条件化处理。…

…

Open-Sora 性能全方位评测
视频生成效果展示
Open-Sora 最令人瞩目的亮点在于，它能够将你脑中的景象，通过文字描述的方式，捕捉并转化为动人的动态视频。…

…

当前局限与未来计划
尽管在复现类Sora文生视频模型的工作方面取得了不错的进展，但作者团队也谦逊地指出，当前生成的视频在多个方面仍有待改进：包括生成过程中的噪声问题、时间一致性的缺失、人物生成质量不佳以及美学评分较低。…

Open-Sora社区带给我们的下一次惊喜。

开源地址：https://github.com/hpcaitech/Open-Sora

参考文献：
[1] https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md
[2] Tay, Yi, et al. “Ul2: Unifying language learning paradigms.” arXiv preprint arXiv:2205.05131 (2022).
[3] https://openai.com/research/video-generation-models-as-world-simulators

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

ByteAILab

2024-04-27

2025-03-21