统一多模态ed 开源模型 BA字节 Se了解和生成

 人参与 | 时间:2025-07-04 10:15:32

6 月 3 日音讯,字节字节跳动 Seed 团队上星期宣告开源一致多模态了解和生成模型。开源 BAGEL。统多,模态模型该模型支撑文本、解和图画和视频的生成一致了解和生成。

图片

BAGEL 具有 70 亿个激活参数(一共 140 亿个),并在大规模交织多模态数据上进行练习 。开源BAGEL 在规范多模态了解排行榜上逾越了当前尖端的统多开源 VLMs 。 ,模态模型如 Qwen2.5-VL 和 InternVL-2.5 ,解和而且供给了与专业生成器如 SD3 竞赛的生成文本到图画质量 。

此外,字节BAGEL 在经典的开源图画修改场景中展现了比抢先的开源模型更好的定性成果  。更重要的统多是 ,它扩展到了自在方式的视觉操作、多视图组成和国际导航,这些才能构成了超出以往图画修改模型规模的“国际建模”使命。

图片

详细来看,BAGEL 根据大言语模型进行练习,具有根底的推理和对话才能  ,可以处理图画和文本的混合输入 ,并以混合格局输出 。

混合输入-混合输出

▲ 混合输入-混合输出 。

BAGEL 可生成较高质量  、传神的图画 、视频或图文交织的内容。此外 ,还引入了长思想链 COT(Chain-of-Thought)方式,模型在生成之前可先“考虑”。

BAGEL 通过“思考”生成了一个穿着毛衣的鳄鱼玩偶

▲ BAGEL 经过“考虑”生成了一个穿戴毛衣的鳄鱼玩偶 。

根据交织的多模态数据预练习 ,BAGEL 天然地学会了保存视觉特征和纤细细节,而且能从视频中捕捉杂乱的视觉运动 ,这些才能使得 BAGEL 在图画修改上更为高效。

图片

基于同一人物形象进行图像编辑

▲ 根据同一人物形象进行图画修改 。

根据对视觉内容和风格的了解,BAGEL 仅运用较少的对齐数据 ,即可完成图片的风格切换 ,乃至还可转化至不同场景中。

BAGEL 实现多种风格迁移

▲ BAGEL 完成多种风格搬迁 。

此外 ,BAGEL 还具有国际模型的根底才能,可完成国际导航、未来帧猜测 、3D 国际生成等更具挑战性的使命 ,并进行不同视点的旋转或视角切换。一起,BAGEL 还具有较强的泛化才能,不仅在各类实在场景中,还能在游戏、艺术作品 、卡通动画等场景中完成导航。

根据以上才能 ,BAGEL 还可经过一个一致的多模态接口 ,完成各项才能的杂乱组合 ,进行多轮对话。

图片剪切-智能编辑-场景转换-风格转换组合功能

▲ 图片剪切-智能修改-场景转化-风格转化组合功用。

附 BAGEL 开源地址 :

官网及体会进口:

https://seed.bytedance.com/bagel 。

GitHub 代码:

https://github.com/bytedance-seed/BAGEL  。

模型权重 :

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT 。

研讨论文 :

https://arxiv.org/pdf/2505.14683 。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等方式) ,用于传递更多信息,节约甄选时刻,成果仅供参考 ,一切文章均包括本声明 。

顶: 4踩: 36