6 月 3 日音讯,字节字节跳动 Seed 团队上星期宣告开源一致多模态了解和生成模型 。开源 BAGEL。统多,模态模型该模型支撑文本、解和图画和视频的生成一致了解和生成。
BAGEL 具有 70 亿个激活参数(一共 140 亿个),并在大规模交织多模态数据上进行练习。开源BAGEL 在规范多模态了解排行榜上逾越了当前尖端的统多开源 VLMs。,模态模型如 Qwen2.5-VL 和 InternVL-2.5 ,解和而且供给了与专业生成器如 SD3 竞赛的生成文本到图画质量 。
此外,字节BAGEL 在经典的开源图画修改场景中展现了比抢先的开源模型更好的定性成果 。更重要的统多是 ,它扩展到了自在方式的视觉操作、多视图组成和国际导航,这些才能构成了超出以往图画修改模型规模的“国际建模”使命 。
详细来看,BAGEL 根据大言语模型进行练习,具有根底的推理和对话才能 ,可以处理图画和文本的混合输入,并以混合格局输出 。
BAGEL 可生成较高质量 、传神的图画 、视频或图文交织的内容。此外 ,还引入了长思想链 COT(Chain-of-Thought)方式,模型在生成之前可先“考虑”。
根据交织的多模态数据预练习,BAGEL 天然地学会了保存视觉特征和纤细细节,而且能从视频中捕捉杂乱的视觉运动 ,这些才能使得 BAGEL 在图画修改上更为高效。
根据对视觉内容和风格的了解 ,BAGEL 仅运用较少的对齐数据 ,即可完成图片的风格切换 ,乃至还可转化至不同场景中。
此外 ,BAGEL 还具有国际模型的根底才能,可完成国际导航、未来帧猜测、3D 国际生成等更具挑战性的使命,并进行不同视点的旋转或视角切换。一起,BAGEL 还具有较强的泛化才能 ,不仅在各类实在场景中,还能在游戏、艺术作品 、卡通动画等场景中完成导航。
根据以上才能