博客
关于我
Emu2:新一代生成式多模态模型
阅读量:799 次
发布时间:2023-04-16

本文共 953 字,大约阅读时间需要 3 分钟。

Emu2:一款开源多模态生成式模型的突破性进展

智源研究院近日发布了Emu2,这一开源多模态生成式模型在生成式预训练和多模态理解能力方面均取得了显著突破。作为一款最大的开源生成式多模态模型,Emu2在视觉理解和生成能力上均展现出强大的实用价值。

在模型架构和训练方法上,Emu2采用了更简单的建模框架,通过自回归生成式预训练显著提升了多模态上下文学习能力。其核心创新包括建立基于统一的自回归建模方式,将图像、视频等多模态序列与文本序列交错输入,实现了更高效的多模态预训练。

在实际应用中,Emu2展现出强大的多模态理解能力。通过指令微调后的Emu2-Chat,模型能够精准理解图文指令,完成复杂的多模态理解任务。例如,它能够准确解析图像中的要素、读取指示牌提供引导、提取和估计指定属性,并回答专业学科问题等。在多个视觉问答评测集上,Emu2均取得了最佳性能。

在生成能力方面,Emu2-Gen表现尤为突出。它能够接受图像、文本、位置交错的序列作为输入,生成灵活、高质量的图像和视频。例如,基于用户提供的文本和图像提示,模型可以生成指定位置、主体和风格的图像,甚至支持基于文本描述的复杂场景生成。

此外,Emu2在零样本的主体驱动图像生成测试中也展现出显著优势。相较于现有的方法,Emu2在DreamBench测试中的CLIP-I分数和DINO分数均取得了7%以上的提升。

通过对多模态理解和生成能力的定量评测,Emu2在包括少样本理解、视觉问答、主体驱动图像生成等多个任务上均取得了最优性能。其统一的生成式预训练框架和强大的上下文学习能力,使其成为当前最具潜力的多模态生成模型。

Emu2的模型、代码和DEMO均已开源,技术细节可参考相关论文。项目链接和技术支持信息如下:

转载地址:http://ecgfk.baihongyu.com/

你可能感兴趣的文章
mysql sum 没返回,如果没有找到任何值,我如何在MySQL中获得SUM函数以返回'0'?
查看>>
mysql Timestamp时间隔了8小时
查看>>
Mysql tinyint(1)与tinyint(4)的区别
查看>>
mysql union orderby 无效
查看>>
mysql v$session_Oracle 进程查看v$session
查看>>
mysql where中如何判断不为空
查看>>
MySQL Workbench 使用手册:从入门到精通
查看>>
mysql workbench6.3.5_MySQL Workbench
查看>>
MySQL Workbench安装教程以及菜单汉化
查看>>
MySQL Xtrabackup 安装、备份、恢复
查看>>
mysql [Err] 1436 - Thread stack overrun: 129464 bytes used of a 286720 byte stack, and 160000 bytes
查看>>
MySQL _ MySQL常用操作
查看>>
MySQL – 导出数据成csv
查看>>
MySQL —— 在CentOS9下安装MySQL
查看>>
MySQL —— 视图
查看>>
mysql 不区分大小写
查看>>
mysql 两列互转
查看>>
MySQL 中开启二进制日志(Binlog)
查看>>
MySQL 中文问题
查看>>
MySQL 中日志的面试题总结
查看>>