博客
关于我
Emu2:新一代生成式多模态模型
阅读量:799 次
发布时间:2023-04-16

本文共 953 字,大约阅读时间需要 3 分钟。

Emu2:一款开源多模态生成式模型的突破性进展

智源研究院近日发布了Emu2,这一开源多模态生成式模型在生成式预训练和多模态理解能力方面均取得了显著突破。作为一款最大的开源生成式多模态模型,Emu2在视觉理解和生成能力上均展现出强大的实用价值。

在模型架构和训练方法上,Emu2采用了更简单的建模框架,通过自回归生成式预训练显著提升了多模态上下文学习能力。其核心创新包括建立基于统一的自回归建模方式,将图像、视频等多模态序列与文本序列交错输入,实现了更高效的多模态预训练。

在实际应用中,Emu2展现出强大的多模态理解能力。通过指令微调后的Emu2-Chat,模型能够精准理解图文指令,完成复杂的多模态理解任务。例如,它能够准确解析图像中的要素、读取指示牌提供引导、提取和估计指定属性,并回答专业学科问题等。在多个视觉问答评测集上,Emu2均取得了最佳性能。

在生成能力方面,Emu2-Gen表现尤为突出。它能够接受图像、文本、位置交错的序列作为输入,生成灵活、高质量的图像和视频。例如,基于用户提供的文本和图像提示,模型可以生成指定位置、主体和风格的图像,甚至支持基于文本描述的复杂场景生成。

此外,Emu2在零样本的主体驱动图像生成测试中也展现出显著优势。相较于现有的方法,Emu2在DreamBench测试中的CLIP-I分数和DINO分数均取得了7%以上的提升。

通过对多模态理解和生成能力的定量评测,Emu2在包括少样本理解、视觉问答、主体驱动图像生成等多个任务上均取得了最优性能。其统一的生成式预训练框架和强大的上下文学习能力,使其成为当前最具潜力的多模态生成模型。

Emu2的模型、代码和DEMO均已开源,技术细节可参考相关论文。项目链接和技术支持信息如下:

转载地址:http://ecgfk.baihongyu.com/

你可能感兴趣的文章
mysql 主键重复则覆盖_数据库主键不能重复
查看>>
Mysql 优化 or
查看>>
mysql 优化器 key_mysql – 选择*和查询优化器
查看>>
MySQL 优化:Explain 执行计划详解
查看>>
Mysql 会导致锁表的语法
查看>>
mysql 使用sql文件恢复数据库
查看>>
mysql 修改默认字符集为utf8
查看>>
Mysql 共享锁
查看>>
MySQL 内核深度优化
查看>>
mysql 内连接、自然连接、外连接的区别
查看>>
mysql 写入慢优化
查看>>
mysql 分组统计SQL语句
查看>>
Mysql 分页
查看>>
Mysql 分页语句 Limit原理
查看>>
MySQL 创建新用户及授予权限的完整流程
查看>>
mysql 创建表,不能包含关键字values 以及 表id自增问题
查看>>
mysql 删除日志文件详解
查看>>
mysql 判断表字段是否存在,然后修改
查看>>
mysql 协议的退出命令包及解析
查看>>
mysql 取表中分组之后最新一条数据 分组最新数据 分组取最新数据 分组数据 获取每个分类的最新数据
查看>>