WAP手机版 RSS订阅 加入收藏  设为首页
gpk捕鱼平台
当前位置:首页 > gpk捕鱼平台

gpk捕鱼平台:从而实现预训练模型的突破

时间:2021/7/8 16:05:22  作者:  来源:  浏览:0  评论:0
内容摘要:针对这些问题,中国科学院自动化研究所课题组提出了图形、文本、音频三模态预训练模型,该模型将文本、语音、图像、视频等多模态内容结合起来进行学习。该模型由单模态编码器、交叉模态编码器和交叉模态解码器组成。该方法采用基于入门级、模态级和样本级的多层次、多任务三级训练前自监督学习方法。它更加关注图形、文本、声音三模态数据之间的...

针对这些问题,中国科学院自动化研究所课题组提出了图形、文本、音频三模态预训练模型,该模型将文本、语音、图像、视频等多模态内容结合起来进行学习。该模型由单模态编码器、交叉模态编码器和交叉模态解码器组成。该方法采用基于入门级、模态级和样本级的多层次、多任务三级训练前自监督学习方法。它更加关注图形、文本、声音三模态数据之间的相关性特征和跨模态转换问题,为更广泛、更多样化的下游任务提供基本的模型支持。

该科研团队指出,图形、文本、音频三模态预训练模型不仅可以实现图像识别、语音识别等跨模态理解任务,还可以完成由文本生成图像、由图像生成文本、还有声音生成图像……同时,语音模态的多模态预训练模型的引入可以直接实现三种模态的统一表征,特别是首次实现了“以图发声”和“以图发声”。

此外,该模型灵活的自监督学习框架可以同时支持三个或任意两个模态弱相关数据进行预训练,可以有效降低多模态数据收集和清理的成本,从而实现预训练模型的突破。

中国科学院自动化研究所表示,图形、文本、音频三种模式的预训练模型的提出和构建,将改变目前人工智能单一模型对应单一任务的研发范式,并且大大提高了文本、语音、图像和视频等领域的基本任务的性能。在多模态内容理解、搜索、推荐和问答等商业应用方面具有巨大潜力;语音识别与合成;人机交互,无人驾驶。


相关评论
本站所有站内信息仅供娱乐参考,不作任何商业用途,不以营利为目的,专注分享快乐,欢迎收藏本站!
所有信息均来自:百度一下 (gpk捕鱼平台)
吉icp备16003964号-1