首页 > 知识

Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点!

更新时间:2024-11-22 08:44:35 阅读: 评论:0

Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点!

作者:子龙,来自:FLAVA吊打 CLIP 平均1个点

欢迎关注 @机器学习社区 ,专注学术论文、机器学习、人工智能、Python技巧

厉害了!作者将单一模型运用于三个不同领域的不同任务,结构简单且训练直观,还能有着出色的表现。

自 Transformer 横空出世,从NLP到CV,再到今天的多模态,无数基于Transformer的模型被应用于各类任务,似乎真的印证了当年文章的标题“Transformer is ALL you need”。然而,纯粹的NLP任务有BERT、RoBERTa,CV任务有ViT,多模态任务又有VLBERT、OSCAR,虽然都是基于Transformer的结构,但是仍然是针对不同任务设计不同模型,那么“万能”的Transformer能否构建出一个统合各类任务的模型,实现真的的一个模型解决所有问题呢?

今天文章的作者就关注到了当前各个模型的局限,提出了一个适用于NLP+CV+多模态的模型FLAVA,可运用于三种领域共计35个任务,且都有着出色的表现。

论文题目: FLAVA: A Foundational Language And Vision Alignment Model

论文链接: https://arxiv.org/abs/2112.04482

技术交流群

建了深度学习交流群!想要技术交流群的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+知乎,即可。然后就可以拉你进群了。

强烈推荐大家关注机器学习社区知乎账号和机器学习社区微信公众号,可以快速了解到最新优质文章。

介绍

文章标题中,作者称模型为“Foundational”,他们不希望借助各种奇技淫巧的Tricks,而是通过尽可能简单的结构,配合直观的的训练手段,达到涵盖NLP、CV、多模态的目的。

FLAVA基于三种不同的输入:

匹配的图片-文本单独文本单独图片

解决三个领域的问题:

NLP:语言理解(如GLUE)CV:视觉识别(如ImageNet)多模态:多模态解释(如VQA)图片编码器(Image Encoder)

FLAVA直接借用既有模型ViT的结构,同时仿照ViT的处理方法,分割图片进行编码。在ViT输出的隐状态上,FLAVA利用单一模态数据集中的图片进行Masked Image Modeling。首先,利用dVAE将图片转化为类似词向量的token;再参照BEiT,对masked隐状态进行分类,即利用周围图片分块,预测masked的图片属于dVAE划分的哪一类,这样在图片上也可以像BERT那样做mask modeling。

文本编码器(Text Encoder)

FLAVA在文本部分多处理就相对简单,作者采取常见的Masked Language Modeling,对一部分masked token进行预测,和其他方法对区别在于,FLAVA没有采用BERT之类纯文本语言模型的结构,而是和图片编码器一样,使用了ViT的结构,不过因为是不同的模态,自然采用了不同的模型参数。

多模态编码器(Multimodal Encoder)

在图片编码器和文本编码器之上,FLAVA添加了一层多模态编码器做模态融合,多模态编码器将前两者输出的隐藏状态作为输入,同样利用ViT的模型结构进行融合。

多模态预训练

在文本编码器和图片编码器中,FLAVA在单一模态上进行了预训练,在多模态预训练方面,FLAVA使用了三种多模态预训练任务:

对比学习:FLAVA利用图片编码器和文本编码器的隐藏状态,增大相匹配的图片-文本对之间的余弦相似度,减小非匹配的图片-文本对之间的余弦相似度。Masked Multimodal Modeling:与图片编码器上的MIM类似,只不过改为利用多模态编码器的隐状态进行预测。图片-文本匹配:与许多现有模型一样,FLAVA利用多模态编码器的[CLS]的隐状态,识别当前图片与文本是否匹配。效果

从上述模型细节可以看出,无论是模型结构,还是预训练任务,文本与图片之间高度对称,同时也设计也十分直观。接下来看看在35个任务上的表现。

图中下划线表示最优结果,加粗表示在公开数据集上训练的最优结果。

从各个任务平均上看,FLAVA能够取得整体上的最优结果,多模态任务平均比CLIP高出2个百分点左右,整体平均比CLIP高出10个百分点左右。从具体任务上看,在不少任务上都取得了十分显著的提高,如STS-B数据集提高了69.69,MNLI数据集提高了46.81。

小结

不同于现有模型,FLAVA最大的特点,也可以说是创新点,在于作者实现了将单一模型运用于三个不同领域的不同任务,而且都有着不错的效果,虽然FLAVA并没有奇迹般在所有任务上都达到SOTA,但是整体性能上并不弱于现有模型,同时有着更广阔的运用场景,模型设计也没有各种奇技淫巧,这对未来研究通用模型有着很大的启发。

推荐文章

GitHub 7.5k star量,各种视觉Transformer的PyTorch实现合集整理好了

赶快收藏,PyTorch 常用代码段合集真香!

即插即用 | 超越CBAM,全新注意力机制,GAM不计成本提高精度(附Pytorch实现)

豪取4个SOTA,谷歌魔改Transformer登NeurIPS 2021!一层8个token比1024个还好用

何恺明一作论文 MAE 已有人复现!Pytorch版

精度超越Transformer,MIT、港大提出基于物理模型的Neuro-Symbolic视觉推理框架

清华南开发布attention 7年全回顾:注意力机制还有7大问题要研究!

聊聊恺明大神MAE的成功之处

何凯明团队又出新论文!北大、上交校友教你用ViT做迁移学习

GAN“家族”又添新成员——EditGAN,不但能自己修图,还修得比你我都好

大道至简,何恺明新论文火了:Masked Autoencoders让计算机视觉通向大模型

kaggle、TDS、arXiv......,我最喜欢的10个顶级数据科学资源

NLP 领域最权威的 CS224N 2021冬季课程全部上线,Manning主讲!

当Transformer又遇见U-Net!Transformer-Unet:医学图像分割新工作

有了这个机器学习画图神器,论文、博客都可以事半功倍了!

谷歌打怪升级之路:从EfficientNet到EfficientNetV2

不用1750亿!OpenAI CEO放话:GPT-4参数量不增反减

本文发布于:2022-09-12 02:22:59,感谢您对本站的认可!

本文链接:https://www.bsyshop.com/ask/xinxi/82/369125.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   多模   平均   Facebook   CLIP
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 站长QQ:55-9-10-26