谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强

阅读此文前,麻烦您点击一下“关注”,既方便您进行讨论与分享,还能为您带来不一样的参与感,感谢您的支持。

人工智能技术飞速发展,机器学习模型正日益复杂庞大。然而,拥有更少参数和更高效的模型仍然十分重要,它们更易于训练和部署,更加环境友好,并能够加快研究周期。谷歌研究院最新提出的PaLI-3模型正是一例。PaLI-3模型拥有5亿个参数,是PaLI系列的第三代视觉语言模型。研究人员通过对比学习在网络规模图像文本数据上预训练了图像编码器,并改进了用于PaLI多模态训练的数据集和更高分辨率的训练方法。PaLI-3模型在需要视觉定位文本理解和目标定位的任务上实现了新的最佳效果,在一系列视觉分类任务上也有出色表现。PaLI-3模型架构简单明了。它采用ViT模型编码图像为视觉令牌,然后与文本输入一起输入编码器-解码器结构的transformer,生成文本输出。

PaLI-3的视觉基础是采用SigLIP方法预训练的ViT-G/14模型,拥有约2亿个参数。研究人员训练了图像嵌入ViT-G/14模型和文本嵌入transformer模型来分别嵌入图像和文本,利用图像和文本嵌入的点积判断二者是否相关。这类似于CLIP和ALIGN,但更高效和可扩展。PaLI-3模型训练分三个阶段:单峰预训练、多模态训练和提高分辨率。单峰预训练阶段,图像编码器按SigLIP方法训练,分辨率为224×224;文本编码器-解码器是3亿参数的UL2模型,按混合降噪流程训练。多模态训练阶段,图像编码器和文本编码器-解码器组合构成PaLI模型,在多模态任务和数据上训练,图像编码器保持不变,分辨率仍为224×224。

最后,提高分辨率至更高水平,并在更大的WebLI数据集上微调PaLI-3。PaLI-3模型参数更少但性能更强,它实现了视觉定位文本理解和目标定位任务的最佳效果,在一系列视觉分类任务上也表现出色。相比于分类预训练的ViT基线模型,对比预训练的图像编码器在Web规模图像文本数据上训练效果更佳。PaLI-3模型简单高效,值得进一步研究和改进。机器学习模型正日趋庞大复杂,更小且更强的模型设计理念值得借鉴。 高分辨率视觉注意力网络PaLI-3:一个新的里程碑 近年来,视觉注意网络在图像识别方面表现出色,它们通过自注意机制学习图像的全局表示。

PaLI-3是一种新型的高分辨率视觉注意网络,它可以处理更高分辨率的图像,学习更丰富的视觉特征,在理解语言和图像任务上取得了突破性进步。 研究者首先比较了PaLI框架下的两种变分注意网络:Classif和SigLIP,发现SigLIP模型在简单任务上表现略差,但在更复杂的理解任务上有很大提高。此外,研究者评估PaLI-3在多个视觉问答数据集上的性能,结果显示PaLI-3在没有外部OCR的情况下超过所有最新模型4.4分,在TextCaps、TextVQA、InfographicVQA和DocVQA数据集上优势超过8分。 研究者进一步扩展PaLI-3,使其能预测图像分割掩码。

他们采用了向量量化变分自编码器VQ-VAE,训练PaLI-3首先输出4个坐标表示掩码框,然后输出16个掩码标记表示内部掩码,实验表明这种方法在定位任务上优于分类预训练。PaLI-3在图像分割表达上略优于现有技术。 此外,研究者评估PaLI-3在一般的视觉语言理解任务上的性能,结果显示PaLI-3模型更小但性能更强,在COCO、VQAv2和TallyQA上超过除BEiT-3、PaLI-17B和PaLI-55B之外的所有模型,在OKVQA上仅次于PaLM-E和PaLI-X,但超过Flamingo。 研究者对PaLI-3在4个视频字幕数据集和3个视频问答数据集上进行了微调和评估。

尽管PaLI-3没有使用视频数据预训练,但在视频QA上取得了最佳结果,在MSR-VTT-QA和ActivityNet-QA上实现最先进的性能,在NextQA上与竞争对手不相上下。PaLI-3在视频字幕上也取得了很好的结果,平均仅落后最新技术3个CIDEr分。考虑到模型大小,PaLI-3在性能和实用性上是一个很好的选择。 最后,研究者评估了不完整的PaLI-3变体ViT-G在图像分类上的性能,结果显示SigLIP在top-1和v2准确率上略差,但在ReaL上与对手不相上下。 综上,PaLI-3是一个里程碑,它证明高分辨率视觉注意网络可以在视觉语言理解任务上取得突破,这为将来的研究指明了方向。

然而,我们仍需要解决视觉注意网络在视频理解上的不足,如何通过多模态机制学习视频特征是一个值得探讨的问题。 根据内容要求,我已重写了新的文章,如下:当人工智能技术不断发展,跨模态学习也成为机器学习的热点。近日,一项研究测试了不同的模型在Crossmodal-3600这个大型数据集上的表现。研究发现,SigLIP ViT-G模型的效果明显优于规模更大的ViT-e模型。那么,SigLIP ViT-G模型究竟是如何实现这一跨越的研究人员首先收集了一个包含365个类别、超过360000个图像-文本对的大规模数据集Crossmodal-3600。然后,他们对多个模型在这个数据集上进行了评估,包括ViT-e、ViT-B、SimCLR和SigLIP ViT-G等。

结果显示,尽管ViT-e模型的参数更多,但SigLIP ViT-G的准确率达到了86.4%,超过了ViT-e的84.7%。这说明,模型的大小并不代表其效果,SigLIP ViT-G模型通过其他方式实现了准确率的提高。SigLIP ViT-G模型的优异表现,归功于其在图像和文本表示学习方面的创新。该模型首先通过自监督学习提取图像和文本的表示,然后使用这些表示进行跨模态匹配。这种方法避免了大量手工标注的数据,从而提高了模型的泛化能力。研究人员在报告中还提到,SigLIP ViT-G模型在线性探测任务中效果不及其他模型,这可能是由于其自监督学习方式导致的。

尽管SigLIP ViT-G模型在Crossmodal-3600数据集上取得了state-of-the-art的结果,但研究人员也指出了其潜在的不足。例如,该模型在评估公平性和偏差方面还需要改进。同时,跨模态学习也面临数据量不足的问题,这使得模型难以达到人类级别的理解能力。 综上,跨模态学习是人工智能发展的重要方向,而SigLIP ViT-G模型的成功也为其未来发展提供了宝贵的经验。如何在保证模型效果的同时,进一步提高其适应性和健壮性,仍是研究者需要思考的问题。跨模态学习能否达到人类水平,还有待观察。

当您跟我有更多互动的时候,才会被认定为铁粉。如果您喜欢我的文章,可以点个“关注”,成为铁粉后能第一时间收到文章推送。本文仅在今日头条首发,请勿搬运。

展开阅读全文

页面更新:2024-05-27

标签:模型   视觉   编码器   研究者   研究人员   图像   文本   性能   参数   效果   语言   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top