大模型周报丨微软发布GPT5不仅续写还配图

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

本周精选了10篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、作者、AMiner AI综述等信息,如果感兴趣可点击链接查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

1. MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens

这篇论文介绍了 MiniGPT-5 模型,它是一种创新的视觉和语言生成技术,通过生成性“发声符”(generative vokens) 来连接和谐的图像和文本输出。该方法采用独特的两阶段训练策略,专注于无需图像全面描述的描述符生成。为了增强模型的完整性,采用了无需分类器的引导,从而提高了发声符在图像生成方面的有效性。在 MMDialog 数据集上,MiniGPT-5 相对于基线 Divter 模型表现出显著的改进,并在 VIST 数据集上的人类评估中持续产生优越或可比较的多模态输出,凸显了其在各种基准测试中的有效性。

链接:https://www.aminer.cn/pub/651ccb383fda6d7f0663558e/?f=toutiao

2. Improved Baselines with Visual Instruction Tuning

这篇论文研究了如何通过视觉指令调整来改进基线模型。作者发现,LLaVA 中的全连接视觉语言跨模态连接器具有惊人的强大和数据效率。通过对 LLaVA 进行简单修改,例如使用 CLIP-ViT-L-336px 并添加学术任务导向的 VQA 数据以及简单的响应格式化提示,他们建立了一些更强的基线模型,这些模型在 11 个基准测试中实现了最先进的表现。他们的最终 13B 检查点仅使用了 1.2M 公共数据,并在单个 8-A100 节点上用大约 1 天的时间完成了完整的训练。作者希望这可以使最先进的 LMM 研究更具可访问性。代码和模型将公开发布。

链接:https://www.aminer.cn/pub/651f6e093fda6d7f06d0c783/?f=toutiao

3. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

这篇论文介绍了一种名为 AnyMAL 的高效可扩展的多模态增强语言模型。AnyMAL 是一种统一的模型,可以对多种输入模态信号(如文本、图像、视频、音频、IMU 运动传感器)进行推理,并生成文本回应。AnyMAL 继承了最先进的 LLM(包括 LLaMA-2(70B))强大的基于文本的推理能力,并通过预训练的对齐器模块将模态特定信号转换为联合文本空间。为了进一步增强多模态 LLM 的能力,我们使用手动收集的多模态指令集进行微调,以涵盖简单问答以外的多样主题和任务。我们进行了全面的实证分析,包括人类和自动评估,并在各种多模态任务中展示了最先进的性能。

链接:https://www.aminer.cn/pub/6516338d3fda6d7f065e4f39/?f=toutiao

4. Efficient Streaming Language Models with Attention Sinks

这篇论文研究了在流式应用中部署大型语言模型(LLM)的问题,例如多轮对话等需要长时间交互的场景。在解码阶段,缓存以前令牌的关键和值状态(KV)会消耗大量内存。此外,流行的 LLM 无法推广到训练序列长度以外的更长的文本。基于窗口注意力的方法是一种自然的解决方案,但是当文本长度超过缓存大小时,这种方法会失效。本文观察到了一种有趣的現象,即注意力的“沉淀”,即保持初始令牌的 KV 可以大大恢复窗口注意力的性能。文章首先证明了注意力的沉淀现象是由于初始令牌的强烈注意力分数,即使它们在语义上不重要,也会形成一个“沉淀”的“sink”。基于以上分析,本文提出了一种名为 StreamingLLM 的高效框架,使有限长度注意力窗口训练的 LLM 能够在不进行微调的情况下推广到无限序列长度。此外,文章还发现,在预训练期间添加一个占位符令牌作为专用注意力沉淀,可以进一步提高流式部署的性能。在流式设置中,StreamingLLM 比滑动窗口重新计算基线快 22.2 倍。代码和数据集可以在 https://github.com/mit-han-lab/streaming-llm 上找到。

链接:https://www.aminer.cn/pub/651a282d3fda6d7f0600a341/?f=toutiao

5. PIXART-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

这篇论文介绍了 PIXART-α,一种基于 Transformer 的文本到图像(T2I)扩散模型,其图像生成质量可与最先进的图像生成器(如 Imagen、SDXL 和 Midjourney)相媲美,接近商业应用标准。此外,它支持高达 1024px 的高分辨率图像合成,且训练成本较低。为了实现这一目标,提出了三种核心设计:(1)训练策略分解:设计了三个分别优化像素依赖性、文本图像对齐和图像美学质量的训练步骤;(2)高效的 T2I Transformer:将交叉注意力模块融入扩散 Transformer(DiT)中,注入文本条件并简化计算密集型的类条件分支;(3)高信息数据:强调文本图像对中概念密度的意义,并利用大型视觉语言模型自动为密集伪字幕进行自动标注,以协助文本图像对齐学习。结果表明,PIXART-α的训练速度大大超过了现有的大规模 T2I 模型,例如,PIXART-α仅用了 Stable Diffusion v1.5 训练时间的 10.8%(675 vs. 6,250 A100 GPU 天),节省了近 30 万美元(26,000 vs. 320,000),并减少了 90%的 CO2 排放。此外,与更大的 SOTA 模型 RAPHAEL 相比,我们的训练成本仅为 1%。大量实验证明,PIXART-α在图像质量、艺术性和语义控制方面表现优异。我们希望 PIXART-α能为 AIGC 社区和初创公司加速从零开始构建高质量、低成本生成模型提供新的启示。

链接:https://www.aminer.cn/pub/651b79af3fda6d7f0628eaed/?f=toutiao

6. How FaR Are Large Language Models From Agents with Theory-of-Mind?

这篇论文讨论了大型语言模型 (LLM) 在理解他人心理状态 ( Theory-of-Mind ,ToM) 方面的问题,并提出了一种新的评估范式——Thinking for Doing (T4D)。在 T4D 中,模型需要将关于他人心理状态的推断与社交场景中的行动联系起来。论文实验表明,LLM 在追踪故事中角色信念方面的表现优秀,但在将这种能力转化为战略行动方面存在困难。作者认为,LLM 的核心挑战在于在没有像 ToMi 中那样被明确询问的情况下,识别出关于心理状态的隐含推断,并选择正确的行动。为了解决这个问题,作者引入了一种零散提示框架——Foresee and Reflect (FaR),它提供了一种推理结构,鼓励 LLM 预见到未来的挑战并进行潜在行动的思考。实验结果表明,FaR 将 GPT-4 在 T4D 上的性能从 50% 提升到了 71%,优于其他提示方法(如 Chain-of-Thought 和 Self-Ask)。此外,FaR 还具有泛化能力,可以应用于多种分布外的故事结构和场景,这些场景也需要 ToM 推断来选择行动,且表现优于其他方法,包括少量样本的上下文学习。

链接:https://www.aminer.cn/pub/651f6dfe3fda6d7f06d0bf4c/?f=toutiao

7. Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion

这篇论文介绍了一种名为 Kandinsky 的新型文本到图像生成模型,该模型结合了图像先验模型和潜在扩散技术的原理。与现有的基于扩散的模型(分为像素级和潜在级方法)不同,Kandinsky 采用了一种新的潜在扩散架构。该模型包括一个单独训练的图像先验模型,用于将文本嵌入映射到 CLIP 的图像嵌入。另一个独特的特点是修改后的 MoVQ 实现,作为图像自动编码器组件。整个模型包含 33 亿个参数。此外,作者还部署了一个用户友好的演示系统,支持多种生成模式,如文本到图像生成、图像融合、文本和图像融合、图像变异生成以及文本引导的修复/扩展。实验评估显示,Kandinsky 模型在 COCO-30K 数据集上的 FID 得分为 8.03,成为在图像生成质量方面最优秀的开源模型。

链接:https://www.aminer.cn/pub/651f6e093fda6d7f06d0c68f/?f=toutiao

8. Representation Engineering: A Top-Down Approach to AI Transparency

这篇论文介绍了一种名为"表示工程"(RepE)的新方法,该方法借鉴了认知神经科学的研究成果,以提高 AI 系统的透明度。RepE 将分析重点放在了群体水平的表示上,而不是神经元或电路,为我们提供了监测和操作深度神经网络(DNNs)高级认知现象的新方法。文章提供了 RepE 技术的基线和初步分析,表明它们是改善我们对大型语言模型的理解和控制的有效简单方法。文章还展示了这些方法如何有助于解决一系列与安全相关的問題,包括诚实、无害、寻求权力等,证明了自上而下的透明度研究的潜力。作者希望这项工作能够催化进一步探索 RepE,并推动 AI 系统透明度和安全性方面的进步。

链接:https://www.aminer.cn/pub/651b7e3a3fda6d7f06312738/?f=toutiao

9. Language Models Represent Space and Time

这篇论文探讨了大型语言模型(LLMs)是否仅仅学习了大量表面的统计数据,还是学习了一个数据生成过程的有意义的模型,即世界模型。作者通过分析 Llama-2 家族模型学习到的三个空间数据集(世界、美国、纽约市地点)和三个时间数据集(历史人物、艺术品、新闻标题)的表示,发现 LLMs 在多个尺度上学习到了空间和时间的线性表示,这些表示对提示的变化具有较强的鲁棒性,并且在不同的实体类型(如城市和地标)之间是统一的。此外,作者还确定了可靠的编码空间和时间坐标的“空间神经元”和“时间神经元”。分析表明,现代 LLMs 获取了关于基本维度(如空间和时间)的结构化知识,支持了它们不仅仅是学习表面统计数据,而是学习字面意义上的世界模型的观点。

链接:https://www.aminer.cn/pub/651ccb383fda6d7f0663556d/?f=toutiao

10. The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

这篇论文探讨了大型多模态模型(LMMs)的最新模型 GPT-4V(ision),以增强对 LMMs 的理解。GPT-4V 是一个具有多感官技能的大型语言模型,能够进行各种有趣任务,包括处理任意交织的多模态输入,以及理解输入图像上的视觉标记。这使得 GPT-4V 成为了一个强大的多模态通用系统。此外,GPT-4V 的独特能力还可以为视觉指针提示等新型人机交互方法提供支持。论文还讨论了 GPT-4V 系统在未来的应用场景和研究方向,包括多模态任务的新方法、利用和增强 LMMs 解决实际问题的途径,以及更好地理解多模态基础模型。

链接:https://www.aminer.cn/pub/651a282d3fda6d7f0600a320/?f=toutiao


如何使用AMiner AI?

使用AMiner AI的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入AMiner AI页面。

点此查看:AMiner AI 使用教程

AMiner AI使用入口:「链接」

展开阅读全文

页面更新:2024-02-24

标签:模型   基线   周报   注意力   图像   文本   语言   链接   方法   数据   论文

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top