9.18最新AI论文推荐

LLMs对长格式问答的回答能力的研究

随着我们进入LLMs的新时代，了解他们的能力、局限性和差异变得越来越重要。为了在这个方向上取得进一步进展，我们努力更深入地了解大型LLMs（例如 ChatGPT）与规模较小但有效的开源LLMs及其精简模型之间的差距。为此，我们特别关注长篇问答（LFQA），因为它有几个实用且有影响力的应用（例如，故障排除、客户服务等），但对于LLMs来说仍然没有得到充分研究及具有挑战性。

我们提出了一种从摘要总结生成问题的方法，并表明从长文档摘要的后续问题生成可以为LLMs从长上下文中进行推理和推断创造一个具有挑战性的环境。我们的实验结果证实：（1）我们提出的从摘要总结生成问题的方法对LLMs提出了具有挑战性的设置，并显示了 ChatGPT 等LLMs与开源LLMs（Alpaca、Llama）之间的性能差距（2）开源LLMs表现出了从原始文档生成的问题对上下文的依赖程度降低，但它们从摘要生成问题的生成能力显著下降，特别是对于较长的上下文（>1024个tokens）

全文链接：「链接」

一个用于推理 Embodied Agents的数据源

将机器学习模型用于推理任务的最新进展，是由新颖的模型架构、大规模预训练协议和用于微调的专用推理数据集推动的。本文提出一种新的用于机器推理的数据生成器，与embodied agent集成，以进一步推动这些进展。生成的数据由模板化文本查询和答案组成，与编码到数据库中的世界状态相匹配。世界状态是世界动力学和智能体行动的结果。我们展示了几个关于训练集实例化的基线模型的结果。其中包括在数据库的文本格式表示上进行微调的预训练语言模型，以及在数据库的知识图表示上运行的图结构 Transformer。我们发现这些模型可以回答一些有关世界状态的问题，但也与其他问题相矛盾。这些结果暗示了设计神经推理模型和数据库表示的新研究方向。

全文链接：「链接」

利用上下文信息进行有效的实体突出性检测

在新闻文章等文本文档中，内容和关键事件通常围绕文档中提到的所有实体的子集。这些实体通常被视为突出的实体，为读者提供有关文档内容的有用线索。人们发现，识别实体的突出性对于搜索、排名和以实体为中心的摘要等多个下游应用程序很有帮助。先前有关突出实体检测的工作主要集中在需要大量特征工程的机器学习模型上。我们证明，使用跨编码器风格架构微调中型语言模型比特征工程方法能带来显著的性能提升。为此，我们使用代表中型预训练语言模型系列的模型对四个公开可用的数据集进行了全面的基准测试。此外，我们还表明，指令调整语言模型的零样本提示会产生较差的结果，表明任务的独特性和复杂性。

全文链接：[2309.07990] Leveraging Contextual Information for Effective Entity Salience Detection

LASER:基于状态空间探索的web导航LLM智能体

大型语言模型（LLM）已成功适用于Web导航等交互式决策任务。在实现不错的性能的同时，以前的方法隐式地假设了模型只进执行前向模式，其中仅提供预言机轨迹作为上下文示例，以教模型如何在交互式环境中进行推理。因此，该模型无法处理上下文示例中未涵盖的更具挑战性的场景，例如错误，导致性能欠佳。为了解决这个问题，本文建议将交互式任务建模为状态空间探索，其中LLM智能体通过执行操作来完成任务，在一组预定义的状态之间转换。该公式可实现灵活的回溯，使模型能够轻松地从错误中恢复。我们在WebShop任务上评估我们提议的LLM智能体与状态空间爆炸（LASER）。实验结果表明，我们的LASER智能体明显优于以前的方法，并缩小了与人类在网络导航任务上的差距。

全文链接：「链接」

将大型语言模型与进化算法连接起来产生强大的提示优化器

大型语言模型（LLM）擅长各种任务，但它们依赖于精心设计的提示，这些提示通常需要大量的人力。

为了自动化这一过程，在本文中，我们提出了一种用于离散提示优化的新框架，称为EvoPrompt，它借鉴了进化算法（EAs）的思想，因为它们表现出良好的性能和快速收敛。为了使 EAs 能够在离散提示（需要连贯且人类可读的自然语言表达式）上工作，我们将 LLM 与 EAs 连接起来。这种方法使我们能够同时利用LLM强大的语言处理能力和EAs的高效优化性能。具体来说，放弃任何梯度或参数，EvoPrompt从提示群体开始，并根据进化运算子使用LLM迭代生成新提示，从而根据开发集改善总体。

优化了包括GPT-3.5和Alpaca在内的闭源和开源LLM提示，这些LLM在跨越语言理解和生成任务的9个数据集上。EvoPrompt的性能明显优于人工设计的提示和现有的自动提示生成方法，分别提高了25%和14%。此外，EvoPrompt表明，将LLM与EAs连接会产生协同效应，这可以激发对LLM与传统算法组合的进一步研究。

全文链接：「链接」

稀疏自动编码器在语言模型中查找高度可解释的特征

可解释神经网络的障碍之一是多义性，其中神经元似乎在多个语义不同的上下文中激活。多义性使我们无法对神经网络内部的行为做出简明、人类可以理解的解释。

多语义性的一个假设原因是叠加，其中神经网络通过将特征分配给激活空间中的一组过完备的基矢来表示比神经元更多的特征，而不是单个神经元。在这里，我们尝试识别这些基矢，使用稀疏自动编码器来重建语言模型的内部激活函数。这些自动编码器学习稀疏激活特征集，这些特征比替代方法识别的方向更可解释和单语义，其中可解释性通过自动方法衡量的。消融这些功能可以实现精确的模型编辑，例如，通过删除代词预测等功能，同时比以前的技术更少对模型行为的干扰更少。这项工作表明，使用可扩展的无监督方法可以解决语言模型中的叠加问题。该方法可以作为未来机制可解释性工作的基础，我们希望这将能够实现更大的模型透明度和可操纵性。

全文链接：[2309.08600] Sparse Autoencoders Find Highly Interpretable Features in Language Modelsopen searchopen navigation menucontact arXivsubscribe to arXiv mailings

在Vision Transformer中使用Relu代替SoftMax

先前的研究观察到，当用逐点激活（如ReLU）替换注意力SoftMax时，准确性会下降。在Vision Transformer的背景下，我们发现当除以序列长度时，这种退化得到了缓解。我们在 ImageNet-21k 上训练小型到大型Vision Transformer的实验表明，ReLU-attention 作为计算的函数在缩放行为方面可以接近或匹配 SoftMax-attention 的性能。

稀疏连接基础模型的缩放定律

本文探讨了了在视觉和语言领域，参数稀疏性对在大规模数据集（即“基础模型”）上训练的Transformer的缩放行为的影响。在这种情况下，我们确定了描述权重稀疏性、非零参数数量和训练数据量之间关系的第一个缩放定律，我们在模型和数据规模上根据经验在 Vit/JFT-4B 和 T5/C4 上验证了这些规律。这些结果使我们能够表征“最佳稀疏性”，即在给定的有效模型大小和训练预算下产生最佳性能的稀疏性水平。对于固定数量的非零参数，我们确定最佳稀疏性随着用于训练的数据量而增加。我们还将研究扩展到不同的稀疏性结构（例如硬件友好的n:m模式）和策略（例如从预训练的密集模型开始）。我们的发现揭示了权重稀疏性在各种参数和计算设置中的功能和局限性，为利用稀疏性提高计算效率提供了理论理解和实践意义。

全文链接：[2309.08520] Scaling Laws for Sparsely-Connected Foundation Modelsopen searchopen navigation menu

检索增强的文本到音频生成

尽管最近在文本到音频（TTA）生成方面取得了进展，但我们发现，在具有不平衡类分布的数据集（如AudioCaps）上训练的最先进的模型（如AudioLDM）在其生成性能上存在偏差。

具体来说，它们擅长生成常见的音频类，而在罕见的音频类中表现不佳，从而降低了整体生成性能。我们将此问题称为长尾文本到音频生成。为了解决这个问题，我们为TTA模型提出了一种简单的检索增强方法。具体来说，给定输入文本提示，我们首先利用对比语言音频预训练（CLAP）模型来检索相关的文本-音频对。然后将检索到的音频文本数据的特征用作指导TTA模型学习的附加条件。我们用我们提出的方法增强了AudioLDM，并将由此产生的增强系统表示为Re-AudioLDM。在AudioCaps数据集上，Re-AudioLDM实现了1.37的最先进的Frechet音频距离（FAD），大大优于现有方法。此外，我们展示了Re-AudioLDM可以为复杂场景，罕见的音频类甚至看不见的音频类型生成逼真的音频，这表明它在TTA任务中的潜力。

全文链接：「链接」

展开阅读全文

页面更新：2024-02-28

标签：稀疏模型文本音频性能提示语言链接方法数据论文最新

1 2 3 4 5

9.18最新AI论文推荐

LLMs对长格式问答的回答能力的研究

一个用于推理 Embodied Agents的数据源

利用上下文信息进行有效的实体突出性检测

LASER:基于状态空间探索的web导航LLM智能体

将大型语言模型与进化算法连接起来产生强大的提示优化器

稀疏自动编码器在语言模型中查找高度可解释的特征

在Vision Transformer中使用Relu代替SoftMax

稀疏连接基础模型的缩放定律

检索增强的文本到音频生成

技术迭代升级 “算”出发展活力-2023世界计算大会一线观察

科普中国直播预告｜提升全民科学素质，助力科技自立自强—2023年全国科普日山东省主场活动

机器人全产业链加快创新发展

你知道吗全球每三台笔记本电脑就有一台重庆造

管道“智”造闯新路！张家港“小巨人”开创“大未来”

用惨痛教训换来的156条MySQL设计规约

头条晚报丨中方未受邀参加日本核污水分析；苹果会蠢到辱华吗？

中央企业中国商飞大飞机C919第2总装厂，为啥更适合落户湖南省？

单根重量相当于200节高铁车厢！龙潭长江大桥主缆架设完成

微信突发更新，两处改动够给力

在探索过短视频和密友社交后，多闪变身抖音版微信

下周！！太原要办三天航展！！表演节目单来啦！

珠海横琴长隆“宇宙飞船”创七项吉尼斯世界纪录

台湾女间谍许佳滢，靠美色感情诱惑大陆高材生，骗取我国相关情报

父亲潜逃台湾，与老婆分居20年不行房，涉缅北诈骗的曾志伟真的坏事做尽？

男篮世界杯最新积分榜：美德四连胜小组第一，塞尔维亚首败

最新研究：1990-2019年间全球50岁以下人群新发癌症增79%

每天300人免门票！南昌一景区最新公告

开放时间调整！唐山南湖·开滦旅游景区最新通告

德媒公布重要数据，揭开西方不敢承认真相：中国已强大到超

利用GO石墨氧化物，能够提高水泥砂浆的哪些性能？

周琦世界杯数据报告：背打空切得分效率出色盖帽率同位

违者将终身禁入！四川一景区最新公告

运维+性能分论坛全览！ KubeCon+CloudNativeCon+OpenSou

谁是最懂工业的大模型？青岛召开的这场产业大会传出强信