数量即力量！腾讯揭秘：Agent数量越多，大语言模型效果越好

时间： 2024-02-29 03:18 浏览量：503

来自腾讯的研究者们做了一个关于 agent 的scaling property（可拓展性）的工作。发现：通过简单的采样投票，大语言模型（LLM）的性能，会随着实例化agent数量的增加而增强。其第一次在广泛的场景下验证了该现象的普遍性，与其他复杂方法的正交性，以及研究了其背后的原因，并提出进一步促成scaling发挥威力的办法。

论文标题：More Agents Is All You Need
论文地址：https://arxiv.org/abs/2402.05120
代码地址：https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need

本文中，来自腾讯的研究者发现：只需通过一种简单的采样投票法，大语言模型的性能就会随着实例化 agent 的数量的增大而增强，呈现scaling property（可拓展性），无需复杂的多 LLM agents 协作框架以及prompt工程方法的加持。此外，该方法与现有的复杂方法正交，结合之后，可进一步增强 LLM，其增强程度与任务难度相关。该论文做了第一个关于 raw agent（指不依赖复杂的prompt工程和协作框架的LLM agent）的 scaling property 的研究，其对各种 LLM 基准进行了全面的实验，以验证此发现的普遍性，并研究了可以促进其发生的策略。目前代码已开源。

论文讨论了诸多集成 LLM 的相关工作，包括 LLM 自集成、异构 LLM 集成、还有关于多个 LLM Agents 协作框架的工作，并与提出的方法进行了对比，可以看出论文进行了更全面的研究和分析：

为了研究大型语言模型的性能如何随着实例化 agents 数量的增加而提升。论文使用了一种简单的采样和投票方法（作者用了 simple (st) 的说法，可见他们认为这个方法也许是最简单的方法之一）。值得注意的是，此方法可与现有的复杂方法正交结合。它可以被分为两个阶段：

将任务 query 输入到单个 LLM 或多个 LLM Agents 协作框架中，生成多个输出；
通过多数投票确定最终结果

论文从 Llama2 和 GPT 系列选择不同规模的语言模型进行评估，任务数据集涵盖推理和生成等多个领域。实验结果表明，在所有任务和不同种类、规模的 LLM 上，发现 LLM 的性能随着实例化 agent 的数量而增加。

例如，在 GSM8K 任务上提升了 12% 至 24%，在 MATH 上提升了 6% 至 10%。有趣的是，多个小 LLM 集成可以达到甚至超越较大 LLM 的性能。例如，多个 Llama2-13B 的集成在 GSM8K 上达到了 59% 准确率，超过了单一 Llama2-70B 的 54% 的准确率。

进一步地，作者还探索了与其他方法的兼容性。尽管这些方法实现各不相同，但是在与之结合使用时，性能可以进一步提升，并同样符合实例化 agent 越多，性能增益越强的现象。实验结果显示增益范围从 1% 到 27% 不等，说明这个简单的方法通过和其他方法正交使用可以进一步增强 LLM 的性能。

基于 LLama13B

此外，论文还分析了性能提升与问题难度之间的关系。

固有难度：随着任务固有难度的增加，性能提升（即相对性能增益）也会增加，但当难度达到一定程度后，增益会逐渐减少。这表明在任务过于复杂时，模型的推理能力可能无法跟上，导致性能提升的边际效应递减。
步骤数量：随着解决任务所需的步骤数量增加，性能提升也会增加。这表明在多步骤任务中，通过增加 agent 数量可以帮助模型更好地处理每一步，从而整体提高任务的解决性能。
先验概率：正确答案的先验概率越高，性能提升越大。这意味着在正确答案更有可能的情况下，增加 agent 数量更有可能带来显著的性能提升。

节点：步骤，虚线：可能的替代步骤。节点的深度：步骤的数量，颜色的强度：固有难度的水平。图示帮助读者理解任务的复杂性是如何通过这些维度来衡量的。

基于此，论文提出了两种优化策略来进一步提升方法的有效性：

逐步采样和投票（Step-wise Sampling-and-Voting）：这种方法将任务分解为多个步骤，并在每个步骤中应用采样和投票，以减少累积错误并提高整体性能。
分层采样和投票（Hierarchical Sampling-and-Voting）：这种方法将低概率任务分解为多个高概率子任务，并分层解决，同时可以使用不同模型来处理不同概率的子任务以降低成本。

最后，提出了未来的工作方向，包括优化采样阶段以降低成本，并继续开发相关机制来减轻 LLM 幻觉（hallucinations）的带来的潜在负面影响，确保这些强大模型的部署既负责任又有益。

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

相关新闻

本文来源于网络，不代表青海资讯网立场，转载请注明出处

上一篇 168万元中国超跑！仰望U9购车指南：定金30万比亚迪车主补贴8000元

下一篇 布局川南市场，新希望华西亮相自贡灯会

转发到:

拓展阅读

“一家三代税务人”，舆论敏感的是什么 | 新京报快评

▲该女子自称爷爷、父亲和自己都在税务系统工作。图/社交平台截图4月30日凌晨，有网民上传的一则视频引发关注。据大皖新闻报道，视频中一女子自称是某地税务系统的一名基层工作者，爷爷和父亲都是税务家庭的一份子。因受到浓厚的税务氛围熏陶，其有意将税[全文]

2024-05-02 03:17
vivo X Fold 3 Pro获BIS认证：即将登陆印度市场售价高于国内

【TechWeb】3月26日，全新的vivo X Fold3系列折叠屏手机正式发布，其中Pro版是vivo首次采用“Pro”命名的折叠屏机型，首发搭载了第三代高通骁龙8旗舰芯片，是全球首款搭载骁龙8 Gen3芯片的折叠屏手机，虽其起售价达到[全文]

2024-05-01 03:31
我国首个“交改直”输电工程竣工投运

感谢IT之家网友青青子吟的线索投递！IT之家 4 月 29 日消息，4 月 28 日，国内首个“交改直”输电工程 —— 扬州-镇江 ±200 千伏直流输电工程正式竣工投运。该工程于 2022 年 12 月 15 日开工，由中国能建江苏院[全文]

2024-04-30 03:25
安徽首个！安徽移动携手中兴通讯完成5G-A江域检测通感一体基站商用验证

通信世界网消息（CWW）近日，安徽移动联合中兴通讯在铜陵港率先部署5G-A通感一体化基站，在铜陵移动的大力协助下成功实现省内首个江域场景船舶速率检测、轨迹识别、电子围栏告警等功能的验证。这一重要突破，标志着5G-A通感技术在江域领域取得显著[全文]

2024-04-29 03:20
恒华科技总经理罗新伟持股市值约2.9亿公司实控人方文去年收警示函

运营商财经网实习生姜依冉/文近日，恒华科技新注册了一个软件著作权，引发关注。运营商财经网由此注意到恒华科技背后的高管团队，并试图揭秘总经理罗新伟的过往经历。罗新伟生于1970年10月，根据计算今年54岁，学历为本科，毕业于华北水利水电学院[全文]

2024-04-29 03:18
以军事科技人才驱动战斗力跃升

【科技强军论坛】◎高安人才强则科技强，人才兴则事业兴。以军事科技为支撑的先进装备，越来越成为现代战争中的决定性因素。这种创新本质是军事科技人才的智力转化。只有紧紧抓牢人才这一源头，才能促使军事科技创新奔流不息。军事人才是军[全文]

2024-04-27 03:24

信息排行