0
0

DeepWisdom(MetaGPT)CEO吴承霖:告别传统编程,多智能体如何全新定义代码生成

非凡产研
2024-11-15
11
shoptop 【建站扶持计划】

免订阅费,免费SEO与代建站,16大主流媒体免费开户

   立即查看>>

大数跨境
导读:DeepWisdom创始人兼CEO吴承霖带来了《多智能体引领代码生成的革新探索》的主题分享,为听众描绘了一个由多智能体技术驱动的软件开发新时代的蓝图。

2024年10月17日,非凡资本联合诸多合作伙伴在北京举行了“AIGC应用发展高峰论坛暨AIGC100年度评选”,此次盛会吸引了超过50位AI领域的演讲嘉宾和近千名AI相关从业者参与。

通过主题演讲、圆桌论坛、实践工作坊、互动展览、播客马拉松和晚宴派对等丰富多彩的活动形式,非凡资本为参与者打造了一个全面而深入的AI行业交流盛会。

峰会现场,DeepWisdom创始人兼CEO吴承霖带来了《多智能体引领代码生成的革新探索》的主题分享,为听众描绘了一个由多智能体技术驱动的软件开发新时代的蓝图。

推荐阅读:MetaGPT:Agent as a Service时代,赋能个体独特智能,引领自然语言编程革新

以下是他的演讲精华:

大模型和智能体让自然语言编程得到普及

无论是新一代的大模型,还是传统的NLP等AI技术产品,本质都是一种软件形式。从这个视角,我们会发现,软件开发市场正面临着许多困难。以下是全球软件开发的四大痛点:

1、编程难

编程语言的多样性和学习成本确实是初级开发者面临的主要挑战之一。开发者需要掌握多种编程语言,如Java、Python、C++等,每种语言都有其学习曲线和应用场景。同时,他们还要深入理解数据结构、算法等计算机科学的核心概念,以及在处理大数据时所需的分布式系统和数据库优化技术。

2、周期长

软件开发流程包括需求分析、设计、编码和测试,每个阶段都至关重要且耗时。需求分析阶段需与客户深入沟通,确保准确把握需求。设计阶段则制定详细的技术文档。编码阶段根据设计文档进行编程,是核心构建部分。最后,测试阶段确保软件质量和稳定性。整个过程需要大量时间和精力投入。

3、雇佣贵

全球程序员人数已经超过 2700 万人,根据最新数据表明,2024年全球人数预计达到2800 万人,总雇佣成本超过2.79 万亿美金(全球平均雇佣成本支出超过 $9.9万/人年)

4、门槛高

IT服务外包行业门槛较高,全球市场价值高达525亿美元,外包服务部分贡献尤为突出,达到665亿美元。而GitHub Copilot通过智能代码生成和自动化常规编程任务,显著降低了编程相关成本,最高可降低90%。

但是,随着大模型和智能体的普及,自然语言方案让曾经高门槛的编程开发也逐渐变得“平民化”。自然语言编程方案开始受到市场关注,多个相关产品获得显著融资和高估值。例如,由GitHub 前首席技术官创立的Poolside上个月获得由eBay (via eBay Ventures) 、Nvidia等知名企业投资的5亿美元种子轮融资,估值高达30亿美元。

DeepWisdom(MetaGPT)CEO吴承霖:告别传统编程,多智能体如何全新定义代码生成

此外,GitHub Copilot的用户也增长非常迅速,2023年10月付费订阅用户数达到100万,预计2024年收入将达到20亿美元,其中Copilot贡献超过40%的收入增长,显示了自然语言编程方案在提高开发效率和降低成本方面的潜力。

基于多智能体技术提升大模型效果

在深入研究多智能体技术如何提升大型语言模型(LLM)的效果之前,首先需要明确智能体的定义。传统观念中,智能体被定义为能够观察并影响周围环境的实体。然而,这一定义在现代技术发展的背景下显得不够全面,因为智能体的能力已经超越了基本的观察和作用能力,它们被期望在各个方面超越人类,例如自动驾驶汽车就不应重复人类的错误。

我们可以将其与人类大脑进行类比,大型模型类似于人类的认知能力,LLM提供了对世界的基本理解,包括语言、图像和声音的识别。但认知并不仅限于表征,LLM也无法通过训练获得数学推理能力。因此,智能体需要补充LLM未能覆盖的多个方面,尤其是完整的思考、决策、计划和记忆功能,并在特定环境中进行训练。

智能体可以被定义为LLM加上观察、思考、行动和记忆的能力。而多智能体系统则进一步包括智能体、环境、标准操作程序(SOP)、评审、路由、订阅和经济机制等多个要素。这种系统的设计旨在模拟和增强智能体在复杂环境中的交互和决策能力。

DeepWisdom(MetaGPT)CEO吴承霖:告别传统编程,多智能体如何全新定义代码生成

MetaGPT 是 DeepWisdom在 2023 年 6 月开源的全球首个由多智能体支持的自然语言编程框架,一经开源就受到大量关注,火爆全网。截止今年9月份,MetaGPT 在 GitHub 已经收获了 40K star,也多次获得 GitHub Trending 的第一名。此外,MetaGPT的Data Interpreter功能因其交互式代码生成能力而受到全网关注,甚至获得了机器学习领域著名专家Andrew Ng(吴恩达)的关注。

DeepWisdom(MetaGPT)CEO吴承霖:告别传统编程,多智能体如何全新定义代码生成

作为首家多智能体软件公司,MetaGPT通过自动化生成文档,能帮助开发者快速掌握并深化领域知识,优化需求分析、设计和代码编写等软件开发流程。在实际应用中,MetaGPT通过Python游戏生成、CRUD代码生成及简单数据分析任务的综合实验,表现出色,平均得分达到3.9,明显优于其他自动化工具。

MetaGPT之所以能吸引关注,源于其结合大语言模型与人类社会最佳实践,推动软件开发的自动化。现有的大语言模型在处理复杂任务时,如软件生成开发和项目级别的代码生成,常面临“幻觉”问题,即无法准确将自然语言转换为高质量的代码,并解决动态变化的问题。

而MetaGPT通过引入标准化操作程序(SOPs)和元编程,将软件开发流程中的角色智能体(如产品经理、架构师、项目经理、开发和测试工程师)结合到模型中,实现结构化协作。产品经理将模糊的需求转化为详细的结构化信息,架构师根据这些信息生成任务列表、API设计和技术架构,

最后,工程师利用这些设计文档生成有效代码,从而提升代码生成的准确性和效率。通过这种方式,MetaGPT推动了大语言模型在复杂任务中的应用,解决了自然语言到代码的对齐问题。

 MetaGPT代表性案例

MetaGPT 是一个支持多智能体协作的框架,可应用于各种仿真场景。我们基于该框架创建了一个虚拟小镇,探索不同角色互动的技术潜力。此外,学术界也在研究大型语言模型如何驱动智能体在游戏中的决策与互动表现。为此,我们构建了一个狼人杀智能体团队,通过 6 到 8 个智能体的互动,验证了 MetaGPT 在策略决策中的应用能力。

DeepWisdom(MetaGPT)CEO吴承霖:告别传统编程,多智能体如何全新定义代码生成

智能体这一概念最早出现在强化学习中,并在游戏仿真中得到了进一步发展。例如,在 Minecraft 游戏中的“挖钻石”任务,智能体不仅需要自动升级工具,还要根据环境变化调整策略。这类研究展示了智能体在复杂任务中的潜力,并为多智能体协作提供了宝贵的经验。

案例1:安卓系统Agent

DeepWisdom(MetaGPT)CEO吴承霖:告别传统编程,多智能体如何全新定义代码生成
让智能体理解一个环境,尤其是像安卓手机这样复杂的系统,并非易事。安卓手机上有许多不同的图标,每个图标代表不同的功能,并且有各自的交互逻辑,例如点击、滑动、长按或双击等。智能体需要独立学习这些操作方式及其背后的含义,而智能体本身并不具备这些经验。因此,如何让智能体有效地学习并理解这些交互方式,成为了一个关键问题。为了解决这一问题,我们开发了一整套在安卓系统上运行的学习框架,使智能体能够在类似的环境中学习并应用经验。

案例2:学术研究- MetaGPT X

MetaGPT X是一个基于大语言模型(LLMs)的多智能体系统,旨在通过分解软件开发任务并利用专业化智能体协作来提高软件问题解决的效率和准确性。该系统通过提供高级代码理解和调试工具,实现了46.67%的问题解决率,显著优于其他框架。
DeepWisdom(MetaGPT)CEO吴承霖:告别传统编程,多智能体如何全新定义代码生成
对于大型语言模型(LLM)的从业者而言,将LLM应用于实际工作流程并发挥其作用通常需要手动构建和反复调试Agentic Workflow,这是一个既繁琐又成本高昂的过程,涉及不断修改代码、调试提示词、执行测试和观察效果。有时,更换LLM甚至会导致工作流程失效,因此许多公司专门聘请Prompt Engineer来处理这些任务。
现在,MetaGPT开源了AFLOW,这是一个自动优化Agentic Workflow的工具,它利用蒙特卡洛树搜索(MCTS)技术,能够全自动地构建和优化工作流程,从而避免了手动编写代码和调试提示词的需要。
AFLOW通过将工作流定义为代码可表示的节点和边,有效地捕捉了LLMs调用之间的复杂交互,并引入操作符的概念来简化搜索空间,提高搜索效率。其目标是在给定任务和评估函数的情况下,发现一个能够最大化任务性能的工作流。
在多个基准测试中,AFLOW表现出色,相比手动设计提高了5.7%的性能,并且以4.55%的GPT-4o成本实现了更优的性能,显著降低了人力成本并提高了工作效率。
通过低成本的方式,我们可以实现接近最先进的大型语言模型水平,并且在几乎所有的数据上自动生成工作流,从而优化整体效率。在这个过程中,我们还发现,工作流本身实际上可以视为一种思维引导过程,它能够产生类似于O1效应的良好效果。

案例3:数据解释器(Data Interpreter)

由大型语言模型(LLM)驱动的智能体已经证明了它们在处理复杂任务方面的显著潜力。此外,通过赋予LLM代码执行能力来提升其问题解决能力正逐渐成为一种趋势,这一点已经通过Code-Interpreter 、OpenInterpreter 、TaskWeaver 等工作得到了实践验证。然而,在数据科学领域,面对数据的实时变化、任务间依赖关系复杂、流程优化的专业性,以及执行结果反馈的逻辑一致性识别等挑战,现有LLM-based智能体的性能仍有待提升。
DeepWisdom(MetaGPT)CEO吴承霖:告别传统编程,多智能体如何全新定义代码生成
为此,MetaGPT 团队联合国内多所高校科研团队共同推出了一种全新的解决方案数据解释器(Data Interpreter),旨在通过增强智能体的任务规划,工具集成以及推理能力,直面数据科学问题的挑战。
得益于以下三种技术的融合:基于分层图结构的动态计划、工具集成与生成、基于置信度验证与经验驱动的推理增强。Data Interpreter在数学推理任务, 机器学习任务和复杂的开放性任务上达到了 sota 水平。相对其他开源基线,Data Interpreter在MATH数学推理任务中准确率提升了26%,在ML-Benchmark机器学习任务中将得分从0.86提升至0.95,在开放式任务Open-ended tasks中更是实现了112%的惊人提升。
DeepWisdom(MetaGPT)CEO吴承霖:告别传统编程,多智能体如何全新定义代码生成
人类的许多工作依赖于试错过程来提升效率和效果。同样,数据解释器(Data Interpreter)也采用类似的试错机制来增强整体性能。经验在这一过程中扮演着至关重要的角色,它能够显著提高效果。经验的应用也可以大幅降低成本。且一旦系统完成了某项任务,它便能够利用历史经验来更高效地重复执行该任务。

案例4:自动实验系统

在物理、生物化学、机器学习等多个领域,实验是获取知识的关键途径,但这一过程往往既耗时又费力。实验者需要观察数据,并基于这些数据来优化实验效果。为了提高实验的效率和效果,MetaGPT开发了SELA框架,这是一个融合了大型语言模型(LLM)和蒙特卡洛树搜索(MCTS)技术的自动实验系统,专门用于优化自动化机器学习(AutoML)流程。
DeepWisdom(MetaGPT)CEO吴承霖:告别传统编程,多智能体如何全新定义代码生成
SELA框架通过智能化的搜索和迭代优化,显著提升了AutoML的性能和适应性。在20个不同的数据集上进行的实验表明,SELA的胜率比现有方法高出65%至80%。该框架的运行机制涵盖了问题定义、数据集信息处理、搜索空间的构建、LLM的应用以及模拟分数的反馈等环节,能有效克服传统AutoML框架和LLM方法的不足。

 结语

DeepWisdom(MetaGPT)CEO吴承霖:告别传统编程,多智能体如何全新定义代码生成
MetaGPT的设计初衷是面向最终的多智能体协作。人们常问,多智能体的终极形态是什么?人与智能体、智能体之间应如何协作?这是一个至关重要的问题。我们可以看到,不同的企业,如腾讯、阿里、华为,以及美国的亚马逊、微软、谷歌等,它们的组织架构和业务模式各不相同,这些差异显著影响了它们的效率和最终成果。如果智能体能够实现更高的个性化和能力,或许类似谷歌的分布式风格会是最优解。然而,目前像苹果这样的中央集权模式也显示出了其高效性。
全球有成千上万的公司正在开发智能体(agent),但智能体的本质是什么?所有这些智能体能否形成一个网络,这是我们所质疑的。人类可以通过微信等社交平台形成网络,那么智能体之间应如何建立联系,以实现协作?
DeepWisdom(MetaGPT)CEO吴承霖:告别传统编程,多智能体如何全新定义代码生成
我们认为,智能体网络可能会存在于每个公司内部、每个人的手机中、每辆汽车里。这些网络将具有不同的功能,但当它们组合在一起时,将形成一个完整的智能体生态系统。
文章来源:【非凡产研】公众号
【声明】该内容为作者个人观点,大数跨境仅提供信息存储空间服务,不代表大数跨境观点或立场。版权归原作者所有,未经允许不得转载。如发现本站文章存在版权问题,请联系:contact@10100.com
0
0
非凡产研
非凡产研是非凡资本旗下全球数智商业研究中心。非凡产研专注于商业场景下国内、出海及全球化企业服务生态领域的研究,团队成员来自知名研究咨询公司、私募基金和科技体等,是一支具有深入洞察、专业知识和丰富资源的分析师团队。
内容 981
粉丝 0
关注
非凡产研 非凡产研是非凡资本旗下全球数智商业研究中心。非凡产研专注于商业场景下国内、出海及全球化企业服务生态领域的研究,团队成员来自知名研究咨询公司、私募基金和科技体等,是一支具有深入洞察、专业知识和丰富资源的分析师团队。
总阅读18.5k
粉丝0
内容981
主页
关注