【建站扶持计划】 免订阅费,免费SEO与代建站,16大主流媒体免费开户
立即查看>>
说明:本内容来源于HubSpot 2024GenAI峰会圆桌讨论。四位嘉宾都是硅谷AI明星创业者。本圆桌探讨了AI原生创业企业应该如何理解客户、市场和大模型发展趋势。非凡产研特别做了精华编译。
圆桌主持人 Fellows Fund合伙人、Ficc.AI 创始人Charles Elfin
1、Young Zhao,OpusClip 联合创始人兼首席执行官
OpusClip是一款革命性的通用人工智能视频编辑工具,它能够在一键操作下将长篇视频转变成易于传播的短视频。今年9月份,该公司联合创始人&CEO Young Zhao宣布,公司已成功筹集到3000万美元资金,包括A轮以及早期的种子资金。A轮融资由Millennium New Horizons领投,同时还获得了AI Grant、Samsung Next、GTM基金、DCM Ventures、Alumni Ventures、Fellows Fund、Alpine VC以及天使投资人Jason Lemkin的大力支持。
OpusClip一年前成立以来,增长速度令人瞩目。用户数量已突破600万大关,ARR(年经常性收入)达到了八位数。Billboard.com、Univision、Telefónica、Jenny Hoyos和Scott Galloway等企业是其部分代表性客户。
2、Jia Li ,LiveX AI 联合创始人、首席人工智能官兼总裁
LiveX AI的目标是通过提供像真人一样的VIP级别的人工智能代理来简化日常生活。这些代理能在整个用户旅程中引导客户,通过增加销售、提高试用转化率、增加续订和升级销售的同时减少退货,赋予企业更多能力,帮助用户充分享受他们的产品和服务。
3、Dmytro Dzhulgakov,Fireworks AI联合创始人 CTO
Fireworks AI 为客户提供一个平台,用于推理和微调 AI 模型,使企业能够自信地交付关键的客户导向型 AI 应用。Fireworks AI 面临的主要挑战是,即便在 AI 模型日益复杂的情况下,仍需为不断增长的客户群体保持高性能。
Fireworks AI 是行业内增长迅猛的人工智能初创公司之一。在过去六个月中,Fireworks AI 的访问量激增了100倍。今年七月,公司还成功完成了由红杉资本领投的B轮融资,使其估值达到了5.52亿美元。
4、 Hassan Raza ,Tavus 联合创始人兼CEO
Tavus 是一家位于加利福尼亚州旧金山的生成式 AI 视频研究公司,今年3月份该公司宣布在 A 轮融资中筹集了 1800 万美元。本轮融资由 Scale Venture Partners 领投,Rory O'Driscoll 加入公司董事会,红杉资本、Y Combinator 和 HubSpot 等也参与其中。公司计划利用资金进一步加速产品和模型开发,并扩大在企业和中端市场的销售,以满足银行、房地产、汽车和医疗保健等行业对其 SaaS 应用程序日益增长的需求。
由 CEO Hassaan Raza 领导的 Tavus 专注于实现大规模超个性化视频制作,提供涵盖数字复制、唇同步、配音、文本转视频等功能的先进 AI 模型,并支持规模化的个性化视频编排,其技术可通过网页应用供用户使用,并通过 API 供开发者调用。
Q:首先,我将请每位嘉宾简要解释他们在自己的公司中如何使用人工智能,并分享一些你们的创业经历。
Young Zhao:大家好,我是Young Zhao,OpusClip的联合创始人兼首席执行官。我们的产品能够将长篇视频素材一键转换成社交媒体上的爆款短视频。通过运用先进的视频理解和生成技术,我们助力每个人在社交平台上讲述精彩的故事。
Jia Li:大家好,我是贾。我是一名人工智能技术专家。我的公司LiveX AI,专注为人们日常生活构建多模态人工智能代理。正如我们所知,GenAI将改变我们与产品、服务、硬件、设备的互动方式。
因此,我们正在构建专为企业定制的商业人工智能代理,这些代理能够为其客户提供服务。未来,我们希望将此扩展到能够为每个人在日常生活提供个性化服务的人工智能代理。
Dmytro:大家好,我是Fireworks的首席技术官。Fireworks AI 是一个面向开发者的平台,它协助开发者和企业利用开源的通用人工智能(Gen AI)模型,跨越多种模态进行开发。
你可能已经听说过 LAMA、Mistral、Stable Diffusion 和 Whisper 这些模型。我们的主要工作是帮助用户根据不同的应用场景定制这些模型。无论你是想要定制现有模型,还是希望将基础模型部署到你的应用中,我们都能提供全面的服务,包括模型的部署、扩展和性能优化,让你能够以极低的成本和极快的速度构建应用程序。我们自豪地在多个性能排行榜上名列前茅。
我们特别注重根据不同的应用场景进行定制,无论是通过微调提升模型质量,还是根据特定需求定制部署配置以提高性能。因此,如果你的应用,比如聊天机器人系统,需要极低的延迟,这正是我们专注解决的问题。
Hassan Raza:大家好,我是Tavus 的创始人兼首席执行官。我们是一家生成视频研究公司,我们构建用于创建个人数字分身的模型。
我们向开发者和企业供应这些模型,使他们能够在自己的平台中或为公司内部提供化身和克隆功能。
这些技术可以用来帮助您仅通过文本输入就能制作出极其逼真的视频,无需亲自出镜录制。企业也可以利用这项技术帮助客户用他们不熟悉的语言制作视频。例如,我们合作的医疗保健软件公司就使用这项技术,协助医生以患者母语发送视频消息;甚至还有实时应用场景,比如将您的数字分身送入Zoom会议中代表您出席。
我们致力于开发高保真度、用户友好的克隆模型,始终坚持道德和审慎的原则,只在得到授权的情况下进行操作,最终帮助客户大规模地运用您的数字化形象。我们专注于如何让您掌控自己的数字形象,并以前所未有的方式使用它。这样,您就能以您的形象,前所未有的方式触及更多客户和用户。
A:作为创始人,需要不断推销公司的愿景。需要把它卖给投资者、员工、客户。所以我的问题是,其中最重要的是哪一个?哪个最难?或者说,各位在销售领域取得成功的过程中,积累了哪些经验或收获了哪些心得。
Hassan Raza:我想说最具挑战性的是,向客户推销你的愿景。投资者,稍微容易一些。因为你卖给投资者的是一个梦想,但对于客户来说,梦想必须植根于现实。符合他们业务的现实,以及你产品展现出的符合当下的现实,而不是未来的状态。
所以,向客户推销产品时,必须根据他们的具体需求来调整你的愿景,这可能有些困难,因为你往往设想的是一个拥有许多特性和功能的远景。你可能有很多很酷的新模型。但今天,你必须能够真正地部署这些。
但我要说的是,我们真正成功的秘诀在于成为客户的合作伙伴,让他们感觉到他们的计划就是我们的计划,真正与他们站在一起,这样就能将我们的服务融入到他们自己的业务中。
每次我们能够成功签约,都是因为我们始终把客户放在第一位,对客户极度专注,我们对他们的发展蓝图和成功投入了极大的关注。
Jia:我们面对的客户通常对技术不太了解,这与那些一直在深入了解人工智能的投资者不同。所以,实际上最具有挑战性的部分是传达GenAl今天能为他们带来的价值,以及未来更大的潜力。
但我们从这个过程中学到的是,在销售过程中,你真的需要倾听客户的痛点,并尝试理解他们面临的挑战。通常情况下,如果你能帮助他们解决问题,那么这种对齐会更加顺利。
Young:我觉得在我们的案例中,向员工、客户和投资者传达我们的使命是相当不同的。首先,向我们的客户传达我们的愿景是相当容易的,因为我们是一个非常注重实际工作需求的公司,我们的产品非常容易理解,并且真正解决了客户的痛点。所以我们看到很多客户甚至比我自己更能清晰地描述我们产品的愿景。
特别考虑到我们的客户主要是社交媒体上的意见领袖。每天早晨醒来,我都会浏览YouTube和LinkedIn上的视频,我会发现,哇,你们比我们更能清晰地表达我们的愿景。
这一点非常直接。但我认为,向员工传达愿景是最重要的,因为我们正在打造一个没有先例的产品,没有前人的成功经验可以借鉴。我们正在用一个纯粹的创新产品来解决许多尚未明确的问题。
因此,不断地向我们的团队重申和传达愿景是至关重要的,我们必须确保每个人都对目标有共识,这样他们才能齐心协力,共同推动下一代产品的问世。
向投资者传达我们的愿景是一个挑战,因为许多投资者并不是创业者。他们很难理解我们的领域、用例和需要解决的核心问题。虽然有些投资者对社交媒体非常感兴趣,但我认为大多数并不是。所以,这对我们来说可能是最具挑战性的任务。
Dmytro:我完全同意,将焦点放在客户身上是最重要的。我们要做的是创造出人们真正需要的产品。
这样的关注点也有助于激励员工围绕这个共同的使命团结起来,并且在业务数据向好时向投资者展示我们的成果。对于面向开发者的产品来说,销售过程中通常包含两个方面:一方面是向那些会直接使用产品的用户销售;另一方面,对于开发者产品来说,细节至关重要,对小细节的关注能够为其带来巨大的满足感和愉悦。
此外,在更高层次上,我们需要将客户视为一个企业,理解他们的需求,了解他们的最终应用场景,以及我们如何帮助他们实现最终目标。有时,我们甚至需要重新定义问题,并提供建议,这对于如何重新构建问题可能非常有价值。在这一点上多做一些努力,会有很大的帮助,因为他们本质上是在尝试解决商业问题。技术只是这个问题的一部分,如果我们能在过程中提供帮助,这将创造巨大的价值,并实现双赢的局面。
A:您如何看待客户与竞争对手?您是想要独树一帜,还是想要进军一个巨大的市场?或者您对这个问题有独特的思考方式?
Dmytro:我们所处的Gen AI市场非常庞大,其规模远远超过了以往的深度学习应用。你知道,多年前我作为PyTorch的核心开发人员之一,参与了深度学习领域的相关工作。那时,开发深度学习应用程序的市场已经非常庞大,但它确实需要更多的技术专才。而如今,我认为基础模型及其下一代技术的应用将引领我们进入市场的一个全新阶段,这个新市场将会比以往任何时候都要大。
老实说,我认为更重要的是专注于客户和解决他们面临的最终问题,因为这个市场足够广阔,你不必过于担心竞争对手。而且,最好的产品最终会赢得市场。所以,关键在于提供最佳的产品和服务。
因此,如果您能够精准地定位客户、提供合适的产品,并通过恰当的分销渠道进行销售,那么在这一点上,您就无需过分担心竞争对手。
Jia:我认为目前人工智能在客户体验和AI代理方面备受关注。现在,人们对此讨论颇多,也出现了许多令人印象深刻的产品。
这也正是为什么,从客户的角度来看,有时可能会产生一些误解。我们实际上能够实现一些目前看来还不太现实的事情,不是吗?完成最后一步总是更具挑战性。构建初步的演示或者原型可能相对快速和容易,只需要整个项目时间的一小部分(比如5%)。然而,将这个演示或原型转化为一个完整、成熟、可以上市的产品,需要更多的时间和精力,这通常占据了绝大部分的时间(比如95%)。
因此,穿透市场的噪音,进行有效的教育,赢得客户的信任,并建立起可靠的关系,这一点至关重要。
Hassan:我们实际上已经经历了一次转型,因此对两个领域都有了深刻的洞察。最初,我们为自己的销售和营销产品构建了模型,但最近,我们更多地将重心转移到让这些模型直接服务于开发者。从我们的视角来看,生成式人工智能领域是一个充满新颖性和机遇的新领域。我们相信,通过向各种不同的产品和创意提供模型,而不仅仅是将模型局限于我们自己的产品,我们能够获得显著的优势。
Young:我们肯定是从一个相对小众的市场起步的,并逐渐成为早期同类产品中的佼佼者。一旦我们对自己的领域有了足够的信心,我们就会逐渐将我们的产品扩展到现有的ICP(意向客户画像)和长视频到短视频编辑之外的更多领域。所以最终,我们相信这个市场是巨大的。
这绝对是一个巨大的市场,特别是在社交媒体视频创作和编辑领域。但我们对产品的快速扩张和市场契合度(PMF)持谨慎态度。我认为对于初创公司来说,你肯定想要打造最好的产品。即使你在扩展你的应用和涉足更多技术领域,你也不能过于冒进,尤其是当你的团队资源有限时。
我们目前正在研发下一代产品,并且我们正准备将市场扩大三倍、五倍甚至十倍。但是,我们确实在非常谨慎地控制这一扩张的步伐。
A:我想各位的问题是在公司中遇到的关于现实世界的伦理问题是什么?各位又是如何应对这个问题的?
Hassan:对我们来说,我认为始终存在关于披露和同意的问题。
你知道,我们正在构建模型来创建数字分身,这意味着我们在复制用户的外貌和声音。
我们始终坚持这样的原则:获得同意是最起码的要求。我们必须得到同意才能进行下一步。我们不会开发允许用户创建他人克隆的模型。但这确实涉及到一个权衡问题,尤其是在与我们的营销团队合作时,我们可以看到病毒式传播的潜力。比如,我们可以发布一个关于某个非常有名的人的有趣视频,然后创建他们的克隆,围绕这个制造大量的营销炒作。
但我们始终强调,这样做并不值得。我们会坚守在同意的基础上。我们绝不会允许任何人,包括我们自己,在未经他人同意的情况下克隆某人。因此,这是我们内部必须面对的一个权衡。
Dmytro:我想从基础设施平台的角度来说,我确实看到很多客户在努力寻找正确的平衡点。我认为一个更普遍的教训是,仅仅训练模型和将其实际转化为产品之间存在着巨大的gap。正是在这个gap中,许多责任和伦理问题开始显现。
从技术层面上来说,这通常意味着我们还需要构建防护措施、安全过滤系统等。有时人们可能会觉得模型训练是最耗费资源的部分,比如GPU资源的消耗,但实际上,在产品开发的整个过程中,确保安全和负责任地使用人工智能占据了相当大的工作量。
作为平台供应商,虽然这可能不是一个纯粹的道德问题,但我们对数据隐私的保护非常重视。因此,除非客户有明确的需要,比如需要改进和微调他们的模型,我们才会记录数据。在数据登录、数据保留以及在这方面的负责任行为上,我认为这是我们对行业的贡献之一。
但我认为,更接近产品端的主要功能和问题,以及如何实现这些功能,是我们正在寻找的解决方案之一。
Young:在我们的案例中,我们遇到了数百万的版权问题。很多用户使用了其他人的内容,尤其是在我们尚未采取措施预防的早期。因此,我们收到了许多来自头部KOL和创作者的投诉,他们质疑为什么他们的内容在YouTube上随处可见,看起来像是使用了OpusClip的字幕和动画功能。
我们确实收到了这些投诉,并且我们一直在非常积极地应对这些问题。首先,我们不断向用户发出警告,明确告诉他们如果使用他人的内容,他们的账户将肯定被封禁。随着时间的推移,我们发现越来越少的用户使用他人的内容,我们在Discord频道中观察到了这一变化。许多用户每天都会问,为什么我的YouTube账户被封了?为什么我的TikTok账户被封了?平台正在努力解决这一问题。但我们一直在非常主动地提醒用户,一定要使用自己的原创内容。我认为更关键的第二点是,我们正在构建一种机制来区分优质用户和我们不想要的用户,不一定是坏用户,而是那些我们不希望在平台上的用户。
我们一直在不断地改进用户体验和工作流程,使得那些想要抄袭或侵犯版权的用户更加难以得逞。我们肯定要为合法用户定制工作流程,并为那些我们希望阻止的用户创造障碍。是的,这就是我们处理这些问题的方法。
Jia:对于我们来说,关键问题在于公众如何看待工作被AI取代的担忧。
当AI代理变得更加高效和先进时,媒体常常将其描述为工作岗位的替代。但根据我们的经验,通常在与客户支持团队或售前团队的互动中,起初,许多人可能会感到不安。他们担心AI会取代人类的工作。然而,实际上,许多重复性的工作并不是人们所热爱的,没有人愿意长时间从事这些重复性高且枯燥的工作。
事实上,当AI能够帮助他们解决更复杂的问题时,一些员工反而感到更加满意。人类在处理更具挑战性的情况时,如果将AI作为辅助工具,会表现得更加出色。因此,我认为这将是一场工作转型,而非简单的工作替代,尤其是当Gen AI成为一个如此强大的工具时。
A:你们都在将人工智能投入实际生产,我们知道这过程中存在许多挑战。那么,最大的挑战是什么呢?是可靠性、幻觉、提示工程、护栏,还是其他方面的问题?
我认为,将机器学习的产品化过程视作一段旅程是非常形象的。
对吧?在这段旅程的开始,最重要的是让产品能够运作起来,并且能够快速迭代以达到目标。从开发人员的角度来看,关键在于我能多快地进行迭代。
如果涉及到提示工程,迭代过程会变得更加简单。如果需要进行微调,那么,是的,我的工作流程需要非常迅速,我应该能够迅速地将模型部署到生产环境中,这是我们非常注重的一点。但在初始阶段,成本并不是一个真正的问题,因为你是在小规模上运行。你只是想要让一些东西先运作起来。
所以,我看到人们开始时会使用大模型,试图提升质量,基本上只是为了构建一个演示或原型来验证产品概念。随着产品的推广和规模的扩大,情况就会发生变化。
对于许多应用场景而言,成本和性能,尤其是延迟,开始变得极为重要。这正是人们开始追求专业化,或者可能转向更小型的模型但进行精细调整的时候。我们协助许多客户定制部署选项,以最大程度地降低最终用例的总体拥有成本(TCO)和延迟。实际上,特别是在学习管理系统(LMS)中,即便不更改模型,通过基础设施系统优化和针对特定用例的定制,您也可以实现数倍的性能提升。例如,如果您提供电话助理服务,那么对于最初的几个词,您可能需要非常低的延迟,但之后就可以像正常的授权流程那样处理,这样的优化措施非常有帮助。
因此,我认为上述所有问题都至关重要。它们的重要性从快速迭代和提升质量,逐渐转变为在生产化过程中的扩展性、完整性以及防止不良行为的工作。
Jia:在构建多模态人工智能代理时,我认为延迟是最具挑战性的方面。这可能就是为什么你看到大多数人工智能代理被用于生成市场调查或报告——这些场景下可以等待较长时间。而我们的情况是,我们必须构建实时的人工智能代理,并考虑多模态输入。
这确实是最糟糕的两种情况的结合。对吧?你需要极高的精确度来执行关键任务,同时,你也需要能够实时高效地处理这些任务,以便企业能够立即为客户提供服务。
所以,我猜想,未来应该会有很多——希望会有很多——技术进步。
目前,我们一直在与NVIDIA合作,从硬件和软件两个维度进行优化。我们已经成功地将token平均速度提升了六倍以上。但即便如此,这仍然不够,特别是考虑到我们的许多客户都是硬件公司和设备公司。他们非常希望能够在未来将这些技术部署在边缘设备上。
为了实现真正个性化的人工智能代理的未来,在硬件芯片、内存以及所有这些方面,我们仍然需要大量的技术进步和发展。
Hassan:我同意。在我看来,在产品开发周期的不同阶段,关注的重点会有所不同。例如,对我们而言,从研究到产品化的整个周期总是伴随着广泛的测试。因为,你要知道,研究阶段开发的模型并不总能接触到实际应用中的各种情况。
正如大家所知,客户很少完全遵循你的指导。因此,你总会遇到一些在研究环境中未曾经历过的特殊情况。
所以我认为,在从研究阶段过渡到生产阶段的过程中,控制模型的幻觉、确保有充分的安全措施、保证模型在各种实际输入下都能稳定运行,这些都是极其重要的。
但当你更进一步地转向产品化时,规模和延迟开始变得更加重要,成本也变得更加敏感。因此,是的,我认为所有这些因素都很重要,但它们在产品开发的不同阶段起着不同的作用。
Q:在人工智能领域,研究人员多年来一直在探讨可解释性的问题,以及从庞大且复杂的模型中提取解释的难度。我想知道的是,您觉得可解释性对您的用户和客户来说有多重要?您又是如何提供这些解释的?
Young:在我们产品中,这一点实际上非常直接,因为我们生成的是视觉化的、直观易懂的视频内容。
因此,我们并不过分强调产品解释性的部分。我们基本上展示了所有可能的结果。用户可以快速预览它们,甚至多次回放,以完全理解视频内容,或确认是否选择这个视频。
所以,我们的产品中并没有太多解释性的内容。我们唯一提供的是一个名为“裁判”或“真实性评分”的功能。这个功能在一定程度上解释了结果,比如视频在社交媒体上的潜在传播力。但这是一个复杂的问题,因为它依赖于一个独立的模型。这个模型持续追踪人们发布到社交媒体上的视频表现,并以此作为动力,以更好地理解视频传播的潜力和多样性。
实际上,我们用户更偏爱这种直观的方式,而不是我们人工智能结果的详细解释。
Hassan:对我们而言,可解释性至关重要,尤其是考虑到我们的客户是在自己的服务平台中提供这项产品。因此,模型的可预测性以及它们的表现方式非常重要,同时,当模型未能按预期表现时,能够理解问题所在也同样重要。比如,如果一个视频在训练阶段被拒绝,我们就需要知道视频出了什么问题。
所以,为我们的客户提供非常清晰的消息,比如为什么训练失败,或者为什么视频没有生成,这真的非常重要。
此外,如果输出结果出乎意料,那么提供如何正确提示以确保获得良好结果的深入见解,对于我们的企业客户来说尤其重要。
Dmytro:我认为,可解释性的重要性确实因产品和其重要性的不同而有所差异。
通常来说,令人兴奋的是,例如对于学习管理系统(LMS),你可以用英语与它们进行交流。而且,你知道,许多关于链式训练(比如树式训练等)的研究,通过要求模型将问题分解成碎片,这在某种程度上有助于提高模型的可解释性。这不仅提升了模型的质量,还让你能够洞察模型内部决策结构的运作方式。因此,我认为这个方向也是客户所关注的,这对提升模型的质量和可解释性都大有裨益。
从基础设施的角度来看,我认为可重复性至关重要,因为这些模型具有随机性,甚至可能因为在不同的GPU上运行而得到不同的结果。因此,如果你从模型中得到了特定的输出,能够重放并理解实际上是能够复现同样的输出,这对于同一款模型的同一版本来说非常重要。
在某些配置中,即使是最微小的部分也不容忽视,它能够极大地促进下游工作流程的调试和优化。
Jia:我们的客户并不那么关注模型或参数的细节。他们更看重的是整个服务流程。例如,当我们为客户服务并解决他们的问题时,我非常希望获得这些洞见——哪些话题最热门,哪些问题被频繁提出,这些信息对于指导我们的产品设计和升级极为宝贵。
因此,我们认为通用人工智能(Gen AI)是一个理想的工具,它能够分析当前的热点话题,并为客户提供这样的深刻见解。
A:各位如何看待基础模型的未来?它们都会转向多模态吗?它们会变得越来越庞大吗?还是说,它们会朝着不同的方向发展,或者您希望它们能朝着某个特定的方向前进?
Hassan:从我的视角来看,基础模型的未来趋势是多模态。以Foro的公告为例,我们可以看到在翻译过程中丢失了许多上下文信息。如果这些基础模型能够理解我们日常沟通中使用的不同模态,它们将变得更加强大,实际上也会更具洞察力。
因此,我预见的未来是,在未来几年内,我们所使用的核心基础模型将自然而然地成为多模态的,并且不必然依赖于翻译功能,因为在翻译过程中会丢失很多重要的上下文信息。
Dmytro:显然,多模态已成为未来的发展趋势。我相信,未来的技术发展必将包含空间推理能力,这不仅涉及到视频内容的生成,也关系到人工智能在机器人技术领域的体现,比如理解物理世界和集成多种传感器等激动人心的研究领域。
从应用的角度来看,情况颇为有趣。我认为,总会有一些处于前沿的、顶级的通用模型能够处理各种复杂任务。然而,对于一些特定应用而言,可能并不需要集成所有模态,因为还需要考虑到成本和延迟等因素的限制。我提到,顶级的多功能模型将趋向于多模态发展,但同时也会存在模态的子集。在更细分的市场领域中,这些模态和功能的子集可以根据不同应用的需求进行定制和调整。我们已经观察到模型架构中出现了这样的趋势,例如,通过将一个小元素与图像识别等技术结合,并进行适当的训练,就能得到相当出色的视觉图像语言模型等。这种趋势正在逐渐显现。
Young:确实,我感觉到目前有一个普遍的共识,即模型将变得越来越精密复杂。
但在我看来,至少在理解能力方面,目前的技术仍然基于transformer。因此,即使模型试图理解图像或视频,这个过程就像是一个盲人凭借纯粹的想象力去阅读和写作小说一样。所以我认为,基础模型在未来需要有一个巨大的飞跃,以便用新的方式来理解内容。
更准确、更贴近现实世界的需求——是的,这就是我所说的。但我还认为,另一方面,基础模型应该更好地支持特定的应用场景,使模型能够更深入地理解特定行业中要完成的具体任务。
那么,我们和其他公司的开发者如何才能更有效地利用这些基础模型,并轻松地调整它们以适应特定领域的需求,这将是未来技术发展的一个重要方向。
Jia:是的,我坚信多模态模型代理的未来,这一点从我们选择的技术方向上就可以明显看出。
我非常认同的一点是,目前在多模态能力方面仍然存在巨大的差距。
主要原因在于,如果我们思考人类如何与物理世界、产品或服务互动,我们自然而然地会利用我们的感知、声音等等。我们并非生来就是为了学习在电脑上打字。
然而,目前用来训练大语言模型或模态模型的所有数据,都是基于过去技术指导我们如何行动而产生的。对吗?因此,有很多以前从未被记录的人类行为或互动数据,这些数据极其宝贵,它们将为人工智能模型以及未来产品甚至硬件形态的发展提供宝贵的信息。
Q:基础模型和多模态技术都从根本上基于一种神经网络架构——transformers。这实际上是一个科学问题:transformers的智能是否有上限?或者我们是否还未接近那个上限,而是其他限制因素,比如数据的质量和数量,阻碍我们实现更高的智能?那么,transformers真的是智能的终极答案吗?
Dmytro:我的意思是,我认为到目前为止,像 Transformer 这样的模型目前在 AI 和机器学习领域已经占据了优势,因为它们在硬件上得到了极大的支持和优化。即使有其他新的想法可能在某些方面稍微优于 Transformer,但由于 Transformer 模型足够通用且已有大量资源投入到硬件和软件优化上,所以很难超越它们或替代它们。
所以我认为这很难预测,因为目前所有的研究和资源都集中在这上面。
我认为到目前为止,transformers已经展现出了惊人的可扩展性,并且可能还有很大的提升空间,可能还会有几个数量级的增长。观察其他技术的发展,它们最终都会呈现出S形的增长曲线,所以我们将拭目以待。我认为目前的局限性在于,例如我们所看到的长距离依赖问题等,整合外部信息的任务仍然充满挑战。这需要一些技术上的突破,以及在更高层次上推理的可靠性。
因此,我认为transformers在未来的几次迭代中仍将继续扩展,但可能还不足以将我们带到最广义的人工通用智能(AGI)。
Hassan:是的,我同意这一点。尽管我不是专家。
我认为transformers架构还有很大的发展空间,无论是从数据收集的角度,还是从优化的角度。
对我们来说,我们思考了很多,比如如何复制人类的所作所为和思维方式,我认为这将是我们将开始触及transformers能力极限的地方。如果我们想要实现AGI,这与尝试复制我们的思维方式和处理信息的方式、我们自己的内部代理工作流程有关,那么我认为transformers在这方面将会受到限制。
Jia:我想补充一点。我们经常讨论模型、模型架构和模型规模,但在数据方面,我们可能还没有给予足够的关注。数据实际上能够反映我们试图解决的问题和我们希望达成的目标。
然而,就目前而言,无论是数据的质量还是数量,例如,许多人都在使用互联网数据来训练相似的模型。因此,高质量的数据和充足的数据量实际上可以产生极大的效果。我认为,潜在的模型架构可能会受到数据、数据类型以及未来数据类型的影响。
Young:尽管我也不是回答这个问题的专家,但我完全同意大家的观点。从我们的角度来看,正如我之前提到的,模型仍然无法真正复制人们对世界的真实看法。我确实认为这是一个巨大的改进领域。
但我仍然觉得,进一步的改进应该发生在模型如何真正解决更具挑战性的工作时。现在,大多数模型就像初级人员。比如,如果您使用我们的产品,就像雇用了一个初级视频编辑、一个初级视频制作人。对于许多其他产品,我们就像在招聘一个初级团队,并且,你知道,扩大规模。但是,你知道,成为一名高级成员,成为一名高级管理人员,那就是我绝对可以看到AGI的位置,它将会在哪里。
文章来源:【非凡产研】公众号
【声明】该内容为作者个人观点,大数跨境仅提供信息存储空间服务,不代表大数跨境观点或立场。版权归原作者所有,未经允许不得转载。如发现本站文章存在版权问题,请联系:
contact@10100.com