“一个好的技术有没有价值、能不能发挥巨大的作用,很多时候关键在场景和应用的选择以及细节的打磨。通过软件、硬件、AI技术的结合,做出精品是我们现在做的事”。7月26日,教育科技公司网易有道(NYSE: DAO)举办了“powered by 子曰”教育大模型应用成果发布会。发布会现场,网易有道CEO周枫如此表示。
会上网易有道推出国内首个教育领域垂直大模型——“子曰”,并发布了基于“子曰”大模型研发的六大创新应用,即“LLM翻译”“虚拟人口语教练”“AI作文指导”“语法精讲”“AI Box”以及“文档问答”。
一系列大模型全家桶的发布,瞬时引发行业热议。
大模型热潮进入“千模大战”,各家从概念落地,到场景应用,竞争一度陷入白热化,而在教育领域,并未有过大声量,此次网易有道可谓打响了教育大模型第一枪。“子曰大模型在教育行业的应用,不仅可以帮助学生更好地学习,也可以帮助老师更好地教学,借此实现因材施教的教育理想。”发布会现场,周枫多次强调“场景拉动”的重要性。
不同于通用大模型,“子曰”大模型的定位是“场景为先”的教育垂类大模型。在AI助力各行各业变革的当下,“子曰”大模型给教育行业带来的机会在哪里?周枫给出的答案是“助力因材施教”。
发布会现场,较为瞩目的便是——虚拟人口语教练Hi Echo的面世,有道词典业务负责人与 Echo 进行了多组随机对话,在对话过程中,Echo能够像真人老师一样进行实时反馈。对话结束后,Echo会从发音、语法等维度给予建议和润色。
▲图:虚拟人口语教练Hi Echo
此外,有道在发布会上推出的“AI作文指导”应用不仅具备“作文批改”功能,针对学生在写作前中后过程中面临的题目主旨难确定、写作素材匮乏等难题,AI作文指导还会从表达、结构、内容深度、情感丰富度四大维度全面提供改进建议。
个性化教育备受推崇之下,子曰大模型能够为学生提供个性化的分析和指导;同时,大模型能够实现引导式学习,提出问题并引导学生自行探索答案;当然,更重要的是,大模型具备全科知识整合能力。通过连接多模态知识库、跨学科整合知识内容,随时满足学生的动态需求,帮助孩子培养更综合的能力。
作为国内和业界知名的教育科技公司,可以说,网易有道从未停止过技术和产品深度融合的探索。
早在2008年,有道就推出自主研发的国内首家统计机器翻译线上引擎。2016年起,有道协同构建AI基础能力,同步组建语言、视觉、声音等团队,目前积累了有道神经网络翻译(NMT)、计算机视觉、智能语音AI技术、高性能计算(HPC)四大底层技术能力。2017年,有道就与主流技术Transformer“双向奔赴”,将AI能力统一在大模型之下,并尤其重视在端侧的落地应用。2022年,有道词典笔P5中搭载了自研的离线ASR,也已升级为Transformer技术。
AI大模型风起之后,如何以实际的教育场景驱动,用技术创新助力教育创新,成为团队上下共同攻克的核心目标,为此团队将目标拆解为不同模块:向所有下游场景提供语义理解、知识表达等基础能力;为不同学习场景设计定制化的模型,力争实现模型与场景的高度契合等命题。
此次子曰大模型的发布,可以说是AI+教育的进一步落地实践,为什么是网易有道?子曰大模型能否引领教育个性化革命?
发布会后,零态LT(ID:LingTai_LT)等,也共同对话了网易有道CEO周枫,关于子曰大模型的探索历程,成本问题以及商业化预期,与其进行了深度交流。
以下为对话实录(有删节)
问题:子曰大模型的六个场景让人震撼,而且大模型是团队自研,不久前Meta发布了新的开源以及免费大模型,直接接入开源成本或许会更低,这个层面,网易有道的思考是什么?
周枫:关于Meta开源的问题,这也是内部非常非常关心的问题,我们是非常拥抱开源的,有道以前也有很多开源产品,我们自己也开源不少自己的项目,包括AI方面的。
但今天的发布会侧重的是应用,AI发力的重点是产品落地,这也是为什么子曰大模型进行自研的原因。当下一些开源的模型暂时不能满足我们对落地的需求。比如像语法、答疑这些,这些都搞不定的,因为没有这些数据(可供直接训练)。
当然,自研过程中,除了最基础技术的技术层面,最后要落地的是完整产品,并且用户在使用时,非常丝滑的产品,如果哪一天开源项目很成熟,我们也一定会用。
问题:未来有道智能硬件接入子曰大模型后,会带来哪些升级和变革呢?
周枫:有道在策略上的关键词是“场景拉动”——大模型在多个场景中的应用成果,覆盖口语训练、作文批改、习题答疑等六大教育的细分领域。
在AI虚拟人的驱动方面,有道基于自主研发的情感识别算法和实时渲染驱动引擎,对播放的语音数据进行深度分析,实时驱动虚拟人的面部表情和语音同步的口型变化,使虚拟人能够贴近真人,以更加自然和生动的方式与用户一对一交互,从而显著提升对话的真实感和用户体验。
例如,虚拟人口语教练在语音识别能力方面进行了巨大的革新,它支持多语种的流式低延迟语音识别技术,让Echo在中式英语、英语、中英混合等场景下游刃有余;声学降噪、回声消除、自动语音检测、自动断句等技术,则让它像一个真正的倾听者和交流者,不仅能判断用户说话的起始,还能让用户随时打断,智能触发后续流程。
问题:“子曰”大模型的成本构成是什么?产品化以后会不会影响利润率,甚至是亏损?在线教育前期技术成本很高,但是后期随着用户规模扩大,成本会显著下降,大模型不断的训练之后,会不会改变这个成本模型?
周枫:做公司永远是这样的,好东西都要钱,好的也最贵,这不是新问题,我们一定会管理好成本。
像刚才讲的,很多时候这是相对的过程,你如果能做到行业内对资金利用率,对人员利用率比较高的话,成本其实是可以的。大模型研发,总体上不需要增加什么额外的特别大的投入,因为有道过往的AI团队也不小,可以直接复用。
跟刚才开源的问题相关,我觉得这个世界上大部分的大模型都是免费的。所以很适合开放。大模型的边际成本其实非常低,复制模型其实不需要成本,推理时才需要成本,无论对于一个公司也好,个人也好,情况都是如此。
但大模型技术非常特别,很多技术拿到代码还是不会用。即便你会用,你也不会改进,因为你读不懂这个代码,回到刚才的问题,我们目前也需要资金来进行自研,确实现有的市面上的大模型,不满足我们对产品的要求,长期来看,我们技术本身深耕了好多年,有很多现成的东西可以复用。
模型虽然越变越大但是开放性会增强,对于想做AI应用的创业者或者公司来说,现在是非常好的时候,未来成本问题也会随着规模,会有所改变。但是大模型具体成本,我们财务可能比我更清楚。
问题:作为一个教育大模型,在具体落地过程中,怎么防范学生的“抄作业”心态?
周枫:它有家长管控功能,所以不用担心这个问题。
问题:刚刚我们看了演示,有教数学题也有教写作文,比如同样一道数学题三年级的解法跟初中解法完全不同,大模型怎么判断我对面的人是三岁还是六岁?是不是一个人会有自己的专属大模型?
周枫:不用把大模型神秘化。
很简单的逻辑,现在的大模型跟以前的AI不一样的地方是,确实有语言推理能力。如果是文字型的应用,不需要特别强的推理,是挺好用的。但是数学本身就难,数学光喂内容没用,再多也没用,因为它是原理问题,现有的技术不是说套一下就能使用。大模型想的比较浅。这也是当下大模型的局限性。
问题:“子曰”大模型的团队配置是怎样的?
周枫:百人级,肯定不会考虑千人级。
问题:现在这个大模型是会员制?
周枫:目前可能有这个想法,但是我希望越便宜越好,像电子书的逻辑,希望让好技术让更多人使用,这样才能倒过来推动技术发展。