大数跨境

从清华园到产业端:深言科技的中文AI技术破局与商业重塑

从清华园到产业端:深言科技的中文AI技术破局与商业重塑 外贸达人Cici
2025-10-21
397






在人工智能浪潮翻涌的今天,一家孵化自清华园的创业公司,正致力于让机器更好地理解中文,让数亿中文使用者享受智能信息处理的全新体验。2025年世界人工智能大会上,一款能够精准理解政务需求、智能处理公文的智能政务办公平台引人注目。这套系统的背后,是深言科技与人民网的深度合作,它能够理解中文公文的内在逻辑,进行智能审校和多语种翻译。而这仅仅是深言科技技术应用的冰山一角。



01 清华基因:从实验室到产业化的“国家队”

深言科技并非普通的创业公司,它承载着深厚的学术底蕴和技术积淀。公司2022年孵化自清华大学计算机系自然语言处理实验室(THUNLP)和北京智源人工智能研究院,由欧洲科学院院士、清华人工智能研究院常务副院长孙茂松教授领衔担任首席科学家。作为中国自然语言处理领域的奠基人之一,孙茂松教授团队长期深耕中文语义理解、对话系统、知识图谱等核心领域,2024年其牵头完成的“数据驱动与知识指导深度融合的法律智能体系化关键技术及其应用”项目,更是斩获中文信息处理领域最高荣誉——“钱伟长中文信息处理科学技术奖”技术发明类一等奖。这种顶尖学术背景不仅为深言科技带来技术先天优势,更使其成为大模型“国家队”——智源悟道大模型研发团队的核心成员。


CEO岂凡超|清华大学计算机系博士、电子系学士、工商管理第二学士;发表顶级论文 30 余篇,申请发明专利 20 余项;曾任北京智源人工智能研究院“基于大模型的文本处理创新中心”主任;获中国人工智能学会优秀博士论文(全国 9 篇)、北京市优秀毕业生(博士、本科)、全国研究生人工智能创新大赛总冠军、中国 AI+ 创新创业大赛 NLP 大赛第二名;获福布斯亚洲 30U30、中关村 U30、2023 创业邦 30Under30+ 创业先锋、36氪 2023 年度 36Under36 创业者、2023 科创家等荣誉。


在人工智能领域,学术研究与产业应用之间常存在“死亡谷”。深言科技从诞生起就致力于搭建跨越鸿沟的桥梁,创始人岂凡超作为清华培养的优秀人才,带领团队将实验室成果转化为实用产品。核心团队集结了清华校内精英:多次斩获国家奖学金的算法骨干、全国人工智能比赛冠军、省高考状元出身的产品负责人,这支平均年龄不到30岁的队伍,成为技术攻坚的核心力量。岂凡超在访谈中曾提及,团队的初心就是“让清华实验室的技术走出象牙塔,解决真实世界的语言处理难题”。

以孙茂松教授为核心的学术指导团队,为深言科技提供持续技术滋养。在语鲸大模型研发中,团队引入清华NLP实验室在“语义增强算法”上的最新成果,该技术源自实验室承担的国家重点研发项目,能大幅提升模型对中文歧义句的理解精度。双方还联合开设“AI+中文信息处理”课程,孙茂松教授亲自授课,将产业实战案例融入课堂,已培养出30余名兼具学术素养与工程能力的复合型人才。2025年6月,双方更进一步,联合研发的语鲸LingoWhale-8B模型面向社会开源,成为国内首个在10B以下参数规模达到国际领先水平的中英双语模型。



02 技术破局:自研模型驱动的“中文革命”

深言科技选择了“自研模型+自研产品”的双轮驱动路线,这条道路虽前期投入巨大,却为长期发展奠定了核心竞争力。早在2021年1月,创始团队就参与完成智源悟道CPM大模型训练,次年12月率先运用可控预训练技术研发出CPM-3模型,成为国内最早实现指令可控生成的预训练模型之一。后续迭代的语鲸(LingoWhale)大模型更是实现技术跃迁,支持8K上下文长度,在C-Eval、CMMLU等权威评测中超越GPT-3.5 Turbo,稳居10B以下模型领先地位。

这种技术突破源于对中文特性的深刻理解。与英文不同,中文存在大量同音异形、一词多义、句法灵活等语言现象,国外大模型往往难以精准处理。深言科技针对性研发了“语境增强算法”,通过融合汉字形义特征与上下文语义关联,让模型能区分“银行存钱”与“河边银行”的差异,在中文成语理解、古文翻译等任务中准确率达96%以上。更值得关注的是其独创的“知识锚定机制”,将清华NLP实验室构建的中文知识图谱嵌入模型,有效降低了生成内容的幻觉率,在政务、法律等严肃场景中幻觉率控制在0.8%以内。

2025年6月发布的开源模型LingoWhale-8B,进一步彰显技术硬实力。该模型拥有80亿参数,在数万亿token的高质量中英数据上完成预训练,在覆盖52个学科的C-Eval基准测试中,综合得分超越同规模开源模型15%以上。为推动行业发展,深言科技采取“学术完全开放+商用许可”的模式:科研人员可免费下载使用,企业通过邮件申请获得许可后也可免费商用,这一举措吸引了超200家科研机构和中小企业接入,三个月内衍生出12款垂直领域应用。

技术自主可控带来了安全优势。深言科技的模型训练完全基于国产化算力基础设施,核心算法无对外依赖,2024年入选北京市通用人工智能产业创新伙伴计划时,其“全链路国产化技术栈”成为重要评审依据。在某国家部委的安全测评中,语鲸大模型成功通过72小时极限压力测试,未出现数据泄露或算法漏洞,成为首个进入该部委核心办公系统的民营大模型。



03 产品矩阵:从个人到企业的全场景覆盖

成立三年多,深言科技已构建起“C端工具引流+B端解决方案变现”的产品生态,服务用户超2000万,覆盖个人、企业、政务等多元场景。

反向词典WantWords堪称现象级C端产品,它彻底颠覆传统词典“查词找义”的逻辑,实现“描义找词”的逆向创新。用户输入“形容因喜悦而流泪”,系统能精准返回“喜极而泣”“潸然泪下”等词语,还会提供近义词辨析、使用场景示例。这款产品上线初期便因流量暴增导致服务器瘫痪,零宣传状态下半年积累800万用户,目前月活跃用户超70万,累计查询量突破1400万次。教育领域是其核心应用场景,全国超3000所中小学教师将其用于作文教学,某重点中学试点显示,使用WantWords的学生作文词汇丰富度提升42%。

智能写作工具“深言达意”则聚焦深度内容创作需求。针对公文写作场景,它内置了200余种官方文体模板,用户输入“某市2025年垃圾分类实施方案”,系统可在3分钟内生成包含指导思想、实施步骤、责任分工的完整草案,且能自动匹配当地政策语境。在企业场景中,其“行业适配引擎”可根据金融、法律、教育等不同领域的语言风格调整输出,某律师事务所使用后,合同初稿生成效率提升60%,格式错误率从12%降至0.3%。

个人信息助手“语鲸”瞄准信息过载痛点,打造“订阅-聚合-分析-总结”全流程服务。科研人员可设置关键词订阅领域论文,系统会自动提取核心观点并生成可视化对比报告;企业管理者通过绑定行业媒体,每日收到整合后的动态简报,某互联网公司CEO反馈,该工具使其信息获取时间从2小时缩短至20分钟。其独特的“多轮追问”功能还能实现深度信息挖掘,用户问“2025年低空经济政策”,不仅能获得政策原文,还可进一步追问“对无人机企业的影响”“地方配套措施”等衍生问题。

ToB领域的行业解决方案已成为营收主力。与人民网联合开发的智能政务办公平台,已在3个省级行政区、12个地级市的政务系统落地,具备公文智能审校、跨部门知识库协同、多语种会议纪要生成等功能。在某省会城市政务大厅,该平台将公文审批周期从平均3天压缩至2小时,因表述不规范导致的返工率下降78%。针对央企客户,深言科技推出定制化知识管理系统,某能源央企使用后,内部文档检索效率提升3倍,新员工培训周期缩短40%。


04 商业落地:从实验室到市场的“清华速度”

在AI创业公司普遍面临“技术难变现”的困境时,深言科技展现出惊人的商业化能力。正式运营仅2个多月,就与3家行业标杆客户达成数百万元合同;成立两年内,政务、金融、教育三大领域收入占比已达6:2:2,2024年估值升至12亿元人民币。

这种落地速度源于精准的客户定位。深言科技早期就锁定对中文处理要求极高的政务领域,凭借清华背景与技术实力突破圈层壁垒,成为多个国家部委的合作供应商。某部委信息中心负责人透露,选择深言科技主要基于两点:一是模型对公文语境的理解准确率达99.1%,远超同类产品;二是全链路国产化保障了数据安全。在央企市场,其解决方案已进入国家电网、中国石化等企业的供应链,2024年来自央企的订单同比增长180%。

资本市场对其商业模式高度认可。公司成立至今已完成4轮融资,总额超4亿元,投资方包括红杉中国、腾讯、好未来、春华资本等顶级机构,其中2023年腾讯领投的Pre-A+轮融资规模达10亿级。值得关注的是,深言科技曾拒绝美团的收购邀约,坚持独立发展路线,这种技术长期主义理念赢得了资本尊重。入选陆奇博士创办的“奇绩创坛”创业营更具含金量——该营录取率不足1%,而深言科技是当年唯一入选的中文大模型企业。

政策红利进一步加速商业化进程。2024年入选北京市通用人工智能产业创新伙伴计划后,深言科技获得海淀区提供的算力补贴、场景对接等支持,成功进入北京国际科技创新中心建设的核心供应商名录。借助这一身份,公司与石景山区智能计算产业加速器达成合作,将语鲸模型嵌入区域低空经济监控平台,实现无人机飞行指令的实时语义分析与风险预警。

国际化布局已悄然起步。目前虽以国内市场为主,但深言科技已与两家跨国咨询公司达成合作,为其提供中文市场分析的AI辅助工具。针对东南亚中文使用场景,团队正在优化模型的方言适配能力,计划2026年通过当地合作伙伴进入新加坡、马来西亚市场,首阶段聚焦跨境电商的中文客服智能化需求。


05 未来布局:从中文到全球的“AI语言革命”

面对大模型技术的快速迭代,深言科技已制定清晰的三年战略规划,核心围绕“技术深化、场景拓展、生态共建”三大方向推进。

技术路线上,多模态与长上下文是重点突破领域。计划2026年推出的语鲸3.0版本,将实现文本、图像、音频的深度融合处理,采用类似“思考者-说话者”的架构设计,其中“思考者”模块负责多模态信息理解,“表达者”模块专注内容生成。目前已完成音频编码器的初步研发,在中文语音识别任务中准确率达98.5%,未来可应用于会议实时转写、语音公文生成等场景。长上下文能力将从8K提升至32K,满足法律卷宗、学术论文等长文本处理需求,目前在20K文本摘要任务中已达到行业领先水平。

场景拓展聚焦垂直领域深耕。教育领域,正在开发“AI教师助手”系统,已与好未来达成合作,将其融入K12作文辅导场景,能实现“批改-讲评-范文生成”全流程服务,试点学校学生作文成绩平均提升15%;医疗领域,联合清华医学院研发的病历智能分析系统,可自动提取关键诊疗信息并生成规范病历,在3家三甲医院试点中,医生文书工作时间减少50%;金融领域,与某股份制银行合作的智能投研平台,能实时分析政策文本对行业的影响,辅助投资决策。

生态共建计划加速推进。与清华大学的合作将升级为“AI语言创新实验室”,重点攻关低资源语言处理、大模型可解释性等难题,计划三年内发表核心论文20篇以上。开源生态方面,在LingoWhale-8B基础上,2025年底将推出13B参数的开源版本,同时搭建开发者社区,提供API接口与工具链,目标吸引1000家企业接入。算力合作上,已与超智算科技达成战略协议,获得专属算力集群支持,模型训练效率提升40%,成本降低25%。

人才战略持续升级。公司官网显示,正面向全球招募大模型算法、多模态技术、行业解决方案等方向人才,研发岗位占比计划提升至60%。针对顶尖人才设立“深言学者”计划,提供百万年薪、科研经费自主权等激励,已吸引2名海外知名大学博士加盟。同时与12所高校建立实习基地,构建“校园招聘-联合培养-在职提升”的人才梯队。


结语:从清华园走向世界的“语言之光”

从实验室的算法原型到政务大厅的高效系统,从学生手中的查词工具到央企的知识平台,深言科技用三年时间证明:顶尖学术成果完全可以转化为改变行业的产品力量。其坚持的“中文优先”战略,不仅填补了国内技术空白,更在全球AI竞争中树立了“中国语言智能”的独特名片。

正如孙茂松教授在开源LingoWhale-8B模型发布会上所言:“让机器真正理解中文,不仅是技术的突破,更是文化自信的体现。”未来,随着语鲸3.0的迭代与国际化布局的推进,深言科技必将从“清华孕育的创新力量”成长为“全球中文智能的引领者”,在人工智能时代书写属于中国的语言传奇。








X媒体官|Kevin 138 8041 8738




【声明】内容源于网络
0
0
外贸达人Cici
跨境分享阁 | 每天提供跨境参考
内容 45868
粉丝 5
外贸达人Cici 跨境分享阁 | 每天提供跨境参考
总阅读621.3k
粉丝5
内容45.9k