从清华园到产业端：深言科技的中文AI技术破局与商业重塑- 大数跨境

首页

从清华园到产业端：深言科技的中文AI技术破局与商业重塑

外贸达人Cici

2025-10-21

397

在人工智能浪潮翻涌的今天，一家孵化自清华园的创业公司，正致力于让机器更好地理解中文，让数亿中文使用者享受智能信息处理的全新体验。2025年世界人工智能大会上，一款能够精准理解政务需求、智能处理公文的智能政务办公平台引人注目。这套系统的背后，是深言科技与人民网的深度合作，它能够理解中文公文的内在逻辑，进行智能审校和多语种翻译。而这仅仅是深言科技技术应用的冰山一角。

01 清华基因：从实验室到产业化的“国家队”

深言科技并非普通的创业公司，它承载着深厚的学术底蕴和技术积淀。公司2022年孵化自清华大学计算机系自然语言处理实验室（THUNLP）和北京智源人工智能研究院，由欧洲科学院院士、清华人工智能研究院常务副院长孙茂松教授领衔担任首席科学家。作为中国自然语言处理领域的奠基人之一，孙茂松教授团队长期深耕中文语义理解、对话系统、知识图谱等核心领域，2024年其牵头完成的“数据驱动与知识指导深度融合的法律智能体系化关键技术及其应用”项目，更是斩获中文信息处理领域最高荣誉——“钱伟长中文信息处理科学技术奖”技术发明类一等奖。这种顶尖学术背景不仅为深言科技带来技术先天优势，更使其成为大模型“国家队”——智源悟道大模型研发团队的核心成员。

CEO岂凡超｜清华大学计算机系博士、电子系学士、工商管理第二学士；发表顶级论文 30 余篇，申请发明专利 20 余项；曾任北京智源人工智能研究院“基于大模型的文本处理创新中心”主任；获中国人工智能学会优秀博士论文（全国 9 篇）、北京市优秀毕业生（博士、本科）、全国研究生人工智能创新大赛总冠军、中国 AI+ 创新创业大赛 NLP 大赛第二名；获福布斯亚洲 30U30、中关村 U30、2023 创业邦 30Under30+ 创业先锋、36氪 2023 年度 36Under36 创业者、2023 科创家等荣誉。

在人工智能领域，学术研究与产业应用之间常存在“死亡谷”。深言科技从诞生起就致力于搭建跨越鸿沟的桥梁，创始人岂凡超作为清华培养的优秀人才，带领团队将实验室成果转化为实用产品。核心团队集结了清华校内精英：多次斩获国家奖学金的算法骨干、全国人工智能比赛冠军、省高考状元出身的产品负责人，这支平均年龄不到30岁的队伍，成为技术攻坚的核心力量。岂凡超在访谈中曾提及，团队的初心就是“让清华实验室的技术走出象牙塔，解决真实世界的语言处理难题”。

以孙茂松教授为核心的学术指导团队，为深言科技提供持续技术滋养。在语鲸大模型研发中，团队引入清华NLP实验室在“语义增强算法”上的最新成果，该技术源自实验室承担的国家重点研发项目，能大幅提升模型对中文歧义句的理解精度。双方还联合开设“AI+中文信息处理”课程，孙茂松教授亲自授课，将产业实战案例融入课堂，已培养出30余名兼具学术素养与工程能力的复合型人才。2025年6月，双方更进一步，联合研发的语鲸LingoWhale-8B模型面向社会开源，成为国内首个在10B以下参数规模达到国际领先水平的中英双语模型。

02 技术破局：自研模型驱动的“中文革命”

深言科技选择了“自研模型+自研产品”的双轮驱动路线，这条道路虽前期投入巨大，却为长期发展奠定了核心竞争力。早在2021年1月，创始团队就参与完成智源悟道CPM大模型训练，次年12月率先运用可控预训练技术研发出CPM-3模型，成为国内最早实现指令可控生成的预训练模型之一。后续迭代的语鲸（LingoWhale）大模型更是实现技术跃迁，支持8K上下文长度，在C-Eval、CMMLU等权威评测中超越GPT-3.5 Turbo，稳居10B以下模型领先地位。

这种技术突破源于对中文特性的深刻理解。与英文不同，中文存在大量同音异形、一词多义、句法灵活等语言现象，国外大模型往往难以精准处理。深言科技针对性研发了“语境增强算法”，通过融合汉字形义特征与上下文语义关联，让模型能区分“银行存钱”与“河边银行”的差异，在中文成语理解、古文翻译等任务中准确率达96%以上。更值得关注的是其独创的“知识锚定机制”，将清华NLP实验室构建的中文知识图谱嵌入模型，有效降低了生成内容的幻觉率，在政务、法律等严肃场景中幻觉率控制在0.8%以内。

2025年6月发布的开源模型LingoWhale-8B，进一步彰显技术硬实力。该模型拥有80亿参数，在数万亿token的高质量中英数据上完成预训练，在覆盖52个学科的C-Eval基准测试中，综合得分超越同规模开源模型15%以上。为推动行业发展，深言科技采取“学术完全开放+商用许可”的模式：科研人员可免费下载使用，企业通过邮件申请获得许可后也可免费商用，这一举措吸引了超200家科研机构和中小企业接入，三个月内衍生出12款垂直领域应用。

技术自主可控带来了安全优势。深言科技的模型训练完全基于国产化算力基础设施，核心算法无对外依赖，2024年入选北京市通用人工智能产业创新伙伴计划时，其“全链路国产化技术栈”成为重要评审依据。在某国家部委的安全测评中，语鲸大模型成功通过72小时极限压力测试，未出现数据泄露或算法漏洞，成为首个进入该部委核心办公系统的民营大模型。

03 产品矩阵：从个人到企业的全场景覆盖

成立三年多，深言科技已构建起“C端工具引流+B端解决方案变现”的产品生态，服务用户超2000万，覆盖个人、企业、政务等多元场景。

反向词典WantWords堪称现象级C端产品，它彻底颠覆传统词典“查词找义”的逻辑，实现“描义找词”的逆向创新。用户输入“形容因喜悦而流泪”，系统能精准返回“喜极而泣”“潸然泪下”等词语，还会提供近义词辨析、使用场景示例。这款产品上线初期便因流量暴增导致服务器瘫痪，零宣传状态下半年积累800万用户，目前月活跃用户超70万，累计查询量突破1400万次。教育领域是其核心应用场景，全国超3000所中小学教师将其用于作文教学，某重点中学试点显示，使用WantWords的学生作文词汇丰富度提升42%。

智能写作工具“深言达意”则聚焦深度内容创作需求。针对公文写作场景，它内置了200余种官方文体模板，用户输入“某市2025年垃圾分类实施方案”，系统可在3分钟内生成包含指导思想、实施步骤、责任分工的完整草案，且能自动匹配当地政策语境。在企业场景中，其“行业适配引擎”可根据金融、法律、教育等不同领域的语言风格调整输出，某律师事务所使用后，合同初稿生成效率提升60%，格式错误率从12%降至0.3%。

个人信息助手“语鲸”瞄准信息过载痛点，打造“订阅-聚合-分析-总结”全流程服务。科研人员可设置关键词订阅领域论文，系统会自动提取核心观点并生成可视化对比报告；企业管理者通过绑定行业媒体，每日收到整合后的动态简报，某互联网公司CEO反馈，该工具使其信息获取时间从2小时缩短至20分钟。其独特的“多轮追问”功能还能实现深度信息挖掘，用户问“2025年低空经济政策”，不仅能获得政策原文，还可进一步追问“对无人机企业的影响”“地方配套措施”等衍生问题。

ToB领域的行业解决方案已成为营收主力。与人民网联合开发的智能政务办公平台，已在3个省级行政区、12个地级市的政务系统落地，具备公文智能审校、跨部门知识库协同、多语种会议纪要生成等功能。在某省会城市政务大厅，该平台将公文审批周期从平均3天压缩至2小时，因表述不规范导致的返工率下降78%。针对央企客户，深言科技推出定制化知识管理系统，某能源央企使用后，内部文档检索效率提升3倍，新员工培训周期缩短40%。

04 商业落地：从实验室到市场的“清华速度”

在AI创业公司普遍面临“技术难变现”的困境时，深言科技展现出惊人的商业化能力。正式运营仅2个多月，就与3家行业标杆客户达成数百万元合同；成立两年内，政务、金融、教育三大领域收入占比已达6:2:2，2024年估值升至12亿元人民币。

这种落地速度源于精准的客户定位。深言科技早期就锁定对中文处理要求极高的政务领域，凭借清华背景与技术实力突破圈层壁垒，成为多个国家部委的合作供应商。某部委信息中心负责人透露，选择深言科技主要基于两点：一是模型对公文语境的理解准确率达99.1%，远超同类产品；二是全链路国产化保障了数据安全。在央企市场，其解决方案已进入国家电网、中国石化等企业的供应链，2024年来自央企的订单同比增长180%。

资本市场对其商业模式高度认可。公司成立至今已完成4轮融资，总额超4亿元，投资方包括红杉中国、腾讯、好未来、春华资本等顶级机构，其中2023年腾讯领投的Pre-A+轮融资规模达10亿级。值得关注的是，深言科技曾拒绝美团的收购邀约，坚持独立发展路线，这种技术长期主义理念赢得了资本尊重。入选陆奇博士创办的“奇绩创坛”创业营更具含金量——该营录取率不足1%，而深言科技是当年唯一入选的中文大模型企业。

政策红利进一步加速商业化进程。2024年入选北京市通用人工智能产业创新伙伴计划后，深言科技获得海淀区提供的算力补贴、场景对接等支持，成功进入北京国际科技创新中心建设的核心供应商名录。借助这一身份，公司与石景山区智能计算产业加速器达成合作，将语鲸模型嵌入区域低空经济监控平台，实现无人机飞行指令的实时语义分析与风险预警。

国际化布局已悄然起步。目前虽以国内市场为主，但深言科技已与两家跨国咨询公司达成合作，为其提供中文市场分析的AI辅助工具。针对东南亚中文使用场景，团队正在优化模型的方言适配能力，计划2026年通过当地合作伙伴进入新加坡、马来西亚市场，首阶段聚焦跨境电商的中文客服智能化需求。

05 未来布局：从中文到全球的“AI语言革命”

面对大模型技术的快速迭代，深言科技已制定清晰的三年战略规划，核心围绕“技术深化、场景拓展、生态共建”三大方向推进。

技术路线上，多模态与长上下文是重点突破领域。计划2026年推出的语鲸3.0版本，将实现文本、图像、音频的深度融合处理，采用类似“思考者-说话者”的架构设计，其中“思考者”模块负责多模态信息理解，“表达者”模块专注内容生成。目前已完成音频编码器的初步研发，在中文语音识别任务中准确率达98.5%，未来可应用于会议实时转写、语音公文生成等场景。长上下文能力将从8K提升至32K，满足法律卷宗、学术论文等长文本处理需求，目前在20K文本摘要任务中已达到行业领先水平。

场景拓展聚焦垂直领域深耕。教育领域，正在开发“AI教师助手”系统，已与好未来达成合作，将其融入K12作文辅导场景，能实现“批改-讲评-范文生成”全流程服务，试点学校学生作文成绩平均提升15%；医疗领域，联合清华医学院研发的病历智能分析系统，可自动提取关键诊疗信息并生成规范病历，在3家三甲医院试点中，医生文书工作时间减少50%；金融领域，与某股份制银行合作的智能投研平台，能实时分析政策文本对行业的影响，辅助投资决策。

生态共建计划加速推进。与清华大学的合作将升级为“AI语言创新实验室”，重点攻关低资源语言处理、大模型可解释性等难题，计划三年内发表核心论文20篇以上。开源生态方面，在LingoWhale-8B基础上，2025年底将推出13B参数的开源版本，同时搭建开发者社区，提供API接口与工具链，目标吸引1000家企业接入。算力合作上，已与超智算科技达成战略协议，获得专属算力集群支持，模型训练效率提升40%，成本降低25%。

人才战略持续升级。公司官网显示，正面向全球招募大模型算法、多模态技术、行业解决方案等方向人才，研发岗位占比计划提升至60%。针对顶尖人才设立“深言学者”计划，提供百万年薪、科研经费自主权等激励，已吸引2名海外知名大学博士加盟。同时与12所高校建立实习基地，构建“校园招聘-联合培养-在职提升”的人才梯队。

结语：从清华园走向世界的“语言之光”

从实验室的算法原型到政务大厅的高效系统，从学生手中的查词工具到央企的知识平台，深言科技用三年时间证明：顶尖学术成果完全可以转化为改变行业的产品力量。其坚持的“中文优先”战略，不仅填补了国内技术空白，更在全球AI竞争中树立了“中国语言智能”的独特名片。

正如孙茂松教授在开源LingoWhale-8B模型发布会上所言：“让机器真正理解中文，不仅是技术的突破，更是文化自信的体现。”未来，随着语鲸3.0的迭代与国际化布局的推进，深言科技必将从“清华孕育的创新力量”成长为“全球中文智能的引领者”，在人工智能时代书写属于中国的语言传奇。

X媒体官｜Kevin 138 8041 8738

【声明】内容源于网络

外贸达人Cici

跨境分享阁 | 每天提供跨境参考

内容 45868

粉丝 5

外贸达人Cici 跨境分享阁 | 每天提供跨境参考

总阅读621.3k

粉丝5

内容45.9k