0
0

被外媒称为AI界最大黑马的国产之光DeepSeek问世,硅谷大牛慌了

优沃思海外PR
2025-01-08
28
shoptop 【建站扶持计划】

免订阅费,免费SEO与代建站,16大主流媒体免费开户

   立即查看>>

大数跨境
导读:花费558万美元,造出辟比ChatGPT大模型。

2024年末,AI界再次传来重磅消息。深度求索发布大模型DeepSeek V3,完全开源,免费使用。最重要的是,这家被称为“AI界拼多多”的杭州企业再次将大模型训练成本砍一刀。

DeepSeek V3训练耗时两个月,仅花费558万美元,但性能却辟比ChatGPT。而GPT-4o等大模型的成本约为一亿美元,这家初创企业以一举之力颠覆大众和业界对AI高昂研发成本的固有印象。

新年伊始,“雷军千万年薪招揽95后天才少女”的消息一出迅速抢占各大头条,关于AI人才身世背景的争论此起彼伏。北师大本科、北大硕士、先后在阿里达摩学院和DeepSeek就职的罗福莉即将加入小米在圈内早已不是新鲜事,看似利好小米的新闻,实则也为前东家DeepSeek的热度再添了把火。

01 一年崛起:深度求索的非凡历程

2023年5月,量化投资基金幻方正式将大模型研究团队拆分,成立深度求索公司。DeepSeek背后的推手正是创始人梁文锋,曾在浙江大学学习人工智能。而梁文锋在接受采访时表示,在美国政府对中国实施AI芯片限制之前,幻方量化已经购买了10000多台GPU,确保了DeepSeek的开发。

DeepSeek的团队以刚毕业的学生和新晋AI从业者为主,他们拥有无限的创造力和激情。梁文峰表示,在DeepSeek,每个人都可以随时调用训练集群的卡,无需审批。

这种开放和自由的氛围使得DeepSeek能够迅速崛起,成为中国乃至全球少有的兼具强大基础设施工程能力和模型研究能力的团队。

2024一年来,DeepSeek共发布8篇研究论文。从中映射出的是在资源限制下,一家依托本土人才的AI企业,奋力追逐甚至赶超行业巨头的快速崛起历程。

02与主流大模型硬碰硬:DeepSeek V3的卓越表现

DeepSeek V3的预训练阶段仅需266.4万个H800 GPU小时,后续训练阶段需10万个GPU小时。大概两个月时间,DeepSeek就利用2048个GPU完成了模型的训练,仅花费558万美元。

相比之下,Meta的Llama 3.1使用了3080万个GPU小时,约为DeepSeek V3的11倍,而Mata使用的是比H800更为先进的H100芯片(该芯片不允许出口到中国)。

英伟达高级研究科学家、人工智能代理计划负责人Jim Fan在X上称:“(DeepSeek的模型)表明,资源限制迫使你以惊人的方式重塑自我”。指的是DeepSeek以远低于其他科技公司打造LLM的成本来开发产品。

A面是DeepSeek在性能上能与AI巨头同台比武,而DeepSeek的B面在于极富创新活力的团队。深度求索共有139名工程师,包括创始人,但OpenAI有1200名研究人员,由OpenAI前成员创立的Anthropic则有500名研究员。AI科技大牛纷纷感叹这家仅百余人的企业未来潜力不可小觑。

网络上流传着一张DeepSeek错误地将自己标识为ChatGPT的图片引发争议,其实这无伤大雅。V3并不是第一个出现身份混淆的AI模型,机器学习专家认为“互联网上很多数据已经被GPT污染了”。

结   语

截至目前,无论是收获的超高关注度还是引发的行业震荡,都已证明DeepSeek大模型的成功。花费百万美元、团队仅百余人、一年时间追赶行业巨头。在算力和资源限制的双重挑战下,DeepSeek让大家看到了中国企业的实力。

新的一年,期待更多中国AI企业在世界舞台上亮剑比拼。

【声明】该内容为作者个人观点,大数跨境仅提供信息存储空间服务,不代表大数跨境观点或立场。版权归原作者所有,未经允许不得转载。如发现本站文章存在版权问题,请联系:contact@10100.com
优沃思海外PR
领先的外媒发稿机构,专注于为DTC品牌、出海企业提供优质的海外发稿服务。
内容 172
粉丝 6
咨询
关注
认证用户
优沃思海外PR 深圳优沃思文化传媒有限公司 领先的外媒发稿机构,专注于为DTC品牌、出海企业提供优质的海外发稿服务。
总阅读1072.3k
粉丝6
内容172
咨询
关注