目前,美国的人工智能也仍然具备中国对手尚无法匹敌的能力。例如,谷歌的一项研究项目能让用户的网络浏览器与聊天机器人Gemini对话,这或有助于实现人工智能“代理”(agent)与互联网互动的前景。OpenAI的聊天机器人则不仅会帮用户编写代码,还会帮助他们运行代码。
DeepSeek创始人梁文峰1985年出生于广东省湛江市,2010年获得信息与通信工程硕士学位,毕业后先后创立杭州雅克比投资管理有限公司,以及杭州幻方科技有限公司,致力于通过数学和人工智能进行量化投资。2023年,梁文峰创办DeepSeek,进军通用人工智能领域。
延伸阅读
OpenAI还在酝酿多项创新技术,包括据说能力堪比人类专家的“博士级超级代理”。
DeepSeek的优势也在于它的算法改进和优化,它在算力上得到了节省,在输入数据和语料库上,不像以前要求那么大的数据量和大的算力。
梁文锋为何平地一声雷?
DeepSeek相比美国生成式AI的优势是什么?
受中国的审查政策影响,DeepSeek并非总是知无不言。《经济学人》尝试向它询问台湾时,它生成几句就停下来,还删除之前的回答,要求用户“聊点别的”。
DeepSeek的大型语言模型V3完整版本有近700吉字节(gigabytes),大到只能在专业硬件上运行,参数量多达6850亿个,比以往任何供免费下载的模型都要大。相较之下,脸书母公司Meta的Llama 3.1模型只有4050亿个参数。人工智能编码平台Aider的测试结果显示,DeepSeek表现仅次于OpenAI的o1模型。
据估计,西方主要AI模型使用了1万6000个专用晶片。DeepSeek的文件则显示,它仅用了约2048块英伟达H800晶片,这款晶片原本是针对中国市场的特供版,在某些性能参数上有所降低,以符合美国2022年对华出口管制。2023年10月,H800也纳入美国对中国出口禁令中。
DeepSeek的劣势是什么?
更令人惊艳的是,DeepSeek是以极低的成本,实现顶级的性能。独立研究公司Melius Research指出,DeepSeek很可能掌握了利用更高效内存和学习策略,来降低模型训练成本的方法,它的模型生成信息的成本仅为OpenAI的ChatGPT模型的十分之一。
中国媒体指出,DeepSeek的成功与梁文锋在团队管理和技术研发上的独特策略有着密切关系。梁文锋曾说,他的团队“没有什么高深莫测的奇才”,都是没多少经验的年轻人。他认为,“创新须要摆脱惯性,经验有时会成为包袱”。
中国企业深度求索(DeepSeek)的生成式人工智能(generative AI)推出后迅速火爆全球,以极低的成本实现了与ChatGPT等西方顶尖模型媲美的性能,让原本遥遥领先的美国AI企业深感危机重重。