【CNMO科技消息】1月26日,CNMO注意到,有外媒发布文章指出,一家名为DeepSeek的中国AI初创企业在硅谷引起轰动,其凭借成本效益高的语言模型DeepSeek-R1,与OpenAI的ChatGPT展开了竞争。DeepSeek推出了两款先进的AI语言模型:面向广泛应用的DeepSeek-V3和旨在作为ChatGPT替代品的DeepSeek-R1。
DeepSeek的创始人梁文峰曾是一位量化对冲基金经理,他组建了一支由来自中国顶尖大学的年轻且雄心勃勃的研究人员组成的团队,并为他们提供了充足的资源和自由,以探索创新想法。这种方法推动了多头潜在注意力(MLA)和专家混合等突破性技术的发展,显著减少了训练模型所需的计算资源。
DeepSeek-V3和ChatGPT虽然都是先进的AI模型,但在关键方面存在差异。DeepSeek-V3针对中文理解和文化背景进行了优化,同时支持全球应用,并特别针对教育、医疗保健和客户服务等行业进行了定制,尤其关注中国市场。相比之下,ChatGPT在全球多样化的数据集上进行训练,更强调英语和西方背景,广泛应用于通用任务、创意写作、编码等多个领域。
外媒报道
两款模型功能强大,但根据任务和语言的不同,其性能可能有所差异。DeepSeek-V3在中文特定任务上可能表现出色,而ChatGPT在英语占比重或全球多样化场景中表现更佳。此外,两款模型都遵循严格的道德准则,但其准则可能会根据地区法规和文化规范略有不同。
外媒称,DeepSeek致力于开源开发,赢得了国际AI社区的赞誉。通过免费提供其模型,DeepSeek正在促进全球范围内的协作并加速AI研究,这对于全球研究人员和开发人员来说尤为重要。
DeepSeek的开源方法也挑战了主要科技公司开发的闭源模型当前的趋势。向更高的透明度和可访问性转变可能会使AI技术民主化,使更多个人和组织能够为其发展做出贡献并从中受益。DeepSeek的模型对AI开发的未来具有重大意义,因为它允许更多样化的贡献者参与并加速创新的步伐。