但是,它仍然比竞争对手便宜。
DeepSeek的新聊天机器人以这种有趣的描述向我介绍了自己:
嗨,我是被创建的,所以您可以问任何问题,并得到一个甚至可能让您感到惊讶的答案。
如今,DeepSeek的人工智能已成为市场上强大的竞争对手,尤其是NVIDIA最大的股票价格下跌之一。
图片:ensigame.com
该模型的区别是其创新的架构和培训方法。它结合了几种尖端技术:
多语预测(MTP) :该模型不是一次通过分析句子的不同部分同时预测多个单词,而不是一次预测一个单词。这种方法显着提高了模型的准确性和效率。
专家的混合物(MOE) :该体系结构采用各种神经网络来处理输入数据。它加速了AI培训并提高了性能。在DeepSeek V3中,使用了256个神经网络,每个令牌处理任务都会激活8个神经网络。
多头潜在注意力(MLA) :这种机制有助于专注于句子的最重要部分。 MLA反复从文本片段中提取关键细节,而不仅仅是一次,从而减少了缺少重要信息的可能性。这使AI能够更有效地捕获输入数据中的关键细微差别。
这家著名的中国初创公司DeepSeek声称创建了一个竞争性的AI模型,其成本最低,表明他们在培训强大的神经网络DeepSeek V3上仅花费了600万美元,仅使用了2048个图形处理器。
图片:ensigame.com
但是,半分析的分析师表明,DeepSeek运营着大型计算基础设施,其中包括大约50,000个NVIDIA HOPPER GPU。其中包括10,000个H800单元,10,000个高级H100和额外的H20 GPU。这些资源分布在几个数据中心,并用于AI培训,研究和财务建模。
该公司对服务器的总投资约为16亿美元,运营费用估计为9.44亿美元。
DeepSeek是中国对冲基金高飞行器的子公司,该基金在2023年以独立的AI部门为重点,该部门在2023年侧重于AI技术。与大多数从Cloud Profister租用计算能力的初创公司不同,DeepSeek拥有其自己的数据中心,使其对AI模型的优化和实现Innovation Innerovation for Innerovation in Innerovation for Innerovation进行了完全控制。该公司仍然是自筹资金的,这对其灵活性和决策速度产生了积极影响。
图片:ensigame.com
此外,DeepSeek的一些研究人员每年收入超过130万美元,吸引了中国领先的大学的顶尖人才(该公司不雇用外国专家)。
即使考虑到这一点,DeepSeek最近以600万美元的价格培训其最新模式的主张似乎是不现实的。该数字仅是指在预培训期间使用GPU的成本,并且不考虑研究费用,改进,数据处理或整体基础设施成本。
自成立以来,DeepSeek已在AI开发方面投资了超过5亿美元。但是,与官僚主义负担负担的大型公司不同,DeepSeek的紧凑结构使其可以积极有效地实施AI创新。
图片:ensigame.com
DeepSeek的例子表明,一家资金充足的独立AI公司可以与行业领导人竞争。尽管如此,专家们强调,该公司的成功主要是由于数十亿美元的投资,技术突破和强大的团队,而对开发AI模型的“革命性预算”的说法有些夸张。
尽管如此,竞争对手的成本仍然更高。例如,比较模型培训的成本:DeepSeek在R1上花费了500万美元,而Chatgpt4o的成本为1亿美元。