但是,它仍然比競爭對手便宜。
DeepSeek的新聊天機器人以這種有趣的描述向我介紹了自己:
嗨,我是被創建的,所以您可以問任何問題,並得到一個甚至可能讓您感到驚訝的答案。
如今,DeepSeek的人工智能已成為市場上強大的競爭對手,尤其是NVIDIA最大的股票價格下跌之一。
圖片:ensigame.com
該模型的區別是其創新的架構和培訓方法。它結合了幾種尖端技術:
多語預測(MTP) :該模型不是一次通過分析句子的不同部分同時預測多個單詞,而不是一次預測一個單詞。這種方法顯著提高了模型的準確性和效率。
專家的混合物(MOE) :該體系結構採用各種神經網絡來處理輸入數據。它加速了AI培訓並提高了性能。在DeepSeek V3中,使用了256個神經網絡,每個令牌處理任務都會激活8個神經網絡。
多頭潛在註意力(MLA) :這種機制有助於專注於句子的最重要部分。 MLA反復從文本片段中提取關鍵細節,而不僅僅是一次,從而減少了缺少重要信息的可能性。這使AI能夠更有效地捕獲輸入數據中的關鍵細微差別。
這家著名的中國初創公司DeepSeek聲稱創建了一個競爭性的AI模型,其成本最低,表明他們在培訓強大的神經網絡DeepSeek V3上僅花費了600萬美元,僅使用了2048個圖形處理器。
圖片:ensigame.com
但是,半分析的分析師表明,DeepSeek運營著大型計算基礎設施,其中包括大約50,000個NVIDIA HOPPER GPU。其中包括10,000個H800單元,10,000個高級H100和額外的H20 GPU。這些資源分佈在幾個數據中心,並用於AI培訓,研究和財務建模。
該公司對服務器的總投資約為16億美元,運營費用估計為9.44億美元。
DeepSeek是中國對沖基金高飛行器的子公司,該基金在2023年以獨立的AI部門為重點,該部門在2023年側重於AI技術。與大多數從Cloud Profister租用計算能力的初創公司不同,DeepSeek擁有其自己的數據中心,使其對AI模型的優化和實現Innovation Innerovation for Innerovation in Innerovation for Innerovation進行了完全控制。該公司仍然是自籌資金的,這對其靈活性和決策速度產生了積極影響。
圖片:ensigame.com
此外,DeepSeek的一些研究人員每年收入超過130萬美元,吸引了中國領先的大學的頂尖人才(該公司不僱用外國專家)。
即使考慮到這一點,DeepSeek最近以600萬美元的價格培訓其最新模式的主張似乎是不現實的。該數字僅是指在預培訓期間使用GPU的成本,並且不考慮研究費用,改進,數據處理或整體基礎設施成本。
自成立以來,DeepSeek已在AI開發方面投資了超過5億美元。但是,與官僚主義負擔負擔的大型公司不同,DeepSeek的緊湊結構使其可以積極有效地實施AI創新。
圖片:ensigame.com
DeepSeek的例子表明,一家資金充足的獨立AI公司可以與行業領導人競爭。儘管如此,專家們強調,該公司的成功主要是由於數十億美元的投資,技術突破和強大的團隊,而對開發AI模型的“革命性預算”的說法有些誇張。
儘管如此,競爭對手的成本仍然更高。例如,比較模型培訓的成本:DeepSeek在R1上花費了500萬美元,而Chatgpt4o的成本為1億美元。