Bahay > Balita > Ang kakayahang magamit ng Deepseek ay isang alamat: ang rebolusyonaryong AI ay talagang nagkakahalaga ng $ 1.6 bilyon upang mabuo

Ang kakayahang magamit ng Deepseek ay isang alamat: ang rebolusyonaryong AI ay talagang nagkakahalaga ng $ 1.6 bilyon upang mabuo

Gayunpaman, mas mura pa ito kaysa sa mga katunggali nito.Ang bagong chatbot mula sa Deepseek ay nagpakilala sa sarili sa akin sa nakakaintriga na paglalarawan: hi, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka.Today, ang artipisyal na katalinuhan ng Deepseek ay lumitaw bilang isang kakila -kilabot na compe
By Scarlett
Apr 06,2025

Gayunpaman, mas mura pa ito kaysa sa mga katunggali nito.

Ang bagong chatbot mula sa Deepseek ay nagpakilala sa akin sa nakakaintriga na paglalarawan:

Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka.

Ngayon, ang artipisyal na katalinuhan ng Deepseek ay lumitaw bilang isang kakila -kilabot na katunggali sa merkado, lalo na na nag -aambag sa isa sa mga pinakamalaking pagbagsak ng presyo ng stock ng Nvidia.

Pagsubok sa Deepseek Larawan: ensigame.com

Ang nakikilala sa modelong ito ay ang makabagong mga pamamaraan ng arkitektura at pagsasanay. Isinasama nito ang maraming mga teknolohiyang paggupit:

Multi-Token Prediction (MTP) : Sa halip na hulaan ang isang salita nang sabay-sabay, ang mga modelo ng pagtataya ng maraming mga salita nang sabay-sabay sa pamamagitan ng pagsusuri ng iba't ibang mga bahagi ng isang pangungusap. Ang pamamaraang ito ay makabuluhang nagpapabuti sa parehong kawastuhan at kahusayan ng modelo.

Paghahalo ng mga eksperto (MOE) : Ang arkitektura na ito ay gumagamit ng iba't ibang mga neural network upang maproseso ang data ng pag -input. Pinapabilis nito ang pagsasanay sa AI at nagpapabuti sa pagganap. Sa Deepseek V3, 256 Neural Networks ay ginagamit, na may walong naaktibo para sa bawat gawain sa pagproseso ng token.

Multi-head latent pansin (MLA) : Ang mekanismong ito ay tumutulong na tumuon sa pinakamahalagang bahagi ng isang pangungusap. Ang MLA ay kumukuha ng mga pangunahing detalye mula sa mga fragment ng teksto nang paulit -ulit sa halip na isang beses lamang, binabawasan ang posibilidad ng nawawalang mahalagang impormasyon. Pinapayagan nito ang AI na makuha ang mga mahahalagang nuances sa data ng pag -input nang mas epektibo.

Ang kilalang Startup ng Tsino na Deepseek ay nagsasabing lumikha ng isang mapagkumpitensyang modelo ng AI na may kaunting gastos, na nagsasabi na ginugol lamang nila ang $ 6 milyon sa pagsasanay sa malakas na neural network na Deepseek V3 at ginamit lamang ang 2048 na mga graphic processors.

Deepseek v3 Larawan: ensigame.com

Gayunpaman, ang mga analyst mula sa semianalysis ay nagsiwalat na ang Deepseek ay nagpapatakbo ng isang malaking computational infrastructure na binubuo ng humigit -kumulang 50,000 NVIDIA HOPPER GPU. Kasama dito ang 10,000 H800 unit, 10,000 mas advanced H100s, at karagdagang mga batch ng H20 GPU. Ang mga mapagkukunang ito ay ipinamamahagi sa maraming mga sentro ng data at ginagamit para sa pagsasanay sa AI, pananaliksik, at pagmomolde sa pananalapi.

Ang kabuuang pamumuhunan ng kumpanya sa mga server ay nagkakahalaga ng halos $ 1.6 bilyon, na may mga gastos sa pagpapatakbo na tinatayang $ 944 milyon.

Ang Deepseek ay isang subsidiary ng Chinese Hedge Fund High-flyer, na nag-iwas sa pagsisimula bilang isang hiwalay na dibisyon na nakatuon sa mga teknolohiya ng AI noong 2023. Hindi tulad ng karamihan sa mga startup na nagrenta ng kapangyarihan ng computing mula sa mga tagapagbigay ng ulap, ang Deepseek ay nagmamay-ari ng sariling mga sentro ng data, na binibigyan ito ng ganap na kontrol sa pag-optimize ng modelo ng AI at pagpapagana ng mas malaking pagpapatupad ng mga makabagong ideya. Ang kumpanya ay nananatiling pondo sa sarili, na positibong nakakaapekto sa kakayahang umangkop at bilis ng paggawa ng desisyon.

Deepseek Larawan: ensigame.com

Bukod dito, ang ilang mga mananaliksik sa Deepseek ay kumita ng higit sa $ 1.3 milyon taun -taon, na umaakit sa nangungunang talento mula sa nangungunang unibersidad ng Tsino (ang kumpanya ay hindi umarkila ng mga dayuhang espesyalista).

Kahit na isinasaalang -alang ito, ang kamakailang pag -angkin ng Deepseek sa pagsasanay sa pinakabagong modelo nito para sa $ 6 milyon lamang ay tila hindi makatotohanang. Ang figure na ito ay tumutukoy lamang sa gastos ng paggamit ng GPU sa panahon ng pre-pagsasanay at hindi account para sa mga gastos sa pananaliksik, pagpipino ng modelo, pagproseso ng data, o pangkalahatang mga gastos sa imprastraktura.

Mula nang ito ay umpisahan, ang Deepeek ay namuhunan ng higit sa $ 500 milyon sa pag -unlad ng AI. Gayunpaman, hindi tulad ng mga mas malalaking kumpanya na pasanin ng burukrasya, ang compact na istraktura ng Deepseek ay nagbibigay -daan sa aktibo at epektibong ipatupad ang mga makabagong AI.

Deepseek Larawan: ensigame.com

Ang halimbawa ng Deepseek ay nagpapakita na ang isang mahusay na pinondohan na independiyenteng kumpanya ng AI ay maaaring makipagkumpetensya sa mga pinuno ng industriya. Gayunpaman, binibigyang diin ng mga eksperto na ang tagumpay ng kumpanya ay higit sa lahat dahil sa bilyun -bilyong pamumuhunan, mga teknikal na tagumpay, at isang malakas na koponan, habang ang pag -angkin tungkol sa isang "rebolusyonaryong badyet" para sa pagbuo ng mga modelo ng AI ay medyo pinalaki.

Gayunpaman, ang mga gastos sa mga kakumpitensya ay mananatiling mas mataas. Halimbawa, ihambing ang gastos ng pagsasanay sa modelo: Ang Deepseek ay gumugol ng $ 5 milyon sa R1, habang ang Chatgpt4O ay nagkakahalaga ng $ 100 milyon.

Nangungunang Balita

Copyright semu.cc © 2024 — All rights reserved