Egy kínai mesterséges intelligencia startup forradalmasíthatja a világ technológiai iparát.


Kifejlesztettek egy olyan kiemelkedő nyelvi modellt, amely minden korábbinál ügyesebben kezeli az erőforrásokat.

Egy viszonylag kevésbé ismert kínai startup, a DeepSeek, provokatív kérdéseket vet fel az Egyesült Államok dominanciájával kapcsolatban a mesterséges intelligencia világában. A cég a közelmúltban bemutatta legújabb nagy nyelvi modelljét (LLM), amely a híres OpenAI és Meta rendszereinek teljesítményével vetekszik, ám mindezt lényegesen kevesebb hardveres erőforrást igényelve.

Konkrétabban: a modell képzéséhez sokkal kevesebb Nvidia GPU-ra van szükség, mint az amerikai konkurenseinek. Ez pedig megkérdőjelezi azokat a gigantikus infrastrukturális beruházásokat, melyek többek között Donald Trump közelmúltban beiktatott amerikai elnök is tervez az OpenAI, az Oracle és a Softbank közreműködésével. De kétségessé teszi a Szilícium-völgy eddigi és tervezett beruházásainak megtérülését is.

Mint a Financial Times írja, a kínai vállalat iOS-re készített MI-asszisztense a hétvégén a letöltési lista élére rakétázott az USA-ban. Berobbanása megfektette azoknak a cégeknek az árfolyamát, melyek eddig épp az MI-fejlesztéseiknek köszönhetően erősödtek. Jelentősen esett az Nvidia, és kisebb mértékben a Microsoft és a Meta árfolyama. A negatív hangulatot megérezte a csipgyártó-berendezéseket gyártó ASML, valamint olyan, az MI-ökoszisztémához fontos infrastrukturális elemeket szállító cégek is, mint a Siemens Energy vagy a Schneider Electric.

Minden tud, mint a nagyok, csak sokkal olcsóbban

A Forbes hétvégén közzétett elemzése szerint a startup legfrissebb modelljének képzése töredékébe került, mint pl. az OpenAI modelljeié. A lap szerint ez még akkor is drámai hatással lehet a piacra, ha a kínai cég által közölt 5,5 millió dolláros költség csak egy része lehet a teljes képzési költségnek. (A Forbes azt a lehetőséget sem veti el, hogy modell kiadását szándékosan időzítettek Donald Trump beiktatásának közelébe, hogy jobban kihangsúlyozhassák: MI-fejlesztésben már nem az USA diktálja az iramot.)

Szakértők egyetértenek abban, hogy a DeepSeek sikerének több kulcseleme is van. A versenytársakkal ellentétben a DeepSeek egyedülállóan kizárólag megerősítő tanulási módszereket alkalmaz, amelyek során a rendszer próbálgatás révén, saját hibáit elemezve és algoritmikus jutalmak segítségével fejlődik. Ez a megközelítés lényegesen kifinomultabb következtetési képességeket eredményez, lehetővé téve a modell számára, hogy hatékonyabban alkalmazkodjon az új kihívásokhoz és környezetekhez.

Szintén csökkenti a költségeket az ún. MoE (Mixture-of-Experts) architektúra. Ez azt jelenti, hogy adott feladathoz csak a paraméterek egy kis részét aktiválják. Ezt úgy kell elképzelni, mint amikor egy összetett problémát részekre bontanak, és mindegyik részlettel csak az adott terület szakértői foglalkoznak.

Az adatfeldolgozási képességek fejlesztésében kulcsszerepet játszik az MLA (Multi-Head Latent Attention) eljárás, amely képes komplex kapcsolatok feltárására és a különböző bemeneti szempontok egyidejű kezelésére. Ez a megoldás hozzájárul ahhoz, hogy a modell mélyebben és átfogóbban "értelmezhesse" az információkat. Ezen felül a költséghatékonyság növelésében is jelentős szerepe van a desztillációs technikának. Ez a folyamat a nagyobb modellek tudását és képességeit egy kompaktabb, hatékonyabb modellbe integrálja. Olyan ez, mint amikor egy tapasztalt oktató tudását átadja tanítványának, aki így képes hasonló szintű teljesítményre, bár kevesebb tapasztalattal és erőforrással rendelkezik.

A kínai startup új szintre emelte a versenyt azzal, hogy API-ját jelentősen kedvezőbb áron kínálja, mint a konkurensei. Míg millió bemeneti tokenért csupán 0,55 dollárt kér, a kimeneti tokenekért (szintén millió tokenenként) 2,19 dollárt számláz. Ezzel szemben az OpenAI esetében ezek az árak 15, illetve 60 dollárra rúgnak. Továbbá, a kínai vállalat modellje nyílt forráskódú, ami nemcsak a licencdíjak terén biztosít jelentős megtakarítást, hanem a közösségi együttműködést is lehetővé teszi a fejlesztések során. (A technikai részletek itt érhetők el.)

Egy ezer milliárd dolláros befektetés megtérülése erősen kétséges.

A Financial Times a svájci UBS befektetési bankra hivatkozva azt írja, hogy tavaly a nagy amerikai technológiai vállalatok kb. 224 milliárd dollárt költöttek MI-fejlesztésekre, idén pedig a beruházások volumene elérheti a 280 milliárd dollárt. Mindehhez jön az OpenAI, az Oracle és a SoftBank 500 milliárdja, amit négy év alatt akarnak elkölteni az amerikai MI-infrastruktúra fejlesztésére.

A DeepSeek új modellje azonban erősen megkérdőjelezi mindezeknek a beruházásoknak az indokoltságát. Egy tokiói alapkezelő az nyilatkozta az üzleti lapnak, hogy a befektetők gyorsan lereagálják, hogy olcsóbban is lehet MI-t építeni, mint eddig gondolták.

Related posts