Kina preko DeepSeek-a juriša na globalno AI tržište

Kina preko DeepSeek-a juriša na globalno AI tržište

Kineska kompanija sa netipičnom organizacionom strukturom ubrzava lansiranje novog modela vještačke inteligencije

DeepSeek nastoji da iskoristi svoju prednost.

Kineski startap izazvao je rasprodaju akcija na globalnim tržištima u vrijednosti većoj od preko bilion dolara prošlog mjeseca, lansirajući jeftini AI model koji je nadmašio mnoge zapadne konkurente.

Sada, kompanija sa sjedištem u Hangdžou ubrzava lansiranje nasljednika januarskog R1 modela, prema tvrdnjama troje ljudi upoznatih s poslovanjem firme.

DeepSeek je prvobitno planirao da predstavi model R2 početkom maja, ali sada želi da ga pusti u upotrebu što je prije moguće.

Kompanija navodi da se nada da će novi model omogućiti bolje kodiranje i sposobnost rezonovanja na drugim jezicima, a ne samo na engleskom.

Konkurenti još procjenjuju posljedice pojave R1 modela, koji je razvijen pomoću manje moćnih Nvidia čipova, ali je konkurentan modelima američkih tehnoloških giganata, koji su u njihovu izradu uložili stotine milijardi dolara.

“Lansiranje DeepSeek R2 modela moglo bi biti ključni trenutak u AI industriji”, rekao je Vidžajasimha Alilugata, operativni direktor indijskog tehnološkog provajdera Zensar. Uspjeh DeepSeek-a u stvaranju isplativih AI modela “vjerovatno će podstaći kompanije širom svijeta da ubrzaju sopstvene napore… narušavajući monopol nekoliko dominantnih igrača u ovom sektoru”, dodao je.

Model R2 vjerovatno će izazvati zabrinutost američke vlade, koja je liderstvo u oblasti AI označila kao nacionalni prioritet. Njegovo lansiranje moglo bi dodatno mobilisati kineske vlasti i kompanije, od kojih desetine već navode da su počele da integrišu DeepSeek modele u svoje proizvode.

O DeepSeek-u se malo zna, a njegov osnivač, Liang Venfeng, postao je milijarder zahvaljujući svom kvantitativnom hedž fondu High-Flyer. Liang, koga je bivši poslodavac opisao kao “povučenog i introvertnog”, nije dao nijedan intervju za medije od jula 2024.

Rojters je razgovarao s dvanaest bivših zaposlenih, kao i sa profesionalcima koji su upoznati s operacijama DeepSeek-a i njegove matične kompanije High-Flyer. Takođe su analizirani članci državnih medija, objave na društvenim mrežama kompanija i naučni radovi koji datiraju još od 2019.

Iz tih izvora se stvara slika kompanije koja funkcioniše više kao istraživačka laboratorija nego kao profitno orijentisana firma i koja je oslobođena hijerarhijskih tradicija zahtjevne kineske tehnološke industrije – čak i dok preuzima odgovornost za ono što mnogi investitori smatraju najnovijim probojem u vještačkoj inteligenciji.

Liang je rođen 1985. u ruralnom selu u južnoj kineskoj provinciji Guangdong. Kasnije je stekao diplomu iz komunikacionog inženjeringa na elitnom Univerzitetu Džeđang.

Jedan od njegovih prvih poslova bio je vođenje istraživačkog odjeljenja u kompaniji za pametnu obradu slike u Šangaju. Njegov tadašnji šef, Džou Čaoen, izjavio je za državne medije 9. februara da je Liang angažovao vrhunske inženjere za algoritme i upravljao timom koristeći “ravnu” organizacionu strukturu.

U kompanijama DeepSeek i High-Flyer, Liang je slijedio isti princip, izbjegavajući tradicionalne prakse kineskih tehnoloških giganata, poznatih po rigidnoj hijerarhiji, niskim platama za mlade zaposlene i tzv. “996” radnoj kulturi – od 9 ujutru do 9 uveče, šest dana u nedjelji.

Svoju kancelariju u Pekingu otvorio je u neposrednoj blizini Univerziteta Činghua i Univerziteta u Pekingu, dvije najprestižnije obrazovne institucije u Kini. Prema riječima dvoje bivših zaposlenih, Liang se redovno bavio tehničkim detaljima i radio rame uz rame sa pripravnicima iz Generacije Z i nedavno diplomiranim stručnjacima, koji su činili većinu njegovog tima. Takođe su opisali radno okruženje kao naklonjeno saradnji, sa standardnim radnim vremenom od osam sati dnevno.

“Liang nam je davao slobodu i tretirao nas kao stručnjake. Konstantno je postavljao pitanja i učio zajedno s nama”, rekao je 26-godišnji istraživač Benjamin Liu, koji je napustio kompaniju u septembru. “DeepSeek mi je omogućio da preuzmem odgovornost za ključne djelove razvoja, što je bilo izuzetno uzbudljivo”.

Osnivač DeepSeek-a Liang Venfeng je u svojim kompanijama izbjegavao tradicionalne prakse kineskih tehnoloških giganata, poznatih po rigidnoj hijerarhiji, niskim platama za mlade zaposlene i tzv. „996“ radnoj kulturi – od 9 ujutru do 9 uveče, šest dana u nedjelji

Liang nije odgovorio na pitanja poslata putem DeepSeek-a.

Dok su Baidu i drugi kineski tehnološki giganti 2023. godine užurbano razvijali svoje verzije ChatGPT-a kako bi profitirali od globalnog AI buma, Liang je za kineski medij Waves prošle godine izjavio da je namjerno izbjegavao velike investicije u razvoj aplikacija, fokusirajući se umjesto toga na poboljšanje kvaliteta AI modela.

Prema tvrdnjama troje ljudi upoznatih s njegovim poslovanjem, i DeepSeek i High-Flyer poznati su po izuzetno visokim platama. U High-Flyer-u nije neuobičajeno da iskusni naučnik za podatke zarađuje 1,5 miliona juana godišnje, dok konkurenti rijetko plaćaju više od 800.000, rekao je jedan od izvora.

Ovakva finansijska stabilnost dolazi od uspjeha kompanije High-Flyer, koja je postala jedan od najuspješnijih kvantitativnih fondova u Kini. Čak i nakon što je kineska vlada pooštrila regulative u sektoru, fond i dalje upravlja desetinama milijardi juana, prema informacijama iz industrije.

Uspjeh DeepSeek-a sa niskobudžetnim AI modelom zasnovan je na decenijskom i značajnom ulaganju High-Flyer-a u istraživanje i računarstvo, prema tvrdnjama troje upućenih izvora.

Ovaj kvantitativni fond bio je rani pionir u AI trgovanju, a jedan od njegovih izvršnih direktora rekao je još 2020. da High-Flyer “sve ulaže” u vještačku inteligenciju, reinvestirajući 70% svojih prihoda, uglavnom u AI istraživanje.

High-Flyer je 2020. i 2021. potrošio 1,2 milijarde juana na dva superkompjuterska AI klastera. Drugi klaster, Fire-Flyer II, sastojao se od oko 10.000 Nvidia A100 čipova, korišćenih za treniranje AI modela.

DeepSeek tada još nije bio osnovan, pa je naglo povećanje računske snage privuklo pažnju kineskih regulatora za hartije od vrijednosti, kazao je upućeni izvor.

“Regulatori su željeli da znaju zašto im je potrebno toliko čipova? Kako će ih koristiti? Kakav će to uticaj imati na tržište?” rekao je izvor.

Vlasti su ipak odlučile da ne intervenišu, što se pokazalo kao ključan potez za sudbinu DeepSeek-a, jer su SAD 2022. godine zabranile izvoz A100 čipova u Kinu, a u tom trenutku High-Flyer II je već bio u funkciji.

Peking sada slavi DeepSeek, ali mu je dao instrukcije da ne komunicira s medijima bez prethodnog odobrenja, rekao je izvor upoznat s kineskom politikom.

“Vlasti su tražile od Lianga da ostane van fokusa javnosti, jer su zabrinute da bi previše medijske pompe privuklo nepotrebnu pažnju”, dodao je izvor.

Kineska vlada, Ministarstvo trgovine i regulator za hartije od vrijednosti nijesu odgovorili na zahtjeve za komentar.

Kao jedna od rijetkih kompanija s velikim A100 klasterom, High-Flyer i DeepSeek uspjeli su da privuku najbolje istraživačke talente u Kini, rekli su dvojica bivših zaposlenih.

“Ključna prednost ogromnih računarstvenih resursa je omogućavanje eksperimentisanja u velikim razmjerama”, rekao je bivši zaposleni Liu.

Neki zapadni AI preduzetnici, poput izvršnog direktora Scale AI Aleksandra Vanga, tvrdili su da je DeepSeek imao čak 50.000 vrhunskih Nvidia čipova, koji su zabranjeni za izvoz u Kinu. On nije dostavio dokaze za ovu tvrdnju.

DeepSeek nije odgovorio na Vangove tvrdnje. Dva bivša zaposlena pripisala su uspjeh kompanije Liangovom fokusu na isplativiju AI arhitekturu.

Startap je koristio tehnike poput Mixture-of-Experts (MoE) i Multihead Latent Attention (MLA), koje značajno smanjuju računske troškove, pokazuju istraživački radovi kompanije.

Tehnika MoE dijeli AI model na različite oblasti ekspertize i aktivira samo one relevantne za upit, za razliku od uobičajenih arhitektura koje koriste cijeli model.

MLA arhitektura omogućava modelu da istovremeno procesuira različite aspekte iste informacije, pomažući mu da efikasnije prepozna ključne detalje.

Iako su konkurenti poput francuskog Mistrala razvijali modele zasnovane na MoE, DeepSeek je bila prva firma koja se u velikoj mjeri oslonila na ovu arhitekturu dok je istovremeno dostigla nivo performansi skupljih modela.

Prema procjeni analitičara iz brokerske firme “Bernstein”, cijena DeepSeek-a bila je 20 do 40 puta niža od one koju OpenAI naplaćuje za ekvivalentne modele.

Zasada, zapadni i kineski tehnološki giganti nagovijestili su planove za nastavak velikih ulaganja u AI, ali je uspjeh modela R1 i ranijeg V3 podstakao neke da promijene svoje strategije.

OpenAI je ovog mjeseca smanjio cijene, dok je Googleov Gemini uveo jeftinije verzije pristupa. Nakon lansiranja R1, OpenAI je takođe predstavio model O3-Mini, koji koristi manje računske snage.

Adnan Masud iz američkog provajdera tehnoloških usluga UST rekao je za Rojters da je njegov laboratorijski tim testirao DeepSeek-ov R1 i utvrdio da on često koristi tri puta više tokena, odnosno jedinica podataka koje AI model obrađuje, za rezonovanje u odnosu na optimizovani model OpenAI-ja.

Čak i prije nego što je R1 privukao globalnu pažnju, postojali su znaci da je DeepSeek osvojio naklonost Pekinga. U januaru su državni mediji objavili da je Liang prisustvovao sastanku sa kineskim premijerom Li Ćiangom u Pekingu kao imenovani predstavnik AI sektora, ispred lidera poznatijih kompanija.

Naknadna pompa oko troškovne konkurentnosti njegovih modela dodatno je učvrstila uvjerenje Pekinga da može nadmašiti SAD u inovacijama, pri čemu su kineske kompanije i državne institucije usvojile DeepSeek modele brzinom koja nije pružena nijednoj drugoj kompaniji.

Najmanje 13 kineskih gradskih uprava i 10 državnih energetskih kompanija saopštilo je da su integrisali DeepSeek u svoje sisteme, dok su tehnološki giganti Lenovo, Baidu i Tencent – vlasnik najveće kineske društvene mreže WeChat – ugradili DeepSeek modele u svoje proizvode.

Kineski lider Si Đinping i Li Ćiang “signalizirali su da podržavaju DeepSeek”, rekao je Alfred Vu, stručnjak za kinesku politiku sa Singapurske škole javnih politika Li Kuan Ju. “Sada ga svi jednostavno podržavaju”.

Ovo opšte prihvatanje u Kini dolazi u trenutku kada vlade od Južne Koreje do Italije uklanjaju DeepSeek iz nacionalnih prodavnica aplikacija, pozivajući se na zabrinutost zbog privatnosti.

“Ako DeepSeek postane vodeći AI model u kineskim državnim institucijama, zapadni regulatori bi to mogli smatrati još jednim razlogom za pooštravanje ograničenja na AI čipove ili softversku saradnju”, rekao je Stiven Vu, stručnjak za AI i osnivač hedž fonda “Carthage Capital”.

Dodatna ograničenja na napredne AI čipove predstavljaju izazov koji je i sam Liang priznao.

“Naš problem nikada nije bilo finansiranje”, rekao je u julu za Waves. “To je embargo na vrhunske čipove”.