Simán hozza az OpenAI teljesítményét, de 98%-kal olcsóbb – a DeepSeek R1

2025.01.26.
Olvasási idő: 4 perc

Kínai, mesterséges intelligenciával foglalkozó kutatók elértek valamit, amiről sokan azt hitték, hogy fényévekre van tőlünk. Egy ingyenes, nyílt forráskódú mesterséges intelligenciamodell, amely képes elérni vagy meghaladni az OpenAI legfejlettebb rendszereinek teljesítményét. Ami még figyelemre méltóbbá teszi ezt, az az, ahogyan ezt a kutatók elérték. Hagyták, hogy a mesterséges intelligencia próbálgatással és tévedéssel tanítsa magát, hasonlóan ahhoz, ahogyan az emberek tanulnak. A DeepSeek-R1-Zero, egy magas skálán működő megerősítő tanulás (RL) révén, előzetes lépésként felügyelt finomhangolás (SFT) nélkül betanított modell figyelemre méltó érvelési képességeket mutat.

A „megerősítéses tanulás” egy olyan módszer, amelyben egy modellt jutalmaznak a jó döntésekért és büntetnek a rossz döntésekért, anélkül, hogy a modell tudná melyik melyik. Egy sor döntés után aztán a modell megtanulja, hogy olyan utat kövessen, amelyet ezek az eredmények megerősítettek.

Kezdetben, a felügyelt finomhangolási fázisban egy csapat közli a modellel a kívánt kimenetet, így adva neki kontextust, hogy tudja, mi a jó és mi nem. Ez vezet a következő fázishoz, a megerősítéses tanuláshoz, amelyben a modell különböző kimeneteket ad, és az emberek rangsorolják a legjobbakat. A folyamatot addig ismételjük újra és újra, amíg a modell nem tudja, hogyan kell következetesen kielégítő eredményeket szolgáltatni. A DeepSeek R1 a mesterséges intelligencia fejlesztésének egyik csúcsragadózója. Mivel az embernek minimális szerepe van a képzésében.

Már a DeepSeek működése is lenyűgöző

Más modellekkel ellentétben, amelyeket hatalmas mennyiségű felügyelt adatom működtetnek, a DeepSeek R1 elsősorban mechanikus megerősítő tanulással tanul. Lényegében kísérletezéssel és visszajelzéssel találja ki a dolgokat. A modell még olyan kifinomult képességeket is kifejlesztett, mint az önellenőrzés és a reflexió, anélkül, hogy kifejezetten erre programozták volna. Ahogy a modell végigment a betanítási folyamaton, természetesen megtanult több gondolkodási időt szánni az összetett problémákra, és kifejlesztette azt a képességet, hogy saját hibáit is észrevegye. A kutatók kiemeltek egy olyan aha pillanatot, amikor a modell megtanulta újraértékelni a problémák eredeti megközelítését. Pedig erre nem volt programozva.

A teljesítményszámok lenyűgözőek. Az AIME 2024 matematikai indikátoron a DeepSeek R1 79,8%-os sikerességi arányt ért el, ezzel felülmúlta az OpenAI o1 következtetési modelljét. A szabványosított kódolási teszteken szakértői szintű teljesítményt mutatott, a Codeforces-on 2029 Elo értéket ért el, és az emberi versenytársak 96,3%-át felülmúlta. Ami azonban igazán kiemeli a DeepSeek R1-et a többi közül, az a költsége. A modell egymillió tokenenként mindössze 0,14 dollárért futtatja a lekérdezéseket, szemben az OpenAI 7,50 dolláros árával, ami 98%-kal olcsóbb. A szabadalmaztatott modellekkel ellentétben a DeepSeek R1 kódja és képzési módszerei teljesen nyílt forráskódúak az MIT licenc alapján. Azaz bárki használhatja és módosíthatja is a modellt.

A visszhangok

Az eredmény komoly visszhangot váltott ki. Az Nvidia vezető kutatója, Dr. Jim Fan adta talán a legérdekesebb kommentet. Ő arról írt, hogy, hogy most egy olyan periódus van, ahol egy nem amerikai vállalat tartja életben az OpenAI eredeti küldetését – a valóban nyílt forrású kutatást a határok eléréséhez. Awni Hannun, az Apple kutatója megemlítette, hogy az emberek a modell egyszerűsített verzióját lokálisan futtathatják a Mac-jeiken.

Az Apple készülékei hagyományosan gyengék voltak a mesterséges intelligencia terén, mivel nem kompatibilisek az Nvidia CUDA szoftverével, de úgy tűnik, ez most változik. Alex Cheema AI-kutató például képes volt a teljes modell futtatására, miután 8 Apple Mac Mini egység együttes futtatásának erejét használta fel. A legérdekesebb reakciókat azonban az váltotta ki, hogy a nyílt forráskódú iparág mennyire közel áll a szabadalmaztatott modellekhez. És hogy ez a fejlemény milyen hatással lehet az OpenAI-ra, mint az érvelő mesterséges intelligencia modellek vezetőjére.

A Stability AI alapítója, Emad Mostaque provokatív álláspontot képviselt, azt sugallva, hogy ez az eredmény nyomást gyakorol a jobban finanszírozott versenytársakra. És az iparágban nincs egyedül ezzel az állásponttal. A legtöbben káros hatásként értelmezik a DeepSeek teljesítményét. Mintha valaki Ferrarit töredékáron kezdene el, szinte ingyen osztogatni.

Egy teszt

Egy tesztben meg is próbálták felmérni a DeepSeek képességeit. Megkérdezték a modelleket, hogy mondják meg hány R betű van az eper szóban (értelemszerűen angolul). A modellek általában azért küzdenek a helyes válasz megadásával, mert nem szavakkal dolgoznak – hanem tokenekkel, a fogalmak digitális reprezentációival. A GPT-4o kudarcot vallott, az OpenAI o1 sikerrel járt – és a DeepSeek R1 is. Az o1 nagyjából csak megadta a választ, a DeepSeek viszont hosszas érvelési folyamattal, szlengeket használva írta meg válaszát. A modell végül eljutott a helyes eredményre, de sok időt töltött érveléssel és a tokenek kiadásával. Tipikus árképzési körülmények között ez hátrány lenne.

De a dolgok jelenlegi állása szerint sokkal több tokent tud kiadni, mint az OpenAI o1, és még mindig versenyképes. Akit érdekel a modell helyi futtatása, letöltheti a Githubról vagy a Hugging Face-ről. A felhasználók letölthetik, futtathatják, finomhangolással különböző szakterületekhez igazíthatják. Ha pedig online szeretné kipróbálni valaki a modellt, látogasson el a Hugging Chat vagy a DeepSeek webportáljára, amely jó alternatívája a ChatGPT-nek. Rákkutatásban még nem biztos, hogy segíthet, de lehet, hogy nem csak a millliárdosok használhatják az AI lehetőségeit.

Tomasito

Leginkább a technológiai és tudományos témák mozgatnak meg, főleg a blokkláncok és a kriptovaluták technológiai háttere, a valós felhasználási esetek valamint a privacy kapcsán felmerülő lehetőségek érdekelnek. Pénzügy-IT háttérrel bírok, a kriptovaluták mellett elég sok különféle területen építettem tapasztalatot.

Legfrissebb hírek

Kina, hadsereg, robotfarkas

Fegyveres robotfarkasokat tesztel a kínai hadsereg

Míg nemrég még a Kawasaki fejlesztésén ámuldozott a világ – egy olyan robotlovon, amely hegyoldalakon és patakokon is képes átvágni –, most a kínai hadsereg mutatott valami egészen mást: robotfarkasokat. A fegyverrel
Simpson poén

Elképesztő kutatómunka állt egyetlen poén mögött

Meglepő módon egyetlen poén is több hétnyi kutatómunkát jelentett a The Simpsons legendás forgatókönyvírója számára. Josh Weinstein elárulta: egy 28 éves vicchez olyan aprólékos kutatásra volt szükség, ami szinte filmbe illő. Amikor
nukleáris háború

Mennyi ideig tartana egy nukleáris háború?

Az Egyesült Államok reakciója egy nukleáris támadásra szigorúan titkos, de a Washington Post lépésről lépésre rekonstruálta, mi történne, ha egy ellenséges ország nukleáris rakétát lőne Amerika felé. És eljő az apokalipszis! Mi
lengyel piramisok

Ősi „lengyel piramisokat” tártak fel

Lengyelország középső részén, egy természetvédelmi területen újabb ősi megalitikus síremlékeket tártak fel – ezek az impozáns, több mint 5500 éves építmények méretük miatt a „lengyel piramisok” nevet kapták. Titokzatos sírhalmok Poznańi régészek
hu_HUHungarian

Mielőtt továbblépnél