A SenseTime, a kínai arcfelismerő technológiájáról ismert mesterséges intelligencia cég, kedden bemutatta új nyílt forráskódú SenseNova U1 modelljét, amely állítása szerint sokkal gyorsabban képes képeket generálni és értelmezni, mint az amerikai versenytársak vezető modelljei. Az innováció segíthet a vállalatnak visszanyerni elveszített pozícióit, miután lemaradt Kína AI-fejlesztési versenyének élmezőnyétől.
A modell különlegessége, hogy közvetlenül képekkel dolgozik, anélkül hogy először szöveggé alakítaná azokat, ami felgyorsítja a folyamatot és csökkenti a szükséges számítási kapacitást. "A modell teljes gondolkodási folyamata már nem korlátozódik szövegre. Képekkel is képes érvelni" – nyilatkozta Dahua Lin, a SenseTime társalapítója és vezető tudósa. Lin, aki egyben a Hong Kongi Kínai Egyetem információmérnöki professzora is, szerint a közvetlenül képeket feldolgozó modellek lehetővé teszik majd, hogy a robotok jobban megértsék a fizikai világot.
A DeepSeek legújabb modelljéhez hasonlóan a U1 is kínai gyártású chipeken működtethető. "Számos kínai chipgyártó befejezte a kompatibilitási optimalizálást az új modellünkkel" – mondta Lin. A megjelenés napján tíz kínai chiptervező, köztük a Cambricon és a Biren Technology jelentette be, hogy hardvereik támogatják a U1-et. Ez azért fontos, mert az amerikai exportkorlátozások megakadályozzák a kínai cégeket a világ legfejlettebb AI chipjeihez való hozzáférésben, különösen a tanításhoz használt processzorokat illetően, amelyeket jelenleg elsősorban nyugati cégek, mint az Nvidia fejlesztenek.
Lin elismerte, hogy a SenseTime "továbbra is törekszik arra, hogy különböző chipeken való tanítást előmozdítsa", ugyanakkor hozzátette: "Lehet, hogy még mindig szükségünk lesz a legjobb chipek használatára, hogy biztosítsuk iterációnk sebességét."
A SenseTime ingyenesen elérhetővé tette a U1 modellt a Hugging Face-en és a GitHubon, ami újabb jele annak, hogy a kínai vállalatok egyre aktívabb szereplői a nyílt forráskódú mesterséges intelligencia fejlesztésnek.
