Egy új kutatás szerint a mesterséges intelligencia képességeit értékelő benchmarkok és tesztelési módszerek nem kellően pontosak, ami azt jelenti, hogy túlbecsülhetjük az AI valódi teljesítményét. A kutatók rámutattak, hogy a jelenleg használt értékelési rendszerek hibás eredményeket adhatnak.
A tanulmány azt vizsgálta, hogyan működnek az AI modellek tesztelésére használt benchmarkok, és azt találta, hogy az értékelési folyamat nem tükrözi pontosan a modellek valódi képességeit. Ez különösen fontos kérdés a munkaerőpiacon, ahol egyre több vállalat támaszkodik AI-alapú eszközökre toborzásban, teljesítményértékelésben és egyéb HR-folyamatokban.
A kutatás következményei messzemenőek lehetnek. Ha az AI benchmarkok nem megbízhatóak, akkor a vállalatok olyan technológiákra alapozhatják üzleti döntéseiket, amelyek valójában nem olyan hatékonyak, mint ahogy azt a tesztek sugallják. Ez különösen problémás lehet olyan kritikus területeken, mint a munkavállalók kiválasztása vagy teljesítményük értékelése.
A felfedezés arra ösztönzi a szakembereket, hogy óvatosabban értékeljék az AI-rendszerek tényleges képességeit, és ne támaszkozzanak kizárólag a benchmark-eredményekre. A HR-szakembereknek és vezetőknek fontos, hogy megértsék: az AI-eszközök ugyan hasznosak lehetnek, de teljesítményük nem feltétlenül olyan kiemelkedő, mint ahogy a marketinganyagok vagy teszteredmények alapján gondolnánk.
