Nové AI modely si vymýšlejí víc než ty starší. OpenAI ale neví, proč k nepřesnostem dochází

19.04.2025 14:15

Forbes.cz

OpenAI představila nové AI modely o3 a o4-mini, které mají vynikat v takzvaných „reasoning“ úlohách, tedy úlohách vyžadujících logické uvažování. Přestože dosahují lepších výsledků v oblastech programování nebo matematiky, podle interních testů si vymýšlejí nepravdivé informace častěji než jejich předchůdci.

Zatímco starší modely o1 a o3-mini si vymýšlely v patnácti procentech případů, model o3 si vymýšlel ve třetině, o4-mini doknce v 48 procentech. Znepokojivé je především to, že OpenAI momentálně neví, proč k nárůstu dochází. Ve své technické zprávě firma uvádí, že „je potřeba další výzkum“, a upozorňuje, že větší počet tvrzení v odpovědích vede nejen k větší přesnosti, ale i k vyššímu počtu nepřesností.

Třetí strany, jako výzkumná organizace Transluce, navíc upozorňují na případy, kdy si verze o3 vymýšlí i samotný proces odpovídání. Nepravdivé výpovědi snižují důvěryhodnost modelu v citlivých odvětvích, jako je právo nebo zdravotnictví.

Startupy jako Workera, které nové modely už testují v reálných firemních procesech, upozorňují na konkrétní nedostatky. Workera pomáhá firmám identifikovat dovednosti zaměstnanců a zefektivnit jejich další rozvoj. Využívá model o3 při generování kódu a technických odpovědí. Přestože oceňuje jeho výkonnost, upozorňuje, že model si někdy vymýšlí neexistující webové odkazy – například odkáže na dokumentaci, která ve skutečnosti neexistuje nebo odkaz nefunguje.

Jedním z možných řešení, kterou OpenAI zvažuje, jak snížit míru nepřesností, je propojení modelů s webovým vyhledáváním. Například GPT-4o s přístupem k internetu dosahuje na testu SimpleQA až 90procentní přesnosti. OpenAI ale připouští, že potlačení nepřesností zůstává jednou z nejsložitějších výzev, se kterou se vývojáři budou muset i nadále potýkat.

The post Nové AI modely si vymýšlejí víc než ty starší. OpenAI ale neví, proč k nepřesnostem dochází appeared first on Forbes.

Moscow.media

Частные объявления сегодня

Rss.plus

Все новости за 24 часа

Nové AI modely si vymýšlejí víc než ty starší. OpenAI ale neví, proč k nepřesnostem dochází

Новости спорта

«Мне нужна эта машина». Соболенко — о выходе в финал турнира WTA-500 в Штутгарте

Школьница из Новоржевского округа вышла в финал конкурса «История местного самоуправления моего края»

МГТ Безрукова покажет трагедию человека, предавшего Победу

Источник стабильности и опорная точка: в МГППУ прошла весенняя этнопсихологическая школа

Toyota сбила двух пешеходов рядом со зданием РАН в Москве

ChatGPT v patách Googlu. OpenAI spustila internetový vyhledávač zdarma pro všechny

DeepSeek, kam se podíváš. Asijský konkurent ChatGPT si podmanil celou Čínu