Добавить новость
Hi-Tech.Mail.Ru
Январь
2025

Бесплатный чат-бот DeepSeek серьезно прокачали: он стал намного мощнее

0

«Рассуждающая» модель может посоревноваться с o1 от OpenAI в математике и программировании. Рассказываем, как ее протестировать.

Китайская компания DeepSeek выпустила новую модель искусственного интеллекта DeepSeek-R1, которая, по утверждению разработчиков, демонстрирует производительность, сопоставимую с моделью o1 от OpenAI. При этом ее код открыт, а еще она работает в России без ограничений. 

О релизе DeepSeek объявила в соцсети X. DeepSeek-R1 способна к самопроверке, рефлексии и генерации длинных цепочек рассуждений. Компания поделилась результатами новой модели в различных тестах, оценивающих способности ИИ. 

Оценка математических способностей DeepSeek-R1 проводилась на двух различных бенчмарках: MATH-500 и AIME 2024. В первом модель достигла показателя 97.3%, чуть больше, чем у o1 от OpenAI (96.4%). Во втором DeepSeek-R1 набрал 79.8%, а o1 — 79.2% В тесте на логическое мышление и общие знания (MMLU) DeepSeek-R1 показала результат 90.8%, что близко к показателю OpenAI-o1-1217 (91.8%). 

Оценка DeepSeek-R1 в задачах, требующих навыков программирования, проводилась с использованием бенчмарков SWE-bench Verified, Codeforces и GPQA Diamond. В первом DeepSeek-R1 демонстрирует результат 49.2%. Этот показатель незначительно выше, чем у o1 (48.9%). На платформе Codeforces китайская модель достигла 96.3%, что чуть ниже результата o1 (96.6%). В тесте GPQA Diamond результат DeepSeek-R1 составил 71.5% а o1 — 75.7%. При этом R1 обошла o1-mini во всех бенчмарках. 




Moscow.media
Частные объявления сегодня





Rss.plus




Спорт в России и мире

Новости спорта


Новости тенниса
ATP

Даниил Медведев выступит на турнире категории ATP-250 в Марселе






Более 500 коллективов объединил конкурс народного творчества в Предгорном округе

В МИДе назвали некорректными акценты генсека ООН в выступлении о жертвах холокоста

В Ульяновской области леса станут здоровее

ФСБ разоблачила коррупционеров в Минобороны: они продавали системы ПВО