Добавить новость
ru24.net
Все новости
Декабрь
2024

BABILong — бенчмарк для оценки LLM на больших контекстах

0

Привет, Хабр! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.

Разработчики современных языковых моделей соревнуются в длине контекста и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?

Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который мы привезли на NeurIPS в этом году. Он оценивает то, насколько успешно современные модели умеют искать информацию в собственных гигантских контекстах. Оказалось, что зачастую главное — это не размер, а умение пользоваться.

В этой статье расскажем подробнее о наших экспериментах, а также о том, как эффективно использовать длинный контекст.

Читать далее



Moscow.media
Частные объявления сегодня





Rss.plus




Спорт в России и мире

Новости спорта


Новости тенниса
Андрей Рублёв

Андрей Рублёв вылетел на старте турнира в Индиан-Уэллсе






В Польше протестующие заблокировали границу с Германией

Самолет разбился в Пенсильвании, есть пострадавшие

Пенальти принесли победу: футбольная «Волга» обыграла «Родину-2»

Предупреждение о непогоде в Башкирии: ожидаются метель, гололед и сильный ветер