BABILong — бенчмарк для оценки LLM на больших контекстах

16.12.2024 10:24

Habr.com

Привет, Хабр! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.

Разработчики современных языковых моделей соревнуются в длине контекста и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?

Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который мы привезли на NeurIPS в этом году. Он оценивает то, насколько успешно современные модели умеют искать информацию в собственных гигантских контекстах. Оказалось, что зачастую главное — это не размер, а умение пользоваться.

В этой статье расскажем подробнее о наших экспериментах, а также о том, как эффективно использовать длинный контекст.

BABILong — бенчмарк для оценки LLM на больших контекстах

Новости спорта

Андрей Рублёв вылетел на старте турнира в Индиан-Уэллсе

В Польше протестующие заблокировали границу с Германией

Самолет разбился в Пенсильвании, есть пострадавшие

Пенальти принесли победу: футбольная «Волга» обыграла «Родину-2»

Предупреждение о непогоде в Башкирии: ожидаются метель, гололед и сильный ветер