Добавить новость
ru24.net
News in English
Июнь
2024

NASA-IBM Collaboration Develops INDUS Large Language Models for Advanced Science Research

0

By Derek Koehl Collaborations with private, non-federal partners through Space Act Agreements are a key component in the work done by NASA’s Interagency Implementation and Advanced Concepts Team (IMPACT). A collaboration with International Business Machines (IBM) has produced INDUS, a comprehensive suite of large language models (LLMs) tailored for the domains of Earth science, biological […]

4 min read

NASA-IBM Collaboration Develops INDUS Large Language Models for Advanced Science Research

Five orange stars connected in a V-like shape with blue lines, like a diagram of the constellation of Indus. Each of the stars is labeled with one of the NASA Science Mission Directorate divisions: astrophysics, Earth science, heliophysics, planetary science, and biological and physical sciences.
Named for the southern sky constellation, INDUS (stylized in all caps) is a comprehensive suite of large language models supporting five science domains.
NASA

By Derek Koehl

Collaborations with private, non-federal partners through Space Act Agreements are a key component in the work done by NASA’s Interagency Implementation and Advanced Concepts Team (IMPACT). A collaboration with International Business Machines (IBM) has produced INDUS, a comprehensive suite of large language models (LLMs) tailored for the domains of Earth science, biological and physical sciences, heliophysics, planetary sciences, and astrophysics and trained using curated scientific corpora drawn from diverse data sources.

INDUS contains two types of models; encoders and sentence transformers. Encoders convert natural language text into numeric coding that can be processed by the LLM. The INDUS encoders were trained on a corpus of 60 billion tokens encompassing astrophysics, planetary science, Earth science, heliophysics, biological, and physical sciences data. Its custom tokenizer developed by the IMPACT-IBM collaborative team improves on generic tokenizers by recognizing scientific terms like biomarkers and phosphorylated. Over half of the 50,000-word vocabulary contained in INDUS is unique to the specific scientific domains used for its training. The INDUS encoder models were used to fine tune the sentence transformer models on approximately 268 million text pairs, including titles/abstracts and questions/answers.

By providing INDUS with domain-specific vocabulary, the IMPACT-IBM team achieved superior performance over open, non-domain specific LLMs on a benchmark for biomedical tasks, a scientific question-answering benchmark, and Earth science entity recognition tests. By designing for diverse linguistic tasks and retrieval augmented generation, INDUS is able to process researcher questions, retrieve relevant documents, and generate answers to the questions. For latency sensitive applications, the team developed smaller, faster versions of both the encoder and sentence transformer models.

Validation tests demonstrate that INDUS excels in retrieving relevant passages from the science corpora in response to a NASA-curated test set of about 400 questions. IBM researcher Bishwaranjan Bhattacharjee commented on the overall approach: “We achieved superior performance by not only having a custom vocabulary but also a large specialized corpus for training the encoder model and a good training strategy. For the smaller, faster versions, we used neural architecture search to obtain a model architecture and knowledge distillation to train it with supervision of the larger model.”

NASA Chief Scientist Kate Calvin gives remarks in a NASA employee town hall on how the agency is using and developing Artificial Intelligence (AI) tools to advance missions and research, Wednesday, May 22, 2024, at the NASA Headquarters Mary W. Jackson Building in Washington.
NASA Chief Scientist Kate Calvin gives remarks in a NASA employee town hall on how the agency is using and developing Artificial Intelligence (AI) tools to advance missions and research, Wednesday, May 22, 2024, at the NASA Headquarters Mary W. Jackson Building in Washington. The INDUS suite of models will help facilitate the agency’s AI goals.
NASA/Bill Ingalls

INDUS was also evaluated using data from NASA’s Biological and Physical Sciences (BPS) Division. Dr. Sylvain Costes, the NASA BPS project manager for Open Science, discussed the benefits of incorporating INDUS: “Integrating INDUS with the Open Science Data Repository  (OSDR) Application Programming Interface (API) enabled us to develop and trial a chatbot that offers more intuitive search capabilities for navigating individual datasets. We are currently exploring ways to improve OSDR’s internal curation data system by leveraging INDUS to enhance our curation team’s productivity and reduce the manual effort required daily.”

At the NASA Goddard Earth Sciences Data and Information Services Center (GES-DISC), the INDUS model was fine-tuned using labeled data from domain experts to categorize publications specifically citing GES-DISC data into applied research areas. According to NASA principal data scientist Dr. Armin Mehrabian, this fine-tuning “significantly improves the identification and retrieval of publications that reference GES-DISC datasets, which aims to improve the user journey in finding their required datasets.” Furthermore, the INDUS encoder models are integrated into the GES-DISC knowledge graph, supporting a variety of other projects, including the dataset recommendation system and GES-DISC GraphRAG.

Kaylin Bugbee, team lead of NASA’s Science Discovery Engine (SDE), spoke to the benefit INDUS offers to existing applications: “Large language models are rapidly changing the search experience. The Science Discovery Engine, a unified, insightful search interface for all of NASA’s open science data and information, has prototyped integrating INDUS into its search engine. Initial results have shown that INDUS improved the accuracy and relevancy of the returned results.”

INDUS enhances scientific research by providing researchers with improved access to vast amounts of specialized knowledge. INDUS can understand complex scientific concepts and reveal new research directions based on existing data. It also enables researchers to extract relevant information from a wide array of sources, improving efficiency. Aligned with NASA and IBM’s commitment to open and transparent artificial intelligence, the INDUS models are openly available on Hugging Face. For the benefit of the scientific community, the team has released the developed models and will release the benchmark datasets that span named entity recognition for climate change, extractive QA for Earth science, and information retrieval for multiple domains. The INDUS encoder models are adaptable for science domain applications, and the INDUS retriever models support information retrieval in RAG applications.

A paper on INDUS, “INDUS: Effective and Efficient Language Models for Scientific Applications,” is available on arxiv.org.

Learn more about the Science Discovery Engine here.

Share

Details

Last Updated
Jun 25, 2024

Related Terms




Moscow.media
Частные объявления сегодня





Rss.plus



Заведующий рефракционным отделением клиники микрохирургии глаза АйМед Кирилл Светлаков: как снизить нагрузку на глаза при работе с гаджетами

Покушение на Дональда Трампа в США. Могут проверить "Секретные службы".

Студия звукозаписи в Москве. Студия звукозаписи цена.

РОССИЯ ПРОВЕРИТ ЦРУ И СЕКРЕТНУЮ СЛУЖБУ США?!


Спасти всех от всего: краткий курс помощи при вывихе, обмороке, ожоге и прочих неприятностях

Культурный центр «Интеграция» на Саянской приглашает на бесплатные мастер-классы

Финалист шоу “Голос” Сергей Арутюнов остался без голоса. Артист находится в больнице, состояние тяжёлое.

В Москве стартует Восьмая межрегиональная выставка «КРАСНЫЕ ВОРОТА/ПРОТИВ ТЕЧЕНИЯ»


UFC Denver video: Abdul Razak Alhassan vs. Cody Brundage ends in no-contest after illegal blows

Warner will not be considered for 2025 Champions Trophy: Bailey

The Truth About Female Sexual Desire

The Faculty of International Journalism and Mass Communications of the Eurasian International University conducts an additional set of applicants!


В Жуковском на дороге один водитель убил другого арматурой

В Москве стартует Восьмая межрегиональная выставка «КРАСНЫЕ ВОРОТА/ПРОТИВ ТЕЧЕНИЯ»

Портативный ТСД корпоративного класса Saotron RT-T70

В Ленинском районе Крыма проверили бывших мигрантов, не вставших на воинский учет


Former Bungie lead counsel explains how the studio nailed one of Destiny 2's most infamous leakers

How well does XCOM: Enemy Within hold up today?

Для Titan Slayer: Idle RPG проходит предрегистрация в Google Play

I didn't expect my favorite cozy MMO to do a crossover with a Finnish children's series



Компания ICDMC приняла участие в XIV Фармацевтической конференции «Зелёный крест»

Заведующий рефракционным отделением клиники микрохирургии глаза АйМед Кирилл Светлаков: как снизить нагрузку на глаза при работе с гаджетами

Лучшие Анекдоты из Питера за 13.07.2024

Финалист шоу “Голос” Сергей Арутюнов остался без голоса. Артист находится в больнице, состояние тяжёлое.




Покушение на Дональда Трампа в США. Могут проверить "Секретные службы".

Mash: в Москве 15 человек отравились после покупки шаурмы в точке общепита

Лекция о роли времени в столичном метро пройдет в Центре перспективных разработок

Выставка к юбилею Московского зоопарка открылась в парке искусств «Музеон»


Путин готовится к небывалой катастрофе — эксперт

СК: Не менее 15 человек отравились в хостеле на севере столицы

Собянин: Москва создает одну из крупнейших в мире цифровых диагностических сетей

В Госдепе объяснили, почему не оглашают возможные встречи дипломатов США и РФ


Алькарас обратился к Джоковичу после финала Уимблдона

Хорошо, но без финала: как Медведев завершил выступление на Уимблдоне

Рыбакина столкнулась с критикой из России после неудачи на Уимблдоне

Крейчикова выиграла второй турнир «Большого шлема» и вернется в топ-10


СК: Не менее 15 человек отравились в хостеле на севере столицы

Росреестр отметил снижение спроса на вторичное жилье в Москве

Собянин: Москва создает одну из крупнейших в мире цифровых диагностических сетей

В Жуковском отпустили дагестанцев после убийства мужчины арматурой


Музыкальные новости

Дважды занесен в Книгу рекордов РФ: чем запомнился VK Fest 2024

Концерт «Танцуй джаз!» пройдет в рамках фестиваля «Осень в Швейцарии»

Сазыкина ищет справедливости в суде: требует от ПЦ Матвиенко 570 000 руб. за нарушение авторских прав

Компания ICDMC приняла участие в XIV Фармацевтической конференции «Зелёный крест»



Складной Motorola Razr 50 рассекречен официальным источником

Заведующий рефракционным отделением клиники микрохирургии глаза АйМед Кирилл Светлаков: как снизить нагрузку на глаза при работе с гаджетами

Финалист шоу “Голос” Сергей Арутюнов остался без голоса. Артист находится в больнице, состояние тяжёлое.

Росгвардия завершила весеннюю призывную кампанию в Кузбассе


Опубликован рейтинг упоминаемости губернаторов в Telegram-каналах за июнь 2024 года

Собянин объявил о начале строительства станции метро «Достоевская»

Собянин: Три дороги будут построены в Москве по концессионным соглашениям

Молодая жена Евгения Петросяна отправилась с дочкой в круиз по Карелии


В Москве впервые конфисковали электросамокат за наезд на пешехода

Верховая езда, сап-серфинг и йога: летний досуг долголетов в Ленинском округе

В Москве впервые изъяли электросамокат за пьяное вождение и ДТП с пешеходом

Летний туристический проект «Умные путешествия» запущен в Подмосковье


Путин готовится к небывалой катастрофе — эксперт

Глава Минфина РФ Антон Силуанов и губернатор Андрей Чибис обсудили финансовую поддержку Мурманской области со стороны федерального правительства

Путин получил поддержку могущественной группировки внутри России — Хазин




Юлия Навальная обжаловала заочный арест по делу об участии в экстремистском сообществе

Басманный суд: защита обжаловала заочный арест Юлии Навальной

Адвокаты Навальной обжаловали ее заочный арест в России


Верховая езда, сап-серфинг и йога: летний досуг долголетов в Ленинском округе

Заведующий рефракционным отделением клиники микрохирургии глаза АйМед Кирилл Светлаков: как снизить нагрузку на глаза при работе с гаджетами

Финалист шоу “Голос” Сергей Арутюнов остался без голоса. Артист находится в больнице, состояние тяжёлое.

Остап Стужев изучает историю Карадагского змея с точки зрения квантовой физики


Киевский политолог: Запад предлагал «убрать Зеленского» и давал РФ координаты

Окружение Зеленского рассказало о разочаровании саммитом НАТО

СМИ узнали об отчаянии в окружении Зеленского

Сам придумал наступление, сам отразил: пресс-конференция Зеленского превратилась в сеанс одновременного вранья, шантажа и гипноза


Долгожданный хоккейный кемп школы Дедова Ивана «РФ Хоккей» победил в Москве!

Экс-футболист «Манчестер Юнайтед» Канчельскис пострадал в драке у бара в Москве

Экс-футболист «Манчестер Юнайтед» Канчельскис прокомментировал инцидент с дракой

Верховая езда, сап-серфинг и йога: летний досуг долголетов в Ленинском округе


Чувашия и Беларусь — крепкий союз



Собянин рассказал о создании сети цифровых диагностических устройств

Сергей Собянин: Развиваем умные сервисы

Собянин: Москва создает одну из крупнейших в мире цифровых диагностических сетей

Собянин объявил о начале строительства станции метро «Достоевская»


В Крыму потушили четыре природных пожара

Посмотрите, каким станет климат по всей планете через 60 лет. Петербург станет как Адыгея, а Москва — как Краснодар

Синоптик Леус: погода в Москве вернется к климатической норме 18 июля

Новая эра фарминга с приложением Tonique от создателей "Смешариков"


Затопит всех: после аномальной жары к нам приближаются ливни и грозы - свежий прогноз

В Госдепе объяснили, почему не оглашают возможные встречи дипломатов США и РФ

Собянин рассказал о создании сети цифровых диагностических устройств

Собянин: Москва создает одну из крупнейших в мире цифровых диагностических сетей


АО «Транснефть - Север» в I полугодии 2024 года выполнило диагностику более 1 тыс. км трубопроводов в 4 регионах

Дни рождения

Многолетнюю мерзлоту будут изучать в Амурской области

АО «Транснефть – Север» за 6 месяцев 2024 г. выполнило 26 тыс. экологических исследований


В рейтинге городов России по объемам ввода жилья Севастополь на 29 месте, Симферополь — 73

Случайно убивший журналистку Бабаеву инструктор получил год исправительных работ

Дорогу, в провале которой в 2014 году погибли 6 человек, снова закрыли

«Падает цена там, где она уже перегрета». В Симферополе цена на квартиры-малютки снизилась, в Севастополе — стабильно высокая


Утренние пробки в Подмосковье составили 4 балла 16 июля

Росреестр отметил снижение спроса на вторичное жилье в Москве

СК: Не менее 15 человек отравились в хостеле на севере столицы

Путин готовится к небывалой катастрофе — эксперт












Спорт в России и мире

Новости спорта


Новости тенниса
Уимблдон

Алькарас уверенно переиграл Джоковича и выиграл Уимблдон






Росреестр отметил снижение спроса на вторичное жилье в Москве

Путин готовится к небывалой катастрофе — эксперт

Затопит всех: после аномальной жары к нам приближаются ливни и грозы - свежий прогноз

Собянин: Москва создает одну из крупнейших в мире цифровых диагностических сетей