Добавить новость
ru24.net
Все новости
Декабрь
2024

Синтетические данные для обучения ИИ: ошибка или панацея?

0

Искусственный интеллект уперся в потолок: количество используемых для обучения данных ограничено, и они быстро заканчиваются. В связи с этим стартапы прибегают к помощи синтетических данных — информации, сгенерированной другим нейросетям. 

ИИ-стартап Anthropic применил синтетические данные для обучения одной из своих флагманских моделей Claude 3.5 Sonnet. Meta доработала свои нейросети Llama 3.1 с помощью созданных ИИ данных. OpenAI также применяет синтетическую информацию для обучения o1 — «рассуждающего» искусственного интеллекта.

TechCrunch обратили внимание на преимущества и недостатки такого подхода.

Аннотация

Системы искусственного интеллекта — это статистические машины. Они обучаются на большом количестве примеров и изучают закономерности для дальнейших предсказаний. 

Аннотации — текстовые метки, обозначающие смысл или части данных — являются ключевым элементом в этих примерах. Они служат ориентирами, «обучая» модель различать предметы, места и идеи.

Например, если нейросети показать множество фотографий кухни и пометить их словом «кухня», со временем она начнет ассоциировать ее общие характеристики вроде наличия холодильника или столешницы. После обучения модель сможет распознать фотографию кухни, которая раньше ей не показывалась. 

В процессе обучения важно грамотно классифицировать аннотации. Например, если изображения с кухнями помечать словом «корова», ИИ будет связывать холодильник с животным. 

Необходимость применения помеченных данных создал целый рынок аннотационных услуг, который оценивается в $838,2 млн, а в течение 10 лет достигнет $10,34 млрд. 

В некоторых случаях маркировка данных требует специализированных знаний и опыта, например, если это касается математики. Существуют фирмы, специализирующиеся на аннотации данных. Работа в таких компаниях может быть как высокооплачиваемой, так и наоборот. В развивающихся странах работники получают менее $2 в час.

Нужно заменить людей

Платить маркировщикам данных иногда дорого, плюс они способны ошибаться. Также само получение информации может быть затратным. Shutterstock взимает десятки миллионов долларов с ИИ-поставщиков за доступ к своим архивам. Reddit заработал сотни миллионов на лицензировании информации для Google, OpenAI и других.

Наконец, данные становится все труднее получить. Более 35% из 1000 лучших веб-сайтов блокируют доступ для OpenAI. Если тенденция сохранится, ИИ способен исчерпать всю общедоступную информацию к 2026–2032 годам. 

Все это, а также риски судебных исков за использование лицензированной информации, привело к необходимости генерировать синтетическую информацию.

Синтетические альтернативы

Если данные — это нефть, синтетическая информация позиционируется как биотопливо, которое можно создать без негативных внешних последствий, отметил кандидат наук Вашингтонского университета Ос Киз. 

«Вы можете взять небольшой стартовый набор данных и моделировать и экстраполировать новую информацию из него», — отметил он. 

ИИ-индустрия взяла технологию на вооружение и начала применять. В декабре компания Writer представила модель Palmyra X 004, обученную почти полностью на синтетических данных. Разработка обошлась в $700 000 по сравнению с $4,6 млн, которые затратил OpenAI за создание нейросети аналогичного размера. 

Открытые модели Phi от Microsoft частично обучались на синтетических данных, также как и Gemma от Google. Этим летом Nvidia представила семейство моделей, предназначенных для создания синтетической обучающей информации, а ИИ-стартап Hugging Face выпустил «самый большой» набор информации для настройки ИИ, состоящий из искусственного текста.

Генерация синтетических данных стала бизнесом, стоимость которого может вырасти до $2,34 млрд к 2030 году. 

Синтетические риски

Применение синтетических данных несет в себе определенные риски. Если информация, применяемая для создания искусственных сведений, имеет предвзятость или ограничения, результат будет испорчен. 

Чрезмерное применение синтетических данных в ходе обучения нейросетей приводит к снижению качества и разнообразия модели, говорится в исследовании Университетов Райса и Стэнфорда. 

Большие нейросети вроде o1 способны создавать более сложные для обнаружения галлюцинации, что приведет к снижение точности ИИ, обученного на подобных данных. 

Опубликованное в июле исследование показывает, что модели, обученные на ошибочных данных, генерируют еще более неправдивую информацию. Это создает петлю деградации для последующих нейросетей. Впоследствии искусственный интеллект может давать ответ, вообще никак не связанный с вопросом.

Другое исследование наглядно показало снижение качества работы модели на примере изображений.

Данные: TechCrunch.

Старший научный сотрудник Института искусственного интеллекта Аллена Лука Солдайни считает, что применение синтетических данных целесообразно в случае их тщательной проверки, фильтрации и сопоставления с реальной информацией.

Несоблюдение этого требования может привести к краху модели, она станет менее «творческой» и более предвзятой в своих выводах, что в конечном итоге серьезно снизит ее функциональность. 

«Конвейеры синтетических данных не являются самосовершенствующимися машинами. Их результаты должны быть тщательно проверены и улучшены, перед их использованием для для обучения», — отметил он.

Ранее CEO OpenAI Сэм Альтман отметил, что когда-нибудь ИИ будет создавать синтетические данные, достаточно хорошие для эффективного самообучения. 

Напомним, в декабре соучредитель OpenAI Илья Суцкевер спрогнозировал конец эпохи предварительного обучения искусственного интеллекта и предсказал появление суперинтеллекта.




Moscow.media
Частные объявления сегодня





Rss.plus




5 уникальных настоев при ожирении печени

ГК «ДИАКОН» собрала во Владикавказе 80 специалистов по лабораторной диагностике

Коллекция Saint Laurent pre-fall 2025

Саймон Купер: человек, который заставил футбол заговорить по-новому


Gap says Trump’s tariffs could cost the company a whopping $300 million, sending shares into a tailspin

The reality of AI’s promise to curb older adults’ loneliness

Samay Raina blames parents for letting them watch his content; says, “If children that young are watching me, then their parents have failed"

European Darts Open 2025: Schedule and results as Nathan Aspinall and Stephen Bunting head stacked field


Севастополь снова встречает детский благотворительный фестиваль «Добрая волна»

Покупки для детей в ТРЦ «Нора»

Туранабол эффекты

Села на лицо и справила нужду. Мертвую девушку нашли под Екатеринбургом


Elden Ring Nightreign Equilibrious Beast boss guide: How to beat Libra

This underwater city builder had me more emotionally invested in my corals than SimCity does in my human citizens, and you can try it at the next Steam Next Fest

'The soundtrack to skate parks was punk rock music': Tony Hawk on the Tony Hawk's Pro Skater soundtracks, and how they shaped a generation of videogame skate kids

Самый милый и жестокий шутер-рогалик AK-xolotl перенесли на Android



Кандидат в президенты Польши Тшасковский выиграл выборы на участке в РФ

ПилОт, F.P.G и Найк Борзов присоединяются к фестивалю «НАШИ В ГОРОДЕ»: лето, рок и настоящие эмоции

Спасители вытащили из огненной ловушки 6 человек: Пожар охватил подземный паркинг в Москве

Фигурант по делу экс-советника главы РЖД Тайчера о хищении признал вину




ОГРОМНЫЙ ПОЛИТИЧЕСКИЙ СКАНДАЛ: США И СССР ПОДГОТОВИЛИ СНОС...США. СЕНСАЦИЯ! Важные новости! В.В. Путин, Дональд Трамп, Илон Маск. Россия, США, Европа могут улучшить отношения и здоровье общества?!

Культура на русском. Креативные индустрии 5.0

Программа «Один день с полицией России» пройдет в Музее Победы 7 июня

Эксперты сравнили цены на жилье в Крыму и в Сочи


Гришин отметил выступление Акинфеева

Возвращение к зиме: Гидрометцентр поменял прогноз с 3 июня - придут лютые заморозки и снег

В Москве впервые покажут ранее неизвестную картину Васнецова

Пассажирам отмененных из-за норовируса рейсов на «Булгакове» вернут деньги


24 часа в Мельбурне

Звездная русская отомстила американке за унижение в Нью-Йорке. Андреева — любимица Парижа

Все теннисистки топ-8 посева вышли в 4-й круг «Большого шлема» впервые с 2005 года

Бублик вышел в 1/4 финала «Ролан Гаррос», переиграв Дрейпера


Мужчину с 47 ядовитыми змеями в багаже арестовали в аэропорту Мумбаи

Синоптики прогнозируют дожди и ветер в Москве и Подмосковье с 3 по 6 июня

Московский монорельс теряет высоту // Уникальный вид транспорта признали убыточным, на его месте может появиться парк

Фермеры России поделятся опытом на столичной ярмарке и форуме “Труженики села”


Музыкальные новости

Люси Пылаева и гигантский Labubu: новый уровень модной иронии на RU.TV 2025

В Петербурге строят трамвайную линию «Славянка». Районы на юге города станут привлекательнее для застройщиков? Повторитcя ли успех «Чижика»?

11-летняя дочь Тимати сыграла Плюшкина в спектакле по "Мёртвым душам"

Цискаридзе объяснил свое желание посвятить жизнь балету



Алексей Тузов: летом авиабилеты подорожают минимум на 15%

ПилОт, F.P.G и Найк Борзов присоединяются к фестивалю «НАШИ В ГОРОДЕ»: лето, рок и настоящие эмоции

Летнее настроение от Wink.ru — онлайн-кинотеатр представляет киноафишу июня

Карты — школьникам в руки. «Выберу.ру» подготовил рейтинг детских карт за май 2025 года


Купить Песню. Песни на продажу. Продажа песен. Продажа Авторских песен.

Кажетта Ахметжанова: что такое сила Рода и как она влияет на жизнь

ЦСКА выиграл девятый Кубок России: триумф в серии пенальти в «Лужниках»

Москва принимает на лечение пострадавших под Брянском - Сергей Собянин


Летнее настроение от Wink.ru — онлайн-кинотеатр представляет киноафишу июня

Новый магистральный тягач Sitrak C9H представили в Москве

Авто, оснащенное электродвижком: все о реальном пробеге

В Москве и Петербурге заработал новый онлайн-сервис бронирования авто под такси


Путин увеличил срок службы Рябкову

Путин высказался о деятельности детского омбудсмена Львовой-Беловой

Интервью заместителя управляющего Отделением СФР по Москве и Московской области о мерах социальной поддержки семей и детей

ЧП с поездами и удары по Москве – главное за неделю





Как вода ПВВК помогает при хронической усталости и снижении иммунитета - объясняет эксперт Виктор Кордюков

Москва может увидеть полярное сияние 2 июня благодаря магнитной буре уровня G3

Арбитражный суд принял к производству дело клиники спортивной медицины против «Химок» на 1,2 млн рублей

В России не зарегистрировано случайных завозов вируса Коксаки


Удара возмездия по Киеву в ночь на понедельник нанесено не было

В Офисе Зеленского истерика: глава киевского режима вновь опустился до оскорблений представителей России

Зеленский официально подписался под званием террориста, сказали в Госдуме

В ФСБ заявили, что операцию «Паутина» планировали западные спецслужбы, а не Киев


Музыкальные установки и спортплощадки появятся в детсаду первого премиального ЖК ВАО

Карпин переговорил не только с "Динамо". Куда уйдёт главный тренер сборной России?

Стало известно, как изменилось число школьников в шахматных кружках Москвы

Сергей Бурунов, Лолита, Леонид Агутин, Элджей, Zivert, Кристина Асмус на концерте и афтепати шоу LAB c Антоном Беляевым


Лукашенко планирует поездку в Китай

Александр Лукашенко отправился в Китай на встречу с Си Цзиньпином. В повестке — вопросы двустороннего сотрудничества

Минск: Анонсирован трехдневный визит Лукашенко в КНР



Сергей Собянин рассказал, что ждет участников форума «Облачные города»

Собянин объявил о начале приема заявок на конкурс «Московская реставрация»

Мэр Сергей Собянин посетил строящуюся станцию метро «Народное ополчение»

Сергей Собянин. Главное за день


Проще, чем кажется: как перенести аномальную жару

Москва может увидеть полярное сияние 2 июня благодаря магнитной буре уровня G3

Эколог Рыбальченко: из сотен водоемов в Москве почти все опасны для купания

В центре воспроизводства редких видов животных будут жить кудрявые пеликаны


Генерал Гурулёв устроил разбор полётов после терактов ВСУ: "Я немножко подуспокоился, меня колыхало всего"

ЦОДД рассказал о трафике на московских дорогах во второй половине июня

Мужчину с 47 ядовитыми змеями в багаже арестовали в аэропорту Мумбаи

Анна Михалкова с дочерью, Виктория Исакова, Сергей Капков, Аглая Тарасова и Юрий Колокольников на фестивале "Это лето"


Жаркое, дождливое и опасное: какое лето ждет россиян

Сергей Собянин. Главное за день

Город будущего — в твоих руках: жители Архангельской области выбирают, какие места благоустроят к 2026 году

Собянин осмотрел строящуюся станцию метро «Народное Ополчение»


Литературно-экологическая программа «У природы есть друзья. Это мы – и ты, и я!»

«Поэма» в сердце города: новый уровень жизни в центре Симферополя

Клубный дом Моне - жилой комплекс, вдохновленный искусством

Праздник детства «Живёт на всей планете народ веселый – дети!».


Московский монорельс теряет высоту // Уникальный вид транспорта признали убыточным, на его месте может появиться парк

Генерал Гурулёв устроил разбор полётов после терактов ВСУ: "Я немножко подуспокоился, меня колыхало всего"

Сыктывкарский пристав спас малыша, выпавшего из окна

Фермеры России поделятся опытом на столичной ярмарке и форуме “Труженики села”












Спорт в России и мире

Новости спорта


Новости тенниса
Александр Бублик

Бублик вышел в четвертьфинал «Ролан Гаррос»






Мужчину с 47 ядовитыми змеями в багаже арестовали в аэропорту Мумбаи

В Петербурге строят трамвайную линию «Славянка». Районы на юге города станут привлекательнее для застройщиков? Повторитcя ли успех «Чижика»?

Эксперт Бендриков рассказал, как сбить цену при аренде дачи на лето

ЦОДД рассказал о трафике на московских дорогах во второй половине июня