ԱԲ ուսուցման տվյալները սպառված են. Իլոն Մասկ
Իլոն Մասկը համաձայնել է այլ արհեստական բանականության մասնագետների հետ, որ իրական աշխարհի տվյալները, որոնք հնարավոր է օգտագործել ԱԲ մոդելների ուսուցման համար, գրեթե սպառված են։
«Այժմ գործնականում սպառել ենք մարդկային գիտելիքների ընդհանուր գումարը՝ ԱԲ ուսուցման շրջանակում։ Դա տեղի է ունեցել հիմնականում անցյալ տարի»,- ասել է Մասկը Stagwell-ի նախագահ Մարկ Պենի հետ ուղիղ եթերում զրույցի ընթացքում։
Մասկը, որ xAI ԱԲ ընկերության սեփականատերն է, կրկնում է OpenAI-ի նախկին գլխավոր գիտնական Իլյա Սուցկեւերի գաղափարները, որոնց մասին խոսել էր NeurIPS մեքենայական ուսուցման կոնֆերանսում։ Սուցկեւերը հայտարարել էր, որ ԱԲ ոլորտը հասել է «տվյալների գագաթնակետին»՝ կանխատեսելով, որ ուսուցման տվյալների պակասը կստիպի փոփոխություններ կատարել մոդելների զարգացման ներկա մեթոդներում։
Մասկը ենթադրում է, որ սինթետիկ տվյալները՝ ԱԲ մոդելների կողմից ինքնուրույն գեներացված տվյալները, ապագայի ուղին են։ «Միակ ճանապարհը, լրացնելու իրական աշխարհի տվյալները, սինթետիկ տվյալների օգտագործումն է, երբ ԱԲ-ն ինքն է ստեղծում ուսուցման համար տվյալներ»,- ասել է նա։
Microsoft, Meta, OpenAI եւ Anthropic տեխնոլոգիական հսկաներն արդեն սինթետիկ տվյալներ են օգտագործում իրենց առաջատար ԱԲ մոդելների ուսուցման համար։ Gartner-ի գնահատականներով՝ 2024 թվականին ԱԲ եւ անալիտիկայի նախագծերի համար օգտագործվող տվյալների 60%-ը գեներացված է սինթետիկորեն։
Microsoft-ի նոր թողարկված Phi-4 մոդելը ուսուցանվել է սինթետիկ տվյալներով՝ իրական աշխարհի տվյալների հետ համատեղ։ Նույն կերպ է ուսուցանվել նաեւ Google-ի Gemma մոդելը։ Anthropic-ը որոշ սինթետիկ տվյալներ է օգտագործել իր ամենաարդյունավետ համակարգերից մեկի՝ Claude 3.5 Sonnet-ի մշակման համար, իսկ Meta-ն ԱԲ կողմից գեներացված տվյալներով կատարելագործել է իր վերջին Llama մոդելների շարքը։
Սինթետիկ տվյալներով ուսուցումն ունի նաեւ այլ առավելություններ, օրինակ՝ ծախսերի խնայողությունը։ AI Writer ստարտափը պնդում է, որ իր Palmyra X 004 մոդելի մշակումը, որը գրեթե ամբողջությամբ սինթետիկ աղբյուրներից է ստեղծվել, արժեցել է ընդամենը 700,000 ԱՄՆ դոլար՝ համեմատած OpenAI համադրելի չափի մոդելի 4.6 միլիոն դոլարի գնահատականով։
Կան, սակայն, թերություններ։ Որոշ ուսումնասիրություններ ցույց են տալիս, որ սինթետիկ տվյալները կարող են հանգեցնել մոդելի «փլուզման», երբ մոդելը դառնում է ավելի քիչ «ստեղծագործ» եւ ավելի կողմնակալ՝ ի վերջո, լրջորեն վնասելով նրա ֆունկցիոնալությունը։ Քանի որ մոդելները ստեղծում են սինթետիկ տվյալներ, եթե այդ մոդելների ուսուցման համար օգտագործված տվյալները կողմնակալություն եւ սահմանափակումներ ունեն, դրանց արդյունքներն էլ նույն կերպ կթերանան։