Добавить новость
ru24.net
Rappler.com
Февраль
2024
1
2
3
4
5
6
7
8
9
10 11 12
13
14
15
16 17 18 19 20 21 22 23 24 25 26 27 28 29

Biased GPT? Singapore builds AI model to ‘represent’ Southeast Asians

0

A Singapore government-led initiative is working on a Southeast Asian large language model, the first in a family of models named SEA-LION – Southeast Asian Languages in One Network – trained in the region's languages and cultural norms

SINGAPORE – Like millions worldwide, Southeast Asians have been trying out large language models such as Meta’s Llama 2 and Mistral AI – but in their native Bahasa Indonesia or Thai. The result has usually been gibberish in English.

This leaves them at a disadvantage, tech experts warn, as generative artificial intelligence transforms education, work and governance worldwide.

A Singapore government-led initiative aims to correct the imbalance with a Southeast Asian LLM, the first in a family of models named SEA-LION – Southeast Asian Languages in One Network – trained in the region’s languages and cultural norms.

Trained on data in 11 Southeast Asian languages including Vietnamese, Thai and Bahasa Indonesia, the open-sourced model is a cheaper and more efficient option for the region’s businesses, governments and academia, said Leslie Teo at AI Singapore.

“Do we want to force every person in Southeast Asia to adapt to the machine, or do we want to make it more accessible so people in the region can make full use of the technology without having to be an English speaker?” he said.

“We are not trying to compete with the big LLMs; we are trying to complement them, so there can be better representation of us,” Teo, senior director for AI products, told the Thomson Reuters Foundation.

There are over 7,000 languages spoken worldwide. Yet LLMs including Open AI’s GPT-4 and Meta’s Llama 2 that are used to build AI systems such as chatbots and other tools, have largely been developed for, and are trained on, the English language.

Governments and tech firms are trying to bridge this gap, with India creating datasets in local languages, an LLM in the United Arab Emirates powering generative AI tools in Arabic, and AI models in China, Japan and Vietnam in local languages.

These models can help local populations participate more equitably in the global AI economy that is largely dominated by big tech firms, said Nuurrianti Jalli, an assistant professor at Oklahoma State University’s school of communications.

“Regional LLMs are also needed because they support technology self-reliance,” she said. “Less reliance on Western LLMs could provide better privacy for local populations, and also align better with national or regional interest.”

Verify and filter

Multilingual language models that are trained on text from several languages at once, can infer semantic and grammatical connections between high resource languages that have more data, and low resource languages, researchers say.

These models can be used in a variety of applications from translation to customer-service chatbots, to content moderation on social media platforms that have struggled to identify hate speech in low resource languages such as Burmese or Amharic.

About 13% of SEA-LION’s data is sourced from Southeast Asian languages – more than any other major LLM, said Teo. More than 9% of its data is from Chinese text, and about 63% from English.

Multilingual language models often train on translated text and other poor quality data that may have errors, so AI Singapore is “careful” about the data used in training SEA-LION, Teo said in his office at the National University of Singapore.

“The age of pristine data has passed – a lot of the stuff on the internet now is material that is generated by LLMs, so we need to verify and filter,” he said.

“We cannot be perfect, but we also cannot take out everything we consider to be bad,” he added.

More governments are contributing data, and businesses are testing SEA-LION, which due to its smaller size can be deployed faster and is cheaper to fine-tune and adopt, Teo said.

At Indonesian e-commerce company Tokopedia, a majority of customer interactions is in Bahasa Indonesia, so models “with that local fluency will enhance our ability to connect with customers and improve their experiences,” said Paul Condylis, Tokopedia’s associate vice president of data science.

Bias in the data

As more countries and regions build their own LLMs, digital and human rights experts fret that they will reproduce only the dominant views expressed online, which can be particularly problematic in nations with authoritarian governments or strict media censorship, or those lacking a strong civil society.

Chinese social media platforms, for example, censor references to the Tiananmen Square uprising and criticism of the government, while several Southeast Asian nations have enacted laws to curb content that authorities deem as misleading.

“Training models on such data risks perpetuating biased, prejudiced, incomplete and even misleading narratives,” said Jalli.

“The models may fail to surface important socio-political issues like human rights abuse, corruption, or valid criticism of political powers,” she said.

In response to a query on Indonesian former president Suharto, for example, Llama 2 and GPT-4 mentioned his spotty human rights record, while SEA-LION’s response focused largely on his achievements.

If a model is only trained on favorable articles about a government, then the model is “likely to adopt a worldview where the government is wholly positive and leave behind dissenting viewpoints,” said Aliya Bhatia, a policy analyst at the Center for Democracy & Technology, a U.S. non-profit.

“Regional LLMs may better reflect the linguistic and cultural nuances of local language speakers, but they may also have less information about the world in general,” she added.

“There is a real risk of government-backed models instilling a revisionist view of history and undermining democratic values.”

But the alternative – relying entirely on Western LLMs with “disproportionately large influences” from wealthy, liberal, western democracies – means perpetuating different biases related to cultural values, political beliefs and social norms, according to AI Singapore.

“These LLMs have a very particular West Coast American bias – they are very woke. They do not represent us,” said Teo.

“We are not saying ours is the only perspective – we are just trying to rebalance it.” – Rappler.com




Moscow.media
Частные объявления сегодня





Rss.plus



Директор Росгвардии генерал армии Виктор Золотов принял участие в посвященных 100-летию дивизии имени Ф.Э. Дзержинского торжественных мероприятиях

Филиал № 4 ОСФР по Москве и Московской области информирует: Отделение СФР по Москве и Московской области выплатило единовременное пособие при передаче ребенка на воспитание в семью 474 семьям региона

Чемпионат и Первенство Москвы и Московской области по автокроссу

СЕНСАЦИОННЫЙ ДОКЛАД ПРО ДЕЛО СКРИПАЛЕЙ, САФРОНОВА, ГОЛУНОВА.


Blumarine, коллекция Resort 2025

Спрос на «русское» золото 585 пробы стабильно растет – исследование «585*ЗОЛОТОЙ»

Доктор Кутушов: не стоит носить кроссовки в жару

АФК «Система» планирует модернизировать Вологодский текстильный комбинат


'Hum bhi insaan hain': Pakistan allrounder Imad urges calm

Bradley Wiggins accused of ‘trashing’ posh VW campervan as pals say bankrupt cyclist has sold his medals and shirts

Inside wicked world of ‘skinny scams’ as Ozempic and weight loss drug fraud attempts rise into the hundreds of thousands

PGA Tour Commissioner Jay Monahan shuts down Saudi agreement rumors: “complex scenario”


«Байкал Сервис» снижает тарифы из городов Сибири

Белые ночи Беломорья....

Кураторам платных парковок Екатеринбурга пригрозили уголовным делом

Николаю Николаевичу Дроздову сегодня исполнилось 87 лет!


Embracer has closed Alone in the Dark studio Pieces Interactive

Мафия-НН: С юных ногтей будем учиться вгрызаться в двери, закрывающие ментальные миры.

To create its cast of Baldur's Gate 3 companions, Larian came up with 'hundreds and hundreds' of character concepts: 'It was a huge, huge list'

Гайд по Earn to Die Rogue: мифические предметы, билды и режимы


Відомий аграрій Кормишкін, складає свої депутатські повноваження


Московский аэропорт Домодедово и Всероссийское общество инвалидов заключили соглашение о сотрудничестве

За прошедшую неделю подмосковные росгвардейцы обеспечили безопасность более 200 мероприятий

Топ-5 самых ярких зарубежных архитектурных проектов на первичном рынке Москвы




Психолог Ольга Романив: как научиться расслабляться на отдыхе и не думать о работе

Проект Детского радио – победитель второго грантового конкурса Президентского фонда культурных инициатив

Более 40 новых автобусов закупят в «Мострансавто» Мытищ до конца года

Канадский министр Леблан: Оттава признала КСИР террористической организацией


Опубликован список авиакомпаний и их цены на перелёты в Таиланд этим летом

Пост №5855372

Тимур Иванов утратил свободу и доверие // Замминистра обороны уволили по отрицательным мотивам

Болельщиков с флагами РФ не пустили на матч Словения — Сербия


Людмила Самсонова не отдала голландскую траву // Она продолжила серию российских побед на теннисном турнире в Хертогенбосе

Самсонова поддержала Андрееску после победы над ней в финале турнира в Хертогенбосхе

Овечкин, Яковлев, Фридзон и Мыскина сыграли в падел-теннис в Турции: «Победила дружба»

Россиянка Людмила Самсонова выиграла турнир WTA в Хертогенбосе


Народная артистка СССР Маргарита Войтес умерла в Эстонии в возрасте 87 лет

ЦСКА – «Спартак»: раскрыты даты «дерби всея Руси» в новом сезоне РПЛ

Тимур Иванов утратил свободу и доверие // Замминистра обороны уволили по отрицательным мотивам

Опубликован список авиакомпаний и их цены на перелёты в Таиланд этим летом


Музыкальные новости

Возвращение певицы Жанны Агузаровой обернулось скандалом

Александр Розенбаум проиграл суды коммунальщикам на 386 тысяч рублей

Группа Metallica даст виртуальный концерт в Fortnite 22 июня

Концертный директор для музыкантов. Концертный директор для певцов. Концертное агентство в Москве. Букинг агентство. Организация концертов и гастролей.



В России запустили бесплатного цифрового ЗОЖ-помощника

Филиал № 4 ОСФР по Москве и Московской области информирует: Отделение СФР по Москве и Московской области выплатило единовременное пособие при передаче ребенка на воспитание в семью 474 семьям региона

СЕНСАЦИОННЫЙ ДОКЛАД ПРО ДЕЛО СКРИПАЛЕЙ, САФРОНОВА, ГОЛУНОВА.

Галина Ржаксенская впервые стала участником ПМЭФ в Санкт-Петербурге


Сергей Собянин. Главное за день

Автопробег в честь Дня России прошел в Ленинском округе

Те самые русские с флагами на матче-открытия Евро — мы их нашли! Как попали на стадион и как реагируют вокруг?

В Бурчтии в театре кукол «Ульгэр» 14-16 июня пройдут «Волшебные выходные»! - Театр и Цирк, Культура и Концерт, Россия и Дети


В Москве движение на участке Боровского шоссе перекрыли из-за осадков

Фест, байк, рок-н-ролл. Как в Москве отметили День мотоциклиста

Бесплатный билет в музеи Зеленоградска от «ПАРАDOX» и BelkaCar

Движение на участке Боровского шоссе приостановлено из-за сверхинтенсивных осадков


СЕНСАЦИОННЫЙ ДОКЛАД ПРО ДЕЛО СКРИПАЛЕЙ, САФРОНОВА, ГОЛУНОВА.

СЕНСАЦИОННЫЙ ДОКЛАД ПРО ДЕЛО СКРИПАЛЕЙ, САФРОНОВА, ГОЛУНОВА.

ДОКЛАД ПРО ДЕЛО СКРИПАЛЕЙ, САФРОНОВА, ГОЛУНОВА. ПРО НАУКУ АКТИВНОЙ ВСЕЛЕННОЙ. ЭКСПЕРТ АНАТОЛИЙ ГОЛОД.

Путин летит к Ким Чен Ыну. Россия и Северная Корея станут стратегическими партнёрами


Зачем Марина Александрова уехала из Москвы в сибирскую глушь

ПМЭФ-2024: премиальный бренд HONGQI представил на Форуме свои флагманские и новые модели




В России запустили бесплатного цифрового ЗОЖ-помощника

В Москве убийца пожилых инвалидов засунул сборник нот в тело жертвы

Сеть клиник «Будь Здоров» запустила собственное мобильное приложение для пациентов

Врач-дерматолог Мадина Байрамукова: что делать с "мурашками» на коже



Военно-спортивный фестиваль Росгвардии в «Лужниках» собрал более 20 000 москвичей и гостей столицы

Резидент «Инсайт Люди» Дмитрий Зубов установил мировой рекорд по чеканке мяча

В Лужниках состоялась церемония открытия Всероссийской Спартакиады Специальной Олимпиады

В УФСИН России по Республике Дагестан прошли лично-командные соревнования по легкой атлетике




Сергей Собянин: Активно укрепляем отношения с Китаем

Москва-Пекин. Собянин в Китае подписал соглашение о сотрудничестве

Собянин прибыл в Китай с рабочим визитом

Собянин рассказал о росте турпотока из Китая


По каким признакам можно распознать машину-«утопленника»: лайфхак

Обмен электронными транспортными накладными стал доступен участникам «Биржи грузоперевозок ATI.SU»

Бизнес-омбудсмен Москвы оказывает поддержку НМСП

Козлов: Россия и КНДР прорабатывают возможность запуска прямых рейсов


ЦСКА – «Спартак»: раскрыты даты «дерби всея Руси» в новом сезоне РПЛ

Дьявольская жара + 38 градусов нагрянет в Россию уже скоро: Вильфанд рассказал о самом жарком месяце

Ирина Ортман оставляет в прошлом «Всё, что было вчера».

Опубликован список авиакомпаний и их цены на перелёты в Таиланд этим летом


Преподаватель из Архангельска вышла в финал международного конкурса «Педагогическое начало – 2024»

Ниже воды: как идет обновление подводного флота России

Более 39 млн рублей направлено на летний отдых и оздоровление детей-сирот в Архангельской области

Актера Игоря Меркулова похоронят на Николо-Архангельском кладбище


Выставка-посвящение «Первая дама советской скульптуры»

Аварийное отключение электроэнергии произошло почти в тридцати населенных пунктах Крыма

Фольклорно-литературная программа «Сказки детства, полные чудес, нас уводят в царство тридесятое»

Футболисты ЮФУ одержали три победы в домашнем турнире


В Ивантеевкой школе искусств г.о. Пушкинский начали выполнять общестроительные работы

Отборочный этап национального чемпионата «Абилимпикс» стартовал в Подмосковье

В Серпухове завершили благоустройство Северного сквера

«Торпедо» в шквал и дождь выиграло у «Шинника»












Спорт в России и мире

Новости спорта


Новости тенниса
Большой шлем

Рублёв и еще два российских теннисиста не сыграют на Олимпиаде в Париже






Болельщиков с флагами РФ не пустили на матч Словения — Сербия

Ирина Ортман оставляет в прошлом «Всё, что было вчера».

Созданный тенью от берез и коня портрет Путина показали во Вьетнаме

ЦСКА – «Спартак»: раскрыты даты «дерби всея Руси» в новом сезоне РПЛ