MIT: Данным для обучения больших языковых моделей часто не хватает прозрачности

Исследователи создали простой инструмент, который помогает специалистам по ИИ находить нужные данные. Это повышает точность и уменьшает погрешность модели.

Для обучения мощных больших языковых моделей исследователи используют обширные коллекции данных из тысяч веб-источников. Но при объединении этих наборов данных информация об их происхождении часто теряется или путается. Из-за этого могут возникнуть проблемы юридического и этического характера, а также ухудшиться производительность модели. Например, если набор данных неправильно классифицирован, то человек может использовать для обучения модели неподходящие данные.

Исследователи из Массачусетского технологического института и других университетов проверили более 1800 текстовых наборов данных на популярных хостингах. Оказалось, что более чем в 70% случаев информация об авторах и лицензии отсутствовала, а примерно в половине — содержались ошибки.

На основе полученных данных учёные создали инструмент Data Provenance Explorer. Он автоматически формирует понятные отчёты о создателях, источниках, лицензиях и способах использования наборов данных.

Инструменты, подобные Data Provenance Explorer, помогают принимать обоснованные решения о внедрении ИИ и способствуют ответственному развитию этой технологии. Об этом говорит Алекс «Сэнди» Пентланд, профессор Массачусетского технологического института.

Data Provenance Explorer помогает специалистам в области ИИ создавать более эффективные модели. Инструмент позволяет выбирать обучающие наборы данных, которые соответствуют назначению модели. Это может повысить точность моделей ИИ в реальных ситуациях, например, при оценке заявок на получение кредитов или ответов на запросы клиентов.

Один из способов понять возможности и ограничения модели искусственного интеллекта — это узнать, на каких данных она обучалась. Когда возникает путаница в происхождении данных, появляется проблема прозрачности, — говорит Роберт Махари, аспирант Массачусетского технологического института и кандидат юридических наук Гарвардской школы права, один из авторов статьи.

В исследовании также приняли участие Шейн Лонгпре, аспирант Media Lab, Сара Хукер, возглавляющая исследовательскую лабораторию Cohere for AI, а также другие специалисты из разных университетов и компаний. Результаты исследования опубликованы в журнале Nature Machine Intelligence.

Фокус на тонкой настройке

Исследователи улучшают возможности языковой модели с помощью техники под названием «тонкая настройка». Они собирают данные, чтобы модель лучше решала конкретную задачу, например, отвечала на вопросы.

Исследователи MIT изучают эти наборы данных. Их создают исследователи, академические организации или компании и лицензируют для определённого использования.

Когда краудсорсинговые платформы объединяют такие наборы в большие коллекции, часть исходной информации о лицензии теряется.

Махари считает, что лицензии должны быть осуществимы и иметь значение.

Лонгпре добавляет, что люди могут обучать модели, не понимая их возможностей, опасений и рисков, связанных с данными. Это может привести к тому, что модель придётся удалить, если данные окажутся конфиденциальными.

Чтобы начать исследование, учёные дали определение проверенности данных. Затем они разработали процедуру аудита для отслеживания происхождения данных в более чем 1800 коллекциях текстовых наборов данных из популярных онлайн-репозиториев.

Оказалось, что более 70% этих наборов данных содержат «неуказанные» лицензии с неполной информацией. Исследователи заполнили пробелы, и количество таких наборов сократилось примерно до 30%.

Также выяснилось, что правильные лицензии часто были более ограничительными, чем указанные в хранилищах.

Создатели наборов данных в основном находятся на севере мира, поэтому модель, обученная на этих данных, может быть не применима в других регионах.

Например, набор данных по турецкому языку, созданный жителями США и Китая, не содержит культурно значимых аспектов.

Исследователи также заметили, что с 2023–2024 годов создатели стали чаще ограничивать использование своих наборов данных. Это может быть связано с опасениями, что данные будут использованы в коммерческих целях.

Удобный инструмент

Исследователи создали Data Provenance Explorer, чтобы помочь людям получить информацию без ручного аудита.

Инструмент позволяет сортировать и фильтровать данные по определённым критериям, а также загружать карту достоверности данных для структурированного обзора характеристик набора данных.

Махари выразил надежду, что это поможет людям делать более осознанный выбор данных при обучении.

В будущем исследователи планируют расширить анализ и изучить происхождение мультимодальных данных, включая видео и речь. Они также хотят исследовать, как условия предоставления услуг на веб-сайтах влияют на наборы данных.

Они обращаются к регулирующим органам, чтобы обсудить результаты исследований и их значение для авторского права, связанное с точной настройкой данных.

Нам нужно, чтобы данные были подтверждены и прозрачны с самого начала, — говорит Лонгпре.

01.09.2024


Подписаться в Telegram



Net&IT

В МФТИ создали ПО для нефтяников и золотодобытчиков
В МФТИ создали ПО для нефтяников и золотодобытчиков

Сотрудники МФТИ предложили цифровое решение, к...

Студенты КНИТУ создали двуязычного ИИ-бота для туристов
Студенты КНИТУ создали двуязычного ИИ-бота для туристов

Студенты КНИТУ создали туристического бота с&n...

ACS Photonics: Разработаны улучшенные очки дополненной реальности
ACS Photonics: Разработаны улучшенные очки дополненной реальности

Дополненная реальность накладывает цифровые из...

FCS: Квантовые компьютеры ускоряют решение задач с матроидами
FCS: Квантовые компьютеры ускоряют решение задач с матроидами

Квантовые компьютеры работают быстрее классиче...

Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом
Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом

Генеративный искусственный интеллект часто оши...

JID: Новый анализ волос с помощью ИИ улучшит исследование здоровья
JID: Новый анализ волос с помощью ИИ улучшит исследование здоровья

Новое приложение с искусственным интеллек...

В МТУСИ предложили усовершенствовать процессы SAST
В МТУСИ предложили усовершенствовать процессы SAST

Миллионы людей по всему миру ежедневно по...

Лабораторию цифровых двойников геосистем открыли в СПбГУТ
Лабораторию цифровых двойников геосистем открыли в СПбГУТ

В Санкт-Петербургском университете телекоммуни...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

SciAdv: Состоялась первая успешная демонстрация двухмедийной NV-лазерной системы
SciAdv: Состоялась первая успешная демонстрация двухмедийной NV-лазерной системы
EMBO Reports: Разработан биологический подход для изучения паттернинга тканей
EMBO Reports: Разработан биологический подход для изучения паттернинга тканей
PNAS: Индивидуальный объем пожертвований в разовых акциях не меняется
PNAS: Индивидуальный объем пожертвований в разовых акциях не меняется
В СПбГУ установили причины извержения вулканов 100 миллионов лет назад
В СПбГУ установили причины извержения вулканов 100 миллионов лет назад
NatNeurosci: Стволовые клетки помогут увидеть развитие предвестников Паркинсона
NatNeurosci: Стволовые клетки помогут увидеть развитие предвестников Паркинсона
Lancet Digital Health: Приложение спасает молодежь из группы риска от депрессии
Lancet Digital Health: Приложение спасает молодежь из группы риска от депрессии
В ПНИПУ нашли способ сохранить данные после тестов высокотехнологичных изделий
В ПНИПУ нашли способ сохранить данные после тестов высокотехнологичных изделий
Система опреснения воды на солнечных батареях обеспечит дешевой питьевой водой
Система опреснения воды на солнечных батареях обеспечит дешевой питьевой водой
ACMTAC: Новые приложения позволят слепым людям ориентироваться в помещениях
ACMTAC: Новые приложения позволят слепым людям ориентироваться в помещениях
KSSTA: Детям с неправильно сформировавшимся коленом лучше избегать операции
KSSTA: Детям с неправильно сформировавшимся коленом лучше избегать операции
Почему Эмброс и Равкан получили Нобелевскую премию
Почему Эмброс и Равкан получили Нобелевскую премию
STE: Обработка собак от паразитов вредна для водной фауны
STE: Обработка собак от паразитов вредна для водной фауны
JEM: Зеленые зоны в мегаполисах улучшают здоровье жителей
JEM: Зеленые зоны в мегаполисах улучшают здоровье жителей
Journal of the National Cancer Institute: Лечение рака груди ускоряет старение
Journal of the National Cancer Institute: Лечение рака груди ускоряет старение
Advanced Materials: ИИ ускоряет открытие энергетических и квантовых материалов
Advanced Materials: ИИ ускоряет открытие энергетических и квантовых материалов

Новости компаний, релизы

Школьников зовут на олимпиаду по ядерным технологиям и квантовой физике
В СПбГУ откроется выставка «Наука в лицах»
Уникальный онлайн-курс по истории атомной отрасли создан в ядерном университете МИФИ
От Беларуси до Бразилии. О проектных стажировках Сеченовского Университета
Инженерный центр для дошкольников