MIT: Данным для обучения больших языковых моделей часто не хватает прозрачности

Исследователи создали простой инструмент, который помогает специалистам по ИИ находить нужные данные. Это повышает точность и уменьшает погрешность модели.

Для обучения мощных больших языковых моделей исследователи используют обширные коллекции данных из тысяч веб-источников. Но при объединении этих наборов данных информация об их происхождении часто теряется или путается. Из-за этого могут возникнуть проблемы юридического и этического характера, а также ухудшиться производительность модели. Например, если набор данных неправильно классифицирован, то человек может использовать для обучения модели неподходящие данные.

Исследователи из Массачусетского технологического института и других университетов проверили более 1800 текстовых наборов данных на популярных хостингах. Оказалось, что более чем в 70% случаев информация об авторах и лицензии отсутствовала, а примерно в половине — содержались ошибки.

На основе полученных данных учёные создали инструмент Data Provenance Explorer. Он автоматически формирует понятные отчёты о создателях, источниках, лицензиях и способах использования наборов данных.

Инструменты, подобные Data Provenance Explorer, помогают принимать обоснованные решения о внедрении ИИ и способствуют ответственному развитию этой технологии. Об этом говорит Алекс «Сэнди» Пентланд, профессор Массачусетского технологического института.

Data Provenance Explorer помогает специалистам в области ИИ создавать более эффективные модели. Инструмент позволяет выбирать обучающие наборы данных, которые соответствуют назначению модели. Это может повысить точность моделей ИИ в реальных ситуациях, например, при оценке заявок на получение кредитов или ответов на запросы клиентов.

Один из способов понять возможности и ограничения модели искусственного интеллекта — это узнать, на каких данных она обучалась. Когда возникает путаница в происхождении данных, появляется проблема прозрачности, — говорит Роберт Махари, аспирант Массачусетского технологического института и кандидат юридических наук Гарвардской школы права, один из авторов статьи.

В исследовании также приняли участие Шейн Лонгпре, аспирант Media Lab, Сара Хукер, возглавляющая исследовательскую лабораторию Cohere for AI, а также другие специалисты из разных университетов и компаний. Результаты исследования опубликованы в журнале Nature Machine Intelligence.

Фокус на тонкой настройке

Исследователи улучшают возможности языковой модели с помощью техники под названием «тонкая настройка». Они собирают данные, чтобы модель лучше решала конкретную задачу, например, отвечала на вопросы.

Исследователи MIT изучают эти наборы данных. Их создают исследователи, академические организации или компании и лицензируют для определённого использования.

Когда краудсорсинговые платформы объединяют такие наборы в большие коллекции, часть исходной информации о лицензии теряется.

Махари считает, что лицензии должны быть осуществимы и иметь значение.

Лонгпре добавляет, что люди могут обучать модели, не понимая их возможностей, опасений и рисков, связанных с данными. Это может привести к тому, что модель придётся удалить, если данные окажутся конфиденциальными.

Чтобы начать исследование, учёные дали определение проверенности данных. Затем они разработали процедуру аудита для отслеживания происхождения данных в более чем 1800 коллекциях текстовых наборов данных из популярных онлайн-репозиториев.

Оказалось, что более 70% этих наборов данных содержат «неуказанные» лицензии с неполной информацией. Исследователи заполнили пробелы, и количество таких наборов сократилось примерно до 30%.

Также выяснилось, что правильные лицензии часто были более ограничительными, чем указанные в хранилищах.

Создатели наборов данных в основном находятся на севере мира, поэтому модель, обученная на этих данных, может быть не применима в других регионах.

Например, набор данных по турецкому языку, созданный жителями США и Китая, не содержит культурно значимых аспектов.

Исследователи также заметили, что с 2023–2024 годов создатели стали чаще ограничивать использование своих наборов данных. Это может быть связано с опасениями, что данные будут использованы в коммерческих целях.

Удобный инструмент

Исследователи создали Data Provenance Explorer, чтобы помочь людям получить информацию без ручного аудита.

Инструмент позволяет сортировать и фильтровать данные по определённым критериям, а также загружать карту достоверности данных для структурированного обзора характеристик набора данных.

Махари выразил надежду, что это поможет людям делать более осознанный выбор данных при обучении.

В будущем исследователи планируют расширить анализ и изучить происхождение мультимодальных данных, включая видео и речь. Они также хотят исследовать, как условия предоставления услуг на веб-сайтах влияют на наборы данных.

Они обращаются к регулирующим органам, чтобы обсудить результаты исследований и их значение для авторского права, связанное с точной настройкой данных.

Нам нужно, чтобы данные были подтверждены и прозрачны с самого начала, — говорит Лонгпре.

01.09.2024

Подписаться: Телеграм | Дзен | Вконтакте


Net&IT

Дипфейки научились дышать: как подделки имитируют сердцебиение
Дипфейки научились дышать: как подделки имитируют сердцебиение

Представьте мир, где дипфейки стали насто...

ИИ анализирует цветение злаков без помощи человека
ИИ анализирует цветение злаков без помощи человека

Ученые создали алгоритм, который учится сам&nb...

Социальный провал: как ИИ путает разговор с переходом улицы
Социальный провал: как ИИ путает разговор с переходом улицы

Оказывается, люди пока разбираются в соци...

Создана нейросеть для тестирования интерфейсов: как это работает
Создана нейросеть для тестирования интерфейсов: как это работает

Каждый день миллионы людей покупают товары, оп...

Диагноз от ChatGPT: почти как у терапевта, но без очереди
Диагноз от ChatGPT: почти как у терапевта, но без очереди

Использование генеративного ИИ для д...

Облака вместо складов: как ритейл выжимает максимум из цифры
Облака вместо складов: как ритейл выжимает максимум из цифры

Владимир Лебедев, директор по развитию би...

ИИ-Тесла против мультяшного Эйнштейна: кому вы поверите?
ИИ-Тесла против мультяшного Эйнштейна: кому вы поверите?

Если вы из 1,5 миллиарда пользовател...

ИИ на акустических волнах: тише едешь — дальше будешь
ИИ на акустических волнах: тише едешь — дальше будешь

Искусственный интеллект уже меняет нашу ж...

Цифровой соблазн: почему мы теряем голову от ИИ и как ее вернуть
Цифровой соблазн: почему мы теряем голову от ИИ и как ее вернуть

Эксперт по цифровым стратегиям Джулио Тос...

Море данных: физики доверили расчет жидкости ИИ
Море данных: физики доверили расчет жидкости ИИ

Искусственный интеллект уже изменил общес

Не биты, а кубиты: квантовые компьютеры играют в другой лиге
Не биты, а кубиты: квантовые компьютеры играют в другой лиге

Современные компьютеры, от смартфонов до&...

Квантовый мост: ученые соединили микроволны и свет в одном чипе
Квантовый мост: ученые соединили микроволны и свет в одном чипе

Физики из Гарвардской школы инженерии и&n...

40 000 точек вместо 12: наука усовершенствует слежение за взглядом
40 000 точек вместо 12: наука усовершенствует слежение за взглядом

Ученые из Университета Аризоны придумали,...

ИИ наступает: какие профессии выживут, а какие сдадут позиции
ИИ наступает: какие профессии выживут, а какие сдадут позиции

С каждым годом искусственный интеллект станови...

Защита на опережение: почему мир переходит на новое шифрование HQC
Защита на опережение: почему мир переходит на новое шифрование HQC

Национальный институт стандартов и технол...

Не просто облака, а целая экосистема: бизнес переосмыслил IT
Не просто облака, а целая экосистема: бизнес переосмыслил IT

Российский облачный рынок не просто расте...

Фотоны вместо битов: ученые придумали новый способ защиты данных
Фотоны вместо битов: ученые придумали новый способ защиты данных

Ученые из Пензенского государственного ун...

Сила света: ученые открыли новый способ хранения информации
Сила света: ученые открыли новый способ хранения информации

Ученые из Санкт-Петербургского государств...

ИИ после ChatGPT: куда движется искусственный интеллект
ИИ после ChatGPT: куда движется искусственный интеллект

В журнале Engineering недавно вышла статья, гд...

Индивидуальный подход в облаке: тренды 2025 года
Индивидуальный подход в облаке: тренды 2025 года

В 2025 году бизнес в России предъявляет н...

Облака под замком: как защитить данные в эпоху цифровых угроз
Облака под замком: как защитить данные в эпоху цифровых угроз

Международный облачный провайдер Serverspace п...

Машины, которые видят, слышат и создают: как ИИ меняет реальность
Машины, которые видят, слышат и создают: как ИИ меняет реальность

В последние десятилетия технологии сильно изме...

Банки, мошенники и ИИ: как ученые научили нейросети думать на два уровня
Банки, мошенники и ИИ: как ученые научили нейросети думать на два уровня

Ученые придумали новый способ обучать нейронны...

Облака на заказ: как бизнес находит идеальные IT-решения
Облака на заказ: как бизнес находит идеальные IT-решения

В 2025 году крупный и средний бизнес все&...

Поиск на сайте

ТОП - Новости мира, инновации

Зарядка сквозь тело: как ультразвук заменит провода
Зарядка сквозь тело: как ультразвук заменит провода
Цифровые решения российских банков: трейдинг, чат-бот и ЖКХ
Цифровые решения российских банков: трейдинг, чат-бот и ЖКХ
Ученые нашли способ заменить литий в батареях с помощью углеродных конусов
Ученые нашли способ заменить литий в батареях с помощью углеродных конусов
Растения под капельницей: новая эра сельского хозяйства
Растения под капельницей: новая эра сельского хозяйства
Квантовые вычисления помогут зданиям экономить энергию
Квантовые вычисления помогут зданиям экономить энергию
Слепые зоны уверенности: почему тревожные люди не видят своих успехов
Слепые зоны уверенности: почему тревожные люди не видят своих успехов
Ученые научились анализировать квантовые системы несмотря на помехи
Ученые научились анализировать квантовые системы несмотря на помехи
Грязная работа: как ток очищает воду и добывает метан
Грязная работа: как ток очищает воду и добывает метан
Лабораторный 3D-рентген заменит синхротроны в некоторых исследованиях
Лабораторный 3D-рентген заменит синхротроны в некоторых исследованиях
Магнитные курьеры: шелк и железо доставят лекарство точно в цель
Магнитные курьеры: шелк и железо доставят лекарство точно в цель
Зеленый — играем, синий — не мешай: браслет учит детей понимать друг друга
Зеленый — играем, синий — не мешай: браслет учит детей понимать друг друга
Ученые измерили выбросы парниковых газов из озера Баскунчак
Ученые измерили выбросы парниковых газов из озера Баскунчак
Не бетон, а стальная резина: новый материал для небоскребов будущего
Не бетон, а стальная резина: новый материал для небоскребов будущего
Как Китай снижает нагрузку на сеть при росте мощных зарядок
Как Китай снижает нагрузку на сеть при росте мощных зарядок
Деревья-оракулы: что скрывает биоэлектрический шепот леса
Деревья-оракулы: что скрывает биоэлектрический шепот леса

Новости компаний, релизы

Школы без пыльных кабинетов: что дал проект «Современная школа»
Ход конем: в Шагонаре прошел первый шахматный турнир для дошколят
Не только Ярослав — Мудрый: кто сегодня двигает науку в Новгороде
В Якутии запустят производство дронов
Российские технологии в сердце Азии: что показали на ИННОПРОМ