Разработчикам генеративных моделей ИИ грозят судебные иски
ChatGPT появилась на рынке всего полгода назад, и сегодня многие крупные компании уже используют технологию генеративного ИИ в своей работе или разрабатывают продукты на ее основе.
Ранее машинным моделям для обучения предоставлялись большие объемы данных, созданные людьми, включая книги, статьи и фотографии. Но с развитием ИИ создаваемый искусственным «разумом» контент становится все более распространенным.
Исследователи из Британии и Канады опубликовали статью в журнале arXiv, где описали проблемы, которые могут возникнуть в будущем, когда генеративные модели ИИ начнут использовать материалы, созданные другими моделями. Ученые предупреждают, что использование сгенерированных моделями данных для обучения приведет к постепенному вырождению моделей. ИИ начнет забывать настоящие распределения данных, и со временем модели станут менее адекватными и начнут допускать ошибки.
В докладе отмечаются задачи, которые возникают при обучении генеративных моделей типа «текст-текст» и „изображение-изображение“. Авторы статьи подчеркивают, что использование данных, созданных другими моделями, неизбежно приведет к коллапсу моделей.
Ученые предлагают несколько решений этой проблемы, которые потребуют механизма массовой маркировки и серьезных усилий со стороны производителей контента или ИИ-компаний по разведению материалов, созданных человеком и машиной. Вместе с тем, специалисты считают, что в будущем многие компании, создающие ИИ-модели, могут стать уязвимы для судебных исков в связи с требованием раскрытия наборов обучающих данных.