Nature Computational Science: ИИ может предсказывать события в жизни людей
Искусственный интеллект, разработанный для моделирования письменной речи, может быть использован для предсказания событий в жизни людей. Исследовательский проект DTU, Копенгагенского университета, МСЭ и Северо-восточного университета США показывает, что если использовать большие объемы данных о жизни людей и обучить так называемые модели-трансформеры, которые, как и ChatGPT, используются для обработки языка, то они могут систематизировать данные и предсказать, что произойдет в жизни человека, и даже определить время его смерти.

В новой научной статье «Использование последовательностей жизненных событий для прогнозирования человеческой жизни», опубликованной в журнале Nature Computational Science, исследователи проанализировали данные о здоровье и выходе на рынок труда 6 миллионов датчан в рамках модели, получившей название life2vec.
После того как модель прошла начальный этап обучения, то есть узнала закономерности в данных, она показала, что превосходит другие продвинутые нейронные сети (см. врезку «Факты») и с высокой точностью предсказывает такие результаты, как личность и время смерти.
Мы использовали эту модель для решения фундаментального вопроса: в какой степени мы можем предсказать события в вашем будущем на основе условий и событий в вашем прошлом? С научной точки зрения, нас волнует не столько само предсказание, сколько те аспекты данных, которые позволяют модели давать такие точные ответы, — говорит Суне Леманн, профессор DTU и первый автор статьи.
Предсказания времени смерти
Прогнозы Life2vec — это ответы на общие вопросы, такие как: «Смерть в течение четырех лет»?
Когда исследователи анализируют ответы модели, результаты согласуются с существующими выводами в области социальных наук; например, при прочих равных условиях люди, занимающие руководящие должности или имеющие высокий доход, имеют больше шансов выжить, в то время как мужчины, квалифицированные специалисты или люди с психическими заболеваниями связаны с более высоким риском смерти. Life2vec кодирует данные в большой системе векторов — математической структуре, которая упорядочивает различные данные. Модель сама решает, куда поместить данные о времени рождения, школьном обучении, образовании, зарплате, жилье и здоровье.
Самое интересное — рассматривать человеческую жизнь как длинную последовательность событий, подобно тому, как предложение в языке состоит из ряда слов. Обычно для решения таких задач используются трансформаторные модели в ИИ, но в наших экспериментах мы используем их для анализа того, что мы называем жизненными последовательностями, то есть событий, произошедших в жизни человека, — говорит Суне Леманн.
Этические вопросы
Исследователи, написавшие статью, отмечают, что модель life2vec окружена этическими вопросами, такими как защита конфиденциальных данных, неприкосновенность частной жизни и роль предвзятости в данных. Эти проблемы должны быть более глубоко изучены, прежде чем модель можно будет использовать, например, для оценки риска заражения человека болезнью или другими предотвратимыми жизненными событиями.
Модель открывает важные позитивные и негативные перспективы для обсуждения и политического решения. Подобные технологии прогнозирования жизненных событий и поведения человека уже используются сегодня в технологических компаниях, которые, например, отслеживают наше поведение в социальных сетях, составляют чрезвычайно точные профили и используют эти профили для прогнозирования нашего поведения и влияния на нас.
Эта дискуссия должна стать частью демократического разговора, чтобы мы задумались о том, куда нас ведут технологии и хотим ли мы такого развития событий, — говорит Суне Леманн.
По мнению исследователей, следующим шагом будет включение других типов информации, таких как текст и изображения или информация о наших социальных связях. Такое использование данных открывает совершенно новое взаимодействие между социальными и медицинскими науками.
Исследовательский проект
Исследовательский проект «Использование последовательностей жизненных событий для прогнозирования человеческой жизни» основан на данных рынка труда и данных Национального реестра пациентов (LPR) и Статистического управления Дании. Набор данных включает все 6 миллионов датчан и содержит информацию о доходах, зарплате, стипендии, типе работы, отрасли, социальных льготах и т. д. Набор данных о здоровье включает записи о посещениях медицинских работников или больниц, диагнозе, типе пациента и степени срочности.
Набор данных охватывает период с 2008 по 2020 год, но в ряде анализов исследователи сосредоточились на периоде 2008-2016 годов и подгруппе лиц с ограничением по возрасту.
Модель-трансформер
Модель-трансформер — это архитектура данных с глубоким обучением, используемая для изучения языка и других задач. Модели могут быть обучены понимать и генерировать язык. Трансформаторная модель разработана быстрее и эффективнее предыдущих моделей и часто используется для обучения больших языковых моделей на больших массивах данных.
Нейронные сети
Нейронная сеть — это компьютерная модель, созданная по образцу мозга и нервной системы людей и животных. Существует множество различных типов нейронных сетей (например, трансформаторные модели). Как и мозг, нейронная сеть состоит из искусственных нейронов. Эти нейроны связаны между собой и могут посылать друг другу сигналы.
Каждый нейрон получает входные сигналы от других нейронов, а затем вычисляет выходной сигнал, который передается другим нейронам. Нейронная сеть может научиться решать задачи путем обучения на больших объемах данных. Нейронные сети опираются на обучающие данные, чтобы учиться и повышать свою точность с течением времени.
Но как только алгоритмы обучения отлажены, они становятся мощными инструментами в информатике и искусственном интеллекте, позволяющими классифицировать и группировать данные с высокой скоростью. Одна из самых известных нейронных сетей — поисковый алгоритм Google.