Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом

Генеративный искусственный интеллект часто ошибается при создании последовательных изображений, особенно в деталях: пальцы, глаза, симметрия лица, количество конечностей и места их прикрепления.

Эти модели могут полностью провалиться, если их просят сгенерировать изображения разных размеров и разрешений.

Новый метод создания изображений с помощью предварительно обученных диффузионных моделей может помочь исправить эти проблемы. Эти модели обучаются на основе добавления слоя за слоем случайного шума к изображениям, а затем генерируют новые изображения путём удаления добавленного шума.

Докторант Университета Райса по информатике Моаед Хаджи Али представил на конференции Института инженеров электротехники и электроники (IEEE) 2024 Conference on Computer Vision and Pattern Recognition (CVPR) в Сиэтле новый метод под названием ElasticDiffusion.

Хаджи Али отметил, что Stable Diffusion, Midjourney и DALL-E создают реалистичные изображения, но они ограничены созданием только квадратных картинок. Это может вызывать проблемы при использовании на мониторах или смарт-часах с другим соотношением сторон.

Если вы попросите модель Stable Diffusion создать неквадратное изображение с соотношением сторон 16:9, то элементы на нём будут повторяться. Это может выглядеть как странные деформации объектов, например, у людей будет шесть пальцев, а автомобили будут неестественно вытянутыми.

Это связано со способом обучения модели. По словам доцента факультета информатики Висенте Ордоньеса-Романа, который консультировал Хаджи Али в его работе вместе с Гухой Балакришнаном, доцентом факультета электротехники и вычислительной техники, если модель обучалась только на изображениях с определённым разрешением, она будет генерировать только такие изображения.

Ордоньес-Роман объяснил, что существует проблема overfitting, характерная для искусственного интеллекта. Модель становится слишком хороша в создании данных, похожих на те, на которых она была обучена, но не может выйти за пределы этих параметров.

Эту проблему можно решить, если обучить модель на большем количестве изображений. Но это дорого и требует огромных вычислительных мощностей — сотен или даже тысяч графических процессоров, — говорит Ордоньес-Роман.

По словам Хаджи Али, цифровой шум в диффузионных моделях можно преобразовать в сигнал с двумя типами данных: локальным и глобальным. Локальный сигнал содержит информацию о деталях на уровне пикселей, таких как форма глаза или текстура шерсти собаки. Глобальный сигнал включает больше информации об общем контуре изображения.

Хаджи Али, который работал над синтезом движения в видео, созданных искусственным интеллектом, а затем присоединился к исследовательской группе Ордоньеса-Романа в Райсе для получения докторской степени, говорит, что диффузионные модели нуждаются в помощи при неквадратных соотношениях сторон, потому что они объединяют локальную и глобальную информацию. Из-за этого модель пытается продублировать данные, чтобы учесть дополнительное пространство в неквадратном изображении, и это приводит к визуальным несовершенствам.

В работе Хаджи Али метод ElasticDiffusion использует другой подход к созданию изображения. Он разделяет локальный и глобальный сигналы на условный и безусловный пути генерации. Безусловный путь с локальной детализацией применяется к изображению по квадрантам, заполняя детали по одному квадрату за раз.

Глобальная информация об изображении (соотношение сторон и тип объекта) остаётся отдельной, поэтому ИИ не перепутает сигналы и не повторит данные. В результате получается более чистое изображение независимо от соотношения сторон, не требующее дополнительного обучения.

Ордоньес-Роман считает, что этот подход удачно использует промежуточные представления модели для их масштабирования и достижения глобальной согласованности.

ElasticDiffusion требует в 6–9 раз больше времени, чем другие диффузионные модели, такие как Stable Diffusion или DALL-E. И потому сейчас основная цель — сократить это время.

Хаджи Али надеется, что исследование позволит понять, почему диффузионные модели генерируют повторяющиеся части и не могут адаптироваться к меняющимся соотношениям сторон. Также он хочет разработать структуру, которая сможет адаптироваться к любому соотношению сторон и будет иметь такое же время вывода, независимо от обучения.

14.09.2024


Подписаться в Telegram



Net&IT

В МФТИ создали ПО для нефтяников и золотодобытчиков
В МФТИ создали ПО для нефтяников и золотодобытчиков

Сотрудники МФТИ предложили цифровое решение, к...

Студенты КНИТУ создали двуязычного ИИ-бота для туристов
Студенты КНИТУ создали двуязычного ИИ-бота для туристов

Студенты КНИТУ создали туристического бота с&n...

ACS Photonics: Разработаны улучшенные очки дополненной реальности
ACS Photonics: Разработаны улучшенные очки дополненной реальности

Дополненная реальность накладывает цифровые из...

FCS: Квантовые компьютеры ускоряют решение задач с матроидами
FCS: Квантовые компьютеры ускоряют решение задач с матроидами

Квантовые компьютеры работают быстрее классиче...

Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом
Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом

Генеративный искусственный интеллект часто оши...

JID: Новый анализ волос с помощью ИИ улучшит исследование здоровья
JID: Новый анализ волос с помощью ИИ улучшит исследование здоровья

Новое приложение с искусственным интеллек...

В МТУСИ предложили усовершенствовать процессы SAST
В МТУСИ предложили усовершенствовать процессы SAST

Миллионы людей по всему миру ежедневно по...

Лабораторию цифровых двойников геосистем открыли в СПбГУТ
Лабораторию цифровых двойников геосистем открыли в СПбГУТ

В Санкт-Петербургском университете телекоммуни...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

SciAdv: Состоялась первая успешная демонстрация двухмедийной NV-лазерной системы
SciAdv: Состоялась первая успешная демонстрация двухмедийной NV-лазерной системы
EMBO Reports: Разработан биологический подход для изучения паттернинга тканей
EMBO Reports: Разработан биологический подход для изучения паттернинга тканей
PNAS: Индивидуальный объем пожертвований в разовых акциях не меняется
PNAS: Индивидуальный объем пожертвований в разовых акциях не меняется
В СПбГУ установили причины извержения вулканов 100 миллионов лет назад
В СПбГУ установили причины извержения вулканов 100 миллионов лет назад
NatNeurosci: Стволовые клетки помогут увидеть развитие предвестников Паркинсона
NatNeurosci: Стволовые клетки помогут увидеть развитие предвестников Паркинсона
В ПНИПУ нашли способ сохранить данные после тестов высокотехнологичных изделий
В ПНИПУ нашли способ сохранить данные после тестов высокотехнологичных изделий
ACMTAC: Новые приложения позволят слепым людям ориентироваться в помещениях
ACMTAC: Новые приложения позволят слепым людям ориентироваться в помещениях
Lancet Digital Health: Приложение спасает молодежь из группы риска от депрессии
Lancet Digital Health: Приложение спасает молодежь из группы риска от депрессии
Система опреснения воды на солнечных батареях обеспечит дешевой питьевой водой
Система опреснения воды на солнечных батареях обеспечит дешевой питьевой водой
KSSTA: Детям с неправильно сформировавшимся коленом лучше избегать операции
KSSTA: Детям с неправильно сформировавшимся коленом лучше избегать операции
Почему Эмброс и Равкан получили Нобелевскую премию
Почему Эмброс и Равкан получили Нобелевскую премию
STE: Обработка собак от паразитов вредна для водной фауны
STE: Обработка собак от паразитов вредна для водной фауны
JEM: Зеленые зоны в мегаполисах улучшают здоровье жителей
JEM: Зеленые зоны в мегаполисах улучшают здоровье жителей
Journal of the National Cancer Institute: Лечение рака груди ускоряет старение
Journal of the National Cancer Institute: Лечение рака груди ускоряет старение
Advanced Materials: ИИ ускоряет открытие энергетических и квантовых материалов
Advanced Materials: ИИ ускоряет открытие энергетических и квантовых материалов

Новости компаний, релизы

Школьников зовут на олимпиаду по ядерным технологиям и квантовой физике
В СПбГУ откроется выставка «Наука в лицах»
Уникальный онлайн-курс по истории атомной отрасли создан в ядерном университете МИФИ
От Беларуси до Бразилии. О проектных стажировках Сеченовского Университета
Инженерный центр для дошкольников