Новую модель для графической нейросети сделают доступной для смартфонов

Среди множества моделей искусственного интеллекта и машинного обучения, доступных сегодня для перевода изображений, модели перевода изображений с помощью генеративных адверсарных сетей могут изменять стиль изображений.

Эти модели работают на основе двух входных изображений: изображения контента, которое изменяется в соответствии со стилем эталонного изображения. Эти модели используются для таких задач, как преобразование изображений в различные художественные стили, моделирование погодных изменений, улучшение разрешения спутникового видео и помощь автономным транспортным средствам в распознавании различных условий освещения, таких как день и ночь.

Теперь исследователи из Софийского университета разработали модель, которая позволяет снизить вычислительные требования, необходимые для запуска этих моделей, что делает возможным их запуск на широком спектре устройств, включая смартфоны. В исследовании, опубликованном в IEEE Open Journal of the Computer Society 25 сентября 2024 года, доцент Рина О и профессор Тад Гонсалвес с факультета информационных и коммуникационных наук Софийского университета предложили модель «однопоточного перевода изображения в изображение (SSIT)», которая использует только один кодер для выполнения этого преобразования.

Обычно для «понимания» изображений в моделях перевода с изображения на изображение требуется два кодера — один для изображения содержания и один для изображения стиля. Эти кодировщики преобразуют изображения содержания и стиля в числовые значения (пространство признаков), которые представляют ключевые аспекты изображения, такие как цвет, объекты и другие особенности. Затем декодер берет объединенные характеристики содержания и стиля и восстанавливает конечное изображение с желаемым содержанием и стилем.

В отличие от этого, SSIT использует один кодировщик для извлечения пространственных характеристик, таких как формы, границы объектов и макеты изображения содержания. Для изображения стиля модель использует прямую адаптивную нормализацию экземпляров с пулингом (DAdaINP), которая захватывает ключевые детали стиля, такие как цвета и текстуры, фокусируясь на наиболее заметных особенностях для повышения эффективности. Затем декодер берет комбинированные характеристики содержания и стиля и восстанавливает конечное изображение с желаемым содержанием и стилем.

Профессор О говорит:

Мы реализовали модель перевода изображения в изображение, которая выполняет преобразование стиля с меньшими вычислительными затратами на GPU, обращаясь при этом к входным изображениям стиля. В отличие от предыдущих подобных моделей, наш подход использует пулинг и деформируемую свертку для эффективного извлечения стилевых особенностей, что обеспечивает высококачественное преобразование стиля при снижении вычислительных затрат и сохранении пространственных особенностей в изображениях контента.

Модель обучается с помощью состязательного обучения, при котором сгенерированные изображения оцениваются дискриминатором с трансформатором зрения, который улавливает паттерны в изображениях. Дискриминатор оценивает, являются ли сгенерированные изображения настоящими или поддельными, сравнивая их с целевыми изображениями, а генератор учится создавать изображения, которые могут обмануть дискриминатор.

Используя модель, исследователи выполнили три типа задач по трансформации изображений. Первая включала в себя сезонную трансформацию, когда пейзажные фотографии преобразовывались из летних в зимние и наоборот. Вторая задача — преобразование фотографий в произведения искусства, в ходе которого пейзажные фотографии преобразовывались в известные художественные стили, такие как Пикассо, Моне или аниме. Третья задача была направлена на перевод времени и погоды для вождения, где изображения, снятые с передней части автомобиля, изменялись для имитации различных условий, таких как переход от дня к ночи или от солнечной погоды к дождливой.

Во всех этих задачах модель показала лучшие результаты, чем пять других GAN-моделей (а именно NST, CNNMRF, MUNIT, GDWCT и TSIT), с более низкими показателями Fréchet Inception Distance и Kernel Inception Distance. Это свидетельствует о том, что сгенерированные изображения были похожи на целевые стили и лучше воспроизводили цвета и художественные детали.

Наш генератор смог сократить вычислительные затраты и количество FLOP по сравнению с другими моделями, потому что мы использовали единый кодер, состоящий из нескольких слоев свертки только для изображения контента, и разместили слои объединения для извлечения особенностей стиля в разных ракурсах вместо слоев свертки, — говорит профессор О.

В долгосрочной перспективе модель SSIT способна демократизировать процесс преобразования изображений, сделав его доступным для использования на таких устройствах, как смартфоны или персональные компьютеры. Это позволит пользователям из различных областей, включая цифровое искусство, дизайн и научные исследования, создавать высококачественные преобразования изображений, не прибегая к дорогостоящему оборудованию или облачным сервисам.

Ранее стало известно, что 62% представителей бизнеса готовы поощрять сотрудников за использование нейросетей.

16.12.2024


Подписаться в Telegram



Net&IT

Удаленка навсегда: как бизнес адаптируется к новым реалиям
Удаленка навсегда: как бизнес адаптируется к новым реалиям

Тренд на цифровизацию и удаленную ра...

Ритейл на скорости: почему серверы стали must-have для крупных сетей
Ритейл на скорости: почему серверы стали must-have для крупных сетей

Международный облачный провайдер и систем...

Облака над Средней Азией: как регион становится IT-гигантом
Облака над Средней Азией: как регион становится IT-гигантом

Средняя Азия активно развивает IT-сферу и ...

ИИ знает, кем ты станешь: как соцсети помогают выбрать профессию
ИИ знает, кем ты станешь: как соцсети помогают выбрать профессию

Ученые из Санкт-Петербургского государств...

Риски квантовой эры: как защитить интернет от новых угроз
Риски квантовой эры: как защитить интернет от новых угроз

Квантовые вычисления больше не являются д...

Представлены новейшие разработки в области квантовых вычислений
Представлены новейшие разработки в области квантовых вычислений

Квантовые вычисления находятся в авангард...

TheInnovator: Роботы с искусственным интеллектом изменят рынок труда
TheInnovator: Роботы с искусственным интеллектом изменят рынок труда

Если компании и ИИ-стартапы, стремящиеся ...

В КАИ оснащают беспилотники компьютерным зрением
В КАИ оснащают беспилотники компьютерным зрением

Ученые университета разработали специальные пр...

Разработан реалистичный тест для оценки навыков клинического общения ИИ
Разработан реалистичный тест для оценки навыков клинического общения ИИ

Инструменты искусственного интеллекта, такие к...

Сети Wi-Fi-избавили от лишней «информационной нагрузки»
Сети Wi-Fi-избавили от лишней «информационной нагрузки»

Ученые придумали, как сделать информацию ...

Nature Human Behaviour: Заблуждение ИИ усиливает наши собственные заблуждения
Nature Human Behaviour: Заблуждение ИИ усиливает наши собственные заблуждения

Системы искусственного интеллекта склонны пере...

Новую модель для графической нейросети сделают доступной для смартфонов
Новую модель для графической нейросети сделают доступной для смартфонов

Среди множества моделей искусственного интелле...

В ННГУ научились восстанавливать функции биологических нейросетей
В ННГУ научились восстанавливать функции биологических нейросетей

Новую технологию, которая работает подобно кле...

Scientific Reports: Разработано подвижное навигационное устройство для незрячих
Scientific Reports: Разработано подвижное навигационное устройство для незрячих

Новаторская навигационная технология, использу...

Nature Communications: Аналоговые машины тоже могут обучаться
Nature Communications: Аналоговые машины тоже могут обучаться

Все думают, что машинное обучение &m...

Nature Communications: ИИ изучает язык расположения атомов в твердых телах
Nature Communications: ИИ изучает язык расположения атомов в твердых телах

Новую модель искусственного интеллекта, котора...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

Невидимые враги: как ароматизаторы превращают ваш дом в угрозу для здоровья
Невидимые враги: как ароматизаторы превращают ваш дом в угрозу для здоровья
Легкие и прочные: как Al-Sc сплавы покоряют промышленность
Легкие и прочные: как Al-Sc сплавы покоряют промышленность
Cell Reports: Голодание приносит пользу взрослым, но создает риск для подростков
Cell Reports: Голодание приносит пользу взрослым, но создает риск для подростков
69 ученых, которые меняют мир: история успеха из Нижнего Новгорода
69 ученых, которые меняют мир: история успеха из Нижнего Новгорода
Как взрываются звезды: открытия, которые меняют наше представление о Вселенной
Как взрываются звезды: открытия, которые меняют наше представление о Вселенной
Спасти жизнь за минуты сможет кетамин в борьбе с эпилептическим статусом
Спасти жизнь за минуты сможет кетамин в борьбе с эпилептическим статусом
Как получить инструмент будущих инженеров бесплатно, если ты студент
Как получить инструмент будущих инженеров бесплатно, если ты студент
От шахт до чистой энергии: путь австралийской горнодобывающей промышленности
От шахт до чистой энергии: путь австралийской горнодобывающей промышленности
Больничные раковины и невидимый враг, который в них живет
Больничные раковины и невидимый враг, который в них живет
Цикорий и кобальт: дуэт против рака, бьющий точно в цель
Цикорий и кобальт: дуэт против рака, бьющий точно в цель
Без капитана, но с комфортом: в Нижнем Новгороде строят судно без экипажа
Без капитана, но с комфортом: в Нижнем Новгороде строят судно без экипажа
Лазер, графен, полимер: как создают электронику, которую можно сгибать
Лазер, графен, полимер: как создают электронику, которую можно сгибать
Ученые объединили два прибора в один, чтобы лучше анализировать газы
Ученые объединили два прибора в один, чтобы лучше анализировать газы
Световые качели: физики открыли новый способ управлять светом
Световые качели: физики открыли новый способ управлять светом
Удаленка навсегда: как бизнес адаптируется к новым реалиям
Удаленка навсегда: как бизнес адаптируется к новым реалиям

Новости компаний, релизы

Более 200 нижегородцев посетили научные кинопоказы честь Дня российской науки
Школьников и студентов Хабаровского края приглашают написать всероссийский диктант «Наука во имя Победы»
На Фестивале «Москва — Точка старта» победили проекты из МИФИ
«Десятилетие науки и технологий»: волгоградские ученые получили премии и гранты
Три представительницы Республики Татарстан стали победителями Всероссийского конкурса Знание.Лектор