Подход ученых под названием Distribution matching distillation (DMD) объединяет принципы генеративно-состязательных сетей с принципами диффузионных моделей. Генеративно-состязательные сети состоят из генератора, который создает новые данные, и дискриминатора, который пытается определить, являются ли эти данные реальными или сгенерированными. Диффузионные модели работают путем добавления шума к доступным обучающим данным, а затем обращают процесс для восстановления данных.
DMD состоит из двух компонентов. Первый упорядочивает изображения, делая их свойства и характеристики более предсказуемыми. В результате обучение становится стабильнее. Второй гарантирует, что вероятность генерации определенного изображения моделью-«учеником» соответствует тому, как часто такое изображение встречается в реальном мире. Для этого используются специальные модели диффузии, которые помогают системе отличить настоящие изображения от сгенерированных.
Система достигает более быстрой генерации, поскольку сеть-«ученик» обучается минимизировать расхождения между сгенерированными ею изображениями и изображениями из обучающего набора данных, используемого традиционными моделями диффузии.
Ученые скопировали и настроили параметры исходных моделей, что позволило им быстро обучить новую модель-«ученика». Так, в качестве «учителя» использовалась Stable Diffusion v1.5. Исследователи как бы сжали знания более сложной модели-«учителя» в более простую и быструю модель, обходя проблемы, свойственные генеративно-состязательным сетям. Используя ту же архитектуру эта модель могла генерировать высококачественные изображения. Комбинируя различные методы оптимизации на основе оригинальной архитектуры, можно было ускорить генерацию.
Новый метод позволил генерировать визуальный контент за один шаг. По словам авторов исследования, уменьшение количества итераций было «Святым Граалем» диффузионных моделей с момента их создания. При сравнении с обычными методами с использованием множества тестов DMD показал стабильную производительность. Это первый метод одноэтапной генерации, который создает изображения практически на одном уровне с изображениями исходных, более сложных моделей. Кроме того, DMD справляется с преобразованием текста в изображение в промышленном масштабе. Однако в более сложных задачах преобразования текста в картинки все еще существует небольшая разница в качестве.
Еще одна проблема заключается в том, что качество изображений, созданных с помощью DMD, перенимает недостатки модели-«учителя», используемой в процессе обучения. В текущей форме, где в качестве «учителя» выступала Stable Diffusion v1.5, модель-«ученик» наследует ограничения в детальной визуализации текста и лиц. Поэтому изображения, сгенерированные DMD, можно дополнительно улучшить с помощью более продвинутых моделей-«учителей».
Former Bungie lead counsel explains how the studio nailed one of Destiny 2's most infamous leakers
How well does XCOM: Enemy Within hold up today?
Двадцать пять человек за одним столом под звуки караоке – это было шедеврально!
Yesterday I ignored 10 tornado warnings to finish a Destiny 2 raid, didn't get the exotic drop, and disappointed my fiancée. Is there some sort of lesson here?
Заводы АО "Желдорреммаш" выбирают лучших в своей профессии
Судебный процесс над экс-сенатором Сабадашем перенесли из Петербурга в Москву
Филиал № 4 ОСФР по Москве и Московской области информирует:
За полгода 14,9 тысячи жителей Московского региона оформили страховую пенсию в автоматическом режиме на портале госуслуг
Рекой подать. Туристы рассказали, куда едут в круизы из Москвы
Общество: Скоростное движение в обход Твери и Тольятти укрепит экономику и логистику России
Судебный процесс над экс-сенатором Сабадашем перенесли из Петербурга в Москву
Филиал № 4 ОСФР по Москве и Московской области информирует:
За полгода 14,9 тысячи жителей Московского региона оформили страховую пенсию в автоматическом режиме на портале госуслуг
Заводы АО "Желдорреммаш" выбирают лучших в своей профессии