Снятся ли андроидам электроовцы?

Алексей Коржебин 07/06/2022

В апреле 2022 г. компания OpenAI представила вторую версию нейронной сети DALL-E. Ранее мы публиковали статью о нейронной сети GPT3, представленную той же организацией, которая умела генерировать тексты на основе краткого описания. Сеть DALL-E представляет собой развитие этой идеи, но уже генерирует результат в виде картинок. Название сети имеет явные отсылки к известному художнику-сюрреалисту Сальвадору Дали и роботу Wall-E из одноименного мультфильма.

Первая версия нейросети была представлена OpenAI еще в январе 2021 г. С момента выхода DALL-E разные страны заинтересовалась этой разработкой, например в Китае подобный генератор появился под названием CogView. Наконец, генерировать изображения стало возможным и из текстов на русском языке: в ноябре 2021 г. команды SberAI, SberDevices, Самарского университета, AIRI и SberCloud представили проект ruDALL-E. Интересный факт, что обучение нейросети ruDALL-E стало самой большой вычислительной задачей в России.

Эффектный набор функций

С выходом новой версии появились возможности вносить реалистичные изменения в существующие изображения с подписями на естественном языке. Теперь сеть может добавлять и удалять элементы, принимая во внимание тени, отражения и текстуры.

Кроме того, теперь DALL-E 2 на основе оригинального изображения может создавать различные его вариации. В новой версии также появилась возможность генерировать более реалистичные и точные изображения с 4-кратным увеличением разрешения.

Сеть DALL-E изначально обладала достаточно большим набором функций. Например, вы можете управлять атрибутами объектов и нарисовать "пятиугольные зеленые часы", "кресло в виде авокадо" или "куб в виде дикобраза". Причем это работает и для нескольких объектов одновременно.

В качестве примера рассмотрим фразу "ежик в красной шапке, желтых перчатках, синей рубашке и зеленых штанах". Чтобы правильно интерпретировать это предложение, DALL-E должна не только правильно скомпоновать каждый предмет одежды с животным, но и сформировать ассоциации "шапка, красный", "перчатки, желтый", "рубашка, синий" и "штаны, зеленый", не смешивая их. При этом DALL-E понимает и относительное позиционирование: например, можно описать положение предметов как "пирамидка из кубиков, наверху красный, под ним зеленые, которые стоят на синих".

DALL-E позволяет управлять точкой обзора сцены, настройкой камеры и 3D-стилем, в котором визуализируется сцена. Например, она понимает описания "очень крупный план капибары из вокселей, сидящей на поле" или вид объектива "рыбий глаз" и "сферическая панорама".

Кладезь знаний

То, что написано выше, звучит замечательно, но пока это выглядит как продвинутый пользовательский интерфейс для программы 3D-моделирования посредством текстовых команд. Однако особенности DALL-E отнюдь не в этом. DALL-E построена на сети GPT-3, которая обучена на гигантском объеме информации, поэтому DALL-E обладает в том числе географическими и историческими знаниями. Сеть может сформировать реалистичные изображения на запрос "фото блюд из Китая", "фото моста "Золотые ворота" в Сан-Франциско" или "фото телефонов начала XX века".

GPT-3 содержит не только сырую информацию. Она хранит во внутренних структурах уже не просто данные, а знания, на основе которых может делать выводы и синтезировать новые знания. Например, используя композиционную природу языка, DALL-E имеет возможность объединять понятия для описания как реальных, так и воображаемых вещей, может комбинировать разрозненные идеи для синтеза объектов, некоторые из которых вряд ли существуют в реальном мире. К примеру, сеть делает изображения по запросам "улитка из арфы", "фото пиццы с начинкой из лего", "статуя, поскользнувшаяся на льду", "Голлум пишет свою автобиографию", "лев в капюшоне, взламывающий ноутбук".

Сеть действительно может "размышлять"

GPT-3 умеет выполнять многие виды задач исключительно на основе описания и подсказки, чтобы сгенерировать ответ, без какого-либо дополнительного обучения. Например, на запрос перевести на французский язык фразу "человек, выгуливающий свою собаку в парке" GPT-3 отвечает по-французски: "Un homme qui promène son chien dans le parc". Эта способность называется рассуждениями zero shot. DALL-E расширяет эту возможность до визуальной области и может выполнять несколько видов задач преобразования изображения в другое изображение при правильном запросе, например нарисовать "точно такого же кота вверху, как набросок внизу" или нарисовать "точно такой же чайник, как сверху, но с надписью gpt снизу".

Даже сами разработчики были удивлены такой функциональностью. Они заявили, что не вносили никаких изменений в нейронную сеть или процедуру обучения, чтобы ее разработать. Более того, выяснилось, что DALL-E может решать задачи на рассуждения по аналогии. Разработчики подтвердили эту способность, протестировав ее на прогрессивных матрицах Равена – визуальном тесте IQ, который широко использовался в XX веке.

DALL-E – это не просто научная разработка

Такие системы имеют и сугубо практическое значение: они найдут свое применение в рекламе, иллюстрации книг и статей, возможно частично заменив профессиональных художников и иллюстраторов.

DALL-E – это прекрасный пример искусственного интеллекта, который уже не просто обрабатывает данные и решает такие узконаправленные задачи, как распознавание лиц или перевода текста, но уже подбирается к задачам искусственного интеллекта общего назначения.

Появление систем класса DALL-E, GPT-3 все четче поднимает перед человечеством вопросы, которые раньше относились к исключительно философской сфере, – "Что есть сознание? Как отличить сложно запрограммированную систему от разумного существа, обладающего мышлением? Как взаимодействовать человечеству с такими "разумными" системами? Осознают ли они себя? Как понять их внутренний мир?"
Ведь, по сути, DALL-E – это визуализация внутренних структур сети GPT-3. И наконец, сможем ли мы ответить на вопрос Филипа Дика из романа "Бегущий по лезвию бритвы" – "Снятся ли андроидам электроовцы?"

evika-korzhebin1

Алексей Коржебин

Эксперт редакции журнала "Системы безопасности"

Противотаранные устройства и заграждения. ОБЗОР >>

Темы: Цифровая трансформация Нейросети Журнал "Системы безопасности" №2/2022

Поделитесь вашими идеями

Подписаться на новости

19 августа | 11:00

Автоматизация жилых комплексов и умное управление недвижимостью

14 августа | 11:00

Критерии выбора систем защиты периметра

12 августа | 11:00

Снятся ли андроидам электроовцы?

Эффектный набор функций

Кладезь знаний

Сеть действительно может "размышлять"

DALL-E – это не просто научная разработка

Подписаться на новости

Автоматизация жилых комплексов и умное управление недвижимостью

Критерии выбора систем защиты периметра

Что могут цифровые двойники? Отраслевые кейсы

Регистрация на

Журнал "Системы безопасности"
Издается компанией Гротек с 1995 года

Снятся ли андроидам электроовцы?

Эффектный набор функций

Кладезь знаний

Сеть действительно может "размышлять"

DALL-E – это не просто научная разработка

Подписаться на новости

Автоматизация жилых комплексов и умное управление недвижимостью

Критерии выбора систем защиты периметра

Что могут цифровые двойники? Отраслевые кейсы

Регистрация на

Журнал "Системы безопасности"Издается компанией Гротек с 1995 года

Журнал "Системы безопасности"
Издается компанией Гротек с 1995 года