Подписка

Нужен ли искусственному интеллекту человеческий опыт?

25/11/19

Мы все уже привыкли к впечатляющим достижениям искусственного интеллекта (ИИ) в различных интеллектуальных настольных играх. Никого уже не удивить победой ИИ над человеком в шахматах или в шашках. Почти три года назад как гром среди ясного неба была победа ИИ в игру го. В отличие от шахмат для го считалось принципиально невозможно просчитать все возможные варианты развития событий: число допустимых комбинаций в игре на стандартном гобане больше, чем атомов в наблюдаемой Вселенной, и поэтому казалось, что эта игра навсегда останется в области человеческой интуиции.

Программа AlphaGo компании Google, обучившись на истории игр лучших человеческих игроков в го, выиграла у сильнейшего игрока в мире Кэ Цзе со счетом 3:0. Следующим шагом было предоставление возможности ИИ учиться самостоятельно, без знания человеческого опыта. Разработчики задались вопросом: что это даст? Так появилась программа AlphaGo Zero, которая училась играть сама с собой, проигрывая различные партии миллионы раз.

И как результат – AlphaGo Zero победила обученного на человеческом опыте AlphaGo с разгромным счетом 100:0. То есть, по сути, выяснилось, что человеческий опыт так неоптимален, что мешает развиваться системам ИИ в дальнейшем.

Затем были попытки использования ИИ в военных компьютерных играх – StarCraft и Dota 2, главное отличие их от настольных игр в том,
что игроки не знают полностью текущее состояние ресурсов и местоположения юнитов противников, а знают только то, что могут увидеть их собственные юниты. То есть они начинают прогнозировать свои следующие шаги на основе неполной информации. И уже в течение последнего года специально созданные боты вначале победили лучших игроков в Dota 2 в одиночных боях, а после уже и в групповых.

Но во всех этих играх правила не меняются и известны заранее. А как бы научить ИИ самостоятельно изучать мир, открывать его законы и применять их для достижения своих целей?

Мне хотелось бы рассказать об очень интересном эксперименте в этом направлении, который провела организация OpenAI. OpenAI – это
некоммерческая исследовательская компания из Сан-Франциско, занимающаяся искусственным интеллектом. Цель компании – развивать открытый, дружественный ИИ. Одним из основателей является предприниматель Илон Маск.

Суть эксперимента – научить несколько ИИ играть в прятки, взаимодействуя между теми, кто ищет, и теми, кто прячется. Для этого
использовали игровой "движок", который умел рассчитывать физическую модель игрового мира – столкновения, гравитацию, возможность передвижения различных объектов и т.д.

Те объекты ИИ, которые искали, были сделаны в виде красных человечков, а те, которые прятались, – в виде синих. Команды между собой могли обмениваться информацией. Для ИИ были определены награды для "красных" и "синих", в зависимости от результата – видели
или не видели они друг друга. Вначале игроков запустили в лабиринт из комнат с дверями, где стояли ящики, позволявшие перекрывать
двери или прятаться за ними, и пандусы, дававшие возможность перепрыгивать по ним стены комнат. "Синие" могли блокировать объекты, чтобы их нельзя было передвинуть.

Сначала игроки совершали случайные движения, но уже после 8 млн итераций "синие" достаточно грамотно блокировали двери ящиками и успешно прятались от "красных". После 14 млн игр "красные" научились использовать пандусы для перепрыгивания стен в комнатах, за которыми прятались "синие". После 40 млн игр "синие" научились координировать свои действия и прятать пандусы в заблокированных комнатах перед их блокировкой, чтобы их не могли использовать "красные".

На следующем этапе обученных ИИ выпустили на открытое игровое поле, на котором были случайно расположенные различные объекты –
ящики различных форм, пандусы и т.д.

И "синие" научились из этих объектов строить закрытые места, где их не могли видеть "красные". Для этого им понадобилось почти 90 млн
партий. Через 500 млн игр "красные" научились использовать почти любые объекты для перепрыгивания через различные препятствия, а "синие" – заранее блокировать объекты, чтобы их не могли использовать "красные".

При этом в процессе обучения ИИ были приобретены навыки, которые удивили самих исследователей. Например, "синие" научились
выкидывать пандусы за пределы игровой зоны, чтобы ими не могли бы воспользоваться "красные", или просто убегать на край игровой
площадки, где их не могли бы догнать, а "красные" нашли возможность использовать физические законы игрового мира так, чтобы их при столкновениях под определенным углом подбрасывало вверх, откуда они могли бы увидеть "синих" в любом месте.

В итоге экспериментов можно сказать, что была доказана возможность научить несколько ИИ взаимодействовать с друг другом, изучать законы окружающего мира и, самое главное, сохранять полученный опыт и использовать его в новой обстановке. Это еще шаг к возможно-
стям использования ИИ в реальном мире.

Например, обученное ядро ИИ легко адаптировать к реальным практическим задачам с небольшим дообучением, например опти-
мальным путем передвигать на складах контейнеры, делать защитные конструкции и т.д.

Более подробно об этом эксперименте вы можете прочитать на сайте самой организации OpenAI: https://openai.com/blog/emergent-
tool-use/.

Алексей Коржебин

Алексей Коржебин
Редактор рубрики "Цифровая трансформация: AI, IoT, умный город",
директор по продукту AggreGate Edge компании Tibbo Systems

Темы:AIЖурнал "Системы безопасности" №5/2019