AlphaZero — новый алгоритм от Google. Он освоил три игры без помощи человека

5458

Google выпустила новую итерацию своего алгоритма DeepMind — в прошлом году он прославился под именем AlphaGo, обыграв чемпиона по игре в го со счетом 3:0. Его новая версия называется AlphaZero. Алгоритм также обучается самостоятельно. Он ориентирован на три игры: шахматы, го и сеги (японская игра шахматного типа). На то, чтобы профессионально освоить игры, у AlphaZero ушло три дня.

Программа работала полностью самостоятельно, начиная без представления о выигрышных игровых стратегиях или примеров. Единственной вводной были базовые правила. Как говорят создатели проекта в публикации в журнале Science, это позволяет AlphaZero освободиться от ограничений человеческого представления об играх. Правда, результативность алгоритма зависела от игры и выбранной стороны.

Хуже всего AlphaZero дались шахматы — в соревновании с алгоритмом Stockfish, победителем последнего чемпионата среди шахматных движков — алгоритм Google выиграл 155 раз 1000, а проиграл всего 6 партий. Большая часть побед пришлась на белые фигуры. Начиная черными, AlphaZero выиграл всего 2% матчей, свел 97,2% вничью, а остальные 0,8% — проиграл. 

В сеги статистика более убедительна. AlphaZero победил алгоритм Elmo в 84,2% партий играя белыми и 98,2% — черными. В Go соревновались две версии алгоритма: AlphaZero играл против своего предшественника, AlphaZeroGo. По итогам, новичок взял 86,9% побед играя белыми и 53,7% — черными. Авторы проекта отмечают, что в отличие от традиционных специализированных программных комплексов (Stockfish и Elmo), их разработка использовала гораздо меньше времени и компьютерной мощности.

Статистика AlphaZero в разных играх

Благодаря преимуществам «обучения с подкреплением», алгоритм ФОКУСировался на вероятности победы для каждого хода. Перед тем как встретиться со своими титулованными соперниками, AlphaZero многократно играл сам с собой, набирая «баллы» за тактически и стратегически важные игровые решения. Максимальный срок для обучения составил 3 дня. При этом, благодаря оптимизации алгоритма ему потребовалось гораздо меньше тренировочных матчей, чем предыдущей версии. Например, AlphaZero сыграл в го всего 4,9 млн раз против 30 млн партий у предшественника.

Как отмечает издание Ars Technica, успех AlphaZero сложно масштабировать — алгоритмы такого типа хорошо работают только в жестко ограниченных условиях (например, в рамках игровых правил). Проецировать их успехи на реальный мир пока рано, в виду предсказуемости этого окружения. По словам сотрудника команды DeepMind Мюррея Кемпбелла, следующим вызовом для ИИ станет покер — игра, в которой участникам доступна только частичная информация о ситуации. 

Напомним, ранее AIN.UA сообщал, что Google запустила сервис Earth Studio для имитации аэросъемки. 

Оставить комментарий

Комментарии | 0

Поиск