Группа Facebook Artificial Intelligence Research (FAIR ) недавно опубликовала исследование, посвященное обучению ботов переговорам. В нем описан процесс обучения, способный научить компьютер не только вести переговоры с людьми (пока на элементарном уровне), но и врать. 

Ботов обучали на массивном объеме данных переговоров на обычном языке между двумя людьми. Предметом переговоров было разделение набора предметов различной ценности. Сначала компьютер обучался отвечать, базируясь на “вероятности” возможных поворотов разговора. Но закончилось тем, что ботов начали обучать “максимизировать награду”, т.е. извлекать выгоду в процессе переговоров. 

Сначала FAIR проводила переговоры между ботами, затем – между ботами и людьми. И боты не всегда проигрывали. Более того, в FAIR утверждают, что боты выигрывали так же часто, как и люди. 

Для тестов были созданы переговорные сценарии с набором гипотетических объектов. ИИ и человек получали различные оценки или стоимость для различных объектов, но при этом должны были договориться поделить их между собой, при этом по сценарию невозможно было сделать это поровну. Иными словами – разделить объекты так, чтобы каждый участник получил объекты с одинаковой общей стоимостью.

Например, участник мог получить 1 условную книжку стоимостью 6 единиц, 2 шляпы стоимостью 1 единица и т.д. А у второго участника ценность и количество подобных объектов разделялись по-другому. Нужно было достичь соглашения за 10 ходов, если же это не получалось, оба участника получали по 0 баллов. 

Симуляция дальнейшего диалога в переговорах и баллы по достижении успеха (в данном случае – после получения 3 шляп):

Как и в настоящих переговорах, ни один участник не знал ничего о том, как объекты оценивает другой – это нужно было выяснить в процессе диалога. В ходе тестов боты научились блефовать, симулируя желание объектов, которые им были не нужны, и имитируя отсутствие интереса к объектам, на самом деле ценным. 

Результаты тестов ботов против ботов и ботов против людей. Максимальный возможный балл – 10, ноль получают обе стороны, если не пришли к соглашению:

Напомним, в конце мая ИИ-программа AlphaGo, разработанная DeepMind, разгромила лучшего игрока-человека в го со счетом 3-0.