Лекция 13. Рафинирование равновесий для развернутой формы

Взгляд вперед. Мы обсудили равновесия Нэша, центральное понятие неко­оперативной теории игр. Что нас ждет дальше? Мы видели, что равновесия (во всяком случае смешанные) "всегда" существуют. Однако их может быть слишком много, и среди них могут быть дурацкие. Естественно возникает вопрос - нельзя ли наложить на равновесия некоторые более жесткие требо­вания, которые отсекали бы "плохие, шаткие" равновесия? Это тема рафини­рования Нэша и совершенных равновесий.

Вторая тема - модификации игры или понятия равновесия, которые рас­ширяют возможности решений. К этому относятся игры с сообщениями, кор­релированные равновесия и повторяющиеся игры.

Наконец, нужно обсудить важное понятие игр с несовершенной информа­цией и соответствующее понятие Байесова равновесия.

Строгие равновесия. Вспомним один пример с дурацкими равновесиями: голосова­ние простым большинством при двух кандидатах. Все любят А, но голосуют за В. Это равновесие, но очень дурацкое. Конечно, индивидуальное переключение с В на А не улуч­шает исход, но и не ухудшает же! Стратегия А доминирует В (слабо, конечно). В этой частной ситуации у игрока два лучших ответа - А и В, и он выбрал не самый лучший. Подобных казусов, можно надеяться, не будет, если равновесие таково, что лучший ответ однозначен для каждого игрока.

Это хорошее понятие, единственный недостаток - что оно исключает смешанные рав­новесия, а поэтому не всегда и существует. Можно предложить некоторое его смягчение.

Определение. Профиль стратегий (,з*) Е называется строгим равновесием,, если для любого игрока / стратегия 8* является наилучшим ответом не только на но на любой набор 8-1, где вз е Ве,з1^(,з*_Л.

Недостаток опять в том, что такие равновесия не всегда существуют; пример - орлянка. Ниже мы обсудим несколько более удачных понятий рафинирования.

Неправдоподобные угрозы. Рассмотрим следующую игру

0,2

и

,1

В

-1,0­-о

I    2 г

Эту игру можно понимать как простейшую форму ситуации "входа в от­расль". Фирма 1 (агрессор) может не входить (II) в некую отрасль занятую монополистом 2. Либо может войти (В)7 и тогда "наседка" 2 может ответить либо войной цен (/), либо пододвинется (г) и они поделят рынок. Что же произойдет в этой игре?

Алгоритм Цермело-Куна дает равновесие (В, г) с выигрышами (1,1). Од­нако есть другое равновесие, а именно (и,1) с выигрышами (—1,0). Здесь "наседка" как бы угрожает агрессору: "Если ты войдешь, то я буду сражать­ся, и ты получишь —1". Если агрессор воспримет эту угрозу как реальную, он воздержится от входа. Однако скорее всего он воспримет эту угрозу как неправдоподобную. Дело в том, что если первый все-таки войдет, то второ­му игроку будет невыгодно приводить угрозу в исполнение. Понимая это, первый игрок скорее всего не поверит в угрозу и проигнорирует ее.

В чем же дефективность стратегии I? В том, что она находится вне равно­весного пути и поэтому не подвергается реальному испытанию на оптималь­ность. Формально она является наилучшим ответом на стратегию первого II, но фактически это не наилучший ход в состоянии 2. Это проявляется и в том, что стратегия I слабо доминируется стратегией г.

Этот пример поднимает еще один интересный вопрос. Угроза может быть сообщена только если есть сообщения; мы же предполагаем, что игра идет молча. Как же тогда 1-й может узнать, что собирается делать 2-й в позиции, которая лежит вне пути игры? Скорее это не то, что собирается делать 2-й, а то, что 1-й думает об этом. Но тогда получается, что стратегии 2-го выбирает 1-ый!

Неправдоподобные обещания. Быть может, есть похожие примеры и с неправдоподобными обещаниями, хотя мне не удалось придумать такой при­мер с двумя игроками. Однако подобная ситуация часто встречается в эконо­мическом контексте. Например, фирма может пообещать покупателям, что она выпустит ограниченное число изделий и они будут редкостью. Покупа­тели заинтересованы купить раритет. Но где гарантии, что фирма не начнет в погоне за прибылью делать дополнительные партии изделий? Отсутствиетаких гарантий (даже при честных намерениях фирмы) может привести к отказу покупателей, что плохо и тем, и другим. Но не так-то просто убеди­тельно связать себя. Пример с киднэпингом: Джон похитил Мэри и готов отпустить ее за умеренный выкуп, но боится, что после освобождения она заложит его. Мэри чистосердечно обещает ему, что не продаст, но где гаран­тии? И если ей не удастся как-то убедить Джона и дать твердые гарантии, ему придется избавляться от нежеланного свидетеля.

Рафинирование равновесий Нэша. Наличие малоправдоподобных равновесий заставила теоретиков искать более сильные условия на равно­весия. Эта программа известна под названием рафинирования, утоньчения, усовершенствования. Скажем сразу, что окончательного, приемлемого во всех случаях ответа получить не удалось; имеется несколько альтернативных под­ходов. Общее в них то, что предлагается принимать в расчет и невероятные события, которые имеют нулевую вероятность при движении по равновесно­му пути.

Могло бы показаться - зачем учитывать поведение в невероятных состоя­ниях, которые не реализуются в равновесии? Дело, однако, в том, что часто нелепые равновесия возникают именно потому, что некто ведет себя ирраци­онально вне равновесного пути, как в приведенном выше примере со входом в отрасль. Причем это состояние только потому и не встречается на равно­весном пути, что там второй игрок ведет себя иррационально.

Совершенство относительно подыгр. Идея неправдоподобных угроз работает не только в случае игр с совершенной информацией (где она приво­дит к обратной индукции), но в некоторых других случаях. Например, когда мы обсуждали конкурентное равновесие, мы предполагали, что потребители (после выбора цен) ведут себя "конкурентно", не пытаясь своим нерациональ­ным поведением повлиять на цены. Или, вернемся к примеру с входом в отрасль. Допустим, что если агрессор решил входить, у него тоже есть воз­можность вести себя пассивно или начать активную борьбу с "наседкой". Т.е. игра выглядит как на рисунке ниже.

И если второй настроен активно, то первому лучше не входить (а в случае входа - все равно как вести). А с другой стороны, в игре 2x2, начинаю­щейся после входа, у обоих игроков есть доминирующие стратегии (р,р;), и это единственное равновесие в этой подыгре. Поэтому агрессор должен вроде понимать, что с случае его входа все закончится мирным исходом (1,1), и смело входить.

#0,2 I 1

 

Идея совершенства - оптимальность поведения во всех подыграх, чтобы равновесие оставалось равновесием начиная с любой позиции, независимо от того, сколь ничтожна вероятность попадания в эту позицию. Однако тут же возникает вопрос, что считать подыгрой. Казалось бы, возьмем любую верши­ну и включим все, что идет после нее. Но ведь имеются еще информационные множества, и они не должны выводить за пределы нашей "подыгры".

Более точно, пусть t - вершина дерева игры, и G(t) - множество вершин, следующих за t. Если для любой вершины t' £ G(t) все информационное множество h(t') лежит внутри G(t), мы говорим, что t определяет подыгру G(t) с началом в t.

Профиль поведенческих стратегий называется совершенным равновесием (относительно подыгр, subgame perfect equilibrium), если его ограничение на любую подыгру является равновесием Нэша. Это очень интересное понятие было предложено Селтеном в 1965 г.

Свойства совершенных равновесий. Для игр с совершенной инфор­мацией совершенство совпадает с алгоритмом Цермело-Куна (или обратной индукцией). Более того, это одновременно учитывает и возможную неодно­значность алгоритма, и возможность несовершенства информации (т.е. воз­можность информационных множеств).

Так как исходная игра тоже подыгра, совершенное равновесие является равновесием Нэша. Но, конечно, не любым, как показывают приведенные выше примеры.

Далее, подыгра любой подыгры игры G является подыгрой игры G. По­этому совершенное равновесие остается совершенным равновесием и в любой подыгре. И вообще, подыгры игры G сами образуют дерево. Это обстоятель­ство подсказывает, как искать все совершенные равновесия. Нужно, как в ме­тоде обратной индукции, начинать с конца, в каждой терминальной подыгре находить равновесия, и ставить в начало этих подыгр один из получающихся исходов. Помимо прочего это дает теорему существования совершенных (к подыграм) равновесий.

Пример. Дуополия Штаккелъберга. В 1934 Штаккельберг предложил мо­дель дуополии с фирмой-лидером (первой выбирающей объем своего выпус­ка) и фирмой-последователем. Примером может служить компания "Джене­рал Моторс" в автомобильной промышленности США, или IBM на рынке персональных компьютеров.

Реакция второй фирмы:

ДгЫ = {M-qi- с)/2.

Зная эту реакцию, первая фирма максимизирует

qi(M -qi- R2(qi) -с) = qi(M -qi- с),

и q\ = (М — с)/2, = (М — с)/4. Напомним, что в равновесии Курно выпуски составляли треть от М — с. Покупателям лучше, лидеру лучше, а второй фирме - хуже.

Могло бы показаться странным, что знание второй фирмой выпуска ли­дера ухудшает ее положение. Как это дополнительная информация может ухудшить ваше благополучие?! Ответ в том, что второй фирме вредит не ее знание gi, а знание первой фирмы о том, что вторая знает q\.

Пример. Рассмотрим взаимоотношения фирмы (бесконечно живущей, с дисконтом 8 « 1) и последовательностью рабочих, каждый из которых живет один период. В каждом периоде тайминг такой: сначала рабочий выбирает уровень усилий: вкалывать, производя для фирмы товар стоимостью 3 рубля и получая дизютилити 1 рубль, или сачковать. За­тем фирма смотрит на выпуск и назначает зарплату w 0 этому рабочему. (Можно считать, что w = 0 или 2.)

Ясно, что в однократной модели решение такое: фирма платит ir = 0. а рабочий сачку­ет. Однако в бесконечной ситуация меняется: там есть и более интересные решения, если рабочие получают информацию о предыдущем течении игры. Более точно, имеется та­кое саб-гейм-перфектное равновесие: рабочий вкалывает, если фирма до этого оплачивала труд (а не безделье) предыдущих рабочих, и сачкует во всех остальных случаях. Фирма платит w = 2, если рабочий вкалывает, и не платит в противном случае.