“Superforecasters: The Art and Science of Prediction”

Руслан Фазлыев
9 min readNov 5, 2020

--

Обзор и конспект книги Philip E. Tetlock and Dan Gardner

Моя оценка: 9/10. Книга — о том, как точнее прогнозировать будущее. Что отличает хороших форсайтеров от плохих.

Суперпрогнозеры 🧙

Есть люди, которые системно способны прогнозировать лучше других. Назовем их “Суперпрогнозерами”. Далее, чтобы меньше печатать, просто “суппы”

Легко КАЗАТЬСЯ суппом: делай много прогнозов, когда что-то выстрелило, напоминай людям “а я говорил!”. Но как БЫТЬ суппом?

Прогнозы нужно записывать, чтобы не было способа задним числом “забывать неточные”, и переписывать условия. Прогноз должен быть описан точно и конкретно, и иметь срок. “Случится обвал рынков” — не прогноз. Понятно, что обвалы бывают. “Обвал рынка на более 10% случится до 1 декабря” — это конкретный прогноз. Публичная система учета таких прогнозов позволяет вести рейтинг и выделять тех, кто систематически прогнозирует точно: суппов.

Хорошие новости:

  • Система такого трекинга есть, создана и поддерживается авторами книги: https://www.gjopen.com
  • Суппы тоже есть: прогнозером можно быть, а не казаться
  • Суппом может стать каждый или почти каждый. есть конкретные методики. Невероятный IQ или кандидатская степень не нужны.

GJopen

Проект был создан в ответ на конкурс американской разведки на точность прогнозирования мировых событий. За тему взялись ряд гражданских институтов. Оказалось, что такой распределенный подход с измерением и рейтингами, прогнозирует события лучше, чем все конкурентные команды, и даже точнее, чем прогнозировала сама разведка, имея доступ к конфиденциальным данным, которого не было у GJopen.

Очки: Brier Score 🔢

Точность прогноза выражается простой метрикой: brier score. Не буду переписывать формулу из Wikipedia, но это измерение отклонения от идеала. Идеальный балл brier — 0. Худший — 1.

Если вы предсказали, что дождь пойдет 100%, а он не пошел, у вас Brier балл 1.

Предсказали, что пойдет 100%, и дождь пошел — 0.

Предсказали, что 70% вероятности дождя, дождь пошел, ваш балл — (0.7–1)² = 0.09

Поскольку разные темы имеют разную сложность, прогнозирования, качество прогнозера — это среднее отклонение его brier score от среднего балла прогнозировавших то же самое.

Признаки хорошего прогнозера 🎯

  • Критический подход к собственным суждениям
  • Желание совершенствования
  • Изменение мнения
  • Обороты “но…”, “при этом…”, учет множества разных факторов

Суппы звучат как полные зануды. Вместо того, чтобы сказать “доллар будет по 41 рублю, запомните этот твит!”, суппы говорят “с одной стороны… но с другой стороны…” — и никак, паразиты такие, не рубят с плеча.

Лисы и ежики 🦊

“Лиса знает много секретов, еж — один, но главный”.

Обычна в этой фразе, ежик — положительный герой. Книга же поворачивается против ежей.

Плохие форкастеры 🦔

Ежи от прогнозов знают лишь один принцип, и за него отчаянно держатся. Их прогнозы идеологичны. Они верят в конкретный “-изм”, если они от него откажутся, стабильность их мира рухнет. Поэтому они воспринимают информацию не в контексте уточнения прогноза, а через призму поиска подтверждения своим убеждениям.

К сожалению, в силу своей идеологичности, ежи рассказывают простые и понятные истории, без “но…”, без “но нужно учитывать и..”. Без неудобного учета не вписывающегося в картину. Человеческий мозг любит консистентность, для слушателя, “простое и складное” объяснение = верное. “Короче, Склифосовский!” Ежи говорят уверенно.

Ежей приглашают на телевизор, у ежей Ютуб каналы.

Хорошие форкастеры 🦊

Лисы учитывают столько факторов, что голова закипать их слушать. Они меняют свое мнение, когда меняется доступная им информация, и от того создают у слушателя впечатление неточности и неуверенности.

Но, между тем, лисы — хорошие форкастеры, а ежи — плохие.
Идеология в форкасте — красный флаг (ха-ха!)

Мнения — гипотезы, которые жаждут проверки, а не крепости, которые жаждут защиты.

Суппы — не то чтобы неучи, но и не обязательно гением быть. Достаточно минимально дружить с цифрами (не высшая математика!), иметь много любопытства, чуть-чуть эрудиции, иметь готовность копать информацию и штудировать источники, читать новости, и использовать правильную методологию.

Что работает в прогнозах ✅

  • Алгоритмы и формулы лучше чем субъективное мнение
  • Это вообще из другой книжки (“How to Measure Anything”), но короче даже когда эксперт крут в реальности, и бьет себя пяткой в грудь, что алгоритмы ему не нужны, оценка построенная им на базе им же созданной формулы, точнее, чем его просто экспертная оценка (декомпозиция).
  • “Мудрость толпы” (пример: фондовый рынок), когда множество независимых агентов делают прогнозы. Среднее оказывается весьма точным.
  • Мудрость толпы работает особенно хорошо, когда разные люди имеют доступ к разной информации, в итоге учитывается множество факторов, которые один человек не учел бы.
  • Супп использует подход, аналогичный “мудрости толпы”, но сам, один: взвешивает множество подходов и факторов.

Методологии 🧰

  • Внутренний взгляд: это антипаттерн. Когда мы смотрим сразу частный случай. Пример: какова вероятность, что у Марио, отца семейства с тремя детьми, в Пало Альто, есть собака? Начинаем думать про Итальянца и Пало Альто.
  • Базовая величина: Посмотреть исторически, насколько часто случается определенная событие, или какая средняя метрика искомой величины. Например для ответа на вопрос про Марио, мы не о Марио думаем, а мы смотрим, насколько часто вообще семьи держат собак. И начинаем с этой цифры.
  • Base rate можно уточнять, например, в примере с собакой — насколько больше собак в определенном городе, стране или районе. Или насколько вероятнее, что собаку держат в доме (vs квартире).
  • Рынки предсказаний. Это похоже на букмерерскую контору. Люди покупают доллар выплаты при наступлении какого-то события, за определенную цену, например победу Байдена на выборах сейчас продают за 85 центов. Если Байден победит, купивший такую “ценную бумагу” получает один доллар. Трамп идет по 15 центов. Можно пользоваться цифрами с рынков предсказаний как вводными прогноза, финальными или композитными.
  • “Что должно произойти, чтобы прогноз был правдой?”. Декомпозировать и мерить вероятность этих событий.
  • Антипаттерн: придумываем вопрос, на который легко ответить, и заменяемый искомый вопрос на этот более легкий. Это простая эвристика, но далеко не всегда работает в нашу пользу.
  • Форсировать разные перспективы: рассказать свою логику друзьям, и попросить поспорить. Записать текстовые формулировки своей логики, чтобы критически к ним отнестись. Поспорить самому с собой. Посмотреть что другие говорят на GJopen.
  • Изменить формулировку вопроса, например не “каковы шансы, что чувак получит визу”, а “каковы шансы, что чуваку откажут в визе”.
  • Играть горизонтами и границами: “а если мы прогнозируем нахождение у власти Лукашенко не до 11 Ноября 2020, а до 15 марта 2021, как это повлияет на вероятность?” “Если прогноз на вероятность роста нефти на 10%, то как бы он поменялся если бы нам нужно было взвесить вероятность роста на 20%? .
  • Как прогнозируют валюты: берут исторические данные и фигачат монте-карло симуляцию.

Согласие не всегда хорошо 👯‍♀️

Описывается ситуация с принятием решения по атаке на место, где находился Бен Ладен. Не было уверенности, там ли он, и был вопрос –авторизовать ли атаку. Автор сравнивает подход в фильме про эту ситуацию, и подход в реальности.

Подход в фильме: глава из спецслужб, выслушивая мнения экспертов, дающих разные оценки вероятности, что Бен Ладен на точке, кричит на них: скажите мне, “да”, или “нет”!!!

В реальной ситуации, напротив, поощрялось несогласие и вероятности. Если ряд экспертов дает разные оценки их мнению можно больше доверять, чем когда все сходятся. Если все думают одинаково — это большая вероятность политизированного группового мышления.

Мы склонны больше верить уверенному “нет” или “да”. В реальности разумнее доверять квантовому по своей сути, вероятностному ответу: “85% что да, с разбросом между экспертами от 30% до 90%”.

Еще о цифрах: форкастеры, которые часто говорят “50/50” — плохие форкастеры. Это лишь другой способ сказать “хз”.

Суппы настолько точны, что в эксперименте, когда вероятности в их прогнозах округлялись до ближайшего 5% уровня, суппы теряли в Brier Score (обычные прогнозеры — нет). То есть каждый процент прогноза суппов был высчитан, осмыслен, и имел значение.

Обновления прогнозов 🔁

Суппы не просто делают прогноз и останавливаются. Они постоянно обновляют его на базе новых вводных. GJopen при этом считает каждый прогноз новым, и высчитывает сводный рейтинг.

Частые поправки важны, и кореллируют с бОльшей точностью прогноза.

Суппы ставят Google Alerts на тему, чтобы оперативно обновлять свой прогноз, реагируя на события в мире.

В целом, играть в GJopen — штука непростая, т.к. нужно время все отслеживать. Многие суппы — не гении, а пенсионеры. У них есть время.

Когнитивные искажения, мешающие точности прогноза 🙃

Влюбленность в свое мнение, “измы”

Идеология мешает точности прогноза. Есть способ понять, когда прогнозер вероятнее ошибется.

Когда у прогнозера на тему завязана его самоидентификация, он может быть ко многому слеп.

Влюбленность в раннее мнение и защита его приводит к недопоправкам прогноза по мере получения новой информации.

Одна из причин, почему суппы точны — потому что они часто аутсайдеры, не от индустрии. У них нет эго, их прогноз не завязан на идентичность, они могут его менять.

Модель Дженги

Если в систему убеждений человека убеждение наверху, как палочка в игре “Дженга”, то его легко менять. Человек гибкий и убеждение не мешает прогнозу.

Если убеждение внизу, то оно ключевое для идентичности. Убери его — повалится вся “дженга” убеждений. Люди будут жертвовать правдой в пользу защиты консистентности.

Пример: американские генералы, во Второй Мировой запершие американских граждан японского происхождения в концлагерях. Аргументация в защиту? «То что японцы до сих пор не устроили саботаж — доказательство они вот-вот его сделают». Позиция не выдерживает критики. Но чувак — либертарианец и защитник гражданских свобод. Для него осознание, что он зря запер 200 тысяч сограждан было бы падением идентичности. Он не способен к точным прогнозам.

Избыточная поправка на новых данных

Лично у меня велика вероятность, что за новое дело в инбоксе я возьмусь быстрее, чем за то, что уже было в списке дел. Что статью в ленте начну читать, хотя более полезная книга недочитана. Мы излишне приоритезируем новую информацию, подчас. Понятно почему: если минуту назад за нами не гнался лев, а сейчас гонится, стоит полностью сфокусироваться на новой инфе.

Но в сложных системах это может привести к тому, что мы излишне приоритезируем один новый фактор (как ежи), теряя кучу уже обработанных вводных.

Править нужно, но часто и по чуть-чуть, как рулем подправляя машину.

Нужно писать старый тезис и новый и делать микро-коррекции. Новые данные наверняка как правило не столь кардинальны как кажется

Если старый тезис написан, то вводные проще смешивать с новыми, и каждый раз учитывать всю совокупность.

Записывать тезисы так же способствует работе над ошибками.

Hindsight bias

Когнитивное искажение, заставляющее нас думать, что мы имели в прошлом определенную точку зрения, которая предвидела события (на самом деле нет). Исследованный эффект: опрошенные люди заявляют о том, что “знали” и “прогнозировали” что-то в прошлом, но записи из этого прошлого свидетельствуют об обратном

Команды суппов 👨‍👨‍👦

Суппы точнее чуваков, не использующих эти методики. Но команды из суппов гораздо точнее суппов.

В команде важно отсутствие группового мышления, согласие не означает что найден правильный ответ

Что важно в команде — конструктивная критика, т.е. конкретные, точные, вопросы относительно конкретных предположений («что заставляет тебя думать, что популярность футбола идёт вниз?»)

Еще в команде можно раздавать работу, чтобы разные люди работали с разными источниками или прогнозировали события-компоненты большего прогноза

Принятие решений военными ⚔️

Нафига в книге об этом глава — хез, наверное потому что проект изначально военный. Но интересно и про это почитать.

  • Нерешительность — преступление
  • Ни один план не выдерживает столкновения с противником
  • Все же нужно придерживаться плана, и действовать по нему, пока это возможно
  • Приказы: контекст и что нужно достигнуть, но не как этого достигать
  • Вопреки расхожему мнению, военные дают больше гибкости в исполнении, чем большинство бизнесов. Бизнесы не понимают, сколь велика может быть неопределенность, и потому менее гибки внутри. А гибкие подходы работают. Схожее читал и в “Warfighting”, доктрине морпехов США. И да, меня бесят люди, строящие ригидные системы управления.

Мой профиль 🙈

https://www.gjopen.com/memberships/89035/scores

Аж стыдно ссылку на него ставить. Нет, долгое время у профиля был абсолютно идеальный Brier балл: 0. Первые пять прогнозов были 100% безошибочными. А потом ударил Covid. По прогнозам моим ударил :) И там я промахнулся жестко, на 100%. Brier Score ушел в “хуже среднего”. Щас буду отмазы лепить.

Я до сих пор уверен в точности своего прогноза, по сути. Вопрос был (я отвечал в июле): “На 1 сентября, сколько штатов рапортуют о смертности от COVID в 5%”.

Моим ответом было: “столь высокая смертность может быть только от недостатка тестирования, а тестирование будет починено”.

Но в итоге, нужно было прямо по тексту отвечать, а текст был “рапортуют о 5%”. Я, конечно, выбрал минимально возможный ответ “менее 6 штатов”. Правильным ответом было “от 7 до 12 штатов”, что шокирует. Ведь очевидно, что такая высокая смертность означает что тестируют лишь тех, кто в состоянии пиздеца идет к врачу. Но вот оказывается такие штаты до сих пор есть и их немало.

Дуплетом завалил и вопрос про количество штатов с R0 более 1. Опять же, я абсолютно уверен что реальный R0 был и сейчас есть больше. Но в статистике этого не было.

Отмазы отмазами, но еще одна важная вещь для улучшения навыков прознозирования — постоянная ретроспектива: что сработало хорошо, что плохо.

А балл понемногу выправляется.

Я публикую многое из того, чему научился сам. Чтобы не пропустить свежий выпуск, подписывайтесь в:

Телеграм 💌 https://t.me/ruslanlearns 💌 … или Facebook 👍

Так же меня можно найти на LinkedIn и Instagram 📷

--

--

Руслан Фазлыев
Руслан Фазлыев

No responses yet