xG — продвинутый статистический показатель, который захватил футбол
Вадим Лукомский рассказывает о феномене.
Что такое xG?
xG («expected goals») — это модель ожидаемых голов. В основе такой модели лежит показатель (как правило, удары по воротам — это не всегда удары по воротам, но на данном этапе будем отталкиваться от того, что они и есть наш показатель), который помогает заглянуть дальше счета на табло и оценить, сколько голов при прочих равных должна была забить команда с ударами такой остроты.
Эгил Ольсен — бывший тренер сборной Норвегии и автор одной из первых xG-моделей
Каждому удару каждой команды присваивается коэффициент опасности (в каждой xG-модели он присваивается по-разному, с конкретными примерами разберемся позже). Коэффициенты суммируются — мы получаем что-то вроде альтернативного счета матча, основанного на качестве созданных каждой из команд моментов. Следует оговориться, что в качестве базового показателя не всегда выступают удары по воротам (иногда это удары в створ, в одной из последних моделей и вовсе передачи в «убойной зоне»).
Еще не заснули? Тогда вот вам любопытный факт/полезный пример. Автором первой относительно известной xG-модели можно считать Эгила Ольсена, тренера сборной Норвегии на ЧМ-1994 и ЧМ-1998 (кстати, интересные рассказы о других его статистических опытах есть тут и тут). «Я не в состоянии доверять победе со счетом 1:0, если мы нанесли всего один удар, который стал голевым, а соперник бил по воротам 10 раз. Точно так же я никогда не стану зацикливаться на поражении со счетом 0:1, если у моей команды было 10 ударов, а у соперника — 1. В плане измерения того, насколько хорошо или плохо сыграла команда, удары по воротам даже более важный показатель, чем сами голы», — высказался однажды он.
Ольсен признавал, что не все удары равны, поэтому однажды он решил разделить удары по воротам на 3 категории: «очень большая перспектива гола», «средняя перспектива гола» и «гол практически исключен». Вооружившись этой простой моделью, Ольсен провел немало исследований и пришел к неожиданному для себя выводу — переход от простого подсчета ударов к модели с 3 категориями не оказал практически никакого влияния на его исследования. Как правило, на дистанции количество ударов разных категорий уравновешивалось.
Конечно, система и ключевой вывод Ольсена были далеки от идеала по банальной причине субъективности модели, которую, откровенно говоря, смешно сравнивать с современными аналогами, учитывающими в каждом ударе десятки объективных факторов. Но этот пример отлично олицетворяет простоту принципов, которые лежат в основе xG-моделей. Каждый из вас при желании может пройти путем Ольсена — хотя, используя только субъективные показатели, вы не получите ничего, кроме систематизированной версии вашего восприятия моментов каждой из команд (что тоже может быть полезно).
И действительно, несмотря на модную аббревиатуру и многочисленные попытки записать xG в «advanced stats», одно из главных достоинств показателя в его простоте. Сразу понимаешь, что перед тобой сумма остроты всех созданных командой моментов. Точно так же даже интуитивно без труда можно прийти к выводу, что, если команда выступает лучше, чем должна, исходя из xG-модели, то она… выберите определение, которое вам ближе — в отличной форме/дико эффективна/слишком удачлива.
Кто первым стал использовать xG в профессиональном футболе?
Однажды владельца «Брентфорда» Мэттью Бенхэма спросили, как он оценивает шансы клуба на промоушн. За несколько туров до финиша команда шла на 3-й позиции в Лиге 1, но вместо стандартной фразы аля-«Верю, что поборемся!» с предельно серьезным выражением лица Бэнхэм ответил: «На данный момент наши шансы на выход в чемпионшип — 42,3%».
Мэттью Бенхэм использовал модель для управления «Брентфордом» и «Мидтьюлландом»История Бенхэма (по крайне мере, та ее версия, которую он сам предпочитает рассказывать) очень интересна и даже вдохновляюща. Мэттью сколотил многомиллионное состояние, регулярно обыгрывая футбольных букмекеров. Разумеется, свою систему он не думает раскрывать, но известно, что он исходил из тезиса, что «голы — очень ненадежный показатель истинного уровня игры команды в конкретном матче». Как следствие, используя другие показатели можно выявить недооцененные (в том числе букмекерами) команды. Среди показателей, которые он использовал, ключевую роль играла его собственная основанная на ударах по воротам xG-модель.
Теперь Бенхэм владеет не только «Брентфордом» (уже добравшимся до чемпионшипа), но и «Мидтьюлландом» (который, благодаря его аналитическим методам, стал чемпионом Дании и выбил в 2015-м «Саутгемптон» из Лиги Европы). Он также управляет компаниями SmartOdds (контора, предоставляющая данные профессиональным игрокам на ставках) и MatchBook (букмекерская контора).
Бенхэм начинал, работая в компании другого владельца английского клуба — Тони Блума. Он построил еще более успешную футбольную империю с помощью описанных инструментов и теперь владеет «Брайтоном», где xG активно применяется в селекции, а также компанией Starlizard.
***
В том же 2015-м Арсен Венгер на одной из пресс-конференций сказал: «После каждого матча мы анализируем количество созданных командой моментов и количество ожидаемых голов, которые мы должны были забить с моментами такого качества. На данный момент существует дефицит между качеством наших шансов и количеством забитых нами голов».
Цитата послужила не только подтверждением того, на каком уровне уже тогда использовался показатель, но и того, насколько хорошим индикатором качества игры он может быть. Вывод из модели, которую использует «Арсенал», вполне совпадал с данными общедоступных xG-моделей. Как и следовало ожидать, исходя из xG-данных, результаты команды резко улучшились. После той самой пресс-конференции «канониры» выиграли 7 из следующих 8 матчей АПЛ (до — 1 из 3).
Разумеется, каждому такому случаю нужен контекст, и причина такого контраста не только в регрессии к среднему, но это далеко не первый случай за последние годы, когда xG-данные успешно предсказывают ренессанс команды (несколько примеров из сезона-2014/15 — победная серия «Ньюкасла» при Пардью в первой половине сезона, «Арсенал» и «Барселона» во второй части сезона).
***
В октябре 2015-го глава статистической компании 21st Club Омар Шадхури сообщил, что минимум один владелец клуба АПЛ на еженедельной основе изучает данные модели ожидаемых голов.
***
В интервью Analytics Podcast Дамьен Комолли рассказывал, как во время его работы в «Ливерпуле» принималось решение о потенциальной смене вратаря. Он не называет используемую методику xG-моделью, но описывает очень схожие принципы.
***
Все примеры выше — из 2015-го (изначальная дата публикации материала). С тех пор появилась куча новых. xG уже не захватывает мир статистики, а стал мейнстримом. Фрэнк Лэмпард упоминает показатель перед журналистами, даже не поясняя, что это такое (все знают), а результаты по xG выводятся рядом с реальными в главной английской футбольной программе Match of the Day.
Что xG может показать?
Модели ожидаемых голов можно сравнить с моделями предсказание итогов выборов. Не существует 0,21 гола или голоса, но, присваивая им основанные на определенных факторах коэффициенты, можно получить массу дополнительной информации о выборах и футбольных матчах.
Модели ожидаемых голов никогда не станут инструментом предсказания отдельных матчей (просто-напросто потому что 20-40 ударов, которые наносятся за матч, никак не соответствуют нескольким миллионам голосов, и их недостаточно для полноценной регрессии к среднему), но они несут важную информацию о качестве моментов команды в матче, следовательно, и об общем качестве ее игры.
Футбол — спорт очень низкой результативности. Вместе со значимостью отдельных эпизодов (как правило, голов) неизбежно растет значимость удачи/фактора случайности. При прочих равных можно утверждать, что хорошая модель ожидаемых голов отражает качество игры команд намного лучше турнирной таблицы и меньше зависит от случайностей.
Как уже упоминалось ранее, существенные расхождения в xG-результатах и реальных результатах нередко сокращаются на более-менее продолжительной дистанции. У случаев, когда этого не происходит, могут быть разные причины, например: 1. тренер команды, которая показывала результаты, но плохо играла, не игнорировал слабое качество игры и внес изменения. 2. команда — интересный пример для изучения, а модель недооценивает какой-то из аспектов ее игры. 3. даже на дистанции всего сезона команды наносят около 600 ударов, что не так уж много для регрессии к среднему.
Подытоживая, хорошая xG-модель в правильных руках может служить: 1. индикатором удачи/неудачи команды в отдельном матче (разумеется, только при значительном расхождении с реальным результатом). 2. базисом для долгосрочных прогнозов (слово «базисом», а не самим прогнозом, тут ключевое и, разумеется, с любыми прогнозами нужно быть острожными, но, пожалуй, xG — лучшая из доступных для футбольных прогнозов альтернатив).
Какие xG есть в открытом доступе уже сейчас?
Модель Майкла Кэйли
Основана на: ударах по воротам
Краткое описание модели: каждому удару присваивается коэффициент от 0 до 1 в зависимости от типа удара (прямой со стандарта, головой после навеса, ногой после обводки вратаря и т. п.), позиции нанесения удара, типа паса, который привел к удару (вразрез, навес и т. п.) и позиции с которой он был отдан, типа атаки, приведшей к удару (контратака, позиционная, стандарт и т.п), типа момента перед ударом (обводка, удар в касание и т. д.), дистанции, которую бивший футболист пробежал с мячом, положения команды в матче (проигрывает, выигрывает, играет вничью).
Полное описание модели на английском
Мой комментарий: долгое время была лучшей из общедоступных моделей ожидаемых голов. Хорошо продумана, значимость практически каждого из факторов основана на серьезных статистических исследованиях; также постоянно совершенствуется автором.
Пример xG-карты матча:
Как следить: твиттер автора.
Модель tegen11
Основана на: ударах по воротам
Краткое описание модели: каждому удару присваивается коэффициент от 0 до 1 в зависимости от типа удара, позиции нанесения удара, места начала атаки, приведшей к удару, типа паса, который привел к удару, типа момента перед ударом, скорости атаки, положения команды в матче.
Полное описание модели на английском
Мой комментарий: альтернатива модели Кэйли. Тоже использует данные от Opta и учитывает практически всю возможную информацию об ударе.
Расхождения между двумя моделями не так уж велики. Например, tegen11 включает пенальти в модель с коэффициентом 0.76, Кэйли считает нецелесообразным сравнивать их с остальными эпизодами и просто отдельно помечает, что во встрече был пенальти, но не включает их в модель. Или: tegen11 учитывает скорости атаки, Кэйли отражает схожую информацию в типе атаки.
Пример xG-карты матча:
Как следить: твиттер автора.
Модель Statsbomb
Основана на: всех ударах
Краткое описание: см. прошлые описания, только здесь используется максимальное количество факторов, включая давление на бьющего.
Полное описание модели на английском
Мой комментарий: модель запустилась позже остальных, но сейчас считается лучшей. Компания сама собирает данные, а не использует готовые, делая это по меньшему количеству лиг, но более скрупулезно.
Единственный минус — маленькая историческая база (всего 2 с половиной сезона).
Как следить: сайт — FBref.
Модель Understat
Основана на: всех ударах
Краткое описание: использовано более 10 факторов (традиционные и похожие на модели Кэйли и Тегена) и нейросеть, изучившая более 100 тысяч ударов.
Полное описание модели на английском
Мой комментарий: главное достоинство — сайт с навигацией. Любой матч можно найти самостоятельно (что чудовищно трудно в твиттере), есть совокупные таблицы.
Как следить: сайт — Understat.
Модель Пола Райли
Основана на: ударах в створ ворот
Краткое описание модели: каждому удару в створ присваивается коэффициент от 0 до 1 в зависимости от позиции нанесения удара.
Полное описание модели на английском
Мой комментарий: слишком упрощенная модель. Упомянул ее только из-за удобных и оперативно обновляемых таблиц (см. ниже) и архива данных за последние сезоны АПЛ.
Как следить: таблицы Tableau с удобными фильтрами.
Каковы основные недостатки xG?
Этот раздел будет скучным (прямо очень, даже скучнее того, что вы прочитали проскролили выше) с кучей технических моментов. Я не обижусь, если вы его пропустите. Для тех, кто пойдет этим путем, отмечу: xG вполне работоспособная и даже крутая вещь, а речь пойдет о мелких недостатках, среди них нет критических огрехов, которые перечеркнули бы изложенную выше пользу от моделей.
Разберемся в недостатках на примере модели Майкла Кэйли, которой я пользуюсь чаще, чем остальными.
1. Ситуации, которые не завершаются ударом
Нет удара — нет увеличения xG. Но отдельные эпизоды, которые не завершаются ударом, выглядят острее большинства ударов (особенно дальних, которые засчитываются, пускай и с небольшим коэффициентом). В идеале такие моменты хотелось бы отражать, но делать это объективно и автоматически на данном этапе невозможно. Недостаток некритический, так как едва ли в мире есть команды, умышленно не бьющие из выгодных позиций.
2. Дальние удары
Есть тот тип дальних ударов, которые наносят только в том случае, если игрок заметил серьезный изъян в позиции вратаря и верит в значительную вероятность гола. Например, xG-вероятность голов Чарли Адама, Микеля Сан Хосе и Алессандро Флоренци стремилась к 0, что логично исходя из позиции удара, но на деле она должна была быть выше, так как игроки в 99% случаев не бьют из таких позиций, если не видят ошибку в позиции вратаря.
3. Модели все равно, кто бьет
Разумеется каждый из нас предпочел бы видеть Лионеля Месси, а не Джонни Эванса, выходящего 1 на 1 с вратарем соперника в футболке любимой команды. И, пожалуй, наоборот Эванса, а не Месси, в ситуации с ударом головой в борьбе после углового. Модель на данный момент не в состоянии учесть разницу в мастерстве игроков завершать атаки.
Проблема не в последнюю очередь в том, что эдакий скилл завершения атаки в футболе практически невозможно измерить: 1. в футболе наносится слишком мало ударов для того, чтобы объективно оценить даже тех нападающих, которые бьют чаще остальных (например, часто бьющие хоккеисты наносят порядка 800 ударов за сезон, у часто бьющих футболистов уходит 5-6 лет на аналогичное количество ударов). 2. из-за такого малого количества ударов цифры реализации ударов сильно разнятся у одних и тех же игроков от сезона к сезону.
Можно привести массу отдельных вопиющих примеров, подчеркивающих значимость скилла завершения атаки у отдельных игроков, но два важных момента, позволяющих не считать недостаток критическим.
Даже у элитных завершителей на коротких отрезках проседает реализация. Стабильно забивают именно те, кто всегда получает моменты.
Статистика показывает, что при сравнении большого количества игроков значимость этого фактора уменьшается:
4. Практически невозможно полностью учесть расположение защитников
xG-модели пытаются обойти этот момент. Например, учитывая скорость развития атаки, наличие явной индивидуальной ошибки защитника, обводки футболистом противника перед ударом и т. п. Но все это не одно и то же с реальным осознанием того, сколько давления со стороны оборонительной стороны оказывается на игрока в момент удара. К сожалению, в рамках показателей, которые считает Opta, пока нет объективного способа это отразить.
Проблема решена у модели Statsbomb, которая считает количество игроков между воротами и бьющим, помячая степень давления на бьющего. Но для многих моделей это все еще актуально — им не хватает данных. Statsbomb собирает свои через freeze-frame каждого удара.
5. Слегка недооцениваются команды, которые умышленно медленно атакуют
Утверждение, что при прочих равных быстрые атаки опасней и с большей вероятностью могут завершиться голом, правдиво и подтверждается статистикой. Разумеется, проще атаковать соперника, чьи игроки еще не успели вернуться в оборонительную схему. Разумеется, в большинстве случаев затянувшееся владение мячом будет означать просто-напросто то, что команда ничего не может поделать с обороной противника.
Но в отдельных редких случаях (помните «МЮ» Ван Гала?) такие затянувшиеся владения — часть тренерского умысла (философии) и необязательно значат несостоятельность в атаке. Команды, играющие в такой футбол абсолютно в каждом матче, могут слегка недооцениваться системой. По крайней мере об этом говорил создатель одной из моделей Майкл Кэйли.
Слово «слегка» тут важно — тип атаки оказывает не такое уж большое влияние на итоговый коэффициент, удар из убойной позиции после очень медленной атаки получит очень высокий коэффициент (просто чуточку меньший, чем после быстрой атаки).
6. Автоголы, пенальти
На данный момент они просто-напросто не учитываются, а помечаются отдельной строкой.
Итого
Фото: globallookpress.com/imago sportfotodienst, dailymail.co.uk/Dave Shopland, gettyimages.ru/Clive MasonxG-модели — полезнейший инструмент для глубокого и достаточно объективного анализа, а также неплохой для долгосрочных прогнозов. Более того, как показывает практика, система может быть полезна не только аутсайдерам футбольного мира (нам), но и самим клубам. Вполне возможно настанет день, когда владельцы будут широко ее применять для решений о тренерских отставках/назначениях, а сами тренеры — для выбора момента смены тактики. Что станет существенным шагом вперед от текущий ситуаций, в которой большинство решений принимаются на основе общественного мнения/давления и рэндомных факторов (конечно, при условии, что она будет не единственным ориентиром таких решений, а только одним из).
Вадим Лукомский