Les « Expected Goals », au cœur de la révolution statistique
Envahi par les statistiques mais pas toujours par les bonnes, le football a vu son traitement s'américaniser. Pour faire avancer le schmilblick, il fallait présenter la dernière stat' à la mode : les "Expected Goals".
Le football est à un carrefour de son traitement médiatique et analytique. Porté par l'intérêt toujours grandissant des États-Unis pour le soccer, l'emploi des statistiques a fait un bond dans les pays anglo-saxons.
Leur interprétation est devenue un enjeu majeur, à tel point que certains blogueurs anglophones ont été débauchés par des clubs professionnels. D'autres pigent pour ESPN, le Washington Post ou Grantland, médias américains déjà habitués à l'approfondissement de la data.
Ted Knutson, qui a commencé sur StatsBomb, un site collaboratif consacré à l'analyse statistique, travaille aujourd'hui pour Brentford, candidat à la montée en Premier League, et le FC Midtjylland, leader du championnat danois. Les deux clubs ont le même propriétaire, Matthew Benham. Avant d'entrer véritablement dans le monde du football, Benham avait fait fortune en battant les bookmakers à leur propre jeu grâce à l'utilisation de l'analyse statistique.
Les fournisseurs de contenus (Opta, Prozone) donnent bien aux médias français des statistiques plus poussées que par le passé, mais les plus grandes avancées sont souvent l'oeuvre de passionnés un peu dérangés, qui tentent d'appliquer au football une grille de lecture et d'interprétation innovante. Les "Expected Goals" font partie de ces statistiques encore adolescentes.
Les « Expected Goals », késako ?
Terme barbare dont la traduction littérale a peu de sens en français. Les "ExpG", ou "xG", ce sont le nombre de buts qu'un joueur ou une équipe aurait dû marquer ou encaisser selon les probabilités sur une période donnée, qu'il s'agisse d'un match ou d'une saison.
Le calcul n'est pas si compliqué: une probabilité de marquer est attribuée à chaque tir tenté ou concédé par une équipe, se basant sur les milliers de tirs tentés lors des saisons précédentes. La statistique aurait d'abord été expérimentée dans le hockey sur glace, sport propice aux statisticiens, comme le baseball et le basket-ball.
Illustration du pourcentage de conversion selon les zones du terrain:

Les zones à 20%, 22% et 37% de conversion constituent souvent ce qui est appelé "zone de danger" ("danger zone" en anglais), à l'intérieur et au centre de la surface de réparation. La plupart des buts surviennent depuis cette aire de jeu.
La position du tireur n'est pas le seul facteur influant sur la probabilité de marquer. Le modèle présenté ici, œuvre de Julien Assuncao, prend également en compte d'autres paramètres:
- Le type de tir: quelle partie du corps le joueur a utilisé pour réaliser la frappe. Dans la zone de danger, un tir de la tête n'est converti que dans 11%* des cas, tandis qu'une frappe du pied rentre une fois sur trois.
- Le type de passe: passe dans les pieds, centre, remise de la tête, passe en profondeur dans le dos de la défense. Existe aussi la possibilité qu'il n'y ait pas de passeur, lorsque le ballon est perdu par l'adversaire ou mal renvoyé par le gardien. Dans la zone de danger, 14% des tirs consécutifs à un centre dans la finissent au fond des filets, les tirs qui suivent une passe en profondeur sont convertis dans 38% des cas, tandis que les tirs-rebonds, après un ballon repoussé par le gardien ou le poteau, sont convertis dans 41% des cas.
- Le type de situation: attaque placée ou contre-attaque, coup franc direct ou indirect, corner ou penalty. Les contre-attaques se terminant par un tir, situations particulièrement dangereuses, sont converties dans 39% des cas.
*Tous les pourcentages cités sans période précisée se basent sur les saisons 2013/2014 et 2014/2015 de Ligue 1.
D'autres modèles prennent également en compte la dynamique du match (l'équipe qui frappe mène-t-elle au score, et si oui, de combien de buts?), ainsi que le nombre de touches de balle réalisées par l'attaquant avant de tirer (plus les touches sont nombreuses, plus les défenseurs ont le temps de revenir gêner le tireur).
Dans l'ensemble, la construction du modèle n'est pas follement sophistiquée. C'est surtout la récupération des données qui pose problème aux statisticiens, lesquels doivent souvent se contenter de la data accessible au public (les fournisseurs de statistiques vendent des forfaits aux professionnels, clubs et médias, pour accéder à des outils plus poussés et privés). Des sites tels que WhoScored et Squawka sont ainsi très utiles.
Si la corrélation entre les ExpG et les buts réellement marqués est forte, certaines zones d'ombre demeurent. En premier lieu, la position des défenseurs au moment du tir, pas mesurée par les outils actuels. Tandis que les actions avec le ballon sont aisément prises en compte (dribbles, passes, tacles...), les déplacements des joueurs qui n'ont pas le ballon dans les pieds ne sont pas intégrés. Ces données devraient néanmoins exister dans un futur proche, grâce à la progression des technologies de tracking. En NBA, des caméras suivent ainsi les déplacements de tous les joueurs en permanence.
À quoi ça sert ?
Les Expected Goals sont avant tout une mesure de performance objective. Loin du score réel, parfois trompeur, et du "mérite", cette statistique évalue la capacité d'une équipe à se créer des occasions (et leur qualité) et sa propension à en conçéder. Ainsi, elle ignore les actions atteignant des zones dangereuses sans se conclure par un tir. C'est l'une de ses limites, et l'un des champs qui restent à explorer.
Les Expected Goals ont également un aspect prédictif. Si une équipe a inscrit dix buts sur les trois derniers matches alors qu'elle aurait dû en inscrire cinq, une baisse de forme peut être attendue. De même, si elle encaisse beaucoup de buts alors que sa performance ExpG indique qu'elle concède peu de tirs à haute probabilité de marquer, on peut imaginer qu'elle vit une période de malchance et que la routourne va finir par tourner. Les ExpG semblent à la fois être reproductibles d'une année à l'autre, et représentent pour l'instant l'un des meilleurs moyens de prédire les performances futures.

Le 14 décembre 2014, alors que Liverpool perdait 3-0 à Old Trafford, poursuivant son début de saison catastrophique, Michael Caley, pionnier des Expected Goals, publiait une "carte d'ExpG" qui promettait mieux aux Reds. Selon Caley, ce jour là, Liverpool, plus convaincant après être passé en 3-4-2-1, aurait dû battre Manchester United sur le score de 3,1 à 1,8. Depuis, fidèles à leur nouveau système de jeu, les hommes de Brendan Rodgers ont pris trente-trois points sur quarante-deux possibles.
Les statisticiens mettent en avant les Expected Goals en particulier lorsqu'un entraîneur est en danger, invitant les dirigeants de clubs à s'intéresser aux performances objectives de leurs équipes avant de licencier leur coach. Si d'autres difficultés autorité dans le vestiaire, motivation, communication peuvent justifier la mise à l'écart d'un technicien, vérifier qu'il ne s'agit pas simplement d'une mauvaise passe, d'un manque de réalisme, ne coûte rien. Et peut même éviter une indemnité de licenciement dispendieuse.
Rasmus Ankersen, à peine trente-deux ans, auteur de The Gold Mine Effect et président du FC Midtjylland, est un grand défenseur de l'utilisation de statistiques approfondies dans le football pour mieux le comprendre. "L'évaluation du modèle prévaut toujours sur notre place au classement dans le jugement de notre performance", explique-t-il.
Et quand on lui parle du succès de son club, largement leader, Ankersen apporte une nuance: "Le classement ment. Nous sommes la meilleure équipe du championnat cette saison, mais neuf points d'avance (devenus onze depuis) n'est pas un reflet juste de la différence entre nous et Copenhague. La différence, c'est que nous avons eu de la chance dans certains matches et qu'eux ont souffert de malchance. C'est ce que je ne cesse de répéter à nos entraîneurs: ne pensez pas qu'on est bons parce qu'on est premiers au classement. On est bons quand notre modèle estime qu'on est bons." Ankersen ne précise pas si le modèle en question implique les Expected Goals.
À l'échelle de la performance individuelle, les ExpG affichent moins de certitudes. Bien qu'ils soient fortement reproductibles par tranche de quatre-vingt-dix minutes, signifiant que les bons joueurs sont capables de se procurer régulièrement des occasions, c'est la conversion de celles-ci qui refuse la constance (en dehors de monstres comme Lionel Messi ou Cristiano Ronaldo).
Les fluctuations de conversion sont très nombreuses d'une année sur l'autre, même pour les meilleurs joueurs. Sur un échantillon de temps élargi, une hiérarchie apparaît, mais la prédiction de futures performances reste bancale, en particulier chez les jeunes joueurs. Les statisticiens tels que Caley sont d'ailleurs interloqués devant la saison d'Alexandre Lacazette, qui, selon leurs modèles, marque bien plus qu'il ne devrait.
Dépasser ses ExpG peut être la preuve d'un talent supérieur, d'un don pour la finition, mais à de tels niveaux, Caley estimait en janvier dernier qu'il s'agissait d'un passage très chanceux, et que les clubs intéressés devraient s'attendre à moins d'efficacité devant le but s'ils le recrutaient. Lacazette totalisait alors quatorze réalisations (hors penaltys) au lieu des sept qu'il "aurait dû" compter.
Exemples d'application et visualisations
Parmi les applications les plus courantes, l'ExpG Ratio, ExpG For / (ExpG For + ExpG Against), permet de définir la qualité offensive et défensive d'une équipe. Il peut être ensuite utilisé pour effectuer des simulations, que ce soit de matches particuliers ou d'une saison dans son entièreté. C'est un peu plus compliqué, à tel point qu'on évitera d'élaborer ici-même.
Voici le tableau des Expected Goals concernant les équipes de Ligue 1 sur la saison 2014/2015.
[NDLR : image portée disparue, les recherches sont en cours]
Quelques remarques:
- Le Toulouse d'Alain Casanova était-il, comme Copenhague, malchanceux? Son ratio ExpG le place en tout cas beaucoup plus haut que dix-huitième, sa place actuelle au classement. Olivier Sadran a-t-il bien fait de licencier l'ancien gardien de but? Le ratio de l'ETG, bon dernier, peut aussi indiquer certaines difficultés du modèle ExpG dans la mesure de la performance, surtout chez les petits.
- D'autant plus que le haut du classement ExpG correspond presque parfaitement à la réalité. Seul Lille vient gêner l'ordre entre les sept premiers. Le PSG, qui devrait être la meilleure attaque et la meilleure défense, pourrait finalement se diriger vers un titre de champion logique.
- Certaines tendances sont confirmées: Nantes ne sait pas attaquer mais défend bien, tout comme Lille; Monaco affiche un bilan très équilibré mais aurait sans doute dû encaisser plus de buts (21 dans la réalité). À moins que sa force défensive impressionnante ne soit justement là, défiant les chiffres? L'Olympique lyonnais profite de son côté d'une réussite folle, que le tableau suivant renforce encore.
Voici le même tableau, cette fois pour les joueurs (préparez-vous, ça peut vous bouleverser) :

Les Expected Goals restent un outil de mesure encore très jeune et faillible, quelque peu obscurci par le silence de ses créateurs (nombreux et aux modèles variables). Grâce à la communauté statistique autour du football, chaque jour plus large, sa précision devrait s'améliorer progressivement, en attendant que d'autres instruments éclairent encore un peu plus ce sport si complexe.
Pour aller plus loin:
- @MC_of_A (https://mcofa.wordpress.com)
- @11tegen11 (http://11tegen11.net)
- @colinttrainor (http://statsbomb.com)
- @SteMc74 (https://thestatattackblog.wordpress.com)
- @penaltyblog (http://pena.lt/y/blog.html)