Ne perdez pas de temps à lire ce texte, connectez-vous vite pour commenter les articles des CDF. Attention à ne pas confondre vos minuscules et vos majuscules.
Vous avez oublié votre mot de passe ?
Inscription
Vous avez oublié votre mot de passe ? Il reste un espoir ! Saisissez votre adresse e-mail ; nous vous enverrons un nouveau mot de passe. Cette procédure est quasiment gratuite : elle ne vous coûtera qu'un clic humiliant.
Nous vous avons envoyé un email sur votre adresse, merci d'y jeter un oeil !

CONDITIONS D'INSCRIPTION :

1. Vous devez nous adresser, via le formulaire ci-dessous, un texte (format .txt inférieur à 100 ko) en rapport avec le football, dont la forme est libre : explication de votre passion, anecdote, aventure, souvenir, essai, commentaire composé, portrait, autobiographie, apologie, réquisitoire, etc. Vous serez ensuite informés de la validation de votre inscription par mail. Les meilleurs textes seront mis en ligne sur le Forum.

2. Nous ne disposons pas d'assez de temps pour justifier les retards d'inscription ou les non-inscriptions, et ne pouvons pas nous engager à suivre une éventuelle correspondance à ce sujet. Merci de votre compréhension.

Nous avons bien reçu votre candidature, on y jette un oeil dès que possible. Merci !

Partager :

Les « Expected Goals », au cœur de la révolution statistique

Envahi par les statistiques mais pas toujours par les bonnes, le football a vu son traitement s'américaniser. Pour faire avancer le schmilblick, il fallait présenter la dernière stat' à la mode : les "Expected Goals".

Auteur : Raphaël Cosmidis et Julien Assuncao le 31 Mars 2015

 

 

Le football est à un carrefour de son traitement médiatique et analytique. Porté par l’intérêt toujours grandissant des États-Unis pour le soccer, l’emploi des statistiques a fait un bond dans les pays anglo-saxons. Leur interprétation est devenue un enjeu majeur, à tel point que certains blogueurs anglophones ont été débauchés par des clubs professionnels. D’autres pigent pour ESPN, le Washington Post ou Grantland, médias américains déjà habitués à l’approfondissement de la data.

 

Ted Knutson, qui a commencé sur StatsBomb, un site collaboratif consacré à l’analyse statistique, travaille aujourd’hui pour Brentford, candidat à la montée en Premier League, et le FC Midtjylland, leader du championnat danois. Les deux clubs ont le même propriétaire, Matthew Benham. Avant d’entrer véritablement dans le monde du football, Benham avait fait fortune en battant les bookmakers à leur propre jeu grâce à l’utilisation de l’analyse statistique.

 

Les fournisseurs de contenus (Opta, Prozone) donnent bien aux médias français des statistiques plus poussées que par le passé, mais les plus grandes avancées sont souvent l’oeuvre de passionnés un peu dérangés, qui tentent d’appliquer au football une grille de lecture et d’interprétation innovante. Les "Expected Goals" font partie de ces statistiques encore adolescentes.

 

 

Les « Expected Goals », késako ?

Terme barbare dont la traduction littérale a peu de sens en français. Les “ExpG”, ou “xG”, ce sont le nombre de buts qu’un joueur ou une équipe aurait dû marquer — ou encaisser — selon les probabilités sur une période donnée, qu’il s’agisse d’un match ou d’une saison. Le calcul n’est pas si compliqué: une probabilité de marquer est attribuée à chaque tir tenté ou concédé par une équipe, se basant sur les milliers de tirs tentés lors des saisons précédentes. La statistique aurait d’abord été expérimentée dans le hockey sur glace, sport propice aux statisticiens, comme le baseball et le basket-ball.

 

Illustration du pourcentage de conversion selon les zones du terrain:

 

 

 

Les zones à 20%, 22% et 37% de conversion constituent souvent ce qui est appelé "zone de danger" (“danger zone” en anglais), à l’intérieur et au centre de la surface de réparation. La plupart des buts surviennent depuis cette aire de jeu.

 

La position du tireur n’est pas le seul facteur influant sur la probabilité de marquer. Le modèle présenté ici, œuvre de Julien Assuncao, prend également en compte d’autres paramètres:

 

- Le type de tir: quelle partie du corps le joueur a utilisé pour réaliser la frappe. Dans la zone de danger, un tir de la tête n’est converti que dans 11%* des cas, tandis qu’une frappe du pied rentre une fois sur trois.

 

- Le type de passe: passe dans les pieds, centre, remise de la tête, passe en profondeur dans le dos de la défense. Existe aussi la possibilité qu’il n’y ait pas de passeur, lorsque le ballon est perdu par l’adversaire ou mal renvoyé par le gardien. Dans la zone de danger, 14% des tirs consécutifs à un centre dans la finissent au fond des filets, les tirs qui suivent une passe en profondeur sont convertis dans 38% des cas, tandis que les tirs-rebonds, après un ballon repoussé par le gardien ou le poteau, sont convertis dans 41% des cas.

 

- Le type de situation: attaque placée ou contre-attaque, coup franc direct ou indirect, corner ou penalty. Les contre-attaques se terminant par un tir, situations particulièrement dangereuses, sont converties dans 39% des cas.

 

*Tous les pourcentages cités sans période précisée se basent sur les saisons 2013/2014 et 2014/2015 de Ligue 1.

 

D'autres modèles prennent également en compte la dynamique du match (l’équipe qui frappe mène-t-elle au score, et si oui, de combien de buts?), ainsi que le nombre de touches de balle réalisées par l’attaquant avant de tirer (plus les touches sont nombreuses, plus les défenseurs ont le temps de revenir gêner le tireur).

 

Dans l’ensemble, la construction du modèle n’est pas follement sophistiquée. C’est surtout la récupération des données qui pose problème aux statisticiens, lesquels doivent souvent se contenter de la data accessible au public (les fournisseurs de statistiques vendent des forfaits aux professionnels, clubs et médias, pour accéder à des outils plus poussés et privés). Des sites tels que WhoScored et Squawka sont ainsi très utiles.

 

Si la corrélation entre les ExpG et les buts réellement marqués est forte, certaines zones d’ombre demeurent. En premier lieu, la position des défenseurs au moment du tir, pas mesurée par les outils actuels. Tandis que les actions avec le ballon sont aisément prises en compte (dribbles, passes, tacles...), les déplacements des joueurs qui n’ont pas le ballon dans les pieds ne sont pas intégrés. Ces données devraient néanmoins exister dans un futur proche, grâce à la progression des technologies de tracking. En NBA, des caméras suivent ainsi les déplacements de tous les joueurs en permanence.

 

 

À quoi ça sert ?

Les Expected Goals sont avant tout une mesure de performance objective. Loin du score réel, parfois trompeur, et du "mérite", cette statistique évalue la capacité d’une équipe à se créer des occasions (et leur qualité) et sa propension à en conçéder. Ainsi, elle ignore les actions atteignant des zones dangereuses sans se conclure par un tir. C’est l’une de ses limites, et l’un des champs qui restent à explorer.

 

Les Expected Goals ont également un aspect prédictif. Si une équipe a inscrit dix buts sur les trois derniers matches alors qu’elle aurait dû en inscrire cinq, une baisse de forme peut être attendue. De même, si elle encaisse beaucoup de buts alors que sa performance ExpG indique qu’elle concède peu de tirs à haute probabilité de marquer, on peut imaginer qu’elle vit une période de malchance et que la routourne va finir par tourner. Les ExpG semblent à la fois être reproductibles d’une année à l’autre, et représentent pour l’instant l’un des meilleurs moyens de prédire les performances futures.

 

 

 

 

Le 14 décembre 2014, alors que Liverpool perdait 3-0 à Old Trafford, poursuivant son début de saison catastrophique, Michael Caley, pionnier des Expected Goals, publiait une "carte d’ExpG" qui promettait mieux aux Reds. Selon Caley, ce jour là, Liverpool, plus convaincant après être passé en 3-4-2-1, aurait dû battre Manchester United sur le score de 3,1 à 1,8. Depuis, fidèles à leur nouveau système de jeu, les hommes de Brendan Rodgers ont pris trente-trois points sur quarante-deux possibles.

 

Les statisticiens mettent en avant les Expected Goals en particulier lorsqu’un entraîneur est en danger, invitant les dirigeants de clubs à s’intéresser aux performances objectives de leurs équipes avant de licencier leur coach. Si d’autres difficultés — autorité dans le vestiaire, motivation, communication — peuvent justifier la mise à l’écart d’un technicien, vérifier qu’il ne s’agit pas simplement d’une mauvaise passe, d’un manque de réalisme, ne coûte rien. Et peut même éviter une indemnité de licenciement dispendieuse.

 

Rasmus Ankersen, à peine trente-deux ans, auteur de The Gold Mine Effect et président du FC Midtjylland, est un grand défenseur de l’utilisation de statistiques approfondies dans le football pour mieux le comprendre. "L’évaluation du modèle prévaut toujours sur notre place au classement dans le jugement de notre performance", explique-t-il. Et quand on lui parle du succès de son club, largement leader, Ankersen apporte une nuance: "Le classement ment. Nous sommes la meilleure équipe du championnat cette saison, mais neuf points d’avance (devenus onze depuis) n’est pas un reflet juste de la différence entre nous et Copenhague. La différence, c’est que nous avons eu de la chance dans certains matches et qu’eux ont souffert de malchance. C’est ce que je ne cesse de répéter à nos entraîneurs: ne pensez pas qu’on est bons parce qu’on est premiers au classement. On est bons quand notre modèle estime qu’on est bons." Ankersen ne précise pas si le modèle en question implique les Expected Goals.

 

À l’échelle de la performance individuelle, les ExpG affichent moins de certitudes. Bien qu’ils soient fortement reproductibles par tranche de quatre-vingt-dix minutes, signifiant que les bons joueurs sont capables de se procurer régulièrement des occasions, c’est la conversion de celles-ci qui refuse la constance (en dehors de monstres comme Lionel Messi ou Cristiano Ronaldo).

 

Les fluctuations de conversion sont très nombreuses d’une année sur l’autre, même pour les meilleurs joueurs. Sur un échantillon de temps élargi, une hiérarchie apparaît, mais la prédiction de futures performances reste bancale, en particulier chez les jeunes joueurs. Les statisticiens tels que Caley sont d’ailleurs interloqués devant la saison d’Alexandre Lacazette, qui, selon leurs modèles, marque bien plus qu’il ne devrait. Dépasser ses ExpG peut être la preuve d’un talent supérieur, d’un don pour la finition, mais à de tels niveaux, Caley estimait en janvier dernier qu’il s’agissait d’un passage très chanceux, et que les clubs intéressés devraient s’attendre à moins d’efficacité devant le but s’ils le recrutaient. Lacazette totalisait alors quatorze réalisations (hors penaltys) au lieu des sept qu’il "aurait dû" compter.

 

 

Exemples d’application et visualisations

Parmi les applications les plus courantes, l’ExpG Ratio, ExpG For / (ExpG For + ExpG Against), permet de définir la qualité offensive et défensive d’une équipe. Il peut être ensuite utilisé pour effectuer des simulations, que ce soit de matches particuliers ou d’une saison dans son entièreté. C'est un peu plus compliqué, à tel point qu'on évitera d'élaborer ici-même. 

 

Voici le tableau des Expected Goals concernant les équipes de Ligue 1 sur la saison 2014/2015.

 

 

 

 

Quelques remarques:

 

- Le Toulouse d’Alain Casanova était-il, comme Copenhague, malchanceux? Son ratio ExpG le place en tout cas beaucoup plus haut que dix-huitième, sa place actuelle au classement. Olivier Sadran a-t-il bien fait de licencier l’ancien gardien de but? Le ratio de l’ETG, bon dernier, peut aussi indiquer certaines difficultés du modèle ExpG dans la mesure de la performance, surtout chez les petits. 

 

- D’autant plus que le haut du classement ExpG correspond presque parfaitement à la réalité. Seul Lille vient gêner l’ordre entre les sept premiers. Le PSG, qui devrait être la meilleure attaque et la meilleure défense, pourrait finalement se diriger vers un titre de champion logique.

 

- Certaines tendances sont confirmées: Nantes ne sait pas attaquer mais défend bien, tout comme Lille; Monaco affiche un bilan très équilibré mais aurait sans doute dû encaisser plus de buts (21 dans la réalité). À moins que sa force défensive impressionnante ne soit justement là, défiant les chiffres? L’Olympique lyonnais profite de son côté d’une réussite folle, que le tableau suivant renforce encore.

 

Voici le même tableau, cette fois pour les joueurs (préparez-vous, ça peut vous bouleverser):
 

 


(Cliquez sur l'image pour l'agrandir)

 

Les Expected Goals restent un outil de mesure encore très jeune et faillible, quelque peu obscurci par le silence de ses créateurs (nombreux et aux modèles variables). Grâce à la communauté statistique autour du football, chaque jour plus large, sa précision devrait s’améliorer progressivement, en attendant que d’autres instruments éclairent encore un peu plus ce sport si complexe.

 

Pour aller plus loin:

 

- @MC_of_A (https://mcofa.wordpress.com)

- @11tegen11 (http://11tegen11.net)

- @colinttrainor (http://statsbomb.com)

- @SteMc74 (https://thestatattackblog.wordpress.com)

- @penaltyblog (http://pena.lt/y/blog.html)

Réactions

  • PCarnehan le 31/03/2015 à 02h12
    Passionnant, vraiment. Et amusant.

    Je suis très étonné, par exemple, de la similarité des probabilités de marquer (et d'encaisser) de Monaco et Sainté, tant les les styles et projet de jeu sont distincts. Et pourtant le classement « réel » correspond à celui des Expected Goals.

    A contrario je ne suis pas surpris par Évian, bon dernier. Soporifique en toutes choses. Mais bon, là, pour expliquer la différence xG Ratio/L1 réel, il faudrait intégrer un facteur « menaces diverses et violences verbales proférées par l'entraîneur à l'encontre de ses joueurs ». Pas facile à quantifier.

    Sinon, ça existe pour les gardiens ? Question de savoir si Coupet l'aurait arrêté.

  • osvaldo piazzolla le 31/03/2015 à 05h57
    Cet article tombe à pic pour moi pour réagir parce que j'ai raté l'occasion de faire un comm super intelligent sur l'artcile récent de Philippe Gargov (us et abus de la data), et en plus les "expected goals" sont l'exemple rêvé, parce que controversiaux.

    d'abord je vous fais le TL;DR

    Attention! ce n'est pas seulement le TRAITEMENT des données qui peut être sujet à caution (par exemple en confondant corrélation et causalité), c'est la donnée même qui est CONSTRUITE, aussi bien dans sa définition que dans sa production. Donnée objective, donnée brute, etc... sont des chimères, des mythologies du big data, de la politique des algorithmes, ou même la gouvernementalité algorithmique comme dirait Antoinette Rouvroy.

    Ensuite trois références pour donner le cadre scientifique sur lequel je m'appuie:
    Raw Data is an oxymoron
    lien
    Politique des algorithmes
    lien
    Une interview d'Antoinette Rouvroy dans rue89
    lien

    Il s'agit donc de "science studies". L'activité scientifique, la mesure, la collecte de données, la modélisation ne sont pas des activités "neutres". La production des données contient les valeurs que le producteur, le collecteur, l'organisateur de la collecte, le directeur du marketing de l'entreprise qui organise la collecte, etc...mettent dedans. Particulièrement dans le monde du Football (et je me réfère à "The adolescence of soccer stats"), le marché influe sur le mode de production. Et il ne s'agit pas de n'importe quel marché, il s'agit d'un marché avec une culture du secret. Le business model des entreprises est de réserver ses meilleures analyses à ceux qui sont prêts à payer cher (ou à Brentford), donc la production n'est pas transparente. Reproductibilité compliquée.
    C'est encore pire pour la définition. ExG est un facteur certainement intéressant. Problème: il y a mille manières de le définir, ces mille définitions, sont liés à mille façons de produire les données, mille visions de ce qu'est une occasion de but, mille façons de quadriller le terrain, mille facteurs à prendre en compte, les passes, la position de la défense... Pour que la précision du facteur "s'améliore progressivement", un cercle épistémologique vertueux serait d'ouvrir. benchmarker. comparer les résultats les uns aux autres. Procéder par retouches. Créer une communauté avec un but commun. des standards. Mais Brentford achète Knudson. L'enjeu du prix des transferts des joueurs incite à acheter des exclusivités. Culture du secret. Compétitivité. Etre le premier sur le marché.
    Bonne chance pour améliorer ExG collégialement.

  • Zidanopoulos le 31/03/2015 à 06h13
    D'accord avec tout ce que tu dis osvaldo, ce sont des risques pour le futur. Sur le sujet, Richard Whittall a d'ailleurs écrit un très bon article.

    lien

  • Sens de la dérision le 31/03/2015 à 09h30
    Merci pour l'article et merci aussi pour les commentaires ci-dessus.

    Ce qui me paraît absolument énorme c'est le recueil des données, surtout quand on n'est apparemment pas payé pour ça.

  • Zorro et Zlatan fouillent aux fiches le 31/03/2015 à 10h40
    "Les Expected Goals sont avant tout une mesure de performance objective"

    "Les Expected Goals ont également un aspect prédictif"

    Ces deux phrases résument bien à mon sens les dérives de l'usage des statistiques, qui proviennent pour une grosse part de la confusion entre statistiques et probabilités.

    Les ExpG sont une statistique, mais leur nom et leur usage laissent penser qu'il s'agit d'une probabilité. Le problème c'est que le passage de l'un à l'autre n'est pas complètement trivial et que si l'analyse a posteriori peut se faire moyennant une bonne méthodologie (corrélation tout ca), la prédiction a priori n'a aucune valeur analytique. Si une équipe a x% de chances de marquer un but, qu'elle marque ou pas, one ne peut RIEN en conclure. La réalisation d'une probabilité est contingente. C'est là ou les médias se plantent en voulant absolument donner du sens à des chiffres qui n'en ont pas.

  • pbruneau le 31/03/2015 à 12h58
    Je me permets une petite précision :

    "Les ExpG sont une statistique, mais leur nom et leur usage laissent penser qu'il s'agit d'une probabilité."

    D'après ce que j'ai lu, ExpG n'est pas une statistique, mais comme son nom l'indique une "expected value", soit l'espérance mathématique du nombre de buts sur une période donnée de la loi de probabilité de marquer conditionnée à (position sur le terrain / défenseurs / etc). Ca a donc bien valeur d'une prédiction (au sens des moindres carrés).

    Cependant toutes les autres remarques restent valides - en particulier sur la nature et la construction de cette fameuse distribution magique, et le recueil des données associées.

  • pbruneau le 31/03/2015 à 13h00
    Coquille: lire "[...] période donnée selon la loi de probabilité".

    Je me permets la précision car la phrase est un peu tordue.

  • Zorro et Zlatan fouillent aux fiches le 31/03/2015 à 13h27
    Au temps pour moi alors, merci de cette précision.

    Cela dit, dans ce cas, on peut retourner ma remarque précédente et se demander pourquoi une probabilité est parfois utilisée comme une statistique.

  • pbruneau le 31/03/2015 à 14h24
    Les deux sont liées: dans le jargon, une statistique est en général l'estimateur d'un paramètre (ou pour être précis, d'un "moment" dans le cas d'une espérance). En gros: j'ai un modèle théorique, et j'utilise les data à ma disposition pour "régler" ce modèle théorique.

    Je conviens que tout cela est bien subtil (et probablement flou) - si il faut en retenir une chose, c'est qu'une statistique fait implicitement référence à une probabilité.

  • forezjohn le 31/03/2015 à 14h31
    pbruneau
    aujourd'hui à 12h58

    Je me permets une petite précision :

    "Les ExpG sont une statistique, mais leur nom et leur usage laissent penser qu'il s'agit d'une probabilité."

    D'après ce que j'ai lu, ExpG n'est pas une statistique, mais comme son nom l'indique une "expected value", soit l'espérance mathématique du nombre de buts sur une période donnée de la loi de probabilité de marquer conditionnée à (position sur le terrain / défenseurs / etc). Ca a donc bien valeur d'une prédiction (au sens des moindres carrés).

    Cependant toutes les autres remarques restent valides - en particulier sur la nature et la construction de cette fameuse distribution magique, et le recueil des données associées.

    -------------------------------------------

    Oui, mais le problème persiste : on collecte les données passées pour "prédire" l'avenir.
    Cette un exercice qui ne manque pas d’intérêt mais qui finit toujours montrer ses limites.

La revue des Cahiers du football