Le cable réseau du serveur étant presque saturé, merci de ne vous connecter qu'en cas d'absolue nécessité de vous amuser. Attention à ne pas confondre vos minuscules et vos majuscules.
Vous avez oublié votre mot de passe ?
Inscription
Vous avez oublié votre mot de passe ? Il reste un espoir ! Saisissez votre adresse e-mail ; nous vous enverrons un nouveau mot de passe. Cette procédure est quasiment gratuite : elle ne vous coûtera qu'un clic humiliant.
Nous vous avons envoyé un email sur votre adresse, merci d'y jeter un oeil !

CONDITIONS D'INSCRIPTION :

1. Vous devez nous adresser, via le formulaire ci-dessous, un texte (format .txt inférieur à 100 ko) en rapport avec le football, dont la forme est libre : explication de votre passion, anecdote, aventure, souvenir, essai, commentaire composé, portrait, autobiographie, apologie, réquisitoire, etc. Vous serez ensuite informés de la validation de votre inscription par mail. Les meilleurs textes seront mis en ligne sur le Forum.

2. Nous ne disposons pas d'assez de temps pour justifier les retards d'inscription ou les non-inscriptions, et ne pouvons pas nous engager à suivre une éventuelle correspondance à ce sujet. Merci de votre compréhension.

Nous avons bien reçu votre candidature, on y jette un oeil dès que possible. Merci !

Partager :

Les « Expected Goals », au cœur de la révolution statistique

Envahi par les statistiques mais pas toujours par les bonnes, le football a vu son traitement s'américaniser. Pour faire avancer le schmilblick, il fallait présenter la dernière stat' à la mode : les "Expected Goals".

Auteur : Raphaël Cosmidis le 31 Mars 2015

 

Le football est à un carrefour de son traitement médiatique et analytique. Porté par l'intérêt toujours grandissant des États-Unis pour le soccer, l'emploi des statistiques a fait un bond dans les pays anglo-saxons.

Leur interprétation est devenue un enjeu majeur, à tel point que certains blogueurs anglophones ont été débauchés par des clubs professionnels. D'autres pigent pour ESPN, le Washington Post ou Grantland, médias américains déjà habitués à l'approfondissement de la data.

Ted Knutson, qui a commencé sur StatsBomb, un site collaboratif consacré à l'analyse statistique, travaille aujourd'hui pour Brentford, candidat à la montée en Premier League, et le FC Midtjylland, leader du championnat danois. Les deux clubs ont le même propriétaire, Matthew Benham. Avant d'entrer véritablement dans le monde du football, Benham avait fait fortune en battant les bookmakers à leur propre jeu grâce à l'utilisation de l'analyse statistique.

Les fournisseurs de contenus (Opta, Prozone) donnent bien aux médias français des statistiques plus poussées que par le passé, mais les plus grandes avancées sont souvent l'oeuvre de passionnés un peu dérangés, qui tentent d'appliquer au football une grille de lecture et d'interprétation innovante. Les "Expected Goals" font partie de ces statistiques encore adolescentes.

Les « Expected Goals », késako ?

Terme barbare dont la traduction littérale a peu de sens en français. Les "ExpG", ou "xG", ce sont le nombre de buts qu'un joueur ou une équipe aurait dû marquer ou encaisser selon les probabilités sur une période donnée, qu'il s'agisse d'un match ou d'une saison.

Le calcul n'est pas si compliqué: une probabilité de marquer est attribuée à chaque tir tenté ou concédé par une équipe, se basant sur les milliers de tirs tentés lors des saisons précédentes. La statistique aurait d'abord été expérimentée dans le hockey sur glace, sport propice aux statisticiens, comme le baseball et le basket-ball.

Illustration du pourcentage de conversion selon les zones du terrain:

 

Les zones à 20%, 22% et 37% de conversion constituent souvent ce qui est appelé "zone de danger" ("danger zone" en anglais), à l'intérieur et au centre de la surface de réparation. La plupart des buts surviennent depuis cette aire de jeu.

La position du tireur n'est pas le seul facteur influant sur la probabilité de marquer. Le modèle présenté ici, œuvre de Julien Assuncao, prend également en compte d'autres paramètres:

- Le type de tir: quelle partie du corps le joueur a utilisé pour réaliser la frappe. Dans la zone de danger, un tir de la tête n'est converti que dans 11%* des cas, tandis qu'une frappe du pied rentre une fois sur trois.

- Le type de passe: passe dans les pieds, centre, remise de la tête, passe en profondeur dans le dos de la défense. Existe aussi la possibilité qu'il n'y ait pas de passeur, lorsque le ballon est perdu par l'adversaire ou mal renvoyé par le gardien. Dans la zone de danger, 14% des tirs consécutifs à un centre dans la finissent au fond des filets, les tirs qui suivent une passe en profondeur sont convertis dans 38% des cas, tandis que les tirs-rebonds, après un ballon repoussé par le gardien ou le poteau, sont convertis dans 41% des cas.

- Le type de situation: attaque placée ou contre-attaque, coup franc direct ou indirect, corner ou penalty. Les contre-attaques se terminant par un tir, situations particulièrement dangereuses, sont converties dans 39% des cas.

*Tous les pourcentages cités sans période précisée se basent sur les saisons 2013/2014 et 2014/2015 de Ligue 1.

 

D'autres modèles prennent également en compte la dynamique du match (l'équipe qui frappe mène-t-elle au score, et si oui, de combien de buts?), ainsi que le nombre de touches de balle réalisées par l'attaquant avant de tirer (plus les touches sont nombreuses, plus les défenseurs ont le temps de revenir gêner le tireur).

Dans l'ensemble, la construction du modèle n'est pas follement sophistiquée. C'est surtout la récupération des données qui pose problème aux statisticiens, lesquels doivent souvent se contenter de la data accessible au public (les fournisseurs de statistiques vendent des forfaits aux professionnels, clubs et médias, pour accéder à des outils plus poussés et privés). Des sites tels que WhoScored et Squawka sont ainsi très utiles.

Si la corrélation entre les ExpG et les buts réellement marqués est forte, certaines zones d'ombre demeurent. En premier lieu, la position des défenseurs au moment du tir, pas mesurée par les outils actuels. Tandis que les actions avec le ballon sont aisément prises en compte (dribbles, passes, tacles...), les déplacements des joueurs qui n'ont pas le ballon dans les pieds ne sont pas intégrés. Ces données devraient néanmoins exister dans un futur proche, grâce à la progression des technologies de tracking. En NBA, des caméras suivent ainsi les déplacements de tous les joueurs en permanence.

À quoi ça sert ?

Les Expected Goals sont avant tout une mesure de performance objective. Loin du score réel, parfois trompeur, et du "mérite", cette statistique évalue la capacité d'une équipe à se créer des occasions (et leur qualité) et sa propension à en conçéder. Ainsi, elle ignore les actions atteignant des zones dangereuses sans se conclure par un tir. C'est l'une de ses limites, et l'un des champs qui restent à explorer.

Les Expected Goals ont également un aspect prédictif. Si une équipe a inscrit dix buts sur les trois derniers matches alors qu'elle aurait dû en inscrire cinq, une baisse de forme peut être attendue. De même, si elle encaisse beaucoup de buts alors que sa performance ExpG indique qu'elle concède peu de tirs à haute probabilité de marquer, on peut imaginer qu'elle vit une période de malchance et que la routourne va finir par tourner. Les ExpG semblent à la fois être reproductibles d'une année à l'autre, et représentent pour l'instant l'un des meilleurs moyens de prédire les performances futures.

 

 

Le 14 décembre 2014, alors que Liverpool perdait 3-0 à Old Trafford, poursuivant son début de saison catastrophique, Michael Caley, pionnier des Expected Goals, publiait une "carte d'ExpG" qui promettait mieux aux Reds. Selon Caley, ce jour là, Liverpool, plus convaincant après être passé en 3-4-2-1, aurait dû battre Manchester United sur le score de 3,1 à 1,8. Depuis, fidèles à leur nouveau système de jeu, les hommes de Brendan Rodgers ont pris trente-trois points sur quarante-deux possibles.

Les statisticiens mettent en avant les Expected Goals en particulier lorsqu'un entraîneur est en danger, invitant les dirigeants de clubs à s'intéresser aux performances objectives de leurs équipes avant de licencier leur coach. Si d'autres difficultés autorité dans le vestiaire, motivation, communication peuvent justifier la mise à l'écart d'un technicien, vérifier qu'il ne s'agit pas simplement d'une mauvaise passe, d'un manque de réalisme, ne coûte rien. Et peut même éviter une indemnité de licenciement dispendieuse.

Rasmus Ankersen, à peine trente-deux ans, auteur de The Gold Mine Effect et président du FC Midtjylland, est un grand défenseur de l'utilisation de statistiques approfondies dans le football pour mieux le comprendre. "L'évaluation du modèle prévaut toujours sur notre place au classement dans le jugement de notre performance", explique-t-il.

Et quand on lui parle du succès de son club, largement leader, Ankersen apporte une nuance: "Le classement ment. Nous sommes la meilleure équipe du championnat cette saison, mais neuf points d'avance (devenus onze depuis) n'est pas un reflet juste de la différence entre nous et Copenhague. La différence, c'est que nous avons eu de la chance dans certains matches et qu'eux ont souffert de malchance. C'est ce que je ne cesse de répéter à nos entraîneurs: ne pensez pas qu'on est bons parce qu'on est premiers au classement. On est bons quand notre modèle estime qu'on est bons." Ankersen ne précise pas si le modèle en question implique les Expected Goals.

À l'échelle de la performance individuelle, les ExpG affichent moins de certitudes. Bien qu'ils soient fortement reproductibles par tranche de quatre-vingt-dix minutes, signifiant que les bons joueurs sont capables de se procurer régulièrement des occasions, c'est la conversion de celles-ci qui refuse la constance (en dehors de monstres comme Lionel Messi ou Cristiano Ronaldo).

Les fluctuations de conversion sont très nombreuses d'une année sur l'autre, même pour les meilleurs joueurs. Sur un échantillon de temps élargi, une hiérarchie apparaît, mais la prédiction de futures performances reste bancale, en particulier chez les jeunes joueurs. Les statisticiens tels que Caley sont d'ailleurs interloqués devant la saison d'Alexandre Lacazette, qui, selon leurs modèles, marque bien plus qu'il ne devrait.

Dépasser ses ExpG peut être la preuve d'un talent supérieur, d'un don pour la finition, mais à de tels niveaux, Caley estimait en janvier dernier qu'il s'agissait d'un passage très chanceux, et que les clubs intéressés devraient s'attendre à moins d'efficacité devant le but s'ils le recrutaient. Lacazette totalisait alors quatorze réalisations (hors penaltys) au lieu des sept qu'il "aurait dû" compter.

Exemples d'application et visualisations

Parmi les applications les plus courantes, l'ExpG Ratio, ExpG For / (ExpG For + ExpG Against), permet de définir la qualité offensive et défensive d'une équipe. Il peut être ensuite utilisé pour effectuer des simulations, que ce soit de matches particuliers ou d'une saison dans son entièreté. C'est un peu plus compliqué, à tel point qu'on évitera d'élaborer ici-même. 

Voici le tableau des Expected Goals concernant les équipes de Ligue 1 sur la saison 2014/2015.

 

[NDLR : image portée disparue, les recherches sont en cours]

 

Quelques remarques:

- Le Toulouse d'Alain Casanova était-il, comme Copenhague, malchanceux? Son ratio ExpG le place en tout cas beaucoup plus haut que dix-huitième, sa place actuelle au classement. Olivier Sadran a-t-il bien fait de licencier l'ancien gardien de but? Le ratio de l'ETG, bon dernier, peut aussi indiquer certaines difficultés du modèle ExpG dans la mesure de la performance, surtout chez les petits. 

- D'autant plus que le haut du classement ExpG correspond presque parfaitement à la réalité. Seul Lille vient gêner l'ordre entre les sept premiers. Le PSG, qui devrait être la meilleure attaque et la meilleure défense, pourrait finalement se diriger vers un titre de champion logique.

- Certaines tendances sont confirmées: Nantes ne sait pas attaquer mais défend bien, tout comme Lille; Monaco affiche un bilan très équilibré mais aurait sans doute dû encaisser plus de buts (21 dans la réalité). À moins que sa force défensive impressionnante ne soit justement là, défiant les chiffres? L'Olympique lyonnais profite de son côté d'une réussite folle, que le tableau suivant renforce encore.

Voici le même tableau, cette fois pour les joueurs (préparez-vous, ça peut vous bouleverser) :

 

 

Les Expected Goals restent un outil de mesure encore très jeune et faillible, quelque peu obscurci par le silence de ses créateurs (nombreux et aux modèles variables). Grâce à la communauté statistique autour du football, chaque jour plus large, sa précision devrait s'améliorer progressivement, en attendant que d'autres instruments éclairent encore un peu plus ce sport si complexe.

 

Pour aller plus loin:

- @MC_of_A (https://mcofa.wordpress.com)

- @11tegen11 (http://11tegen11.net)

- @colinttrainor (http://statsbomb.com)

- @SteMc74 (https://thestatattackblog.wordpress.com)

- @penaltyblog (http://pena.lt/y/blog.html)

 

Réactions

  • Zorro et Zlatan fouillent aux fiches le 31/03/2015 à 14h49
    Mmmh pas vraiment d'accord, la probabilité donne la loi qui gouverne un phénomène aléatoire a priori alors que la statistique est l'observation de ces phénomènes a posteriori. Le passage de l'un à l'autre n'est pas nécessairement une équivalence.

    50% des Parigots sont des têtes de veau par exemple (observation statistique) entraîne qu'un Parigot donné a 50% de chances d'être une tête de veau (en conditions parfaites d'échantillonnage). En revanche qu'un Parisien ait 50% de chances d'être une tête de chien n'implique pas que 50% des Parisiens sont des têtes de chien, parce dans ce cas l'échantillonnage est par nature arbitraire.

    Ou bien : on ne peut pas définir de modèle statistique à partir de probabilités sans grands nombres. Ce qui manque presque toujours dans le cas qui nous intéresse.

    Autrement dit, je suis d'accord sur la théorie mais le passage de la théorie à la pratique fait abstraction des éléments qui font que la science est la science (validation par les grands nombres dans ce cas), tout en invoquant le nom de la science pour imposer la validité de l'analyse.

    L'analyse peut très bien être correcte, cela dit, hein, j'ai juste un problème avec le processus scientifique sous-jacent.

  • Zorro et Zlatan fouillent aux fiches le 31/03/2015 à 14h50
    (je répondais à pbruneau)

  • Pascal Amateur le 31/03/2015 à 15h26
    Mais yapéno ou pas ?!

  • Zorro et Zlatan fouillent aux fiches le 31/03/2015 à 16h22
    Non car la main était volontairement le long du corps dans la surface. Mais carton rouge car dernier défenseur derrière la ligne des 22.

  • Hannibal le 31/03/2015 à 18h00
    Intéressant comme stat, je découvre.

    Ca ressemble un peu à des sondages quelque part non? A ceci prêt que l'on remplace la situation familiale, le niveau de revenu, et autres classifications (qui implique que pour cette "classe" de personne 10% vote PS, 10% vote UMP, 0.5% EELV, etc) par la position sur le terrain, le type de passe / dribble l'amenant à la position, et dans ce cas, le joueur lambda marque dans 25% des cas ou fait une assist dans 40%, par exemple.

    Et du coup effectivement, ça dépend du nombre d'échantillon, représentatif ou pas (méthode des quotas - je ne sais pas ce que ça veut dire dans le détail mais ça sonne bien) et du modèle utilisé, recalé ou pas suivant l'expérience des sondeurs (IPSOS, BVA, ...).

    En gros Lacazette qui score autant la première moitié de saison, c'est comme Hollande réélu dans 2 ans: fortement improbable. A ceci près que les sondages évoluent régulièrement, ce qui n'est pas le cas des dimensions d'un terrain de foot.

    Et le corollaire, c'est que ce modèle ira en toujours en s'affinant (en supposant une collecte des données fiable) et on pourra placer les joueurs sur une échelle de valeur, comme ils le font déjà d'ailleurs en parlant de "surperformer" ou "sousperformer".

    Passionnant pour les statisticiens, mais peut-être pas autant pour les amateurs de beau jeu tout court.

  • Vieux légume le 31/03/2015 à 19h25
    C'est sympa, c'est quelque chose qui attire mon attention, mais j'ai des remarques. Un peu des redites aussi, mais tant pis.
    L'objectivité de la classification, la question du référencement comme souligné par osvaldo, c'est évidemment un problème.

    Le ratio, c'est bien dans une saison très longue, aux nombres d'évenements massifs. (Typiquement utilisé au hockey, avec les occasions de marquer, nombreuses, dans une saison à 82 rencontres, ça monte très vite très haut.)
    Dans un championnat à 38 rencontres avec 2.5 buts par match, même avec un peu plus xG, c'est pas la même chanson, comme le dit Z&Z, c'est pas un échantillon énorme. Insuffisant en tout cas.

    Le classement est bancal, du coup. Lorient et Toulouse ont le même ratio, mais l'équipe (exemple TFC/OM) qui se déchire 8-2 xG dans une triste soirée sera en fait nettement plus compétitive que l'autre sur la saison.
    (Il y a aussi les effets de score qui entrent en compte IRL, mais pas pris dans l'analyse semble t-il).
    Bon, c'est utile pour repérer certaines anomalies tout de même, on voit que Thonon et Caen sont au-delà de la norme de façon assez distincte. (48 buts, c'est 20% de plus que la suivante tout de même !)

    La différence entre les xG et le nombre de buts réellement inscrits est bizarre aussi. On a une seule équipe au-delà des 40 pions alors qu'en vrai, on est quasiment à la moitié.

    Sinon, concernant les joueurs, il y a d'autres circonstances à prendre en compte.
    Par exemple à Lyon, c'est Lacazette ou Fékir ? Ou la relation entre les deux, qui justifie l'écart ?
    Impossible de quantifier ça. (enfin si, il faudrait un WOWY, mais au football, ça me semble pas pertinent)

    D'ailleurs, de par la taille de l'échantillon, encore, normalement, au niveau individuel, même les plus talentueux devraient revenir vers la moyenne au niveau de la conversion, bien qu'un résidu permettra de se séparer légèrement du paquet. Même Messi ou Ronaldo.




  • Marcus Lupus le 31/03/2015 à 20h39
    Justement l'intérêt n'est pas aussi de distinguer de manière "objective" ceux qui sont efficaces et ceux qui vendangent. On voit sur le tableau, beaucoup de joueurs au niveau du niveau moyen et à côté de ça, on a Cavani et Lavezzi qui sont bien en-deçà et Lacazette et Fekir bien au-dessus.

    Ca met des chiffres sur des impressions visuelles, et peut-être que cela permet de voir les attaquants qui sortent du lot et ceux qui seraient à "éviter".

    Du coup ça serait intéressant de voir le ratio de joueurs comme Trezeguet, Inzaghi... sur qui ont peut s'appuyer vu que leur carrière est finie, voire si leur réputation se traduit statistiquement.

  • forezjohn le 01/04/2015 à 11h32
    Marcus Lupus
    31/03/2015 à 20h39

    Justement l'intérêt n'est pas aussi de distinguer de manière "objective" ceux qui sont efficaces et ceux qui vendangent. On voit sur le tableau, beaucoup de joueurs au niveau du niveau moyen et à côté de ça, on a Cavani et Lavezzi qui sont bien en-deçà et Lacazette et Fekir bien au-dessus.

    Ca met des chiffres sur des impressions visuelles, et peut-être que cela permet de voir les attaquants qui sortent du lot et ceux qui seraient à "éviter".

    Du coup ça serait intéressant de voir le ratio de joueurs comme Trezeguet, Inzaghi... sur qui ont peut s'appuyer vu que leur carrière est finie, voire si leur réputation se traduit statistiquement.
    --------------------------------------------

    Sauf que comme je comprends les choses : les surperformances d'un joueur son par rapport à son propre potentiel, qui lui meme est déterminé par ses performances passées.
    Se pose alors la question de savoir si un joueur est réellement en surégime à un instant t ou s'il a progressé/était précédemment en sous-régime.

  • ESD.3 le 01/04/2015 à 12h50
    forezjohn
    aujourd'hui à 11h32

    Sauf que comme je comprends les choses : les surperformances d'un joueur son par rapport à son propre potentiel, qui lui meme est déterminé par ses performances passées.
    ------------------------------

    Non, les sur-performances d'un joueur le sont par rapport aux occasions créées.

    Typiquement, dans le cas de Lacazette, tous les buts qu'il a mis sur des frappes de relativement loin (donc avec un xG assez faible) le font sur-performer : il est en dessous de 10 buts en xG et a 17 en réalité.

    La derniere colonne du tableau, c'est vraiment une mesure du réalisme par rapport aux occasions, pas un indicateur sur le passe ou la forme du joueur.

    Autrement dit, tous les gens qui se plaignent que "Cavani il croque trop" ne sont pas des footix, mais des experts a l'oeil aiguisé

La revue des Cahiers du football