auteur
Raphaël Cosmidis et Julien Assuncao

Les « Expected Goals », au cœur de la révolution statistique

Envahi par les statistiques mais pas toujours par les bonnes, le football a vu son traitement s'américaniser. Pour faire avancer le schmilblick, il fallait présenter la dernière stat' à la mode : les "Expected Goals".


PCarnehan

31/03/2015 à 02h12

Passionnant, vraiment. Et amusant. Je suis très étonné, par exemple, de la similarité des probabilités de marquer (et d'encaisser) de Monaco et Sainté, tant les les styles et projet de jeu sont distincts. Et pourtant le classement « réel » correspond à celui des Expected Goals. A contrario je ne suis pas surpris par Évian, bon dernier. Soporifique en toutes choses. Mais bon, là, pour expliquer la différence xG Ratio/L1 réel, il faudrait intégrer un facteur « menaces diverses et violences verbales proférées par l'entraîneur à l'encontre de ses joueurs ». Pas facile à quantifier. Sinon, ça existe pour les gardiens ? Question de savoir si Coupet l'aurait arrêté.

osvaldo piazzolla

31/03/2015 à 05h57

Cet article tombe à pic pour moi pour réagir parce que j'ai raté l'occasion de faire un comm super intelligent sur l'artcile récent de Philippe Gargov (us et abus de la data), et en plus les "expected goals" sont l'exemple rêvé, parce que controversiaux. d'abord je vous fais le TL;DR Attention! ce n'est pas seulement le TRAITEMENT des données qui peut être sujet à caution (par exemple en confondant corrélation et causalité), c'est la donnée même qui est CONSTRUITE, aussi bien dans sa définition que dans sa production. Donnée objective, donnée brute, etc... sont des chimères, des mythologies du big data, de la politique des algorithmes, ou même la gouvernementalité algorithmique comme dirait Antoinette Rouvroy. Ensuite trois références pour donner le cadre scientifique sur lequel je m'appuie: Raw Data is an oxymoron http://mitpress.mit.edu/books/raw-data-oxymoron Politique des algorithmes http://www.cairn.info/revue-reseaux-2013-1.htm Une interview d'Antoinette Rouvroy dans rue89 http://rue89.nouvelobs.com/2015/03/28/moins-systeme-totalitaire-sait-a-quoi-a-affaire-258343 Il s'agit donc de "science studies". L'activité scientifique, la mesure, la collecte de données, la modélisation ne sont pas des activités "neutres". La production des données contient les valeurs que le producteur, le collecteur, l'organisateur de la collecte, le directeur du marketing de l'entreprise qui organise la collecte, etc...mettent dedans. Particulièrement dans le monde du Football (et je me réfère à "The adolescence of soccer stats"), le marché influe sur le mode de production. Et il ne s'agit pas de n'importe quel marché, il s'agit d'un marché avec une culture du secret. Le business model des entreprises est de réserver ses meilleures analyses à ceux qui sont prêts à payer cher (ou à Brentford), donc la production n'est pas transparente. Reproductibilité compliquée. C'est encore pire pour la définition. ExG est un facteur certainement intéressant. Problème: il y a mille manières de le définir, ces mille définitions, sont liés à mille façons de produire les données, mille visions de ce qu'est une occasion de but, mille façons de quadriller le terrain, mille facteurs à prendre en compte, les passes, la position de la défense... Pour que la précision du facteur "s'améliore progressivement", un cercle épistémologique vertueux serait d'ouvrir. benchmarker. comparer les résultats les uns aux autres. Procéder par retouches. Créer une communauté avec un but commun. des standards. Mais Brentford achète Knudson. L'enjeu du prix des transferts des joueurs incite à acheter des exclusivités. Culture du secret. Compétitivité. Etre le premier sur le marché. Bonne chance pour améliorer ExG collégialement.

Zidanopoulos

31/03/2015 à 06h13

D'accord avec tout ce que tu dis osvaldo, ce sont des risques pour le futur. Sur le sujet, Richard Whittall a d'ailleurs écrit un très bon article. http://www.21stclub.com/blog/2015/3/24/trouble-ahead-in-football-analytics

Sens de la dérision

31/03/2015 à 09h30

Merci pour l'article et merci aussi pour les commentaires ci-dessus. Ce qui me paraît absolument énorme c'est le recueil des données, surtout quand on n'est apparemment pas payé pour ça.

Zorro et Zlatan fouillent aux fiches

31/03/2015 à 10h40

"Les Expected Goals sont avant tout une mesure de performance objective" "Les Expected Goals ont également un aspect prédictif" Ces deux phrases résument bien à mon sens les dérives de l'usage des statistiques, qui proviennent pour une grosse part de la confusion entre statistiques et probabilités. Les ExpG sont une statistique, mais leur nom et leur usage laissent penser qu'il s'agit d'une probabilité. Le problème c'est que le passage de l'un à l'autre n'est pas complètement trivial et que si l'analyse a posteriori peut se faire moyennant une bonne méthodologie (corrélation tout ca), la prédiction a priori n'a aucune valeur analytique. Si une équipe a x% de chances de marquer un but, qu'elle marque ou pas, one ne peut RIEN en conclure. La réalisation d'une probabilité est contingente. C'est là ou les médias se plantent en voulant absolument donner du sens à des chiffres qui n'en ont pas.

pbruneau

31/03/2015 à 12h58

Je me permets une petite précision : "Les ExpG sont une statistique, mais leur nom et leur usage laissent penser qu'il s'agit d'une probabilité." D'après ce que j'ai lu, ExpG n'est pas une statistique, mais comme son nom l'indique une "expected value", soit l'espérance mathématique du nombre de buts sur une période donnée de la loi de probabilité de marquer conditionnée à (position sur le terrain / défenseurs / etc). Ca a donc bien valeur d'une prédiction (au sens des moindres carrés). Cependant toutes les autres remarques restent valides - en particulier sur la nature et la construction de cette fameuse distribution magique, et le recueil des données associées.

pbruneau

31/03/2015 à 13h00

Coquille: lire "[...] période donnée selon la loi de probabilité". Je me permets la précision car la phrase est un peu tordue.

Zorro et Zlatan fouillent aux fiches

31/03/2015 à 13h27

Au temps pour moi alors, merci de cette précision. Cela dit, dans ce cas, on peut retourner ma remarque précédente et se demander pourquoi une probabilité est parfois utilisée comme une statistique.

pbruneau

31/03/2015 à 14h24

Les deux sont liées: dans le jargon, une statistique est en général l'estimateur d'un paramètre (ou pour être précis, d'un "moment" dans le cas d'une espérance). En gros: j'ai un modèle théorique, et j'utilise les data à ma disposition pour "régler" ce modèle théorique. Je conviens que tout cela est bien subtil (et probablement flou) - si il faut en retenir une chose, c'est qu'une statistique fait implicitement référence à une probabilité.

forezjohn

31/03/2015 à 14h31

pbruneau aujourd'hui à 12h58 Je me permets une petite précision : "Les ExpG sont une statistique, mais leur nom et leur usage laissent penser qu'il s'agit d'une probabilité." D'après ce que j'ai lu, ExpG n'est pas une statistique, mais comme son nom l'indique une "expected value", soit l'espérance mathématique du nombre de buts sur une période donnée de la loi de probabilité de marquer conditionnée à (position sur le terrain / défenseurs / etc). Ca a donc bien valeur d'une prédiction (au sens des moindres carrés). Cependant toutes les autres remarques restent valides - en particulier sur la nature et la construction de cette fameuse distribution magique, et le recueil des données associées. ------------------------------------------- Oui, mais le problème persiste : on collecte les données passées pour "prédire" l'avenir. Cette un exercice qui ne manque pas d’intérêt mais qui finit toujours montrer ses limites.

 

Zorro et Zlatan fouillent aux fiches

31/03/2015 à 14h49

Mmmh pas vraiment d'accord, la probabilité donne la loi qui gouverne un phénomène aléatoire a priori alors que la statistique est l'observation de ces phénomènes a posteriori. Le passage de l'un à l'autre n'est pas nécessairement une équivalence. 50% des Parigots sont des têtes de veau par exemple (observation statistique) entraîne qu'un Parigot donné a 50% de chances d'être une tête de veau (en conditions parfaites d'échantillonnage). En revanche qu'un Parisien ait 50% de chances d'être une tête de chien n'implique pas que 50% des Parisiens sont des têtes de chien, parce dans ce cas l'échantillonnage est par nature arbitraire. Ou bien : on ne peut pas définir de modèle statistique à partir de probabilités sans grands nombres. Ce qui manque presque toujours dans le cas qui nous intéresse. Autrement dit, je suis d'accord sur la théorie mais le passage de la théorie à la pratique fait abstraction des éléments qui font que la science est la science (validation par les grands nombres dans ce cas), tout en invoquant le nom de la science pour imposer la validité de l'analyse. L'analyse peut très bien être correcte, cela dit, hein, j'ai juste un problème avec le processus scientifique sous-jacent.

Le forum

Paris est magique

aujourd'hui à 11h59 - Classico : C'est incroyable Tuchel, il a été tout simplement fabuleux de son arrivée au club jusqu'au match... >>


Café : "Au petit Marseillais"

aujourd'hui à 11h52 - Mevatlav Ekraspeck : Confondre sa cartomancienne et son dealer, c’est mal. >>


Aux Niçois qui manigancent

aujourd'hui à 11h32 - Joswiak bat le SCO : Pas d'Augustin donc ? >>


Fussball chez nos cousins germains

aujourd'hui à 11h24 - Knacklexander Vencel : En parlant de l'Union, une initiative assez classe quand même : https://bit.ly/2KH55fj >>


Changer l'arbitrage

aujourd'hui à 11h23 - Joswiak bat le SCO : Sur ce match précis, tu rajoutes les deux jaunes de Coly, l'action TRES litigieuse sur Alakouch,... >>


Foot et politique

aujourd'hui à 11h12 - Utaka Souley : C'aurait pu être pire, il aurait pu décider de l'envahir tranquillement. >>


Habitus baballe

aujourd'hui à 11h10 - Utaka Souley : Matu-Verratti-Vieira-Touré-Clément-Cearàaujourd'hui à 01h13[...] Il y constamment ce compromis... >>


Lost horizons

aujourd'hui à 10h45 - forezjohn : Ca tombe bien j'ai utilisé les 2 début juillet.Le Roma pass donne des accès gratuits pour 2... >>


En rouge et noir !

aujourd'hui à 10h43 - Beau gosse chiant : Kireg18/08/2019 à 23h18---une pépite en or massif, le Cama !Canal affichait ses stats de passes... >>


En Vert et contre tout

aujourd'hui à 10h21 - forezjohn : Bon mes 2 centimes sur le match d'hier.Je pense que le tournant du match c'est la sortie d' Aholou... >>


Les brèves

Je crois que bon bon

"Laurent Blanc à Lyon, ça ne colle pas pour deux raisons" (foot01.com)

Aucun

"Euro U17 : qui sont les joueurs majeurs de l'équipe de France ?"

Autobiographie

"Ribéry : Des débuts fracassants." (lequipe.fr)

Ô Pep !

"Un pays africain rêve de Bruno Genesio !" (dailymercato.com)

Ruuuuuuuuuuuuuuuuuuud van Nistelrooy

"PSV Eindhoven : Ruud van Nistelrooy prolonge sur le banc des U19." (lequipe.fr)