auteur
Raphaël Cosmidis et Julien Assuncao

Les « Expected Goals », au cœur de la révolution statistique

Envahi par les statistiques mais pas toujours par les bonnes, le football a vu son traitement s'américaniser. Pour faire avancer le schmilblick, il fallait présenter la dernière stat' à la mode : les "Expected Goals".


PCarnehan

31/03/2015 à 02h12

Passionnant, vraiment. Et amusant. Je suis très étonné, par exemple, de la similarité des probabilités de marquer (et d'encaisser) de Monaco et Sainté, tant les les styles et projet de jeu sont distincts. Et pourtant le classement « réel » correspond à celui des Expected Goals. A contrario je ne suis pas surpris par Évian, bon dernier. Soporifique en toutes choses. Mais bon, là, pour expliquer la différence xG Ratio/L1 réel, il faudrait intégrer un facteur « menaces diverses et violences verbales proférées par l'entraîneur à l'encontre de ses joueurs ». Pas facile à quantifier. Sinon, ça existe pour les gardiens ? Question de savoir si Coupet l'aurait arrêté.

osvaldo piazzolla

31/03/2015 à 05h57

Cet article tombe à pic pour moi pour réagir parce que j'ai raté l'occasion de faire un comm super intelligent sur l'artcile récent de Philippe Gargov (us et abus de la data), et en plus les "expected goals" sont l'exemple rêvé, parce que controversiaux. d'abord je vous fais le TL;DR Attention! ce n'est pas seulement le TRAITEMENT des données qui peut être sujet à caution (par exemple en confondant corrélation et causalité), c'est la donnée même qui est CONSTRUITE, aussi bien dans sa définition que dans sa production. Donnée objective, donnée brute, etc... sont des chimères, des mythologies du big data, de la politique des algorithmes, ou même la gouvernementalité algorithmique comme dirait Antoinette Rouvroy. Ensuite trois références pour donner le cadre scientifique sur lequel je m'appuie: Raw Data is an oxymoron http://mitpress.mit.edu/books/raw-data-oxymoron Politique des algorithmes http://www.cairn.info/revue-reseaux-2013-1.htm Une interview d'Antoinette Rouvroy dans rue89 http://rue89.nouvelobs.com/2015/03/28/moins-systeme-totalitaire-sait-a-quoi-a-affaire-258343 Il s'agit donc de "science studies". L'activité scientifique, la mesure, la collecte de données, la modélisation ne sont pas des activités "neutres". La production des données contient les valeurs que le producteur, le collecteur, l'organisateur de la collecte, le directeur du marketing de l'entreprise qui organise la collecte, etc...mettent dedans. Particulièrement dans le monde du Football (et je me réfère à "The adolescence of soccer stats"), le marché influe sur le mode de production. Et il ne s'agit pas de n'importe quel marché, il s'agit d'un marché avec une culture du secret. Le business model des entreprises est de réserver ses meilleures analyses à ceux qui sont prêts à payer cher (ou à Brentford), donc la production n'est pas transparente. Reproductibilité compliquée. C'est encore pire pour la définition. ExG est un facteur certainement intéressant. Problème: il y a mille manières de le définir, ces mille définitions, sont liés à mille façons de produire les données, mille visions de ce qu'est une occasion de but, mille façons de quadriller le terrain, mille facteurs à prendre en compte, les passes, la position de la défense... Pour que la précision du facteur "s'améliore progressivement", un cercle épistémologique vertueux serait d'ouvrir. benchmarker. comparer les résultats les uns aux autres. Procéder par retouches. Créer une communauté avec un but commun. des standards. Mais Brentford achète Knudson. L'enjeu du prix des transferts des joueurs incite à acheter des exclusivités. Culture du secret. Compétitivité. Etre le premier sur le marché. Bonne chance pour améliorer ExG collégialement.

Zidanopoulos

31/03/2015 à 06h13

D'accord avec tout ce que tu dis osvaldo, ce sont des risques pour le futur. Sur le sujet, Richard Whittall a d'ailleurs écrit un très bon article. http://www.21stclub.com/blog/2015/3/24/trouble-ahead-in-football-analytics

Sens de la dérision

31/03/2015 à 09h30

Merci pour l'article et merci aussi pour les commentaires ci-dessus. Ce qui me paraît absolument énorme c'est le recueil des données, surtout quand on n'est apparemment pas payé pour ça.

Zorro et Zlatan fouillent aux fiches

31/03/2015 à 10h40

"Les Expected Goals sont avant tout une mesure de performance objective" "Les Expected Goals ont également un aspect prédictif" Ces deux phrases résument bien à mon sens les dérives de l'usage des statistiques, qui proviennent pour une grosse part de la confusion entre statistiques et probabilités. Les ExpG sont une statistique, mais leur nom et leur usage laissent penser qu'il s'agit d'une probabilité. Le problème c'est que le passage de l'un à l'autre n'est pas complètement trivial et que si l'analyse a posteriori peut se faire moyennant une bonne méthodologie (corrélation tout ca), la prédiction a priori n'a aucune valeur analytique. Si une équipe a x% de chances de marquer un but, qu'elle marque ou pas, one ne peut RIEN en conclure. La réalisation d'une probabilité est contingente. C'est là ou les médias se plantent en voulant absolument donner du sens à des chiffres qui n'en ont pas.

pbruneau

31/03/2015 à 12h58

Je me permets une petite précision : "Les ExpG sont une statistique, mais leur nom et leur usage laissent penser qu'il s'agit d'une probabilité." D'après ce que j'ai lu, ExpG n'est pas une statistique, mais comme son nom l'indique une "expected value", soit l'espérance mathématique du nombre de buts sur une période donnée de la loi de probabilité de marquer conditionnée à (position sur le terrain / défenseurs / etc). Ca a donc bien valeur d'une prédiction (au sens des moindres carrés). Cependant toutes les autres remarques restent valides - en particulier sur la nature et la construction de cette fameuse distribution magique, et le recueil des données associées.

pbruneau

31/03/2015 à 13h00

Coquille: lire "[...] période donnée selon la loi de probabilité". Je me permets la précision car la phrase est un peu tordue.

Zorro et Zlatan fouillent aux fiches

31/03/2015 à 13h27

Au temps pour moi alors, merci de cette précision. Cela dit, dans ce cas, on peut retourner ma remarque précédente et se demander pourquoi une probabilité est parfois utilisée comme une statistique.

pbruneau

31/03/2015 à 14h24

Les deux sont liées: dans le jargon, une statistique est en général l'estimateur d'un paramètre (ou pour être précis, d'un "moment" dans le cas d'une espérance). En gros: j'ai un modèle théorique, et j'utilise les data à ma disposition pour "régler" ce modèle théorique. Je conviens que tout cela est bien subtil (et probablement flou) - si il faut en retenir une chose, c'est qu'une statistique fait implicitement référence à une probabilité.

forezjohn

31/03/2015 à 14h31

pbruneau aujourd'hui à 12h58 Je me permets une petite précision : "Les ExpG sont une statistique, mais leur nom et leur usage laissent penser qu'il s'agit d'une probabilité." D'après ce que j'ai lu, ExpG n'est pas une statistique, mais comme son nom l'indique une "expected value", soit l'espérance mathématique du nombre de buts sur une période donnée de la loi de probabilité de marquer conditionnée à (position sur le terrain / défenseurs / etc). Ca a donc bien valeur d'une prédiction (au sens des moindres carrés). Cependant toutes les autres remarques restent valides - en particulier sur la nature et la construction de cette fameuse distribution magique, et le recueil des données associées. ------------------------------------------- Oui, mais le problème persiste : on collecte les données passées pour "prédire" l'avenir. Cette un exercice qui ne manque pas d’intérêt mais qui finit toujours montrer ses limites.

 

Zorro et Zlatan fouillent aux fiches

31/03/2015 à 14h49

Mmmh pas vraiment d'accord, la probabilité donne la loi qui gouverne un phénomène aléatoire a priori alors que la statistique est l'observation de ces phénomènes a posteriori. Le passage de l'un à l'autre n'est pas nécessairement une équivalence. 50% des Parigots sont des têtes de veau par exemple (observation statistique) entraîne qu'un Parigot donné a 50% de chances d'être une tête de veau (en conditions parfaites d'échantillonnage). En revanche qu'un Parisien ait 50% de chances d'être une tête de chien n'implique pas que 50% des Parisiens sont des têtes de chien, parce dans ce cas l'échantillonnage est par nature arbitraire. Ou bien : on ne peut pas définir de modèle statistique à partir de probabilités sans grands nombres. Ce qui manque presque toujours dans le cas qui nous intéresse. Autrement dit, je suis d'accord sur la théorie mais le passage de la théorie à la pratique fait abstraction des éléments qui font que la science est la science (validation par les grands nombres dans ce cas), tout en invoquant le nom de la science pour imposer la validité de l'analyse. L'analyse peut très bien être correcte, cela dit, hein, j'ai juste un problème avec le processus scientifique sous-jacent.

Sur le fil

Démonstration d’hypocrisie concertée de Ceferin (UEFA) et d’Agnelli (ECA). Le premier dit qu’il n’y aura jamais de… https://t.co/7HC9Rp1Kpg

RT @JulienMomont: Extraits de l'entretien 100% jeu avec Jürgen Klopp diffusé hier dans Footissime : - sur le pressing, "manière la plus éc…

RT @calciomio: ARTICLE 🖋️ | 👤 @sebastienmadau « Mais que sont-ils aller arborer le maillot d’une équipe pittoresquement baptisée les Chica…

Les Cahiers sur Twitter

Le forum

Etoiles et toiles

aujourd'hui à 16h15 - blafafoire : J'ai enfin trouvé à quel film me fait penser le gilets jaunes. À Pompoko.Quand je vois les gars... >>


Toujours Bleus

aujourd'hui à 16h11 - le Bleu : Toi tu serais du genre donner une wildcard à Chelsea pour la Ligue des Champions même s'ils... >>


Le fil dont vous êtes le héros

aujourd'hui à 15h57 - Koller et Thil : Pour faire très court, le roi sera presque toujours mieux sécurisé dans la nasse que laissé au... >>


Foot et politique

aujourd'hui à 15h37 - Portnaouac : (tiens puisque tu es là : une question t'est adressée sous le dernier vidéodrome) >>


In barry we trust

aujourd'hui à 15h23 - Run : Classement des defenses:3. Bears6. Steelers16. Saints23. Pats29. Rams32. ChiefsAttaques:1. Rams2.... >>


Ligue des nations

aujourd'hui à 14h49 - Espinas : J'ai involontairement lancé ce débat. Ce qui me faisait réagir c'est que la Suisse avait une... >>


Coupe de France

aujourd'hui à 13h12 - Hydresec : Tonton Danijelaujourd'hui à 00h02Et Marama Vahirua (38 ans) a participé à ce tour avec le club... >>


Bréviaire

aujourd'hui à 10h23 - Pascal Amateur : Défonce à plat "Un ouvrier est mort lundi à Toulouse, écrasé par une palette de parpaing... >>


Sport et santé

aujourd'hui à 09h08 - Markov Erratique : C'est bien gentil ce compte rendu de golden boy aux talons d'airains, sanctifié par garmin et... >>


Dans le haut du panier

aujourd'hui à 03h11 - Tricky : Kemba Walker se tape Jimmy Butler puis Marcus Smart, et rentre 100 points en deux matchs. >>


Les brèves

Chapecoense 2

"Foot - L1 : Inattendu sommet." (lequipe.fr)

Futur taulier

"Neymar risque jusqu'à 6 ans de prison." (ouest-france.fr)

Ruddy Bukkake

"Arbitrage : ‘J'en ai pris plein la tronche’." (lequipe.fr)

Droit au mur

“OM : Une attaque sans tête.” (lequipe.fr)

Mou Walk

"Le car de MU encore bloqué, Mourinho finit à pied." (lequipe.fr)