auteur
Ali Triple Zéro (avec Nicolas. P)

> article suivant

Trente-cinq

> article précédent

Danzé maintenant !

Limites et distorsions statistiques

De Mark Twain à la justice américaine en passant par Javier Pastore, essai critique sur les biais des statistiques. Parce que les chiffres mentent aussi, n'en déplaise aux footballogues. 

Partager

 

"Il y a trois sortes de mensonges: les mensonges, les affreux mensonges, et les statistiques." Ainsi s'exprimait Mark Twain dans un contexte que j'ignore et qui nous importe finalement assez peu. Toujours est-il que les gens ayant suivi un cours d'introduction aux statistiques à l'université ont de grande chance de l'avoir déjà lue ou entendue. Personnellement, j'aime à penser que Mark Twain répondait à un détracteur de Javier Pastore qui affirmait avec dédain que ce dernier avait marqué moins de but que Corentin Tolisso, ou qu'il avait fait moins de passes décisives que Dimitri Payet.

 

Évidemment, je pense que Mark Twain n'avait rien contre Tolisso ou Payet. Il voulait simplement que l'on considère avec prudence les indicateurs statistiques qui ne font que refléter assez médiocrement la réalité sur le terrain. Mark Twain pensait sans doute que le football était un peu plus complexe que ça. Plus généralement, quand il entend des politiciens ou des analystes dans divers domaines dire que "les chiffres ne mentent pas", Mark Twain, comme le statisticien lambda, a tendance à lever un sourcil suspicieux.

 

 

 

Les chiffres ne mentent pas

Les chiffres, en effet, sont souvent de vilains menteurs. Prenons un célèbre exemple pour illustrer ce fait. Le 11 mars 1979, le New York Times publie les données concernant 4.764 homicides perpétrés en Floride entre 1973 et 1979. Les variables considérées sont la couleur de peau du meurtrier, blanc ou noir, et la condamnation à la fin du jugement, peine de mort, ou pas peine de mort. Les chiffres en question étaient les suivants:

 

 

L'idée était de savoir qui des blancs ou des noirs étaient le plus souvent condamnés à mort et, plus généralement, s'il y avait un problème de racisme dans la justice américaine. Petit exercice dont le calcul est fort simple: il y a 72 blancs condamnés à mort parmi 2.257 meurtriers blancs: 3,19% des meurtriers blancs sont condamnés à mort. Il y a 59 noirs condamnés à mort parmi 2507 meurtriers noirs: 2,35% des meurtriers noirs sont condamnés à mort.

 

Comme 2,35% < 3,19%, la réponse est limpide: les meurtriers blancs sont plus sévèrement punis que les meurtriers noirs. La justice américaine n'était pas raciste. Non monsieur. Non, n'insistez pas on vous dit, les chiffres ne mentent pas.

 

Ces éléments ont été abondamment récupérés, souvent pour défendre le point de vue d'une justice égalitaire, voire plus sévère avec les blancs. Évidemment, comme on peut l'imaginer quand on a une vague idée du contexte aux États-Unis dans les années 70, il manquait quelque chose. Si l'on complétait ce premier tableau avec la couleur de peau de la victime, voici ce que l'on obtenait:

 

 

En refaisant les calculs, on obtient :

 

- En se restreignant au cas où la victime est blanche :
Il y a 72 meurtriers blancs condamnés à mort sur 2.146 meurtriers de victimes blanches, soit 3,36% des meurtriers. Pour les meurtriers noirs de victimes blanches il y 48 condamnés à mort sur 287 jugés soit 16,72%. Incontestablement 16,72 % > 3,36%, donc si la victime est blanche, les meurtriers noirs sont beaucoup plus sévèrement punis que les meurtriers blancs.

 

- En se restreignant au cas où la victime est noire :
Il y a 0 meurtrier blanc qui condamné à mort pour 111 jugés, soit 0% de condamnation à mort. Il y a 11 condamnés à mort parmi les 2.310 meurtriers noirs jugés soit 0,48% de condamnation à mort. Il apparaît donc que 0,48% > 0%, et que si la victime de l'homicide est noire, la justice de Floride condamne plus souvent les meurtriers noirs à la peine de mort que les meurtriers blancs.

 

Sans aller plus loin dans l'interprétation de ces chiffres, ceci est un cas de ce qu'on appelle paradoxe de Simpson: en cachant une variable, l'interprétation des chiffres peut mener bien loin de la réalité.

 

Et Javier Pastore dans tout ça? Si le parallèle vous semble peu évident, changeons légèrement les variables du tableau précédent pour obtenir celui-ci, moins glauque et purement imaginaire:

 

 

En faisant le calcul de manière aussi peu honnête que certains de nos amis de Floride il y a quelques décennies, on aboutit à la conclusion que le pourcentage de passes décisives de Javier Pastore est inférieur à celui de Joueur X. Pourtant, si on s'intéresse au nombre de joueurs qui marquent le passeur, on se rend compte que Pastore a un meilleur taux de réussite que Joueur X quand plusieurs joueurs les marquent à la ceinture, et un meilleur taux de réussite de Joueur X quand ils sont laissés plus libres de leurs mouvement.

 

Un autre cas du paradoxe de Simpson, qu'on pourrait expliquer par le fait que Pastore est plus souvent opposé à des adversaires qui l'empêchent d'évoluer librement que Joueur X. Ce que la stat de base ne dit pas. En effet, pendant que Pastore est marqué par plusieurs adversaires, ses coéquipiers, eux, sont beaucoup plus libres. Les partenaires de Joueur X n'ont pas cette chance.

 

On peut interpréter l'exemple précédent comme une tentative maladroite de défendre l'Argentin. Imaginons alors une troisième variable: la qualité des coéquipiers de Pastore et Joueur X. On pourrait obtenir un tableau voulant dire tout à fait autre chose. Joueur X renverserait peut-être la tendance: lui n'a pas la chance d'évoluer aux côtés d'attaquants de classe mondiale capables de transformer des ballons en buts. On pourrait ajouter à ce tableau des centaines d'autres variables sans que le résultat ne soit concluant. Rien ne sert de les empiler: une analyse humaine objective, provenant d'un analyste compétent, vaudra toujours plus qu'un tableau de statistiques.

 

Comparer des joueurs selon n'importe quelle base statistique (et seulement une base statistique) n'a pas beaucoup de sens. Quels que soient les joueurs et les variables considérés, les statistiques ne restent qu'une image grossière et simplificatrice de la réalité. Il est d'autant plus triste de voir, parfois, l'analyse tactique se transformer en analyse statistique, à la rigueur mathématique plus que douteuse.

 

 

Quantifier l'inquantifiable

Le football, comme tous les domaines où les interactions entre les hommes sont nombreuses, ne peut se résumer en quelques dizaines, ou quelques centaines, de variables. Une interprétation humaine, qui essaye d'être objective, sera toujours plusieurs fois plus intéressante qu'une analyse basée uniquement sur les chiffres. Les chiffres, par nature, traduisent des éléments quantifiables, mais il y en a bien d'autres qu'ils ne peuvent retranscrire: comment, en effet, mesurer le placement d'un défenseur ou d'un milieu? Un joueur qui n'effectue aucun tacle par match, ou ne récupère que peu de ballons, n'est-il pas précisément un joueur si bien positionné qu'il n'a pas besoin d'intervenir, coupant plusieurs lignes de passe et permettant ainsi à ses coéquipiers de récupérer le cuir plus facilement? C'est en général le jeu sans ballon et son influence sur le match et le score que les chiffres peinent encore à prendre en compte.

 

Si l'on aime les citations, il faut se répéter ce que disait notre ami Louis Armand: "Les statistiques, c'est comme le bikini, ce qu'elles dévoilent est intéressant, mais elles laissent caché l'essentiel." Quoique les statistiques disent aussi parfois la vérité. Si Messi a de meilleures stats que Djilobodji, c'est sans doute une image assez fidèle de ce qu'il se passe sur un terrain.

 

Les statistiques en général nous fournissent souvent des indicateurs intéressants, à condition de les utiliser avec prudence, et garder à l'esprit que le problème des chiffres, c'est qu'on leur fait dire ce que l'on veut. Ils font fi du contexte. Ils ne sont pas intelligents. Il suffit de regarder la bonne variable, d'effacer les autres, et le tour est joué. Dans le football comme ailleurs. "La majorité des trafiquants sont noirs et arabes", disait Mark Twain après plusieurs verres de whisky. Mais Mark Twain oubliait ce qu'il savait des statistiques quand il buvait trop de whisky. Il s'appuyait aussi un peu trop sur des citations apocryphes.

 

Lire aussi :
- Les "Expected Goals", au coeur de la révolution statistique
- Us et abus de la data
- La loi statistique qui démontre la supériorité du football
- Peut-on vraiment faire dire n'importe quoi à une statistique?
- Passer aux stats supérieures

 

Partager

Le jeu, les joueurs, les entraîneurs


La rédaction
2019-10-21

« Contredire l'idée que le 10 aurait disparu »

Pour la sortie de L'Odyssée du 10, nous avons posé dix questions à ses auteurs. Ils ont distribué les transversales. 


Philippe Rodier
2019-10-10

Real, OL : quel est le bon moment pour arriver sur un banc ?

S'il veut que son banc soit un fauteuil et non un siège éjectable, un entraîneur a intérêt à s'y installer dans le bon timing. Soit, pour le futur coach de l'OL, plutôt celui de Zidane que de Benitez à Madrid.


Les Dé-Managers
2019-10-08

“L’Odyssée du 10”, un livre au cœur du jeu

Troisième ouvrage des Dé-Managers, L’Odyssée du 10 (sortie le 24/10) propose une plongée dans le mythe et l'histoire technico-tactique du numéro 10.


>> tous les épisodes du thème "Le jeu, les joueurs, les entraîneurs"


Les brèves

Je crois que bon bon

"Laurent Blanc à Lyon, ça ne colle pas pour deux raisons" (foot01.com)

Aucun

"Euro U17 : qui sont les joueurs majeurs de l'équipe de France ?"

Autobiographie

"Ribéry : Des débuts fracassants." (lequipe.fr)

Ô Pep !

"Un pays africain rêve de Bruno Genesio !" (dailymercato.com)

Ruuuuuuuuuuuuuuuuuuud van Nistelrooy

"PSV Eindhoven : Ruud van Nistelrooy prolonge sur le banc des U19." (lequipe.fr)