Seuls 36% des internautes parviennent à saisir leur e-mail / password du premier coup. En feras-tu partie ? Attention à ne pas confondre vos minuscules et vos majuscules.
Vous avez oublié votre mot de passe ?
Inscription
Vous avez oublié votre mot de passe ? Il reste un espoir ! Saisissez votre adresse e-mail ; nous vous enverrons un nouveau mot de passe. Cette procédure est quasiment gratuite : elle ne vous coûtera qu'un clic humiliant.
Nous vous avons envoyé un email sur votre adresse, merci d'y jeter un oeil !

CONDITIONS D'INSCRIPTION :

1. Vous devez nous adresser, via le formulaire ci-dessous, un texte (format .txt inférieur à 100 ko) en rapport avec le football, dont la forme est libre : explication de votre passion, anecdote, aventure, souvenir, essai, commentaire composé, portrait, autobiographie, apologie, réquisitoire, etc. Vous serez ensuite informés de la validation de votre inscription par mail. Les meilleurs textes seront mis en ligne sur le Forum.

2. Nous ne disposons pas d'assez de temps pour justifier les retards d'inscription ou les non-inscriptions, et ne pouvons pas nous engager à suivre une éventuelle correspondance à ce sujet. Merci de votre compréhension.

Nous avons bien reçu votre candidature, on y jette un oeil dès que possible. Merci !

Partager :

Limites et distorsions statistiques

De Mark Twain à la justice américaine en passant par Javier Pastore, essai critique sur les biais des statistiques. Parce que les chiffres mentent aussi, n'en déplaise aux footballogues. 

Auteur : Ali Triple Zéro (avec Nicolas. P) le 20 Mai 2015

 

 

"Il y a trois sortes de mensonges: les mensonges, les affreux mensonges, et les statistiques." Ainsi s'exprimait Mark Twain dans un contexte que j'ignore et qui nous importe finalement assez peu. Toujours est-il que les gens ayant suivi un cours d'introduction aux statistiques à l'université ont de grande chance de l'avoir déjà lue ou entendue. Personnellement, j'aime à penser que Mark Twain répondait à un détracteur de Javier Pastore qui affirmait avec dédain que ce dernier avait marqué moins de but que Corentin Tolisso, ou qu'il avait fait moins de passes décisives que Dimitri Payet.

 

Évidemment, je pense que Mark Twain n'avait rien contre Tolisso ou Payet. Il voulait simplement que l'on considère avec prudence les indicateurs statistiques qui ne font que refléter assez médiocrement la réalité sur le terrain. Mark Twain pensait sans doute que le football était un peu plus complexe que ça. Plus généralement, quand il entend des politiciens ou des analystes dans divers domaines dire que "les chiffres ne mentent pas", Mark Twain, comme le statisticien lambda, a tendance à lever un sourcil suspicieux.

 

 

 

Les chiffres ne mentent pas

Les chiffres, en effet, sont souvent de vilains menteurs. Prenons un célèbre exemple pour illustrer ce fait. Le 11 mars 1979, le New York Times publie les données concernant 4.764 homicides perpétrés en Floride entre 1973 et 1979. Les variables considérées sont la couleur de peau du meurtrier, blanc ou noir, et la condamnation à la fin du jugement, peine de mort, ou pas peine de mort. Les chiffres en question étaient les suivants:

 

 

L'idée était de savoir qui des blancs ou des noirs étaient le plus souvent condamnés à mort et, plus généralement, s'il y avait un problème de racisme dans la justice américaine. Petit exercice dont le calcul est fort simple: il y a 72 blancs condamnés à mort parmi 2.257 meurtriers blancs: 3,19% des meurtriers blancs sont condamnés à mort. Il y a 59 noirs condamnés à mort parmi 2507 meurtriers noirs: 2,35% des meurtriers noirs sont condamnés à mort.

 

Comme 2,35% < 3,19%, la réponse est limpide: les meurtriers blancs sont plus sévèrement punis que les meurtriers noirs. La justice américaine n'était pas raciste. Non monsieur. Non, n'insistez pas on vous dit, les chiffres ne mentent pas.

 

Ces éléments ont été abondamment récupérés, souvent pour défendre le point de vue d'une justice égalitaire, voire plus sévère avec les blancs. Évidemment, comme on peut l'imaginer quand on a une vague idée du contexte aux États-Unis dans les années 70, il manquait quelque chose. Si l'on complétait ce premier tableau avec la couleur de peau de la victime, voici ce que l'on obtenait:

 

 

En refaisant les calculs, on obtient :

 

- En se restreignant au cas où la victime est blanche :
Il y a 72 meurtriers blancs condamnés à mort sur 2.146 meurtriers de victimes blanches, soit 3,36% des meurtriers. Pour les meurtriers noirs de victimes blanches il y 48 condamnés à mort sur 287 jugés soit 16,72%. Incontestablement 16,72 % > 3,36%, donc si la victime est blanche, les meurtriers noirs sont beaucoup plus sévèrement punis que les meurtriers blancs.

 

- En se restreignant au cas où la victime est noire :
Il y a 0 meurtrier blanc qui condamné à mort pour 111 jugés, soit 0% de condamnation à mort. Il y a 11 condamnés à mort parmi les 2.310 meurtriers noirs jugés soit 0,48% de condamnation à mort. Il apparaît donc que 0,48% > 0%, et que si la victime de l'homicide est noire, la justice de Floride condamne plus souvent les meurtriers noirs à la peine de mort que les meurtriers blancs.

 

Sans aller plus loin dans l'interprétation de ces chiffres, ceci est un cas de ce qu'on appelle paradoxe de Simpson: en cachant une variable, l'interprétation des chiffres peut mener bien loin de la réalité.

 

Et Javier Pastore dans tout ça? Si le parallèle vous semble peu évident, changeons légèrement les variables du tableau précédent pour obtenir celui-ci, moins glauque et purement imaginaire:

 

 

En faisant le calcul de manière aussi peu honnête que certains de nos amis de Floride il y a quelques décennies, on aboutit à la conclusion que le pourcentage de passes décisives de Javier Pastore est inférieur à celui de Joueur X. Pourtant, si on s'intéresse au nombre de joueurs qui marquent le passeur, on se rend compte que Pastore a un meilleur taux de réussite que Joueur X quand plusieurs joueurs les marquent à la ceinture, et un meilleur taux de réussite de Joueur X quand ils sont laissés plus libres de leurs mouvement.

 

Un autre cas du paradoxe de Simpson, qu'on pourrait expliquer par le fait que Pastore est plus souvent opposé à des adversaires qui l'empêchent d'évoluer librement que Joueur X. Ce que la stat de base ne dit pas. En effet, pendant que Pastore est marqué par plusieurs adversaires, ses coéquipiers, eux, sont beaucoup plus libres. Les partenaires de Joueur X n'ont pas cette chance.

 

On peut interpréter l'exemple précédent comme une tentative maladroite de défendre l'Argentin. Imaginons alors une troisième variable: la qualité des coéquipiers de Pastore et Joueur X. On pourrait obtenir un tableau voulant dire tout à fait autre chose. Joueur X renverserait peut-être la tendance: lui n'a pas la chance d'évoluer aux côtés d'attaquants de classe mondiale capables de transformer des ballons en buts. On pourrait ajouter à ce tableau des centaines d'autres variables sans que le résultat ne soit concluant. Rien ne sert de les empiler: une analyse humaine objective, provenant d'un analyste compétent, vaudra toujours plus qu'un tableau de statistiques.

 

Comparer des joueurs selon n'importe quelle base statistique (et seulement une base statistique) n'a pas beaucoup de sens. Quels que soient les joueurs et les variables considérés, les statistiques ne restent qu'une image grossière et simplificatrice de la réalité. Il est d'autant plus triste de voir, parfois, l'analyse tactique se transformer en analyse statistique, à la rigueur mathématique plus que douteuse.

 

 

Quantifier l'inquantifiable

Le football, comme tous les domaines où les interactions entre les hommes sont nombreuses, ne peut se résumer en quelques dizaines, ou quelques centaines, de variables. Une interprétation humaine, qui essaye d'être objective, sera toujours plusieurs fois plus intéressante qu'une analyse basée uniquement sur les chiffres. Les chiffres, par nature, traduisent des éléments quantifiables, mais il y en a bien d'autres qu'ils ne peuvent retranscrire: comment, en effet, mesurer le placement d'un défenseur ou d'un milieu? Un joueur qui n'effectue aucun tacle par match, ou ne récupère que peu de ballons, n'est-il pas précisément un joueur si bien positionné qu'il n'a pas besoin d'intervenir, coupant plusieurs lignes de passe et permettant ainsi à ses coéquipiers de récupérer le cuir plus facilement? C'est en général le jeu sans ballon et son influence sur le match et le score que les chiffres peinent encore à prendre en compte.

 

Si l'on aime les citations, il faut se répéter ce que disait notre ami Louis Armand: "Les statistiques, c'est comme le bikini, ce qu'elles dévoilent est intéressant, mais elles laissent caché l'essentiel." Quoique les statistiques disent aussi parfois la vérité. Si Messi a de meilleures stats que Djilobodji, c'est sans doute une image assez fidèle de ce qu'il se passe sur un terrain.

 

Les statistiques en général nous fournissent souvent des indicateurs intéressants, à condition de les utiliser avec prudence, et garder à l'esprit que le problème des chiffres, c'est qu'on leur fait dire ce que l'on veut. Ils font fi du contexte. Ils ne sont pas intelligents. Il suffit de regarder la bonne variable, d'effacer les autres, et le tour est joué. Dans le football comme ailleurs. "La majorité des trafiquants sont noirs et arabes", disait Mark Twain après plusieurs verres de whisky. Mais Mark Twain oubliait ce qu'il savait des statistiques quand il buvait trop de whisky. Il s'appuyait aussi un peu trop sur des citations apocryphes.

 

Lire aussi :
- Les "Expected Goals", au coeur de la révolution statistique
- Us et abus de la data
- La loi statistique qui démontre la supériorité du football
- Peut-on vraiment faire dire n'importe quoi à une statistique?
- Passer aux stats supérieures

 

Réactions

  • Basile mais pas boli le 20/05/2015 à 12h29
    @MVVTCC >
    Si le propos est de dire qu'une statistique mal utilisée est moins pertinente qu'un avis objectif donné par un grand spécialiste du football qui aura vu tous les matchs dudit joueur je suis d'accord mais dans ce cas là je te répondrai que l'avis de Bébert du bar PMU sur le niveau de Pastore est moins pertinent qu'une série de statistique bien exploitée.

    Une fois qu'on a dit ça, on a rien dit et c'est le sentiment que j'ai eu en lisant le texte.

    Quand on parcoure le document cité dans "les déménageurs" hier, ( lien), on voit que l'exploitation intelligente des statistiques peut donner des informations intéressantes.

    Ce texte aurait été pertinent si on était parti de l'exemple d'un vrai teste ou déclaration journalistique sur Pastore utilisant mal des stats pour montrer sa nullité.
    L'article parle de "détracteurs de Pastore" se basant sur ses buts et passes décisives mais qui ? quand ? où ? comment ?.

    Parce que faire un article de 2 pages pour répondre à son voisin de machine à café qui dit que Tolisso est meilleur que Pastore parce qu'il a marqué plus de buts, je vois pas l'intérêt.

    Pour résumé, j'ai trouvé l'histoire sur la Floride et les citations passionnantes mais sa corrélation avec le foot manque particulièrement de corps.

  • Ibranche le 20/05/2015 à 12h31
    "On fait dire ce qu'on veut aux chiffres". C'est sans doute ce qu'on entend le plus souvent lorsqu'il est question d'usage de la statistique. Sur le fond et dans l'ensemble, l'article est juste, mais il me semble donc qu'il enfonce une porte ouverte.

  • Matu-Verratti-Vieira-Touré-Clément-Cearà le 20/05/2015 à 13h08
    L'enfonçage de portes ouvertes n'est pas l'impression que j'ai quand j'écoute cnal ou BeIn.

  • Sens de la dérision le 20/05/2015 à 13h38
    Basile mais pas boli
    aujourd'hui à 12h29
    Parce que faire un article de 2 pages pour répondre à son voisin de machine à café qui dit que Tolisso est meilleur que Pastore parce qu'il a marqué plus de buts, je vois pas l'intérêt.
    ----
    Surtout qu'il suffisait de dire que Tolisso était lyonnais pour savoir qu'il était plus fort que Pastore.

  • syle le 20/05/2015 à 14h33
    Quand on en arrive à devoir monter ce genre d'argumentaire pour tenter de démontrer qu'un joueur n'est pas aussi moyen qu'il semble l'être, c'est que le joueur est vraiment super moyen, non ?
    Because des articles-plaidoyers pour Pastore, en trois ans, on en a eu un wagon. Et vu ce qu'il a montré sur les terrains en 3 ans, il en avait peut-être bien besoin.

  • Radek Bejbl le 20/05/2015 à 14h47
    Ce qui est drôle, c'est que l'auteur n'apprécie pas Pastore.

  • El Matheux d'Or le 20/05/2015 à 14h58
    Bonjour,
    Cet article "enfonce des portes ouvertes" pour ceux qui ont déjà réfléchi au sujet intelligemment, ou qui sont des lecteurs assidus des CdF.
    Mais quid de tous les autres, qui découvrent les CdF, qui s'interrogent pour la première fois sur la question, qui glandent au hasard sur le net, qui se sont fait convaincre du contraire...?
    On peut me répondre "pas besoin de faire un nouvel article, il y en a plein du même acabit dans les archives, même récentes, du journal, y a qu'à fouiller si vraiment on est intéressé", ce à quoi je répondrais à mon tour que c'est la première fois que je trouve cette thèse (on peut faire dire n'importe quoi à des stats) si simplement, clairement, et pertinemment résumée et illustrée pour le football.

  • Basile mais pas boli le 20/05/2015 à 15h29
    Radek Bejbl
    aujourd'hui à 14h47
    --------------------------------------------------------------------
    C'est donc un complot pour l'enfoncer encore plus... CQFD

    Sinon en relisant les commentaires - dont les miens - je me rend compte que pour l'auteur, les critiques doivent être décourageante voire frustrantes vis à vis du temps investi à rédiger ce type de contribution.

    Je voudrai donc lui dire merci de contribuer à alimenter les CDF d'articles qui font vivre le site.

  • Daijinho le 20/05/2015 à 21h46
    Je m'étrangle à la lecture de l'article. L'auteur, s'il souhaite se placer au-dessus des vils commentateurs et statisticiens du football, ferait mieux de faire la distinction entre statistiques et mesures. La statistique, c'est l'"art" d'extrapoler à partir d'un échantillon mesuré. Dans les homicides en Floride, dans le jeu de Pastore, rien de tout ca, ce sont des mesures.
    Quant à l'affirmation que les chiffres mentent, elle est aussi menteuse que que ce qu'elle voudrait prouver. On parle de mesures, elles sont brutes et ne mentent pas, mais effectivement, il est souvent trompeur de tirer des conclusions en élargissant le contexte. Donc non les chiffres ne mentent pas, ce sont les personnes qui mentent.

    Et enfin, quel est le but de l'article ? Faire un énième éloge de Pastore qui vaut en fait bien mieux que les chiffres qu'on lui attribue ? Mais de quels chiffres parle-t-on en fait ? L'auteur n'en présent aucun et se contente de faire une transposition du tableau des homicides en Floride pour prouver son propos.
    Et on peut tout à fait faire une analyse quantifiée du football, mais ce sera extrêmement fastidieux à réaliser et on ne pourra certainement dégager aucune conclusion solide au vu de la faible reproductibilité des situations. Car il s'agirait de mesurer les choses suivantes : nombre de passes décisives face à une défense à quatre regroupée dans les 16 mètres alors que le joueur est à 20 mètres légèrement excentré sur la gauche, que deux de ses coéquipiers sont dans la surface, un troisième sur l'aile droite, et qu'un milieu vient faire un pressing sur le porteur du ballon.

  • osvaldo piazzolla le 20/05/2015 à 22h59
    "On parle de mesures, elles sont brutes et ne mentent pas"

    Raw data is an oxymoron.

La revue des Cahiers du football