La sciença dins la lenga nòstra

Siti de vulgarisacion scientifica en occitan. Site de vulgarisation scientifique en occitan. Aqueu siti es mai o mens centrat sus la fisica dei particulas e l'interacion fòrta entre quarks, mai es dedicat a la fisica en generau.

15 décembre 2010

L1 2008/2009 : l'OM était meilleure que Bordeaux

/archives/2009/09/15/15074230.html

Je poursuis ma lancé de traduction en français de quelques vieux articles que j'avais laissé en version originale. Ici un article qui a un peu vieilli par se sujet mais dont le fond reste je crois intéressant. J'y analysais les résultats de la saison 2008/2009 de balon avec des méthodes de scientifique, des méthodes de traitement des statistiques comparable à ce qu'on fait pour interpréter des expériences (ou dans mon cas à moi des calculs informatiques). Si vous êtes supporters vous vous souvenez peut-être de cette saison 2008/2009, celle où les Bordelais nous ont volé la coupe et que je commenterai en bon marseillais de mauvaise foi.

Le modèle

Pour étudier les probabilités, il nous faut un modèle, quelque chose qui définisse une forme pour la loi de probabilité (on regarde -de façon théorique en tout cas- la probabilité de toutes les façons différentes dont la saison aurait pu se passer, pas seulement les résultats tels qu'ils ont été au final). Bien sûr comme tout modèle il est basé sur des hypothèses et des approximations. Voici celui que j'ai décidé d'étudier :

  1. Un match de ballon est formé d'un tas de petites actions, qu'on suppose indépendantes l'une de l'autre, et de durée très courte par rapport à la durée totale de la partie. La conséquence est que le nombre de buts suit un loi de Poisson (qui décrit tous les évènements "rares"),ce qui fixe la loi de probabilité à deux paramètres près, le nombre moyen de buts dans une partie pour chacune des deux équipes.
  2. Normalement ces nombres moyens de buts sont différents pour chaque partie : il y a des matchs plus ou moins faciles, et des tactiques plus ou moins adaptées. Donc si on veut faire une analyse liant tous les matchs de la saison, il nous faut un autre bout de modèle, qui calcule ce nombre moyen de buts. Ce que j'ai choisi (et je pense que c'est l'approximation la plus discutable) c'est de considérer que ce nombre moyen de but peut se factoriser en un nombre caractérisant l'attaque d'une équipe divisé par un nombre caractérisant la défense de l'autre équipe.

Au final dans mon modèle la loi de probabilité qui décrit toute la Ligue 1 dépend de 40 paramètres totaux, pour 190 matchs (20*19/2) et donc 380 résultats en terme de nombre de buts. On devrait donc pouvoir en déduire des choses, et on a même assez de données pour affiner un peu le modèle si on veut, mais nous allons rester avec notre modèle simple puisque le but est surtout d'expliquer le principe.

L'analyse Bayésienne

 Maintenant le problème est de trouver ces 40 paramètres à partir des résultats. C'est un problème un peu difficile, car à l'école vous avez plutôt appris l'inverse : partir d'une loi de probabilité et calculer la probabilité de chaque résultat. Par exemple vous avez fait des problèmes du type quelle est la probabilité qu'un dé fasse un double, mais il est rare qu'on demande quelle est le nombre de dés qu'on a lancé sachant que la somme de notre lancer fait 42. Pour resoudre ce problème il y a le theorème de Bayes.

Ce theorème vient du fait que la probabilité d'avoir à la fois deux évènements A et B est égale à la probabilité d'avoir A multipliée par la probabilité d'avoir B sachant A, mais aussi égale à la probabilité d'avoir B multipliée par la probabilité d'avoir A sachant B :

proba_et

On peut alors diviser l'équation par P(B) :

proba_cond

Et finalement décomposer P(B), la probabilité d'avoir B quelquesoit A, en la somme des probabilités d'avoir B avec différents A :

proba_cond_full

C'est là la forma utilisable du théorème de Bayes. Maintenant il nous faut l'adapter à notre cas : A est la valeur des paramètres d'attaque et de défense, et B est la liste des résultats des matchs. Les P(Aj) sont tous égaux puisqu'on a aucune connaissance préalable de A (cette probabilité est appelée le prior), donc on peut simplement les enlever.

La probabilité d'un ensemble de paramètres est donc proportionnelle à la probabilité qu'aurait le résultat réel si les paramètres étaient ceux-là au lieu d'être les paramètres réels. Et on peut considérer que ce dénominateur, qui joue le rôle de coefficient de proportionnalité, est seulement là pour assurer que la somme des probabilités est un, comme cela doit être pour toute loi de probabilité.

Le Monte-Carlo

rouletteCalculer la somme du dénominateur ne peut pas se faire à la main, il faut faire un calcul approché avec un ordinateur. Mais généralement l'ordinateur n'est pas assez puissant pour vraiment faire le calcul exactement. Alors on a une technique qu'on appelle "Monte-Carlo", qui consiste à prendre des valeurs des paramètres au hasard et moyenner au fur-et-à-mesure toutes les probabilités données par ces paramètres. On doit alors s'arrêter quand on voit que la moyenne semble ne plus trop bouger.

En fait le nombre de tirages nécessaires est généralement toujours trop grand dès qu'on a un nombre conséquent de paramètres, et on utilise une amélioration qu'on appelle Markov Chains Monte-Carlo. Celle-ci consiste à créer un algorithme qui génère en continu des paramètres tels qu'à un temps donné ils ont la même probabilité que celle qu'on veut calculer. Ici j'ai utilisé un cas de MCMC qu'on appelle Algoritme de Metropolis, qui consiste en :

  1. Prendre un ensemble de paramètres plus ou moins au hasard.
  2. Changer un tout petit peu ces paramètres, toujours au hasard.
  3. Calculer la probabilité p(B|A) avec ces paramètres A
  4. Si la probabilité est meilleure que la probabilité du A précédent, on retourne à l'étape 2.
  5. Sinon on récupère l'ancien ensemble de paramètres avec une probabilité 1-p/p0 , où p est la nouvelle probabilité et p0 l'ancienne. Puis on retourne au 2

On arrête quand on est retourné à l'étape 2 un nombre de coups déterminés à l'avance (enfin c'est le plus simple, pas forcément le mieux). Plus ce nombre est grand, meilleur est la précision du calcul.

L'avantage du MCMC sur le Monte-Carlo de base est qu'il ne va pas trop se perdre dans des zonas de probabilité faible, il va rester plus longtemps dans les zonas de haute probabilité, qui sont les plus importantes pour le calcul.

Le résultat

Avec un million d'itérations du MCMC (un demi-heure de calcul sur mon portable) je peux vous dire que (pour la saison 2008-09) :

  • L'attaque de l'OM était meilleure que celle de Bordeaux avec 95% de confiance.
  • La défense de Bordeaux était meilleure que celle de l'OM avec 81% de confiance.
  • L'attaque de l'OM était meilleure que celle de l'OGC avec 100% de confiance. :-(
  • La défense de l'OM était meilleure que celle de l'OGC avec 99.9% de confiance... ah, une toute petite lueur d'espoir ^^

Maintenant que les formules sont en place je peux aussi calculer un tas d'autres choses, et vous pouvez aller voir le code source si vous savez programmer en C.

Enfin, quand au fait que telle équipe soit "meilleure" que telle autre, en fait la grande question c'est avant tout le sens qu'on donne à "meilleure" : mathématiquement parlant un espace avec tant de paramètre n'a pas une unique relation d'ordre total. La mesure qui fait le plus de sens c'est peut-être de dire que la meilleure équipe c'est celle qui gagne le championnat, puisque c'est ça le but, peut importe pourquoi et comment ; mais on peut aussi se dire que le produit des paramètres "attaque multipliée par défense" fait un indicateur censé, et en conclure que l'OM s'est fait voler la victoire alors qu'ils étaient meilleurs.

Mandat per lo_julien a 16:18 - Brèvas - Comentaris [0] - Permaligam [#]
Tags : , ,
Votatz per mon blòg sus se vos plai

Commentaires

Mandar un comentari