Le football est un sport populaire suscitant un grand intérêt aux quatres coins du monde. Avec l’avènement de la collecte massives de données dans ce sport, il est naturel de se demander comment les utiliser pour améliorer les performances des équipes et créer encore plus de spectacle. En effet, durant chaque match des centaines de statistiques sont calculées ce qui permet d’avoir un flux de données en continue qui ne demande qu’à être analyser pour y retrouver des interprétations que l’œil humain aurait du mal à voir.
Objectif
L’objectif de se projet sera tout d’abord de déterminer grâce à des méthodes de clustering quelles sont les profils des équipes selon leur position lors du classement final. Idéalement, l’objectif final serait de prédire la position d’une équipe dans le classement final
Source des données
Les données que nous allons utiliser sont issues de Transfermarket
Notre base de données est issue du site understat qui collecte les données championnats européens. Nous avons récupéré trois fichiers csv :
understat.com.csv qui correspond au classement d’une équipe à un moment donné de la saison
understat_per_game.csv qui correspond aux statistiques collectés pour chaque match
transfermarkt_fbref_201819.csv’ qui correspond aux informations sur les joueurs
L’ensemble des matchs ont eu lieu dans les 6 grands championnats européens entre 2014 et 2019 de nombreuses statistiques qui peuvent être propre au football telle que les xG : Expected goals que l’on détaillera plus tard.
Nous avons en tout plus de 400 prédicteurs dont:
xG : mesure des buts attendus, il s’agit d’une mesure statistique de la qualité des occasions créées et concédées.
xG_diff : différence entre les buts effectivement marqués et les buts attendus.
npxG : nombre de buts attendus sans les penalties et les buts contre son camp.
xGA: : buts contre attendus.
xGA_diff: différence entre les buts réels manqués et les buts attendus contre.
npxGA : nombre de buts contre prévus sans pénalités ni buts contre son camp.
npxGD : Différence entre les buts attendus “pour” et “contre” sans pénalités ni buts contre leur camp.
ppda_coef: passes autorisées par action défensive dans la moitié de terrain adverse (pouvoir de pression)
oppda_coef : passes de l’adversaire autorisées par action défensive dans la moitié de terrain de l’adversaire (puissance de la pression de l’adversaire).
deep: passes complétées à une distance estimée à 20 yards du but (croix exclues)
deep_allowed: passes de l’adversaire réalisées à une distance estimée à 20 mètres du but (croix exclues)
xpts: points attendus
xpts_diff: différence entre les points réels et les points attendus
Plan redigé
Dans ce travail, nous allons nous concentrer sur le championnat espagnol, dans une première partie nous allons faire une analyse descriptive du championnat et des équipes, puis à partir des statistiques déterminer les équipes ayant des profils similaires, ensuite en considérant des variables n’ayant pas un lien direct avec l’issu d’un match telles le nombre de passes, nous allons prédire le classement final à partir des données de mi-saison, concernant les joueurs nous allons prédire leurs valeurs marchandes à partir des performances.
En fin, afin de savoir si les informations inférées au cours de cette étude peuvent être vraies dans d’autres championnats, nous allons faire une étude comparatives des championnats.