Le football est un sport populaire suscitant un grand intérêt aux quatres coins du monde. Avec l’avènement de la collecte massives de données dans ce sport, il est naturel de se demander comment les utiliser pour améliorer les performances des équipes et créer encore plus de spectacle. En effet, durant chaque match des centaines de statistiques sont calculées ce qui permet d’avoir un flux de données en continue qui ne demande qu’à être analyser pour y retrouver des interprétations que l’œil humain aurait du mal à voir.

Objectif

L’objectif de se projet sera tout d’abord de déterminer grâce à des méthodes de clustering quelles sont les profils des équipes selon leur position lors du classement final. Idéalement, l’objectif final serait de prédire la position d’une équipe dans le classement final

Source des données

Les données que nous allons utiliser sont issues de Transfermarket

Notre base de données est issue du site understat qui collecte les données championnats européens. Nous avons récupéré trois fichiers csv :

L’ensemble des matchs ont eu lieu dans les 6 grands championnats européens entre 2014 et 2019 de nombreuses statistiques qui peuvent être propre au football telle que les xG : Expected goals que l’on détaillera plus tard.

Nous avons en tout plus de 400 prédicteurs dont:

Plan redigé

Dans ce travail, nous allons nous concentrer sur le championnat espagnol, dans une première partie nous allons faire une analyse descriptive du championnat et des équipes, puis à partir des statistiques déterminer les équipes ayant des profils similaires, ensuite en considérant des variables n’ayant pas un lien direct avec l’issu d’un match telles le nombre de passes, nous allons prédire le classement final à partir des données de mi-saison, concernant les joueurs nous allons prédire leurs valeurs marchandes à partir des performances.

En fin, afin de savoir si les informations inférées au cours de cette étude peuvent être vraies dans d’autres championnats, nous allons faire une étude comparatives des championnats.