Dans cette partie, nous allons prédire les points des équipes du classement final. Pour cela, nous allons prendre les données de la première partie de saison et prédire le classement final.
La première partie de saison correspond aux 18 premiers matchs et la seconde partie de saisons correspond aux 18 derniers matchs.
Faisons notre découpage apprentissage/test.
Voici la liste des championnats présents dans notre base de données
On ajoute le nombre de matchs joués et le nombre de points cumulés afin d’avoir un suivi de l’évolution du classement des équipes. Le fait que chaque équipe joue 38 matchs par saison va nous permettre de créer cette nouvelle variable.
L'idée est de considérer uniquement quelques variables indirectemennt liées au nombre de points telles que le nombre de passes, la pression défensive etc et prédire le classement final. Si le classement final est très correct et la p valeur de la régression est significative on peut conclure qu'il existe un lien multilinéare et que ce lien se conserve dans le temps. Or nous savons que le coefficient associé à une variable dans un modèle de regression est la variation de la variable expliquée après augmentation d'une unité de la variable et toute chose égale par ailleurs, donc on pourra ainsi comparer l'impact relatif des variables sur les points. Et donc répondre probablement à la question: de combien de points peut-on espérer augmmenter si on fait un peu plus de passes pendant les matchs?
Notre jeu de donnée comporte une erreur au niveau des dates et il faut faire un décalage de 3 mois afin de rendre notre jeu de donnée cohérent et de pouvoir prédire correctement le nombre de points final par équipe.
Nous allons effectué une régression linéaire pour chaque équipe afin dee prédire leur score final.
On va afficher maintenant les classements finaux prédits et réels afin de les comparer
position | team | pts | predict_pts | position_predict |
---|---|---|---|---|
1 | Real Madrid | 87 | 40.62633 | 2 |
2 | Barcelona | 82 | 41.92581 | 1 |
3 | Sevilla | 70 | 36.85410 | 3 |
4 | Atletico Madrid | 70 | 33.82929 | 5 |
5 | Villarreal | 60 | 27.00281 | 11 |
6 | Real Sociedad | 56 | 34.24888 | 4 |
7 | Granada | 56 | 30.00636 | 9 |
8 | Getafe | 54 | 33.22768 | 6 |
9 | Valencia | 53 | 31.01415 | 7 |
10 | Osasuna | 52 | 27.02751 | 10 |
11 | Athletic Club | 51 | 30.64083 | 8 |
12 | Levante | 49 | 26.80548 | 12 |
13 | Real Valladolid | 42 | 23.51039 | 14 |
14 | Eibar | 42 | 21.20119 | 16 |
15 | Real Betis | 41 | 25.09458 | 13 |
16 | Alaves | 39 | 22.12891 | 15 |
17 | Celta Vigo | 37 | 15.97411 | 18 |
18 | Leganes | 36 | 11.19855 | 20 |
19 | Mallorca | 33 | 18.03402 | 17 |
20 | Espanyol | 25 | 12.09941 | 19 |
Pour terminer, nous allons calculer l’erreur de notre prédiction du nombre de points mais aussi l’écart moyen du classement final réel et du classement prédit.
L’erreur moyenne des prédictions de points finaux correspond à environ 6 points ce qui représente seulement deux victoires en terme comptable.
On obtient un écart moyen entre les positions réels et les positions prédites de seulement 1,7 ce qui représente moins de deux places d’écarts.
Le modèle est globalement correct, on décide tout de même de ne pas tirer de conclusion concernant la valeur des coefficients comme prévu car dans ce cas un test de nulité des coefficients est plus que nécessaire .