Dans cette partie, nous allons prédire les points des équipes du classement final. Pour cela, nous allons prendre les données de la première partie de saison et prédire le classement final.

La première partie de saison correspond aux 18 premiers matchs et la seconde partie de saisons correspond aux 18 derniers matchs.

Faisons notre découpage apprentissage/test.

Voici la liste des championnats présents dans notre base de données

On ajoute le nombre de matchs joués et le nombre de points cumulés afin d’avoir un suivi de l’évolution du classement des équipes. Le fait que chaque équipe joue 38 matchs par saison va nous permettre de créer cette nouvelle variable.

L'idée est de considérer uniquement quelques variables indirectemennt liées au nombre de points telles que le nombre de passes, la pression défensive etc et prédire le classement final. Si le classement final est très correct et la p valeur de la régression est significative on peut conclure qu'il existe un lien multilinéare et que ce lien se conserve dans le temps. Or nous savons que le coefficient associé à une variable dans un modèle de regression est la variation de la variable expliquée après augmentation d'une unité de la variable et toute chose égale par ailleurs, donc on pourra ainsi comparer l'impact relatif des variables sur les points. Et donc répondre probablement à la question: de combien de points peut-on espérer augmmenter si on fait un peu plus de passes pendant les matchs?

Notre jeu de donnée comporte une erreur au niveau des dates et il faut faire un décalage de 3 mois afin de rendre notre jeu de donnée cohérent et de pouvoir prédire correctement le nombre de points final par équipe.

Nous allons effectué une régression linéaire pour chaque équipe afin dee prédire leur score final.

On va afficher maintenant les classements finaux prédits et réels afin de les comparer

position team pts predict_pts position_predict
1 Real Madrid 87 40.62633 2
2 Barcelona 82 41.92581 1
3 Sevilla 70 36.85410 3
4 Atletico Madrid 70 33.82929 5
5 Villarreal 60 27.00281 11
6 Real Sociedad 56 34.24888 4
7 Granada 56 30.00636 9
8 Getafe 54 33.22768 6
9 Valencia 53 31.01415 7
10 Osasuna 52 27.02751 10
11 Athletic Club 51 30.64083 8
12 Levante 49 26.80548 12
13 Real Valladolid 42 23.51039 14
14 Eibar 42 21.20119 16
15 Real Betis 41 25.09458 13
16 Alaves 39 22.12891 15
17 Celta Vigo 37 15.97411 18
18 Leganes 36 11.19855 20
19 Mallorca 33 18.03402 17
20 Espanyol 25 12.09941 19

Pour terminer, nous allons calculer l’erreur de notre prédiction du nombre de points mais aussi l’écart moyen du classement final réel et du classement prédit.

L’erreur moyenne des prédictions de points finaux correspond à environ 6 points ce qui représente seulement deux victoires en terme comptable.

On obtient un écart moyen entre les positions réels et les positions prédites de seulement 1,7 ce qui représente moins de deux places d’écarts.

Le modèle est globalement correct, on décide tout de même de ne pas tirer de conclusion concernant la valeur des coefficients comme prévu car dans ce cas un test de nulité des coefficients est plus que nécessaire .