Donc cette partie nous allons essayer de prédire la valeur marchande des joueurs en fonction des statistiques.

Distribution de la variable à prédire

On sépare les variables quantitatives des variables qualitatives puis on ne garde que les variables quantitatives. Même s'il est clair que certaines variables qualitatives sont intéressantes, avec 400 variables en tout transformer les variables qualitatives en quantitatives peut-être coûteux en temps de calcul puisque toutes les modalités seront des nouvelles variables

Réduction de dimension

ACP

L’ACP parait pas très pertinente mais en réalité en prenant les 50 premières dimensions, on peut passer de \(\mathbb{R}^{390}\) à \(\mathbb{R}^{50}\) tout en captant un peu plus de 90% de la variabilité.

Réduction par seuil de corrélation

Les résultats de l’ACP laisse supposer une forte corrélation des variables. Nous allons réduire la dimension en fixant un seuil de corrélation linéaire.

Avec un seuil de corrélation de \(0,9\), on passe de \(\mathbb{R}^{390}\) à \(\mathbb{R}^{212}\)

Nous allons prédire les valeurs en se servant des deux méthodes de réduction de dimension, ACP et seuil de corrélation.

Prédiction

ACP + Regression linéaire

Seuil + Régression linéaire

Les résultats sont jusqu'à présent peu convaincants, nous allons effectuer des méthodes de regression avec réduction de dimension,pénalisation et un réseau de neurone linéaire à deux couches (3,5).

Comparaison des méthodes: 15 répétitions

Le modèle le plus performant les le modèle PCR et le modèle donnant les plus mauvais résultats est le réseaux de neurones.