Le but de cette partie est de retrouver les équipes du championnant ayant des profils similaires.

On retire les variables statistiquement moins intéressantes telles que l’année et le nombre de matchs puisque identiques pour tous les clubs.

ACP

On effectue un ACP en considérant les points (pts) et points attendus ((xpts) comme variables supplémentaires car potentiellement des variables à expliquer, il est donc de prime abord important d’étudier les interactions entre prédicteurs potentiels.

Le classement (position) est également considéré comme variable supplémentaire pour les mêmes raisons. C’est juste le résultat d’une relation d’ordre sur la variable à expliquer et idem pour la variable sur la différence entre les points obtenus et ceux attendus (xpts_diff).

On peut utiliser la règle de Kaiser c’est-à-dire garder que les axes ayant des valeurs propres supérieures à 1.(Car nous sommes dans un cas d’ACP normé et la plus petite variance est 1)

La première dimension sépare les équipes en deux groupes, à droite celles performantes caractérisées par un nombre élevé de buts ,de victoires, de buts attendus (wins, scored).. et à gauche celles qui ont moins performé.

La deuxième dimension quant à elle sépare les équipes sous-perforantes (qui ont manqué de réalisme) en bas de celles qui ont plus concretisé les occasions obtenues en haut. Elle sépare également les équipes tenues le plus en échec (un nombre de matchs nuls élevé) en bas (draws élevé) des autres.

Nous remarquons que beaucoup de variables sont linéairement corrélées.

Ces deux dimensions contiennent très peu d’informations car la plus part des variables ne sont pas bien représentées. Les vecteurs sont loin du cercle.

On remarques que les variables sur la différences de points, de buts, points attendus et buts attendus contribuent le moins aux deux premières dimensions. Ce qui s’explique par le simple fait qu’elle sont obtenues par simple opération linéaire sur les autres variables. Dans la suite on décide pour cette raison de ne pas les inclure dans nos modèles.

Clustering

On remarque les équipes ayant sous-performées (en bas) sont toutes les moins bien classées car celles avec de belles statistiques en terme de but, points et passes sont plustôt bien classées. Le manque de réalisme n’est pas une fatalité, il faut logiquement le compenser en créant plus d’occasion.

On remarque que suivant la première dimension nous avons à droite les équipes les mieux classées.

Au delà de ça il n'est pas évident de remarquer de séparations plus fines. Dans la suite nous allons faire un clustering afin de mieux identifier les groupes des équipes et finalement vérifier si les équipes les mieux classées ont un profil statistique similaire.

D’après l’ACP, plusieurs variables très corellées, nous allons garder que quelques unes.

On décide de travailler sur les données standardisées au vu de l’échelle des ecart-types.

On voit que parmis les équipes bien classées un clustering permet de retrouver les meilleurs c’est-à-dire les statistiques suffisent pour retrouver les équipes occupant les premières places. En revanche pour la moitié inférieure du tableau, il est plus compliqué. Cela peut être dû au fait que la réussite ne dépend pas uniquement des statistiques considerées.

Nous allons tout de même chercher à comprendre les variables qui caractérisent les différents clusters.

Bonne représentation sur le plan factoriel 1-2 (84,49% d’informations conservées)