Construire des groupes d'individus homogènes et différenciés à partir de leurs caractéristiques.
Autrement dit, après classification, on souhaite que :
Considérons les données suivantes proposant des indicateurs socio-économiques de différents pays :
country | exports | health | income | |
---|---|---|---|---|
0 | Afghanistan | 10.00 | 7.58 | 1610 |
1 | Albania | 28.00 | 6.55 | 9930 |
2 | Algeria | 38.40 | 4.17 | 12900 |
3 | Angola | 62.30 | 2.85 | 5900 |
4 | Antigua and Barbuda | 45.50 | 6.03 | 19100 |
5 | Argentina | 18.90 | 8.10 | 18700 |
Classer des individus revient à ajouter une nouvelle variable qualitative donnant leur classe :
country | exports | health | income | class | |
---|---|---|---|---|---|
0 | Afghanistan | 10.00 | 7.58 | 1610 | C3 |
1 | Albania | 28.00 | 6.55 | 9930 | C3 |
2 | Algeria | 38.40 | 4.17 | 12900 | C1 |
3 | Angola | 62.30 | 2.85 | 5900 | C2 |
4 | Antigua and Barbuda | 45.50 | 6.03 | 19100 | C2 |
5 | Argentina | 18.90 | 8.10 | 18700 | C3 |
exports | health | income | class | |
---|---|---|---|---|
country | ||||
Afghanistan | 10.00 | 7.58 | 1610 | C3 |
Albania | 28.00 | 6.55 | 9930 | C3 |
Algeria | 38.40 | 4.17 | 12900 | C1 |
Angola | 62.30 | 2.85 | 5900 | C2 |
Antigua and Barbuda | 45.50 | 6.03 | 19100 | ? |
Argentina | 18.90 | 8.10 | 18700 | ? |
exports | health | income | class | |
---|---|---|---|---|
country | ||||
Afghanistan | 10.00 | 7.58 | 1610 | ? |
Albania | 28.00 | 6.55 | 9930 | ? |
Algeria | 38.40 | 4.17 | 12900 | ? |
Angola | 62.30 | 2.85 | 5900 | ? |
Antigua and Barbuda | 45.50 | 6.03 | 19100 | ? |
Argentina | 18.90 | 8.10 | 18700 | ? |
La classification non supervisée, clustering ou classification automatique sont les termes les plus utilisés par le monde académique.
En entreprise, on rencontre plutôt les appellations suivantes :
Nous reparlerons plus en détails des partitions lors du cours sur les méthodes de partitionnement
Nous reparlerons plus en détails des hiérarchies lors du cours sur les méthodes agglomératives
Mathématiquement, il est commode de représenter un tableau de données par une matrice de \(N\) lignes et \(D\) colonnes :
exports | health | income | |
---|---|---|---|
country | |||
Afghanistan | 10.00 | 7.58 | 1610 |
Albania | 28.00 | 6.55 | 9930 |
Algeria | 38.40 | 4.17 | 12900 |
exports
, health
et income
sont les noms des variablescountry
)health
Python
)
exports | imports | |
---|---|---|
country | ||
Afghanistan | 10.00 | 44.90 |
Albania | 28.00 | 48.60 |
Algeria | 38.40 | 31.40 |
Angola | 62.30 | 42.90 |
Antigua and Barbuda | 45.50 | 58.90 |
Argentina | 18.90 | 16.00 |
Armenia | 20.80 | 45.30 |
Australia | 19.80 | 20.90 |
Austria | 51.30 | 47.80 |
Azerbaijan | 54.30 | 20.70 |
La distance euclidienne est une fonction \(d\) définie pour tous vecteurs \(\boldsymbol{x}_{\ell} = (x_{\ell, 1}, \ldots, x_{\ell, D}) \in \mathbb{R}^{D}\) et \(\boldsymbol{x}_{m} = (x_{m, 1}, \ldots, x_{m, D}) \in \mathbb{R}^{D}\) : \[ d(\boldsymbol{x}_{\ell}, \boldsymbol{x}_{m}) = \sqrt{\sum_{d = 1}^{D} \left(x_{\ell,d} - x_{m,d}\right)^{2}} \]
\[ d(\boldsymbol{x}_{\ell}, \boldsymbol{x}_{m}) = \sqrt{\left(x_{\ell,1} - x_{m,1}\right)^{2} + \left(x_{\ell,2} - x_{m,2}\right)^{2}} \]
\[ d(\boldsymbol{x}_{\ell}, \boldsymbol{x}_{m}) = \sqrt{\left(x_{\ell,1} - x_{m,1}\right)^{2} + \left(x_{\ell,2} - x_{m,2}\right)^{2} + \left(x_{\ell,3} - x_{m,3}\right)^{2}} \]
exports | imports | |
---|---|---|
country | ||
Afghanistan | 10.00 | 44.90 |
Albania | 28.00 | 48.60 |
Algeria | 38.40 | 31.40 |
Angola | 62.30 | 42.90 |
Antigua and Barbuda | 45.50 | 58.90 |
Argentina | 18.90 | 16.00 |
Armenia | 20.80 | 45.30 |
Australia | 19.80 | 20.90 |
Austria | 51.30 | 47.80 |
Azerbaijan | 54.30 | 20.70 |
exports | imports | income | |
---|---|---|---|
country | |||
Afghanistan | 10.00 | 44.90 | 1610 |
Albania | 28.00 | 48.60 | 9930 |
Algeria | 38.40 | 31.40 | 12900 |
Angola | 62.30 | 42.90 | 5900 |
Antigua and Barbuda | 45.50 | 58.90 | 19100 |
Argentina | 18.90 | 16.00 | 18700 |
Armenia | 20.80 | 45.30 | 6700 |
Australia | 19.80 | 20.90 | 41400 |
Austria | 51.30 | 47.80 | 43200 |
Azerbaijan | 54.30 | 20.70 | 16000 |
Soit \(d\) une distance définie sur \(\mathbb{R}^{D}\). Nous avons alors pour tout \(\boldsymbol{x}_{\ell}, \boldsymbol{x}_{m} \in \mathbb{R}^{D}\), les propriétés suivantes :
Il existe d'autres distances classiquement utilisées en statistiques permettant de mettre en évidence ou limiter certaines propriétés des données considérées :
Soit \(\boldsymbol{X}\) un tableau de données contenant un ensemble de \(N\) individus \(\{\boldsymbol{x}_{1}, \ldots, \boldsymbol{x}_{N}\}\). En choisissant une distance \(d\), nous pouvons regrouper les distances de tous les couples \((\boldsymbol{x}_{\ell}, \boldsymbol{x}_{m})\) dans une matrice \(\boldsymbol{\Delta}_{d}\) de taille \(N \times N\) telle que : \[ \boldsymbol{\Delta}_{d}(\ell, m) = d(\boldsymbol{x}_{\ell}, \boldsymbol{x}_{m}) \]
La matrice \(\boldsymbol{\Delta}_{d}\) est appelée matrice de distances des données \(\boldsymbol{X}\) par rapport à la distance \(d\) (e.g. distance euclidienne, Mahalanobis, etc.)
Données :
exports | imports | income | |
---|---|---|---|
country | |||
Afghanistan | 10.00 | 44.90 | 1610 |
Albania | 28.00 | 48.60 | 9930 |
Algeria | 38.40 | 31.40 | 12900 |
Angola | 62.30 | 42.90 | 5900 |
Antigua and Barbuda | 45.50 | 58.90 | 19100 |
Argentina | 18.90 | 16.00 | 18700 |
Armenia | 20.80 | 45.30 | 6700 |
Australia | 19.80 | 20.90 | 41400 |
Austria | 51.30 | 47.80 | 43200 |
Azerbaijan | 54.30 | 20.70 | 16000 |
Distances euclidiennes :
country | Afghanistan | Albania | Algeria | Angola | Antigua and Barbuda | Argentina | Armenia | Australia | Austria | Azerbaijan |
---|---|---|---|---|---|---|---|---|---|---|
country | ||||||||||
Afghanistan | 0.00 | 8320.02 | 11290.04 | 4290.32 | 17490.04 | 17090.03 | 5090.01 | 39790.01 | 41590.02 | 14390.09 |
Albania | 8320.02 | 0.00 | 2970.07 | 4030.15 | 9170.02 | 8770.07 | 3230.01 | 31470.01 | 33270.01 | 6070.12 |
Algeria | 11290.04 | 2970.07 | 0.00 | 7000.05 | 6200.07 | 5800.05 | 6200.04 | 28500.01 | 30300.01 | 3100.06 |
Angola | 4290.32 | 4030.15 | 7000.05 | 0.00 | 13200.02 | 12800.10 | 801.08 | 35500.03 | 37300.00 | 10100.03 |
Antigua and Barbuda | 17490.04 | 9170.02 | 6200.07 | 13200.02 | 0.00 | 403.17 | 12400.03 | 22300.05 | 24100.00 | 3100.25 |
Argentina | 17090.03 | 8770.07 | 5800.05 | 12800.10 | 403.17 | 0.00 | 12000.04 | 22700.00 | 24500.04 | 2700.24 |
Armenia | 5090.01 | 3230.01 | 6200.04 | 801.08 | 12400.03 | 12000.04 | 0.00 | 34700.01 | 36500.01 | 9300.09 |
Australia | 39790.01 | 31470.01 | 28500.01 | 35500.03 | 22300.05 | 22700.00 | 34700.01 | 0.00 | 1800.48 | 25400.02 |
Austria | 41590.02 | 33270.01 | 30300.01 | 37300.00 | 24100.00 | 24500.04 | 36500.01 | 1800.48 | 0.00 | 27200.01 |
Azerbaijan | 14390.09 | 6070.12 | 3100.06 | 10100.03 | 3100.25 | 2700.24 | 9300.09 | 25400.02 | 27200.01 | 0.00 |
Distances de Mahalanobis :
country | Afghanistan | Albania | Algeria | Angola | Antigua and Barbuda | Argentina | Armenia | Australia | Austria | Azerbaijan |
---|---|---|---|---|---|---|---|---|---|---|
country | ||||||||||
Afghanistan | 0.00 | 1.12 | 2.04 | 3.02 | 2.39 | 2.27 | 0.67 | 3.02 | 3.55 | 3.29 |
Albania | 1.12 | 0.00 | 1.45 | 2.20 | 1.31 | 2.26 | 0.49 | 2.68 | 2.56 | 2.69 |
Algeria | 2.04 | 1.45 | 0.00 | 1.55 | 2.10 | 1.44 | 1.52 | 2.40 | 2.70 | 1.28 |
Angola | 3.02 | 2.20 | 1.55 | 0.00 | 2.15 | 2.96 | 2.46 | 3.72 | 3.04 | 1.60 |
Antigua and Barbuda | 2.39 | 1.31 | 2.10 | 2.15 | 0.00 | 3.17 | 1.80 | 3.04 | 1.75 | 3.00 |
Argentina | 2.27 | 2.26 | 1.44 | 2.96 | 3.17 | 0.00 | 2.07 | 1.78 | 3.33 | 2.04 |
Armenia | 0.67 | 0.49 | 1.52 | 2.46 | 1.80 | 2.07 | 0.00 | 2.71 | 2.96 | 2.80 |
Australia | 3.02 | 2.68 | 2.40 | 3.72 | 3.04 | 1.78 | 2.71 | 0.00 | 2.38 | 2.97 |
Austria | 3.55 | 2.56 | 2.70 | 3.04 | 1.75 | 3.33 | 2.96 | 2.38 | 0.00 | 3.19 |
Azerbaijan | 3.29 | 2.69 | 1.28 | 1.60 | 3.00 | 2.04 | 2.80 | 2.97 | 3.19 | 0.00 |
Point de référence :
exports | imports |
---|---|
91.68 | 6.55 |
Groupe d'individus :
exports | imports | poids | inertie | |
---|---|---|---|---|
country | ||||
Samoa | 29.20 | 53.10 | 0.01 | 36.35 |
Iraq | 39.40 | 34.10 | 0.01 | 20.91 |
Netherlands | 72.00 | 63.60 | 0.01 | 21.81 |
Paraguay | 55.10 | 51.50 | 0.01 | 20.11 |
Oman | 65.70 | 41.20 | 0.01 | 11.23 |
Point de référence :
exports | imports |
---|---|
73.71 | 35.08 |
Groupe d'individus :
exports | imports | poids | inertie | |
---|---|---|---|---|
country | ||||
Samoa | 29.20 | 53.10 | 0.01 | 13.81 |
Iraq | 39.40 | 34.10 | 0.01 | 7.06 |
Netherlands | 72.00 | 63.60 | 0.01 | 4.89 |
Paraguay | 55.10 | 51.50 | 0.01 | 3.69 |
Oman | 65.70 | 41.20 | 0.01 | 0.61 |
Point de référence :
exports | imports |
---|---|
75.23 | 59.64 |
Groupe d'individus :
exports | imports | poids | inertie | |
---|---|---|---|---|
country | ||||
Samoa | 29.20 | 53.10 | 0.01 | 12.94 |
Iraq | 39.40 | 34.10 | 0.01 | 11.60 |
Netherlands | 72.00 | 63.60 | 0.01 | 0.16 |
Paraguay | 55.10 | 51.50 | 0.01 | 2.82 |
Oman | 65.70 | 41.20 | 0.01 | 2.58 |
Point de référence :
exports | imports |
---|---|
91.68 | 6.55 |
Groupe d'individus :
exports | imports | poids | inertie | |
---|---|---|---|---|
country | ||||
Samoa | 29.20 | 53.10 | 0.01 | 36.35 |
Iraq | 39.40 | 34.10 | 0.01 | 20.91 |
Netherlands | 72.00 | 63.60 | 0.01 | 21.81 |
Paraguay | 55.10 | 51.50 | 0.01 | 20.11 |
Oman | 65.70 | 41.20 | 0.01 | 11.23 |
Suriname | 52.50 | 38.40 | 0.01 | 15.26 |
Mauritius | 51.20 | 62.20 | 0.01 | 28.35 |
Central African Republic | 11.80 | 26.50 | 0.01 | 40.59 |
Rwanda | 12.00 | 30.00 | 0.01 | 41.31 |
Afghanistan | 10.00 | 44.90 | 0.01 | 48.75 |
Point de référence :
exports | imports |
---|---|
73.71 | 35.08 |
Groupe d'individus :
exports | imports | poids | inertie | |
---|---|---|---|---|
country | ||||
Samoa | 29.20 | 53.10 | 0.01 | 13.81 |
Iraq | 39.40 | 34.10 | 0.01 | 7.06 |
Netherlands | 72.00 | 63.60 | 0.01 | 4.89 |
Paraguay | 55.10 | 51.50 | 0.01 | 3.69 |
Oman | 65.70 | 41.20 | 0.01 | 0.61 |
Suriname | 52.50 | 38.40 | 0.01 | 2.76 |
Mauritius | 51.20 | 62.20 | 0.01 | 7.44 |
Central African Republic | 11.80 | 26.50 | 0.01 | 23.39 |
Rwanda | 12.00 | 30.00 | 0.01 | 22.96 |
Afghanistan | 10.00 | 44.90 | 0.01 | 24.88 |
Point de référence :
exports | imports |
---|---|
75.23 | 59.64 |
Groupe d'individus :
exports | imports | poids | inertie | |
---|---|---|---|---|
country | ||||
Samoa | 29.20 | 53.10 | 0.01 | 12.94 |
Iraq | 39.40 | 34.10 | 0.01 | 11.60 |
Netherlands | 72.00 | 63.60 | 0.01 | 0.16 |
Paraguay | 55.10 | 51.50 | 0.01 | 2.82 |
Oman | 65.70 | 41.20 | 0.01 | 2.58 |
Suriname | 52.50 | 38.40 | 0.01 | 5.80 |
Mauritius | 51.20 | 62.20 | 0.01 | 3.50 |
Central African Republic | 11.80 | 26.50 | 0.01 | 30.67 |
Rwanda | 12.00 | 30.00 | 0.01 | 29.20 |
Afghanistan | 10.00 | 44.90 | 0.01 | 26.78 |
L'inertie totale correspond à l'inertie du nuage d'individus \(\boldsymbol{X}\) par rapport à son centre de gravité.
L'inertie inter-classe correspond à l'inertie du nuage des centres de gravité des classes par rapport au centre de gravité du nuage d'individus
L'inertie inter-classe correspond à l'inertie du nuage des centres de gravité des classes par rapport au centre de gravité du nuage d'individus
Pour démontrer la propriété de décomposition de l'inertie totale, commençons par démontrer la propriété suivante :
Démonstrations du Théorème de Huygens
Par définition, nous avons :
Démonstrations de la propriété de décomposition
IT | IB | IW | %I | |
---|---|---|---|---|
Clustering summary | 809.29 | 55.10 | 754.19 | 6.81 |
IT | IB | IW | %I | |
---|---|---|---|---|
Clustering summary | 809.29 | 632.23 | 177.06 | 78.12 |