7 Classification ascendante hiérarchique (CAH)
La classification ascendante hiérarchique (CAH) est une technique statistique visant à partitionner une population en différents sous-groupes, appelé aussi classes ou clusters. La CAH cherche à ce que les individus au sein d’une même classe soient les plus proches possibles (homogénéité intra-classe) tandis que les classes soient les plus dissemblables possibles. 1
Le nombre des clusters est déterminé automatiquement lors de la classification, car c’est ce qui sépare le mieux les bibliothèques. Toutefois on observe qu’il y a quelques chevauchements.
A mesure que le pouvoir explicatif des axes décroit, la classification des individus se chevauche.
Affichons le nombre d’individus dans chaque cluster.
Cluster | Individus |
---|---|
1 | 791 |
2 | 231 |
3 | 315 |
7.1 Caractéristiques des clusters
7.2 Cluster 1
Le tableau des résultats décrivant les caractéristiques des clusters contient 5 colonnes et autant de lignes que les variables et modalités qui influencent ce cluster. Voici une description de ce que représente chaque colonne :
Cla/mod indique quelle part (pourcentage) de tous les individus présentant cette modalité se retrouve dans cette classe (ce cluster, cette catégorie). Autrement dit, c’est la fréquence du cluster dans la modalité.
Mod/cla indique quelle part (pourcentage) de tous les individus du cluster présentent cette modalité. C’est la fréquence de la modalité dans le cluster. [^3]
Global : indique le nombre total d’occurrence de la modalité.
p.value : indique la significativité de la modalité dans la construction de la classe.
v.test : indique la statistique du test. C’est un moyen alternatif pour lire la significativité de la modalité. Une v.test supérieure en valeur absolue à 1.96 indique la modalité est significative à un seuil d’erreur inférieur à 5%.
Or ce tableau peut être très long car il contient la liste de toutes les modalités qui contribuent à définir le cluster et comme nous avons vu dans le graphique des clusters, il y a des chevauchements donc il serait pertinent de ne relever que les modalités les plus exclusives à ce cluster. Nous déterminons ces modalités à partir de la colonne Cla/mod qui indique la part des individus qui possèdent la modalité étudiée se trouvant dans le cluster. La logique est que si un fort pourcentage des individus possèdent la modalité c’est que cette modalité leur est propre.
Cla.Mod | Mod.Cla | Global | p.value | v.test | |
---|---|---|---|---|---|
audio_collection=audio_collection_no | 100 | 1.01 | 0.60 | 0.01 | 2.4 |
legal_basis=SD | 100 | 0.88 | 0.52 | 0.03 | 2.2 |
ST_region_code=st_4 | 93 | 28.07 | 17.80 | 0.00 | 12.9 |
legal_basis=CI | 93 | 70.54 | 44.88 | 0.00 | 24.1 |
ST_region_code=st_1 | 87 | 13.78 | 9.42 | 0.00 | 7.0 |
ST_state_population=500K-4M | 83 | 54.49 | 39.04 | 0.00 | 14.3 |
ST_region_code=st_8 | 82 | 7.59 | 5.46 | 0.00 | 4.3 |
ST_region_code=st_6 | 81 | 4.30 | 3.14 | 0.00 | 3.0 |
hours_open=<2340_h | 78 | 54.74 | 41.51 | 0.00 | 12.0 |
internet_computer_use=internet_computer_use_low | 77 | 24.78 | 19.07 | 0.00 | 6.6 |
local_cooperative_agreements=local_cooperative_agreements_no | 77 | 31.61 | 24.38 | 0.00 | 7.6 |
print_collection=<25000 | 76 | 47.16 | 36.50 | 0.00 | 9.9 |
administrative_structure=SO | 76 | 98.48 | 76.44 | 0.00 | 24.1 |
hours_open=2340-3150h | 76 | 38.69 | 30.22 | 0.00 | 8.3 |
branch_libraries=branch_libraries_no | 74 | 99.62 | 79.88 | 0.00 | 23.3 |
internet_computer_use=internet_computer_use_medium | 73 | 23.39 | 19.00 | 0.00 | 5.0 |
young_adult_programs=young_adult_programs_no | 73 | 26.17 | 21.32 | 0.00 | 5.3 |
digital_collection=7500+ | 72 | 75.60 | 61.93 | 0.00 | 12.4 |
ST_region_code=st_7 | 72 | 9.86 | 8.08 | 0.00 | 2.9 |
ST_region_code=st_3 | 69 | 19.47 | 16.75 | 0.00 | 3.2 |
Le cluster 1 est constitué de bibliothèques ayant dans leur catalogue moins de 25000 œuvres imprimées. Ce sont des bibliothèques situées dans des petites comtés (moins de 65000 habitants) et qui ouvrent en moyenne 6 heures et demi par jour (week-end y compris). Ces bibliothèques n’ont pas dans leur catalogue des vidéos ou des fichiers audio. Elles ne sont pas spécifiques à une région en particulier car elles sont étendue dans 4 régions différentes.font partie des Etats de taille moyenne (500.000 à 4 million d’habitants. Elles ont une faible utilisation d’Internet et sont à grande partie des structures administratives à guichet unique (administrative_structure=SO).
7.3 Cluster 2
Cla.Mod | Mod.Cla | Global | p.value | v.test | |
---|---|---|---|---|---|
legal_basis=NP | 86 | 83 | 16.7 | 0.00 | 26.6 |
ST_state_population=10M+ | 86 | 90 | 18.2 | 0.00 | 28.3 |
legal_basis=OT | 84 | 12 | 2.4 | 0.00 | 8.4 |
ST_region_code=st_2 | 77 | 90 | 20.0 | 0.00 | 26.6 |
downloadable_audio=downloadable_audio_medium | 60 | 23 | 6.5 | 0.00 | 9.3 |
digital_collection=<7500 | 38 | 84 | 38.1 | 0.00 | 16.0 |
county_population=300K+ | 37 | 43 | 20.0 | 0.00 | 8.8 |
county_population=65K-300K | 25 | 38 | 25.8 | 0.00 | 4.4 |
internet_computer_use=internet_computer_use_medium | 23 | 26 | 19.0 | 0.01 | 2.7 |
hours_open=2340-3150h | 23 | 40 | 30.2 | 0.00 | 3.4 |
print_collection=<25000 | 22 | 47 | 36.5 | 0.00 | 3.7 |
administrative_structure=SO | 22 | 97 | 76.4 | 0.00 | 9.3 |
hours_open=<2340_h | 22 | 52 | 41.5 | 0.00 | 3.6 |
branch_libraries=branch_libraries_no | 21 | 97 | 79.9 | 0.00 | 8.2 |
internet_computer_use=internet_computer_use_high | 20 | 39 | 32.8 | 0.05 | 2.0 |
Les bibliothèques qui se trouvent dans le cluster 2 ouvrent en moyenne entre 6.5 heures et 9h par jour (week-end y compris). Elles ont une utilisation très importante d’Internet. Elle sont localisées dans les comtés de plus de 300 mille habitants et dans les grands Etats américains (+ 10 million d’habitants). Le nombre de leur catalogue d’oeuvres imprimées dépasse les 25000. Elles ont dans leurs catalogues des fichiers vidéo et audio. Ce sont des bibliothèques qui font partie d’une fédération des bibliothèques (interlibrary_relationship = ME). Légalement ces bibliothèques ont le statut d’associations à but non lucratif (legal_basis = NP)
7.4 Cluster 3
Cla.Mod | Mod.Cla | Global | p.value | v.test | |
---|---|---|---|---|---|
administrative_structure=MA | 100 | 4.8 | 1.12 | 0.00 | 6.3 |
mls_librarians=+10 | 100 | 3.5 | 0.82 | 0.00 | 5.3 |
branch_libraries=branch_libraries_yes | 96 | 82.2 | 20.12 | 0.00 | 30.5 |
administrative_structure=MO | 94 | 89.2 | 22.44 | 0.00 | 31.9 |
mls_librarians=5-10 | 87 | 8.6 | 2.32 | 0.00 | 7.5 |
hours_open=>3150_h | 81 | 97.8 | 28.27 | 0.00 | 31.8 |
legal_basis=CO | 71 | 33.6 | 11.22 | 0.00 | 13.1 |
legal_basis=MJ | 61 | 11.1 | 4.26 | 0.00 | 6.2 |
ST_region_code=st_5 | 60 | 49.2 | 19.30 | 0.00 | 14.4 |
internet_computer_use=internet_computer_use_very_high | 57 | 69.8 | 29.09 | 0.00 | 17.6 |
interlibrary_relationship=HQ | 48 | 3.2 | 1.57 | 0.02 | 2.4 |
legal_basis=LD | 43 | 34.0 | 18.55 | 0.00 | 7.6 |
interlibrary_relationship=NO | 40 | 54.6 | 32.01 | 0.00 | 9.6 |
print_collection=25000+ | 36 | 98.1 | 63.50 | 0.00 | 16.7 |
ST_state_population=4M-10M | 36 | 64.8 | 42.78 | 0.00 | 9.0 |
Ces bibliothèques se situent à la fois dans des Etats de taille moyennes (4 à 10 millions d’habitants) et dans des grands Etats (plus de 10 million). Elles sont à la fois des bibliothèques de quartiers. Ce qui est significativement spécifique aux bibliothèques de ce cluster c’est le fait d’avoir des branches externes et que ce sont à majorité des bibliothèques ayant plusieurs guichets. Ces bibliothèques ouvrent plus de 9h par jours (y compris les week-end) et n’ont pas de relation avec les autres bibliothèques. Elles ont un grand nombre de libraires ayant des diplômes supérieures (mls_librarians >10). Les bibliothèques de ce cluster ne sont pas caractérisées par un seul statut juridique, car elles peuvent être multi-juridictionnelles (legal_basis = MJ), gérée par le comté (legal_basis = CO) ou sont encore des bibliothèques de quartier (legal_basis = LD).
7.5 Individus parangons et individus spécifiques
Le commentaire des clusters ressort les caractéristiques des bibliothèques. Or nous observons qu’il y a des chevauchements entre les classes. En effet, plusieurs des modalités sont partagées par les 3 classes. Nous serons donc intéressés de savoir les caractéristiques de “l’individu moyen” de chaque classe. Autrement dit l’individu parangon de chaque classe.
Un individu parangon est un individu dont les coordonnées sont les plus proches du centre de gravité du groupe. Le profil de cet individu caractérise alors le groupe auquel il appartient. 2
Nous allons afficher pour chaque classe les individus parangons.
Les individus parangons du cluster 1 :
Distance | Individus |
---|---|
0.12 | HUDSON PUBLIC LIBRARY.2 |
0.13 | CLIFTON FORGE PUBLIC LIBRARY |
0.17 | CHELSEA PUBLIC LIBRARY |
0.17 | WABASHA PUBLIC LIBRARY |
0.18 | JASPER PUBLIC LIBRARY |
Les parangons du cluster 2 :
Distance | Individus |
---|---|
0.13 | SAYRE PUBLIC LIBRARY.1 |
0.14 | PRIESTLEY FORSYTH MEM LIBRARY |
0.15 | GERMAN MASONTOWN PUB LIBRARY |
0.17 | SOUTH BUTLER COMMUNITY LIBRARY |
0.17 | DR WILLIAM B KONKLE MEM LIB |
Les parangons du cluster 3
Distance | Individus |
---|---|
0.15 | PORTSMOUTH PUBLIC LIBRARY.2 |
0.19 | DICKINSON COUNTY LIBRARY |
0.23 | TRANSYLVANIA COUNTY LIBRARY |
0.25 | OTSEGO COUNTY LIBRARY |
0.25 | SUMMIT COUNTY LIBRARY |
Trouvons les caractéristiques des clusters dans le jeu de données.
HUDSON PUBLIC LIBRARY.2 | SAYRE PUBLIC LIBRARY.1 | PORTSMOUTH PUBLIC LIBRARY.2 | |
---|---|---|---|
administrative_structure | SO | SO | MO |
print_collection | 25000+ | 25000+ | 25000+ |
audio_collection | yes | yes | yes |
county_population | 65K-300K | <=65000 | 65K-300K |
interlibrary_relationship | ME | ME | NO |
downloadable_audio | high | high | high |
physical_video | yes | yes | yes |
hours_open | <2340_h | <2340_h | >3150_h |
print_subscriptions | 48 | 30 | 332 |
registered_users | 3667 | 8199 | 63417 |
childrens_programs | 28 | 120 | 461 |
young_adult_programs | no | yes | yes |
internet_computer_use | high | medium | very_high |
ST_state_population | 4M-10M | 10M+ | 4M-10M |
ST_region_code | st_3 | st_2 | st_5 |
legal_basis | CI | NP | CI |
wireless_internet_sessions | no | yes | yes |
branch_libraries | no | no | yes |
local_government_operating_revenue | 73083 | 30000 | 2289159 |
local_cooperative_agreements | no | yes | yes |
digital_collection | 7500+ | <7500 | <7500 |
mls_librarians | <5 | <5 | <5 |