3 Statistiques descriptives
Les statistiques descriptives nous permettent de comprendre la distribution de nos données. Nous allons présenter les indicateurs de moments et de tendances centrales tels le minimum, la moyenne, l’écart-type, la médiane et le maximum.
Pour les variables qualitatives, nous affichons le nombre de modalités et la modalité la plus fréquente pour la colonne (mode).
| Min | Moyenne | Ecart_type | Max | Médiane | |
|---|---|---|---|---|---|
| print_collection | 0 | 9.1e+04 | 414998 | 2.2e+07 | 2.9e+04 |
| audio_collection | 0 | 5.4e+03 | 22733 | 7.5e+05 | 1.1e+03 |
| county_population | 262 | 3.0e+05 | 782641 | 1.0e+07 | 6.3e+04 |
| downloadable_audio | 0 | 6.1e+03 | 12665 | 2.6e+05 | 2.5e+03 |
| physical_video | 0 | 7.3e+03 | 27651 | 8.3e+05 | 2.0e+03 |
| hours_open | 104 | 4.3e+03 | 9389 | 2.2e+05 | 2.4e+03 |
| print_subscriptions | 0 | 1.6e+02 | 1136 | 7.5e+04 | 5.0e+01 |
| registered_users | 0 | 2.1e+04 | 86631 | 2.9e+06 | 4.2e+03 |
| interlibrary_loans_provided | 0 | 7.5e+03 | 26598 | 6.0e+05 | 3.8e+02 |
| interlibrary_loans_received | 0 | 7.5e+03 | 27798 | 9.6e+05 | 5.1e+02 |
| childrens_programs | 0 | 3.1e+02 | 1003 | 2.9e+04 | 1.0e+02 |
| young_adult_programs | 0 | 5.4e+01 | 280 | 1.1e+04 | 8.0e+00 |
| internet_computer_use | 0 | 3.9e+04 | 184719 | 6.5e+06 | 7.1e+03 |
| ST_state_population | 582658 | 1.0e+07 | 8969511 | 3.8e+07 | 6.6e+06 |
| wireless_internet_sessions | 0 | 2.7e+04 | 272179 | 1.4e+07 | 1.3e+03 |
| branch_libraries | 0 | 9.7e-01 | 4 | 9.1e+01 | 0.0e+00 |
| local_government_operating_revenue | 0 | 1.2e+06 | 5507524 | 1.4e+08 | 1.7e+05 |
| local_cooperative_agreements | 0 | 9.5e+00 | 23 | 6.4e+02 | 3.0e+00 |
| digital_collection | 0 | 2.0e+04 | 39157 | 1.0e+06 | 6.1e+03 |
| mls_librarians | 0 | 3.8e+00 | 16 | 4.9e+02 | 5.0e-01 |
Ce qu’on peut constater de l’observation de ce tableau est que l’amplitude des colonnes numériques varie grandement. Une chose est importante à noter aussi : l’écart-type de chacune des colonnes est très élevée, cela indique une grande disparité autour de la moyenne des colonnes. A priori nous ne pouvons pas dire si ces colonnes sont normalement distribuées.
Il existe aussi dans le jeu de données des variables catégorielles. Nous allons afficher les statistiques associées.
| Modalities | MostFrequent | NbFrequent | Missing | |
|---|---|---|---|---|
| library_name | 5583 | ANCHOR POINT PUBLIC LIBRARY | 1 | 0 |
| administrative_structure | 3 | SO | 4419 | 0 |
| interlibrary_relationship | 3 | ME | 4020 | 0 |
| ST_region_code | 8 | st_2 | 1306 | 0 |
| legal_basis | 9 | CI | 2583 | 0 |