Introduction à la statistique descriptive

Enregistrer ce cours

Les statistiques ont pour origine le besoin des États pour gérer rationellement leurs ressources. Pour cela, il était nécessaire après collecte d'information (nécessité de techniques de quantification ; production de données nombreuses, organisées en tableaux) de disposer de méthodes permettant de définir les variations, les évolutions, les ressemblances ou les différences entre régions, entre années, entre catégories.

 

Exemple de problèmes :
Dénombrement des populations humaines : recensements
Dénombrement des terres et répartition du foncier, cadastre.
Calcul et répartition des impôts.

Ces techniques se sont mises en place grâce au développement du calcul des probabilités au 18ème siècle ; puis, au 19ème siècle grâce à l'essort des méthodes statistiques.
Il s'agissait au départ de l'étude méthodique des faits sociaux par des procédés numériques : classements, dénombrements, inventaires chiffrés, recensements, destinés à renseigner et à aider les gouvernements dans leurs prises de décisions.
À partir de 1843, la statistique désigne l'ensemble de techniques d'interprétation mathématique appliquées à des phénomènes pour lesquels une étude exhaustive de tous les facteurs est impossible, à cause de leur grand nombre ou de leur complexité. Les statistiques s'appuient sur les probabilités et sur la loi des grands nombres.

La statistique vise à décrire, à résumer et à interpréter des phénomènes dont le caractère essentiel est la variabilité. Elle fournit de la manière la plus rigoureuse possible des éléments d'appréciation utiles à l'explication ou à la prévision de ces phénomènes, mais elle n'explique ni ne prévoit aucun d'entre eux (VIGNERON 1997). La méthode statistique permet également d'éprouver la validité de résultats (obtenus, mesurés, collectés) en fonction même de leur variabilité, dans les domaines où les variations sont la règle, c'est-à-dire les domaines de la biologie sensu lato, dans celui des sciences de l'environnement également. La méthode statistique fournit de ce fait à tous les personnels confrontés à l'interprétation de résultats d'observation ou d'expérimentation, un outil d'interprétation adapté aux conditions particulières de leur domaine d'activité.

L'attrait des chiffres tient dans la croyance que la mensuration est le critère primordial de toute étude scientifique (Francis GALTON). Cette fascination répond à l'idée que ce nous voyons et mesurons dans le monde n'est que la représentation superficielle et imparfaite d'une réalité cachée.
Il faut se méfier de cette tendance qui veut que les mesures abstraites résumant de grands tableaux de données doivent exprimer nécessairement quelque chose de plus réel et de plus fondamental que les données elles-mêmes. Tout statisticien doit faire un effort pour contrebalancer cette tendance. C'est pourquoi toute interprétation statistique doit préciser clairement quelles données (population, échantillon), et quelles hypothèses ont été utilisées pour aboutir à un certain type de conclusion.

Exemple : l'estimation du niveau de l'encadrement pédagogique en France.

La démarche générale

Toute étude statistique peut être décomposée en deux phases au moins : le recueil ou la collecte des données statistiques, et leur analyse ou leur interprétation.

1. le recueil des données

Le recueil des données peut être réalisé soit par la simple observation des phénomènes, soit par l'expérimentation, c'est-à-dire en provoquant volontairement l'apparition de certains phénomènes contrôlés.
Exemple : le rôle de quelques substances (N, P, K) dans la production de biomasse chez les végétaux.

Lorsque les données sont très nombreuses, ou particulièrement difficiles à obtenir, il sera nécessaire pour la mise en oeuvre rationnelle du recueil de définir des méthodes appropriées de collecte. Il s'agira de plans d'échantillonnage ou de plans d'expérience dont la mise en oeuvre sera fonction du type de problème que l'on est amené à résoudre.
Exemple : la numération des mammifères d'une aire protégée : inventaire et recensement.

2. l'analyse et l'interprétation des données

L'analyse statistique se subdivise en deux étapes

  • La statistique déductive ou descriptive : elle a pour but de résumer et de présenter les données observées sous la forme la plus accessible (simplification et réduction des données, à la fois visuelle et conceptuelle).
  • L'analyse inductive ou inférence statistique est l'ensemble des méthodes permettant de formuler en termes probabilistes un jugement sur une population, à partir des résultats observés sur un échantillon extrait au hasard de cette population. Les méthodes statistiques les plus classiques sont celles de l'estimation (estimation par domaine de confiance) et celles de l'épreuve d'hypothèse. Leurs conceptions de base sont dues essentiellement à R.A. FISHER.


Elle permet d'étendre ou de généraliser, dans certaines conditions, les conclusions obtenues par la statistique descriptive à partir de la fraction des individus (échantillon) que l'on a observés ou étudié expérimentalement, à l'ensemble des individus constituant la population.
Les conditions (de validité) sont liées aux hypothèses faites sur la population contenant les individus et sur la faon dont ont été prises les mesures. Cette phase inductive comporte des risques d'erreur qu'il convient d'apprécier.

 

Ces deux étapes sont interdépendantes. En particulier, l'observation et l'expérimentation doivent être organisées (protocole) de manière à satisfaire les conditions d'applications des méthodes de l'inférence.

Les calculs numériques revêtent en statistique une importance considérable. Il faut donc s'assurer de la validité des résultats obtenus, sinon il est totalement illusoire d'utiliser des méthodes d'analyse plus ou moins complexes. Pour minimiser les erreurs grossières (position des virgules ou des points décimaux), il faut effectuer les calculs deux fois et indépendamment, puis confronter les résultats obtenus. Pour les erreurs d'approximation ou d'arrondi, il faut commencer les calculs par les opérations "exactes" (additions, soustraction, produits) et terminer par les opérations "approchées" (division, extraction de racines). Pour augmenter la précision du résultat, il est généralement utile de conserver un ou deux chiffres non significatifs au cours des différentes opérations individuelles d'une suite de plusieurs opérations. Ces chiffres non significatifs sont éliminées à l'issue des calculs, en arrondissant le résultat final. Si l'utilisation de l'ordinateur a considérablement réduit les riques d'erreurs lors des calculs, il faut accorder une attention toute particulière à la saisie des tableaux de données et s'assurer qu'aucune erreur ne subsiste.

 

 

©   I-Cours Par DMN