Bonjour, nous sommes le 15/06/2026 et il est 15 h 46.





BIOSTATISTIQUE

 

 

 

 

 

DECOUPAGE DES DONNEES EN CLASSE

REGLE DE MACK MPINGIYABO

 

 

?

 

Mack MPINGIYABO KABEYA

Epidémiologiste et Big Data

Kinshasa/RDC

                                                                                          

                                                                                          

                                                                                          

                                                                                          

       Parrainé par Professeur Secrétaire générale Académique ISSS/                                Ordinaire                 RISASI ETUTU Richard Ph.D                      CR                                 

Edition 2017

BIOSTATISTIQUE a. Définition

La bio-statistique est l’étude de la statistique aux sciences de la vie (la santé, médecine, l’agronomie …). Elle intéresse donc tous les chercheurs en science de la vie. b. Mise en ordre des données

Les données statistiques, une fois collectées, peuvent être traitées sans regroupement ou avec regroupement par classe. On parlera alors respectivement, des données non groupées et des données groupées par classes.

b.1 Données non groupées

Une distribution non groupée consiste en une simple énumération des observations en désordre ou de préférence rangées par ordre croissant ou décroissant. Les valeurs collectées doivent être ordonnées de manière à faciliter les traitements ultérieurs. Les valeurs collectées doivent être ordonnées  et n<30 b.2 Données groupées par classes

Quand le nombre de valeurs observées distinctes est élevé, il est souvent nécessaire de condenser encore les tableaux statistiques ; en groupant les observations en classes ou en catégories. On obtient ainsi des distributions de fréquences groupées en classes ou en distributions groupées. Ce type de distribution est particulièrement utile lorsqu’on dispose d’un grand nombre de données relatives à une variable continue dont les valeurs observées sont proches les unes des autres. Pour les données groupées n≥30.

Lorsque les résultats de l'enquête statistique sont trop nombreux pour que la liste triée des valeurs soit lisible, on préfère perdre de l'information et ranger les données par intervalles appelés classes. Il faut alors que, dans chaque classe, la répartition des valeurs soit régulière (Wikipedia, 2016). Il n'est pas indispensable que les classes soient de même amplitude, mais il est préférable de ne pas définir de classes de la forme « plus de ... » qui empêcherait alors tout traitement ultérieur (histogramme, moyenne...). On compte alors le nombre de fois où la valeur du caractère tombe dans l'intervalle [xi;xi+1[, ce nombre est appelé effectif de la classe  (Wikipedia, 2016).

 

c. Découpage en classe (discrétisation)

Discrétiser une variable quantitative c'est, mathématiquement, transformer un vecteur de nombres réels en un vecteur de nombres entiers nommés "indices de classe". C'est pourquoi effectuer cette transformation se dit en langage courant "réaliser un découpage en classes" (Hunault,

2016).

d. Formules de découpage d'une plage des valeurs en tranche (classe) Nombre de classe (k)

1. Règle de STURGES

La règle de Sturges est une formule mathématique proposée par Herbert Sturges (1882-1958). Elle sert à découper une plage de valeurs en tranches pour en faire la description statistique : tableaux de fréquences, histogramme , etc. (Herbert, 1926 cité par Wikipedia, 2016). Pour ce faire, on découpe la plage en un certain nombre k de tranches ou classes afin de recueillir le nombre d'observations par tranche.

k=1+log 2 N (à ne pas utiliser, car le résultat ne sera pas, en général, entier. Il donne une appréciation de ce qui ferait un bon découpage).

k=nombre de classe N= taille de l'échantillon

log2 = le logarithme en base 2 qui vaut 0,30103 ≈ 3/10.                                     

 

       (ok correcte)

k=nombre de classe

N= taille de l'échantillon

Log = le logarithme en base 10

 

2. Règle de YULE

 𝐤 = 𝟐, 𝟓𝟒𝐍                (ok correcte)

k=nombre de classe

N= taille de l'échantillon

Il s'agit selon Birgé et Rozenholc (2006) cité par Wikipedia (2016). 

3. Règle de FREEDMAN-DIACONIS  

 

 

k=nombre de classe

N= taille de l'échantillon

IQ (x)=écart interquartile de la plage des données x

Il s'agit selon Freedman et Diaconis (1981) cité par Wikipedia (2016).  

4. Règle de HUNTSBERGER

   k=1+3,332 logN     (ok correcte)

 

k=nombre de classe

N= taille de l'échantillon log = le logarithme en base 10 Il s'agit selon Hunault (2016).

 

5. Règle de BROOKS-CARRUTHERS         k=5*logN

log = le logarithme en base 10 Il s'agit selon Hunault (2016).

6. Règle de SCOTT

 

k=nombre de classe

N= taille de l'échantillon sig=écart type

Il s'agit selon Hunault (2016).

7. Règle de MACK MPINGIYABO

En s'appuyant aux formules de Sturges et Yule, et en

appliquant la base du Logarithme népérien nous avons:

k= 𝑙𝑛12 4√N  (formule approximative) k=                   (ok correcte)

k=nombre de classe

N= taille de l'échantillon ln=Logarithme népérien e=exponentiel

Il s'agit selon MPINGIYABO (2016).

Etendue de variation (w)

     

 W= valeur maximale - valeur minimale

 

 

Intervalle de classe (i)

𝐢 =  

𝐤

i=intervalle de classe k=nombre de classe w= étendue de variation

Exemple                                                                                                             :

Une étude menée par Mack MPINGIYABO auprès de 46 enfants hospitalisés à l’Hôpital pédiatrique de Kalembelembe/ville de Kinshasa avec comme diagnostic neuropaludisme dont l’âge vaut : 4, 4, 5, 9, 3, 5, 2, 5, 8, 10, 9, 11, 14, 2, 6, 7, 3, 9, 12, 13, 4, 10, 3, 2, 8, 14, 9, 3, 7, 6, 2, 3, 12, 3, 9, 10, 11, 9, 13, 6, 9, 10,8, 8,8 11.

a.   Déterminer la classe d’âge la plus touchée par la maladie ;

b.  Calculer les indices de tendance centrale (moyenne, médiane et mode) ;

c.   Calculer la fréquence relative ;

d.   Calculer la proportion en ‰    

 

N.B  : Travaillez avec deux chiffres après la virgule sans arrondir.

 

R/

Il faut d'abord regrouper les données en recourant aux formules de STURGES ou de Mack MPINGIYABO ou encore de YULE.

 

Règle de Sturges

 

W=V. V.min = 14-2= 12

 

   = 1+1,66.3, 33=1+5,52=6,527

12

 

Ou

Règle de Mack Mpingiyabo

 

W=V. max-V.min = 14-2= 12

3

k=  

                  = 2,51.2,60=6,527

12

 

 

 

Ou encore

Règle de Yule

 

W=V. max-V.min = 14-2= 12

k = 2,54√N= 2,54√46

    = 2,5.2,60=6,57

12

 

 

2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4,4, 5, 5, 5, 6, 6, 6, 7, 7, 8, 8, 8, 8,8,9, 9, 9, 9, 9,9,9 10, 10, 10, 10,11, 11, 11, 12, 12, 13, 13, 14, 14.

Classe

f

Xi

fc

fr

f.xi

2 - 3 4 - 5 6 - 7

8 - 9

10-11

12-13

14-15

10

6

5

12

7

4

2

2,5

4,5

6,5

8,5

10,5

12,5

14,5

10

16 21

33

40

44 46

0,21

0,13

0,10

0,26

0,15

0,08

0,04

210 130

100

260

150

80

40

25

27

32,5

102

73,5

50

29

Σ

46

 

 

0,971

9701000

339

 

a.   La classe la plus touchée par la maladie est 8-9 ans

 

b.  Moyenne

  

º Médiane

 

𝑛⁄2 = 46⁄2=23 pour la classe médiane, c'est la 4éme classe 8-12

 

 

º Mode

 

Selon THIBAULT (2018)

 

 

Ou

 

 

º Fréquence relative

 

 

 

 

Classe

f

Xi

fc

fr

f.xi

[2 - 4[

[4 - 6[

[6 - 8[

[8 - 10[

[10-12[

[12-14[

[14-16[

10

6

5

12

7

4

2

2,5

4,5

6,5

8,5

10,5

12,5

14,5

10

16 21

33

40

44

 

210 130

100

260

150

80

40

25

27

32,5

102

73,5

50

29

Σ

46

 

 

9701000

339

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BIBLIOGRAPHIE

 

Birgé L. et Rozenholc Y., « How many bins should be put in a regular histogram»,  ESAIM: Probability and Statistics, vol. 10,  2006, p. 24-45

David Freedman et Persi Diaconis, «On the histogram as a density estimator: L2 theory », Probability Theory and Related Fields, vol. 57, no 4, 1981, p. 453-476

Herbert A. Sturges, « The Choice of a Class Interval », Journal of the                    American Statistical Association, vol. 21, n° 153, mars 1926. Hunault Gilles, Découpage en classe et discrétisation, 2016.

                     www.info.univ-angers.fr/gh/wstat/Discre/gdr.php

MPINGIYABO Mack, Biostatistique I L1 saco, ISSSCR, Kinshasa, 2016. Wikipedia, Encyclopédie libre, Règle de Sturges, Etats-Unis, 2016.                        https //fr.wikipedia.org/wiki/regle de Sturges

Wikipedia, Encyclopédie libre, Statistiques élémentaires continues, Etats-Unis,

2016.

               https //fr.wikipedia.org/wiki/Statistiques élémentaires continues

 

Article disponible sur demande