Le principe de l’analyse de variance consiste à décomposer la variance (ici toutes les variations des notes de maths) en deux parties:
- la variance « inter-groupes », qui mesure les différences entre les catégories de bacs. Elle est due à la variable explicative (le facteur) qui est ici le type de bac.
- la variance « intra-groupes », différences à l’intérieur de chaque type de bacs. Cette variance est due aux autres choses (appelé le résidu), qui sont tous les facteurs autres que le bac : l’assiduité au cours, la motivation pour la matière, le niveau d’intelligence etc…
On veut savoir si le bac d'origine influence les notes obtenues en maths. Voici le détail des notes en maths des 20 élèves de la classe, répartis par bacs d’origine.
Bac | Bac L | Bac ES | Bac S | Bac STT/STS |
Notes | 8 | 11 | 13 | 9 |
| 10 | 12 | 15 | 8 |
| 9 | 11 | 12 | 10 |
| 10 | 14 | 13 | |
| 16 | | 9 | |
| 7 | | 14 | |
| | | 15 | |
Somme | 60 | 48 | 91 | 27 |
Moyenne | 10 | 12 | 13 | 9 |
Somme totale : 226 - Moyenne générale : 11,3
Les calculs pour réaliser une analyse de variance (ANOVA)
| Somme des carrés | Degrés de liberté | Carré moyen | F |
Due au facteur (à la variable explicative) | SCf | k-1 | CMf = SCf / k-1 | CMf / CMr |
Résiduel (au reste) | SCr | n-k | CMr = SCr / n-k | |
k= nb de modalités du facteur (variable explicative) et n= nombre d’observations
Formules de calcul nécessaires
SCf = S ((S x.j)²/ni) - (S xij)²/n => précisons que S x.j = Somme de la jième modalité (colonne)
SCr = S (xij)² - S ((S x.j)²/ ni)
Illustrons les formules de calcul avec notre exemple
S ((S x.j)²/ni) = 60²/6 48²/4 91²/7 27²/3 = 600 576 1183 243 = 2602
(S xij)²/n = 226²/20 = 2553,8
SCf = 2602 - 2553,8 = 48,2
S (xij)² = 2686
SCr = 2686 – 2602 = 84
| Somme des carrés | Degrés de liberté | Carré moyen | F |
Due au facteur BAC (à la variable explicative) | 48,2 | 3 | 48,2 / 3 = 16,07 | 16,07 / 5,25 = 3,06 |
Résiduel (au reste) | 84 | 16 | 84 / 16 = 5,25 | |
k= nb de modalités du facteur (variable explicative) = 4 types de bacs
n= nombre d’observations = 20
Dans notre exemple, le F calculé atteint donc
3,06. On pourrait dire qu’il y a « environ 3 fois plus de variations » dues au Bac qu’aux autres éléments explicatifs. Cela est-il suffisant pour conclure que le baccalauréat d’origine influence nettement la note obtenue en statistique ? Pour obtenir une réponse scientifique, on va comparer le F calculé à un F théorique que l’on va rechercher -comme pour le chi-deux-
dans la table statistique correspondante. Le F théorique s’obtient en fonction du taux d’erreur (0,05 usuellement, de DF1= k-1 et de DF2
= n-k (DF=degrés de liberté)
Dans notre cas, le F théorique est de 3,24 pour p=0,05, DF1=3 et DF2=16. On conclut pour un seuil de confiance de 95% que le bac d’origine ne peut être considéré comme un facteur qui influence la note de maths, d’une manière significative.