Lors de mes cours, j'ai souvent rencontré la situation d'étudiants me demandant :
À force de ne pas savoir comment répondre à ces questions, de lire dans des articles que la « corrélation entre deux variables est (par exemple) 0,38, donc les variables sont corrélées », ... j'ai cherché à trouver la réponse à ces questions.
Dans la section suivante, j'explique le principe du raisonnement. En résumé, le nombre d'échantillons (le nombre d'observations de chaque variable) est le paramètre dont dépend la significativité du coefficient de corrélation linéaire. Aussi, dans la section suivante, je donne une table indiquant le seuil correspondant à chaque valeur du coefficient de corrélation linéaire pour que celle-ci soit significative (au seuil classique α=0,05).
Ci-dessous, la table indique pour chaque valeur du coefficient de corrélation linéaire calculé le nombre minimum d'observations dont chaque vecteur doit être composé. On considère un risque standard α=0,05.
Si on mesure un coefficient de corrélation linéaire de 0,38, la table ci-dessous nous indique qu'il faut disposer de séries composées d'au moins 20 valeurs chacune. Pour 0,73, il suffit de 6 valeurs par série. Pour 0,99, 3 suffisent...
0,00 | 0,01 | 0,02 | 0,03 | 0,04 | 0,05 | 0,06 | 0,07 | 0,08 | 0,09 | |
0,1 | 272 | 225 | 190 | 162 | 140 | 122 | 107 | 95 | 85 | 77 |
0,2 | 69 | 63 | 57 | 53 | 49 | 45 | 422 | 39 | 36 | 34 |
0,3 | 32 | 30 | 28 | 26 | 25 | 24 | 22 | 21 | 20 | 19 |
0,4 | 18 | 17 | 17 | 16 | 15 | 15 | 14 | 14 | 13 | 13 |
0,5 | 12 | 12 | 11 | 11 | 10 | 10 | 10 | 9 | 9 | 9 |
0,6 | 9 | 8 | 8 | 8 | 8 | 7 | 7 | 7 | 7 | 7 |
0,7 | 6 | 6 | 6 | 6 | 6 | 6 | 5 | 5 | 5 | 5 |
0,8 | 5 | 5 | 5 | 5 | 4 | 4 | 4 | 4 | 4 | 4 |
0,9 | 4 | 4 | 4 | 3 | 3 | 3 | 3 | 3 | 3 | 3 |