In lieu of an abstract, here is a brief excerpt of the content:

Échantillon 103 C H A P I T R E 13 Nombre d'observations Étape I : Rapport général, « la racine de N » Nous avons vu l’effet du nombre d’épreuves sur la stabilité d’un estimé et ceci, dans le contexte du CHI et du CHI carré, de la moyenne, et de la corrélation. On étudiera dans un texte en statistique chacun de ces sujets, mais ce qui nous intéresse d’abord c’est d’en tirer les leçons qui éclaircissent le problème de la taille d’un échantillon. Les formules fondamentales à cet égard sont celles de la moyenne et de l’erreur-type, et plus précisément pour un ensemble de N données D, M = SOM(D)/N, la moyenne, et S = SQRT(SOM(D*D)/N - M*M), l’écart-type, dispersion des individus E = S/SQRT(N), l’erreur-type La moyenne et l’écart-type sont calculés à partir des données brutes, tandis que l’erreur-type est un estimé s’appuyant sur la formule dérivée par un texte en statistique descriptive. Considérons ici l’interprétation plutôt que la dérivation, comme suit : L’erreur-type est l’erreur attachée à la moyenne, et ceci, en tenant compte du nombre d’épreuves retenues par la moyenne. Par exemple, si M = 10 et E = 2, on peut alors dire ce qui suit : Notre échantillon a bien donné M = 10, mais si nous prélevons un autre échantillon de la même population, et ceci, dans des conditions strictement pareilles et en supposant que la population n’a pas changé d’un moment à l’autre, alors le hasard seul peut faire en sorte que le nouvel échantillon tombe sur une moyenne de 8 ou de 12 (selon les probabilités spécifiées au chapitre « Moyenne »). Cependant, on peut réduire la variation due au hasard en augmentant le nombre d’épreuves. En particulier, et encore une fois en supposant une population du même sigma qu’auparavant, E = SIGMA/SQRT(N), diviser par la racine de N. Autrement dit, si on veut diminuer l’erreur par 50 % et ainsi doubler la certitude concernant la moyenne, il faut alors quadrupler l’échantillon. Par exemple, si l’erreur-type de 2 se fonde sur N = 10 observations, il faudra alors N = 40 pour diminuer E de 2 à 1, ou encore N = 160 pour le diminuer une autre fois (ou pour aller directement de 2 à 1/2). En fait, si on veut réduire E par une facteur de 10 (soit de 2 à .2), on doit augmenter N par un facteur de 100 (soit de 10 à 1000), et par conséquent on va augmenter le coût du sondaqe d’une façon comparable (soit de $ 10 à $ 1000 pour la partie variable). E x e m p l e 1, N= 100, P % = 50/50 Position, P % + FRE + P*FRE + P*FRE*P Contre = 0 + 50 + 0 + 0 Pour = 100 + 50 + 5000 + 500000 Somme + 100 + 5000 + 500000 M = SOM(P*FRE)/N = 5000/100 = 50 %, position moyenne VAR = SOM(P*FRE*P)/N – M*M = 5000 – 2500 = 2500, la variance E = SQRT(VAR/N) = SQRT(2500/100) = SQRT(25) = 5, l’erreur-type L’ensemble se situe évidemment entre les deux champs (à 50 %), et on peut être certain de cette position à raison de + 5 % : Un autre échantillon prélevé de la même façon ne devrait pas Échantillon 104 La leçon négative de ce rapport est alors qu’il faut augmenter le nombre d’épreuves d’une façon exorbitante (soit de 10 à 160 ou de 100 à 1600) afin de réduire l’incertitude par un montant dont la grandeur absolue semble minime (soit de 2 à .5) : la contribution marginale de la dernière observation est fortement plus faible que celle de la première. Par contre, ce fait même implique une leçon positive : La raison principale qui explique la faible contribution marginale de l’épreuve additionnelle est précisément que les observations initiales sont très efficaces en définissant l’image globale. Ainsi, une fois l’erreur réduite de 2 à 1 ou 1/2, il ne reste pas beaucoup à diminuer : les épreuves déjà faites ont apporté tout ce qu’on peut raisonnablement demander. La leçon est positive parce qu’elle indique alors qu’un « petit » échantillon suffira pour réduire l’incertitude à un niveau...

Share