In lieu of an abstract, here is a brief excerpt of the content:

Chapitre 15 Régression et corrélation Les biologistes veulent souvent examiner le lien entre deux variables. Dans ce chapitre, nous décrivons le lien entre deux variables quantitatives à l’aide d’une droite. Ceci est appelé une analyse de régression. Nous discutons des inférences concernant une droite de régression d’une population et nous présentons les outils pour évaluer la validité des hypothèses sousjacentes de régression. Nous utiliserons le modèle de régression pour prédire les valeurs futures d’une variable lorsque la valeur de l’autre est connue. Nous discuterons finalement de l’analyse de corrélation. La corrélation est une mesure du degré d’association entre deux variables quantitatives et est étroitement liée à l’analyse de régression. 15.1 Droite des moindres carrés Nous amorçons cette section en décrivant l’association entre une variable y (aussi appelée la réponse) et une variable x (aussi appelée le prédicteur) avec une droite de meilleur ajustement. Nous supposons que nous avons un échantillon aléatoire de n couples d’observations (xi, yi) pour i = 1, . . . , n. Exemple 15.1 (Partie 1). Considérons les données de l’exemple 9.8. Le prédicteur x est le dosage de vitamine C et la variable réponse y est le nombre de grippes. Pour ces données, la droite de meilleur ajustement est ŷ = 12,0 − 0,0944 x, qui est superposée sur le nuage de points dans la figure 15.1. Pour trouver la droite de meilleur ajustement, notée par ŷ = α̂ + β̂ x, nous allons définir ce que nous voulons dire par ≪ meilleur≫. Considérons le ième cas (xi, yi). La valeur ajustée correspondante ŷi = α̂ + β̂ xi est 224 Prévoir l’imprévisible – Une introduction à la biostatistique Figure 15.1 Droite des moindres carrés pour le nombre de grippes par rapport au dosage de vitamine C l’évaluation de la droite estimée à x = xi. La différence entre la ième réponse observée et la ième valeur ajustée est appelée le ième résidu ei = yi − ŷi. La somme des carrés des résidus, L = n X i=1 h yi − (α̂ + β̂ xi) i2 , est utilisée comme une mesure de l’ajustement. D’une certaine manière, L représente une distance entre les réponses observées et la droite estime ́e. Nous disons que la droite de meilleur ajustement est la droite qui minimise L. Ce critère d’ajustement a été proposé indépendamment au 18e siècle par le mathématicien allemand Carl Friedrich Gauss et le mathématicien français Adrien-Marie Legendre. Il est connu comme la méthode des moindres carrés. Le minimum du critère L des moindres carrés peut être trouvé en calculant ses dérivées partielles par rapport à α̂ et β̂ et en posant les dérivées partielles égales à zéro. Nous obtenons un système de deux équations en α̂ et β̂ que nous devons résoudre. En simplifiant, ces équations peuvent être démontrées ainsi : n X i=1 yi = n α̂ + β̂ n X i=1 xi et n X i=1 xiyi = α̂ n X i=1 xi + β̂ n X i=1 x2 i (15.1) Ces équations sont appelées les équations normales. Si nous isolons α̂ dans la première équation et que nous le substituons dans la deuxième équation [52.14.130.13] Project MUSE (2024-04-26 15:37 GMT) Régression et corrélation 225 pour obtenir β̂, nous obtenons les estimations des moindres carrés de l’ordonne ́e à l’origine α̂ = Pn i=1 yi n − β̂ Pn i=1 xi n , (15.2) et de la pente β̂ = ( Pn i=1 xi yi) − (1/n)( Pn i=1 xi)( Pn i=1 yi) ( Pn i=1 x2 i ) − (1/n)( Pn i=1 xi)2 = Pn i=1(xi − x)(yi − y) Pn i=1(xi − x)2 = Pn i=1(xi − x) yi (n − 1) s2 x . (15.3) Tous les quantités impliquées dans cette solution devraient sembler familières. En réalité, la pente et l’ordonnée à l’origine de la droite des moindres carrés ont quelques autres représentations utiles...

Share