Chapitre 6 Distribution de probabilités

Ce chapitre couvre les fonctions relatives aux distributions de probabilité. Pour rappel, chaque variable aléatoire a une distribution de probabilité.

Dans ce cours, plusieurs distributions sont abordées, mais la principale est la distribution normale.

6.1 Distribution normale

La distribution normale est caractérisée par deux paramètres, la moyenne et l’écart-type. La variation de ces deux paramètres implique que plusieurs distributions normales existent. Lorsque la moyenne vaut 0 et l’écart-type 1, on parle de distribution normale centrée-réduite. Il s’agit de la distribution normale avec laquelle il est commun de travailler.

Plusieurs fonctions existent pour travailler avec la distribution normale: dnorm(), pnorm(), qnorm(), et rnorm().

La fonction dnorm() permet de calculer la densité pour n’importe quelle valeur de x. Par exemple, calculons la densité pour une valeur de 3 avec une distribution normale avec les paramètres de moyenne de 4, et d’écart-type de 2. Calculons ensuite la même densité mais pour une distribution normale centrée-réduite. Pour ce cas, on remarque que les résultats sont similaires lorsque les paramètres sont spécifiés et lorsqu’ils ne le sont pas. Ceci s’explique par le fait que les paramètres de la distribution normale centrée-réduite sont les paramètres par défaut de la fonction.

x <- 3
dnorm(x, mean = 4, sd = 2)
## [1] 0.1760327
dnorm(x, mean = 0, sd = 1)
## [1] 0.004431848
dnorm(x)
## [1] 0.004431848

Il est également possible de calculer la densité entre deux valeurs. Calculons la densité entre -4 et 4 pour une distribution normale avec une moyenne de 3 et un écart-type de 2.

x <- seq(-4, 4, by=1)
x
## [1] -4 -3 -2 -1  0  1  2  3  4
dnorm(x, mean = 3, sd = 2)
## [1] 0.0004363413 0.0022159242 0.0087641502 0.0269954833 0.0647587978 0.1209853623 0.1760326634 0.1994711402
## [9] 0.1760326634
sum(dnorm(x, mean = 3, sd =2))
## [1] 0.7756925

La fonction pnorm donne la fonction de distribution de la loi normale. La fonction de distribution cumulative (CDF) correspond à la probabilité que la variable X prenne une valeur inférieure ou égale à x. La fonction de survie correspond à la probabilité que la variable X prenne une valeur supérieure à x. La fonction pnorm permet de calculer ces deux fonctions en manipulant le paramètre lower.tail. Lorsque lower.tail = TRUE, ce qui est le paramètre par défaut, la CDF est obtenue. Lorsque lower.tail = FALSE, la fonction de survie est obtenue. Prenons le quantile 1 pour une loi normale centrée-réduite et calculons ces deux fonctions.

pnorm(1, mean = 0, sd = 1)
## [1] 0.8413447
pnorm(1, mean = 0, sd = 1, lower.tail = FALSE)
## [1] 0.1586553
pnorm(1, mean = 0, sd = 1) + pnorm(1, mean = 0, sd = 1, lower.tail = FALSE)
## [1] 1

Si nous sommons la probabilité d’être plus petit qu’un quantile donné et la probabilité d’être plus grand que ce même quantile, le résultat est de 1 parce que tout l’espace possible de la distribution est couvert.

pnorm(1, mean = 0, sd = 1) + pnorm(1, mean = 0, sd = 1, lower.tail = FALSE)
## [1] 1

Comme la distribution normale centrée-réduite est symmétrique en 0, la CDF est partagée en deux autour de cette valeur.

pnorm(0, mean = 0, sd = 1) 
## [1] 0.5
pnorm(0, mean = 0, sd = 1, lower.tail = FALSE)
## [1] 0.5

La fonction qnorm permet d’obtenir le quantile pour n’importe quelle probabilité. Pour rappel, un quantile est une valeur qui divise les données d’une distribution en segments de même fréquence. Dans le cadre d’une fonction de distribution, il indique la valeur en dessous de laquelle une certaine proportion des données se situe. Cette fonction calcule l’inverse de la fonction pnorm. Pour simplifier la compréhension, reprenons le dernier exemple présenté.

pnorm(0, mean = 0, sd = 1) 
## [1] 0.5
qnorm(0.5, mean = 0, sd = 1)
## [1] 0

La fonction qnorm permet de retrouver la valeur correspondant à une probabilité, alors que la fonction pnorm permet de calculer la probabilité à partir d’une valeur.

La fonction rnorm permet de générer \(n\) observations à partir d’une distribution normale. Il s’agit d’une fonction particulièrement utilisée pour la simulation. Comme les autres fonctions concernant la distribution normale, les paramètres de base simuler des données avec une moyenne de 0 et un écart-type de 1. Il est possible de modifier ces paramètres comme suit:

set.seed(1234) #permet de garantir la reproductibilité des analyses 
rnorm(100) 
##   [1] -1.207065749  0.277429242  1.084441177 -2.345697703  0.429124689  0.506055892 -0.574739960 -0.546631856
##   [9] -0.564451999 -0.890037829 -0.477192700 -0.998386445 -0.776253895  0.064458817  0.959494059 -0.110285494
##  [17] -0.511009506 -0.911195417 -0.837171680  2.415835178  0.134088220 -0.490685897 -0.440547872  0.459589441
##  [25] -0.693720247 -1.448204910  0.574755721 -1.023655723 -0.015138300 -0.935948601  1.102297546 -0.475593079
##  [33] -0.709440038 -0.501258061 -1.629093469 -1.167619262 -2.180039649 -1.340993192 -0.294293859 -0.465897540
##  [41]  1.449496265 -1.068642724 -0.855364634 -0.280623002 -0.994340076 -0.968514318 -1.107318193 -1.251985886
##  [49] -0.523828119 -0.496849957 -1.806031257 -0.582075925 -1.108889624 -1.014962009 -0.162309524  0.563055819
##  [57]  1.647817473 -0.773353424  1.605909629 -1.157808548  0.656588464  2.548991071 -0.034760390 -0.669633580
##  [65] -0.007604756  1.777084448 -1.138607737  1.367827179  1.329564791  0.336472797  0.006892838 -0.455468738
##  [73] -0.366523933  0.648286568  2.070270861 -0.153398412 -1.390700947 -0.723581777  0.258261762 -0.317059115
##  [81] -0.177789958 -0.169994077 -1.372301886 -0.173787170  0.850232257  0.697608712  0.549997351 -0.402731975
##  [89] -0.191593770 -1.194527880 -0.053158819  0.255196001  1.705964007  1.001513252 -0.495583443  0.355550297
##  [97] -1.134608044  0.878203627  0.972916753  2.121117105

Comme les autres fonctions concernant la distribution normale, les paramètres de base simuler des données avec une moyenne de 0 et un écart-type de 1. Il est possible de modifier ces paramètres comme suit par exemple:

set.seed(1234)  
rnorm(100, mean = 3, sd = 1.5) 
##   [1]  1.1894014  3.4161439  4.6266618 -0.5185466  3.6436870  3.7590838  2.1378901  2.1800522  2.1533220  1.6649433
##  [11]  2.2842110  1.5024203  1.8356192  3.0966882  4.4392411  2.8345718  2.2334857  1.6332069  1.7442425  6.6237528
##  [21]  3.2011323  2.2639712  2.3391782  3.6893842  1.9594196  0.8276926  3.8621336  1.4645164  2.9772925  1.5960771
##  [31]  4.6534463  2.2866104  1.9358399  2.2481129  0.5563598  1.2485711 -0.2700595  0.9885102  2.5585592  2.3011537
##  [41]  5.1742444  1.3970359  1.7169530  2.5790655  1.5084899  1.5472285  1.3390227  1.1220212  2.2142578  2.2547251
##  [51]  0.2909531  2.1268861  1.3366656  1.4775570  2.7565357  3.8445837  5.4717262  1.8399699  5.4088644  1.2632872
##  [61]  3.9848827  6.8234866  2.9478594  1.9955496  2.9885929  5.6656267  1.2920884  5.0517408  4.9943472  3.5047092
##  [71]  3.0103393  2.3167969  2.4502141  3.9724299  6.1054063  2.7699024  0.9139486  1.9146273  3.3873926  2.5244113
##  [81]  2.7333151  2.7450089  0.9415472  2.7393192  4.2753484  4.0464131  3.8249960  2.3959020  2.7126093  1.2082082
##  [91]  2.9202618  3.3827940  5.5589460  4.5022699  2.2566248  3.5333254  1.2980879  4.3173054  4.4593751  6.1816757

6.2 Distribution de Student

La distribution de Student est une distribution de probabilité utilisée en inférence statistique, particulièrement dans le cadre des tests de comparaison de moyennes. Elle est similaire à la distribution normale, mais avec des queues plus larges, ce qui permet de prendre en compte l’incertitude supplémentaire associée à des échantillons réduits. La distribution de Student dépend de ces degrés de liberté. Dans le cadre de ce cours, ces degrés de liberté vous sont donnés.

Les mêmes fonctions existent pour travailler avec la distribution de Student que celles présentées précédemment pour la distribution normale: dt() permet d’obtenir la densité de probabilité pour une valeur donnée, pt() permet de calculer la probabilité qu’une variable soit inférieure ou égale à une certaine valeur, qt() calcule le quantile pour une probabilité donnée, et rt() permet de générer des nombres aléatoires suivant une distribution de Student avec un certain nombre de degrés de liberté. Dans chacune de ces fonctions, il est nécessaire de spécifier l’argument df qui correspond au degré de liberté.

Les codes suivants peuvent être utilisés pour calculer ces différentes choses. Prenons une distribution de Student avec 10 degrés de liberté. Le code suivant donne la densité de la distribution de Student pour un valeur de 2.

dt(2, df = 10)
## [1] 0.06114577

Le code suivant donne la probabilité que la valeur de la distribution soit inférieure ou égale à 2.

pt(2, df = 10)
## [1] 0.963306

Le code suivant donne la probabilité que la valeur de la distribution correspondant au 95e percentile.

qt(0.95, df = 10)
## [1] 1.812461

Le code suivant génère un échantillon de 100 valeurs aléatoires suivant une distribution de Student

rt(100, df = 10)
##   [1]  0.491996782  0.692931960  0.223166419  1.399233571  1.948448931 -0.974688314  0.019710794 -1.261342778
##   [9]  0.714001690 -0.653644230 -0.058149265  0.827884272 -0.593585713 -2.831629628 -2.328379914  1.153533476
##  [17]  0.618555423  0.016367679 -0.439955182  0.688715673  1.020487054  0.259813715  0.402105464 -0.152659020
##  [25]  0.097154234 -0.328997352 -0.198634383  1.511699796 -0.176060524  0.471798130 -0.078333239 -0.278172052
##  [33] -0.614644488 -1.548449281  0.421914078  0.554351370  0.171444394  0.359047798  1.639307324 -0.459919848
##  [41] -0.239527010 -1.819500992  2.044075667  0.846471336  0.105014841  0.703689231  0.688088314  0.558887884
##  [49]  1.163575060 -1.069360585 -0.312040559 -1.878048891  0.613982680  0.318194489  0.187605622  0.004583574
##  [57]  0.617342907  2.653382612 -0.690964524 -0.365613450 -0.977808094 -0.862778073  0.056799455 -0.991031251
##  [65]  0.715344778  1.306170266  0.262104994  0.368489475  0.412214263 -1.312455869  0.207992240 -1.586964972
##  [73] -0.354494401 -1.721263676 -0.744498965  2.448878814  0.035364310 -0.863451917  2.551897466 -0.707794335
##  [81] -1.508038971  1.953149173  1.078502213 -1.368140954  0.483839097  0.109863278  0.330925553  1.915406953
##  [89]  1.161535185  0.426198734 -1.575039463 -0.152772364  0.029402568 -1.611836402  0.597272592  0.519280797
##  [97]  1.600020826  0.277314039  0.827820451 -0.551902492