Challenging the empirical mean and empirical variance: a deviation study

O Catoni - Annales de l'IHP Probabilités et statistiques, 2012 - numdam.org
O Catoni
Annales de l'IHP Probabilités et statistiques, 2012numdam.org
We present new M-estimators of the mean and variance of real valued random variables,
based on PAC-Bayes bounds. We analyze the non-asymptotic minimax properties of the
deviations of those estimators for sample distributions having either a bounded variance or a
bounded variance and a bounded kurtosis. Under those weak hypotheses, allowing for
heavy-tailed distributions, we show that the worst case deviations of the empirical mean are
suboptimal. We prove indeed that for any confidence level, there is some M-estimator whose …
Resume
Nous présentons de nouveaux M-estimateurs de la moyenne et de la variance d’une variable aléatoire réelle, fondés sur des bornes PAC-Bayésiennes. Nous analysons les propriétés minimax non-asymptotiques des déviations de ces estimateurs pour des distributions de l’échantillon soit de variance bornée, soit de variance et de kurtosis bornées. Sous ces hypothèses faibles, permettant des distributions à queue lourde, nous montrons que les déviations de la moyenne empirique sont dans le pire des cas sous-optimales. Nous prouvons en effet que pour tout niveau de confiance, il existe un M-estimateur dont les déviations sont du même ordre que les déviations de la moyenne empirique d’un échantillon Gaussien, même dans le cas où la véritable distribution de l’échantillon a une queue lourde. Le comportement expérimental de ces nouveaux estimateurs est du reste encore meilleur que ce que les bornes théoriques laissent prévoir, montrant que la fonction quantile des déviations est constamment en dessous de celle de la moyenne empirique pour des échantillons non Gaussiens aussi simples que des mélanges de deux distributions Gaussiennes.
numdam.org