Résumé des Travaux en Statistique et Applications des Statistiques - INRAE - Institut national de recherche pour l’agriculture, l’alimentation et l’environnement Accéder directement au contenu
Hdr Année : 2006

Habilitation Report - Mathematical and Applied Statistics

Résumé des Travaux en Statistique et Applications des Statistiques

Résumé

The present report surveys the essentials of my research activity since my PhD thesis [53], which was
mainly devoted to extend the use of recent advances in Computational Harmonic Analysis (such
as wavelet analysis) for adaptive nonparametric estimation methods in the i.i.d. setting to statistical
estimation based on Markovian data. As explained at length in [123], certain concentration of
measure properties (i.e. deviation probability and moment inequalities over functional classes,
specifically tailored for nonlinear approximation) are crucially required for taking advantages of
these analytical tools in statistical settings and getting estimation procedures with convergence
rates surpassing the ones of older methods. In [53] (see also [54], [55] and [56]), the regenerative
method (refer to [185]), consisting in dividing Harris Markov sample paths into asymptotically
i.i.d. blocks, has been crucially exploited for establishing the required probabilistic results, the
long term behavior of Markov processes being governed by certain renewal processes (the blocks
being actually determined by renewal times). But having constructed an estimator, estimation of
the accuracy (measured by the variance, particular quantiles or any functional of the distribution
function) of the computed statistic is next of crucial importance. In this respect and beyond its
practical simplicity (it consists in resampling data by making i.i.d. draws in the original data sample
and recompute the statistic from the bootstrap data sample), the bootstrap is known to have major
theoretical advantages over asymptotic normal approximation in the i.i.d. setting (it automatically
approximates the second order structure in the Edgeworth expansion of the statistic distribution).
I then turned naturally to the problem of extending the popular bootstrap procedure to markovian
data. Through the works I and Patrice Bertail have jointly carried out, the regenerative method
was revealed to be not solely a powerful analytical tool for proving probabilistic limit theorems
or inequalities, but also to be of practical use for statistical estimation: our proposed bootstrap
generalization is based on the resampling of (a random number of) regeneration data blocks (or of
approximation of the latter) so as to mimick the renewal structure of the data. This method has
also been shown to be advantageous for many other statistical purposes. And the first part of the
report strives to present the principle of regeneration-based statistical methods for Harris Markov
chains, as well as some of the various results obtained this way, in a comprehensive manner.
The second part of the report is devoted to the problem of learning how to order instances,
instead of classifying them only, in a supervised setting. This dicult problem is of practical
importance in many areas, ranging from medical diagnosis to information retrieval (IR) and asks
challenging theoretical and algorithmic questions, with no entirely satisfactory answers yet. A possible
approach to this subject consists in reducing the problem to a pairwise classification problem,
as suggested by a popular criterion (namely, the AUC criterion) widely used for evaluating the
pertinence of an ordering. In this context some results have been obtained in a joint work with
Gabor Lugosi and Nicolas Vayatis, involving the study of U-processes: the major novelty consisting
in the fact that here natural estimates of the risk are of the form of a U-statistic. However,
in many applications such as IR, only top ranked instances are eectively scanned and a criterion
corresponding to such local ranking problems as well as methods for computing optimal ordering
rules with respect to the latter are crucially needed. Further developments in this direction have been considered in a (continuing) series of works in collaboration with Nicolas Vayatis.
Finally, the last part of the report reflects my interest in practical applications of probabilistic
concepts and statistical tools. My personal background lead me to consider first applications in
finance. Although historical approaches are not preferred in this domain, I have been progressively
convinced that nonparametric statistics could play a major role in analyzing the massive (of very
large dimension and high-frequency) financial data for detecting hidden structure in the latter
and gaining advantage of the latter in risk assesment or portfolio selection for instance. As an
illustration, the works I have carried out with Skander Slim in that direction are described in a
word in this third part. Recently, I also happened to meet applied mathematicians or scientists
working in other fields, which may naturally interface with applied probability ans statistics. Hence,
applications to Toxicology, and in particular to toxic chemicals dietary exposure, has also been one
of my concern this last year, which I have spent in the pluridisciplinary research unity Metarisk
of the National Research Agronomy Institute, entirely dedicated to dietary risk analysis. I could
thus make use of my skills in Markov modelling for proposing a stochastic model describing the
temporal evolution of the total body burden of chemical (in a way that both the toxicokinetics and
the dietary behavior may be taken into account) and adequate inference methods for the latter in
a joint work with P. Bertail and J. Tressou. This line of research is still going on and will hopefully
provide practical insight and guidance for dietary contamination control in public health practice.
It is also briefly presented in this last part. Besides, I have the great opportunity to work currently
on the modelling of the AIDS epidemic with H. de Arazoza, B. Auvert, P. Bertail, R. Lounes and C.
Tran based on the cuban epidemic data available, which form one of the most informed database on
any HIV epidemic. While such a research project (taking place in the framework of the ACI-NIM
"Epidemic Modelling") aims at providing a numerical model (for computing incidence predictions
on short horizons for instance, so as to plan the quantity of antiretrovirals required), it also poses
very challenging probabilistic and statistical problems, ranging from the proof for the existence of
a quasi-stationary distribution describing the long term behavior of the epidemic to the diculties
encountered due to the incomplete character of the epidemic data available. Unfortunately, they
are not discussed here, presenting the wide variety of mathematical problems arising in this project
without denaturing it would have deserved a whole report.
Ce rapport présente brièvement l'essentiel de mon activité de recherche depuis ma thèse de doctorat [53], laquelle visait principalement à étendre l'utilisation des progrès récents de l'Analyse Harmonique Algorithmique pour l'estimation non paramétrique adaptative dans le cadre d'observations i.i.d. (tels que l'analyse par ondelettes) à l'estimation statistique pour des données markoviennes. Ainsi qu'il est éxpliqué dans [123], des résultats relatifs aux propriétés de concentration de la mesure (i.e. des inégalités de probabilité et de moments sur certaines classes fonctionnelles, adaptées à l'approximation non linéaire) sont indispensables pour exploiter ces outils d'analyse dans un cadre probabiliste et obtenir des procédures d'estimation statistique dont les vitesses de convergence surpassent celles de méthodes antérieures. Dans [53] (voir également [54], [55] et [56]), une méthode d'analyse fondée sur le renouvellement, la méthode dite 'régénérative' (voir [185]), consistant à diviser les trajectoires d'une chaîne de Markov Harris récurrente en segments asymptotiquement i.i.d., a été largement utilisée pour établir les résultats probabilistes requis, le comportement à long terme des processus markoviens étant régi par des processus de renouvellement (définissant de façon aléatoire les segments de la trajectoire). Une fois l'estimateur construit, il importe alors de pouvoir quantifier l'incertitude inhérente à l'estimation fournie (mesurée par des quantiles spécifiques, la variance ou certaines fonctionnelles appropriées de la distribution de la statistique considérée). A cet égard et au delà de l'extrême simplicité de sa mise en oeuvre (puisqu'il s'agit simplement d'eectuer des tirages i.i.d. dans l'échantillon de départ et recalculer la statistique sur le nouvel échantillon, l'échantillon bootstrap), le bootstrap possède des avantages théoriques majeurs sur l'approximation asymptotique gaussienne (la distribution bootstrap approche automatiquement la structure du second ordre dans le développement d'Edegworth de la distribution de la statistique). Il m'est apparu naturel de considérer le problème de l'extension de la procédure traditionnelle de bootstrap aux données markoviennes. Au travers des travaux réalisés en collaboration avec Patrice Bertail, la méthode régénérative s'est avérée non seulement être un outil d'analyse puissant pour établir des théorèmes limites ou des inégalités, mais aussi pouvoir fournir des méthodes pratiques pour l'estimation statistique: la généralisation du bootstrap proposée consiste à ré-échantillonner un nombre aléatoire de segments de données régénératifs (ou d'approximations de ces derniers) de manière à imiter la structure de renouvellement sous-jacente aux données. Cette approche s'est révélée également pertinente pour de nombreux autres problèmes statistiques. Ainsi la première partie du rapport vise essentiellement à présenter le principe des méthodes statistiques fondées sur le renouvellement pour des chaînes de Markov Harris. La seconde partie du rapport est consacrée à la construction et à l'étude de méthodes statistiques pour apprendre à ordonner des objets, et non plus seulement à les classer (i.e. leur aecter un label), dans un cadre supervisé. Ce problème difficile est d'une importance cruciale dans de nombreux domaines d' application, allant de l'élaboration d'indicateurs pour le diagnostic médical à la recherche d'information (moteurs de recherche) et pose d'ambitieuses questions théoriques et algorithmiques, lesquelles ne sont pas encore résolues de manière satisfaisante. Une approche envisageable consiste à se ramener à la classification de paires d'observations, ainsi que le suggère un critère largement utilisé dans les applications mentionnées ci-dessus (le critère AUC) pour évaluer la pertinence d'un ordre. Dans un travail mené en collaboration avec Gabor Lugosi et Nicolas Vayatis, plusieurs résultats ont été obtenus dans cette direction, requérant l'étude de U-processus: l'aspect novateur du problème résidant dans le fait que l'estimateur naturel du risque a ici la forme d'une U-statistique. Toutefois, dans de nombreuses applications telles que la recherche d'information, seul l'ordre relatif aux objets les plus pertinents importe véritablement et la recherche de critères correspondant à de tels problèmes (dits d'ordre localisé) et d'algorithmes permettant de construire des règles pour obtenir des 'rangements' optimaux à l'égard de ces derniers constitue un enjeu crucial dans ce domaine. Plusieurs développements en ce sens ont été réalisés dans une série de travaux (se poursuivant encore actuellement) en collaboration avec Nicolas Vayatis. Enfin, la troisième partie du rapport reflète mon intérêt pour les applications des concepts probabilistes et des méthodes statistiques. Du fait de ma formation initiale, j'ai été naturellement conduit à considérer tout d'abord des applications en finance. Et bien que les approches historiques ne suscitent généralement pas d'engouement dans ce domaine, j'ai pu me convaincre progressivement du rôle important que pouvaient jouer les méthodes statistiques non paramétriques pour analyser les données massives (de très grande dimension et de caractère 'haute fréquence') disponibles en finance afin de détecter des structures cachées et en tirer partie pour l'évaluation du risque de marché ou la gestion de portefeuille par exemple. Ce point de vue est illustré par la brève présentation des travaux menés en ce sens en collaboration avec Skander Slim dans cette troisième partie. Ces dernières années, j'ai eu l'opportunité de pouvoir rencontrer des mathématiciens appliqués et des scientifiques travaillant dans d'autres domaines, pouvant également bénéficier des avancées de la modélisation probabiliste et des méthodes statistiques. J'ai pu ainsi aborder des applications relatives à la toxicologie, plus précisément au problème de l'évaluation des risque de contamination par voie alimentaire, lors de mon année de délégation auprès de l'Institut National de la Recherche Agronomique au sein de l'unité Metarisk, unité pluridisciplinaire entièrement consacrée à l'analyse du risque alimentaire. J'ai pu par exemple utiliser mes compétences dans le domaine de la modélisation maarkovienne afin de proposer un modèle stochastique décrivant l'évolution temporelle de la quantité de contaminant présente dans l'organisme (de manère à prendre en compte à la fois le phénomène d'accumulation du aux ingestions successives et la pharmacocinétique propre au contaminant régissant le processus d'élimination) et des méthodes d'inférence statistique adéquates lors de travaux en collaboration avec Patrice Bertail et Jessica Tressou. Cette direction de recherche se poursuit actuellement et l'on peut espérer qu'elle permette à terme de fonder des recommandations dans le domaine de la santé publique. Par ailleurs, j'ai la chance de pouvoir travailler actuellement avec Hector de Arazoza, Bertran Auvert, Patrice Bertail, Rachid Lounes et Viet-Chi Tran sur la modélisation stochastique de l'épidémie du virus VIH à partir des données épidémiologiques recensées sur la population de Cuba, lesquelles constituent l'une des bases de données les mieux renseignées sur l'évolution d'une épidémie de ce type. Et bien que ce projet vise essentiellement à obtenir un modèle numérique (permettant d'effectuer des prévisions quant à l'incidence de l'épidémie à court terme, de manière à pouvoir planifier la fabrication de la quantité d'anti-rétroviraux nécéssaire par exemple), il nous a conduit à aborder des questions théoriques ambitieuses, allant de l'existence d'une mesure quasi-stationnaire décrivant l'évolution à long terme de l'épidémie aux problèmes relatifs au caractère incomplet des données épidémiologiques disponibles. Il m'est malheureusement impossible d'évoquer ces questions ici sans risquer de les dénaturer, la présentation des problèmes mathématiques rencontrés dans ce projet mériterait à elle seule un rapport entier.
Fichier principal
Vignette du fichier
DraftHDR.pdf (1.77 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00138299 , version 1 (29-03-2007)

Identifiants

  • HAL Id : tel-00138299 , version 1
  • PRODINRA : 251816

Citer

Stéphan Clémençon. Résumé des Travaux en Statistique et Applications des Statistiques. Mathématiques [math]. Université de Nanterre - Paris X, 2006. ⟨tel-00138299⟩
560 Consultations
323 Téléchargements

Partager

Gmail Facebook X LinkedIn More