En savoir plus

Notre utilisation de cookies

« Cookies » désigne un ensemble d’informations déposées dans le terminal de l’utilisateur lorsque celui-ci navigue sur un site web. Il s’agit d’un fichier contenant notamment un identifiant sous forme de numéro, le nom du serveur qui l’a déposé et éventuellement une date d’expiration. Grâce aux cookies, des informations sur votre visite, notamment votre langue de prédilection et d'autres paramètres, sont enregistrées sur le site web. Cela peut faciliter votre visite suivante sur ce site et renforcer l'utilité de ce dernier pour vous.

Afin d’améliorer votre expérience, nous utilisons des cookies pour conserver certaines informations de connexion et fournir une navigation sûre, collecter des statistiques en vue d’optimiser les fonctionnalités du site. Afin de voir précisément tous les cookies que nous utilisons, nous vous invitons à télécharger « Ghostery », une extension gratuite pour navigateurs permettant de les détecter et, dans certains cas, de les bloquer.

Ghostery est disponible gratuitement à cette adresse : https://www.ghostery.com/fr/products/

Vous pouvez également consulter le site de la CNIL afin d’apprendre à paramétrer votre navigateur pour contrôler les dépôts de cookies sur votre terminal.

S’agissant des cookies publicitaires déposés par des tiers, vous pouvez également vous connecter au site http://www.youronlinechoices.com/fr/controler-ses-cookies/, proposé par les professionnels de la publicité digitale regroupés au sein de l’association européenne EDAA (European Digital Advertising Alliance). Vous pourrez ainsi refuser ou accepter les cookies utilisés par les adhérents de l'EDAA.

Il est par ailleurs possible de s’opposer à certains cookies tiers directement auprès des éditeurs :

Catégorie de cookie

Moyens de désactivation

Cookies analytiques et de performance

Realytics
Google Analytics
Spoteffects
Optimizely

Cookies de ciblage ou publicitaires

DoubleClick
Mediarithmics

Les différents types de cookies pouvant être utilisés sur nos sites internet sont les suivants :

Cookies obligatoires

Cookies fonctionnels

Cookies sociaux et publicitaires

Ces cookies sont nécessaires au bon fonctionnement du site, ils ne peuvent pas être désactivés. Ils nous sont utiles pour vous fournir une connexion sécuritaire et assurer la disponibilité a minima de notre site internet.

Ces cookies nous permettent d’analyser l’utilisation du site afin de pouvoir en mesurer et en améliorer la performance. Ils nous permettent par exemple de conserver vos informations de connexion et d’afficher de façon plus cohérente les différents modules de notre site.

Ces cookies sont utilisés par des agences de publicité (par exemple Google) et par des réseaux sociaux (par exemple LinkedIn et Facebook) et autorisent notamment le partage des pages sur les réseaux sociaux, la publication de commentaires, la diffusion (sur notre site ou non) de publicités adaptées à vos centres d’intérêt.

Sur nos CMS EZPublish, il s’agit des cookies sessions CAS et PHP et du cookie New Relic pour le monitoring (IP, délais de réponse).

Ces cookies sont supprimés à la fin de la session (déconnexion ou fermeture du navigateur)

Sur nos CMS EZPublish, il s’agit du cookie XiTi pour la mesure d’audience. La société AT Internet est notre sous-traitant et conserve les informations (IP, date et heure de connexion, durée de connexion, pages consultées) 6 mois.

Sur nos CMS EZPublish, il n’y a pas de cookie de ce type.

Pour obtenir plus d’informations concernant les cookies que nous utilisons, vous pouvez vous adresser au Déléguée Informatique et Libertés de l’INRA par email à cil-dpo@inra.fr ou par courrier à :

INRA
24, chemin de Borde Rouge –Auzeville – CS52627
31326 Castanet Tolosan cedex - France

Dernière mise à jour : Mai 2018

Menu Logo Principal AgroParisTech Université Paris Saclay

MIA Paris

Séances passées du séminaire

Cette section contient les résumés des séances passées du séminaire MIA Paris 2021-2022.

13/12/2021 : Anne Sabourin (LTCI, Télécom Paris, IPP) - Tail inverse regression for dimension reduction with extreme response
Résumé : We consider the problem of dimensionality reduction for prediction of a target $Y\in \mathbb{R}$ to be explained by a covariate vector $X\in \mathbb{R}^p$, with a particular focus on extreme values of Y which are of particular concern for risk management. The general purpose is to reduce the dimensionality of the statistical problem through an orthogonal projection on a lower dimensional subspace of the covariate space. Inspired by the sliced inverse regression (SIR) methods, we develop a novel framework (TIREX, Tail Inverse Regression for EXtreme response) relying on an appropriate notion of tail conditional independence in order to estimate an extreme sufficient dimension reduction (SDR) space of potentially smaller dimension than that of a classical SDR space. We prove the weak convergence of tail empirical processes involved in the estimation procedure and we illustrate the relevance of the proposed approach on simulated and real world data.

06/12/2021 : Félix Cheysson (LPSM, Sorbonne Université) - Evolution of groups at risk of death from Covid-19 using hospital data
Résumé : In France, death rates due to Covid-19 halved between the beginning and the end of the first wave of the pandemic. This diminution can be explained by better knowledge of the disease, better care for the patients, but also by a lesser strain on healthcare capacity, which allowed hospitals to admit more patients with a less severe form. In this context, we focus on the estimation of death rates for the groups at higher risk of death from Covid-19, where the groups are determined using binary classification trees built from the CART algorithm (Breiman et al., 1984). To be able to study the temporal evolution of death rates amongst these groups and thus adapt their healthcare, we propose a bootstrap-based hypothesis test to compare CART trees and detect changes in the death rates. We illustrate this method with numerical experiments and an application to the first wave of the pandemic. Finally, we present some theoretical insight into the distributional properties of the test statistic for our proposed hypothesis test.

29/11/2021 : Anass Aghbalou (LTCI, Télécom Paris, IPP) - Validation croisée pour les événements rares
Résumé : La validation croisée (CV) est, en apprentissage automatique, une méthode d’estimation du risque d’un modèle fondée sur une technique d’échantillonnage. Malgré sa large utilisation en pratique, les garanties théoriques des estimateurs CV sont difficiles à établir à cause de la dépendance entre les différents termes parvenant dans la moyenne de la procédure CV. On s'intéresse à l'étude théorique de la validation croisée dans les régions rares. Plus précisément, on se place dans le cadre de la classification dans les extrêmes. Dans un premier temps, nous dérivons des bornes exponentielles pour le K-fold CV et dans un deuxième temps des bornes polynomiales pour le leave-p-out. Les taux de convergence obtenus sont comparables aux taux de convergence classique i.e ceux du risque empirique conditionné par rapport à une classe rare.

22/11/2021 : Perrine Lacroix (LMO, IPS2) - Compromis entre risque prédictif et false discovery rate pour la régression linéaire gaussienne en grande dimension
Résumé : Dans un contexte de grande dimension, une approche classique pour estimer le paramètre inconnu en régression linéaire gaussienne est de minimiser les moindres carrés pénalisés. Pour obtenir une inégalité oracle sur le risque prédictif, la théorie développée par (Birgé et Massart, 2001) fournit une fonction de pénalité connue à une constante multiplicative près. Cette constante est actuellement fixée à 2 via des considérations d’optimalité asymptotique sur le risque. Dans cet exposé, je définirai la notion de variables actives et inactives et j’expliquerai que la prédiction n’est pas suffisante pour limiter la sélection de variables inactives. Pour pallier ce problème, notre idée a été de rajouter un contrôle du false discovery rate (FDR) sur la procédure de sélection de modèle. Notre approche consiste à modifier la constante multiplicative et d’étudier l’impact de cette variation sur le FDR en plus du risque prédictif, ceci d’un point de vue théorique (sous un modèle très simplifié) et expérimental.

15/11/2021 : Clément Chadebec (Université de Paris, INRIA, INSERM) - Data Augmentation in High Dimensional Low Sample Size Setting with Geometry-Aware Variational Autoencoders
Résumé : Even though always larger data sets are now available, the lack of labeled data remains a tremendous issue in many fields of application. Among others, a good example is healthcare where practitioners have to deal most of the time with low sample sizes along with high dimensional data. Unfortunately, this leads to a very poor representation of a given population and makes classical statistical analyses unreliable. Meanwhile, the remarkable performance of algorithms heavily relying on the deep learning framework has made them extremely attractive and very popular. However, such results are strongly conditioned by the number of training samples since these models usually need to be trained on huge data sets to prevent over-fitting. A way to address such issues is to perform data augmentation (DA). Nonetheless, even though classic augmentation procedures have revealed very useful, they remain strongly data dependent and they may require the intervention of an expert assessing the degree of relevance of the proposed transformations. Recently, the rise in performance of generative models such as generative adversarial networks (GAN) or variational autoencoders (VAE) has made them very attractive models to perform DA. While GANs have already seen a wide use in many fields of application including medicine, VAEs have only seen a very marginal interest to perform DA since they most of the time produce blurry samples. This undesirable effect is even more emphasized when they are trained with a small number of samples which makes them very hard to use in practice to perform DA in the high dimensional low sample size (HDLSS) setting. In this presentation, we will show that VAEs can actually be used for data augmentation in a reliable way even in the context of medical imaging provided that we bring some modeling of the latent space and amend the way we generate the data.

08/11/2021 : Baptiste Kerleguer (CMAP, Ecole polytechinque) - Multi-Fidelity surrogate model for large dimension output
Résumé : The surrogate modelling approach consists in building a surrogate model of a complex numerical code from a set of data calculated from a design of experiments. Multi-fidelity refers to the situations in which different codes dealing with the same problem are available. The particular case we are interested in is when the codes are hierarchical, i.e. they are ranked according to their computational cost and accuracy. We focus on codes dealing with small input vectors and large output vectors, such as time series. First, we give an overview of standard methods : singular value decomposition and autoregressive Gaussian process model. Second, we propose developments based on the modification of simple-fidelity models extended to multi-fidelity: tensorised covariance Gaussian process, Bayesian neural network and so on.

18/10/2021 : Liliane Bel (MIA Paris, AgroParisTech) - Variable selection for spatial models
Résumé : This work focuses on variable selection for spatial regression models, with locations on irregular lattices and errors modeled as CAR or SAR. The strategy is to whiten the residuals by estimating their spatial covariance matrix and then proceed by performing the standard LASSO for independent data on the transformed model. A result is stated that proves the consistency in sign for general dependent errors provided that the transformed design matrix fulfills standard assumptions for the LASSO procedure and that the estimate of the residual covariance matrix is consistent. Then sufficient conditions on the adjacency matrix of the SAR or CAR model are given that ensure those assumptions are fulfilled. An extensive simulation study is driven that shows this method gives good result in terms of variables selection, while some underestimation of the coefficients is noted. It is compared to a strategy that estimates both the regression and the covariance parameters in a LARS procedure. Coefficient are better estimated with the LARS procedure but it gives in some cases much more false positive in the variable selection.The application is on the regression of income data in rural area of Uruguay on a set of covariables describing various characteristics of the households. This is joint work with Romina Gonella and Mathias Bourel.

11/10/2021 : Thanh Mai Pham Ngoc (LMO, Université Paris Saclay) - Adaptive estimation of nonparametric geometric graphs
Résumé : This talk studies the recovery of graphons when they are convolution kernels on compact (symmetric) metric spaces. This case is of particular interest since it covers the situation where the probability of an edge depends only on some unknown nonparametric function of the distance between latent (non observed) points, referred to as Nonparametric Geometric Graphs (NGG).
In this setting, adaptive estimation of NGG is possible using a spectral procedure combined with a Goldenshluger-Lepski adaptation method. The latent spaces covered by our framework encompass (among others) compact symmetric spaces of rank one, namely real spheres and projective spaces.

04/10/2021 : Mathis Chagneux (MIA Paris, AgroParisTech) - Macrolitter video counting on river banks with state space models for moving cameras
Résumé : Litter is a known cause of degradation in marine environments and most of it travels in rivers before reaching the oceans. In this paper, we present a novel algorithm to assist waste monitoring along watercourses. While several attempts have been made to quantify litter using neural object detection in photographs of floating items, we tackle the more challenging task of counting directly in videos using boat-embedded cameras. We rely on multi-object tracking (MOT) but focus on the key pitfalls of false and redundant counts which arise in typical scenarios of poor detection performance. Our system only requires supervision at the image level and performs Bayesian filtering via a state space model based on optical flow. We present a new open image dataset gathered through a crowdsourced campaign and used to train a center-based anchor-free object detector. Realistic video footage assembled by water monitoring experts is annotated and provided for evaluation. Improvements in count quality are demonstrated against systems built from state-of-the-art multi-object trackers sharing the same detection capabilities. A precise error decomposition allows clear analysis and highlights the remaining challenges.

27/09/2021 : State of The R - Retour de la semaine à Roscoff

20/09/2021 : Wencan Zhu (AgroParisTech & Sanofi) - A variable selection approach for highly correlated predictors in high-dimensional data
Résumé : In genomic studies, identifying biomarkers associated with a variable of interest is a major concern in biomedical research. Regularized approaches are classically used to performvariable selection in high-dimensional linear models. However, these methods can fail in highly correlated settings.
Results: We propose a novel variable selection approach called WLasso, taking these correlations into account. It consists in rewriting the initial high-dimensional linear model to remove the correlation between the biomarkers (predictors) and in applying the generalized Lasso criterion. The performance of WLasso is assessed using synthetic data in several scenarios and compared with recent alternative approaches. The results show that when the biomarkers are highly correlated, WLasso outperforms the other approaches in sparse high-dimensional frameworks.

13/09/2021 : Tâm Le Minh (MIA Paris, AgroParisTech) - Comparaison de réseaux d'interaction écologiques au moyen de modèles probabilistes échangeables
Résumé : Les réseaux d'interaction écologiques sont le reflet du fonctionnement d'un écosystème. La comparaison de réseaux permet donc de comprendre la réaction d'un écosystème à des perturbations abiotiques. On propose une méthode de comparaison basée sur des modèles aléatoires de graphes échangeables, à travers des tests statistiques.