En savoir plus

Notre utilisation de cookies

« Cookies » désigne un ensemble d’informations déposées dans le terminal de l’utilisateur lorsque celui-ci navigue sur un site web. Il s’agit d’un fichier contenant notamment un identifiant sous forme de numéro, le nom du serveur qui l’a déposé et éventuellement une date d’expiration. Grâce aux cookies, des informations sur votre visite, notamment votre langue de prédilection et d'autres paramètres, sont enregistrées sur le site web. Cela peut faciliter votre visite suivante sur ce site et renforcer l'utilité de ce dernier pour vous.

Afin d’améliorer votre expérience, nous utilisons des cookies pour conserver certaines informations de connexion et fournir une navigation sûre, collecter des statistiques en vue d’optimiser les fonctionnalités du site. Afin de voir précisément tous les cookies que nous utilisons, nous vous invitons à télécharger « Ghostery », une extension gratuite pour navigateurs permettant de les détecter et, dans certains cas, de les bloquer.

Ghostery est disponible gratuitement à cette adresse : https://www.ghostery.com/fr/products/

Vous pouvez également consulter le site de la CNIL afin d’apprendre à paramétrer votre navigateur pour contrôler les dépôts de cookies sur votre terminal.

S’agissant des cookies publicitaires déposés par des tiers, vous pouvez également vous connecter au site http://www.youronlinechoices.com/fr/controler-ses-cookies/, proposé par les professionnels de la publicité digitale regroupés au sein de l’association européenne EDAA (European Digital Advertising Alliance). Vous pourrez ainsi refuser ou accepter les cookies utilisés par les adhérents de l'EDAA.

Il est par ailleurs possible de s’opposer à certains cookies tiers directement auprès des éditeurs :

Catégorie de cookie

Moyens de désactivation

Cookies analytiques et de performance

Realytics
Google Analytics
Spoteffects
Optimizely

Cookies de ciblage ou publicitaires

DoubleClick
Mediarithmics

Les différents types de cookies pouvant être utilisés sur nos sites internet sont les suivants :

Cookies obligatoires

Cookies fonctionnels

Cookies sociaux et publicitaires

Ces cookies sont nécessaires au bon fonctionnement du site, ils ne peuvent pas être désactivés. Ils nous sont utiles pour vous fournir une connexion sécuritaire et assurer la disponibilité a minima de notre site internet.

Ces cookies nous permettent d’analyser l’utilisation du site afin de pouvoir en mesurer et en améliorer la performance. Ils nous permettent par exemple de conserver vos informations de connexion et d’afficher de façon plus cohérente les différents modules de notre site.

Ces cookies sont utilisés par des agences de publicité (par exemple Google) et par des réseaux sociaux (par exemple LinkedIn et Facebook) et autorisent notamment le partage des pages sur les réseaux sociaux, la publication de commentaires, la diffusion (sur notre site ou non) de publicités adaptées à vos centres d’intérêt.

Sur nos CMS EZPublish, il s’agit des cookies sessions CAS et PHP et du cookie New Relic pour le monitoring (IP, délais de réponse).

Ces cookies sont supprimés à la fin de la session (déconnexion ou fermeture du navigateur)

Sur nos CMS EZPublish, il s’agit du cookie XiTi pour la mesure d’audience. La société AT Internet est notre sous-traitant et conserve les informations (IP, date et heure de connexion, durée de connexion, pages consultées) 6 mois.

Sur nos CMS EZPublish, il n’y a pas de cookie de ce type.

Pour obtenir plus d’informations concernant les cookies que nous utilisons, vous pouvez vous adresser au Déléguée Informatique et Libertés de l’INRA par email à cil-dpo@inra.fr ou par courrier à :

INRA
24, chemin de Borde Rouge –Auzeville – CS52627
31326 Castanet Tolosan cedex - France

Dernière mise à jour : Mai 2018

Menu Logo Principal AgroParisTech Université Paris Saclay

MIA Paris

Séances passées du séminaire

Cette section contient les détails des séances passées du séminaire de l'année 2020-2021.

29/03/2021 : Marie Morvan (MIA Paris, AgroParisTech) - Block testing in covariance and precision matrices for functional data analysis
Résumé : In this work, the data corresponds to spectrometric curves that can be modelized as functional data. The aim of this work is to identify a sparse structure on the covariance, or precision matrix, of functional data by testing independance, or conditional independance, between different parts of the domain of the functions. We will assume here that the data can be described by means of a B-splines basis expansion. The covariance structure between functional data is then identified with the covariance matrix of the basis expansion coefficients. We propose a method to test dependence or conditional dependence between parts of the domain of functional data. The tests are based on a permutation procedure that tests if suitable blocks of the covariance or precision matrix of basis expansion coefficients are equal to zero.

29/03/2021 : Sixin Zhang (IRIT, Université de Toulouse) - Optimization methods and statistical models for representation learning
Résumé : Recent breakthrough in deep learning is based on a core idea of representation learning using a form of neural networks. Remarkably, representations learnt by these networks can also be used to model stationary fields with complex geometric structures, such as to model and generate texture images and turbulent flows. I shall present my contributions to learn and to understand these representations, by studying optimization methods and statistical models based on simplified representations. I shall first review my PhD work on distributed and stochastic algorithms for deep learning over large dataset. This non-convex optimization problem motivated me to study simplified representations for deep learning models. I shall present a phase harmonic representation which connects the notion of phase in signal processing with convolutional neural networks. This representation allows to define a multi-scale maximum-entropy model for stationary fields using wavelets. Lastly, I shall present my recent work on learning non-negative low-rank representations, with an identifiability result for the learning problem.

22/03/2021 : Nicolas Jouvin (Institut Camille Jordan, Ecole Centrale Lyon) - Greedy clustering of count data through a mixture of multinomial PCA
Résumé : Count data is becoming more and more ubiquitous in a wide range of applications, with datasets growing both in size and in dimension. In this context, an increasing amount of work is dedicated to the construction of statistical models directly accounting for the discrete nature of the data. Moreover, it has been shown that integrating dimension reduction to clustering can drastically improve performance and stability. In this paper, we rely on the mixture of multinomial PCA, a mixture model for the clustering of count data, also known as the probabilistic clustering-projection model in the literature. Related to the latent Dirichlet allocation model, it offers the flexibility of topic modeling while being able to assign each observation to a unique cluster. We introduce a greedy clustering algorithm, where inference and clustering are jointly done by mixing a classification variational expectation maximization algorithm, with a branch & bound like strategy on a variational lower bound. An integrated classification likelihood criterion is derived for model selection, and a thorough study with numerical experiments is proposed to assess both the performance and robustness of the method. Finally, we illustrate the qualitative interest of the latter in a real-world application, for the clustering of anatomopathological medical reports, in partnership with expert practitioners from the Institut Curie hospital.

22/03/2021 : Misbah Razzaq (Inserm, Université de Bordeaux) - An artificial neural network approach integrating plasma proteomics and genetic data identifies PLXNA4 as a new susceptibility locus for pulmonary embolism
Résumé : Pulmonary embolism is a severe and potentially fatal condition characterized by the presence of a blood clot (or thrombus) in the pulmonary artery. Pulmonary embolism is often the consequence of the migration of a thrombus from a deep vein to the lung. Together with deep vein thrombosis, pulmonary embolism forms the so-called venous thromboembolism, the third most common cardiovascular disease, and its prevalence strongly increases with age. While pulmonary embolism is observed in ~40% of patients with deep vein thrombosis, there is currently limited biomarkers that can help to predict which patients with deep vein thrombosis are at risk of pulmonary embolism. To fill this need, we implemented two hidden-layers artificial neural networks (ANN) on 376 antibodies and 19 biological traits measured in the plasma of 1388 DVT patients, with or without PE, of the MARTHA study. We used the LIME algorithm to obtain a linear approximation of the resulting ANN prediction model. As MARTHA patients were typed for genotyping DNA arrays, a genome-wide association study (GWAS) was conducted on the LIME estimate. Detected single nucleotide polymorphisms (SNPs) were tested for association with PE risk in MARTHA. Main findings were replicated in the EOVT study composed of 143 PE patients and 196 DVT only patients. The derived ANN model for PE achieved an accuracy of 0.89 and 0.79 in our training and testing sets, respectively. A GWAS on the LIME approximate identified a strong statistical association peak (p = 5.3x10-7) at the PLXNA4 locus, with lead SNP rs1424597 at which the minor A allele was further shown to associate with an increased risk of PE (OR = 1.49 [1.12 – 1.98], p = 6.1x10-3). Further association analysis in EOVT revealed that, in the combined MARTHA and EOVT samples, the rs1424597-A allele was associated with increased PE risk (OR = 1.74 [1.27 – 2.38, p = 5.42x10-4) in patients over 37 years of age but not in younger patients (OR = 0.96 [0.65 – 1.41], p = 0.848).

15/03/2021 : Céline Duval (Université de Paris, MAP5) - Statistics for Gaussian Random Fields with Unknown Location and Scale using Lipschitz-Killing Curvatures
Résumé : We study three geometrical characteristics for the excursion sets of a 2-dimensional standard (centered and unit variance) stationary isotropic random field X. These characteristics can be estimated without bias if the field satisfies a kinematic formula, such as a smooth Gaussian field or some shot noise fields. If the field is Gaussian, we show how to remove the constraining assumption that the field is standard and adapt the previous estimators. We illustrate how these quantities can be used to recover some parameters of X and perform testing procedures. Finally, we use these tools to build a test to determine if two images of excursion sets can be compared. This test is applied on both synthesized and real mammograms.
(Issus de travaux joints avec Hemine Biermé, Elena Di Bernardino et Anne Estrade)

15/03/2021 : Mathilde Sautreuil (LaMME - IPS2, Université Paris-Saclay) - Étude des réseaux de neurones pour prédire la survie en oncologie
Résumé : Dans cette présentation, on étudie le potentiel des réseaux de neurones pour la prédiction de la survie en grande dimension. Dans les études cliniques en oncologie, le nombre de variables est de plus en plus important notamment grâce aux données omiques, mais la taille des cohortes de patients reste relativement modeste. La méthode classique pour prédire la survie en grande dimension consiste à utiliser une procédure Lasso utilisant la log-vraisemblance partielle de Cox. Les méthodes de deep learning sont des méthodes de plus en plus populaires permettant de gérer des effets non-linéaires et des interactions. Nous nous sommes intéressés à deux approches de réseaux de neurones pour prédire la survie en grande dimension : une basée sur la log-vraisemblance partielle de Cox (appelée cox-nnet) et une seconde sur un modèle à temps discret prédisant directement le facteur de risque. Nous nous sommes particulièrement concentrés sur cette dernière en proposant plusieurs structures et des régularisations adaptées (notamment de type fused-lasso). Pour comparer les performances des différentes méthodes, nous avons d’une part créé un plan de simulations avec des données de différents niveaux de complexité et d’autre part considéré deux jeux de données réelles.

08/03/2021 : Sylvain Le Corff (Telecom SudParis) - Deconvolution with unknown noise distribution
Résumé : In this talk, we consider the deconvolution problem in the case where the target signal is multidimensional and when no information is known about the noise distribution. The deconvolution problem is solved based only on the corrupted signal observations. We establish the identifiability of the model up to translation when the signal has a Laplace transform with an exponential growth smaller than 2 and when it can be decomposed into two dependent components. We also propose an estimator of the probability density function of the signal without any assumption on the noise distribution. We discuss the rate of convergence of this estimator and present some practical applications.

08/03/2021 : Jean-Benoist Léger (Université de Technologie de Compiègne) - Méthodes d'inférence dans des modèles de type SBM/LBM complexes ou en grande dimension
Résumé : Dans le cadre de la modélisation de certains phénomènes formulés sous forme de graphes, l'utilisation de modèles dérivés du "Stochastic Block Model" et du "Latent Block Model" permettent d'apporter des représentations utiles pour répondre à certaines questions, le modèle pouvant être adapté de nombreuses façons au moyen de la complexification de l'espace latent. Dans certains cas en grande dimension, seulement une partie des données est observée, et il est possible de représenter le lien entre le processus d'observation et la donnée au moyen de l'ajout de variables latentes, ce qui constitue un modèle de manquement "Missing Not At Random". Les approches utilisant un EM-Variationnel pour la réalisation de l'inférence permettent d'estimer et de prédire les variables latentes de ces modèles mais posent quelques problèmes pour être utilisés sur des grands graphes (de l'ordre du million de nœuds) ou sur des modèles ou l'espace latent fait appel à des nombreuses variables latentes. Pour répondre à ce problème, seront présentés dans cet exposé des travaux en cours permettant l'adaptation d'un critère provenant de l'EM variationnel pour l'utilisation de méthodes adaptées au calcul en grande dimension utilisées principalement dans le cadre du "deep learning". L'inférence dans des modèles de types SBM/LBM sera présenté en utilisant la relaxation discrète et le gradient stochastique, ainsi que le calcul sur GPU permettant de réaliser dans des temps acceptables des calculs dans des variantes du SBM/LBM.

01/03/2021 : Jaouad Mourtada (CREST, ENSAE) - Distribution-free robust linear regression
Résumé : We consider the problem of random-design linear regression, in a distribution-free setting where no assumption is made on the distribution of the predictive/input variables. After surveying existing approaches and indicating some improvements, we explain why they fall short in our setting. We then identify the minimal assumption on the target/output under which guarantees are possible, and describe a nonlinear prediction procedure achieving the optimal error bound with high probability. (Joint work with Tomas Vaškevičius and Nikita Zhivotovskiy.)

08/02/2021 : Thierry Dumont (Université Paris Ouest) - Model selection for binary covariates clustering
Résumé : In this talk we study the problem of inference in a high dimensional setting where each variable is assumed to be Boolean. We will present a method, developed with Ana Karina Fermin (Université Paris Nanterre), that chooses an appropriate partition of the variables such that variables that are not grouped together are assumed to be independent. We consider a penalized version of the maximum likelihood estimator and establish an oracle inequality. The performance in terms of inference and prediction is illustrated on synthetic and real datasets.

01/02/2021 : Claire Boyer (LPSM, Sorbonne Université) - Sampling Rates for l1-Synthesis
Résumé : This work investigates the problem of signal recovery from undersampled noisy sub-Gaussian measurements under the assumption of a synthesis-based sparsity model. Solving the l1-synthesis basis pursuit allows to simultaneously estimate a coefficient representation as well as the sought-for signal. However, due to linear dependencies within redundant dictionary atoms it might be impossible to identify a specific representation vector, although the actual signal is still successfully recovered. We study both estimation problems from a non-uniform, signal-dependent perspective. By utilizing results from linear inverse problems and convex geometry, we identify the sampling rate describing the phase transition of both formulations, and propose a "tight" estimated upper-bound.
This is a joint work with Maximilian März (TU Berlin), Jonas Kahn and Pierre Weiss (CNRS, Toulouse).

18/01/2021 : Fanny Villers (LPSM, Sorbonne Université) - Inférence de graphe avec contrôle du taux de faux positifs
Résumé : L'observation des interactions entre un ensemble d'entités est souvent bruitée et peut être considérée comme un graphe valué dense. L'objectif est de débruiter l'observation pour inférer un graphe binaire qui indique les interactions significatives. Nous proposons ici d'une part une extension du modèle à blocs stochastiques pour la modélisation des observations qui prend en compte le bruit, et d'autre part une procédure de tests multiples pour l'inférence du graphe binaire. Un résultat théorique montre que notre procédure est asymptotiquement proche de la procédure oracle, qui contrôle le taux de faux positifs tout en maximisant le taux de vrais positifs. Des résultats numériques illustrent les propriétés de notre procédure en comparaison à des procédures de test classiques. Ceci est un travail avec Etienne Roquain et Tabea Rebafka.

11/01/2021 : Titouan Vayer (OBELIX, IRISA, Vannes) - The optimal transportation problem for structured data
Résumé : Originally introduced in order to compare probability distributions, the Optimal Transport (OT) problem has recently received a growing interest in the graph community thanks to its ability of finding the correspondences between the nodes of graphs with disparate structures. In this talk, we consider the problem of computing distances between structured objects such as undirected graphs with features, seen as probability distributions in a specific metric space. After introducing the concept of Wasserstein and Gromov-Wasserstein distances we explain how the OT framework can be used on graph datasets in order to develop methods for both supervised and unsupervised learning. In short we will tackle the following problems: How OT can be used for the classification or the clustering of graph data? How OT can be used to find a notion of "average" of many graphs? Finally can we use OT to simplify a complicated graph in a meaningful way?

04/01/2021 : Vincent Brault (LJK, Université Grenoble Alpes) - Utilisation du pooling pour les tests RT-qPCR
Résumé : L'une des problématiques de la pandémie actuelle de COVID-19 est la nécessité de pouvoir tester le plus largement possible les populations afin de mieux détecter la propagation et l'évolution. Toutefois, des problèmes techniques ont été mis en avant comme la tension sur la disponibilité des réactifs. Pour limiter ce problème, les méthodes de pooling (mélange de plusieurs échantillons avant de faire le test) sont régulièrement considérées en RT-qPCR (voir par exemple Gollier et Gossner (2020)). Dans cet exposé, nous commencerons par expliquer en quoi consiste un test RT-qPCR et ce que cela implique sur les faux positifs et négatifs. Nous verrons ensuite le principe du pooling et comment cette procédure influence les résultats sur le taux de faux négatifs ; nous verrons en particulier l'importance de connaître la distribution de la concentration en charge virale. Nous continuerons donc sur la difficulté d'estimer cette concentration et nous conclurons par quelques procédures qui pourraient être appliquées pour aider en cette période de crise.

14/12/2020 : Alberto Tonda (MIA-Paris, AgroParisTech-INRAE) - Evolutionary Computation: Introduction, Success Stories, and Limitations
Résumé : "Evolutionary Computation" is a broad term for a category of stochastic optimization algorithms, loosely inspired by the neo-Darwinian paradigm of natural selection. In this talk, I will provide an overview of the common ideas shared between the different techniques gathered in this group, show some successful applications, point out their limitations, and present the most pressing open questions in the field.

07/12/2020 : Eric Adjakossa (MIA-Paris, AgroParisTech-INRAE) - Kalman Recursions Aggregated Online
Résumé : In this talk, I will present a way to improve the prediction of experts aggregation using the underlying properties of the models that provide expert predictions. We restrict ourselves to the case where expert predictions come from Kalman recursions, fitting state-space models. By using exponential weights, we construct different algorithms of Kalman recursions Aggregated Online (KAO) that compete with the best expert or the best convex combination of experts in a more or less adaptive way. We improve the existing results on experts aggregation literature when the experts are Kalman recursions by taking advantage of the second-order properties of the Kalman recursions. We apply our approach to Kalman recursions and extend it to the general adversarial expert setting by state-space modeling the errors of the experts. We apply these new algorithms to a real dataset of electricity consumption and show how it can improve forecast performances compared to other exponentially weighted average procedures.
(Joint work with Olivier Wintenberger and Yannig Goude)

30/11/2020 : David Makowski (MIA-Paris, AgroParisTech-INRAE) - Analyzing uncertainty in meta-analyses to shed light on scientific controversies
Résumé : Meta-analysis is a type of statistical analysis often used to answer major societal questions, particularly in the medical area, and increasingly also in the environmental field. For example, recently, this approach has been mobilized to evaluate the efficacy of covid19 treatments based on hydroxycholoroquine, the impact of exposure to bisphenol A or glyphosate on health, the impact of neonicotinoid on bees, or the impact of climate change on food security. Based on a simple and easily interpretable hierarchical models, meta-analysis has become an essential decision-making tool. In this presentation, I will focus on the different approaches proposed to analyze the uncertainty of meta-analysis results. I present different frequentist and Bayesian methods allowing to compute confidence, credibility and prediction intervals, as well as different R packages allowing to easily perform these computations with a large diversity of data. I use various topical examples to show how these methods can sometimes shed light on scientific controversies.

23/11/2020 : Gaëlle Chagny (LMRS, Université de Rouen) - Estimation non-paramétrique dans un modèle de mélange à deux classes
Résumé : Nous considérons un modèle de mélange de deux lois de probabilité, dont l’une est la loi uniforme sur l'intervalle [0,1], et on s'intéresse à l’estimation non-paramétrique et adaptative de la densité de probabilité de la seconde composante du mélange. Ce problème apparait par exemple dans les procédures de contrôle du taux de faux positifs dans un contexte de tests multiples. Nous définissons un estimateur à noyau pondéré, à sélection de fenêtre automatique, selon une méthode inspirée de Goldenshluger-Lepski. Sa construction implique l'introduction de contreparties empiriques, à la fois pour la densité mélange et pour la proportion de chaque classe du mélange : des estimateurs préliminaires pour ces deux quantités sont également proposés. Une inégalité de type oracle est obtenue pour le risque ponctuel, et la vitesse de convergence est calculée lorsque la fonction à estimer est suffisamment régulière. Ces résultats théoriques sont illustrés par des simulations numériques.
Il s’agit un travail en collaboration avec A. Channarond (LMRS), V.H. Hoang (LMRS) et A. Roche (CEREMADE, Univ. Paris dauphine).

16/11/2020 : Gaspar Massiot (MIA-Paris, AgroParisTech-INRAE) - Évaluation des risques liés aux pathogènes émis par l’irrigation de parcelles agricoles avec de l’eau usée traitée en station d’épuration
Résumé : Dans le contexte des changements climatiques globaux, on observe une augmentation de la dépendance de l’agriculture à l’irrigation qui conduit à une compétition accrue sur l’accès aux ressources en eau. La réutilisation d’eaux usées traitées en station d’épuration dont la qualité est maîtrisée pour l’irrigation présente un intérêt certain vis-à-vis de la préservation des ressources en eau, notamment lors de contextes de pénurie et/ou de restriction. Dans de nombreux pays comme l’Australie, Israël ou plus près de nous, l’Espagne, cette pratique est largement répandue. En France, les réglementations sur le territoire sont relativement strictes et freinent les développements de cette pratique.
Le projet SmartFertiReuse (Smart Ferti-irrigation et RÉUtilisation des eaux USÉes traitées), financé par les Fonds Unique Interministériels (FUI) et coordonné par la filière recherche et innovation de l’entreprise Véolia, a pour objectif de développer un service complet pour accompagner le monde agricole et les collectivités locales dans une gestion agroécologique des eaux usées traitées et des fertilisants, depuis la conception d’un système opérationnel jusqu’au déploiement et pilotage à la parcelle en suivant la qualité de l’eau. Un site démonstrateur près de Tarbes, dans le sud-ouest de la France, a été retenu pour évaluer les différentes composantes agronomiques, économiques et sanitaires de cette pratique. Nous proposons un modèle d'analyse des risques liés aux pathogènes qui peuvent être émis dans l'atmosphère par aspersion de microgouttelettes contaminées lors de l'irrigation et permettant l'estimation de risque de contamination pour les personnes situées à proximité des zones irriguées. La modélisation statistique, basée sur les méthodes Bayésiennes de Monte Carlo par Chaînes de Markov (MCMC), permet la prise en compte des données issues de la littérature et des dires d'experts et des données observées sur le terrain. Les données issues de la littérature ou des connaissances des experts permettent la construction de lois a priori sur les paramètres du modèle et les données observées sur le terrain servent dans une étape de mise à jour ces a priori. Enfin, l'analyse des risques se trouve résumée dans l'interprétation des lois a posteriori ainsi obtenues.

09/11/2020 : Marie Perrot-Dockès (MAP5, Université de Paris) - Improving structured post hoc inference via a hidden Markov model
Résumé : In a recent paradigm of selective inference, the user is free to select any subset of variables after ”having seen” the data, possibly repeatedly and the aim is to provide valid confidence bounds, called post hoc bounds, on the proportion of falsely selected variables. In this paper, we show that a hidden Markov modeling is particularly suitable for this type of inference. By using this specific structure, we propose new post hoc bounds that improve the state of the art. The latter domination is illustrated both via numerical experiments and real data examples.

02/11/2020 : José G. Gómez-García (MIA-Paris, AgroParisTech-INRAE) - Apprentissage de modèles CHARME avec des réseaux de neurones
Résumé : Nous considérons un modèle appelé CHARME (Conditional Heteroscedastic Autoregressive Mixture of Experts). Concrètement, c'est un modèle de mélange généralisé de séries chronologiques non linéaire et non paramétrique AR-ARCH. Nous prouvons la stabilité (ergodicité et stationnarité) du modèle sous certaines conditions de type Lipschitz pour les fonctions d'autorégression et de volatilité, lesquelles sont beaucoup plus faibles que celles présentées dans la littérature existante. Ce résultat combiné avec des arguments d'epi-convergence nous permet de démontrer la consistance forte de l'estimateur des fonctions d'autorégression et de volatilité sans hypothèse de différentiabilité sur ces fonctions. En outre, nous utilisons les résultats précédents et la propriété d'approximation universelle de réseaux de neurones (RN), possiblement avec des architectures profondes (RNP), pour développer une théorie d'apprentissage pour les fonctions d'autorégression-basées-sur-RN du modèle. La consistance forte et la normalité asymptotique de l'estimateur des poids et des biais des RN considéré sont aussi démontrées sous de conditions faibles.

12/10/2020 : Yaroslav Averyanov INRIA Modal, Lille) - Early stopping in regression with reproducing kernels: some ideas towards optimality
Résumé : In this talk I will discuss how to understand the behaviour of early stopping for iterative learning algorithms in reproducing kernel Hilbert space in the nonparametric regression framework. In particular, I will focus on celebrated gradient descent and (iterative) kernel ridge regression algorithms. It is widely known that nonparametric models offer great flexibility for the user however they tend to overfit. Thus, some form of regularisation is needed - this is why early stopping can help us. More precisely, I will show how to construct a data-driven stopping rule without validation set. This rule will be based on the so-called minimum discrepancy principle, which is a technique borrowed from the inverse problem literature. The proposed rule appeared to be minimax optimal over different types of kernel spaces, including finite rank and Sobolev smoothness classes. Besides that, simulated experiments will be discussed as well that show comparable performance of the new strategy with respect to some extensively used model selection methods.

05/10/2020 : Aude Sportisse (CMAP, École polytechnique) - Debiasing Averaged Stochastic Gradient Descent to handle missing values
Résumé : Stochastic gradient algorithm is a key ingredient of many machine learning methods, particularly appropriate for large-scale learning. However, a major caveat of large data is their incompleteness. We propose an averaged stochastic gradient algorithm handling missing values in linear models. This approach has the merit to be free from the need of any data distribution modeling and to account for heterogeneous missing proportion. In both streaming and finite-sample settings, we prove that this algorithm achieves convergence rate of O( 1/n ) at the iteration n, the same as without missing values. We show the convergence behavior and the relevance of the algorithm not only on synthetic data but also on real data sets, including those collected from medical register.

28/09/2020 : Chloé Vigliotti (AgroParisTech) - Théorie des graphes et analyse de la diversité microbienne : ​Utilisation de similarités dans le cadre de l'étude de microbiomes intestinaux
Résumé : Le microbiome intestinal correspond à l’ensemble des microbes (et gènes d’origine microbienne) contenus dans l’intestin d’un individu hôte. De nombreuses études chez les mammifères ont montré qu’il existait des associations entre le régime alimentaire de l’hôte et son microbiome intestinal. Ce constat est-il reproductible au sein d’une espèce de lézards Podarcis sicula dont une population est omnivore (à 80 % herbivore) alors que l’ensemble des autres populations de cette espèce est insectivore ? Des méthodes classiques d’études d’écosystèmes microbiens ont été appliquées pour répondre à cette question (calculs d’indices de Shannon, Chao1, Simpson, ...) mais également des développements méthodologiques plus originaux ont été proposés afin d’appréhender la diversité génétique du microbiome intestinal. L’un de ces développements est la construction de réseaux de similarités de séquences, dont sera le sujet principal de l’exposé. Un réseau de similarité de séquences est un réseau qui prend pour nœud des séquences d’ADN (microbien dans le cas présent) et qui crée un lien entre deux nœuds si les deux séquences représentées par ces nœuds sont suffisamment similaire (i.e. identique à 90 % sur au moins 80 % de leur longueur).

21/09/2020 : Jules Vandeputte (AgroParisTech) - Conception d’un "coach" personnel pour l’alimentation : une nouvelle approche des systèmes de recommandation
Résumé : Le projet présenté ici vise à concevoir un système de recommandation personnalisé et contextuel afin d’aider à guider les utilisateurs vers de meilleures habitudes de consommation alimentaire, notamment d’un point de vue santé. Ici, le scénario de recommandation dans un contexte répété peut être vu comme un jeu itéré à deux joueurs, dans lequel le système de recommandation a pour but de "coacher" le consommateur. Ainsi contrairement à un système de recommandation type "collaborative filtering" le but est de recommander à l’utilisateur des modifications ou corrections de ses choix, pour que ce dernier apprenne du système, et modifie peu à peu son comportement dans le sens d’une amélioration de la qualité nutritionnelle de sa diète. On a ainsi affaire à un contexte d’apprentissage double : l’apprentissage par le système des habitudes du consommateur afin de proposer les recommandation les plus pertinentes, et l’apprentissage de l’utilisateur à partir des recommandations, que le système a pour but de maximiser ; ces deux apprentissages étant en interaction constante. On cherche alors la meilleure stratégie de recommandation pour le coach, permettant à ce dernier de modifier durablement les habitudes de consommation de l’utilisateur, lui même étant caractérisé par sa probabilité d’acceptation des propositions, et sa propension à apprendre de ces propositions. La présente intervention a pour but de mettre en évidence les enjeux de ce projet et l’approche mise en place, ainsi que de présenter les premiers résultats obtenus.

21/09/2020 : Julie Loisel (AgroParisTech) - Détection des ruptures de la chaîne du froid : motivations et problématiques
Résumé : La réfrigération permet de prolonger la durée de conservation des denrées périssables et de fournir au consommateur des aliments sains et avec de hautes qualités organoleptiques (goût, texture). La chaîne logistique des produits surgelés et réfrigérés est appelée chaîne du froid, composée de maillons tels que le transport, la chambre froide, le réfrigérateur domestique. Toute défaillance d’un maillon (panne d’un équipement, mauvais réglage) ou une mauvaise transition entre maillons (chargement/déchargement) peut causer une rupture de la chaîne du froid. L’impact négatif des ruptures de la chaîne du froid sur les produits alimentaires est aujourd’hui largement documenté : celles-ci détériorent les produits ou plus grave encore, favorisent le développement de micro-organismes dont l’ingestion peut être toxique. Détecter ces ruptures pourrait permettre de réduire le risque sanitaire lié à l’alimentation, mais aussi de limiter le gaspillage alimentaire. Plusieurs solutions ont déjà été mises en place, mais l’arrivée de nouveaux capteurs de température sans fil nous donne une nouvelle piste pour les détecter. Mais quels sont les problèmes liés aux données de température ? Comment créer une base de données sur laquelle entraîner des algorithmes d’apprentissage ? Ce travail fait partie de ma thèse dirigée par Antoine Cornuéjols et Onrawee Laguerre dont le sujet est le suivant : Étude expérimentale et numérique pour l’identification et la classification des ruptures dans la chaîne du froid.

14/09/2020 : Bassirou Mboup (AgroParisTech) - Évaluation de la capacité d’un biomarqueur à prédire la réponse au traitement avec des données de survies
Résumé : L’un des objectifs de la médecine personnalisée est de prendre des décisions thérapeutiques basées sur la mesure d’un biomarqueur. Il est donc souvent intéressant d’évaluer dans quelle mesure un biomarqueur peut prédire la réponse à un traitement. En effet, une méthodologie populaire consiste à utiliser un modèle de régression et à tester l’interaction entre le traitement et le biomarqueur. Cependant, l’existence d’une interaction n’est pas suffisante pour qu’un biomarqueur soit prédictif. Par conséquent, l’utilisation des courbes de prédictivité du biomarqueur par bras de traitement a été recommandée. En plus d’évaluer dans quelle mesure un seul biomarqueur continu prédit la réponse au traitement, elle peut aider à définir un seuil optimal. Cette courbe représente le risque d’une réponse binaire en fonction des quantiles du biomarqueur, pour chaque groupe de traitement. Pour estimer cette courbe, des méthodes qui supposent une réponse binaire ou qui s’appuient sur un modèle de risque proportionnel pour données censurées ont été proposées. Dans notre travail, nous proposons quelques extensions pour les données censurées. Elles s’appuient sur un modèle logistique dépendant du temps et nous proposons d’estimer ce modèle via une pondération par l’inverse de la probabilité de censure (IPCW). Nous présentons les résultats de simulations et une application aux données de cancer de la prostate. Les résultats suggèrent qu’un grand nombre d’événements doivent être observés pour définir un seuil avec une précision suffisante pour qu’il soit utile cliniquement. Nous avons démontré également que si l’effet du traitement varie avec le temps alors le seuil optimal dépend aussi du temps.

07/09/2020 : State of The R - Retour de la semaine à Roscoff