L'équipe SOLsTIS "Modélisation et apprentissage statistique pour les Sciences du vivant et l'Environnement" développe et diffuse des méthodes statistiques de modélisation et d'apprentissage en application aux sciences du vivant, en particulier en génomique, génétique, biologie intégrative, écologie, risques environnementaux, santé animale et végétale, épidémiologie, agronomie, etc...
L'équipe composée d'une vingtaine de membres permanents présente un large spectre de compétences en modélisation, statistiques bayésiennes, processus stochastiques, apprentissage statistique, optimisation, algorithmes stochastiques, etc. Les problèmes traités sont en général issus des sciences du vivant et de l'environnement, et aboutissent à la publication d'articles en statistiques et dans le domaine d'application et ainsi qu'à la production d'outils informatiques (packages, applications...).
Responsables : Sophie Donnet, Pierre Barbillon
Thématiques / Research topics
- Modélisation Statistique / Statistical Modelling
- Apprentissage supervisé (Régression, Classification) / Supervised Learning (Regression, Classification)
- Apprentissage non-supervisé (Réduction de dimension, Classification) / Unsupervised Learning (Dimension Reduction, Clustering)
- Réseaux (Analyse et Inférence) / Networks (Analysis, Reconstruction)
- Segmentation & Trajectoires / Segmentation and Trajectories
- Statistiques spatiales et spatio-temporelles (modèles hiérarchiques bayésiens, Processus ponctuels, étude de la dépendance, Simulations conditionnelles de processus) / Spatial and spatio temporal statistics ( Hierarchical Bayesian Modelling, Point processes, dependence properties)
- Extremes multivariés et spatialisés / Multivariate Extremes, Spatial Extremes
- Expériences numériques, Propagation d’incertitude et théorie de la décision bayésienne / Stochastic approximation of numerical experiments, Bayesian decision theory
Méthodologie
Modèles:
modèles linéaires et ses extensions, modèles à variables latentes, modèles graphiques, séries temporelles, processus de diffusion
Méthodes d'inférence:
méthodes régularisées, inférence variationnelles, algorithmes stochastiques, méthodes d'ensembles, approches bayésiennes, métanalyse
Outils d'analyse:
M-estimation, statistique des graphes aléatoires, statistique pour la grande dimension, statistique robuste
Champs d'application
Disciplines
(méta)génomique, génétique, métabolomique, épidémiologie, etc.
Champs
- Alimentation et agriculture (santé animale, amélioration des plantes, agriculture numérique)
- Environnement, écologie et biodiversité (risque, écologie microbienne, écosystèmes)
- Santé (biologie moléculaire, médecine de précision/prédictive)
- Applications industrielles (Fiabilité) / Industrial applications
Projets en cours
Financés par l'ANR
- ANR G2WAS (2020-2023): Genetic architecture of the tolerance to water deficit in a perennial fruit species (V. vinifera)
- ANR SENTINEL (2020-2024): Outils à haut débit pour un renforcement de la surveillance de la sécurité chimique des aliments.
- ANR SingleStatOmics (2019-2022): Statistics and Machine Learning for Single-Cell Genomics
- ANR EcoNet (2019-2022): Advanced statistical modelling of ecological networks
- ANR Pastodiv (2019-2022): Pratiques pastorales et diversité des animaux domestiqués
- ANR ABSint (2018-2022): Solutions bayésiennes approchées pour l’inférence dans de grands jeux de données et dans des modèles complexes.
- ANR NGB (2018-2021): Next Generation Biomonitoring of change in ecosystem structure and function
Autres projets financés
- INCA Epishift (2019-2023): Switching resistance to sensitive phenotype of PDAC by targeting the epigenome
- AgroParisTech SYMBIOMODEL (2021-2023): Modélisation des interactions trophiques entre racines et microorganismes bénéfiques du sol
- Défi CNRS ARN-RG (2019-2021): Inférence des ARNs non-codants impliqués dans l’initiation de la racine latérale et modélisation de leur rôles dans le Réseau Génétique associé
- AgroParisTech CRESS (2018-2020): Caractérisation de RESeaux de co-variation traductionnelle en réponse au Stress froid lors de la germination et de la croissance précoce des plantes
- SEARS Stratégies d’Echantillonnage et Analyse des Réseaux d’approvisionnement en Semences (métaprogramme GloFoods, coordination INRA/CIRAD).
- Projet FUI SmartFertiReuse(partenariat Veolia) Développer un service complet et innovant pour une gestion agro-écologique des eaux résiduaires traitées et des fertilisants.
- Projet DATA IA WARM RULES (2019-2022): Gradual Causal Rules Detection in Knowledge Graphs exploiting Temporal Relations, Contextual Identity Links and Statistical Methods: application to Plant Development in Climatic Warming Preoccupation, Japon + EkINocs + LRI + GQE.
- GT STEP 500-ENI: animation du groupe statistique pour l’analyse des données de biodiversité et pratiques agricoles.
- Consortium Om3D : modélisation et inférence bayésienne pour identifier les sources alimentaires durables d'oméga-3 et de vitamine D
Autres projets
- Mousses, Contamination en métaux lourds des mousses et qualité de l’air en région parisienne. Statistique spatiales et modélisation hiérarchique.
- MNHN Herbier, Prédiction du niveau de menace d’une plante à partir des données de l’IUCN et de bases de données internationales (GBIF, Checklist) et française (Herbier du MNHN).
- Soybean, Modélisation de la croissance de plantes de soja à partir de données obtenues par drone sur 200 variétés de soja en conditions normales ou de stress hydrique, (Japon).
- Projet Pelagis, université La Rochelle : comptage des mammifères marins, statistiques bayésiennes computationelles et élicitation
- Consortium Echlore : étude des leviers du système agri-alimentaire pour réduire l'exposition à la chlordécone des populations de Martinique et Guadeloupe
Thèses en cours
Accueillies dans l'unité
- Jérémy Lamouroux (2022-2025), Etude de distributions spatiales régionalisées de contaminants atmosphériques bioaccumulés par des mousses végétales sur le territoire français, I. Albert, collaboration avec l'UMS Patrimoine Naturel
- Emre Anakök (2021-2024), Prise en compte des effets d'échantillonnage pour la détection de structure des réseaux écologiques, P. Barbillon. Co-encadrement : Colin Fontaine (MNHN) Élisa Thébault (SU).
- Mary Savino (2021-2024), Méthodes d'apprentissage statistique pour la simulation de problèmes fortement non linéaires en milieu poreux (thèse financée et co-encadrée par l'ANDRA), C. Lévy-Leduc.
- Wencan Zhu (2019-2022), Identification de biomarqueurs dans le domaine de la médecine de précision (CIFRE, co-encadrement SANOFI), C. Lévy-Leduc.
- Marina Gomtsyan (2020-2023), Sélection de variables dans les modèles GLARMA en grande dimension, C. Lévy-Leduc, co-encadrement avec : S. Ouadah et L. Sansonnet.
- Mathis Chagneux, (2020-) Détection automatique de plastique en bord de rivière, P Gloaguen, co-encadrement S. Le Corff TPS, C. Ollion CMAP X, collaboration association Surfrider.
- Tam Le Minh, (2020-) Comparaison de réseaux écologiques. Encadré par S. Donnet, F. Massol (CNRS) S. Robin.
- Edouard Chatignoux (2020-) Prédiction de l’incidence des cancers à une échelle géographique fine sur le territoire français à partir de données d’incidence partiellement observées et de proxys, I. Albert, collaboration avec Santé Publique France.
- Béwentaoré Sawadogo (2017-) Détection de tendance dans les extrêmes, application aux précipitations au Burkina, L. Bel, cotutelle de D. Barro, Burkina.
Co-encadrées par des membres de l'unité
- Perrine Lacroix (2018-2021): Régression en grande dimension pour l’inférence de réseau, co-encadrement Laboratoire de Mathématiques d'Orsay
- Julien Rozières: Detection de motifs cis-regulateurs chez les plantes, co-encadrement IJPB
Groupes de travail
Coordination & Animation
- State Of The R (2017-) - réseau méthodologique autour des questions computationnelles
- RESSTE (2014-) - réseau méthodologique autour des modèles spatio-temporels
- NetBio (2009-) - réseau méthodologique NUMM "Inférence de réseaux (biologiques)"
- StatOmique (2008-)- Méthodologie statistique pour les données à haut-débit
- Autoencodeurs variationnels
- All about that Bayes.
- Van der Vaart (autoformation en probabilité).
- Applibugs (2015-)
- Mires - Méthodes Interdisciplinaires pour les Réseaux d’Échanges de Semences
- GdR ReSoDiv - Réseaux, sociétés et diversité (programme du CNRS, depuis 2018)
- GdR BIM - Bioinformatique Moléculaire
- GdR EcoStat - Ecologie Statistique
- GdR GE - Génomique Environnementale
- GdR Statistique et Santé
- Réseau Stat et trajectoires (Workshop/Séminaire en décembre)
- Large Participation to SFDS conferences
- Movement Ecology Workshop
Organisation de conférences
- Rencontres R 2021 - conférence nationale fournissant un lieu d’échange autour de la galaxie R
- SMPGD - Statistical Methods for Post Genomic Data
- SatRday 2019 - conférence régionale pour soutenir la collaboration, la mise en réseau et l'innovation au sein de la communauté R