Projet de thèse

Date de mise à jour : 18 juin 2024

Evaluation et développement de méthodes statistiques intégrant les annotations fonctionnelles dans la prédiction de trait complexes pour l’optimisation des schémas de sélection

Mots-clés : Prédiction génomique, annotations fonctionnelles, modèles linéaires mixtes, modèles bayésiens, intelligence artificielle, simulation, génétique quantitative, sélection variétale


Encadrants

  • Directeur de thèse : David Pot (CIRAD, HDR), Généticien en appui aux programmes de sélection
  • Encadrant de thèse  : Vincent Garin (CIRAD), Biostatisticien

Contexte et problématique de l'étude 

La sélection de variétés de plantes adaptées aux évolutions du climat et des systèmes agricoles futurs est un des enjeux majeurs de la recherche agronomique actuelle. La prédiction de caractères complexes dans des organismes biologiques comme les animaux ou les plantes à l’aide d’information génétique, connue sous le nom de prédiction génomique, est une application importante des statistiques pour améliorer l’efficacité de la sélection (Hickey et al., 2017; Xu et al., 2020). Fortement ancrée dans la théorie des modèles mixtes, la prédiction génomique s’est enrichie d’apports des statistiques Bayésiennes ainsi que plus récemment des algorithmes issus de l’apprentissage machine (Machine Learning, ML).

La compréhension de la construction et de la variabilité des phénotypes cibles de la sélection implique deux grands types d’équipes de recherche :

  • des équipes de généticiens quantitatifs et de biostatisticiens tentant d’expliquer la variation génétique des caractères par des modèles statistiques ancrés sur la variabilité nucléotidique (Hickey et al., 2017; Xu et al., 2020)
  • des équipes de biologistes et physiologistes moléculaires visant quant à elles l’identification des mécanismes physiologiques et des gènes et réseaux moléculaires sous-jacents (Brooks et al., 2021; Davidson, 2010) permettant d’expliquer la construction des phénotypes finaux et leurs expressions.

Si la prédiction génomique commence à prendre en compte les informations issues des études d’identification de gènes majeurs (Xiaogang Liu et al., 2019; Xu et al., 2020), elle ne tire pas encore complètement parti de la compréhension fine des mécanismes moléculaires impliqués dans la construction des phénotypes. L’intégration des informations génétiques et biologiques issues des approches multi-omiques dans les modèles de prédiction génomique est pourtant une stratégie prometteuse (Azodi et al., 2020; Boyle et al., 2017; Chateigner et al., 2020; de las Heras-Saldana et al., 2020; Gage et al., 2021; Giri et al., 2021; Hu et al., 2019; Xuanyao Liu et al., 2019; Schrag et al., 2018; Westhues et al., 2019, 2017; Zhengcao, 2019). Néanmoins cette approche basée sur des caractérisations multi-omiques (génomique, transcriptomique, protéomique, métabolomique…) des différents candidats à la sélection se traduit par des coûts relativement élevés encore peu compatibles avec les contraintes financières des programmes de sélection. Dans ce contexte, la mobilisation d’annotations fonctionnelles déjà disponibles dans la littérature comme des Go-Terms (Edwards et al., 2016) ou des propriétés positionnelles ou évolutives des polymorphismes considérés (Ramstein et al., 2020; Ramstein and Buckler, 2022) peut permettre une importante réduction des coûts.

Plusieurs méthodes statistiques ont été proposées pour intégrer les annotations fonctionnelles dans les modèles de prédiction génomique, avec des approches allant des modèles mixtes utilisant une pré-sélection de marqueurs (Edwards et al., 2016) à des approches bayésiennes permettant une formulation plus complexe des effets a priori (Moser et al. 2015 ; Mollandin et al., 2022; Zheng et al., 2024). La comparaison de ces méthodes ainsi que l’évaluation d’approches de machine learning ont encore été très peu explorées. En matière de sélection, l’importance de l’interaction génotype par environnement et la nécessité de traiter des données produites dans plusieurs environnements sont incontournables (Malosetti et al. 2013). L’adaptation de méthodes de prédictions intégrant la connaissance fonctionnelle a priori au contexte de prédiction multi-environnemental constitue un  challenge statistique nécessitant la prise en compte d’effets génétiques variables. Finalement, l’intégration de ces nouveaux outils en appui des programmes de sélection constitue un objectif d’application concret des méthodes qui seront proposées dans ce projet de thèse.

Objectifs du projet de thèse

L’objectif général de ce projet de thèse est d’explorer les bénéfices liés à l’ajout d’annotations fonctionnelles dans les approches de prédictions génomiques mises en œuvre dans différents plans de croisements et différentes structures de schéma de sélection d’espèces tropicales et méditerranéennes.

Ce projet s’articulera autour de 4 axes.

  • Axe 1 : Evaluation par simulation des différentes méthodes actuellement disponibles dans le contexte de  plans de croisement, de populations et de structures de schéma de sélection contrastants
  • Axe 2 : Développement et évaluation de nouvelles méthodes d’intégration des informations fonctionnelles notamment au travers des approches de Machine Learning
  • Axe 3 : Exploration de la pertinence de l’intégration des informations fonctionnelles dans le contexte de caractères soumis à des interactions génotype x environnement
  • Axe 4 : Application des méthodes d’intégration des annotations fonctionnelles dans la prédiction génomique sur des jeux de données réels correspondant à différents plans de croisements, populations et schémas de sélection

Lire la suite

Proposition de projet de thèse : "Evaluation et développement de méthodes statistiques intégrant les annotations fonctionnelles dans la prédiction de trait complexes pour l’optimisation des schémas de sélection"

Date de mise à jour : 18 juin 2024