Amélioration de la séquence de référence du bananier "Musa acuminata" en combinant des approches semi-automatiques avec des données NGS

Les avancées des technologies de séquençage ont rendu possible la production de séquences de référence pour un grand nombre d’espèces, permettant ainsi l’étude de l’organisation des génomes ainsi que de leur fonction. Meilleure est la qualité des assemblages meilleures sont les études qui en découlent.

Dans ce contexte, nous avons développé un pipeline bioinformatique pour améliorer la séquence de référence du génome du bananier. Ce pipeline se compose de plusieurs outils semi-automatiques qui interviennent à différents niveaux dans le processus d’assemblage. Contrairement aux assembleurs classiques automatisés qui sont basés sur des paramètres globaux, les outils semi-automatiques proposent un mode expert à l’utilisateur qui peut décider des améliorations suggérées par le biais de compromis locaux.

Le pipeline a été utilisé pour améliorer la séquence de référence du bananier (Musa acuminata). Des données de génotypage par séquençage (GBS) d'une population en ségrégation et les données de séquençage des extrémités de longs fragments d’ADN (mate pairs) ont été combinées pour détecter et corriger des erreurs d’assemblage. Les mate pairs ont également été utilisées pour identifier des possibles fusions et jonctions de scaffolds oubliées par les méthodes d'assemblage automatisées. D’autre part, une carte optique utilisant la technologie Bionano IRYS a été produite et utilisée pour assembler les scaffolds en super-scaffolds. Les données GBS ont ensuite été utilisées pour ancrer les scaffolds en pseudo-molécules avec une nouvelle approche bioinformatique qui évite l'étape fastidieuse de construction de carte génétique. Enfin, une annotation consensus des gènes a été réalisée à partir de deux annotations préexistantes et projetée sur le nouvel assemblage.

Cette approche a permis d’améliorer de façon substantielle la séquence de référence du bananier. Ainsi, le nombre total de scaffolds a été réduit de 7513 à 1532 (80%), avec une N50 qui a augmenté de 1,3 Mb (65 scaffolds) à 3,0 Mb (26 scaffolds). La portion de séquences ancrées aux 11 chromosomes est passée de 70 % à 89,5 % et la proportion de sites inconnus (N) a été réduite de 17,3 % à 10,0 %.

La mise à disposition de cette version 2 du génome de référence de Musa acuminata au travers du Banana Genome Hub fourni un meilleur outil pour l’analyse fonctionnelle, évolutive et structurale des génomes des bananiers. Les outils bioinformatiques développés dans cette étude pourront être utilisés pour améliorer les assemblages des génomes d'autres espèces.

Publiée : 06/04/2016