TriAnnot

5. Développement d'un pipeline d'annotation automatique de séquences (TriAnnot)

P. Leroy, N. Guilhot, A. Bernard

Accéder à TriAnnot

TriAnnot est un pipeline (chaîne de programmes bioinformatiques) pour l'annotation structurale et fonctionnelle automatique des séquences génomiques chez les monocotylédones. Il est optimisé pour l’annotation du génome du blé tendre (Triticum aestivum). La dernière version 2.1 du pipeline est exploitée actuellement pour l’annotation structurale et fonctionnelle automatique de plusieurs milliers de BAC issus du programme ANR 3BSEQ dont le but est le séquençage et l’annotation du chromosome 3B de blé tendre (1 Gb, c'est-à-dire 3,5 fois le génome humain). Une interface web conviviale a également été développée afin de mettre à disposition ce pipeline auprès de la communauté internationale, en priorité les membres du consortium IWGSC, mais également des laboratoires travaillant sur certaines monocotylédones. Le pipeline TriAnnot permet d'identifier (annotation structurale) et d’annoter (annotation fonctionnelle) des gènes, des tRNA et des séquences répétées, notamment les éléments transposables qui représentent plus de 85% du génome du blé tendre.

Les projets de développement en cours consistent à :

  1. Implémenter de nouveaux modules intégrant des programmes bioinformatiques qui permettent la combinaison de données in silico (prédiction de gènes ab initio) et des évidences biologiques, et notamment des millions de séquences RNAseq en collaboration avec les laboratoires concernés (EuGène, Augustus, mgeneNGS).
  2. Implémenter un nouveau module (rnaspace) pour l’identification et l’annotation d’ARN non codant (ncRNA) et notamment des micro-RNA (miRNA) en plus des tRNA déjà identifiés par le pipeline, mais également l’identification de snoRNA, rRNA, etc. Cette implémentation se fait en collaboration avec l’Equipe de C. Gaspin de l’INRA de Toulouse.