Analyses bioinformatiques

Analyses bioinformatiques

Les innovations technologiques de ces dernières années ont permis de mettre au point des nouvelles générations de séquenceurs (Next-Generation Sequencing) capables de déchiffrer des génomes complets en réduisant le temps mais aussi les coûts du séquençage.

Ces avancées rendent possible la soumission de programmes de séquençage de librairies génomiques produites au sein des laboratoires par différentes techniques de biologie moléculaire.

Désormais, le challenge réside dans la manipulation et l'analyse des grandes quantités de données générées par ces NGS, appelées reads (pour mini-séquences), qui nécessitent des moyens de calculs importants.

Après le séquencage, les analyses bio-informatiques, c'est-à-dire l'étude des génomes in silico, consistent en deux étapes principales : l'assemblage et l'annotation.

L'assemblage des reads (par chevauchement) a pour objectif de constituer les séquences les plus longues possibles (contigs et scaffolds) jusqu'à la reconstitution de la séquence initiale. L'assemblage peut être facilité si le génome d'une espèce proche a déjà été assemblé, on parle alors de mapping de génomes. Si aucun génome de référence n'existe, l'assemblage est dit "de novo". Les reads assemblés en contigs (séquences sans trou) sont orientés et ordonnés pour constituer des scaffolds. Les étapes de finition consistent à boucher tous les trous entre les scaffolds pour obtenir la séquence complète du chromosome.

L'annotation a pour finalité d'attribuer des fonctions aux séquences et nécessite la réalisation de nombreuses analyses comme :

  • La prédiction de gènes : à partir des séquences assemblées, des algorithmes vont chercher à identifier les différentes régions spécifiques qui composent les gènes afin de créer une banque de gènes putatifs. La position de ces gènes sur les séquences est aussi déterminée.
  • La recherche d'homologie : trouver des gènes homologues aux gènes putatifs est indispensable pour aider à identifier leur fonction ou bien leur espèce d'appartenance. La méthode communément utilisée est l'alignement des séquences. Des séquences similaires aux séquences putatives sont recherchées dans les banques de références.
  • La prédiction par phylogénie : c'est une méthode qui permet de comparer l'évolution moléculaire des séquences dans le temps aux sein de différents taxons.

Afin de répondre à ces problématiques, plusieurs logiciels ont été interfacés avec Caparmor :