Bag of genomic words : (machine) learning on short sequences to predict on whole genomes
L'émergence de bactéries résistantes aux antibiotiques, comme MRSA par exemple, est une problématique importante en médecine. Une méthode potentielle pour lutter contre ces bactéries sont les virus bactériophages, des virus parasitant uniquement les bactéries.
L'utilisation thérapeutique des bactériophages nécessite cependant que pour chaque espèce de bactéries l'on puisse trouver un phage correspondant, ce qui est difficile à faire expérimentalement. Le but de ce projet était donc de développer des modèles prédictifs permettant d'identifier des associations entre les bactéries et les phages qui leur correspondent.
La méthode du « Bag-of-words » (en français « sac-de-mots ») consiste à représenter un texte uniquement sous forme de fréquences de mots. Dans ce projet nous utilisons cette approche pour représenter chaque génome comme un vecteur de fréquences de k-mers. Ces « Bag of Genomic Words » sont ensuite fournis en entrée à divers modèles de machine learning, afin de déterminer si ceux-ci peuvent en déduire des propriétés.
En premier lieu, nous entrainons des modèles à reconnaitre la présence d'une séquence ou motif dans les génomes, puis dans un second temps nous entrainons le modèle le plus prometteur à identifier l'association de phages à une bactérie.
L'identification de séquence et motifs est une tâche que les modèles utilisés parviennent à accomplir fiablement, avec une probabilité de prédiction exacte de plus de 90% pour des motifs à 2 nucléotides variables ou moins, mais seulement tant que ce motif ne se fait pas trop rare (au moins dans 30% des génomes). Cependant, la prédiction d'associations entre phages et bactéries est moins fiable, le modèle utilisé ne retournant que peu de faux positifs mais beaucoup de faux négatifs. Un tel modèle pourrait être utilisé pour trouver une partie phages associés à une espèce de bactérie de manière relativement fiable, mais pas exhaustivement.
Code du projet disponible sur https://github.com/reutelerr/TB-BagOfGenomicWords
Etudiant: Robin Reuteler
Année: 2022
Département: TIC
Filière: Informatique et systèmes de communication (anciennement Informatique) avec orientation en Logiciel
Type de formation: Plein temps
Enseignant responsable: Carlos Andrés Pena
Téléchargements:
- Télécharger l'affiche
- Télécharger le rapport