Some contributions to deep learning for metagenomics - IRD - Institut de recherche pour le développement Accéder directement au contenu
Thèse Année : 2018

Some contributions to deep learning for metagenomics

Quelques contributions à l'apprentissage en profondeur pour la métagénomique

Résumé

Metagenomic data from human microbiome is a novel source of data for improving diagnosis and prognosis in human diseases. However, to do a prediction based on individual bacteria abundance is a challenge, since the number of features is much bigger than the number of samples. Therefore, we face the difficulties related to high dimensional data processing, as well as to the high complexity of heterogeneous data. Machine Learning (ML) in general, and Deep Learning (DL) in particular, has obtained great achievements on important metagenomics problems linked to OTU-clustering, binning, taxonomic assignment, comparative metagenomics, and gene prediction. ML offers powerful frameworks to integrate a vast amount of data from heterogeneous sources, to design new models, and to test multiple hypotheses and therapeutic products. The contribution of this PhD thesis is multi-fold: 1) we introduce a feature selection framework for efficient heterogeneous biomedical signature extraction, and 2) a novel DL approach for predicting diseases using artificial image representations. The first contribution is an efficient feature selection approach based on visualization capabilities of Self-Organising Maps (SOM) for heterogeneous data fusion. We reported that the framework is efficient on a real and heterogeneous dataset called MicrObese, containing metadata, genes of adipose tissue, and gut flora metagenomic data with a reasonable classification accuracy compared to the state-of-the-art methods. The second approach developed in the context of this PhD project, is a method to visualize metagenomic data using a simple fill-up method, and also various state-of-the-art dimensional reduction learning approaches. The new metagenomic data representation can be considered as synthetic images, and used as a novel data set for an efficient deep learning method such as Convolutional Neural Networks. We also explore applying Local Interpretable Model-agnostic explanations (LIME), Saliency Maps and Gradient-weighted Class Activation (Grad-CAM) to identify important regions in the newly constructed artificial images which might help to explain the predictive models. We show by our experimental results that the proposed methods either achieve the state-of-the-art predictive performance, or outperform it on public rich metagenomic benchmarks.
Les données métagénomiques provenant du microbiome humain constituent une nouvelle source de données permettant d'améliorer le diagnostic et le pronostic des maladies humaines. Cependant, il est difficile de faire une prédiction basée sur l'abondance de bactéries individuelles car le nombre de caractéristiques est beaucoup plus grand que le nombre d'échantillons. Nous sommes donc confrontés aux difficultés liées au traitement de données de grandes dimensions, ainsi qu’à la grande complexité des données hétérogènes. Apprentissage Machine (ML) en général, et Deep Learning (DL) en particulier, a obtenu de grandes réalisations sur d'importants problèmes de métagénomique liés à la mise en cluster des UTO, au binning, aux assignations taxonomiques, à la métagénomique comparative et à la prédiction de gènes. ML offre des cadres puissants pour intégrer une grande quantité de données provenant de sources hétérogènes, concevoir de nouveaux modèles et tester de multiples hypothèses et produits thérapeutiques. La contribution de cette thèse de doctorat est multiple: 1) nous introduisons un cadre de sélection de caractéristiques pour une extraction efficace de signature biomédicale hétérogène, et 2) une nouvelle approche DL pour prédire des maladies à l'aide de représentations d'images artificielles. La première contribution est une approche efficace de sélection de caractéristiques basée sur les capacités de visualisation des cartes auto-organisées (SOM) pour la fusion de données hétérogènes. Nous avons signalé que le cadre est efficace sur un ensemble de données réel et hétérogène appelé MicrObese, contenant des métadonnées, des gènes de tissu adipeux et des données métagénomiques de la flore intestinale avec une précision de classification raisonnable par rapport aux méthodes de pointe. La deuxième approche développée dans le cadre de ce projet de thèse consiste en une méthode de visualisation des données métagénomiques à l'aide d'une méthode de remplissage simple, ainsi que de diverses approches d'apprentissage de réduction dimensionnelle à la pointe de la technologie. La nouvelle représentation des données métagénomiques peut être considérée comme une image synthétique et utilisée comme un nouvel ensemble de données pour une méthode d'apprentissage en profondeur efficace telle que les réseaux de neurones à convolution. Nous explorons également l’utilisation des explications relatives aux modèles interprétables locaux (LIME), des cartes de saillance et de l’activation de classe à gradients pondérés (Grad-CAM) pour identifier les régions importantes des images artificielles nouvellement construites qui pourraient aider à expliquer les modèles prédictifs. Nos résultats expérimentaux montrent que les méthodes proposées permettent d’atteindre les performances prédictives les plus récentes ou d’y surpasser les performances de référence métagénomique riche en public.
Fichier principal
Vignette du fichier
final_mythesis.pdf (13.98 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-01958389 , version 1 (18-12-2018)

Identifiants

  • HAL Id : tel-01958389 , version 1

Citer

Nguyen Thanh Hai. Some contributions to deep learning for metagenomics. Computer Science [cs]. UMMISCO, IRD; Integromics, Institute of Cardiometabolism and Nutrition, 2018. English. ⟨NNT : ⟩. ⟨tel-01958389⟩
365 Consultations
286 Téléchargements

Partager

Gmail Facebook X LinkedIn More