Logo Metabolon

Guide de la multiomique

Chapitre 2 - Conception d'une étude multiomique

Dans ce chapitre, nous présentons une vue d'ensemble de certains des principaux défis associés à l'analyse des ensembles de données multiomiques et nous expliquons comment concevoir une étude multiomique solide en tenant compte de ces défis.

Comment la recherche bénéficie d'une approche multiomique

Comme nous l'avons brièvement évoqué dans le chapitre précédent, les études de recherche multiomique, en fournissant une vision holistique d'un organisme ou d'un écosystème, permettent d'approfondir considérablement notre compréhension de la biologie. En aidant à identifier le flux d'informations entre les couches omiques1, elles peuvent commencer à démêler les relations de cause à effet1,2. Ces caractéristiques rendent les analyses multiomiques particulièrement puissantes pour améliorer la prédiction et le pronostic des maladies, facilitant ainsi le développement de meilleures stratégies thérapeutiques1.

Les dépôts de données multiomiques à grande échelle et les cohortes ont démontré sans équivoque la puissance de l'analyse multiomique1. Par exemple, l'Atlas du génome du cancer (TCGA) - une combinaison de données génomiques, transcriptomiques, épigénomiques et protéomiques - a permis d'identifier des sous-types distincts de cancer du sein3 et de décrire les multiples voies qui conduisent au cancer de l'ovaire et qui ont un impact sur les stratégies thérapeutiques4. Des cohortes plus récentes intégrant des données métabolomiques et/ou microbiomiques à d'autres données omiques ont permis d'obtenir des informations importantes sur le contrôle génétique des caractéristiques moléculaires et l'héritabilité du microbiome intestinal (étude MuTher5), ainsi que sur l'identification des relations génotype-phénotype dans les maladies cardiométaboliques6.

Arriver à ce niveau supérieur de compréhension est cependant un défi. Dans les études de recherche multiomique, les chercheurs ne sont plus chargés de découvrir des informations biologiques à partir d'un seul type d'ensemble de données. Ils doivent au contraire combiner plusieurs couches de données biologiques, saisies à l'aide de types et de formats de données disparates dont l'analyse peut s'avérer difficile. L'analyse multiomique peut être une tâche décourageante, longue et, malheureusement, coûteuse. Néanmoins, armés d'une compréhension des différents défis auxquels est confrontée l'analyse multiomique, les chercheurs peuvent concevoir et exécuter des études multiomiques robustes avec un potentiel de découverte significatif.

Les défis de l'analyse multiomique

L'analyse multiomique présente plusieurs défis majeurs, notamment la grande quantité de données produites par les techniques modernes à haut débit, l'hétérogénéité des données, les points de données manquants et l'intégration de différents types de données de manière à pouvoir faire des observations biologiquement pertinentes1,2,7,8. En outre, l'absence de normes universelles, non seulement parmi les outils d'analyse utilisés pour l'analyse intégrative, mais aussi dans la validation de l'apprentissage automatique et d'autres approches d'intelligence artificielle pour l'analyse des données, peut compliquer l'analyse intégrative7,8. Chacun de ces défis est brièvement abordé ci-dessous.

Figure 1. La complexité de la multiomique : une combinaison de biologie axée sur les omiques, de science des données, d'informatique, de statistiques et de sciences informatiques8.

Volume/complexité des données

Le séquençage à haut débit, la spectrométrie de masse et d'autres techniques ont considérablement augmenté la quantité de données à la disposition des chercheurs. Ce phénomène est une arme à double tranchant : plus il y a de données, plus la probabilité d'identifier de nouvelles associations (en particulier des associations rares) augmente, mais plus il est difficile d'analyser les ensembles de données pour identifier ces associations.

En général, chaque ensemble de données omiques nécessite des approches uniques de mise à l'échelle, de normalisation et/ou de transformation des données qui doivent être effectuées avant l'intégration avec d'autres données omiques dans l'étude7. Dans les études multiomiques, un plus grand nombre d'échantillons est également nécessaire pour augmenter la puissance (plus de détails dans la section sur la conception de l'étude ci-dessous), ce qui rend les études comprenant des milliers d'échantillons peu probables. Cela nécessite d'importantes ressources informatiques et de stockage de données2,7.

Hétérogénéité des données

Non seulement de nombreux points de données sont produits dans les études multiomiques, mais chaque technique omique individuelle produit des quantités de données différentes et dans des formats différents. Par exemple, une approche ARN-seq peut produire des milliers de transcrits et leurs isoformes, tandis que les techniques protéomiques et métabolomiques peuvent produire seulement quelques centaines ou quelques milliers de caractéristiques8. Et comme ces données sont générées à l'aide d'une gamme de plateformes différentes, les formats de données et les exigences en matière de stockage diffèrent également de manière significative1et doivent être harmonisés avant l'analyse. En outre, l'incohérence des identifiants des échantillons, l'absence de nomenclature standard et d'autres incohérences techniques peuvent entraîner des divergences supplémentaires entre les différents ensembles de données omiques, ce qui complique encore l'intégration et l'analyse des données2.

Points de données manquants

Malgré les grandes quantités de données produites dans les études omiques, les points de données manquants sont un problème important qui a un impact sur l'analyse multiomique. Ces points de données manquants se produisent au niveau de l'ensemble de données omiques individuelles. Par exemple, le domaine de la génomique s'est principalement concentré sur les régions du génome codant pour les protéines, laissant des lacunes importantes concernant l'ADN non codant et la manière dont ces régions sont exploitées pendant la transcription et la traduction7. La métabolomique et la protéomique souffrent le plus de points de données manquants en raison des limitations associées à la spectrométrie de masse, notamment l'efficacité variable de l'ionisation, la fragmentation dans la source et la présence de nombreux isomères, qui empêchent l'identification fiable d'un nombre important de caractéristiques7. Des techniques de séparation orthogonale ont été mises au point pour accroître la confiance dans l'identification des caractéristiques ; cependant, il existe une quantité importante de "matière noire", en particulier dans le domaine de la métabolomique9.

Les techniques omiques unicellulaires, qui en sont encore à leurs débuts et qui seront examinées plus en détail au chapitre 8 du présent guide, souffrent également de points de données manquants7,10-12. Tout d'abord, le volume de matériel de départ est considérablement réduit dans les études unicellulaires, ce qui fait que les taux de valeurs manquantes dues à une faible efficacité de capture, à la variation technique et/ou à l'expression stochastique des gènes peuvent atteindre 30%7. Dans le même ordre d'idées, les problèmes d'abandon causés par l'incapacité de nombreux échantillons à représenter pleinement la population cible sont fréquents dans le séquençage de l'ARN unicellulaire, la principale technique omique utilisée dans l'analyse unicellulaire10. Il s'agit d'un problème particulièrement important lorsqu'il s'agit de cibler des gènes faiblement exprimés ou des gènes rares.

Intégration et analyse des données

Le volume de données, l'hétérogénéité et les lacunes rendent difficile l'intégration de divers ensembles de données multiomiques à des fins d'analyse. Cependant, de nombreuses autres entités techniques et biologiques compliquent l'intégration et l'analyse de multiples ensembles de données omiques. La variabilité biologique en soi est l'un des facteurs les plus importants, car les variations de sexe, d'alimentation, d'âge et d'autres facteurs environnementaux peuvent entraîner des fluctuations moléculaires significatives susceptibles de masquer les véritables signatures biologiques7.

En outre, la relation entre les gènes, les transcrits, les protéines et les métabolites est plus complexe qu'une simple relation univoque2,8,13. La conversion des identifiants, c'est-à-dire la corrélation des identités des mêmes objets dans plusieurs couches omiques2,14, estdonc non seulement nécessaire, mais aussi difficile. Souvent, les identifiants doivent être mis en correspondance avec diverses bases de données, qui peuvent ne pas couvrir toutes les données omiques d'intérêt ou présenter des incohérences entre elles (par exemple, KEGG GENE basé sur RefSeq peut conduire à des identifiants périmés dans une base de données après que des changements ont été apportés à une autre base de données)8.

Même si, dans l'idéal, plusieurs techniques omiques devraient être réalisées sur le même ensemble d'échantillons, ce n'est pas toujours le cas. Par exemple, les données GWAS et les données d'expression sont souvent collectées sur des échantillons différents2, ce qui nécessite de déduire des signatures génétiques. Il peut également être impossible d'effectuer toutes les techniques omiques sur chaque échantillon lorsque les échantillons sont rares ou de faible volume. Les multiples couches d'inférence à travers les couches multiomiques peuvent entraîner un bruit important et empêcher une analyse et une interprétation robustes des données.

Conception d'une étude multiomique robuste

Malgré les défis associés à la recherche multiomique, il est possible de mener à bien une étude de recherche. En outre, comme les techniques d'analyse sont continuellement développées et améliorées, les ensembles de données existants peuvent et sont susceptibles d'être réanalysés ultérieurement à l'aide de techniques avancées15.

Plusieurs éléments doivent être pris en compte lors de la conception d'une étude multiomique, que nous détaillons ci-dessous :

La question scientifique

L'élément le plus important à prendre en compte lors de la conception d'une étude multiomique est la question scientifique que vous vous posez. Les maladies complexes ou les perturbations environnementales, par exemple, nécessiteront nécessairement plus d'approches omiques appliquées exactement aux mêmes échantillons, la collecte de données à plusieurs moments et des échantillons prélevés à différents endroits2. Dans les cas où il existe un modèle animal fiable, les chercheurs peuvent vouloir utiliser un modèle animal plutôt que de collecter des échantillons humains afin de minimiser les sources de bruit et de réduire le nombre d'échantillons2.

Sources de variation

Il est essentiel pour les chercheurs d'identifier et de minimiser autant que possible les sources de variation. Celles-ci comprennent des sources biologiques et technologiques, telles que les effets de lot, les points de données manquants, l'hétérogénéité des données et la variation analytique2,7,8. Il est important d'identifier et de traiter ces sources à toutes les étapes, du traitement des échantillons à l'acquisition et à l'analyse des données15-18.

La variation technique et les points de données manquants peuvent être minimisés en connaissant les limites de chaque technique omique individuelle que vous utilisez dans votre étude19 et en sachant comment y remédier. Par exemple, un système hiérarchisé de confiance dans l'identification des métabolites a été mis au point et le choix d'un fournisseur qui fournit des identifications de métabolites de niveau 1 et 2 peut garantir des données métabolomiques de la plus haute qualité7. Metabolon possède la plus grande base de données de métabolites de niveau 1 disponible et a travaillé avec des centaines de clients et de collaborateurs sur un large éventail de projets, y compris plusieurs études de recherche multiomique.

Les données elles-mêmes doivent également être manipulées avant l'analyse et cela doit faire partie de la conception de votre étude. En connaissant les différentes sorties de données omiques et les exigences en matière de format de fichier d'entrée pour les divers outils d'analyse, vous pourrez vous préparer de manière adéquate à la transformation des données, au mappage, au filtrage, à la normalisation, à l'élimination des effets de lot et aux contrôles de qualité1,2,7.

Taille de l'échantillon et puissance

Comme pour toute étude scientifique, les études de recherche en multiomique doivent être suffisamment puissantes, ce qui sera fortement influencé par le bruit de fond, l'ampleur de l'effet et la taille de l'échantillon2. Tarazona et ses collègues ont décrit une méthode d'estimation de la taille optimale de l'échantillon pour les expériences multiomiques et ont construit un outil open source appelé MultiPower1 que les chercheurs peuvent utiliser pour effectuer des estimations de puissance et de taille d'échantillon pour leurs plans d'études multiomiques19.

Techniques analytiques avancées

Des méthodes statistiques avancées et des techniques d'intelligence artificielle/apprentissage automatique sont nécessaires pour analyser avec précision les ensembles de données multiomiques. Il existe une grande variété d'outils disponibles pour aider les chercheurs à analyser leurs données. Les chercheurs devraient se familiariser avec ces outils ou avec les scientifiques des données qui peuvent les aider à analyser leurs données avant de commencer leur étude1,7,8. Le choix de l'outil peut avoir un impact sur tous les autres aspects de la conception de l'étude, c'est pourquoi les outils et les techniques d'analyse doivent être sélectionnés lors de la conception de l'étude.

Conclusions

Les études multiomiques sont un moyen puissant d'acquérir une compréhension globale de la biologie et du monde qui nous entoure. Contrairement aux études omiques individuelles, elles peuvent nous aider à identifier les relations de cause à effet. L'analyse de multiples ensembles de données complexes n'est pas une tâche facile ; cependant, une variété d'outils, de techniques et d'experts sont disponibles pour vous aider à concevoir et à exécuter une étude multiomique robuste avec un potentiel de découverte important.

guide de réussite de la conception d'une étude métabolomique

Lire la suite - Chapitre 3 - La génomique

Dans ce chapitre, nous donnons un bref aperçu de la génomique - la modalité omique qui s'intéresse au contenu du génome - et des domaines connexes, notamment l'épigénomique et la métagénomique

Références

  1. Subramanian I, Verma S, Kumar S, et al. Multi-omics Data Integration, Interpretation, and Its Application. Bioinform Biol Insights. 2020;14 : 1177932219899051. doi : 10.1177/1177932219899051
  2. Hasin Y, Seldin M, et Lusis A. Multi-omics approaches to disease. Genome Biol. 2017;18(1):83. doi : 10.1186/s13059-017-1215-1
  3. Réseau de l'Atlas du génome du cancer. Portraits moléculaires complets des tumeurs mammaires humaines. Nature. 2012;490(7418):61-70. doi : 10.1038/nature11412
  4. Zhang H, Liu T, Zhang Z, et al. Integrated Proteogenomic Characterization of Human High-Grade Serous Ovarian Cancer. Cellule. 2016;166(3):755-765. doi : 10.1016/j.cell.2016.05.069
  5. Nica AC, Parts L, Glass D, et al. The architecture of gene regulatory variation across multiple human tissues : the MuTHER study. PLoS Genet. 2011;7(2):e1002003. doi : 10.1371/journal.pgen.1002003
  6. Laakso M, Kuusisto J, Stancakova A, et al. The metabolic syndrome in men study : a resource for studies of metabolic and cardiovascular diseases. J Lipid Res. 2017;58(3):481-93. doi : 10.1194/jlr.O072629
  7. Odenkirk MT, Reif DM, et Baker ES. Multiomic Big Data Analysis Challenges : Increasing Confidence in the Interpretation of Artificial Intelligence Assessments (Accroître la confiance dans l'interprétation des évaluations de l'intelligence artificielle). Anal Chem. 202 ; 93(22) : 7763-7773. doi : 10.1021/acs.analchem.0c04850
  8. Krassowski M, Das V, Sahu SK, et al. State of the Field in Multi-Omics Research : From Computational Needs to Data Mining and Sharing. Front Genet. 2020;11 : 610798. doi : 10.3389/fgene.2020.610798
  9. da Silva RR, Dorrestein PC, et Quinn RA. Éclairer la matière noire de la métabolomique. Proc Natl Acad Sci U S A. 2015;112(41):12549-12550. doi : 10.1073/pnas.1516878112
  10. Ma A, McDermaid A, Xu J, et al. Integrative Methods and Practical Challenges for Single-cell Multi-omics. Trends Biotechnol. 2020 Sep ; 38(9):1007-1022. doi : 10.1016/j.tibtech.2020.02.013
  11. Yang MC, Weissman SM, Yang W, et al. MISC : missing imputation for single-cell RNA sequencing data. BMC Syst Biol. 2018;12(Suppl 7):114. doi : 10.1186/s12918-018-0638-y
  12. Hicks SC, Townes FW, Teng M, et al. Missing data and technical variability in single-cell RNA-sequencing experiments. Biostatistique. 2018;19(4):562-578. doi : 10.1093/biostatistics/kxx053
  13. Collins FS, Green ED, Guttmacher AE, et al. Une vision pour l'avenir de la recherche en génomique. Nature. 2003;422(6934):835-47. doi : 10.1038/nature01626
  14. Yugi K, Kubota H, Hatano A, et al. Trans-Omics : how to reconstruct biochemical networks across multiple 'omic' layers. Trends Biotechnol. 2016;34:276-90. doi : 10.1016/j.tibtech.2015.12.013
  15. Gilad Y et Mizrahi-Man O. A reanalysis of mouse ENCODE comparative gene expression data. F1000Res. 2015 ; 19:4:121. doi : 10.12688/f1000research.6536.1
  16. Peixoto L, Risso D, Poplawski SG, et al. How data analysis affects power, reproducibility and biological insight of RNA-seq studies in complex datasets. Nucleic Acids Res. 2015;43(16):7664-74. doi : 10.1093/nar/gkv736
  17. Consortium SEQC/MAQC-III. Une évaluation complète de la précision, de la reproductibilité et du contenu de l'information de l'ARN-seq par le Sequencing Quality Control Consortium. Nat Biotechnol. 2014;32(9):903-14. doi : 10.1038/nbt.2957
  18. Hartley SW et Mullikin JC. QoRTs : un ensemble complet d'outils pour le contrôle de la qualité et le traitement des données des expériences RNA-Seq. BMC Bioinformatics. 2015;16:224. doi : 10.1186/s12859-015-0670-5
  19. Tarazona S, Balzano-Nogueira L, Gómez-Cabrero D, et al. Harmonisation des mesures de qualité et du calcul de la puissance dans les études multi-omiques. Nat Commun. 2020;11:3092. doi : 10.1038/s41467-020-16937-8

Découvrez comment Metabolon peut vous aider à obtenir des informations précliniques et cliniques.

Nous contacter

Parler avec un expert

Demandez un devis pour nos services, obtenez plus d'informations sur les types d'échantillons et les procédures de manipulation, demandez une lettre de soutien ou posez une question sur la façon dont la métabolomique peut faire avancer votre recherche.

Siège social

617 Davis Drive, Suite 100
Morrisville, NC 27560

+1 (919) 572-1721