Guía de la multiómica
Capítulo 2 - Diseño de un estudio multiómico
En este capítulo ofrecemos una visión general de algunos de los principales retos asociados al análisis de conjuntos de datos multiómicos y de cómo diseñar un estudio multiómico sólido teniendo en cuenta estos retos.
Cómo se beneficia la investigación de un enfoque multiómico
Como se ha comentado brevemente en el capítulo anterior, los estudios de investigación multiómica, al proporcionar una visión holística de un organismo o ecosistema, profundizan significativamente en nuestra comprensión de la biología. Al ayudar a identificar el flujo de información entre las capas ómicas1 , pueden empezar a desentrañar las relaciones causa-efecto1,2. Estas características hacen que los análisis multiómicos sean especialmente potentes para mejorar la predicción y el pronóstico de enfermedades, facilitando el desarrollo de mejores estrategias terapéuticas1.
Los repositorios de datos multiómicos a gran escala y las cohortes han demostrado de forma inequívoca el poder del análisis multiómico1. Por ejemplo, el Atlas del Genoma del Cáncer (TCGA, por sus siglas en inglés) -una combinación de datos genómicos, transcriptómicos, epigenómicos y proteómicos- ha sido fundamental para identificar distintos subtipos de cáncer de mama3 y para describir múltiples vías que impulsan el cáncer de ovario y repercuten en las estrategias terapéuticas4. Las cohortes más recientes que integran datos metabolómicos y/o microbiómicos con otros datos ómicos han aportado información importante sobre el control genético de los rasgos moleculares y la heredabilidad del microbioma intestinal (estudio MuTher5) y sobre la identificación de las relaciones genotipo-fenotipo en las enfermedades cardiometabólicas6.
Sin embargo, llegar a este nivel superior de comprensión es todo un reto. En los estudios de investigación multiómica, los investigadores ya no tienen la tarea de descubrir conocimientos biológicos a partir de un solo tipo de conjunto de datos. En su lugar, deben combinar múltiples capas de biología, capturadas con tipos y formatos de datos dispares que, por sí solos, pueden resultar difíciles de analizar. El análisis multiómico puede ser una tarea abrumadora, lenta y, por desgracia, cara. No obstante, si conocen los diversos retos que plantea el análisis multiómico, los investigadores pueden diseñar y ejecutar estudios multiómicos sólidos con un importante potencial de descubrimiento.
Los retos del análisis multiómico
El análisis multiómico plantea varios retos clave, como la enorme cantidad de datos producidos por las modernas técnicas de alto rendimiento, la heterogeneidad de los datos, los puntos de datos que faltan y la integración de distintos tipos de datos para poder realizar observaciones biológicamente relevantes1,2,7,8. Además, la falta de estándares universales, no sólo entre las herramientas de análisis utilizadas para el análisis integrador, sino en la validación del aprendizaje automático y otros enfoques de inteligencia artificial para el análisis de datos, puede complicar el análisis integrador7,8. A continuación se analiza brevemente cada uno de estos retos.

Figura 1. La complejidad de la multiómica La complejidad de la multiómica: una combinación de biología ómica, ciencia de datos, informática, estadística y ciencias computacionales8.
Volumen/complejidad de los datos
La secuenciación de alto rendimiento, la espectrometría de masas y otras técnicas han aumentado drásticamente la cantidad de datos a disposición de los investigadores. Este fenómeno es un arma de doble filo: más datos aumentan la probabilidad de identificar nuevas asociaciones (sobre todo las poco frecuentes), pero también dificultan enormemente el análisis de los conjuntos de datos para identificar esas asociaciones.
Por lo general, cada conjunto de datos ómicos individual requiere enfoques únicos de escalado, normalización y/o transformación de datos que deben realizarse antes de la integración con otros datos ómicos en el estudio7. En los estudios multiómicos, también se necesitan más muestras para aumentar la potencia (más detalles en la sección de diseño del estudio más adelante), lo que hace que los estudios que comprenden miles de muestras no sean improbables. Esto requiere importantes recursos informáticos y de almacenamiento de datos2,7.
Heterogeneidad de los datos
No sólo se producen muchos puntos de datos en los estudios multiómicos, sino que cada técnica ómica individual produce diferentes cantidades de datos y en diferentes formatos. Por ejemplo, un enfoque de ARN-seq puede producir miles de transcritos y sus isoformas, mientras que las técnicas de proteómica y metabolómica pueden producir sólo unos pocos cientos o miles de características8. Y dado que estos datos se generan utilizando una serie de plataformas diferentes, los formatos de datos y los requisitos de almacenamiento también difieren significativamente1y deben armonizarse antes del análisis. Además, la incoherencia en la identificación de las muestras, la falta de nomenclatura estándar y otras incoherencias técnicas pueden dar lugar a discrepancias adicionales entre los distintos conjuntos de datos ómicos, lo que complica aún más la integración y el análisis de los datos2.
Puntos de datos que faltan
A pesar de la gran cantidad de datos producidos en los estudios ómicos, la falta de puntos de datos es un problema importante que afecta al análisis multiómico. Esta falta de datos se produce a nivel de cada conjunto de datos ómicos. Por ejemplo, el campo de la genómica se ha centrado principalmente en las regiones del genoma que codifican proteínas, dejando importantes lagunas en relación con el ADN no codificante y la forma en que estas regiones se llevan a cabo durante la transcripción y la traducción7. La metabolómica y la proteómica sufren de forma más significativa la falta de puntos de datos debido a las limitaciones asociadas a la espectrometría de masas, incluidas las distintas eficiencias de ionización, la fragmentación en la fuente y la presencia de numerosos isómeros, que impiden la identificación segura de un número significativo de características7. Se han desarrollado técnicas de separación ortogonal para aumentar la confianza en la identificación de características; sin embargo, existe una cantidad significativa de "materia oscura", especialmente en el campo de la metabolómica9.
Las técnicas ómicas unicelulares, que aún están en pañales y se analizarán con más detalle en el capítulo 8 de esta guía, también adolecen de la falta de puntos de datos7,10-12. Por un lado, el volumen de material de partida se reduce significativamente en los estudios unicelulares, lo que hace que las tasas de valores perdidos por baja eficiencia de captura, variación técnica y/o expresión génica estocástica alcancen el 30%7. En este sentido, los problemas de abandono causados por la incapacidad de muchas muestras para representar plenamente su población diana son frecuentes en la secuenciación unicelular del ARN, la principal técnica ómica utilizada en el análisis unicelular10. Se trata de un problema especialmente importante cuando se trata de genes poco expresados o raros.
Integración y análisis de datos
El volumen de datos, la heterogeneidad y las lagunas dificultan la integración de varios conjuntos de datos multiómicos para su análisis. Sin embargo, hay muchas otras entidades técnicas y biológicas que complican la integración y el análisis de múltiples conjuntos de datos ómicos. La variabilidad biológica en sí misma es uno de los factores más importantes, ya que las variaciones en el sexo, la dieta, la edad y otros factores ambientales pueden causar fluctuaciones moleculares significativas que pueden enmascarar verdaderas firmas biológicas7.
Además, la relación entre genes, transcritos, proteínas y metabolitos es más compleja que las simples relaciones de uno a uno2,8,13. La conversión de ID -la correlación de identidades de los mismos objetos a través de múltiples capas ómicas2,14-no sólo es necesaria, sino también difícil. A menudo, las identificaciones se deben asignar a varias bases de datos, que pueden no cubrir todas las ómicas de interés o pueden tener inconsistencias de identificación entre ellas (por ejemplo, KEGG GENE basado en RefSeq puede llevar a identificaciones obsoletas en una base de datos después de que se hayan realizado cambios en otra)8.
Aunque lo ideal sería que varias técnicas ómicas se realizaran exactamente en el mismo conjunto de muestras, no siempre es así. Por ejemplo, los datos de GWAS y de expresión a menudo se recogen en muestras diferentes2, lo que requiere inferir firmas genéticas. También puede ser imposible realizar todas las técnicas ómicas en todas las muestras cuando se dispone de muestras raras/volúmenes de muestra pequeños. Múltiples capas de inferencia a través de capas multiómicas pueden conducir a un ruido significativo e impedir el análisis e interpretación de datos robustos.
Diseño de un estudio multiómico robusto
A pesar de los retos asociados a la investigación multiómica, es posible llevar a cabo un estudio de investigación con éxito. Además, como las técnicas de análisis se desarrollan y mejoran continuamente, los conjuntos de datos existentes pueden y es probable que se vuelvan a analizar más adelante con técnicas avanzadas15.
Hay varias consideraciones a tener en cuenta a la hora de diseñar un estudio multiómico, que desglosamos a continuación:
La cuestión científica
La consideración más importante a la hora de diseñar un estudio multiómico es la pregunta científica. Las enfermedades complejas o las perturbaciones ambientales, por ejemplo, requerirán necesariamente más enfoques ómicos que se apliquen exactamente a las mismas muestras, la recogida de datos en múltiples puntos temporales y muestras recogidas de varios lugares diferentes2. En los casos en que exista un modelo animal fiable, es posible que los investigadores deseen utilizar un modelo animal en lugar de recoger muestras humanas para minimizar las fuentes de ruido y necesitar menos muestras2.
Fuentes de variación
Es fundamental que los investigadores identifiquen y minimicen en la medida de lo posible las fuentes de variación. Entre ellas se incluyen fuentes tanto biológicas como tecnológicas, como los efectos de lote, los puntos de datos que faltan, la heterogeneidad de los datos y la variación analítica2,7,8. Es importante identificar y abordar estas fuentes en todos los pasos, desde el procesamiento de las muestras hasta la adquisición y el análisis de los datos15-18.
La variación técnica y los puntos de datos perdidos pueden minimizarse si se conocen las limitaciones de cada técnica ómica individual que se utiliza en el estudio19 y se sabe cómo abordarlas. Por ejemplo, se ha desarrollado un sistema escalonado de confianza en la identificación de metabolitos y la elección de un proveedor que proporcione identificaciones de metabolitos de nivel 1 y 2 puede garantizar la máxima calidad de los datos metabolómicos7. Metabolon cuenta con la mayor base de datos de metabolitos de nivel 1 disponible y ha trabajado con cientos de clientes y colaboradores en una amplia gama de proyectos, incluidos varios estudios de investigación multiómica.
Los datos en sí también deben manipularse antes del análisis y esto debe formar parte del diseño de su estudio. Conocer las diferentes salidas de datos ómicos y los requisitos de formato de los archivos de entrada para las distintas herramientas de análisis le permitirá prepararse adecuadamente para la transformación, el mapeo, el filtrado, la normalización, la eliminación de efectos de lote y las comprobaciones de calidad de los datos1,2,7.
Tamaño de la muestra y potencia
Como en cualquier estudio científico, los estudios de investigación multiómica deben tener una potencia adecuada, que se verá fuertemente afectada por el ruido de fondo, el tamaño del efecto y el tamaño de la muestra2. Tarazona y sus colegas han descrito un método para estimar el tamaño óptimo de la muestra para experimentos multiómicos y han creado una herramienta de código abierto llamada MultiPower1 que los investigadores pueden utilizar para realizar estimaciones de potencia y tamaño de la muestra para sus diseños de estudios multiómicos19.
Técnicas analíticas avanzadas
Para analizar con precisión los conjuntos de datos multiómicos se necesitan métodos estadísticos avanzados y técnicas de inteligencia artificial y aprendizaje automático. Existe una amplia variedad de herramientas disponibles para ayudar a los investigadores a analizar sus datos. Los investigadores deben familiarizarse con estas herramientas o con los científicos de datos que pueden ayudarles a analizar sus datos antes de comenzar su estudio1,7,8. La elección de la herramienta puede afectar a todos los demás aspectos del diseño del estudio, por lo que las herramientas y técnicas de análisis deben seleccionarse durante el diseño del estudio.
Conclusiones
Los estudios de investigación multiómica son una poderosa forma de obtener una comprensión holística de la biología y del mundo que nos rodea. A diferencia de los estudios ómicos individuales, pueden ayudarnos a identificar relaciones causa-efecto. Analizar múltiples conjuntos de datos complejos como un todo no es tarea fácil; sin embargo, hay una variedad de herramientas, técnicas y expertos disponibles para ayudarle a diseñar y ejecutar un estudio multiómico robusto con un potencial de descubrimiento significativo.

Continúa en el Capítulo 3 - Genómica
En este capítulo, ofrecemos una breve visión general de la genómica -la modalidad ómica que se ocupa del contenido del genoma- y de otras áreas relacionadas, como la epigenómica y la metagenómica.
Referencias
- Subramanian I, Verma S, Kumar S, et al. Multi-omics Data Integration, Interpretation, and Its Application. Bioinform Biol Insights. 2020;14: 1177932219899051. doi: 10.1177/1177932219899051
- Hasin Y, Seldin M, y Lusis A. Multi-omics approaches to disease. Genome Biol. 2017;18(1):83. doi: 10.1186/s13059-017-1215-1
- Red del Atlas del Genoma del Cáncer. Retratos moleculares completos de tumores de mama humanos. Nature. 2012;490(7418):61-70. doi: 10.1038/nature11412
- Zhang H, Liu T, Zhang Z, et al. Caracterización proteogenómica integrada del cáncer de ovario seroso humano de alto grado. Célula. 2016;166(3):755-765. doi: 10.1016/j.cell.2016.05.069
- Nica AC, Parts L, Glass D, et al. The architecture of gene regulatory variation across multiple human tissues: the MuTHER study. PLoS Genet. 2011;7(2):e1002003. doi: 10.1371/journal.pgen.1002003
- Laakso M, Kuusisto J, Stancakova A, et al. El síndrome metabólico en el estudio de los hombres: un recurso para los estudios de enfermedades metabólicas y cardiovasculares. J Lipid Res. 2017;58(3):481-93. doi: 10.1194/jlr.O072629.
- Odenkirk MT, Reif DM y Baker ES. Multiomic Big Data Analysis Challenges: Increasing Confidence in the Interpretation of Artificial Intelligence Assessments. Anal Chem. 202; 93(22): 7763-7773. doi: 10.1021/acs.analchem.0c04850
- Krassowski M, Das V, Sahu SK, et al. State of the Field in Multi-Omics Research: From Computational Needs to Data Mining and Sharing. Front Genet. 2020;11: 610798. doi: 10.3389/fgene.2020.610798
- da Silva RR, Dorrestein PC y Quinn RA. Iluminando la materia oscura en metabolómica. Proc Natl Acad Sci U S A. 2015;112(41):12549-12550. doi: 10.1073/pnas.1516878112
- Ma A, McDermaid A, Xu J, et al. Integrative Methods and Practical Challenges for Single-cell Multi-omics. Trends Biotechnol. 2020 Sep; 38(9):1007-1022. doi: 10.1016/j.tibtech.2020.02.013
- Yang MC, Weissman SM, Yang W, et al. MISC: missing imputation for single-cell RNA sequencing data. BMC Syst Biol. 2018;12(Suppl 7):114. doi: 10.1186/s12918-018-0638-y
- Hicks SC, Townes FW, Teng M, et al. Missing data and technical variability in single-cell RNA-sequencing experiments. Bioestadística. 2018;19(4):562-578. doi: 10.1093/biostatistics/kxx053
- Collins FS, Green ED, Guttmacher AE, et al. Una visión para el futuro de la investigación genómica. Nature. 2003;422(6934):835-47. doi: 10.1038/nature01626
- Yugi K, Kubota H, Hatano A, et al. Trans-Omics: how to reconstruct biochemical networks across multiple 'omic' layers. Trends Biotechnol. 2016;34:276-90. doi: 10.1016/j.tibtech.2015.12.013
- Gilad Y and Mizrahi-Man O. A reanalysis of mouse ENCODE comparative gene expression data. F1000Res. 2015; 19:4:121. doi: 10.12688/f1000research.6536.1
- Peixoto L, Risso D, Poplawski SG, et al. How data analysis affects power, reproducibility and biological insight of RNA-seq studies in complex datasets. Nucleic Acids Res. 2015;43(16):7664-74. doi: 10.1093/nar/gkv736
- Consorcio SEQC/MAQC-III. A comprehensive assessment of RNA-seq accuracy, reproducibility and information content by the Sequencing Quality Control Consortium. Nat Biotechnol. 2014;32(9):903-14. doi: 10.1038/nbt.2957
- Hartley SW y Mullikin JC. QoRTs: a comprehensive toolset for quality control and data processing of RNA-Seq experiments. BMC Bioinformatics. 2015;16:224. doi: 10.1186/s12859-015-0670-5
- Tarazona S, Balzano-Nogueira L, Gómez-Cabrero D, et al. Harmonization of quality metrics and power calculation in multi-omic studies. Nat Commun. 2020;11:3092. doi: 10.1038/s41467-020-16937-8
Índice
Descargar la guía en PDF
Compartir este capítulo
Vea cómo Metabolon puede avanzar en su camino hacia los conocimientos preclínicos y clínicos
Póngase en contacto con nosotros
Hable con un experto
Solicite un presupuesto para nuestros servicios, obtenga más información sobre tipos de muestras y procedimientos de manipulación, solicite una carta de apoyo o envíe una pregunta sobre cómo la metabolómica puede hacer avanzar su investigación.