Metabolon Logotipo

Soporte | Portal

Métodos estadísticos y terminología

Cálculos estadísticos

Los análisis estadísticos se llevan a cabo en los datos imputados, normalizados por lotes y transformados logarítmicamente, utilizando la canalización interna de Metabolon, que utiliza R(http://cran.r-project.org/) para realizar cálculos estadísticos a través de una interfaz de usuario de Jupyter Notebooks. A continuación se presentan ejemplos de pruebas de significación y métodos de clasificación empleados con frecuencia, seguidos de un análisis de los umbrales de significación de los valores p y q.

Prueba t de dos muestras de Welch

La prueba t de Welch para dos muestras se utiliza para comprobar si dos medias desconocidas son diferentes en dos poblaciones independientes.

Esta versión de la prueba t de dos muestras permite varianzas desiguales (la varianza es el cuadrado de la desviación típica) y tiene una distribución t aproximada con grados de libertad estimados mediante la aproximación de Satterthwaite. Normalmente utilizamos una prueba de dos caras (prueba si las medias son diferentes) en lugar de una prueba de una cara (prueba si una media es mayor que la otra).

ANOVA de dos vías

Al realizar una prueba de significación de análisis de varianza (ANOVA), se supone que la varianza es la misma en todas las poblaciones.

En un ANOVA de dos vías, se suelen realizar tres pruebas estadísticas: el efecto principal de cada factor individualmente y el de la interacción. Supongamos que tenemos dos factores, A y B, donde A representa el genotipo y B representa la dieta en un estudio con ratones. Supongamos que cada uno de estos factores tiene dos niveles (A: tipo salvaje, knock out; B: dieta estándar, dieta alta en grasas). En este ejemplo, hay cuatro combinaciones posibles ("tratamientos"): A1B1, A1B2, A2B1 y A2B2. La prueba F del ANOVA global proporciona el valor p para comprobar si las cuatro medias son iguales o si al menos un par es diferente.

Sin embargo, también nos interesan los efectos individuales del genotipo y la dieta. Un efecto principal es un contraste que prueba un factor en todos los niveles del otro factor. Por tanto, el efecto principal A compara (A1B1 + A1B2)/2 frente a (A2B1 + A2B2)/2, y el efecto principal B compara (A1B1 + A2B2)/2 frente a (A1B2 + A2B2)/2. La interacción es un contraste que pone a prueba si la diferencia de medias de un factor depende del nivel del otro factor, que es (A1B2 + A2B1)/2 frente a (A1B1 + A2B2)/2.

A continuación se muestran algunos gráficos de ejemplo. El primer gráfico ilustra un efecto principal de B que no depende del nivel de A, por lo que no hay efecto principal de A ni interacción. En el segundo gráfico, la diferencia media de B es la misma en cada nivel de A, y la diferencia media de A es la misma en cada nivel de B, lo que indica la ausencia de interacción estadística. El último gráfico muestra los efectos principales de A y B, así como una interacción: el efecto de B depende del nivel de A (0 para A1 y 2 para A2); en otras palabras, el efecto de la dieta depende del genotipo. Además, la interpretación de los efectos principales depende de si existe una interacción.

Figura1 Efecto principal

p-valores

Para las pruebas de significación estadística, se proporcionan los valores p. Cuanto menor sea el valor p, mayor será la evidencia de que la hipótesis nula (normalmente que dos medias poblacionales son iguales) es falsa. Si se declara la "significación estadística" para valores p inferiores a 0,05, el 5% de las veces se llega a la conclusión incorrecta de que las medias son diferentes cuando en realidad son iguales.

El valor p es la probabilidad de que la estadística de la prueba sea al menos tan extrema como la observada en este experimento, dado que la hipótesis nula es cierta. Por lo tanto, cuanto más extrema sea la estadística, menor será el valor p y más pruebas aportarán los datos en contra de la hipótesis nula.

valores q

Un nivel de significación de 0,05 es la tasa de falsos positivos cuando hay una sola prueba. Sin embargo, para un gran número de pruebas, es necesario tener en cuenta los falsos positivos. Existen distintos métodos para corregir las pruebas múltiples. Los más antiguos son los ajustes de la tasa de error por familias (Bonferroni, Tukey, etc.), pero tienden a ser extremadamente conservadores para un gran número de pruebas.

En el caso de los arrays de genes, es más habitual utilizar la tasa de falsos descubrimientos (FDR). Los ajustes de la tasa de error por familias proporcionan un alto grado de confianza en que no hay falsos descubrimientos. Sin embargo, con los métodos de FDR, puede tenerse en cuenta un pequeño número de falsos descubrimientos. El FDR para un conjunto determinado de compuestos puede estimarse utilizando el valor q1.

To interpret the q-value, the data must first be sorted by the p-value, then the significance cutoff (typically p < 0.05) must be chosen. The q-value gives the false discovery rate for the selected list (i.e., an estimate of the proportion of false discoveries for the list of compounds whose p-value is below the significance cutoff). In Table 1 below, if the whole list is declared significant, then the false discovery rate is approximately 10%. If everything from Compound 079 and above is declared significant, then the false discovery rate is approximately 2.5%.

Figura2 QValores

Tabla 1. Ejemplo de interpretación del valor q.

Variabilidad de instrumentos y procesos

La variabilidad del instrumento se determina calculando la desviación estándar relativa (RSD) mediana de los estándares internos que se añaden a cada muestra antes de la inyección en los espectrómetros de masas. La variabilidad global del proceso se determina calculando la RSD mediana de todos los metabolitos endógenos (es decir, los estándares no instrumentales) presentes en el 100% de las muestras de la matriz de clientes, que son réplicas técnicas de muestras de clientes agrupadas. Los valores de RSD se pueden encontrar en el archivo Heatmap Excell, descargado de la pestaña "Data &Integration" del portal.

Referencias

  1. Storey J y Tibshirani R. Significación estadística para estudios de genoma completo. Proc Natl Acad Sci USA 2003;100(16):9440-9445.

Vea cómo Metabolon puede avanzar en su camino hacia los conocimientos preclínicos y clínicos

Póngase en contacto con nosotros

Hable con un experto

Solicite un presupuesto para nuestros servicios, obtenga más información sobre tipos de muestras y procedimientos de manipulación, solicite una carta de apoyo o envíe una pregunta sobre cómo la metabolómica puede hacer avanzar su investigación.

Sede social

617 Davis Drive, Suite 100
Morrisville, NC 27560

Dirección postal:
P.O. Box 110407
Research Triangle Park, NC 27709

+1 (919) 572-1721