Calcular t Student por variable en R
Calcula de forma inmediata una prueba t de Student de una muestra a partir de una variable numérica. Pega tus datos, define la media hipotética y obtén estadísticos clave, valor p, intervalo de confianza e interpretación práctica. Además, abajo encontrarás una guía experta para replicarlo en R con buenas prácticas estadísticas.
Calculadora interactiva
Los resultados aparecerán aquí después de calcular.
Guía experta para calcular t Student por variable en R
Cuando se habla de calcular t Student por variable en R, normalmente se hace referencia a aplicar una prueba t a una columna numérica de un conjunto de datos para contrastar si su media difiere de un valor teórico o de la media de otro grupo. Es una de las pruebas más usadas en análisis exploratorio, control de calidad, investigación biomédica, ciencias sociales y experimentación aplicada. R ofrece funciones directas, pero entender qué hace exactamente la prueba, cuándo conviene usarla y cómo interpretar la salida es lo que marca la diferencia entre un análisis correcto y una conclusión apresurada.
La t de Student es especialmente útil cuando el tamaño muestral no es muy grande y la desviación estándar poblacional es desconocida. En ese escenario, la distribución t incorpora más incertidumbre que la normal z, especialmente con pocos grados de libertad. Eso hace que los valores críticos sean más extremos y, por tanto, que la prueba sea más conservadora en muestras pequeñas. En R, la función más habitual es t.test(), que permite evaluar una muestra, dos muestras independientes o datos pareados.
¿Qué significa “por variable” en la práctica?
En contextos de análisis de datos, “por variable” suele significar que eliges una variable cuantitativa específica, por ejemplo peso, tiempo_respuesta, ingresos o presion_arterial, y ejecutas la prueba t sobre esa columna. Si tu objetivo es comparar la media de esa variable con un valor hipotético, usas una prueba t de una muestra. Si deseas comparar la media de esa variable entre dos grupos, como tratamiento frente a control, recurres a una prueba t de dos muestras.
La calculadora de esta página resuelve el caso de una prueba t de una muestra, porque es la forma más directa de introducir una variable numérica y contrastarla respecto a una media hipotética. Por ejemplo:
- ¿La media de glucosa es distinta de 100 mg/dL?
- ¿La productividad media supera 50 unidades por hora?
- ¿La satisfacción promedio es menor que 7 puntos?
Fórmula básica de la t de Student de una muestra
La estadística t se calcula así:
t = (x̄ – μ0) / (s / √n)
- x̄: media muestral
- μ0: media hipotética bajo la hipótesis nula
- s: desviación estándar muestral
- n: tamaño de la muestra
Los grados de libertad son n – 1. A partir de ese valor t y de los grados de libertad, R calcula el valor p, que resume cuán compatible es la muestra con la hipótesis nula. Un valor p pequeño indica evidencia contra la hipótesis nula, aunque no mide el tamaño del efecto ni la importancia práctica del resultado.
Cómo hacerlo en R con t.test()
La sintaxis más típica para una variable concreta es:
t.test(datos$variable, mu = 14, alternative = "two.sided", conf.level = 0.95)
Si tu marco de datos se llama datos y la variable es peso, entonces puedes escribir:
t.test(datos$peso, mu = 70)
También puedes guardar la salida en un objeto para reutilizarla:
resultado_t <- t.test(datos$peso, mu = 70) resultado_t$statistic resultado_t$p.value resultado_t$conf.int resultado_t$estimate
Esto es muy útil para informes reproducibles, automatización y análisis por lotes. Si deseas aplicar la prueba a varias variables, puedes usar funciones de la familia apply, lapply o enfoques con dplyr y purrr.
Supuestos que debes revisar antes de interpretar
Aunque la t de Student es robusta en muchos escenarios, no conviene usarla de manera mecánica. Revisa estos puntos:
- Variable cuantitativa: la columna debe medir una magnitud numérica.
- Independencia: las observaciones no deben influirse entre sí.
- Ausencia de outliers extremos: valores muy atípicos pueden distorsionar media, desviación y valor p.
- Normalidad aproximada: especialmente importante con muestras pequeñas.
En R, puedes explorar la distribución con herramientas simples:
hist(datos$variable) qqnorm(datos$variable) qqline(datos$variable, col = "red") shapiro.test(datos$variable)
El test de Shapiro-Wilk ayuda a evaluar normalidad, aunque su interpretación requiere criterio. En muestras grandes, pequeñas desviaciones pueden resultar significativas; en muestras pequeñas, la potencia es limitada. Por eso conviene combinar prueba formal, gráfico Q-Q y conocimiento del proceso de medición.
Interpretación correcta de la salida en R
La salida de t.test() incluye varios componentes. Los más importantes son:
- t: la estadística de contraste.
- df: grados de libertad.
- p-value: evidencia estadística frente a la hipótesis nula.
- confidence interval: rango plausible para la media verdadera o para la diferencia de medias.
- sample estimates: media observada en la muestra.
Por ejemplo, si obtienes t = 2.45, df = 19 y p = 0.024, con un alfa de 0.05 concluirías que existe evidencia estadísticamente significativa para rechazar la hipótesis nula. Pero el paso correcto siguiente es leer el intervalo de confianza: si la media estimada está solo un poco por encima del valor hipotético, el hallazgo puede ser estadísticamente significativo pero de impacto práctico modesto.
Tabla comparativa de valores críticos t
Una forma útil de entender por qué la distribución t cambia con el tamaño muestral es revisar algunos valores críticos reales y ampliamente utilizados. La siguiente tabla muestra valores aproximados para una prueba bilateral al 95% de confianza:
| Grados de libertad | Valor crítico t bilateral 95% | Valor crítico z bilateral 95% | Diferencia relativa |
|---|---|---|---|
| 1 | 12.706 | 1.960 | Muy superior por alta incertidumbre |
| 5 | 2.571 | 1.960 | Mayor exigencia que z |
| 10 | 2.228 | 1.960 | Aún claramente superior |
| 30 | 2.042 | 1.960 | La diferencia se reduce |
| 120 | 1.980 | 1.960 | Casi equivalente |
| Infinito | 1.960 | 1.960 | Converge a la normal estándar |
Estos valores ilustran una idea central: con pocas observaciones, la t de Student penaliza la incertidumbre más que la distribución normal. A medida que aumenta el tamaño de la muestra, ambas distribuciones se parecen cada vez más.
Ejemplo aplicado en R con una variable numérica
Supón que registras el tiempo de respuesta en segundos de 10 operadores y deseas comprobar si la media difiere de 14 segundos:
tiempos <- c(12, 15, 14, 16, 13, 15, 17, 14, 16, 15) t.test(tiempos, mu = 14)
En este caso, R calculará automáticamente la media muestral, la desviación estándar, el error estándar, la t observada, los grados de libertad y el valor p. Si cambias la hipótesis por una unilateral, puedes usar:
t.test(tiempos, mu = 14, alternative = "greater")
Eso responde específicamente a la pregunta: “¿la media es mayor que 14?”. Elegir la alternativa correcta antes de ver los datos es fundamental para evitar sesgos.
Comparación entre escenarios típicos de uso
| Escenario | Prueba recomendada en R | Estadístico clave | Ejemplo |
|---|---|---|---|
| Una variable frente a media teórica | t.test(x, mu = valor) | t con df = n – 1 | Comparar presión media con 120 |
| Dos grupos independientes | t.test(x ~ grupo, data = datos) | t de Welch por defecto | Tratamiento vs control |
| Mediciones antes y después | t.test(antes, despues, paired = TRUE) | t sobre diferencias | Peso pre y post intervención |
| Varianzas muy desiguales | t.test(x1, x2) | Welch ajusta df | Comparar salarios por sectores |
Observa que en R la prueba de dos muestras usa por defecto una versión de Welch, que no asume varianzas iguales. Esto es una ventaja práctica porque suele ser más segura que la versión clásica con varianzas homocedásticas.
Errores frecuentes al calcular t Student por variable en R
- Aplicarla a variables categóricas codificadas como números. Que una variable tenga dígitos no significa que sea cuantitativa continua.
- Ignorar datos faltantes. Si hay NA, debes tratarlos con cuidado o usar na.omit().
- Elegir hipótesis unilateral después de ver los resultados. Eso sesga la inferencia.
- No revisar outliers. Unos pocos valores extremos pueden alterar seriamente la media.
- Confundir significación con importancia. El valor p no es una medida del tamaño del efecto.
Automatizar pruebas t para varias variables
Si necesitas evaluar varias columnas numéricas contra un valor de referencia, puedes automatizar el proceso. Un ejemplo sencillo sería:
vars <- c("peso", "altura", "glucosa")
resultados <- lapply(vars, function(v) {
prueba <- t.test(datos[[v]], mu = 0)
data.frame(
variable = v,
media = unname(prueba$estimate),
t = unname(prueba$statistic),
gl = unname(prueba$parameter),
p = prueba$p.value,
li = prueba$conf.int[1],
ls = prueba$conf.int[2]
)
})
do.call(rbind, resultados)
Este patrón es muy valioso en análisis repetitivos y cuadros de mando estadísticos. También permite exportar tablas limpias a CSV o integrarlas en reportes de R Markdown.
Cuándo no conviene usar la prueba t
No siempre la t de Student es la mejor elección. Si tu variable presenta asimetrías extremas, muchos valores atípicos o una escala claramente ordinal, quizá convenga considerar alternativas no paramétricas como la prueba de Wilcoxon. Del mismo modo, si trabajas con tamaños muestrales muy pequeños y datos no normales, debes ser especialmente prudente con la inferencia.
Otra limitación importante es la multiplicidad. Si ejecutas una prueba t sobre muchas variables sin ajuste, aumentas la probabilidad de falsos positivos. En esos casos, considera correcciones como Bonferroni o Benjamini-Hochberg según el objetivo del análisis.
Buenas prácticas para un análisis sólido
- Define la hipótesis antes de inspeccionar la salida final.
- Visualiza la variable con histograma, boxplot y gráfico Q-Q.
- Reporta media, desviación estándar, tamaño muestral y valor p.
- Incluye siempre el intervalo de confianza.
- Interpreta el resultado en términos sustantivos, no solo estadísticos.
- Si analizas muchas variables, controla el error por comparaciones múltiples.
Fuentes recomendadas para profundizar
Puedes ampliar el tema con recursos metodológicos de alta autoridad: NIST Engineering Statistics Handbook, UCLA Statistical Methods and Data Analytics for R y Penn State Online Statistics Program.
Conclusión
Calcular t Student por variable en R es sencillo desde el punto de vista operativo, pero hacerlo bien exige criterio estadístico. La función t.test() resuelve el cálculo en segundos; el verdadero trabajo del analista está en revisar supuestos, especificar correctamente la hipótesis, interpretar con contexto y comunicar el resultado con claridad. Usa la calculadora de esta página para validar rápidamente una variable concreta y, si trabajas en R, apóyate en el flujo reproducible que ofrece t.test() para documentar y escalar tus análisis.