Calculadora estadística

Cómo calcular el coeficiente de correlación entre dos variables

Introduce dos series numéricas del mismo tamaño para obtener el coeficiente de correlación, su interpretación, un resumen estadístico y un gráfico interactivo. Puedes usar el método de Pearson o Spearman.

Calculadora de correlación

Método de correlación

Pearson mide relación lineal. Spearman mide asociación monotónica basada en rangos.

Variable X

Separa los valores con comas, espacios o saltos de línea.

Variable Y

Debe haber el mismo número de observaciones que en la variable X.

Decimales de salida

Cargar ejemplo rápido

Consejos para obtener resultados correctos

Usa únicamente números reales.
Evita incluir texto, símbolos de moneda o unidades.
Si tus datos tienen valores atípicos, compara Pearson y Spearman.
La correlación no implica causalidad.

Resultado

Listo para calcular

Ingresa dos variables numéricas y haz clic en “Calcular correlación” para ver el coeficiente, la interpretación y el gráfico de dispersión.

Guía experta: cómo calcular el coeficiente de correlación entre dos variables

Entender cómo calcular el coeficiente de correlación entre dos variables es esencial en estadística, análisis de datos, investigación científica, finanzas, marketing, salud pública y ciencias sociales. Este indicador resume con un solo número el grado de asociación entre dos conjuntos de datos. Cuando se usa correctamente, permite responder preguntas como: ¿a mayor inversión publicitaria aumentan las ventas?, ¿a mayor tiempo de estudio mejoran las calificaciones?, ¿a mayor peso se reduce el rendimiento deportivo?, o ¿cómo se relacionan dos indicadores económicos?

El coeficiente de correlación más conocido es el de Pearson, representado normalmente por la letra r. Su valor oscila entre -1 y 1. Un valor cercano a 1 indica una relación positiva fuerte; un valor cercano a -1 señala una relación negativa fuerte; y un valor próximo a 0 sugiere ausencia de relación lineal clara. Sin embargo, para datos con relaciones monotónicas no lineales o con fuerte sensibilidad a outliers, puede ser más apropiado utilizar la correlación de Spearman.

¿Qué significa el coeficiente de correlación?

El coeficiente de correlación cuantifica la dirección y la intensidad con que cambian dos variables de manera conjunta. Si al aumentar la variable X también aumenta la variable Y, la correlación tiende a ser positiva. Si al aumentar X la variable Y disminuye, la correlación tiende a ser negativa. Si no hay un patrón consistente, la correlación se aproxima a cero.

r = 1: relación positiva perfecta.
r = -1: relación negativa perfecta.
r = 0: no hay relación lineal detectable.
0.70 a 0.99: correlación positiva fuerte.
0.30 a 0.69: correlación positiva moderada.
0.01 a 0.29: correlación positiva débil.
-0.29 a -0.01: correlación negativa débil.
-0.69 a -0.30: correlación negativa moderada.
-0.99 a -0.70: correlación negativa fuerte.

Estas bandas son orientativas. La interpretación real depende del contexto, el tamaño muestral, la calidad de los datos y el fenómeno que se estudia. En genética o física, una correlación de 0.30 puede ser relevante. En procesos industriales altamente controlados, ese mismo valor podría considerarse bajo.

Fórmula del coeficiente de correlación de Pearson

Si quieres calcular la correlación lineal entre dos variables cuantitativas, la fórmula clásica de Pearson es:

r = [n(Σxy) – (Σx)(Σy)] / √{[n(Σx²) – (Σx)²][n(Σy²) – (Σy)²]}

Donde:

n es el número de pares de datos.
Σxy es la suma del producto de cada par.
Σx y Σy son las sumas de cada variable.
Σx² y Σy² son las sumas de los cuadrados.

Otra forma equivalente consiste en estandarizar ambas variables y estudiar la covarianza entre ellas. En términos intuitivos, Pearson compara si los valores altos de X suelen aparecer con valores altos de Y, y si los valores bajos de X coinciden con valores bajos de Y.

Cómo calcular el coeficiente de correlación paso a paso

Ordena tus datos en pares. Cada valor de X debe corresponder exactamente a un valor de Y.
Cuenta cuántas observaciones tienes. Ese total será n.
Calcula la suma de los valores de X y la suma de los valores de Y.
Multiplica cada par X·Y y suma todos los productos.
Eleva al cuadrado cada valor de X y de Y, y suma cada columna por separado.
Aplica la fórmula de Pearson.
Interpreta el signo y la magnitud del resultado.
Verifica visualmente el patrón con un gráfico de dispersión.

Supongamos que tienes estas dos variables:

X: horas de estudio = 2, 4, 6, 8, 10
Y: puntuación = 50, 55, 65, 72, 80

Al aplicar la fórmula, obtendrás un valor de r alto y positivo, lo que sugiere que a mayor tiempo de estudio, mayores calificaciones. Aun así, este resultado no demuestra por sí mismo causalidad. Podrían influir otras variables, como la calidad del material, el nivel previo del alumno o la dificultad del examen.

Pearson vs Spearman: cuándo usar cada uno

Una de las dudas más frecuentes al aprender cómo calcular el coeficiente de correlación entre dos variables es elegir el método correcto. Pearson y Spearman miden asociación, pero no lo hacen exactamente igual.

Método	Qué mide	Cuándo usarlo	Sensibilidad a outliers
Pearson	Relación lineal entre variables cuantitativas	Cuando los datos son numéricos, aproximadamente lineales y sin grandes anomalías	Alta
Spearman	Relación monotónica basada en rangos	Cuando hay outliers, no normalidad o relaciones no lineales pero ordenadas	Menor que Pearson

En una relación lineal clara, Pearson suele ser la mejor opción. Si observas una tendencia creciente o decreciente consistente, pero no perfectamente lineal, Spearman puede representar mejor el patrón. En investigación aplicada, muchas veces conviene calcular ambos y comparar.

Ejemplos reales de correlaciones en datasets conocidos

Para entender mejor la magnitud de r, es útil mirar valores de correlación provenientes de conjuntos de datos reales ampliamente usados en estadística y ciencia de datos. La siguiente tabla resume algunas asociaciones conocidas:

Dataset	Variables comparadas	Correlación aproximada	Interpretación
Iris	Longitud del pétalo vs ancho del pétalo	r ≈ 0.963	Relación positiva muy fuerte
Iris	Longitud del sépalo vs ancho del sépalo	r ≈ -0.118	Relación lineal muy débil
mtcars	Peso del vehículo vs millas por galón	r ≈ -0.868	Relación negativa fuerte
mtcars	Caballos de fuerza vs consumo en mpg	r ≈ -0.776	Relación negativa fuerte

Estos valores muestran por qué es tan importante interpretar el contexto. En el dataset Iris, la relación entre dimensiones del pétalo es extremadamente fuerte. En cambio, entre algunas medidas del sépalo apenas se observa una asociación lineal.

Qué errores debes evitar al calcular la correlación

Confundir correlación con causalidad. Que dos variables estén asociadas no significa que una cause la otra.
Ignorar valores atípicos. Uno o dos outliers pueden inflar o reducir drásticamente Pearson.
Mezclar observaciones que no corresponden. Cada X debe emparejarse con su Y correcta.
Usar Pearson en relaciones claramente no lineales. Puedes obtener un r bajo incluso si existe una relación fuerte de otro tipo.
Trabajar con muestras muy pequeñas. Con pocos datos, la correlación puede ser inestable.
No revisar el gráfico de dispersión. Visualizar los puntos ayuda a detectar patrones curvos o agrupamientos.

Importante: una correlación cercana a cero no siempre significa ausencia total de relación. Puede existir una relación curvilínea, segmentada o influida por subgrupos. Por eso conviene complementar el cálculo con visualización y análisis exploratorio.

Cómo interpretar el signo y la fuerza de la correlación

La interpretación técnica del coeficiente debe considerar al menos cuatro componentes: dirección, intensidad, forma y contexto.

Dirección: positiva si ambas variables aumentan juntas; negativa si una sube y la otra baja.
Intensidad: cuanto más cerca de 1 o de -1, mayor fuerza de asociación lineal.
Forma: Pearson detecta principalmente linealidad; Spearman detecta orden monotónico.
Contexto aplicado: los estándares de “fuerte” o “débil” cambian según la disciplina.

Además del coeficiente, en análisis formal suele reportarse el p-valor o un intervalo de confianza para evaluar la significación estadística y la incertidumbre. Esta calculadora se centra en el valor del coeficiente, pero en investigación académica es recomendable complementar el análisis con inferencia estadística.

Relación entre correlación, covarianza y regresión

La correlación está estrechamente relacionada con la covarianza. La diferencia es que la covarianza depende de la escala de las variables, mientras que la correlación la estandariza, por eso siempre queda entre -1 y 1. A su vez, la regresión lineal utiliza esta asociación para estimar cómo cambia Y cuando X varía en una unidad. Si la correlación es alta en valor absoluto, normalmente la recta de regresión ajusta mejor a los datos, aunque no necesariamente implica una relación causal.

Cuándo la correlación puede ser engañosa

Hay varios escenarios donde la correlación puede llevar a conclusiones erróneas si se analiza sola:

Variables omitidas: una tercera variable puede estar impulsando ambas series.
Series temporales con tendencia: dos variables que crecen con el tiempo pueden correlacionarse aunque no estén causalmente relacionadas.
Datos agrupados: al mezclar subpoblaciones, la correlación agregada puede ocultar patrones internos.
Relaciones no lineales: una parábola perfecta puede tener correlación lineal cercana a cero.

Por eso, el flujo profesional recomendado es: limpiar los datos, graficar, calcular correlación, revisar valores extremos, comparar métodos y luego interpretar con apoyo del conocimiento del dominio.

Buenas prácticas para un análisis sólido

Usa muestras suficientemente grandes.
Valida que no existan errores de digitación.
Inspecciona outliers antes de reportar el resultado final.
Comprueba si la relación es lineal o monotónica.
Documenta el método elegido: Pearson o Spearman.
Acompaña el coeficiente con una gráfica de dispersión.
Si el análisis es formal, reporta también significación estadística.

Fuentes autorizadas para profundizar

Si deseas ampliar el tema con referencias académicas y gubernamentales, consulta estos recursos:

Conclusión

Saber cómo calcular el coeficiente de correlación entre dos variables te permite resumir relaciones complejas de manera clara y útil. El coeficiente de Pearson es ideal para relaciones lineales entre variables cuantitativas, mientras que Spearman resulta muy valioso cuando trabajas con rangos, datos atípicos o asociaciones monotónicas. En cualquier caso, la mejor práctica no es quedarse solo con el número: también debes revisar el gráfico de dispersión, analizar el contexto y evitar asumir causalidad sin evidencia adicional.

Usa la calculadora de esta página para introducir tus datos, comparar métodos y visualizar la relación entre variables. Así obtendrás una base sólida para estudiar tendencias, detectar patrones y tomar decisiones con criterio estadístico.

Como Calcular El Coeficiente De Correlacion Entre Dos Variables