Sesión 6: Fundamentos, Repaso Estadístico y Regresión Lineal Múltiple
2025-04-21
En esta sesión, construiremos las bases para el análisis multivariado:
lm) en diseños complejos.La realidad social es compleja. Los fenómenos que estudiamos (desigualdad, movilidad social, opinión pública, comportamiento electoral…) raramente dependen de una sola causa.
Los modelos multivariados nos sirven para:
Podemos organizar los modelos que veremos en el curso (y otros) según dos ejes principales:
Eje 1: ¿Exploramos o Confirmamos?
Eje 2: ¿Medimos Conceptos o Relacionamos Variables?
(Estos ejes no son excluyentes, SEM por ejemplo, incluye ambos tipos de modelos).
Para entender relaciones, primero necesitamos entender cómo varían las variables por sí solas.
Mayor \(s\) -> Mayor heterogeneidad / dispersión.
¿Cómo varían dos variables juntas?
¿Qué hacemos si nuestras variables son ordinales (ej. escalas Likert: “Muy en desacuerdo” a “Muy de acuerdo”) o dicotómicas (ej. Sí/No, Hombre/Mujer)? Pearson no es ideal.
Idea Clave: Suponer que detrás de la variable categórica observada existe una variable latente continua (no observable) que sigue una distribución normal. Lo que observamos son “cortes” en esa distribución latente.
¿Por qué son importantes?
* El Análisis Factorial (AFE/AFC) se basa en analizar la matriz de correlaciones entre las variables.
* Si tenemos variables ordinales o dicotómicas, usar la matriz de correlaciones de Pearson puede distorsionar los resultados del AFE/AFC. Es más adecuado usar una matriz de correlaciones policóricas/tetracóricas (o mixtas).
(En R, el paquete polycor permite calcularlas).
La correlación nos dice si y cómo X e Y varían juntas linealmente. La Regresión Lineal Simple va un paso más allá: intenta modelar esa relación y predecir el valor de la variable dependiente (Y) a partir de la variable independiente (X) usando una línea recta.
Ecuación de la Recta de Regresión: \[ \hat{y} = a + bx \]
La recta de regresión busca ser la línea que “mejor representa” la tendencia lineal en la nube de puntos de un diagrama de dispersión. La recta resume la relación lineal promedio.
Hay infinitas rectas posibles. OLS (Ordinary Least Squares) es el método estándar para elegir la “mejor”:
Para calcular la pendiente 𝑏y la ordenada en el origen 𝑎, se utilizan las siguientes fórmulas: \[ b = r \frac{s_y}{s_x} \]
\[ a = \bar{y} - b \bar{x} \] Donde:
\(r\) es la correlación entre \(x\) y \(y\).
\(s_x\) y \(s_y\) son las desviaciones estándar de \(x\) y \(y\).
\(\bar{x}\) y \(\bar{y}\) son las medias de \(x\) y \(y\), respectivamente.
Una vez ajustada la recta, analizar los residuos es crucial para ver si el modelo lineal es apropiado.
¿Qué buscamos en el gráfico de residuos vs. predichos?
Ideal (Buen Ajuste): Una nube de puntos dispersa aleatoriamente alrededor de la línea horizontal en 0, sin patrones claros. Esto indica homocedasticidad (la varianza del error es constante).
Problemas (Mal Ajuste Lineal):
¿Qué proporción de la variabilidad total de Y es “explicada” por nuestra recta de regresión basada en X?
La Regresión Lineal Simple es un buen punto de partida, pero asume que solo X influye en Y (o que otros factores no están correlacionados con X). En ciencias sociales, esto es raramente cierto.
Problema Central: El coeficiente \(b\) de RLS puede capturar no solo el efecto de X, sino también efectos espurios o confundidos por otras variables omitidas (\(Z_1, Z_2, ...\)).
Ejemplo Clásico: Número de bomberos en un incendio (X) y daños causados (Y). RLS mostrará una correlación positiva (\(b>0\)). ¿Significa que los bomberos causan daño? No, la variable omitida es la magnitud del incendio (Z), que afecta a ambos.
Necesitamos incluir múltiples predictores para controlar estos efectos.
RLM: Modela Y en función de varios predictores (\(X_1, X_2, ..., X_k\)) simultáneamente.
\[ Y = b_0 + b_1 X_1 + b_2 X_2 + ... + b_k X_k + \epsilon \]
Concepto Clave: Control Estadístico
* La RLM nos permite estimar el efecto de \(X_1\) sobre Y, como si mantuviéramos constantes los valores de \(X_2, ..., X_k\).
* Es un ajuste matemático para aislar la asociación única de cada predictor con Y, eliminando la influencia compartida (correlación) entre los predictores.
* Fundamental en estudios observacionales (como encuestas) donde no podemos hacer asignación aleatoria experimental.
El \(b_j\) en RLM es un coeficiente de regresión parcial. Su interpretación SIEMPRE incluye la cláusula “controlando por las demás variables”:
Ejemplo: Ingreso = b_0 + b_1 Escolaridad (años) + b_2 Edad (años)$.
* \(b_1 = 88000\): Por cada año adicional de escolaridad, el ingreso aumenta en promedio $88.000, para personas de la misma edad.
* \(b_2 = 7600\): Por cada año adicional de edad, el ingreso aumenta en promedio $7600, para personas con la misma escolaridad.
Diferencia con RLS: El efecto ahora es “neto” de la influencia de las otras variables en el modelo.
¿Cómo incluir variables como “Sexo” o “Nivel Educativo”?
(R con factor() lo hace automáticamente, eligiendo una referencia).
Los \(b_j\) dependen de las unidades. ¿Cómo comparar si un año más de edad tiene un impacto “más fuerte” en el ingreso que un año más de escolaridad?
Coeficientes Beta Estandarizados (β):
* Se obtienen estandarizando todas las variables (Y y Xs) a \(Z\)-scores (media 0, DE 1) antes de la regresión.
* Interpretación: Indican cuántas Desviaciones Estándar (DE) cambia Y por cada una DE de cambio en \(X_j\), controlando por las otras Xs (en DE).
* Ventaja: Adimensionales. Permiten comparar la magnitud relativa del efecto de predictores con diferentes unidades. Un \(\beta\) de 0.30 tiene un impacto relativo mayor que un \(\beta\) de 0.15.
* Usos: Identificar predictores más influyentes, comparar resultados entre estudios, base para Senderos y SEM.
Los \(b_j\) son estimaciones muestrales de los parámetros poblacionales \(\beta_j\). Debido al error muestral, si tomáramos otra muestra, obtendríamos \(b_j\) ligeramente diferentes.
Pregunta Central: ¿El efecto \(b_j\) que vemos en nuestra muestra es “real” (estadísticamente significativo) en la población, o podría ser solo ruido muestral? ¿Es \(\beta_j\) (el efecto poblacional) diferente de cero, controlando por los demás?
Para cada \(b_j\) (usualmente excluyendo \(b_0\)):
Herramientas de Inferencia:
1. Error Estándar del Coeficiente (\(SE(b_j)\)): Mide la precisión de la estimación \(b_j\). Un SE pequeño indica más confianza.
2. Estadístico t: \(t = b_j / SE(b_j)\). ¿Cuántos SEs se aleja \(b_j\) de 0?
3. p-valor: Probabilidad de observar un \(|t|\) tan grande o más, si \(H_0\) fuera cierta.
Interpretación del p-valor:
* Un p-valor pequeño (ej. < 0.05) significa que es muy improbable observar un efecto tan grande como \(b_j\) si realmente no hubiera efecto en la población (\(\beta_j = 0\)).
Regla de Decisión (Nivel \(\alpha = 0.05\)):
* Si p-valor < 0.05:
* Rechazamos \(H_0\).
* Concluimos que el efecto de \(X_j\) es estadísticamente significativo. Hay evidencia para afirmar que \(\beta_j\) es distinto de cero.
* Si p-valor ≥ 0.05:
* No rechazamos \(H_0\).
* No hay evidencia suficiente para afirmar que \(\beta_j\) sea distinto de cero. No significa que sea exactamente cero, solo que no podemos descartarlo.
Todo lo anterior sobre inferencia (SE, t, p-valores) calculado con lm() en R asume Muestreo Aleatorio Simple.
SI TUS DATOS SON DE UNA ENCUESTA COMPLEJA (CASEN):
lm() ignora los estratos, conglomerados y pesos.Solución: * Usar el objeto de diseño (survey::svydesign o srvyr::as_survey). * Usar survey::svyglm() en lugar de lm() o glm(). * svyglm SÍ calcula los SE y p-valores correctamente, considerando el diseño.
En el práctico repasaremos en R con lm():
summary(lm()), incluyendo p-valores…