Estadística I

Clase 14: Regresión Lineal Simple

M.Sc. José Miguel Avendaño I.

Universidad Central de Venezuela- Escuela de Economía. 2025-1

2025-06-05

Introducción a la Regresión Lineal Simple

  • La regresión lineal simple busca modelar la relación lineal entre una variable dependiente (\(Y\)) y una variable independiente (\(X\)).
  • El objetivo es encontrar la “mejor” línea recta que describa cómo cambia \(Y\) en función de \(X\).

Esta línea se representa con la ecuación: \[\hat{y} = b_0 + b_1 x\]

Compuesta por

  • \(\hat{y}\) es el valor predicho de \(Y\),

  • \(b_0\) es la intersección con el eje \(Y\), y

  • \(b_1\) es la pendiente.

El Método de Mínimos Cuadrados

  • El método de mínimos cuadrados se utiliza para encontrar los valores de \(b_0\) y \(b_1\) que hacen que la línea de regresión se ajuste lo mejor posible a los datos observados.
  • “Lo mejor posible” se define como minimizar la suma de los cuadrados de las diferencias verticales entre los valores reales de \(Y\) y los valores predichos \(\hat{y}\). Estas diferencias se llaman errores o residuos.

El Método de Mínimos Cuadrados-cont.

Queremos minimizar

\(\sum_{i=1}^{n} (y_i - \hat{y}_i)^2\) que es el error cuadrático medio

dado que = \[\hat{y}_i=b_0 + b_1 x_i\]

entonces:
\[\sum_{i=1}^{n} (y_i - \hat{y}_i)^2=\sum_{i=1}^{n} (y_i - (b_0 + b_1 x_i))^2\]

Fórmulas para \(b_1\) y \(b_0\) (Mínimos Cuadrados)

Las fórmulas para calcular la pendiente (\(b_1\)) y la intersección (\(b_0\)) que minimizan la suma de los cuadrados de los errores son:

  • Pendiente (\(b_1\)): \[b_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}\]

  • Intersección (\(b_0\)): \[b_0 = \bar{y} - b_1 \bar{x}\]

    Donde \(\bar{x}\) y \(\bar{y}\) son las medias de las variables \(X\) e \(Y\).

Ejemplo

Consideremos los siguientes datos sobre el número de horas dedicadas a un proyecto (\(X\)) y la calificación obtenida (\(Y\)):

Estudiante Horas (\(X\)) Calificación (\(Y\))
1 1 2
2 2 4
3 3 5

Nuestro objetivo es encontrar la línea de regresión lineal que mejor se ajuste a estos puntos.

Gráfico de Dispersión

Cálculo de \(b_1\) y \(b_0\)

Primero, calculamos las medias:



\(\bar{x} = \frac{1 + 2 + 3}{3} = 2\)



\(\bar{y} = \frac{2+4+5}{3} = \frac{11}{3} \approx 3.67\)

Cálculo de \(b_1\) y \(b_0\) - cont:

Ahora, calculamos los términos necesarios para \(b_1\):


\(x_i\) \(y_i\) \(x_i - \bar{x}\) \(y_i - \bar{y}\) \((x_i - \bar{x})(y_i - \bar{y})\) \((x_i - \bar{x})^2\)
1 2 -1 -1.67 1.67 1
2 4 0 0.33 0 0
3 5 1 1.33 1.33 1
\(\sum = 3.00\) \(\sum = 2\)

Cálculo de \(b_1\) y \(b_0\) - cont:

Calculamos \(b_1\): \[b_1 = \frac{3.00}{2} = 1.5\]

Ahora, calculamos \(b_0\): \[b_0 = \bar{y} - b_1 \bar{x} = 3.67 - (1.5)(2) = 3.67 - 3 = 0.67\]

La Línea de Regresión

La ecuación de la línea de regresión lineal obtenida por el método de mínimos cuadrados es:

\[\hat{y} = 0.67 + 1.5 x\]

Esta ecuación nos permite predecir la calificación (\(\hat{y}\)) dado el número de horas dedicadas al proyecto (\(x\)), basándonos en el modelo lineal ajustado a nuestros datos.

Usos de la RL

  • Evaluar relaciones entre dos variables
  • Predecir