Estadística I

Clase 15: Complemento RLS

M.Sc. José Miguel Avendaño I.

Universidad Central de Venezuela- Escuela de Economía. 2025-1

2025-06-10

Estimación Óptimo 1

Estimación Óptimo 2

Supuestos para aplicar un modelo de R.L.

Linearidad: los datos representados en un gráfico de dispersión deben mostrar una tendencia lineal
Residuos casi normales. Generalmente, los residuos deben ser casi normales. Cuando esta condición resulta irrazonable, suele deberse a valores atípicos o a la preocupación por los puntos influyentes.
Variabilidad de los puntos: alrededor de la línea de mínimos cuadrados permanece aproximadamente constante
Observaciones independientes: Se debe tener cuidado al aplicar la regresión a datos de series temporales, que son observaciones secuenciales en el tiempo, como el precio diario de una acción.

Representación Gráfica

Elementos de la RL:

Se puede estimar con la fórmula

\[\beta_1 = \frac{DT_y}{DT_x}R\]
Siendo R la correlación entre las dos variables y $DT$ la desviación típica de la variable explicativa y de respuesta de la muestra.
Si $\bar{x}$ es la media muestral de la variable explicativa e $\bar{y}$ es la media muestral de la variable vertical, entonces el punto $(\bar{x},\bar{y})$ está en la línea de mínimos cuadrados.

Valores Atípicos

Los valores atípicos en las regresiones son aquellos que se encuentran alejados de las “nubes” de puntos

Puntos de Apalancamiento y Puntos Influyentes

Puntos de Apalancamiento y Puntos Influyentes

Los puntos que se encuentran horizontalmente alejados del centro de la “nube” de datos tienden a ejercer una mayor atracción sobre la línea, por lo que los llamamos puntos con alto apalancamiento.
Si uno de estos puntos de alto apalancamiento parece ejercer realmente su influencia en la pendiente de la línea, entonces lo llamamos un punto influyente.

Ejemplo Regresión Lineal Simple

El gráfico muestra las ventas, en miles de unidades, en función de los presupuestos de gastos en publicidad en TV en miles de dólares, para 200 mercados diferentes. Igualmente se muestra el ajuste de mínimos cuadrados simple de las ventas a esa variable, es decir, la línea azul representa un modelo simple que puede usarse para predecir las ventas

Preguntas a Responder

¿Existe una relación entre la inversión en publicidad y las ventas obtenidas?
¿Cuán fuerte es la relación entre la inversión en publicidad y las ventas obtenidas?
¿Cuán precisos podemos predecir las ventas futuras cuando modificamos el presupuesto en publicidad?
¿La relación que se presenta es lineal?

Representación del Modelo RLS

$ventas ≈β0+β1×TV$

$TV=$ Presupuesto de publicidad en televisión
En este caso X representa la publicidad en TV e Y representa las ventas.
Se puede leer “≈” como “se modela aproximadamente como”. También se dice que estamos regresando Y en X (o Y sobre X).
Entonces podemos regresar las ventas sobre la TV ajustando el modelo

Estimación de los Coeficientes -1

Debemos usar los datos $(x1,y1),(x2,y2),…,(xn,yn)$ para estimar los coeficientes:
Sea $\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$ la predicción para $Y$ basada en el $i-ésimo$ valor de $X$.
Entonces $e_i = y_i - \hat{y}_i$ representa el $i-ésimo$ residuo; esta es la diferencia entre el $i-ésimo$ valor de respuesta observado y el $i-ésimo$ valor de respuesta predicho por nuestro modelo lineal.

Estimación de los Coeficientes -2

Definimos la suma de cuadrados residual (RSS) como $RSS=e_1^2+e_2^2+⋯+e_n^2$, o:

\[ \text{RSS} = (y_1 - \hat{\beta}_0 - \hat{\beta}_1 x_1)^2 + (y_2 - \hat{\beta}_0 - \hat{\beta}_1 x_2)^2 + \dots + (y_n - \hat{\beta}_0 - \hat{\beta}_1 x_n)^2 \]

El enfoque de mínimos cuadrados elige $β^0$ y $β^1$ para minimizar la RSS. Usando algo de cálculo,los minimizadores son:

\[ \hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} \]

\[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}, \]

donde $\bar{x}$ y $\bar{y}$ son las medias muestrales.

Estimación de los Coeficientes -3

El ajuste de regresión lineal simple para los gastos de publicidad en TV es \[β^0=7.03\] y \[β^1=0.0475\]

Significado: un gasto adicional de $1.000 en publicidad televisiva se asocia con la venta de aproximadamente 47.5 unidades adicionales del producto.

Representación Gráfica Parámetros

Ejemplo tomado del libro “Introduction To Statistical Learning”, capítulo Regresión Lineal. Witten et. all, 2023.

Distribución Normal

Tablero de Galton

Representación Gráfica

Introducción a la Distribución Normal

La Distribución Normal, también conocida como Distribución Gaussiana o “Campana de Gauss”, es una de las distribuciones de probabilidad más importantes en estadística.

Forma de Campana: Su gráfico tiene una forma simétrica y acampanada.
Fundamental: Es crucial en muchas áreas, especialmente en econometría y finanzas, por su capacidad de modelar muchos fenómenos naturales y sociales.

Características Clave

La distribución normal está completamente definida por dos parámetros:
- Media (μ): Es el centro de la distribución, donde la “campana” alcanza su punto más alto e indica el valor promedio de los datos.
- Desviación Estándar (σ): Mide la dispersión o la “anchura” de la campana. Una σ pequeña significa datos agrupados cerca de la media, mientras que una σ grande indica mayor dispersión.
Simetría: El 50% de los datos están por debajo de la media y el 50% por encima.

La Regla 68-95-99.7 (Regla Empírica)

Esta regla es una característica clave de la distribución normal y nos ayuda a entender la dispersión de los datos:

Aproximadamente el 68% de los datos caen dentro de 1 desviación estándar (μ±1σ) de la media.
Aproximadamente el 95% de los datos caen dentro de 2 desviaciones estándar (μ±2σ) de la media.
Aproximadamente el 99.7% de los datos caen dentro de 3 desviaciones estándar (μ±3σ) de la media.