# cargar librerías
#library(ggplot2)Estadística I, Laboratorio 4
Nombre:
C.I.:
Temas:
Presentar el tema de la regresión lineal simple y el conjunto de datos a utilizar.
Cálculo del coeficiente de correlación de pearson
Cálculo de los parámetros de una regresión lineal simple
Usar función
lmpara obtener una regresión linealGraficos de dispersión y de la recta de la regresión lineal
Visualizar los residuos
1. Exploración Inicial y Gráfico de Dispersión
Antes de construir cualquier modelo, es crucial visualizar la relación entre nuestras variables. Un gráfico de dispersión nos permitirá observar patrones, tendencias y posibles anomalías en los datos.
Ejercicio 1.1: Cargar datos y generar gráfico de dispersión
Carga el conjunto de datos data. Luego, crea un gráfico de dispersión con GDP en el eje X y m1 en el eje Y. Asegúrate de etiquetar los ejes y darle un título descriptivo al gráfico.
Más info sobre el conjunto de datos en Dinero Estados Unidos
datos= read.csv("https://raw.githubusercontent.com/javendaXgh/ucveconomiaestadistica1/refs/heads/main/data/datos_rl.csv")Estas son las variables contenidas: Una serie temporal que contiene:
m1: logaritmo del stock monetario real M1
infl: tasa de inflación trimestral (variación en el logaritmo de los precios), % anual
cpr: tasa de interés del papel comercial, % anual
GDP:logaritmo del PIB real (en miles de millones de dólares de 1987)
tbr: tasa de interés de las letras del Tesoro
Revisar contenido del conjunto de datos:
head(datos)| m1 | infl | cpr | GDP | tbr | |
|---|---|---|---|---|---|
| <dbl> | <dbl> | <dbl> | <dbl> | <dbl> | |
| 1 | 1.9513787 | 6.354598 | 7.415055 | 2.036667 | 1.083667 |
| 2 | 0.9059190 | 6.353662 | 7.413609 | 1.633333 | 0.814333 |
| 3 | 0.3596559 | 6.362623 | 7.425179 | 1.363333 | 0.869667 |
| 4 | 3.8584455 | 6.363803 | 7.437383 | 1.310000 | 1.036333 |
| 5 | 3.0970731 | 6.367617 | 7.463076 | 1.613333 | 1.256333 |
| 6 | 4.6957583 | 6.361511 | 7.472273 | 1.966667 | 1.514333 |
# Genera el gráfico de dispersión aquí2. Coeficiente de Correlación de Pearson:
El coeficiente de correlación de Pearson (r) es una medida que cuantifica la fuerza y dirección de la relación lineal entre dos variables cuantitativas. Su valor oscila entre -1 y 1. Un valor cercano a 1 indica una correlación positiva fuerte (cuando una variable aumenta, la otra también tiende a aumentar). Un valor cercano a -1 indica una correlación negativa fuerte (cuando una variable aumenta, la otra tiende a disminuir). Un valor cercano a 0 indica una correlación lineal débil o nula.
Ejercicio 2.1: Cálculo del coeficiente de correlación de Pearson e interpretación
Calcula el coeficiente de correlación de Pearson entre m1 y GDP utilizando la función cor() en R. Luego, basándote en el valor obtenido, indica el tipo de correlación (positiva/negativa) y su magnitud (fuerte/moderada/débil).
# Ejercicio 2.1: Coeficiente de correlación de PearsonBasado en el valor del coeficiente de correlación, describe el tipo de correlación (positiva/negativa) y su magnitud (fuerte/moderada/débil) observada entre ‘m1’ y ‘GDP’.
Su respuesta:
3. Creación del Modelo de Regresión Lineal Simple
La regresión lineal simple busca encontrar la línea recta que mejor se ajusta a nuestros datos, permitiéndonos modelar la relación lineal entre la variable dependiente (\(Y\)) y la variable independiente (\(X\)). La ecuación de esta línea se representa como:
\(Y=β 0 +β 1 X+ϵ\)
Donde:
\(Y\) es la variable dependiente (m1).
\(X\) es la variable independiente (GDP).
$β 0 $ es el intercepto (el valor esperado de Y cuando X es 0).
$β 1 $ es la pendiente (el cambio esperado en Y por cada unidad de cambio en X).
\(ϵ\) es el término de error residual, que representa la variabilidad no explicada por el modelo.
En R, podemos ajustar un modelo de regresión lineal utilizando la función lm().
Ejercicio 3.1: Generar el modelo de regresión lineal
Utiliza la función lm() para crear un modelo de regresión lineal donde m1 es la variable dependiente y GDP es la variable independiente. Almacena el resultado en un objeto llamado modelo_regresion.
# Ejercicio 3.1: Generar el modelo de regresión lineal
# Crea el modelo de regresión lineal4. Extracción de Resultados del Modelo
Una vez que hemos ajustado nuestro modelo, necesitamos extraer información clave para interpretarlo. Los principales componentes de interés son el coeficiente de determinación \((R^ 2 )\), la pendiente ($β 1 $ ) y el intercepto ($β 0 $ ).
- El \(R^2\) nos indica la proporción de la varianza de la variable dependiente que es explicada por el modelo. Un \(R^2\) cercano a 1 sugiere que el modelo explica una gran parte de la variabilidad.
- La pendiente nos dice cuánto cambia m1 por cada unidad de cambio en GDP.
- El intercepto es el valor de m1 cuando GDP es cero.
Ejercicio 4.1: Extraer \(R^2\) y coeficientes
Del objeto modelo_regresion, extrae el valor de \(R^2\) y los coeficientes (intercepto y pendiente). Puedes usar la función summary() para obtener un resumen completo del modelo. Igualmente asigna summary() a una nueva variable previo a extraer los valores
# Ejercicio 4.1: Extraer R cuadrado y coeficientes
# Muestra el resumen del modelo para extraer R cuadrado y los coeficientes5. Graficando la Línea de Regresión
Visualizar la línea de regresión sobre el gráfico de dispersión original nos permite entender cómo el modelo se ajusta a los datos y la dirección de la relación lineal.
Ejercicio 5.1: Graficar la línea de regresión
Sobre el gráfico de dispersión que creaste en el Ejercicio 1.1, añade la línea de regresión obtenida de tu modelo_regresion.
# Ejercicio 5.1: Graficar la línea de regresión
# Vuelve a generar el gráfico de dispersión si es necesario, y luego añade la línea de regresión6. Cálculos Manuales y Comprensión Profunda
Para afianzar nuestra comprensión, vamos a realizar algunos cálculos “a mano” sin usar las funciones predefinidas de R (o al menos simulando ese proceso). Esto nos ayudará a entender las fórmulas subyacentes.
Ejercicio 6.1: Medias y cálculo manual de la correlación
Calcula la media de m1 y la media de GDP. Luego, calcula el coeficiente de correlación de Pearson sin usar la función cor(), es decir, aplicando la fórmula:
\[r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}\]
Donde: - \(n\) es el número de pares de datos.
\(x_i\) y \(y_i\) son los valores individuales de las dos variables.
\(\bar{x}\) es la media de los valores de \(x\).
\(\bar{y}\) es la media de los valores de \(y\).
# Ejercicio 6.1: Medias y cálculo manual de la correlación
# Calcula la media de 'm1' y 'GDP'
media_m1 <-
media_GDP <-
# Calcula el coeficiente de correlación de Pearson "a mano"
# Puedes descomponer el cálculo en partes para mayor claridad (ej. numerador, denominadores)Ejercicio 6.2: Cálculo manual de los parámetros de la regresión
Ahora, calcula la pendiente \[\beta_1 = r \frac{s_Y}{s_X} \quad \text{o bien} \quad \beta_1 = \frac{\sum((X_i - \bar{X})(Y_i - \bar{Y}))}{\sum(X_i - \bar{X})^2}\]
Donde:
\(\beta_1\): Es la pendiente del modelo de regresión lineal. Representa cuánto cambia la variable dependiente (\(Y\)) por cada unidad de cambio en la variable independiente (\(X\)).
\(r\): Es el coeficiente de correlación de Pearson. Mide la fuerza y dirección de la relación lineal entre dos variables.
\(s_Y\): Es la desviación estándar de la variable dependiente (\(Y\)). Indica la dispersión de los datos de \(Y\) alrededor de su media.
\(s_X\): Es la desviación estándar de la variable independiente (\(X\)). Indica la dispersión de los datos de \(X\) alrededor de su media.
\(X_i\): Representa un valor individual de la variable independiente.
\(Y_i\): Representa un valor individual de la variable dependiente.
\(\bar{X}\): Es la media (promedio) de la variable independiente.
\(\bar{Y}\): Es la media (promedio) de la variable dependiente.
\(\sum\): Es el símbolo de sumatoria. Indica la suma de una serie de términos.
Posteriormente se puede determinar \(\beta_0\) con:
\[\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}\]
# Ejercicio 6.2: Cálculo manual de los parámetros de la regresión
# Calcula la desviación estándar de 'm1' y 'GDP' si necesitas la primera fórmula para beta_1
desviacion_m1 <-
desviacion_GDP <-
# Calcula la pendiente (beta_1)
beta_1_manual <-
# Calcula el intercepto (beta_0)
beta_0_manual <-
# Compara estos valores con los obtenidos por tu modelo_regresion7. Errores Residuales y su Interpretación
Los errores residuales (o simplemente residuos) son las diferencias entre los valores observados de la variable dependiente (m1) y los valores predichos por nuestro modelo de regresión.
\(e_i =Y_i − \hat{Y}_i\)
Donde \(Y_i\) es el valor observado y \(\hat{Y}_i\) es el valor predicho por el modelo.
Analizar los residuos es fundamental para evaluar la bondad del ajuste del modelo y verificar si se cumplen los supuestos de la regresión lineal.
Ejercicio 7.1: Obtención y graficación de los errores residuales
Extrae los errores residuales de tu modelo_regresion. Luego, crea un gráfico de dispersión donde el eje X sea GDP y el eje Y sean los residuos. ¿Qué patrón observas en este gráfico? ¿Hay alguna tendencia?
# Ejercicio 7.1: Obtención y graficación de los errores residuales
# Extrae los residuos del modelo
residuos <-
# Genera el gráfico de los residuos vs. GDP8. Significado de los Parámetros del Modelo
Finalmente, es crucial interpretar lo que nos dicen los valores numéricos de la pendiente y el intercepto en el contexto de nuestras variables.
Ejercicio 8.1: Interpretación de los parámetros
Utilizando los valores de intercepto y pendiente que obtuviste de modelo_regresion, explica en tus propias palabras qué significan estos números en relación con m1 y GDP.