Estadística I, Laboratorio I

Tema I: Introducción a los Datos

Se aplicarán una serie de análisis sobre un conjunto de datos

Parte 1 (asistida).

Instalar librerías necesarias para análisis y cargar las mismas en R

# instalar librerías
install.packages('openintro')
install.packages('gtsummary')
# cargar librerías
library(dplyr)
library(openintro)
library(gtsummary)

Explorar conjunto de datos

Para este laboratorio primero usaremos el conjunto de datos ‘diabetes2’ y lo primero que debemos hacer es explorar su contenido

# ver las primeras 10 filas
head(diabetes2, 30)
# dimensiones del conjunto de datos (filas y columnas)
dim(diabetes2)
# revisar documentación
?diabetes2

Actividades Propuetas

  1. Identificar los tipos de variables de este conjunto de datos.

(su respuesta)

  1. ¿Qué tipo de estudio es el que se muestra? (su respuesta)

Crear tablas sumario/resumen

???

Uso de la librería gt_summary

Permite generar sumarios en un formato amable para el lector.

tbl_summary(diabetes2)%>%
  as_kable()

Parámetros de la función tbl_summary

  1. Include= las columnas a incluir en la tabla sumario
  2. by = la columna a estratificar
  3. percent: puede ser ‘row’ o ‘column’ y será para generar la proporción sobre los valores en filas o en las columnas
gtsummary::tbl_summary(diabetes2,
                       include = 'treatment',
                       by='outcome',
                       percent='row')%>%
                          as_kable()

Revisar la documentación del conjunto de datos mammogram

# su código

Crear una tablas sumario-resúmen para el conjunto de datos mammogramm

1) con la función table

2) con la función tbl_summary

# su código

Parte II

Evaluar del conjunto de datos loan_50, según las variables seleccionadas a continuación, cuáles pueden estar asociadas

loan_50_seleccion <- loan50%>%
   select(loan_amount,
          interest_rate,
          term,
          grade,
          state,
          total_income,
          homeownership)
head(loan_50_seleccion,10)

indique los nombres de las variables

???????

genere un gráfico de dispersión con las variables identificadas

identifique cuál puede ser la variable explicativa y la variable respuesta. Razone si se puede invertir la relación

Parte III

Análisis variables conjunto de datos IRIS

Sir Ronald Aylmer Fisher fue un estadístico, biólogo evolutivo y genetista inglés que trabajó en un conjunto de datos que contenía la longitud y la anchura de los sépalos y de los pétalos de tres especies de iris (setosa, versicolor y virginica). El conjunto de datos incluía 50 flores de cada especie.

  1. ¿Cuántos casos se incluyeron en los datos?

  2. ¿Cuántas variables numéricas se incluyen en los datos? Indique cuáles son y si son continuas o discretas.

  3. ¿Cuántas variables categóricas se incluyen en los datos y cuáles son? Enumere los niveles (categorías) correspondientes.

iris
# sus códigos acá
# sus códigos acá
# sus códigos acá

Parte IV

Análisis de Datos Representados en un gráfico

La siguiente visualización muestra la distribución geográfica de los aeropuertos en los Estados Unidos continentales y Washington, D. C. Esta visualización se construyó a partir de un conjunto de datos donde cada observación representa un aeropuerto. Screenshot 2025-03-31 at 22.05.18.png

  1. Enumere las variables utilizadas para crear esta visualización.

(su respuesta)

  1. Indique si cada variable del estudio es numérica o categórica. Si es numérica, identifíquela como continua o discreta. Si es categórica, indique si la variable es ordinal. (su respuesta)