# instalar librerías
install.packages('openintro')
install.packages('gtsummary')Estadística I, Laboratorio I
Tema I: Introducción a los Datos
Se aplicarán una serie de análisis sobre un conjunto de datos
Parte 1 (asistida).
Instalar librerías necesarias para análisis y cargar las mismas en R
# cargar librerías
library(dplyr)
library(openintro)
library(gtsummary)Explorar conjunto de datos
Para este laboratorio primero usaremos el conjunto de datos ‘diabetes2’ y lo primero que debemos hacer es explorar su contenido
# ver las primeras 10 filas
head(diabetes2, 30)# dimensiones del conjunto de datos (filas y columnas)
dim(diabetes2)# revisar documentación
?diabetes2Actividades Propuetas
- Identificar los tipos de variables de este conjunto de datos.
(su respuesta)
- ¿Qué tipo de estudio es el que se muestra? (su respuesta)
Crear tablas sumario/resumen
???Uso de la librería gt_summary
Permite generar sumarios en un formato amable para el lector.
tbl_summary(diabetes2)%>%
as_kable()Parámetros de la función tbl_summary
- Include= las columnas a incluir en la tabla sumario
- by = la columna a estratificar
- percent: puede ser ‘row’ o ‘column’ y será para generar la proporción sobre los valores en filas o en las columnas
gtsummary::tbl_summary(diabetes2,
include = 'treatment',
by='outcome',
percent='row')%>%
as_kable()Revisar la documentación del conjunto de datos mammogram
# su códigoCrear una tablas sumario-resúmen para el conjunto de datos mammogramm
1) con la función table
2) con la función tbl_summary
# su códigoParte II
Evaluar del conjunto de datos loan_50, según las variables seleccionadas a continuación, cuáles pueden estar asociadas
loan_50_seleccion <- loan50%>%
select(loan_amount,
interest_rate,
term,
grade,
state,
total_income,
homeownership)head(loan_50_seleccion,10)indique los nombres de las variables
???????
genere un gráfico de dispersión con las variables identificadas
identifique cuál puede ser la variable explicativa y la variable respuesta. Razone si se puede invertir la relación
Parte III
Análisis variables conjunto de datos IRIS
Sir Ronald Aylmer Fisher fue un estadístico, biólogo evolutivo y genetista inglés que trabajó en un conjunto de datos que contenía la longitud y la anchura de los sépalos y de los pétalos de tres especies de iris (setosa, versicolor y virginica). El conjunto de datos incluía 50 flores de cada especie.
¿Cuántos casos se incluyeron en los datos?
¿Cuántas variables numéricas se incluyen en los datos? Indique cuáles son y si son continuas o discretas.
¿Cuántas variables categóricas se incluyen en los datos y cuáles son? Enumere los niveles (categorías) correspondientes.
iris# sus códigos acá# sus códigos acá# sus códigos acáParte IV
Análisis de Datos Representados en un gráfico
La siguiente visualización muestra la distribución geográfica de los aeropuertos en los Estados Unidos continentales y Washington, D. C. Esta visualización se construyó a partir de un conjunto de datos donde cada observación representa un aeropuerto.
- Enumere las variables utilizadas para crear esta visualización.
(su respuesta)
- Indique si cada variable del estudio es numérica o categórica. Si es numérica, identifíquela como continua o discreta. Si es categórica, indique si la variable es ordinal. (su respuesta)