# instalar y cargar paquetes con los que se trabajará. No modificar esta celda
install.packages ('openintro')
install.packages ('gtsummary')
library ('openintro')
library ('gtsummary')
library ('dplyr')Estadística I, Tarea 01
A continuación hay una serie de ejercicios que debe completar. Algunos de los códigos ya están vaciados para que se facilite realizar estar tarea.
Se recomienda para cada uno de los conjuntos de datos a trabajar, revise los datos que contienen, así como también usar las funciones de ayuda ? obtener información sobre los mismos y de esta manera lograr facilitar la comprensión sobre los datos a trabajar.
Recomendaciones
Usar funciones apropiadas para obtener los valores solicitados. Revise los ejercicios de codificación anteriormente presentados en el curso, las láminas, así como el libro Open Intro Stats.
Si realiza algún cálculo manualmente deberá añadir las celdas de código con tales cálculo, tantas como sea necesario.
En cada una de las celdas de código, añada comentarios con el símbolo numeral (#) al inicio de la celda para indicar los procedimientos realizados.
Recuerde cuidar la redacción y ortografía en la información que presente.
En caso de tener alguna duda sobre los procedimientos a seguir, usar el grupo de whatsapp.
Se recuerda que la terea debe ser realizada de forma individual.
1) Tratamiento de tumores con etanol
Nombre del conjunto de datos
ethanol
Descripción
Experimento en el que se probaron 3 tratamientos diferentes de etanol para el tratamiento de tumores de cáncer oral en hámsters.
La columna “regress” especifica si el tratamiento tuvo efecto con la categoría “yes” o “no” en caso de no tener algún efecto sobre el tumor.
La columna “treatment” indica el tratamiento que recibió el hámster.
Detalles
Los tratamientos de etil_celulosa y etanol_puro consistían en aproximadamente una cuarta parte del volumen de los tumores, mientras que el tratamiento de etanol_puro_16x era 16 veces mayor, es decir, unas 4 veces el tamaño de los tumores.
Fuente
Morhard R, et al. 2017. Desarrollo de la ablación mejorada con etanol como alternativa a la cirugía en el tratamiento de tumores sólidos superficiales.
Asignación
- ¿Cómo se presentan los datos?
- ¿Cuántas observaciones tiene el conjunto de datos?
- ¿Cuántas variables tiene el conjunto de datos y cómo se llaman?
- Crear una tabla de contigencia que represente los totales por tratamiento. Calcular la frecuencia relativa de cada uno de estos experimentos y su éxito (puede usar los códigos revisados o hacerlo manualmente).
- Realice una explicación escrita sobre los resultados obtenidos (tipo de estudio, siginficado de los resultados, generalizable, etc.). Puede llegar a alguna conclusión con los datos presentados? Sea lo más explícito posible.
ethanol2) Indicadores Económicos y de Sostenibilidad para Sudáfrica.
Nombre del Conjunto de Datos
sa_gdp_elec
Descripción
Incluye datos anuales sobre pib, gni, emisiones de co2, costes de puesta en marcha.
Detalles
año: Año de recogida de los datos.
access_elec: Acceso a la electricidad en porcentaje de la población.
puesta en marcha: Coste de los procedimientos de creación de empresas en porcentaje de la GNI.
co2: Emisión de CO2 en kt (kilotoneladas).
gdp: PIB per cápita, PPA en dólares internacionales constantes de 2017.
gni: GNI per cápita, PPA en dólares internacionales constantes de 2017. GNI (gross national income) es la cantidad total de dinero que ganan los ciudadanos y las empresas de un país.
co2_kg_ppp: kg por PIB en dólares PPA de 2017.
Fuente
World Bank I
Carbon Dioxide Information Analysis Center, Environmental Sciences Division
Asignación
¿Cuántas observaciones tiene el conjunto de datos?
Indique el tipo de cada una de ls variables.
Realice un histograma para la variable
co2e indique cuántas barras recomienda aplicar para visualizar este gráfico.Explique si tiene sentido crear un histograma para la variable year
Muestre dos gráficos de dispersión entre variables que pueden estar asociadas, el tipo de relación que presenten e intente identificar cuáles pueden ser las variables explicativas y de respuesta
¿Puede indentificar algunas variables que resulten independientes?. Justifique
Identifique el tipo de estudio que se revisó en esta sección
sa_gdp_elec3) Representación de Histogramas
A continuación se presenta el código para generar 3 histogramas donde cada uno corresponde a un conjunto de datos distinto. Para cada uno, realizar las siguientes actividades:
Generar el gráfico y determinar si variando la cantidad de barras mediante el parametro
breakspuede mejorar la representación.Identificar el conjunto de dato usado para generar los gráficos así como el nombre de la variable, especificando lo que representa y el tipo de variable.
Identifique la modalidad de la distribución, así como posibles sesgos, según su selección de cantidad de barras
hist(london_murders$age, breaks = 15)respuestas:
usar tantas celdas de código y texto como sea necesario
hist(LAhomes$sqft)respuestas:
usar tantas celdas de código y texto como sea necesario
hist(life_exp$income)respuestas:
usar tantas celdas de código y texto como sea necesario
hist(lego_population$pieces, breaks=5)respuestas:
usar tantas celdas de código y texto como sea necesario