A continuación hay una serie de ejercicios que debe completar. Algunos de los códigos ya están vaciados para que se facilite realizar estar tarea.
Se recomienda para cada uno de los conjuntos de datos a trabajar, revise los datos que contienen, así como también usar las funciones de ayuda ? obtener información sobre los mismos y de esta manera lograr facilitar la comprensión sobre los datos a trabajar.
Recomendaciones
Usar funciones apropiadas para obtener los valores solicitados. Revise los ejercicios de codificación anteriormente presentados en el curso, las láminas, así como el libro Open Intro Stats.
Si realiza algún cálculo manualmente deberá añadir las celdas de código con tales cálculo, tantas como sea necesario.
En cada una de las celdas de código, añada comentarios con el símbolo numeral (#) al inicio de la celda para indicar los procedimientos realizados.
Recuerde cuidar la redacción y ortografía en la información que presente.
En caso de tener alguna duda sobre los procedimientos a seguir, usar el grupo de whatsapp.
Se recuerda que la terea debe ser realizada de forma individual.
# instalar y cargar paquetes con los que se trabajará. No modificar esta celdainstall.packages ('openintro')install.packages ('gtsummary')library ('openintro')library ('gtsummary')library ('dplyr')
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)
also installing the dependencies ‘airports’, ‘cherryblossom’, ‘usdata’
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)
also installing the dependencies ‘V8’, ‘litedown’, ‘reactR’, ‘bigD’, ‘bitops’, ‘juicyjuice’, ‘markdown’, ‘reactable’, ‘cards’, ‘gt’
Loading required package: airports
Loading required package: cherryblossom
Loading required package: usdata
Attaching package: ‘dplyr’
The following objects are masked from ‘package:stats’:
filter, lag
The following objects are masked from ‘package:base’:
intersect, setdiff, setequal, union
1) Tratamiento de tumores con etanol
Nombre del conjunto de datos
ethanol
Descripción
Experimento en el que se probaron 3 tratamientos diferentes de etanol para el tratamiento de tumores de cáncer oral en hámsters.
La columna “regress” especifica si el tratamiento tuvo efecto con la categoría “yes” o “no” en caso de no tener algún efecto sobre el tumor.
La columna “treatment” indica el tratamiento que recibió el hámster.
Detalles
Los tratamientos de etil_celulosa y etanol_puro consistían en aproximadamente una cuarta parte del volumen de los tumores, mientras que el tratamiento de etanol_puro_16x era 16 veces mayor, es decir, unas 4 veces el tamaño de los tumores.
Fuente
Morhard R, et al. 2017. Desarrollo de la ablación mejorada con etanol como alternativa a la cirugía en el tratamiento de tumores sólidos superficiales.
Asignación
¿Cómo se presentan los datos?
¿Cuántas observaciones tiene el conjunto de datos?
¿Cuántas variables tiene el conjunto de datos y cómo se llaman?
Crear una tabla de contigencia que represente los totales por tratamiento. Calcular la frecuencia relativa de cada uno de estos experimentos y su éxito (puede usar los códigos revisados o hacerlo manualmente).
Realice una explicación escrita sobre los resultados obtenidos (tipo de estudio, siginficado de los resultados, generalizable, etc.). Puede llegar a alguna conclusión con los datos presentados? Sea lo más explícito posible.
ethanol
A tibble: 24 × 2
treatment
regress
<fct>
<fct>
pure_ethanol_16x
yes
pure_ethanol_16x
yes
pure_ethanol_16x
yes
pure_ethanol_16x
yes
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol
no
pure_ethanol
no
pure_ethanol
no
pure_ethanol
no
pure_ethanol
no
ethyl_cellulose
yes
ethyl_cellulose
yes
ethyl_cellulose
yes
ethyl_cellulose
yes
ethyl_cellulose
yes
ethyl_cellulose
yes
ethyl_cellulose
no
1- Los datos se presentan en columnas las cuales son variables cuya forma de estas son categóricas nominales; Mientras que las observaciones se presentan en forma de fila, la forma de estas filas también son consideradas categóricas nominales.
2- El conjunto de datos tiene 24 observaciones en total
3- El conjunto de datos tiene 2 variables las cuales se componen de ‘treatment’ y ‘regress’
observación: en la 1 las variables las defines por columna, no por fila, así que no debes indicar “la forma de estas filas también son consideradas categóricas nominales”.
observación: la tabla anterior no se corresponde con lo solicitado ni con los métodos revisados en clase. Se podía hacer como se muestra en la siguiente celda, que fue una de las funciones que se mostró en el laboratorio 1
Este es un estudio experimental en el cual se aplicaron distintos tratamientos a hamsters con tumores orales.
Resultados son:
-El tratamiento por ethyl_cellulose tuvo la mayor proporción de éxito, con 5 de 6 casos mostrando regresión del tumor (83%)
-El tratamiento pure_ethanol no mostó ningún éxito (0%)
-El tratamiento pure_ethanol_16x mostró una tasa de éxito moderada 4 de 12 casos (33%)
Podemos llegar a la conclusión de que Ethyl_cellulose parece ser el tratamiento más efectivo.
Pure ethanol aún a concentraciones mayores, no demuestra resultados satisfactorios.
observación: quizás es mejor no ser tan taxativo al indicar que “Podemos llegar a la conclusión de que Ethyl_cellulose parece ser el tratamiento más efectivo”, sino más bien que pareciera que dicho tratamiento es el más efectivo
2) Indicadores Económicos y de Sostenibilidad para Sudáfrica.
Nombre del Conjunto de Datos
sa_gdp_elec
Descripción
Incluye datos anuales sobre pib, gni, emisiones de co2, costes de puesta en marcha.
Detalles
año: Año de recogida de los datos.
access_elec: Acceso a la electricidad en porcentaje de la población.
puesta en marcha: Coste de los procedimientos de creación de empresas en porcentaje de la GNI.
co2: Emisión de CO2 en kt (kilotoneladas).
gdp: PIB per cápita, PPA en dólares internacionales constantes de 2017.
gni: GNI per cápita, PPA en dólares internacionales constantes de 2017. GNI (gross national income) es la cantidad total de dinero que ganan los ciudadanos y las empresas de un país.
co2_kg_ppp: kg por PIB en dólares PPA de 2017.
Fuente
World Bank I
Carbon Dioxide Information Analysis Center, Environmental Sciences Division
Asignación
¿Cuántas observaciones tiene el conjunto de datos?
Indique el tipo de cada una de ls variables.
Realice un histograma para la variable co2 e indique cuántas barras recomienda aplicar para visualizar este gráfico.
Explique si tiene sentido crear un histograma para la variable year
Muestre dos gráficos de dispersión entre variables que pueden estar asociadas, el tipo de relación que presenten e intente identificar cuáles pueden ser las variables explicativas y de respuesta
¿Puede indentificar algunas variables que resulten independientes?. Justifique
Identifique el tipo de estudio que se revisó en esta sección
3.2- Tomando en cuenta la visibilidad de los datos mediante pruebas, es recomendable usar entre 5 y 7 barras para obtener resultados claros
4- No tiene sentido crear un historigrama para year ya que es una variable de tiempo, no una variable continua de medidas como emisiones o ingresos; Los datos de tiempo se representan mejor mediante otro tipo de gráfico.
observación: punto 3:dado que son pocas observaciones no estimo recomendable usar 7 barras, me parece que entre 4 y 5 va mejor la “cosa”. Punto 4: así fuese una variable numérica-discreta, sí tiene sentido crear un histograma
plot(x = sa_gdp_elec$gdp,y = sa_gdp_elec$co2)
5.1- Relación esperada: Positiva (a mayor PIB, pueden aumentar las emisiones)
Warning message:
“Unknown or uninitialised column: `puesta_en_marcha`.”
5.2- Relación esperada: negrativa (a mayor GNI, menor coste relativo de iniciar empresas)
-Variable explicativa: Gni (GNI per capita)
-Variable respuesta: puesta en marcha
6- Si, la variable year podría considerarse independiente de otras como acces_elec o co2 en el corto plazo, aunque con tendencias a largo plazo podría tener correlación
otra posible variable independiente podría ser access_elec y puesta_en_marcha ya que no podrían tener relación directa inmediata, acceso a la electricidad no necesariamente cambia costos burocráticos de abrir empresas
justificación: Son fenómenos distintos: infraestructura eléctrica vs regulaciones económicas
7- Se trata de un estudio observacional con datos de series de tiempo. No hubo intervención en los datos ya que solo se observaron indicadores económicos y ambientales durante diferentes años. Se analizaron tendencias y asociaciones, no causas directas.
observaciones: 5.2- la Variable respuesta que indicas “puesta en marcha”, no existe en el conjunto de datos
3) Representación de Histogramas
A continuación se presenta el código para generar 3 histogramas donde cada uno corresponde a un conjunto de datos distinto. Para cada uno, realizar las siguientes actividades:
Generar el gráfico y determinar si variando la cantidad de barras mediante el parametro breaks puede mejorar la representación.
Identificar el conjunto de dato usado para generar los gráficos así como el nombre de la variable, especificando lo que representa y el tipo de variable.
Identifique la modalidad de la distribución, así como posibles sesgos, según su selección de cantidad de barras
hist(london_murders$age, breaks =15)
respuestas:
Conjunto de datos: london_murders
variable: age (edad), tipo de variable: Numérica continua
Distribución: Puede mostrar sesgo hacia la derecha (positivo) ya que pidrían haber mpas individuos jóvenes que mayores en la base de datos. El número de barras elegido es de 10 ya que resulta adecuada a razón de que permite observar la forma de la distribución sin sobecargar el gráfico
Observación: en este conjunto de datos la variable edad no es continua sino discreta ya que nunca asume un valor de tener 20.35 años. En cuando a la distribución, indicas que “pidrían haber mpas individuos jóvenes que mayores en la base de datos”. En caso de ser “podrían” la palabra, la verdad es que no corresponde, ya que sí aparecen en tal conjunto de datos más valores de muertes en personas jovenes hacia los 20 años que en los de 40 y 60 años
hist(london_murders$age, breaks =10)
hist(LAhomes$sqft)
respuestas:
Conjunto de datos: Lahomes Variable usada: sqft (superficie de hogar x pie cuadrado) Tipo de variable: Numérica continua Distribución: La distribución es asimetrica hacia la derecha (sesgo positivo) ya que algunas casas muy grandes pueden estidad la distribución
El nuímero de barras elegido es de 15 a 20; Con 15 barras se puede observar la forma general de los tamaños de las casas, con 20 barras se puede observar más detalle en la cantidad de casas pequeñas, medianas y grandes.
observación: no me convence lo que acá indicas, partiendo del hecho de que varias palabras no están bien escritas y dificulta aún más la interpretación del texto
hist(LAhomes$sqft, breaks =15)
hist(LAhomes$sqft, breaks =20)
hist(life_exp$income)
#life_exp
A tibble: 3142 × 4
state
county
expectancy
income
<chr>
<chr>
<dbl>
<dbl>
Alabama
Autauga County
76.060
37773
Alabama
Baldwin County
77.630
40121
Alabama
Barbour County
74.675
31443
Alabama
Bibb County
74.155
29075
Alabama
Blount County
75.880
31663
Alabama
Bullock County
71.790
25929
Alabama
Butler County
73.730
33518
Alabama
Calhoun County
73.300
33418
Alabama
Chambers County
73.245
31282
Alabama
Cherokee County
74.650
32645
Alabama
Chilton County
73.880
31380
Alabama
Choctaw County
75.050
31046
Alabama
Clarke County
74.820
31877
Alabama
Clay County
74.145
32965
Alabama
Cleburne County
74.145
31209
Alabama
Coffee County
76.205
38929
Alabama
Colbert County
74.105
35831
Alabama
Conecuh County
73.730
29643
Alabama
Coosa County
73.880
28651
Alabama
Covington County
74.835
31581
Alabama
Crenshaw County
73.280
34228
Alabama
Cullman County
75.035
35923
Alabama
Dale County
75.715
34107
Alabama
Dallas County
72.005
31595
Alabama
Dekalb County
74.730
29621
Alabama
Elmore County
75.650
37561
Alabama
Escambia County
74.390
30342
Alabama
Etowah County
72.830
34086
Alabama
Fayette County
73.130
30426
Alabama
Franklin County
72.805
31614
⋮
⋮
⋮
⋮
Wisconsin
Washburn County
78.385
43727
Wisconsin
Washington County
80.475
51110
Wisconsin
Waukesha County
80.915
63995
Wisconsin
Waupaca County
77.550
42216
Wisconsin
Waushara County
79.000
38620
Wisconsin
Winnebago County
79.385
42399
Wisconsin
Wood County
79.820
41883
Wyoming
Albany County
79.700
39052
Wyoming
Big Horn County
77.585
36964
Wyoming
Campbell County
76.660
54653
Wyoming
Carbon County
77.835
49787
Wyoming
Converse County
79.255
55012
Wyoming
Crook County
76.660
44121
Wyoming
Fremont County
75.575
41019
Wyoming
Goshen County
78.800
42346
Wyoming
Hot Springs County
79.700
51418
Wyoming
Johnson County
78.240
44439
Wyoming
Laramie County
77.590
49796
Wyoming
Lincoln County
80.025
39683
Wyoming
Natrona County
77.000
68692
Wyoming
Niobrara County
78.800
46341
Wyoming
Park County
79.700
48692
Wyoming
Platte County
79.255
45275
Wyoming
Sheridan County
78.240
55089
Wyoming
Sublette County
80.025
48881
Wyoming
Sweetwater County
78.405
48681
Wyoming
Teton County
82.110
194861
Wyoming
Uinta County
77.350
41005
Wyoming
Washakie County
77.585
43460
Wyoming
Weston County
76.660
44997
respuestas:
Conjunto de datos: life_exp Variable usada: Income (ingreso x persona o país) Tipo de variable: Numérica continua
Distribución: El ingreso tiene una distribución asimétrica hacia la derecha (sesgo positivo).
Es común ya qu existen muchas personas/países con ingresos bajos y pocos con ingresos muy altos (lo que estira el gráfico a la derecha)
Con 15 barras se nota el sesgo general y una gran concentración de ingresos bajos, con 30 barras se ve aún más claramente los niveles bajos y algunos niveles medios más diferenciados
Observación: en ese conjunto de datos no se detallan países sino estados y condados de EEUU
hist(life_exp$income, breaks=15)
hist(life_exp$income, breaks=30)
hist(lego_population$pieces, breaks=5)
respuestas:
Conjunto de datos: lego_population
Variable usada: pieces (numero de piezas en los sets de Lego) Tipo de variable: Numérica discreta
Distribución: Sesgo a la derecha (positivo); Hay muchos sets pequeños (con pocas piezas) y pocos sets grandes (con miles de piezas).
Con 15 barras se nota la acumulación de sets pequeños, con 25 barras se nota mejor aún la diferencia entre sets muy pequeños, grandes y medianos
Observación: no veo mayor cambio en la representación, es decir, en la forma que generan las barras, así como en la “historia que nos representan” al pasar de 15 a 25