A continuación hay una serie de ejercicios que debe completar. Algunos de los códigos ya están vaciados para que se facilite realizar estar tarea.
Se recomienda para cada uno de los conjuntos de datos a trabajar, revise los datos que contienen, así como también usar las funciones de ayuda ? obtener información sobre los mismos y de esta manera lograr facilitar la comprensión sobre los datos a trabajar.
Recomendaciones
Usar funciones apropiadas para obtener los valores solicitados. Revise los ejercicios de codificación anteriormente presentados en el curso, las láminas, así como el libro Open Intro Stats.
Si realiza algún cálculo manualmente deberá añadir las celdas de código con tales cálculo, tantas como sea necesario.
En cada una de las celdas de código, añada comentarios con el símbolo numeral (#) al inicio de la celda para indicar los procedimientos realizados.
Recuerde cuidar la redacción y ortografía en la información que presente.
En caso de tener alguna duda sobre los procedimientos a seguir, usar el grupo de whatsapp.
Se recuerda que la terea debe ser realizada de forma individual.
# instalar y cargar paquetes con los que se trabajará. No modificar esta celdainstall.packages ('openintro')install.packages ('gtsummary')library ('openintro')library ('gtsummary')library ('dplyr')
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)
also installing the dependency ‘gt’
Attaching package: ‘dplyr’
The following objects are masked from ‘package:stats’:
filter, lag
The following objects are masked from ‘package:base’:
intersect, setdiff, setequal, union
1) Tratamiento de tumores con etanol
Nombre del conjunto de datos
ethanol
Descripción
Experimento en el que se probaron 3 tratamientos diferentes de etanol para el tratamiento de tumores de cáncer oral en hámsters.
La columna “regress” especifica si el tratamiento tuvo efecto con la categoría “yes” o “no” en caso de no tener algún efecto sobre el tumor.
La columna “treatment” indica el tratamiento que recibió el hámster.
Detalles
Los tratamientos de etil_celulosa y etanol_puro consistían en aproximadamente una cuarta parte del volumen de los tumores, mientras que el tratamiento de etanol_puro_16x era 16 veces mayor, es decir, unas 4 veces el tamaño de los tumores.
Fuente
Morhard R, et al. 2017. Desarrollo de la ablación mejorada con etanol como alternativa a la cirugía en el tratamiento de tumores sólidos superficiales.
Asignación
¿Cómo se presentan los datos?
¿Cuántas observaciones tiene el conjunto de datos?
¿Cuántas variables tiene el conjunto de datos y cómo se llaman?
Crear una tabla de contigencia que represente los totales por tratamiento. Calcular la frecuencia relativa de cada uno de estos experimentos y su éxito (puede usar los códigos revisados o hacerlo manualmente).
Realice una explicación escrita sobre los resultados obtenidos (tipo de estudio, siginficado de los resultados, generalizable, etc.). Puede llegar a alguna conclusión con los datos presentados? Sea lo más explícito posible.
respuesta #1 El conjunto de datos del etanol estan presentado en forma de tabla, donde contienen informacion sobre un experimento en el que se probaron tres tratamiento diferentes de etanol para la regresion de tumores de hamsters, donde cada fila corresponde a una observacion y cada columna una variable.
respuesta #2 Este conjuto de datos tiene un total de 24 observaciones, distribuidas entre tratamientos. cada observacion corresponde a un hamster con los diferentes tratamiento, y el resultado “yes” una regresion exitosa o “no” sin exito.
#numero de observacionesnrow(ethanol)dim(ethanol)print(ethanol)
24
24
2
# A tibble: 24 × 2
treatment regress
<fct> <fct>
1 pure_ethanol_16x yes
2 pure_ethanol_16x yes
3 pure_ethanol_16x yes
4 pure_ethanol_16x yes
5 pure_ethanol_16x no
6 pure_ethanol_16x no
7 pure_ethanol_16x no
8 pure_ethanol_16x no
9 pure_ethanol_16x no
10 pure_ethanol_16x no
# ℹ 14 more rows
respuesta #3 Este conjunto de datos contiene 2 variables treatment: el tratamiento recibido por el hamster (variable categorica)nominal regrees: el resultado del tratamiento indicando el exito o fracaso. (variable categorica)
#ver nombre de variablenames(ethanol)#numero de variablencol (ethanol)#verificar tipo de variablestr (ethanol)
#calcular frecuencia relativa de exito y fracasofrecuencia_relativa <-table(ethanol$regress) /nrow (ethanol)#mostrar la frecuencia relativaprint (frecuencia_relativa)
no yes
0.5833333 0.4166667
observación: ver siguiente celda de código
# el requerimiento indicaba "Calcular la frecuencia relativa de cada uno de estos experimentos y su éxito.."# en un primer intento se pudiera tratar de generar de esta forma(tabla_contigencia/nrow (ethanol))*100# pero no estaría logrado como es necesario lo que implica buscar o hacerlo manualmente o usar la función tbl_summary# del paquete gtsummary# camino a seguir o calcular porcentajes manualmentegtsummary::tbl_summary(ethanol,include ='treatment',by='regress',percent='row')%>%as_kable()
respuesta#5
trabajamos con una serie de datos, sobre un estudio experimental que se llevo a cabo en modelo animal (hamsterm). estos fueron sometidos a tres tipos de tratamiento de ethanol, y fue registrado si el tratamiento resulto en la regresion de los tumores. a mi parecer ya que este experimento se realizo en hamster, un modelo animal, no se se podria concluir, que aunque algunos resultados fueron prometedores, no se puede generalizar directamente a humanos, se requiere de muchos mas estudios clinicos.
ethanol
A tibble: 24 × 2
treatment
regress
<fct>
<fct>
pure_ethanol_16x
yes
pure_ethanol_16x
yes
pure_ethanol_16x
yes
pure_ethanol_16x
yes
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol_16x
no
pure_ethanol
no
pure_ethanol
no
pure_ethanol
no
pure_ethanol
no
pure_ethanol
no
ethyl_cellulose
yes
ethyl_cellulose
yes
ethyl_cellulose
yes
ethyl_cellulose
yes
ethyl_cellulose
yes
ethyl_cellulose
yes
ethyl_cellulose
no
2) Indicadores Económicos y de Sostenibilidad para Sudáfrica.
Nombre del Conjunto de Datos
sa_gdp_elec
Descripción
Incluye datos anuales sobre pib, gni, emisiones de co2, costes de puesta en marcha.
Detalles
año: Año de recogida de los datos.
access_elec: Acceso a la electricidad en porcentaje de la población.
puesta en marcha: Coste de los procedimientos de creación de empresas en porcentaje de la GNI.
co2: Emisión de CO2 en kt (kilotoneladas).
gdp: PIB per cápita, PPA en dólares internacionales constantes de 2017.
gni: GNI per cápita, PPA en dólares internacionales constantes de 2017. GNI (gross national income) es la cantidad total de dinero que ganan los ciudadanos y las empresas de un país.
co2_kg_ppp: kg por PIB en dólares PPA de 2017.
Fuente
World Bank I
Carbon Dioxide Information Analysis Center, Environmental Sciences Division
Asignación
¿Cuántas observaciones tiene el conjunto de datos?
Indique el tipo de cada una de ls variables.
Realice un histograma para la variable co2 e indique cuántas barras recomienda aplicar para visualizar este gráfico.
Explique si tiene sentido crear un histograma para la variable year
Muestre dos gráficos de dispersión entre variables que pueden estar asociadas, el tipo de relación que presenten e intente identificar cuáles pueden ser las variables explicativas y de respuesta
¿Puede indentificar algunas variables que resulten independientes?. Justifique
Identifique el tipo de estudio que se revisó en esta sección
sa_gdp_elec
A tibble: 16 × 7
year
access_elec
startup
co2
gdp
gni
co2_kg_ppp
<dbl>
<dbl>
<dbl>
<dbl>
<dbl>
<dbl>
<dbl>
2003
78.8
9.4
353110
10646.83
10388.18
0.7098952
2004
80.9
9.1
379970
10997.01
10807.17
0.7306183
2005
80.8
8.6
377640
11434.92
11233.35
0.6897401
2006
80.7
6.9
379560
11924.07
11711.35
0.6564602
2007
82.0
7.1
396900
12402.05
12010.29
0.6515254
2008
81.9
6.0
426560
12628.20
12251.73
0.6785602
2009
82.6
5.9
404020
12262.14
11999.96
0.6527439
2010
82.9
6.0
425110
12452.34
12195.42
0.6665559
2011
83.6
0.3
409120
12666.71
12346.55
0.6210867
2012
85.3
0.3
426710
12743.94
12404.11
0.6337627
2013
85.2
0.3
436870
12852.78
12523.90
0.6331184
2014
86.0
0.3
447980
12884.48
12549.90
0.6374456
2015
85.3
0.3
424880
12840.04
12528.09
0.5974440
2016
84.2
0.2
425180
12702.92
12355.72
0.5954893
2017
84.4
0.2
435140
12701.35
12320.43
0.6009385
2018
84.7
0.2
433250
12627.93
12229.11
0.5936559
#verificar el numero de observacionesnrow (sa_gdp_elec)
16
#ver numero de variablencol(sa_gdp_elec)#verificar el tipo de variablestr(sa_gdp_elec)
7
tibble [16 × 7] (S3: tbl_df/tbl/data.frame)
$ year : num [1:16] 2003 2004 2005 2006 2007 ...
$ access_elec: num [1:16] 78.8 80.9 80.8 80.7 82 81.9 82.6 82.9 83.6 85.3 ...
$ startup : num [1:16] 9.4 9.1 8.6 6.9 7.1 6 5.9 6 0.3 0.3 ...
$ co2 : num [1:16] 353110 379970 377640 379560 396900 ...
$ gdp : num [1:16] 10647 10997 11435 11924 12402 ...
$ gni : num [1:16] 10388 10807 11233 11711 12010 ...
$ co2_kg_ppp : num [1:16] 0.71 0.731 0.69 0.656 0.652 ...
todas son variables de tipo numerica, con valores continuo.
observación: La variable year no es continua
#crear un histogramahist (sa_gdp_elec$co2,main ="histograma de co2",xlab ="Emisiones de co2",ylab ="frecuencia",col="red",border ="black",breaks =6)
respuesta#4 la variable year (año) es un tipo de variable categorica ordinal, crear un histograma para esta variable no seria lo mas recomendable, ya que los histogramas estan diseñados pra mostrar distribucion de variable continua. y no nos dara un analisis claro, ya que la distribucion tendria muchas barras, lo que no siempre es util.
observación: en el histograma, más que una variable continua, es para una variable numérica y no categórica. Recomiendo que generes el histograma y evalúes porque no tiene sentido en este caso, al ser solo una observación por año
#grafico de dispersion gdp vs co2plot(sa_gdp_elec$gdp, sa_gdp_elec$co2,main ="Grafico de dispersion entre gdp y co2",xlab="gdp",ylab ="emisiones co2" ,pch =19)
#segundo grafico de dispersion gni vs co2plot (sa_gdp_elec$gni, sa_gdp_elec$co2,main="grafico de dispersion entre gni y co2",xlab ="gni",ylab="emisiones co2",pch =19)
Tipos de relacion: para el grafico gdp y co2, tenemos una relacion positiva, ya que a medida que el PIB aumenta, las emisiones de co2 tambien podrian aumentar. 2- para el grafico entre gni y co2 tambien tenemos una probable relacion positiva.
Variables explicativa y de respuesta: la explicativa: son gdp y gni ya que explican o influyen en el valor co2.
la de repuesta: co2 ya que es una variable dependiente que vamos a explicar.
respuesta #6 En este conjunto de datos, la variables que podria considerarse independiente es el año. justificando: Año year: El año es independiente de las demas variables. es una medida de tiempo que avanza cronologicamente, y no depende de nigun otro factor en el cojuto de datos. es decir no cambia en funcion de otras variables.
3) Representación de Histogramas
A continuación se presenta el código para generar 3 histogramas donde cada uno corresponde a un conjunto de datos distinto. Para cada uno, realizar las siguientes actividades:
Generar el gráfico y determinar si variando la cantidad de barras mediante el parametro breaks puede mejorar la representación.
Identificar el conjunto de dato usado para generar los gráficos así como el nombre de la variable, especificando lo que representa y el tipo de variable.
Identifique la modalidad de la distribución, así como posibles sesgos, según su selección de cantidad de barras
hist(london_murders$age, breaks =15)
respuestas:
usar tantas celdas de código y texto como sea necesario
hist (london_murders$age, breaks =10)
#crear una tabla de datostable(london_murders$age)#ver numeros de variablencol (london_murders)#ver numero de observacionesnrow (london_murders)# ver nombre de variablenames(london_murders)
observacion: no pude correr el código de la celda de abajo
#datos(london_murders) <-print(tabla_histograma)
ERROR: Error: object 'tabla_histograma' not found
Error: object 'tabla_histograma' not found
Traceback:
1. .handleSimpleError(function (cnd)
. {
. watcher$capture_plot_and_output()
. cnd <- sanitize_call(cnd)
. watcher$push(cnd)
. switch(on_error, continue = invokeRestart("eval_continue"),
. stop = invokeRestart("eval_stop"), error = NULL)
. }, "object 'tabla_histograma' not found", base::quote(eval(expr,
. envir)))
tipos de variables
tiene 5 variable
con la modificacion a 10 barras podemos observar un sesgo a la derecha
sin la modificación también del breaks también se aprecia el mismo sesgo. Igual, creo que mejora la representación del histograma al bajar la cantidad al número que decidiste usar. En cuanto al conjunto de datos es ?london_murders “This dataset contains the victim name, age, and location of every murder recorded in the Greater London area by the Metropolitan Police from January 1, 2006 to September 7, 2011.”. Luego desde ahí podías hacer una interpretación de la variable representada donde, por ejemplo, la moda en asesinatos es cercana a los 22 años, y así…
hist(LAhomes$sqft)
respuestas:
no me fue posible modifica las barras, y en este histograma podemos observar con mas magnitud un sesgo ala derecha, es un grafico que no nos muestras mucho para un analisis.
tambien observamos 2 variables
observación: no sé qué pasó que me comentas que no lo pudiste modificar. En caso de, me hubieses escrito y con gusto te ayudaba. Recuerden siempre pedir asistencia
hist(LAhomes$sqft, breaks =20)
hist(life_exp$income)
respuestas:
usar tantas celdas de código y texto como sea necesario