Indique su nombre y cédula

Nombre: Kleyner Tirrito

Cédula: 28136114

Estadística I, Tarea 01

A continuación hay una serie de ejercicios que debe completar. Algunos de los códigos ya están vaciados para que se facilite realizar estar tarea.

Se recomienda para cada uno de los conjuntos de datos a trabajar, revise los datos que contienen, así como también usar las funciones de ayuda ? obtener información sobre los mismos y de esta manera lograr facilitar la comprensión sobre los datos a trabajar.

Recomendaciones

Usar funciones apropiadas para obtener los valores solicitados. Revise los ejercicios de codificación anteriormente presentados en el curso, las láminas, así como el libro Open Intro Stats.

Si realiza algún cálculo manualmente deberá añadir las celdas de código con tales cálculo, tantas como sea necesario.

En cada una de las celdas de código, añada comentarios con el símbolo numeral (#) al inicio de la celda para indicar los procedimientos realizados.

Recuerde cuidar la redacción y ortografía en la información que presente.

En caso de tener alguna duda sobre los procedimientos a seguir, usar el grupo de whatsapp.

Se recuerda que la terea debe ser realizada de forma individual.

# instalar y cargar paquetes con los que se trabajará. No modificar esta celda
install.packages ('openintro')
install.packages ('gtsummary')
library ('openintro')
library ('gtsummary')
library ('dplyr')
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘airports’, ‘cherryblossom’, ‘usdata’


Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘V8’, ‘litedown’, ‘reactR’, ‘bigD’, ‘bitops’, ‘juicyjuice’, ‘markdown’, ‘reactable’, ‘cards’, ‘gt’


Loading required package: airports

Loading required package: cherryblossom

Loading required package: usdata


Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union

1) Tratamiento de tumores con etanol

Nombre del conjunto de datos

ethanol

Descripción

Experimento en el que se probaron 3 tratamientos diferentes de etanol para el tratamiento de tumores de cáncer oral en hámsters.

La columna “regress” especifica si el tratamiento tuvo efecto con la categoría “yes” o “no” en caso de no tener algún efecto sobre el tumor.

La columna “treatment” indica el tratamiento que recibió el hámster.

Detalles

Los tratamientos de etil_celulosa y etanol_puro consistían en aproximadamente una cuarta parte del volumen de los tumores, mientras que el tratamiento de etanol_puro_16x era 16 veces mayor, es decir, unas 4 veces el tamaño de los tumores.

Fuente

Morhard R, et al. 2017. Desarrollo de la ablación mejorada con etanol como alternativa a la cirugía en el tratamiento de tumores sólidos superficiales.

Asignación

  1. ¿Cómo se presentan los datos?
  2. ¿Cuántas observaciones tiene el conjunto de datos?
  3. ¿Cuántas variables tiene el conjunto de datos y cómo se llaman?
  4. Crear una tabla de contigencia que represente los totales por tratamiento. Calcular la frecuencia relativa de cada uno de estos experimentos y su éxito (puede usar los códigos revisados o hacerlo manualmente).
  5. Realice una explicación escrita sobre los resultados obtenidos (tipo de estudio, siginficado de los resultados, generalizable, etc.). Puede llegar a alguna conclusión con los datos presentados? Sea lo más explícito posible.
ethanol
A tibble: 24 × 2
treatment regress
<fct> <fct>
pure_ethanol_16x yes
pure_ethanol_16x yes
pure_ethanol_16x yes
pure_ethanol_16x yes
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol no
pure_ethanol no
pure_ethanol no
pure_ethanol no
pure_ethanol no
ethyl_cellulose yes
ethyl_cellulose yes
ethyl_cellulose yes
ethyl_cellulose yes
ethyl_cellulose yes
ethyl_cellulose yes
ethyl_cellulose no

1- Los datos se presentan en columnas las cuales son variables cuya forma de estas son categóricas nominales; Mientras que las observaciones se presentan en forma de fila, la forma de estas filas también son consideradas categóricas nominales.

2- El conjunto de datos tiene 24 observaciones en total

3- El conjunto de datos tiene 2 variables las cuales se componen de ‘treatment’ y ‘regress’

observación: en la 1 las variables las defines por columna, no por fila, así que no debes indicar “la forma de estas filas también son consideradas categóricas nominales”.

table(ethanol$treatment, ethanol$regress)
                  
                   no yes
  ethyl_cellulose   1   6
  pure_ethanol      5   0
  pure_ethanol_16x  8   4
prop.table(table(ethanol$treatment, ethanol$regress))
                  
                           no        yes
  ethyl_cellulose  0.04166667 0.25000000
  pure_ethanol     0.20833333 0.00000000
  pure_ethanol_16x 0.33333333 0.16666667

observación: la tabla anterior no se corresponde con lo solicitado ni con los métodos revisados en clase. Se podía hacer como se muestra en la siguiente celda, que fue una de las funciones que se mostró en el laboratorio 1

gtsummary::tbl_summary(ethanol,
                       include = 'treatment',
                       by='regress',
                       percent='row')%>%
                          as_kable()


|**Characteristic** | **no**  N = 14 | **yes**  N = 10 |
|:------------------|:--------------:|:---------------:|
|treatment          |                |                 |
|ethyl_cellulose    |    1 (14%)     |     6 (86%)     |
|pure_ethanol       |    5 (100%)    |     0 (0%)      |
|pure_ethanol_16x   |    8 (67%)     |     4 (33%)     |

Este es un estudio experimental en el cual se aplicaron distintos tratamientos a hamsters con tumores orales.

Resultados son:

-El tratamiento por ethyl_cellulose tuvo la mayor proporción de éxito, con 5 de 6 casos mostrando regresión del tumor (83%)

-El tratamiento pure_ethanol no mostó ningún éxito (0%)

-El tratamiento pure_ethanol_16x mostró una tasa de éxito moderada 4 de 12 casos (33%)

Podemos llegar a la conclusión de que Ethyl_cellulose parece ser el tratamiento más efectivo.

Pure ethanol aún a concentraciones mayores, no demuestra resultados satisfactorios.

observación: quizás es mejor no ser tan taxativo al indicar que “Podemos llegar a la conclusión de que Ethyl_cellulose parece ser el tratamiento más efectivo”, sino más bien que pareciera que dicho tratamiento es el más efectivo

2) Indicadores Económicos y de Sostenibilidad para Sudáfrica.

Nombre del Conjunto de Datos

sa_gdp_elec

Descripción

Incluye datos anuales sobre pib, gni, emisiones de co2, costes de puesta en marcha.

Detalles

año: Año de recogida de los datos.

access_elec: Acceso a la electricidad en porcentaje de la población.

puesta en marcha: Coste de los procedimientos de creación de empresas en porcentaje de la GNI.

co2: Emisión de CO2 en kt (kilotoneladas).

gdp: PIB per cápita, PPA en dólares internacionales constantes de 2017.

gni: GNI per cápita, PPA en dólares internacionales constantes de 2017. GNI (gross national income) es la cantidad total de dinero que ganan los ciudadanos y las empresas de un país.

co2_kg_ppp: kg por PIB en dólares PPA de 2017.

Fuente

World Bank I

Carbon Dioxide Information Analysis Center, Environmental Sciences Division

Asignación

  1. ¿Cuántas observaciones tiene el conjunto de datos?

  2. Indique el tipo de cada una de ls variables.

  3. Realice un histograma para la variable co2 e indique cuántas barras recomienda aplicar para visualizar este gráfico.

  4. Explique si tiene sentido crear un histograma para la variable year

  5. Muestre dos gráficos de dispersión entre variables que pueden estar asociadas, el tipo de relación que presenten e intente identificar cuáles pueden ser las variables explicativas y de respuesta

  6. ¿Puede indentificar algunas variables que resulten independientes?. Justifique

  7. Identifique el tipo de estudio que se revisó en esta sección

sa_gdp_elec
A tibble: 16 × 7
year access_elec startup co2 gdp gni co2_kg_ppp
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
2003 78.8 9.4 353110 10646.83 10388.18 0.7098952
2004 80.9 9.1 379970 10997.01 10807.17 0.7306183
2005 80.8 8.6 377640 11434.92 11233.35 0.6897401
2006 80.7 6.9 379560 11924.07 11711.35 0.6564602
2007 82.0 7.1 396900 12402.05 12010.29 0.6515254
2008 81.9 6.0 426560 12628.20 12251.73 0.6785602
2009 82.6 5.9 404020 12262.14 11999.96 0.6527439
2010 82.9 6.0 425110 12452.34 12195.42 0.6665559
2011 83.6 0.3 409120 12666.71 12346.55 0.6210867
2012 85.3 0.3 426710 12743.94 12404.11 0.6337627
2013 85.2 0.3 436870 12852.78 12523.90 0.6331184
2014 86.0 0.3 447980 12884.48 12549.90 0.6374456
2015 85.3 0.3 424880 12840.04 12528.09 0.5974440
2016 84.2 0.2 425180 12702.92 12355.72 0.5954893
2017 84.4 0.2 435140 12701.35 12320.43 0.6009385
2018 84.7 0.2 433250 12627.93 12229.11 0.5936559

1- Este conjunto de datos tiene 16 observaciones

2-Los tipos de variables son

Year: Numérica discreta access_elec: Numerica continua puesta_en_marcha: Numerica continua co2: Numérica continua gdp: Numérica continua gni: Numérica continua co2_kg_ppp: Numérica continua

hist (sa_gdp_elec$co2, breaks= 6)

3.2- Tomando en cuenta la visibilidad de los datos mediante pruebas, es recomendable usar entre 5 y 7 barras para obtener resultados claros

4- No tiene sentido crear un historigrama para year ya que es una variable de tiempo, no una variable continua de medidas como emisiones o ingresos; Los datos de tiempo se representan mejor mediante otro tipo de gráfico.

observación: punto 3:dado que son pocas observaciones no estimo recomendable usar 7 barras, me parece que entre 4 y 5 va mejor la “cosa”. Punto 4: así fuese una variable numérica-discreta, sí tiene sentido crear un histograma

plot(x = sa_gdp_elec$gdp,
     y = sa_gdp_elec$co2)

5.1- Relación esperada: Positiva (a mayor PIB, pueden aumentar las emisiones)

-Variable explicativa: gdp (PIB per cápita)

-Variable respuesta: Co2 (emisiones)

plot(x = sa_gdp_elec$gni,
     y = sa_gdp_elec$puesta_en_marcha)
Warning message:
“Unknown or uninitialised column: `puesta_en_marcha`.”

5.2- Relación esperada: negrativa (a mayor GNI, menor coste relativo de iniciar empresas)

-Variable explicativa: Gni (GNI per capita)

-Variable respuesta: puesta en marcha

6- Si, la variable year podría considerarse independiente de otras como acces_elec o co2 en el corto plazo, aunque con tendencias a largo plazo podría tener correlación

otra posible variable independiente podría ser access_elec y puesta_en_marcha ya que no podrían tener relación directa inmediata, acceso a la electricidad no necesariamente cambia costos burocráticos de abrir empresas

justificación: Son fenómenos distintos: infraestructura eléctrica vs regulaciones económicas

7- Se trata de un estudio observacional con datos de series de tiempo. No hubo intervención en los datos ya que solo se observaron indicadores económicos y ambientales durante diferentes años. Se analizaron tendencias y asociaciones, no causas directas.

observaciones: 5.2- la Variable respuesta que indicas “puesta en marcha”, no existe en el conjunto de datos

3) Representación de Histogramas

A continuación se presenta el código para generar 3 histogramas donde cada uno corresponde a un conjunto de datos distinto. Para cada uno, realizar las siguientes actividades:

  1. Generar el gráfico y determinar si variando la cantidad de barras mediante el parametro breaks puede mejorar la representación.

  2. Identificar el conjunto de dato usado para generar los gráficos así como el nombre de la variable, especificando lo que representa y el tipo de variable.

  3. Identifique la modalidad de la distribución, así como posibles sesgos, según su selección de cantidad de barras

hist(london_murders$age, breaks = 15)

respuestas:

Conjunto de datos: london_murders

variable: age (edad), tipo de variable: Numérica continua

Distribución: Puede mostrar sesgo hacia la derecha (positivo) ya que pidrían haber mpas individuos jóvenes que mayores en la base de datos. El número de barras elegido es de 10 ya que resulta adecuada a razón de que permite observar la forma de la distribución sin sobecargar el gráfico

Observación: en este conjunto de datos la variable edad no es continua sino discreta ya que nunca asume un valor de tener 20.35 años. En cuando a la distribución, indicas que “pidrían haber mpas individuos jóvenes que mayores en la base de datos”. En caso de ser “podrían” la palabra, la verdad es que no corresponde, ya que sí aparecen en tal conjunto de datos más valores de muertes en personas jovenes hacia los 20 años que en los de 40 y 60 años

hist(london_murders$age, breaks = 10
)

hist(LAhomes$sqft)

respuestas:

Conjunto de datos: Lahomes Variable usada: sqft (superficie de hogar x pie cuadrado) Tipo de variable: Numérica continua Distribución: La distribución es asimetrica hacia la derecha (sesgo positivo) ya que algunas casas muy grandes pueden estidad la distribución

El nuímero de barras elegido es de 15 a 20; Con 15 barras se puede observar la forma general de los tamaños de las casas, con 20 barras se puede observar más detalle en la cantidad de casas pequeñas, medianas y grandes.

observación: no me convence lo que acá indicas, partiendo del hecho de que varias palabras no están bien escritas y dificulta aún más la interpretación del texto

hist(LAhomes$sqft, breaks = 15)

hist(LAhomes$sqft, breaks = 20)

hist(life_exp$income)

#life_exp
A tibble: 3142 × 4
state county expectancy income
<chr> <chr> <dbl> <dbl>
Alabama Autauga County 76.060 37773
Alabama Baldwin County 77.630 40121
Alabama Barbour County 74.675 31443
Alabama Bibb County 74.155 29075
Alabama Blount County 75.880 31663
Alabama Bullock County 71.790 25929
Alabama Butler County 73.730 33518
Alabama Calhoun County 73.300 33418
Alabama Chambers County 73.245 31282
Alabama Cherokee County 74.650 32645
Alabama Chilton County 73.880 31380
Alabama Choctaw County 75.050 31046
Alabama Clarke County 74.820 31877
Alabama Clay County 74.145 32965
Alabama Cleburne County 74.145 31209
Alabama Coffee County 76.205 38929
Alabama Colbert County 74.105 35831
Alabama Conecuh County 73.730 29643
Alabama Coosa County 73.880 28651
Alabama Covington County 74.835 31581
Alabama Crenshaw County 73.280 34228
Alabama Cullman County 75.035 35923
Alabama Dale County 75.715 34107
Alabama Dallas County 72.005 31595
Alabama Dekalb County 74.730 29621
Alabama Elmore County 75.650 37561
Alabama Escambia County 74.390 30342
Alabama Etowah County 72.830 34086
Alabama Fayette County 73.130 30426
Alabama Franklin County 72.805 31614
Wisconsin Washburn County 78.385 43727
Wisconsin Washington County 80.475 51110
Wisconsin Waukesha County 80.915 63995
Wisconsin Waupaca County 77.550 42216
Wisconsin Waushara County 79.000 38620
Wisconsin Winnebago County 79.385 42399
Wisconsin Wood County 79.820 41883
Wyoming Albany County 79.700 39052
Wyoming Big Horn County 77.585 36964
Wyoming Campbell County 76.660 54653
Wyoming Carbon County 77.835 49787
Wyoming Converse County 79.255 55012
Wyoming Crook County 76.660 44121
Wyoming Fremont County 75.575 41019
Wyoming Goshen County 78.800 42346
Wyoming Hot Springs County 79.700 51418
Wyoming Johnson County 78.240 44439
Wyoming Laramie County 77.590 49796
Wyoming Lincoln County 80.025 39683
Wyoming Natrona County 77.000 68692
Wyoming Niobrara County 78.800 46341
Wyoming Park County 79.700 48692
Wyoming Platte County 79.255 45275
Wyoming Sheridan County 78.240 55089
Wyoming Sublette County 80.025 48881
Wyoming Sweetwater County 78.405 48681
Wyoming Teton County 82.110 194861
Wyoming Uinta County 77.350 41005
Wyoming Washakie County 77.585 43460
Wyoming Weston County 76.660 44997

respuestas:

Conjunto de datos: life_exp Variable usada: Income (ingreso x persona o país) Tipo de variable: Numérica continua

Distribución: El ingreso tiene una distribución asimétrica hacia la derecha (sesgo positivo).

Es común ya qu existen muchas personas/países con ingresos bajos y pocos con ingresos muy altos (lo que estira el gráfico a la derecha)

Con 15 barras se nota el sesgo general y una gran concentración de ingresos bajos, con 30 barras se ve aún más claramente los niveles bajos y algunos niveles medios más diferenciados

Observación: en ese conjunto de datos no se detallan países sino estados y condados de EEUU

hist(life_exp$income, breaks=15)

hist(life_exp$income, breaks=30)

hist(lego_population$pieces, breaks=5)

respuestas:

Conjunto de datos: lego_population

Variable usada: pieces (numero de piezas en los sets de Lego) Tipo de variable: Numérica discreta

Distribución: Sesgo a la derecha (positivo); Hay muchos sets pequeños (con pocas piezas) y pocos sets grandes (con miles de piezas).

Con 15 barras se nota la acumulación de sets pequeños, con 25 barras se nota mejor aún la diferencia entre sets muy pequeños, grandes y medianos

Observación: no veo mayor cambio en la representación, es decir, en la forma que generan las barras, así como en la “historia que nos representan” al pasar de 15 a 25

hist(lego_population$pieces, breaks=15)

hist(lego_population$pieces, breaks=25)