Indique su nombre y cédula

Nombre: Yonahan Fuentes

Cédula: 6692514

Estadística I, Tarea 01

A continuación hay una serie de ejercicios que debe completar. Algunos de los códigos ya están vaciados para que se facilite realizar estar tarea.

Se recomienda para cada uno de los conjuntos de datos a trabajar, revise los datos que contienen, así como también usar las funciones de ayuda ? obtener información sobre los mismos y de esta manera lograr facilitar la comprensión sobre los datos a trabajar.

Recomendaciones

Usar funciones apropiadas para obtener los valores solicitados. Revise los ejercicios de codificación anteriormente presentados en el curso, las láminas, así como el libro Open Intro Stats.

Si realiza algún cálculo manualmente deberá añadir las celdas de código con tales cálculo, tantas como sea necesario.

En cada una de las celdas de código, añada comentarios con el símbolo numeral (#) al inicio de la celda para indicar los procedimientos realizados.

Recuerde cuidar la redacción y ortografía en la información que presente.

En caso de tener alguna duda sobre los procedimientos a seguir, usar el grupo de whatsapp.

Se recuerda que la terea debe ser realizada de forma individual.

# instalar y cargar paquetes con los que se trabajará. No modificar esta celda
install.packages ('openintro')
install.packages ('gtsummary')
library ('openintro')
library ('gtsummary')
library ('dplyr')
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘airports’, ‘cherryblossom’, ‘usdata’


Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘V8’, ‘litedown’, ‘reactR’, ‘bigD’, ‘bitops’, ‘juicyjuice’, ‘markdown’, ‘reactable’, ‘cards’, ‘gt’


Loading required package: airports

Loading required package: cherryblossom

Loading required package: usdata


Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union

1) Tratamiento de tumores con etanol

Nombre del conjunto de datos

ethanol

Descripción

Experimento en el que se probaron 3 tratamientos diferentes de etanol para el tratamiento de tumores de cáncer oral en hámsters.

La columna “regress” especifica si el tratamiento tuvo efecto con la categoría “yes” o “no” en caso de no tener algún efecto sobre el tumor.

La columna “treatment” indica el tratamiento que recibió el hámster.

Detalles

Los tratamientos de etil_celulosa y etanol_puro consistían en aproximadamente una cuarta parte del volumen de los tumores, mientras que el tratamiento de etanol_puro_16x era 16 veces mayor, es decir, unas 4 veces el tamaño de los tumores.

Fuente

Morhard R, et al. 2017. Desarrollo de la ablación mejorada con etanol como alternativa a la cirugía en el tratamiento de tumores sólidos superficiales.

Asignación

  1. ¿Cómo se presentan los datos?
  2. ¿Cuántas observaciones tiene el conjunto de datos?
  3. ¿Cuántas variables tiene el conjunto de datos y cómo se llaman?
  4. Crear una tabla de contigencia que represente los totales por tratamiento. Calcular la frecuencia relativa de cada uno de estos experimentos y su éxito (puede usar los códigos revisados o hacerlo manualmente).
  5. Realice una explicación escrita sobre los resultados obtenidos (tipo de estudio, siginficado de los resultados, generalizable, etc.). Puede llegar a alguna conclusión con los datos presentados? Sea lo más explícito posible.

#Respuestas 1) Los datos se presentan de forma categórica.
2) El conjunto de datos tiene 24 observaciones.
3) Tiene tres variables denominadas: pure_ethanol_16x, pure_ethanol, ethyl_cellulose.
5) Tipo de estudio:
Analítico.
Significado de los resultados:
frecuencia del tipo de ethanol usado para el tratamiento usado para tratamiento y su efectividad.
La aplicación de ethanol obtuvo bajo éxito en el tratamiento

Observaciones:

respuesta 1: se presentan tabularmente en dos columnas, cada una con una variable

respuesta 3: tiene dos variables donde una es el treatment y la otra es regress

respuesta 5: según el contenido de las clases, este es un estudio de tipo “experimento” o “experimental”.

Con respecto al éxito del tratamiento, se aprecia que el “ethyl_cellulose” resulta ser un tratamiento con mayor “éxito”

ethanol
A tibble: 24 × 2
treatment regress
<fct> <fct>
pure_ethanol_16x yes
pure_ethanol_16x yes
pure_ethanol_16x yes
pure_ethanol_16x yes
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol_16x no
pure_ethanol no
pure_ethanol no
pure_ethanol no
pure_ethanol no
pure_ethanol no
ethyl_cellulose yes
ethyl_cellulose yes
ethyl_cellulose yes
ethyl_cellulose yes
ethyl_cellulose yes
ethyl_cellulose yes
ethyl_cellulose no
# se realiza la tabla de contigencia usando la columna treatment.
table(ethanol$treatment)

 ethyl_cellulose     pure_ethanol pure_ethanol_16x 
               7                5               12 
# usando la tabla de contigencia y sabiendo que sus valores son la Frecuencia absoluta (fi) codificamos:

# Asignando la frecuencia absoluta f_i a la tabla de contingencia:
f_i <- table(ethanol$treatment)
f_i

 ethyl_cellulose     pure_ethanol pure_ethanol_16x 
               7                5               12 
# Asignando la frecuencia relativa h_i el cálculo de la misma:
h_i <- f_i / length(ethanol$treatment)
# Mostramos los resultados de la frecuencia relativa h_i:
h_i

 ethyl_cellulose     pure_ethanol pure_ethanol_16x 
       0.2916667        0.2083333        0.5000000 
# Verificamos que el total de frecuencia relativa de como resultado 1
sum(h_i)
1
# O 100%
sum(h_i)*100
100

Observación: con el siguiente código podías obtener la tabla de la cual ibas a extraer los valores solicitados

gtsummary::tbl_summary(ethanol,
                       include = 'treatment',
                       by='regress',
                       percent='row')%>%
                          as_kable()


|**Characteristic** | **no**  N = 14 | **yes**  N = 10 |
|:------------------|:--------------:|:---------------:|
|treatment          |                |                 |
|ethyl_cellulose    |    1 (14%)     |     6 (86%)     |
|pure_ethanol       |    5 (100%)    |     0 (0%)      |
|pure_ethanol_16x   |    8 (67%)     |     4 (33%)     |

2) Indicadores Económicos y de Sostenibilidad para Sudáfrica.

Nombre del Conjunto de Datos

sa_gdp_elec

Descripción

Incluye datos anuales sobre pib, gni, emisiones de co2, costes de puesta en marcha.

Detalles

año: Año de recogida de los datos.

access_elec: Acceso a la electricidad en porcentaje de la población.

puesta en marcha: Coste de los procedimientos de creación de empresas en porcentaje de la GNI.

co2: Emisión de CO2 en kt (kilotoneladas).

gdp: PIB per cápita, PPA en dólares internacionales constantes de 2017.

gni: GNI per cápita, PPA en dólares internacionales constantes de 2017. GNI (gross national income) es la cantidad total de dinero que ganan los ciudadanos y las empresas de un país.

co2_kg_ppp: kg por PIB en dólares PPA de 2017.

Fuente

World Bank I

Carbon Dioxide Information Analysis Center, Environmental Sciences Division

Asignación

  1. ¿Cuántas observaciones tiene el conjunto de datos?

  2. Indique el tipo de cada una de las variables.

  3. Realice un histograma para la variable co2 e indique cuántas barras recomienda aplicar para visualizar este gráfico.

  4. Explique si tiene sentido crear un histograma para la variable year

  5. Muestre dos gráficos de dispersión entre variables que pueden estar asociadas, el tipo de relación que presenten e intente identificar cuáles pueden ser las variables explicativas y de respuesta

  6. ¿Puede indentificar algunas variables que resulten independientes?. Justifique

  7. Identifique el tipo de estudio que se revisó en esta sección

Respuestas

  1. El conjunto de datos tiene 16 observaciones.
  2. El tipo de variable es numérica continua.

Observaciones:

respuesta 2: esto había que indicarlo para cada una de las 7 variables que conforman el conjunto de datos

sa_gdp_elec
A tibble: 16 × 7
year access_elec startup co2 gdp gni co2_kg_ppp
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
2003 78.8 9.4 353110 10646.83 10388.18 0.7098952
2004 80.9 9.1 379970 10997.01 10807.17 0.7306183
2005 80.8 8.6 377640 11434.92 11233.35 0.6897401
2006 80.7 6.9 379560 11924.07 11711.35 0.6564602
2007 82.0 7.1 396900 12402.05 12010.29 0.6515254
2008 81.9 6.0 426560 12628.20 12251.73 0.6785602
2009 82.6 5.9 404020 12262.14 11999.96 0.6527439
2010 82.9 6.0 425110 12452.34 12195.42 0.6665559
2011 83.6 0.3 409120 12666.71 12346.55 0.6210867
2012 85.3 0.3 426710 12743.94 12404.11 0.6337627
2013 85.2 0.3 436870 12852.78 12523.90 0.6331184
2014 86.0 0.3 447980 12884.48 12549.90 0.6374456
2015 85.3 0.3 424880 12840.04 12528.09 0.5974440
2016 84.2 0.2 425180 12702.92 12355.72 0.5954893
2017 84.4 0.2 435140 12701.35 12320.43 0.6009385
2018 84.7 0.2 433250 12627.93 12229.11 0.5936559
hist(sa_gdp_elec$co2, breaks = 6)    # 3.a) Histograma para la columna co2. Se recomienda usar 6 barras debido a que a mayor cantidad de barras la historia mostraba segmentos vacíos por la características de las observaciones.

  1. No tiene sentido ya que, solo mostraría el la cantidad en las distintas observaciones
    de los años del conjunto; y no nos proporcionaría información relevante.

3) Representación de Histogramas

A continuación se presenta el código para generar 3 histogramas donde cada uno corresponde a un conjunto de datos distinto. Para cada uno, realizar las siguientes actividades:

  1. Generar el gráfico y determinar si variando la cantidad de barras mediante el parametro breaks puede mejorar la representación.

  2. Identificar el conjunto de dato usado para generar los gráficos así como el nombre de la variable, especificando lo que representa y el tipo de variable.

  3. Identifique la modalidad de la distribución, así como posibles sesgos, según su selección de cantidad de barras

hist(london_murders$age, breaks = 15)

respuestas:

usar tantas celdas de código y texto como sea necesario

hist(london_murders$age, breaks = 6)

Con menos barras se puede mejorar la información. En la que se observa que en el conjunto de datos homicidios en Londres, las edades más sujetas a estos hechos fueron entre veinte (20) y cuarenta (40) años. siendo esta distribución unimodal, con un sesgo a la izquierda.

hist(LAhomes$sqft)

respuestas:

usar tantas celdas de código y texto como sea necesario

hist(LAhomes$sqft, breaks = 20)

En este gráfico, al aumentar la cantidad de barras, en el conjunto de datos hogares en los Ángeles; se detalla más la cantidad de pies cuadrados en dichos hogares, con distribución unimodal, con sesgo a la izquierda.

hist(life_exp$income)

respuestas:

usar tantas celdas de código y texto como sea necesario

hist(life_exp$income, breaks = 20)

hist(life_exp$income, breaks = 10)

hist(life_exp$income, breaks = 8)

hist(life_exp$income, breaks = 30)

En este gráfico el aumentar o disminuir la cantidad de barras no altera la historia del conjunto de datos, costo de la vida, en la variable ingreso, con distribución unimodal y sesgo a la izquierda.

hist(lego_population$pieces, breaks=5)

respuestas:

usar tantas celdas de código y texto como sea necesario

hist(lego_population$pieces, breaks=8)

hist(lego_population$pieces, breaks=15)

hist(lego_population$pieces, breaks=20)

En el conjunto de datos de población de lego, el aumentar las barras solo hace más evidente que en la variable piezas (de lego), existe una distribución unimodal, con sesgo a la iquierda.

Observación: en general era recomendable hacer una anális más detallado sobre la variable representada, es decir, qué significa la forma que tiene el histograma. En el último caso, por ejemplo, que los sets de legos más frecuentes o comunes de encontrar, son aquellos que tienen menor cantidad de piezas.

Adicionalmente, hubiese sido muy bueno que especificaras la cantidad de breaks que elegías. Sino me expliqué bien en las instrucciones, haz caso omiso