Indique su nombre y cédula

Nombre: María Cuervo

Cédula: 27988880

Estadística I, Tarea 01

A continuación hay una serie de ejercicios que debe completar. Algunos de los códigos ya están vaciados para que se facilite realizar estar tarea.

Se recomienda para cada uno de los conjuntos de datos a trabajar, revise los datos que contienen, así como también usar las funciones de ayuda ? obtener información sobre los mismos y de esta manera lograr facilitar la comprensión sobre los datos a trabajar.

Recomendaciones

Usar funciones apropiadas para obtener los valores solicitados. Revise los ejercicios de codificación anteriormente presentados en el curso, las láminas, así como el libro Open Intro Stats.

Si realiza algún cálculo manualmente deberá añadir las celdas de código con tales cálculo, tantas como sea necesario.

En cada una de las celdas de código, añada comentarios con el símbolo numeral (#) al inicio de la celda para indicar los procedimientos realizados.

Recuerde cuidar la redacción y ortografía en la información que presente.

En caso de tener alguna duda sobre los procedimientos a seguir, usar el grupo de whatsapp.

Se recuerda que la terea debe ser realizada de forma individual.

# instalar y cargar paquetes con los que se trabajará. No modificar esta celda
install.packages ('openintro')
install.packages ('gtsummary')
library ('openintro')
library ('gtsummary')
library ('dplyr')

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘airports’, ‘cherryblossom’, ‘usdata’


Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘V8’, ‘litedown’, ‘reactR’, ‘bigD’, ‘bitops’, ‘juicyjuice’, ‘markdown’, ‘reactable’, ‘cards’, ‘gt’


Loading required package: airports

Loading required package: cherryblossom

Loading required package: usdata


Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union

1) Tratamiento de tumores con etanol

Nombre del conjunto de datos

ethanol

Descripción

Experimento en el que se probaron 3 tratamientos diferentes de etanol para el tratamiento de tumores de cáncer oral en hámsters.

La columna “regress” especifica si el tratamiento tuvo efecto con la categoría “yes” o “no” en caso de no tener algún efecto sobre el tumor.

La columna “treatment” indica el tratamiento que recibió el hámster.

Detalles

Los tratamientos de etil_celulosa y etanol_puro consistían en aproximadamente una cuarta parte del volumen de los tumores, mientras que el tratamiento de etanol_puro_16x era 16 veces mayor, es decir, unas 4 veces el tamaño de los tumores.

Fuente

Morhard R, et al. 2017. Desarrollo de la ablación mejorada con etanol como alternativa a la cirugía en el tratamiento de tumores sólidos superficiales.

Asignación

¿Cómo se presentan los datos?

Es un experimento con 3 tipos diferentes de tratamiento para combatir tumores de cancer en hamsters.

¿Cuántas observaciones tiene el conjunto de datos?

El conjunto de datos posee 24 observaciones que representan a cada hamster.

¿Cuántas variables tiene el conjunto de datos y cómo se llaman?

Tiene dos variables, Regress (que nos indica si fue efectivo el tratamiento con “si” y “no”) y treatment (que indica el tipo de tratamiento suministrado).

Crear una tabla de contigencia que represente los totales por tratamiento. Calcular la frecuencia relativa de cada uno de estos experimentos y su éxito (puede usar los códigos revisados o hacerlo manualmente).
Realice una explicación escrita sobre los resultados obtenidos (tipo de estudio, siginficado de los resultados, generalizable, etc.). Puede llegar a alguna conclusión con los datos presentados? Sea lo más explícito posible.

Observaciones:

Respuesta 1: la pregunta es cómo se presentan los datos: en dos variables, cada una representada en una columna

?ethanol

ethanol

A tibble: 24 × 2
treatment	regress
<fct>	<fct>
pure_ethanol_16x	yes
pure_ethanol_16x	yes
pure_ethanol_16x	yes
pure_ethanol_16x	yes
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol	no
pure_ethanol	no
pure_ethanol	no
pure_ethanol	no
pure_ethanol	no
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	no

Para generar las frecuencias me voy a ayudar con esta función que vimos en el laboratorio número 1

gtsummary::tbl_summary(ethanol,
                       include = 'treatment',
                       by='regress',
                       percent='row')%>%
                          as_kable()



|**Characteristic** | **no**  N = 14 | **yes**  N = 10 |
|:------------------|:--------------:|:---------------:|
|treatment          |                |                 |
|ethyl_cellulose    |    1 (14%)     |     6 (86%)     |
|pure_ethanol       |    5 (100%)    |     0 (0%)      |
|pure_ethanol_16x   |    8 (67%)     |     4 (33%)     |

7/24 #frecuencia relativa de "ethyl_cellulose"

0.291666666666667

5/24 #frecuencia relativa de "pure_ethanol"

0.208333333333333

12/24 #frecuencia relativa de "pure_ethanol_16x"

0.5

table(ethanol)

                  regress
treatment          no yes
  ethyl_cellulose   1   6
  pure_ethanol      5   0
  pure_ethanol_16x  8   4

6/(6+1) # % de exito "ethyl_cellulose"

0.857142857142857

0/(5+0) # % de exito "pure_ethanol"

4/(8+4) # % de exito "pure_ethanol_16x"

0.333333333333333

observación: los valores calculados coinciden con los que muestra la tabla

2) Indicadores Económicos y de Sostenibilidad para Sudáfrica.

Nombre del Conjunto de Datos

sa_gdp_elec

Descripción

Incluye datos anuales sobre pib, gni, emisiones de co2, costes de puesta en marcha.

Detalles

año: Año de recogida de los datos.

access_elec: Acceso a la electricidad en porcentaje de la población.

puesta en marcha: Coste de los procedimientos de creación de empresas en porcentaje de la GNI.

co2: Emisión de CO2 en kt (kilotoneladas).

gdp: PIB per cápita, PPA en dólares internacionales constantes de 2017.

gni: GNI per cápita, PPA en dólares internacionales constantes de 2017. GNI (gross national income) es la cantidad total de dinero que ganan los ciudadanos y las empresas de un país.

co2_kg_ppp: kg por PIB en dólares PPA de 2017.

Fuente

World Bank I

Carbon Dioxide Information Analysis Center, Environmental Sciences Division

Asignación

¿Cuántas observaciones tiene el conjunto de datos?

El conjunto de datos tine 16 observaciones, una por cada año.

Indique el tipo de cada una de las variables.

1 Year: Numérica, discreta.
2 Acces_elec: Numérica, continua.
3 Startup: Numérica, continua.
4 co2: Numérica, continua.
5 GDP: Numérica, continua.
6 GNI: Numérica, continua.
7 co2_kg_ppp: Numérica, continua.

Realice un histograma para la variable co2 e indique cuántas barras recomienda aplicar para visualizar este gráfico.

Creo que para visualizar sin sesgos este grafico debe tener 16 barras, de manera que sea lo mas exacto con las cantidades respecto a las observaciones.

Explique si tiene sentido crear un histograma para la variable year

No tiene sentido ya que eso solo nos mostraria la frecuencia con la que aparece cada año y esa informacion la tenemos desde un principio.

Muestre dos gráficos de dispersión entre variables que pueden estar asociadas, el tipo de relación que presenten e intente identificar cuáles pueden ser las variables explicativas y de respuesta

GRAFICO 1: Relacion entre el % de la polacion con acceso a electricidad y la cantidad en kilotoneladas de emision de co2, estan asociadas de forma lineal y positiva ya que a mayor acceso a la electricidad (x) mayor emisio de co2 (y).
GRAFICO 2: Relacion entre la cantidad total de dinero que ganan los ciudadanos y las empresas de un país y el Coste de los procedimientos de creación de empresas, estan asociadas de forma exponencial negativa ya que a mayor cantidad de dinero per capita (x) menor coste de procedimientos de creación (y).

¿Puede indentificar algunas variables que resulten independientes?. Justifique

Año, acces_elec, co2 y gdp ya que no dependen de otras variables para dar resultados, son datos aislados.

Identifique el tipo de estudio que se revisó en esta sección

Es un estudio observacional retrospectivo, se observan datos de tiempos pasados sin interferir en su origen.

Observación Respuesta 3: para nada, la idea no es ser lo “más preciso”. La estadística se basa en la abstracción y poder comprender a grandes razgos, evitando de alguna manera el detalle. Si en algún momento tiene el tiempo disponible, le recomiendo que lea el capítulo 1, 2 y proximamente 3 del libro “qué es, y qué no es, la estadística” de Walter Sosa. Ahí se explica mejor, porque no debe representarse con 16 barras el histograma en cuestión

Observación 5- gráfico 2: arrancó bien la explicación pero después se fue a otro lado que me parece que no tiene nada que ver con los datos representados. Si estoy equivocado, luego me explica a ver en qué parte fue que me perdí.

Observación Respuesta 6: no me convence eso de “datos aislados”, incluso dos de las variables que menciona las voy a representar en el siguiente gráfico donde aparentemente si existe una relación entre ellas

plot(sa_gdp_elec$co2, sa_gdp_elec$gdp)

?sa_gdp_elec

sa_gdp_elec

A tibble: 16 × 7
year	access_elec	startup	co2	gdp	gni	co2_kg_ppp
<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>
2003	78.8	9.4	353110	10646.83	10388.18	0.7098952
2004	80.9	9.1	379970	10997.01	10807.17	0.7306183
2005	80.8	8.6	377640	11434.92	11233.35	0.6897401
2006	80.7	6.9	379560	11924.07	11711.35	0.6564602
2007	82.0	7.1	396900	12402.05	12010.29	0.6515254
2008	81.9	6.0	426560	12628.20	12251.73	0.6785602
2009	82.6	5.9	404020	12262.14	11999.96	0.6527439
2010	82.9	6.0	425110	12452.34	12195.42	0.6665559
2011	83.6	0.3	409120	12666.71	12346.55	0.6210867
2012	85.3	0.3	426710	12743.94	12404.11	0.6337627
2013	85.2	0.3	436870	12852.78	12523.90	0.6331184
2014	86.0	0.3	447980	12884.48	12549.90	0.6374456
2015	85.3	0.3	424880	12840.04	12528.09	0.5974440
2016	84.2	0.2	425180	12702.92	12355.72	0.5954893
2017	84.4	0.2	435140	12701.35	12320.43	0.6009385
2018	84.7	0.2	433250	12627.93	12229.11	0.5936559

hist (sa_gdp_elec$co2,  breaks= 16)

hist (sa_gdp_elec$year, breaks = 16)

plot(x = sa_gdp_elec$access_elec,
     y = sa_gdp_elec$co2)

plot(x = sa_gdp_elec$gni,
     y = sa_gdp_elec$startup)

3) Representación de Histogramas

A continuación se presenta el código para generar 3 histogramas donde cada uno corresponde a un conjunto de datos distinto. Para cada uno, realizar las siguientes actividades:

Generar el gráfico y determinar si variando la cantidad de barras mediante el parametro breaks puede mejorar la representación.
Identificar el conjunto de dato usado para generar los gráficos así como el nombre de la variable, especificando lo que representa y el tipo de variable.
Identifique la modalidad de la distribución, así como posibles sesgos, según su selección de cantidad de barras

hist(london_murders$age, breaks = 15)

#Mientras mas cerca del numero total comprendidas en la variable X, mas clara la informacion a analizar.

Observación: aplica lo mismo que se indicó anteriormente

hist(london_murders$age, breaks = 50)

?london_murders

london_murders

Nombre de la variable: Age
Representa: Edades de las victimas de asesinatos
Tipo de variable: Numerica, discreta.
Modalidad de distribucion: Bimodal.
Sesgos: hacia la izquierda.

Observación: No, el sesgo anterior es hacia donde se ubica la “larga cola” o el “long tail” que en este caso es a la derecha. Igualmente hizo falta en la calidad del análisis hecho sobre el comportamiento de la variable, como por ejemplo era que los asesinatos son en mayor proporción o frecuencia en aquellas personas con edades superiores a los 18 o 20 años, y que luego va decayendo la frecuencia gradualmente, por ejemplo.