Indique su nombre y cédula

Nombre: Kleyner Tirrito

Cédula: 28136114

Estadística I, Tarea 01

A continuación hay una serie de ejercicios que debe completar. Algunos de los códigos ya están vaciados para que se facilite realizar estar tarea.

Se recomienda para cada uno de los conjuntos de datos a trabajar, revise los datos que contienen, así como también usar las funciones de ayuda ? obtener información sobre los mismos y de esta manera lograr facilitar la comprensión sobre los datos a trabajar.

Recomendaciones

Usar funciones apropiadas para obtener los valores solicitados. Revise los ejercicios de codificación anteriormente presentados en el curso, las láminas, así como el libro Open Intro Stats.

Si realiza algún cálculo manualmente deberá añadir las celdas de código con tales cálculo, tantas como sea necesario.

En cada una de las celdas de código, añada comentarios con el símbolo numeral (#) al inicio de la celda para indicar los procedimientos realizados.

Recuerde cuidar la redacción y ortografía en la información que presente.

En caso de tener alguna duda sobre los procedimientos a seguir, usar el grupo de whatsapp.

Se recuerda que la terea debe ser realizada de forma individual.

# instalar y cargar paquetes con los que se trabajará. No modificar esta celda
install.packages ('openintro')
install.packages ('gtsummary')
library ('openintro')
library ('gtsummary')
library ('dplyr')

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘airports’, ‘cherryblossom’, ‘usdata’


Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘V8’, ‘litedown’, ‘reactR’, ‘bigD’, ‘bitops’, ‘juicyjuice’, ‘markdown’, ‘reactable’, ‘cards’, ‘gt’


Loading required package: airports

Loading required package: cherryblossom

Loading required package: usdata


Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union

1) Tratamiento de tumores con etanol

Nombre del conjunto de datos

ethanol

Descripción

Experimento en el que se probaron 3 tratamientos diferentes de etanol para el tratamiento de tumores de cáncer oral en hámsters.

La columna “regress” especifica si el tratamiento tuvo efecto con la categoría “yes” o “no” en caso de no tener algún efecto sobre el tumor.

La columna “treatment” indica el tratamiento que recibió el hámster.

Detalles

Los tratamientos de etil_celulosa y etanol_puro consistían en aproximadamente una cuarta parte del volumen de los tumores, mientras que el tratamiento de etanol_puro_16x era 16 veces mayor, es decir, unas 4 veces el tamaño de los tumores.

Fuente

Morhard R, et al. 2017. Desarrollo de la ablación mejorada con etanol como alternativa a la cirugía en el tratamiento de tumores sólidos superficiales.

Asignación

¿Cómo se presentan los datos?
¿Cuántas observaciones tiene el conjunto de datos?
¿Cuántas variables tiene el conjunto de datos y cómo se llaman?
Crear una tabla de contigencia que represente los totales por tratamiento. Calcular la frecuencia relativa de cada uno de estos experimentos y su éxito (puede usar los códigos revisados o hacerlo manualmente).
Realice una explicación escrita sobre los resultados obtenidos (tipo de estudio, siginficado de los resultados, generalizable, etc.). Puede llegar a alguna conclusión con los datos presentados? Sea lo más explícito posible.

ethanol

A tibble: 24 × 2
treatment	regress
<fct>	<fct>
pure_ethanol_16x	yes
pure_ethanol_16x	yes
pure_ethanol_16x	yes
pure_ethanol_16x	yes
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol	no
pure_ethanol	no
pure_ethanol	no
pure_ethanol	no
pure_ethanol	no
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	no

1- Los datos se presentan en columnas las cuales son variables cuya forma de estas son categóricas nominales; Mientras que las observaciones se presentan en forma de fila, la forma de estas filas también son consideradas categóricas nominales.

2- El conjunto de datos tiene 24 observaciones en total

3- El conjunto de datos tiene 2 variables las cuales se componen de ‘treatment’ y ‘regress’

observación: en la 1 las variables las defines por columna, no por fila, así que no debes indicar “la forma de estas filas también son consideradas categóricas nominales”.

table(ethanol$treatment, ethanol$regress)

                  
                   no yes
  ethyl_cellulose   1   6
  pure_ethanol      5   0
  pure_ethanol_16x  8   4

prop.table(table(ethanol$treatment, ethanol$regress))

                  
                           no        yes
  ethyl_cellulose  0.04166667 0.25000000
  pure_ethanol     0.20833333 0.00000000
  pure_ethanol_16x 0.33333333 0.16666667

observación: la tabla anterior no se corresponde con lo solicitado ni con los métodos revisados en clase. Se podía hacer como se muestra en la siguiente celda, que fue una de las funciones que se mostró en el laboratorio 1

gtsummary::tbl_summary(ethanol,
                       include = 'treatment',
                       by='regress',
                       percent='row')%>%
                          as_kable()



|**Characteristic** | **no**  N = 14 | **yes**  N = 10 |
|:------------------|:--------------:|:---------------:|
|treatment          |                |                 |
|ethyl_cellulose    |    1 (14%)     |     6 (86%)     |
|pure_ethanol       |    5 (100%)    |     0 (0%)      |
|pure_ethanol_16x   |    8 (67%)     |     4 (33%)     |

Este es un estudio experimental en el cual se aplicaron distintos tratamientos a hamsters con tumores orales.

Resultados son:

-El tratamiento por ethyl_cellulose tuvo la mayor proporción de éxito, con 5 de 6 casos mostrando regresión del tumor (83%)

-El tratamiento pure_ethanol no mostó ningún éxito (0%)

-El tratamiento pure_ethanol_16x mostró una tasa de éxito moderada 4 de 12 casos (33%)

Podemos llegar a la conclusión de que Ethyl_cellulose parece ser el tratamiento más efectivo.

Pure ethanol aún a concentraciones mayores, no demuestra resultados satisfactorios.

observación: quizás es mejor no ser tan taxativo al indicar que “Podemos llegar a la conclusión de que Ethyl_cellulose parece ser el tratamiento más efectivo”, sino más bien que pareciera que dicho tratamiento es el más efectivo

2) Indicadores Económicos y de Sostenibilidad para Sudáfrica.

Nombre del Conjunto de Datos

sa_gdp_elec

Descripción

Incluye datos anuales sobre pib, gni, emisiones de co2, costes de puesta en marcha.

Detalles

año: Año de recogida de los datos.

access_elec: Acceso a la electricidad en porcentaje de la población.

puesta en marcha: Coste de los procedimientos de creación de empresas en porcentaje de la GNI.

co2: Emisión de CO2 en kt (kilotoneladas).

gdp: PIB per cápita, PPA en dólares internacionales constantes de 2017.

gni: GNI per cápita, PPA en dólares internacionales constantes de 2017. GNI (gross national income) es la cantidad total de dinero que ganan los ciudadanos y las empresas de un país.

co2_kg_ppp: kg por PIB en dólares PPA de 2017.

Fuente

World Bank I

Carbon Dioxide Information Analysis Center, Environmental Sciences Division

Asignación

¿Cuántas observaciones tiene el conjunto de datos?
Indique el tipo de cada una de ls variables.
Realice un histograma para la variable co2 e indique cuántas barras recomienda aplicar para visualizar este gráfico.
Explique si tiene sentido crear un histograma para la variable year
Muestre dos gráficos de dispersión entre variables que pueden estar asociadas, el tipo de relación que presenten e intente identificar cuáles pueden ser las variables explicativas y de respuesta
¿Puede indentificar algunas variables que resulten independientes?. Justifique
Identifique el tipo de estudio que se revisó en esta sección

sa_gdp_elec

A tibble: 16 × 7
year	access_elec	startup	co2	gdp	gni	co2_kg_ppp
<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>
2003	78.8	9.4	353110	10646.83	10388.18	0.7098952
2004	80.9	9.1	379970	10997.01	10807.17	0.7306183
2005	80.8	8.6	377640	11434.92	11233.35	0.6897401
2006	80.7	6.9	379560	11924.07	11711.35	0.6564602
2007	82.0	7.1	396900	12402.05	12010.29	0.6515254
2008	81.9	6.0	426560	12628.20	12251.73	0.6785602
2009	82.6	5.9	404020	12262.14	11999.96	0.6527439
2010	82.9	6.0	425110	12452.34	12195.42	0.6665559
2011	83.6	0.3	409120	12666.71	12346.55	0.6210867
2012	85.3	0.3	426710	12743.94	12404.11	0.6337627
2013	85.2	0.3	436870	12852.78	12523.90	0.6331184
2014	86.0	0.3	447980	12884.48	12549.90	0.6374456
2015	85.3	0.3	424880	12840.04	12528.09	0.5974440
2016	84.2	0.2	425180	12702.92	12355.72	0.5954893
2017	84.4	0.2	435140	12701.35	12320.43	0.6009385
2018	84.7	0.2	433250	12627.93	12229.11	0.5936559

1- Este conjunto de datos tiene 16 observaciones

2-Los tipos de variables son

Year: Numérica discreta access_elec: Numerica continua puesta_en_marcha: Numerica continua co2: Numérica continua gdp: Numérica continua gni: Numérica continua co2_kg_ppp: Numérica continua

hist (sa_gdp_elec$co2, breaks= 6)

3.2- Tomando en cuenta la visibilidad de los datos mediante pruebas, es recomendable usar entre 5 y 7 barras para obtener resultados claros

4- No tiene sentido crear un historigrama para year ya que es una variable de tiempo, no una variable continua de medidas como emisiones o ingresos; Los datos de tiempo se representan mejor mediante otro tipo de gráfico.

observación: punto 3:dado que son pocas observaciones no estimo recomendable usar 7 barras, me parece que entre 4 y 5 va mejor la “cosa”. Punto 4: así fuese una variable numérica-discreta, sí tiene sentido crear un histograma

plot(x = sa_gdp_elec$gdp,
     y = sa_gdp_elec$co2)

5.1- Relación esperada: Positiva (a mayor PIB, pueden aumentar las emisiones)

-Variable explicativa: gdp (PIB per cápita)

-Variable respuesta: Co2 (emisiones)

plot(x = sa_gdp_elec$gni,
     y = sa_gdp_elec$puesta_en_marcha)

Warning message:
“Unknown or uninitialised column: `puesta_en_marcha`.”

5.2- Relación esperada: negrativa (a mayor GNI, menor coste relativo de iniciar empresas)

-Variable explicativa: Gni (GNI per capita)

-Variable respuesta: puesta en marcha

6- Si, la variable year podría considerarse independiente de otras como acces_elec o co2 en el corto plazo, aunque con tendencias a largo plazo podría tener correlación

otra posible variable independiente podría ser access_elec y puesta_en_marcha ya que no podrían tener relación directa inmediata, acceso a la electricidad no necesariamente cambia costos burocráticos de abrir empresas

justificación: Son fenómenos distintos: infraestructura eléctrica vs regulaciones económicas

7- Se trata de un estudio observacional con datos de series de tiempo. No hubo intervención en los datos ya que solo se observaron indicadores económicos y ambientales durante diferentes años. Se analizaron tendencias y asociaciones, no causas directas.

observaciones: 5.2- la Variable respuesta que indicas “puesta en marcha”, no existe en el conjunto de datos

3) Representación de Histogramas

A continuación se presenta el código para generar 3 histogramas donde cada uno corresponde a un conjunto de datos distinto. Para cada uno, realizar las siguientes actividades:

Generar el gráfico y determinar si variando la cantidad de barras mediante el parametro breaks puede mejorar la representación.
Identificar el conjunto de dato usado para generar los gráficos así como el nombre de la variable, especificando lo que representa y el tipo de variable.
Identifique la modalidad de la distribución, así como posibles sesgos, según su selección de cantidad de barras

hist(london_murders$age, breaks = 15)

respuestas:

Conjunto de datos: london_murders

variable: age (edad), tipo de variable: Numérica continua

Distribución: Puede mostrar sesgo hacia la derecha (positivo) ya que pidrían haber mpas individuos jóvenes que mayores en la base de datos. El número de barras elegido es de 10 ya que resulta adecuada a razón de que permite observar la forma de la distribución sin sobecargar el gráfico

Observación: en este conjunto de datos la variable edad no es continua sino discreta ya que nunca asume un valor de tener 20.35 años. En cuando a la distribución, indicas que “pidrían haber mpas individuos jóvenes que mayores en la base de datos”. En caso de ser “podrían” la palabra, la verdad es que no corresponde, ya que sí aparecen en tal conjunto de datos más valores de muertes en personas jovenes hacia los 20 años que en los de 40 y 60 años

hist(london_murders$age, breaks = 10
)

hist(LAhomes$sqft)

respuestas:

Conjunto de datos: Lahomes Variable usada: sqft (superficie de hogar x pie cuadrado) Tipo de variable: Numérica continua Distribución: La distribución es asimetrica hacia la derecha (sesgo positivo) ya que algunas casas muy grandes pueden estidad la distribución

El nuímero de barras elegido es de 15 a 20; Con 15 barras se puede observar la forma general de los tamaños de las casas, con 20 barras se puede observar más detalle en la cantidad de casas pequeñas, medianas y grandes.

observación: no me convence lo que acá indicas, partiendo del hecho de que varias palabras no están bien escritas y dificulta aún más la interpretación del texto

hist(LAhomes$sqft, breaks = 15)

hist(LAhomes$sqft, breaks = 20)

hist(life_exp$income)

#life_exp

A tibble: 3142 × 4
state	county	expectancy	income
<chr>	<chr>	<dbl>	<dbl>
Alabama	Autauga County	76.060	37773
Alabama	Baldwin County	77.630	40121
Alabama	Barbour County	74.675	31443
Alabama	Bibb County	74.155	29075
Alabama	Blount County	75.880	31663
Alabama	Bullock County	71.790	25929
Alabama	Butler County	73.730	33518
Alabama	Calhoun County	73.300	33418
Alabama	Chambers County	73.245	31282
Alabama	Cherokee County	74.650	32645
Alabama	Chilton County	73.880	31380
Alabama	Choctaw County	75.050	31046
Alabama	Clarke County	74.820	31877
Alabama	Clay County	74.145	32965
Alabama	Cleburne County	74.145	31209
Alabama	Coffee County	76.205	38929
Alabama	Colbert County	74.105	35831
Alabama	Conecuh County	73.730	29643
Alabama	Coosa County	73.880	28651
Alabama	Covington County	74.835	31581
Alabama	Crenshaw County	73.280	34228
Alabama	Cullman County	75.035	35923
Alabama	Dale County	75.715	34107
Alabama	Dallas County	72.005	31595
Alabama	Dekalb County	74.730	29621
Alabama	Elmore County	75.650	37561
Alabama	Escambia County	74.390	30342
Alabama	Etowah County	72.830	34086
Alabama	Fayette County	73.130	30426
Alabama	Franklin County	72.805	31614
⋮	⋮	⋮	⋮
Wisconsin	Washburn County	78.385	43727
Wisconsin	Washington County	80.475	51110
Wisconsin	Waukesha County	80.915	63995
Wisconsin	Waupaca County	77.550	42216
Wisconsin	Waushara County	79.000	38620
Wisconsin	Winnebago County	79.385	42399
Wisconsin	Wood County	79.820	41883
Wyoming	Albany County	79.700	39052
Wyoming	Big Horn County	77.585	36964
Wyoming	Campbell County	76.660	54653
Wyoming	Carbon County	77.835	49787
Wyoming	Converse County	79.255	55012
Wyoming	Crook County	76.660	44121
Wyoming	Fremont County	75.575	41019
Wyoming	Goshen County	78.800	42346
Wyoming	Hot Springs County	79.700	51418
Wyoming	Johnson County	78.240	44439
Wyoming	Laramie County	77.590	49796
Wyoming	Lincoln County	80.025	39683
Wyoming	Natrona County	77.000	68692
Wyoming	Niobrara County	78.800	46341
Wyoming	Park County	79.700	48692
Wyoming	Platte County	79.255	45275
Wyoming	Sheridan County	78.240	55089
Wyoming	Sublette County	80.025	48881
Wyoming	Sweetwater County	78.405	48681
Wyoming	Teton County	82.110	194861
Wyoming	Uinta County	77.350	41005
Wyoming	Washakie County	77.585	43460
Wyoming	Weston County	76.660	44997

respuestas:

Conjunto de datos: life_exp Variable usada: Income (ingreso x persona o país) Tipo de variable: Numérica continua

Distribución: El ingreso tiene una distribución asimétrica hacia la derecha (sesgo positivo).

Es común ya qu existen muchas personas/países con ingresos bajos y pocos con ingresos muy altos (lo que estira el gráfico a la derecha)

Con 15 barras se nota el sesgo general y una gran concentración de ingresos bajos, con 30 barras se ve aún más claramente los niveles bajos y algunos niveles medios más diferenciados

Observación: en ese conjunto de datos no se detallan países sino estados y condados de EEUU

hist(life_exp$income, breaks=15)

hist(life_exp$income, breaks=30)

hist(lego_population$pieces, breaks=5)

respuestas:

Conjunto de datos: lego_population

Variable usada: pieces (numero de piezas en los sets de Lego) Tipo de variable: Numérica discreta

Distribución: Sesgo a la derecha (positivo); Hay muchos sets pequeños (con pocas piezas) y pocos sets grandes (con miles de piezas).

Con 15 barras se nota la acumulación de sets pequeños, con 25 barras se nota mejor aún la diferencia entre sets muy pequeños, grandes y medianos

Observación: no veo mayor cambio en la representación, es decir, en la forma que generan las barras, así como en la “historia que nos representan” al pasar de 15 a 25

hist(lego_population$pieces, breaks=15)

hist(lego_population$pieces, breaks=25)