Indique su nombre y cédula

Nombre: Ricardo A. Rivas L.

Cédula: 25.363.777

Estadística I, Tarea 01

A continuación hay una serie de ejercicios que debe completar. Algunos de los códigos ya están vaciados para que se facilite realizar estar tarea.

Se recomienda para cada uno de los conjuntos de datos a trabajar, revise los datos que contienen, así como también usar las funciones de ayuda ? obtener información sobre los mismos y de esta manera lograr facilitar la comprensión sobre los datos a trabajar.

Recomendaciones

Usar funciones apropiadas para obtener los valores solicitados. Revise los ejercicios de codificación anteriormente presentados en el curso, las láminas, así como el libro Open Intro Stats.

Si realiza algún cálculo manualmente deberá añadir las celdas de código con tales cálculo, tantas como sea necesario.

En cada una de las celdas de código, añada comentarios con el símbolo numeral (#) al inicio de la celda para indicar los procedimientos realizados.

Recuerde cuidar la redacción y ortografía en la información que presente.

En caso de tener alguna duda sobre los procedimientos a seguir, usar el grupo de whatsapp.

Se recuerda que la terea debe ser realizada de forma individual.

# instalar y cargar paquetes con los que se trabajará. No modificar esta celda
install.packages ('openintro')
install.packages ('gtsummary')
library ('openintro')
library ('gtsummary')
library ('dplyr')

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘airports’, ‘cherryblossom’, ‘usdata’


Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘V8’, ‘litedown’, ‘reactR’, ‘bigD’, ‘bitops’, ‘juicyjuice’, ‘markdown’, ‘reactable’, ‘cards’, ‘gt’


Loading required package: airports

Loading required package: cherryblossom

Loading required package: usdata


Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union

1) Tratamiento de tumores con etanol

Nombre del conjunto de datos

ethanol

Descripción

Experimento en el que se probaron 3 tratamientos diferentes de etanol para el tratamiento de tumores de cáncer oral en hámsters.

La columna “regress” especifica si el tratamiento tuvo efecto con la categoría “yes” o “no” en caso de no tener algún efecto sobre el tumor.

La columna “treatment” indica el tratamiento que recibió el hámster.

Detalles

Los tratamientos de etil_celulosa y etanol_puro consistían en aproximadamente una cuarta parte del volumen de los tumores, mientras que el tratamiento de etanol_puro_16x era 16 veces mayor, es decir, unas 4 veces el tamaño de los tumores.

Fuente

Morhard R, et al. 2017. Desarrollo de la ablación mejorada con etanol como alternativa a la cirugía en el tratamiento de tumores sólidos superficiales.

Asignación

¿Cómo se presentan los datos?
¿Cuántas observaciones tiene el conjunto de datos?
¿Cuántas variables tiene el conjunto de datos y cómo se llaman?
Crear una tabla de contigencia que represente los totales por tratamiento. Calcular la frecuencia relativa de cada uno de estos experimentos y su éxito (puede usar los códigos revisados o hacerlo manualmente).
Realice una explicación escrita sobre los resultados obtenidos (tipo de estudio, siginficado de los resultados, generalizable, etc.). Puede llegar a alguna conclusión con los datos presentados? Sea lo más explícito posible.

ethanol

A tibble: 24 × 2
treatment	regress
<fct>	<fct>
pure_ethanol_16x	yes
pure_ethanol_16x	yes
pure_ethanol_16x	yes
pure_ethanol_16x	yes
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol_16x	no
pure_ethanol	no
pure_ethanol	no
pure_ethanol	no
pure_ethanol	no
pure_ethanol	no
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	yes
ethyl_cellulose	no

?ethanol

¿Cómo se presentan los datos?

R: Los datos se presentan como un data frame donde las filas representan las observaciones, y las columnas las variables.

¿Cuántas observaciones tiene el conjunto de datos?

R: Hay un total de 24 observaciones

dim(ethanol)

3)¿Cuántas variables tiene el conjunto de datos y cómo se llaman?

R: Hay un total de dos variables, una llamada treatment (tratamiento) y la otra regress (regresión)

ncol(ethanol)
names(ethanol)

'treatment'
'regress'

Crear una tabla de contigencia que represente los totales por tratamiento. Calcular la frecuencia relativa de cada uno de estos experimentos y su éxito (puede usar los códigos revisados o hacerlo manualmente).

table(ethanol$regress, ethanol$treatment)
rowSums(table(ethanol$regress, ethanol$treatment))
prop.table(table(ethanol$regress, ethanol$treatment), margin=1)

     
      ethyl_cellulose pure_ethanol pure_ethanol_16x
  no                1            5                8
  yes               6            0                4

no: 14
yes: 10

     
      ethyl_cellulose pure_ethanol pure_ethanol_16x
  no       0.07142857   0.35714286       0.57142857
  yes      0.60000000   0.00000000       0.40000000

observación: el resultado obtenido en el punto anterior debía ser mediante el enfoque que muestra la siguiente tabla

gtsummary::tbl_summary(ethanol,
                       include = 'treatment',
                       by='regress',
                       percent='row')%>%
                          as_kable()



|**Characteristic** | **no**  N = 14 | **yes**  N = 10 |
|:------------------|:--------------:|:---------------:|
|treatment          |                |                 |
|ethyl_cellulose    |    1 (14%)     |     6 (86%)     |
|pure_ethanol       |    5 (100%)    |     0 (0%)      |
|pure_ethanol_16x   |    8 (67%)     |     4 (33%)     |

observación: usando la misma función prop.table lo podías hacer invirtiendo el orden de las variables. A continuación el código que arroja el resultado planteado

prop.table(table(ethanol$treatment, ethanol$regress), margin=1)

                  
                          no       yes
  ethyl_cellulose  0.1428571 0.8571429
  pure_ethanol     1.0000000 0.0000000
  pure_ethanol_16x 0.6666667 0.3333333

Realiza una explicación escrita sobre los resultados obtenidos (tipo de estudio, significado de los resultados, generalizable, etc), ¿Puede llegar a alguna conclusión con los datos presentados?Sea los más explicito posible.

R:El estudio presentado es un ensayo experimental donde se comparan tres tratamientos diferentes de etanol en hámsters con tumores. La variable respuesta es “regress”, que indica si el tumor retrocedió (“yes”) o no (“no”) tras el tratamiento. La variable explicativa es “treatment”, que representa el tipo de tratamiento aplicado (etil_celulosa, etanol_puro, o etanol_puro_16x).

Dado los resultados parece que dos de los tratamientos en cierta medida si lograron una regresion de los tumores, mientras que uno de ellos no (pure_ethanol).

Basado en la tabla de contigencia, parece que el tratamiento más efectivo es “etil_celulosa”. se tiene que considerar que la cantidad de observaciones es muy pequeña, para afirmar que el tratamiento va a funcionar en todos los hamsters y ademas parece que la distribucion de los tratamientos fueron algo desiguales. Por lo que considero que los resultados no se pueden generalizar, y se deberia tratar con una muestra mas grande para obterner asi resultados que si pueden ser generalizables.

Entiendo la explicación, y estoy de acuerdo parcialmente. Al hablar de variables explicativas y de respuesta estamos buscando “variables que muestran algún tipo de conexión” y en este caso, al ser un experimento, no hace falta buscar la relación causal ya que desde el inicio del experimento se sabe que están relacionadas. No obstante, entiendo por dónde va el planteamiento y apunta bien, el detalle es ese, ahí no hay que descubrir la relación ya que existe desde un inicio, o por el contrario, se puede demostrar que nunca existió. Cualquier cosa lo conversamos con más detalle en persona

2) Indicadores Económicos y de Sostenibilidad para Sudáfrica.

Nombre del Conjunto de Datos

sa_gdp_elec

Descripción

Incluye datos anuales sobre pib, gni, emisiones de co2, costes de puesta en marcha.

Detalles

año: Año de recogida de los datos.

access_elec: Acceso a la electricidad en porcentaje de la población.

puesta en marcha: Coste de los procedimientos de creación de empresas en porcentaje de la GNI.

co2: Emisión de CO2 en kt (kilotoneladas).

gdp: PIB per cápita, PPA en dólares internacionales constantes de 2017.

gni: GNI per cápita, PPA en dólares internacionales constantes de 2017. GNI (gross national income) es la cantidad total de dinero que ganan los ciudadanos y las empresas de un país.

co2_kg_ppp: kg por PIB en dólares PPA de 2017.

Fuente

World Bank I

Carbon Dioxide Information Analysis Center, Environmental Sciences Division

Asignación

¿Cuántas observaciones tiene el conjunto de datos?
Indique el tipo de cada una de las variables.
Realice un histograma para la variable co2 e indique cuántas barras recomienda aplicar para visualizar este gráfico.
Explique si tiene sentido crear un histograma para la variable year
Muestre dos gráficos de dispersión entre variables que pueden estar asociadas, el tipo de relación que presenten e intente identificar cuáles pueden ser las variables explicativas y de respuesta
¿Puede indentificar algunas variables que resulten independientes?. Justifique
Identifique el tipo de estudio que se revisó en esta sección

1)¿Cuántas observaciones tiene el conjunto de datos?

R: Hay un total de 16 observaciones

sa_gdp_elec

A tibble: 16 × 7
year	access_elec	startup	co2	gdp	gni	co2_kg_ppp
<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>
2003	78.8	9.4	353110	10646.83	10388.18	0.7098952
2004	80.9	9.1	379970	10997.01	10807.17	0.7306183
2005	80.8	8.6	377640	11434.92	11233.35	0.6897401
2006	80.7	6.9	379560	11924.07	11711.35	0.6564602
2007	82.0	7.1	396900	12402.05	12010.29	0.6515254
2008	81.9	6.0	426560	12628.20	12251.73	0.6785602
2009	82.6	5.9	404020	12262.14	11999.96	0.6527439
2010	82.9	6.0	425110	12452.34	12195.42	0.6665559
2011	83.6	0.3	409120	12666.71	12346.55	0.6210867
2012	85.3	0.3	426710	12743.94	12404.11	0.6337627
2013	85.2	0.3	436870	12852.78	12523.90	0.6331184
2014	86.0	0.3	447980	12884.48	12549.90	0.6374456
2015	85.3	0.3	424880	12840.04	12528.09	0.5974440
2016	84.2	0.2	425180	12702.92	12355.72	0.5954893
2017	84.4	0.2	435140	12701.35	12320.43	0.6009385
2018	84.7	0.2	433250	12627.93	12229.11	0.5936559

dim(sa_gdp_elec)

2)Indique el tipo de cada una de las variables

R: Todas las 7 variables son de tipo cuantitativas,

la varaible year,responde a una variable cuantitativa (númerica) discreta.

las variables access_elec, startup y co2_Kg_ppp, etc., responde a una variable cuantitativa (númerica) continua.

class(sa_gdp_elec$)

'numeric'

str(sa_gdp_elec)

tibble [16 × 7] (S3: tbl_df/tbl/data.frame)
 $ year       : num [1:16] 2003 2004 2005 2006 2007 ...
 $ access_elec: num [1:16] 78.8 80.9 80.8 80.7 82 81.9 82.6 82.9 83.6 85.3 ...
 $ startup    : num [1:16] 9.4 9.1 8.6 6.9 7.1 6 5.9 6 0.3 0.3 ...
 $ co2        : num [1:16] 353110 379970 377640 379560 396900 ...
 $ gdp        : num [1:16] 10647 10997 11435 11924 12402 ...
 $ gni        : num [1:16] 10388 10807 11233 11711 12010 ...
 $ co2_kg_ppp : num [1:16] 0.71 0.731 0.69 0.656 0.652 ...

3)Realize un histograma para la variable co2 e indique cuantas barras recomienda aplicar para visualizar este grafico.

R:Lo mas recomendable ya que la cantidad de datos no es tan grande, es que la cantidad de barras en el histograma no sea mayor a 6 barras, y asi se evitaria la dispersion de datos

Observación: no es “dispersión” el término más apropiado, sino el de vacíos en la gráfica o poca agrupación de los datos, ya que por definición en el histograma buscamos en alguna medida agrupar en intervalos la variable en estudio. Igualmente, me parece apropiada la decisión de visualizar 6 agrupamientos

hist(sa_gdp_elec$co2, breaks = 6)

Explique si tiene sentido crear un histograma para la variable year.

R: No tendria mucho sentido crear un histograma para esta variable, ya como cada año aparece solo una vez no mostraria nigun patron util para el analisis.

hist(sa_gdp_elec$year, breaks = 16)

Muestre dos graficos de dispersion entre variables que pueden estar asociadas, el tipo de relación que presenten e intente identificar cuales pueden ser las varibles explicativas y de respuesta.

R: En los graficos siguienres encontramos:

Grafico N°1: PIB per cápita vs Emisiones de CO2

Se observa una relación positiva entre el PIB per cápita y las emiciones de CO2, ya que a medida que aumenta el PIB per cápita, tambien tiende a aumentar la cantidad de emisiones. La variable explicativa es el PIB per cápita y la de de respuesta la de emisiones de CO2

Grafico N°2: Acceso a la electricidad vs Coste de puesto en marcha.

Se observa que esta relación es de caracater negativo, a medida que aumenta el acceso a la electricidad el coste de puesto en marcha parece disminuir. La variable explicativa es el acceso a la electricidad y la de respuesta el coste de puesto en marcha.

plot(sa_gdp_elec$gdp, sa_gdp_elec$co2,
     xlab = "PIB per cápita (dólares, 2017)",
     ylab = "Emisiones de CO2 (kt)",
     main = "Relación entre PIB per cápita y Emisiones de CO2")
abline(lm(sa_gdp_elec$co2 ~ sa_gdp_elec$gdp), col = "green")

plot(sa_gdp_elec$access_elec, sa_gdp_elec$startup,
     xlab = "Acceso a la electricidad (% de la población)",
     ylab = "Coste de puesta en marcha (% de la RNI)",
     main = "Relación entre Acceso a la electricidad y Coste de puesta en marcha")
     abline(lm(sa_gdp_elec$startup ~ sa_gdp_elec$access_elec), col = "red")

6)Puede identificar algunas variables que resulten independientes. Justifique.

R: Se podria decir que el año es una variable independiente, ya que el año podria no deberia influir directamente en por ejemplo las emisiones de CO2

7)Identifique el tipo de estudio que se realizo en esta sección.

R: El tipo de estudio que se realizo es de tipo observacional, ya que no hubo intevencion o manipulación experimental.

3) Representación de Histogramas

A continuación se presenta el código para generar 3 histogramas donde cada uno corresponde a un conjunto de datos distinto. Para cada uno, realizar las siguientes actividades:

Generar el gráfico y determinar si variando la cantidad de barras mediante el parametro breaks puede mejorar la representación.
Identificar el conjunto de dato usado para generar los gráficos así como el nombre de la variable, especificando lo que representa y el tipo de variable.
Identifique la modalidad de la distribución, así como posibles sesgos, según su selección de cantidad de barras

hist(london_murders$age, breaks = 15)

hist(london_murders$age, breaks = 10)

hist(london_murders$age, breaks = 15)

R: Estableciendo breaks=15, parece ser una mejor representación para el histograma
R: Conjunto de datos: london_murders

Variable: age

Representa la edad de las victimas de homicidios en londres

Tipo de variable: Cuantitativa continua

R: Con una selección de 15 breaks, se aprecia que la distribución es unimodal, con un sesgo a la derecha.

Observación: también se aprecia que la moda y/o el área con mayor densidad ronda los 20 años y bla, bla, bla. Por ahí va la cosa

respuestas:

usar tantas celdas de código y texto como sea necesario

hist(LAhomes$sqft)

hist(LAhomes$sqft, breaks = 10)

hist(LAhomes$sqft, breaks = 5)

respuestas:

Probando con 10 y 5 breaks, parece ser 10 breaks el que ofrece una mejor visualización de la distribución, mostrando una mejor concetración de datos sin mucha dispersión.
Conjunto de datos: LAhomes.

Variable: sqft.

Representa el tamaño de las viviendas en pies cuadrados.

Tipo de variable: Cuantitativa continua.
Con 10 breaks, la distribución es unimodal con un sesgo a la derecha, quiere decir que muchas casas son relativamente pequeñas, y existe pocas con un tamaño por encima de el promedio.

Observación: bien la descripción del histograma pero sería recomendable la interpretación del primer grupo que presenta la mayor frecuencia y corresponde a los menores valores de pies cuadrados( cosa que tiene todo el sentido del mundo)

hist(life_exp$income)

hist(life_exp$income, breaks = 10)

hist(life_exp$income, breaks = 5)

hist(life_exp$income, breaks = 15)

respuestas:

Para este conjunto , los 10 breaks parecen ser la mejor opcion de representación, ya que si se usan menos breaks parece que se pierden detalles y si se usan mas se pierde la claridad.
Conjunto de datos: life_exp.

Variable: income.

Representa el ingreso de las personas.

Tipo de variable: Cuantitativa continua.
La distibución es de tipo unimodal, con un sesgo a la derecha, lo que evidencia que la mayoria de las personas tienen ingresos bajos, mientras que algunas pocas personas relativamente muestran ingresos mucho mas altos.

observación: exactamente, lo que indicas en el punto 3, es lo que más interesa que comprendas al hacer la lectura de estos gráficos!

hist(lego_population$pieces, breaks=5)

hist(lego_population$pieces, breaks = 8)

hist(lego_population$pieces, breaks = 10)

hist(lego_population$pieces, breaks = 15)

respuestas:

Para este conjunto de datos, parece que 8 breaks parece ser la mejor opción ya que ofrece una buena distribución visual.
Conjunto de datos: lego_population

Variable: pieces

Representa la cantidad de piezas que tiene cada set de Lego.

Tipo de variable: Cuantitativa discreta.
La distribución es de tipo unimodal con un ligero sesgo a la derecha, lo que sugiere que la mayoria de los sets son de pocas piezas.