Você está na página 1de 1

library(readr)

library(tidyverse)
library(ggplot2)
library(matrixStats)

#1. Leer el fichero titanic.csv como un dataframe.


titanic_orig <- read_csv("titanic.csv")

#2. Calcular el porcentaje de pasajeros que sobrevivio.


titanic_orig %>% group_by(Survived) %>% summarise(Personas = n(), Percentages =
Personas/nrow(titanic)) %>% filter(Survived == 1) -> survived_percentage

#3. Calcular el porcentaje de missing values en cada uno de los atributos.


is.na(titanic_orig) %>% colSums() -> total_na

#4. Eliminar la variable Cabin del dataframe


titanic_orig %>% select(everything(),-Cabin) -> titanic

#5. Completar Missing Values de Age con la mediana


titanic %>% select(Age) %>% as.data.frame() %>% quantile(c(0.5),na.rm = TRUE) ->
mediana
titanic %>% replace_na(list(Age = mediana)) -> titanic

#6. Eliminar cualquier fila que tenga al menos un NA


titanic %>% na.omit() -> titanic

#7. Probabilidad de supervivencia en base al g�nero


titanic %>% group_by(Sex, Survived) %>% summarise(Personas = n(), Percentage =
Personas*100/nrow(titanic))

#8.Probabilidad de Supervivencia respecto a edad


titanic %>% group_by(Age, Survived) %>% summarise(Personas = n())

#9. Realizar un grafico de puntos de la variable Age sobre Fare, coloreado por los
valores de la variable Survived.
titanic %>% ggplot(aes(x= Fare, y = Age, color = Survived)) + geom_point()

#10. Realizar un histograma para ver la distribucion de las edades.


titanic %>% ggplot(aes(x= Age)) + geom_histogram(binwidth = 1)

#11. Crea una nueva variable Decade en el dataframe que contenga la decada de la
edad de los pasajeros
titanic %>% mutate(Decade = Age%/%10*10) %>% ggplot(aes(x= Decade)) +
geom_histogram(binwidth = 10)

#12. Representar en un grafico de barras el numero de pasajeros que han sobrevivido


para cada uno de los valores de las variables Sex y Pclass
titanic %>% filter(Survived == 1) %>% ggplot(aes(x= Pclass, fill = Sex)) +
geom_histogram(binwidth = 1, position = "dodge")

#13. Familysize: numero total de parientes incluyendo al propio pasajero.


titanic %>% mutate(Familysize = SibSp+Parch+1, Sigleton = Familysize == 1) ->
titanic_company

#14. Calcula la probabilidad de supervivencia en base a si el pasajero viajaba


solo o no
titanic_company %>% group_by(Sigleton, Survived) %>% summarise(Persons = n()) %>%
mutate(Percentage = Persons * 100/nrow(titanic_company))

Você também pode gostar