Escolar Documentos
Profissional Documentos
Cultura Documentos
Marina Muradian
22/11/2019
Survey - Qual ferramenta você mais usa?
Link: socrative.com
Classroom : MURADIAN331
Por que usar o R?
I Visualização de dados
I Machine Learning
I Disponibilidade
https://www.burtchworks.com/2019/08/21/2019-sas-r-or-python-survey-update-
which-tool-do-data-scientists-analytics-pros-prefer/
R para Data Science
https://trends.google.com.br/trends/explore?date=all&q=R%20programming
R para Data Science
https://www.kaggle.com/sudhirnl7/data-science-survey-2018/output
R
I Polêmica:
https://www.thelancet.com/journals/lancet/article/PIIS0140-6736(97)11096-0/fulltext
library(dslabs)
data("us_contagious_diseases")
head(us_contagious_diseases)
50
De modo geral:
California
Casos de Sarampo/10.000
100
50
0
1940 1960 1980 2000
Anos
Gráficos com ggplot2 - California
p <- p + geom_vline(xintercept=1963, col = "red")
p
California
Casos de Sarampo/10.000
100
50
0
1940 1960 1980 2000
Anos
Gráficos com ggplot2 - California
p + annotate(geom = "text",
label = "Início da vacinação (1963)",
x = 1985,
y = 100,
col = "red")
California
Casos de Sarampo/10.000
50
0
1940 1960 1980 2000
Anos
Uma visão geral
Cases de sarampo/10,000 por estado
300
125
25
## # A tibble: 6 x 2
## year us_rate
## <dbl> <dbl>
## 1 1928 40.4
## 2 1929 27.9
## 3 1930 31.3
## 4 1931 35.4
## 5 1932 31.2
## 6 1933 30.2
Uso de layers
g <- data %>% filter(!is.na(rate)) %>%
ggplot() +geom_line(mapping = aes(year, rate, group = state),
color = "grey50",
show.legend = FALSE,
alpha = 0.2,
size = 1) +
scale_y_continuous(trans = "sqrt",breaks = c(5, 25, 125, 300))
300
125
rate
25
5
300
125
rate
25
300
125
rate
25
300
125
300
125
25
library(gganimate)
g + transition_reveal(year)
Reproduzindo o gráfico do WSJ - Sarampo
I data: data
I aesthetics:
I Eixo x: year
I Eixo y: state
I Cor: rate
Reproduzindo o gráfico do WSJ - Sarampo
Sarampo
Wyoming
Wisconsin
West Virginia
Washington
Virginia
Vermont
Utah
Texas
Tennessee
South Dakota
South Carolina
Rhode Island
Pennsylvania
Oregon
Oklahoma
Ohio
North Dakota
North Carolina
New York
New Mexico rate
New Jersey
New Hampshire
Nevada 200
Nebraska
Montana 100
Missouri
Mississippi
Minnesota
Michigan
Massachusetts 0
Maryland
Maine
Louisiana
Kentucky
Kansas
Iowa
Indiana
Illinois
Idaho
Georgia
Florida
District Of Columbia
Delaware
Connecticut
Colorado
California
Arkansas
Arizona
Alabama
1940 1960 1980 2000
Atualizando os dados
I Impacto
I Alto poder de detalhamento
I Consolida um grande número de dados numa só imagem
I Facilita a comparação
I "Uma imagem vale mais do que mil palavras"
Obrigada!
marinabam1@insper.edu.br