Escolar Documentos
Profissional Documentos
Cultura Documentos
Dados Abertos
da Educação
Tutorial de Análise de
Dados com R
2
Conteúdo
Introdução ao R ............................................................................................................................. 3
O que é R? ................................................................................................................................. 3
Usos de R ................................................................................................................................... 3
Instalação do R e do RStudio ..................................................................................................... 4
Área de trabalho do RStudio ..................................................................................................... 5
Comandos básicos ..................................................................................................................... 7
1) Símbolos das operações matemáticas básicas: ............................................................ 7
2) Sinal de atribuição: <- .................................................................................................... 7
3) Instalando e utilizando pacotes .................................................................................... 7
4) Visualizando arquivos.................................................................................................... 8
5) Registrando na API do Google Maps ............................................................................. 8
Abrindo arquivos grandes ......................................................................................................... 9
Projeto exemplo .......................................................................................................................... 10
Sobre o projeto : ..................................................................................................................... 10
1) Quais são estas escolas? ..................................................................................................... 11
2) Qual o histórico destas escolas no IDESP? .......................................................................... 14
3) Onde estão localizadas estas escolas? ................................................................................ 16
4) Como estas escolas estão em relação as escolas em seu entorno? .................................. 18
Dicas e problemas comuns.......................................................................................................... 20
Links úteis .................................................................................................................................... 21
Notas ........................................................................................................................................... 22
3
Introdução ao R
O que é R?
R é uma linguagem e também um ambiente computacional para o uso estatístico e gráfico.
Similar a linguagem S, a linguagem R foi criada por Ross Ihaka e Robert Gentleman como uma
alternativa de código aberto. Esta é largamente usada entre estatísticos e ana
analistas de dados
para desenvolver software de estatística e análise de dados.
Usos de R
Instalação do R e do RStudio
Para uso neste tutorial sobre R, usaremos o RStudio, que tem um visual mais amigável ao
usuário. Desta forma o processo de instalação exige primeiramente a instalação do R
propriamente dito, seguido da instalação do RStudio.
Para instalar o R entre no link abaixo e escolha o link cuja região é a mais próxima de você:
https://cran.r-project.org/mirrors.html
Depois, instale a versão compatível ao seu sistema operacional (Windows, IOS, Linux).
https://www.rstudio.com/products/rstudio/download/
Área de trabalho
rabalho do RStudio
No canto superior esquerdo temos o local onde são abertos scripts e visualizações, nesta parte
existem muitas ferramentas úteis para verificar e usar em um código, dentre elas o botão
“Run”, o qual roda uma linha de código por vez e o botão “Source” que faz o código ser rodado
em sua totalidade.
No canto superior direito temos algumas abas importantes: a aba “Environment”, na qual é
possível visualizar quais são as variáveis criadas, a aba “History”, na qual são mostrados todos os
comandos que foram utilizados no programa (muito útil para encontrar uma linha de comando
antiga para uma ação que você não se recorda de como recri recriar)
ar) e, por fim, a aba “Connections”,
que permite a conexão direta com bancos de dados.
6
O canto inferior direito é a parte em que está localizado o console, nele digitamos
os códigos que farão
arão o programa funcionar, vale o destaque para o botão da
“vassourinha” (também presente na aba plots) que permite limpar visualmente o console dos
códigos (sem perder o que já foi feito).
Também no o canto inferior direito temos mais algumas abas importantes, a aba “Files” permite
visualizar arquivos carregados no R e explorar pastas no computador para carregar outros
arquivos, a aba “Plots” mostra tudo que for plotado (gráficos e mapas) e permite também
exportar, abrir externamente ou apagar estes plots, na aba “Packages” podemos visualizar e
todos os pacotes instalados
nstalados e verificar se eles estão ou não ativos (para ativá
ativá-los basta
selecioná-los
los pela caixa de seleção) e a aba “Help” mostra a ajuda do programa e é bem útil na
hora de verificar como uma função funciona e como devem ser colocados os seus parâmetros e
por vim a aba “Viewer” pode--se visualizar arquivos interativos produzidos.
7
Comandos básicos
No R existem diversos comandos e pacotes que podem mudar como são calculadas e alocadas
às variáveis. Considerando-se isso, mostraremos os comandos mais básicos e universáis.
Soma : +
Subtração: -
Multiplicação: *
Divisão: /
Exponencial : ^
Durante o uso do R o sinal de atribuição “<-“será provavelmente o símbolo mais utilizado, ele
atribui um valor ou uma função a uma variável localizada a esquerda do símbolo e, caso a
variável não exista, ela é criada automaticamente. Recomenda-se que durante a criação de seu
código crie variáveis para cada operação ou para cada conjunto de operações afim de organizar
melhor o seu trabalho e tornar mais fácil encontrar e corrigir erros que possam surgir.
Para visualizar o valor das variáveis após a operação basta digitar o nome delas e apertar enter
ou ir na aba “Environment” e para ver diretamente o valor desta (ou caso não seja um valor
basta clicar na variável que ela abrirá uma view no canto superior esquerdo).
Como dito anteriormente a comunidade do R cria muitos pacotes úteis, para instalá-los
diretamente basta digitar no console: install.packages(“nome do pacote”). Para verificar como
utilizar o pacote basta digitar ? antes do nome do pacote e apertar enter. Caso queira verificar o
funcionamento de uma função em um pacote você pode também pode fazê-lo digitando
?nome-do_pacote::nome_da_função e depois apertar enter.
Exemplos:
informações sobre o pacote dplyr : ?dplyr
informações sobre a função add_conunt no pacote dplyr : ?dplyr::add_count()
8
4) Visualizando arquivos
Existem muitas formas de visualização de arquivos, caso estes sejam dataframes (tabelas) estes
comandos podem ajudar a verificar a situação destes:
summary: permite uma visualização informativa sobre cada coluna do arquivo, como
informações de valores máximos, mínimos, médias e medianas.
exemplo: summary(arquivo1)
Exitem muitas funções e API para R tanto provenientes da Google como de terceiros,
mas pelo fato de ser muito comum o uso da API do Google, e pelo fato desta ser
utilizada também no nosso tutorial, forneceremos a seguir um passo a passo para o
registro e a obtenção da chave usada para utilização da API.
Primeiro, podemos abrir apenas as primeiras linhas do arquivo, analisando assim quais colunas
desejamos usar nas análises vindouras:
Agora, iremos selecionar apenas as colunas CD_ALUNO, DTNASC e SEXO (colunas 1, 2 e 4) das
52 colunas do arquivo:
# Por fim, armazenaremos o arquivo com as colunas desejadas numa nova variavel
arquivo_gde <- read.csv(“nome_do_arquivo.csv”, colClasses=colunas_evitadas, quote=””)
Projeto exemplo
Sobre o projeto :
Quando lidamos com dados é importante termos em mente qual pergunta queremos responder
utilizando estes dados, da mesma forma é importante que o significado real e qualitativo dos
dados não se perca durante a análise, já que como missão queremos que os números, gráficos,
tabelas ou mapas gerados nos permitam analisar de forma mais precisa uma determinada
situação a fim de que se possa avaliar o cenário encontrado.
Como exemplo faremos um pequeno projeto cujo intuito maior será a prática de algumas ações
básicas com o RStudio da mesma forma em que exibimos algumas possibilidades de análise com
os dados disponíveis no Catálogo de Dados Abertos da Secretaria da Educação de Estado de São
Paulo. Dado este contexto faremos uma pergunta simples que será o centro da nossa análise:
“Quem são as 10 escolas da Rede Estadual que atuam com os anos iniciais (de 1º a 5º
ano) que melhor pontuaram no IDESP 2017?”
Verifique que a nossa pergunta já teve como foco tornar a nossa análise mais restrita, o que se
deve principalmente ao fato de ser uma análise demonstrativa, porém é possível ampliar o
escopo de pesquisa utilizando estes mesmos dados.
Para fins de tornar a nossa análise mais completa, e também para fins didáticos, dividiremos a
nossa pergunta principal em mais 4 questionamentos que nos ajudarão a ter uma visão mais
completa sobre quem de fato são estas escolas:
A seguir, por meio do uso do Rstudio e de bases de dados do portal de Dados Abertos da
Secretaria da Educação do Estado de São Paulo, responderemos estes questionamentos
mostrando o passo a passo do processo. Como este é um tutorial de uso do R também não
entraremos na parte posterior a obtenção das tabelas, gráficos e mapas, a qual seria a
interpretação dos dados.
11
#Para esta primeira etapa usaremos a base do IDESP para descobrir às 10 escolas que melhor
pontuaram.
# Baixando do Portal de dados o arquivo .csv do IDESP diretamente via R
# Gráfico 1 - Gráfico em barras das 10 melhores escolas de Anos Iniciais do IDESP 2017
# # Para separar as escolas de anos iniciais com as melhores notas de 2017, começaremos
filtrando os dados do IDESP pelo campo ‘Nível’ e ‘Ano2017’.
# # Para fazer isso, instalaremos um pacote com novas ferramentas para manipulação de dados
- “dplyr” -, criando novas variáveis com as já existentes
install.packages("dplyr")
library(dplyr)
# # Selecionando colunas com o código e nome das escolas, assim como o resultado 2017
escolas_2017 <- select(idesp_AI, "CodEscola", "Escola", "2017")
# vl <- select(variavel_dados, “coluna_desejada”)
#Esta última linha serve para existir uma pausa antes da próxima ação
readline(prompt="Press [enter] to continue")
#Ao fim do processo você deve conseguir encontrar um gráfico como este:
13
14
# # Instalando pacote - reshape2 - para manipulação específica do dado visando gerar o gráfico
2
install.packages("reshape2")
library(reshape2)
# # .... o tipo de dado da coluna não sai certo. Assim, é necessário alterar o tipo da coluna com a
operação a seguir (o índice entre colchetes depende da coluna “variable” do top10melt)
top10melt[,2] <- as.numeric(as.character(top10melt[,2]))
str(top10melt)
##
print( ggplot(top10melt, aes(variable, value, colour = Escola)) + geom_line()
+geom_point(aes(shape = Escola)) )
#Ao final deste tópico você deve conseguir gerar um gráfico como este:
16
# 3) Agora partiremos para nosso 3º subtópico em que plotaremos às escolas no mapa, para
isso cruzaremos a nossa tabela atual com a base de endereços de escolas, a qual possui os
dados de latitude e longitude. Apesar de já termos os municípios na tabela, faremos este passo
para uma questão didática e porque na etapa seguinte utilizaremos o que foi feito aqui.
library("ggmap")
#Este é o gráfico que deve ser gerado ao se concluir este tópico, o mapa
gerado pelo google maps com as escolas identificadas pelos pontos pretos:
18
# 4) Por fim na nossa última parte de análise iremos verificar se estas escolas estão inseridas em
um contexto no qual as demais escolas estaduais da região têm notas próximas a ela. Para isso
adotaremos uma medidade bastante eficiente e visual que é plotar um mapa de calor usando
como base às notas do IDESP. Para tanto utilizaremos às duas bases que já baixamos
previamente, a do IDESP e a de endereços.
#Mapa 2 (dados de densidade parecem não estar usando às notas como referências)
print(pfinal)
19
#Ao fim deste tópico, este será o mapa que deve ser gerado. Vemos as escolas
previamente encontradas marcadas em preto(mas com uma escala menor) como no
mapa anterior e vemos as notas das outras escolas pela cor vermelha, quanto mais
intensa a cor, maior a nota.
20
1) Muitas vezes é melhor dividir os processos em algumas etapas, por isso crie e utilize
variáveis intermediárias ao processo para localizar possíveis erros de cálculo ou
referência e tornar mais fácil a correção do problema.
3)Quando for referênciar colunas cujo título é numérico use aspas simples. Ex: ‘2018’
ou dataframe$’2018’.
Links úteis
Para saber e aprender mais sobre R e trabalho com dados seguem abaixo alguns links que
podem te ajudar:
https://escoladedados.org/
https://www.devmedia.com.br/trabalhando-com-a-linguagem-r/33275
https://coda.escoladedados.org/
https://escoladedados.org/2018/01/31/coda-br-20-recursos-para-o-trabalho-com-dados-
compartilhados-por-nossos-instrutores/
http://datajournalismhandbook.org/pt/entendendo_os_dados_6.html
https://knightcenter.utexas.edu/pt-br/blog/00-13915-guia-para-jornalistas-que-querem-
aprender-programar
http://datajournalismhandbook.org/pt/entendendo_os_dados_0.html
https://journalismcourses.org/RC0818.html
22
Notas