Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística
Material Teórico
Conceitos Gerais
Revisão Textual:
Prof.ª Me. Natalia Conti
Conceitos Gerais
• Linguagem R;
• Instalação e Configuração R;
• Conceitos Básicos.
OBJETIVO DE APRENDIZADO
• Conceitos básicos sobre como trabalhar com a linguagem R.
Orientações de estudo
Para que o conteúdo desta Disciplina seja bem
aproveitado e haja maior aplicabilidade na sua
formação acadêmica e atuação profissional, siga
algumas recomendações básicas:
Conserve seu
material e local de
estudos sempre
organizados.
Aproveite as
Procure manter indicações
contato com seus de Material
colegas e tutores Complementar.
para trocar ideias!
Determine um Isso amplia a
horário fixo aprendizagem.
para estudar.
Mantenha o foco!
Evite se distrair com
as redes sociais.
Seja original!
Nunca plagie
trabalhos.
Não se esqueça
de se alimentar
Assim: e de se manter
Organize seus estudos de maneira que passem a fazer parte hidratado.
da sua rotina. Por exemplo, você poderá determinar um dia e
horário fixos como seu “momento do estudo”;
No material de cada Unidade, há leituras indicadas e, entre elas, artigos científicos, livros, vídeos
e sites para aprofundar os conhecimentos adquiridos ao longo da Unidade. Além disso, você tam-
bém encontrará sugestões de conteúdo extra no item Material Complementar, que ampliarão sua
interpretação e auxiliarão no pleno entendimento dos temas abordados;
Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discus-
são, pois irão auxiliar a verificar o quanto você absorveu de conhecimento, além de propiciar o
contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e de
aprendizagem.
UNIDADE Conceitos Gerais
Linguagem R
O R Project (2019) define R como “uma linguagem e ambiente para computa-
ção estatística e gráficos”, ou seja, com o R você será capaz de realizar estatística
clássica e moderna, e visualizar seus dados em um ambiente desenvolvido com
essa finalidade.
Então você deve estar se perguntando: “Por que aprender uma linguagem de
programação estatística?” A resposta vem da necessidade de processar dados e
extrair informações relevantes. Atualmente, tal trabalho não anda sendo fácil, isso
ocorre devido à quantidade de dados que geramos todos os dias. Nós geramos da-
dos quando realizamos consultas na internet, acessamos mídias sociais, recebemos
e lemos e-mails.
Já ouviu falar que os dados são o novo petróleo? Isso porque existem empre-
sas especializadas em aquisição e venda de dados. Porém, é comum a extração
deles diretamente das fontes, por exemplo a utilização de twites ou dados do
governo para realizar análises. Mas o que esse papo de dados tem a ver com a
linguagem estatística?
Nos últimos anos a linguagem R se tornou importante, pois com ela é possí-
vel manipular, processar e visualizar grandes volumes de dados. Passando a ser
utilizada não somente por estatísticos, mas por pesquisadores de áreas distintas e
também por profissionais de computação e áreas correlatas.
8
Figura 1 – Ranking de linguagens de programação mais utilizadas em 2018 - IEEE Spectrum
Fonte: Adaptado de spectrum.ieee.org
9
9
UNIDADE Conceitos Gerais
O nome da linguagem R provem das iniciais dos criadores e de um jogo de palavras com
a linguagem S. Fonte: http://bit.ly/322prpY
Instalação e Configuração R
A instalação do R é simples, basta ir no site do CRAN <cran.r-project.org>, este
é o repositório oficial do R Project, no qual estão disponíveis além das versões do
R para os sistemas operacionais Windows, Linux e (Mac) OS X, todos os pacotes
e documentação oficial da linguagem R.
Após a instalação do R, você verá que foi instalado duas versões do programa,
uma 32 e outra 64 bits. Não se preocupe não ocorrerá nenhum problema em seu
computador relacionados a conflitos de versão.
10
Figura 2 – Ambiente RGui instalado junto com o R
Vale ressaltar que se houver algum erro na instalação do R não irá aparecer a
lista de opções para selecionar no RStudio.
Explor
RStudio
Segundo Oliveira (2018), o R puro é como um prompt de comando (tela preta),
então apresenta dificuldade para quem está iniciando a aprendizagem do R, por
esse motivo indica-se a utilização do ambiente de desenvolvimento RStudio, repre-
sentado na Figura 3.
11
11
UNIDADE Conceitos Gerais
Figura 3 – RStudio
Fonte: Acervo do conteudista
12
O quarto e último quadrante está relacionado com a visualização de dados e infor-
mações, por padrão contém as abas: “Files”, “Plots”, “Packages”, “Help” e “Viewer”.
• “Files” apresentará todo o conteúdo do diretório de trabalho, caso não tenha
indicado um, por padrão será o Home do usuário (no Linux) e Documentos
(no Windows).
• Em “Plots” será apresentado os gráficos desenvolvidos pelo usuário.
• “Packages” apresenta a lista de pacotes instalados no seu computador, também
é possível realizar a busca, atualização e instalação de pacotes por essa aba.
• A aba “Help” apresenta a documentação do R, basta realizar uma consulta
sobre algum termo, por exemplo escreva palavra “numeric” na barra de busca
e aparecerá tudo o que for referente ao termo, neste caso sobre vetores numé-
ricos e como converter.
• A aba “Viewer” mostra conteúdo em HTML, como por exemplo visualizações
interativas utilizando o “Shiny”.
Explor
Conceitos Básicos
Por ser uma linguagem estatística, podemos dizer que o R pode realizar diversos
tipos de cálculos científicos, para tanto basta escrever os comandos. Primeiro va-
mos testar alguns comandos no console.
Posicione o cursor na frente do sinal “>” digite 6+4 e aperte a tecla “Enter”, note
que a resposta apresentada será “[1] 10”. Agora, digite a expressão (3-4)+6+4*2
a resposta é “[1] 13”, obedecendo as regras de precedência matemática. Quando
desejar limpar o console clique nele e aperte as teclas “Ctrl+L”.
13
13
UNIDADE Conceitos Gerais
R script
Como dito anteriormente, toda codificação realizada no console não pode ser
salva, para tanto nós precisamos criar arquivos R, os chamados R scripts.
14
as equações aperte botão “Run” ou as teclas de atalho “Ctrl+Enter”. Note que irá
executar somente a linha onde cursor estiver parado. Essa é uma particularidade
do “Run”, executa uma linha por vez.
Então, você deve estar pensando: “Vou ter que selecionar tudo e mandar execu-
tar?”. Isso também pode ser feito, mas caso queira executar todo o script o ideal é
clicar em “Source” ou as teclas de atalho “Ctrl+Shift+enter”.
Para salvar um script R clique “Save current” ou a tecla “Ctrl+S”. Por boas
práticas de programação da comunidade R sugere-se a utilização de um nome ex-
plicativo para o arquivo, não utilize caracteres especiais, espaços em branco. Um
exemplo bom exemplo de nome seria “Meu_Primeiro_Programa.R” ou “Aula1.R”.
15
15
UNIDADE Conceitos Gerais
Comentário
Quando escrevemos um programa, independente da linguagem escolhida, é
muito comum colocarmos explicações em algumas partes do código fonte, para
explicar quando e porque determinada função/método é utilizado.
Nesses casos fazemos comentários no código, ou seja, tudo que for identificado
como comentário no código fonte será ignorado pelo compilador/interpretador.
No R o símbolo para indicar comentário é #, todo conteúdo que vier a partir deste
símbolo ficará em verde e será ignorado.
Comandos
Agora que você já sabe criar e executar R scripts, lembre-se que de agora em
diante sempre utilizará o editor de código e salvará seus scripts. Pois tudo que é
feito no console não poderá ser salvo e reutilizado. Para treino, escolha um ou mais
dos comandos apresentado anteriormente, escreva e execute no seu Script.
No R temos que tomar cuidado com alguns detalhes quando se trata de coman-
dos, pois alguns deles são palavras reservadas como if, else, do, while, for, etc, e
eles possuem uma cor diferente.
Pacotes
Alguns comandos ou funções são instalados por padrão, tais funções são cha-
madas de R base. Por mais que o R base tenha uma grande lista de funções, às
vezes o que precisamos para resolver determinado problema não está na base.
Quando isso ocorrer, uma ideia é ir pesquisar se existe algum pacote que atenda
minha necessidade.
Os pacotes são conjuntos de funções extras que podem ser instalados
além do R base, existem pacotes para auxiliar diversas linhas de pesqui-
sa, como por exemplo: estatística, econometria, aprendizado de máqui-
na, big data, gráficos etc. (DA SILVA, PERES e BOSCARIOLI, 2017;
OLIVEIRA, 2018)
16
Todo pacote R disponibilizado pelo CRAN, passou por uma rígida bateria de
testes e validações por toda comunidade antes de ser disponibilizado oficial no
repositório. Por esse motivo, a utilização de pacotes é altamente indicada no desen-
volvimento dos R scripts.
Pode-se instalar os pacotes via interface gráfica do RStudio, pelo menu “Tools
/ Install Packages” ou na aba “Packages”, de ambas as formas irá aparecer uma
janela na qual você digita o nome do pacote a ser instalado. Essa janela ajuda muito
quando não temos certeza de como se chama o pacote, pois ao digitar parte do
nome irá mostrar uma lista de nomes, conforme ilustrado na Figura 5.
Por boas práticas, indico sempre que utilizar um pacote em seus scripts, deixe no
início dele o comando “install.packages(“Nome do pacote”)”, pois se outra pessoa
ou até mesmo você for executar seus scripts em outro computador o pacote neces-
sário será instalado sem nenhum problema. Se ocorrer erro dizendo que o pacote
já está instalado, pode comentar os comandos de instalações de pacotes.
17
17
UNIDADE Conceitos Gerais
Para saber quais pacotes estão disponíveis para utilizar em determinada área ou
resolução de problemas: se souber o nome do pacote faça uma busca no RSeek
(ou Google) pelo nome do pacote e abra o link do CRAN, pois é a documentação
oficial, como exemplificado na Figura 7.
18
Porém, há casos em que há um problema específico, por exemplo criar uma
ligação de um script R com uma Base de Dados. Pode-se ir diretamente ao CRAN,
clique no link “Packages” e depois clique em “CRAN Task Views”, nessa opção irá
aparecer uma lista de tópicos por área do saber, como mostra a Figura 8. No nosso
exemplo vamos clicar em “Databases” e depois selecionar o Sistema Gerenciador
de banco de dados ou tecnologia desejada.
Figura 8 – Lista tarefas comuns de serem resolvidos com R, organizados por tópico
Fonte: cran.r-project.org
Boas Práticas
Em qualquer outra linguagem de programação Open Source é comum o com-
partilhamento de código fonte, com o R não é diferente. Para que o compartilha-
mento de scripts e a adoção de funções e pacotes ocorram de maneira natural,
existe um conjunto de regras a serem seguidas.
19
19
UNIDADE Conceitos Gerais
Note que o nome das variáveis começa com letras minúsculas, enquanto as
funções começam com letras maiúsculas. Quando lemos os nomes de ambas já
sabemos o que esperar tanto do cálculo quanto do valor a estar ali.
• Fazer identificação no código fonte, pois assim ficará organizado. Facilitando
para a pessoa que não escreveu o script saber quais linhas estão dentro de
determinada função/método ou estrutura de controle;
• Colocar comentários explicando o objetivo de determinada função ou trecho
de código, para facilitar futuras alterações nó código;
• Evite colocar mais de 80 caracteres em uma linha;
• Espaço entre todos os operadores binários, exemplo: if, =, +, etc.
20
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
Sites
Wiki R
http://bit.ly/2Nsuexy
Leitura
O Que é, Onde Aplicar e quais as Vantagens da Linguagem R
http://bit.ly/2Nq8vGI
Uma Breve Introdução ao R
http://bit.ly/2Nq8K4A
Eco R – using R. Apostila online
http://bit.ly/2NsuWuI
21
21
UNIDADE Conceitos Gerais
Referências
DA SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de
dados: com aplicações em R. Elsevier Brasil, 2017.
Sites visitados
CRAN, The Comprehensive R Archive Network. Site: <https://cran.r-project.org>.
Acessado em: 05/2019.
22