Apostila Introdução Ao R Versao 1.1

Letcia Mancini Martins
Introdu
c
ao ao R
Trabalho submetido à Universidade Federal

do ABC como parte dos requisitos para a
conclusao do projeto de pesquisa de Iniciacao Cientifica.
Santo Andre - Sao Paulo

versao 1.1, setembro de 2010
2
Direitos de Copia @2010 por Letcia Mancini Martins. Todos os direitos reservados.
Este documento e gratuto; voce pode redistribu-lo e/ou modifica-lo dentro dos
termos da Licenca P
ublica Geral GNU como publicada pela Fundacao do Software
Livre (FSF); na versao 2 da Licenca, ou (na sua opniao) qualquer versao.
Este programa e distribuido na esperanca que possa ser u
til, mas SEM NENHUMA
a qualquer MERCADO
GARANTIA; sem uma garantia implicita de ADEQUAC
AO
EM PARTICULAR. Veja a Licenca P
ou APLICAC
AO
ublica Geral GNU para
maiores detalhes.
Voce deve ter recebido uma copia da Licenca P
ublica Geral GNU junto com este
programa, se nao, escreva para a Fundacao do Software Livre(FSF) Inc., 51 Franklin
St, Fifth Floor, Boston, MA 02110-1301 USA
Possveis versoes podem ser lancadas contendo informacoes adicionais a` medida que
os usuarios desta apostila vao tendo d
uvidas. Por isso, solicito a todo usuario que,
ao ter alguma d
uvida e/ou verificar a falta de algum topico importante ou erro nesta
apostila, relatar à autora, cujo e-mail e leticia mancini@yahoo.com.br.
Ficha Catalogr
afica
Mancini-Martins, Letcia.
Tutorial R. Santo Andre, 2010. 65p
Iniciacao Cientfica - Universidade Federal do ABC. Centro de Matematica, Computacao
e Cognicao.
1. R-project 2. Estatstica 3. Tutorial 4. Software Livre I. Universidade Federal do ABC.
Centro de Matematica Computacao e Cognicao. II. Introducao ao R.
Introducao ao R - Universidade Federal do ABC

SUMARIO
Sum
ario
1 Introduc
ao
2 Objetivos e metas desta apostila
3 Lista de recursos de Ajuda
4 Arquivos que acompanham a apostila
5 Dicas gerais antes de comecar
6 Baixando e instalando pacotes (packages)
10
6.1
Metodo manual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
6.2
Metodo automatico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
7 C
alculos Simples
11
8 Explorac
ao preliminar dos dados
18
8.1
Inserindo dados (*.txt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
8.2
Tratamento de erros de leitura de dados, possveis casos . . . . . . . . . . . . . .
19
8.3
Transformacao e manipulacao de dados . . . . . . . . . . . . . . . . . . . . . . .
19
8.4
Medidas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
8.5
Funcoes miscelaneas u
teis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
8.6
Funcoes Apply e Tapply . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
9 Comparac
ao de grupos de indivduos.
9.1
Analise de dados utilizando tabelas de contingencia . . . . . . . . . . . . . . . .

2
27
27
9.1.1
O teste qui-quadrado (X ) . . . . . . . . . . . . . . . . . . . . . . . . . .
27
9.1.2
O teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
9.1.3
V de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
9.1.4
Phi de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
9.2
O teste T Pareado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
9.3
O teste T para amostras independentes . . . . . . . . . . . . . . . . . . . . . . .
36
9.4
Analise de Variancia (Anova) ou teste F . . . . . . . . . . . . . . . . . . . . . .
36
9.5
Medidas de Diagnostico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
9.5.1
Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
9.5.2
Regressao linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
9.5.3
Regressao linear m
ultipla . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
9.5.4
Analise Discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50

SUMARIO
10 Gr
aficos
52
10.1 Parametros gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
10.2 Grafico de setores(ou de pizza) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
10.3 Grafico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
10.4 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
10.5 Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
10.6 Grafico de dispersao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
10.7 Exportando o grafico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
INDICE REMISSIVO65
REFERENCIAS
BIBLIOGRAFICAS64
62
1 Introduc
ao
Introduc
ao
A Estatstica esta presente em todas as areas da ciencia que envolvam a coleta e analise
de dados e sua consequente transformacao em informacao, para postular, refutar ou validar

hipoteses cientficas sobre um fenomeno observavel.(1)
O desenvolvimento rapido e constante na area de computacao e tecnologia foi acompanhado pela introducao de novas tecnicas de analises de dados, notadamente de metodos graficos
e de metodos de computacao intensiva.(2) Geralmente, todo profissional ou estudante de Estatstica utiliza-se de recursos computacionais. Atualmente, dentre os muitos programas livres
disponveis no mercado para a analise de dados o mais utilizado e o R.(3)
R (ou plataforma R) e um avancado sistema computacional e estatstico com graficos de
alta qualidade que e disponibilizado gratuitamente para varios sistemas operacionais.(3)
R e um programa que existe como Codigo-Fonte. O seu codigo e aberto, o que significa que
e possvel modifica-lo e melhora-lo sem restricoes. Ha tambem a possibilidade de incrementa-lo
com pacotes de complementos facilmente baixados na internet. Este programa necessita de
poucos requisitos pois utiliza somente 20Mb de memoria do HD e precisa de 16Mb de memoriaram.(3)
R e um programa Command-Line-driven que fornece comandos para interpretar a linguagem
S.
Devido a grande versatilidade do programa e difcil saber para que ele e usualmente utilizando e qual a extensao deste uso. Acredita-se que seja usado para projetos estudantis, aulas
e tambem em pesquisas cientficas.
Neste programa e possvel utilizar um grande diversidade de tecnicas estatsticas como modelagem linear e nao linear, estes estatsticos classicos, analise de series temporais, classificacao
agrupamento, entre outros.
A motivacao que levou a criacao deste programa e principalmente, utilizando codigo fonte
aberto foi a possibilidade de criar um programa u
til e gratuito para facilitar o ensino de estatstica e as pesquisas cientficas no terceiro mundo.
O programa R tem se desenvolvido muito rapidamente, de acordo com Ripley(3) - mantenedor do projeto R - desde fevereiro de 2000 ha cerca de uma atualizacao por mes e uma nova
versao duas vezes ao ano.
Por ser um programa sem fins lucrativos, o seu desenvolvimento depende exclusivamente
de voluntarios. Contribuicoes sempre sao recebidas de bracos abertos.
Em geral, e necessario saber a teoria antes de partir para a pratica, por isso, uma das grandes
dificuldades na Bioestatstica e que programas como o R necessitam de um conhecimento previo,
nao so das tecnicas atreladas a` Bioestatstica como tambem dos comandos e funcionalidades do
programa.(3)
Foi pensando na possibilidade de minimizar as dificuldades encontradas por pesquisadores,
alunos de estatstica e ate mesmo p
ublico em geral ao utilizar programas como o R que este
2 Objetivos e metas desta apostila
projeto foi idealizado.
Objetivos e metas desta apostila

O objetivo deste tutorial e auxiliar na compreensao e uso da plataforma R por estudantes,
professores, pesquisadores e p
ublico em geral.
Fornecer exemplos de cada uma das principais tecnicas estatsticas, feitos a partir de
dados reais.
Estimular a aprendizagem de estatstica atraves de exemplos da funcionalidade e flexibilidade do R.
Mostrar e estimular os leitores a aproveitarem de Softwares livres, evitando as restricoes
comerciais e o uso nao autorizado destes.
Lista de recursos de Ajuda

Paginas do Projeto R
http://r-project.org
O home page do projeto R
http://cran.br.r-project.org
O servidor mirror (espelho) brasileiro
http://r-project.org/mail
Consulte o r-help
http://cran.r-project.org/other-docs.html Documentos de ajuda

Tutoriais de ajuda de colaboradores em Ingl
es
An introduction to R disponvel em
http://cran.r-project.org/doc/manuals/R-intro.html
Simple R de John Verzani disponvel em
http://www.math.csi.cuny.edu/Statistics/R/simpleR/printable/simpleR.pdf
The R Guide de W. J. Owen disponvel em
http://www.mathcs.richmond.edu/~wowen/TheRGuide.pdf
Tutoriais de ajuda de colaboradores em Portugu
es
Tutorial de Introducao ao R disponvel em
http://www.est.ufpr.br/Rtutorial/contents.html
3 Lista de recursos de Ajuda
Bioestatstica usando R de Colin Robert Beasley disponvel em

http://cran.r-project.org/doc/contrib/Beasley-BioestatisticaUsandoR.pdf
Introducao a` Biometria utilizando R de Leandro R. Monteiro e Jose Louvise Gomes-Jr
disponvel em
http://cran.r-project.org/doc/contrib/biometria.pdf
Introducao a` Programacao em R de Luis Torgo disponvel em
http://cran.r-project.org/doc/contrib/Torgo-ProgrammingIntro.pdf
Toppicos de Estatstica utilizando R de Fernando Itano disponvel em
http://cran.r-project.org/doc/contrib/Itano-installation.pdf
Guia de instalacao do R de Fernando Itano
Introducao ao R 2009 de Victor Lemes Landeiro disponvel em
http://ppbio.inpa.gov.br/Port/public/disciplinas2/Introducao\%20ao\%20R\%202009.
pdf
Recomenda-se no site acima o documento R for Beginners (Ingles) da autoria de Emanuel
Paradis, ou R para Principiantes (a traducao da R for Beginners para o Espanhol feita por
Jorge A. Ahumadal).
Algumas p
aginas chaves sobre Software Livre (SL)
http://www.fsf.org/home\_pt.html Free Software Foundation (GNU)
http://www.softwarelivre.rs.gov.br Site sobre SL do Governo do RS
http://www.softwarelivre.unicamp.br/sl Site sobre SL da UNICAMP, SP
http://gufsc.lcmi.ufsc.br Grupo de usuarios de SL da UFSC
http://focalinux.cipsga.org.br/guia/inic\_interm/ch-intro.htm
Introducao ao GNU/Linux
Livros
4 Arquivos que acompanham a apostila
Dalgaard P (2002) Introductory Statistics with R. Springer, New York, ISBN 0-387-95475-9.
Fox J (2002) An R and S-PLUS Companion to Applied Regression. Sage Publications,
ISBN 0-761-92280-6 (softcover) ou 0-761-92279-2 (hardcover)
Comandos de ajuda do R
> help.start()
inicia documentacao na forma de arquivos html visualizados no seu browser
> help(sqrt)
inicia uma janela de ajuda sobre topico
Arquivos que acompanham a apostila

Nos exemplos contidos neste tutorial, sera usado alguns bancos de dados. Eles estarao
disponveis em breve na pagina http://lmmartins.webnode.com.br/publicacaobibliografica/
Dicas gerais antes de come

car
Na plataforma R, o texto devem ser digitados apos o prompt de comando > (sinal de maior).
Em alguns casos, o sinal de + ira surgir no lugar do prompt. Isso significa que algum comando
esta faltando. Neste tutorial os comandos serao precedidos de >, e em alguns momentos de +
para facilitar a familiaridade com a plataforma. Nao digite nenhum dos dois sinais na plataforma.
Os comandos digitados aparecerao em vermelho e a resposta da R aparecera em azul. Apos
digitar algum comando tecle enter para que ele seja executado.
As funcoes sempre sao acompanhadas de parenteses como, por exemplo, help() que abre a
ajuda da plataforma. Os parametros que o usuario deseja utilizar na funcao devem ser escritos
dentro dos parenteses.
A plataforma e case-sensitive, ou seja, ela diferencia letras min

usculas e MAIUSCULAS.
Voce pode ver e reeditar o historico de comandos digitados durante a sessao pressionando
a tecla de seta para cima ().
5 Dicas gerais antes de comecar
Lembre sempre que R usa um ponto . em vez de vrgula , quando ha n

umeros com casas
decimais. Se precisar importar dados que usam vrgulas em vez de pontos, troque na planilha
as vrgulas por pontos usando Editar > Localizar e Substituir, do contrario, os dados nao serao
reconhecidos como n
umeros. As vrgulas sao utilizadas para separar dados e argumentos. Por
exemplo, os dados a seguir tem casas decimais definidos usando pontos, mas os valores estao
separados por vrgulas.
A, B, C
2.6, 3.8, 7.6
Nao recomenda-se que utilize acentos nas palavras, pois acentos sao usados na linguagem
R como comandos e utiliza-los no nome de variaveis pode causar erros.
Voce pode copiar e colar na linha de comando: primeiro seleciona o texto a ser copiado
e, em Windows clique com o botao direito do mouse, selecione Copiar e clique novamente no
botao direta e selecione Colar. Use tambem os atalhos do teclado Ctrl+C e Ctrl+V.
Neste documento, comandos a serem digitados na linha de comando serao assinalados com
o prefixo > (o prompt do R) e estao na fonte Courier New ex. > mean(massa).
Texto em Courier New sem o prompt > e o resultado.
Os demais textos sao as explicacoes e comentarios da autora.
Se for utilizar uma mesma seq
uencia de comandos varias vezes, voce pode criar e salvar
um script. Clique em Arquivo > Novo Script para criar. Depois clique em Arquivo > Salvar
Script para salva-lo. Depois que escrever o script e so copiar e colar na area de trabalho que a
plataforma executara os comandos.
Quando a plataforma e aberta, uma area de trabalho surge e e nela que voce realizara suas
analises. Alem do script, essa area de trabalho tambem pode ser salva. Nunca salve mais de
uma area de trabalho em uma mesma pasta.
Na plataforma R o sinal # - cujo nome oficial e Octothorpe1, porem e mais conhecido como
jogo-da-velha ou cerquilha - e usado para inserir comentarios. Utilize-o sempre, desta forma
evitara esquecer o que faz cada codigo em seu script.
Para sair da R usa > q(). Um dialogo aparecera perguntando se quer salvar o espaco de
trabalho. Para os estudos que faremos nesse tutorial nao sera necessario salvar a imagem do
6 Baixando e instalando pacotes (packages)
10
espaco de trabalho.
Baixando e instalando pacotes (packages)

O programa R possui tres partes: o r-base, que e o pacote basico que contem todas as
funcoes principais que estao disponveis quando iniciamos o programa; os pacotes recomendados
que sao instalados com o R-base mas nao sao carregados automaticamente e para utiliza-los e
necessario usar a funcao require(pacote); e os pacotes de contruibuicao que nao sao instalados
com o R-base mas podem ser baixados pela internet. A instalacao desses ultimos pode ser feita
manualmente ou automaticamente.
Antes de instalar qualquer pacotes, voce verificar se ele esta instalado. Todos os pacotes
instalados em um computador podem ser vistos utilizando o comando abaixo:
> library()
Alem disso, voce pode utilizar a funcao require() para verificar que aquele determinado
pacote esta instalado.
Exemplo de pacote que esta instalado:
> require(MASS)
Carregando pacotes exigidos:
MASS
Warning message:
pacote MASS foi compilado na vers~
ao do R 2.9.2
Exemplo de pacote que nao esta instalado:
> require(Hmisc)
Carregando pacotes exigidos:
Hmisc
Warning message:
In library(package, lib.loc = lib.loc, character.only = TRUE, logical.return
= TRUE, :
6.1
n~
ao h
a nenhum pacote chamado Hmisc
M
etodo manual
Na pagina http://cran.r-project.org/web/packages/ (em ingles) voce encontra uma lista de

pacotes que podem ser baixados. Clicando em um pacote voce vera o que ele faz e de que
pacotes ele precisa.
6.2
M
etodo autom
atico
11
Por exemplo, vamos instalar o pacote Rocr que e necessario para fazer curvas Roc na R.
Na pagina citada anterior clique na letra R. Procure na lista pelo nome do pacote ROCRe
clique nele. No pagina do pacote voce tera acesso a informacoes como abaixo:
Version (versao): 1.0-4 Depends (pacotes que ele depende): gplots, methods Published (data
de publicacao): 2009-12-14 Author (autor): Tobias Sing, Oliver Sander, Niko Beerenwinkel,
Thomas Lengauer Maintainer (mantenedor): Tobias Sing <tobias.sing at mpi-sb.mpg.de>
Em downloads, procure o arquivo para o seu sistema operacional e baixe o arquivo.
Na R, clique no menu pacotes e depois em instalar pacotes a partir de arquivos zips locais.
Selecione o arquivo que voce baixou e a R ira instala-lo. Para utiliza-lo agora e so digitar
library(ROCR) ou require (ROCR) antes de utilizar o pacote.
6.2
M
etodo autom
atico
Na R, clique no menu pacotes e depois em Escolher Espelho CRAN. Escolha qualquer

espelho de preferencia o mais proximo da sua localizacao.
Depois clique em Pacotes > Escolher repositorio e escolha os repositorios dos quais quer
baixar. Neste caso, voce pode selecionar mais de um.
Por fim, clique em Pacotes > Instalar Pacotes. Em alguns segundos, uma janela com os
pacotes disponveis se abrira e voc e podera selecionar o pacote que quer instalar.
Escolha, por exemplo, o pacote Hmisc que faz graficos do tipo piramide populacional.
C
alculos Simples
Utilizando a linha de comando de R podemos realizar calculos algebricos simples. Observe
os exemplos abaixo.
Voce pode somar,
> 1 + 1
[1] 2
subtrair,
> 14 - 6
[1] 8
multiplicar,
> 3 * 4
[1] 12
7 C
alculos Simples
12
dividir,
> 47/11
[1] 4.27
e tambem realizar calculos mais complexos como potenciacao,
> 2^6
[1] 64
ou entao, o seno de um angulo:
> sin(5)
[1] -0.959
Atencao! Todos os valores devem ser escritos em radianos e nao em graus. Lembre-se de que
2 equilavem a 360.
Outras possveis funcoes trigonometricas sao:
> cos(x)
calcula o cosseno de um angulo
> cos(x)
calcula o cosseno de um angulo
> tan(x)
calcula a tangente de um angulo
> acos(x)
calcula o angulo de um determinado valor de cosseno
> asin(x)
calcula o angulo de um determinado valor de seno
> atan(x)
calcula o angulo de um determinado valor de tangente
> cosh(x)
calcula o cosseno hiperbolico de um angulo
> sinh(x)
calcula o seno hiperbolico de um angulo
> tanh(x)
calcula a tangente hiperbolica de um angulo
> acosh(x) calcula o angulo de um determinado valor de cosseno hiperbolico

> asinh(x) calcula o angulo de um determinado valor de seno hiperbolico
> atanh(x) calcula o angulo de um determinado valor de tangente hiperbolica
Alguns erros podem surgir se o R nao entender os comandos digitados. Por exemmplo,
o separador de casas decimais e o ponto e nao a vrgula. A vrgula e utilizada para separar
elementos. Observe os exemplos abaixo:
Ex.1
> 2,3*2 Error:
syntax error
Ex.2
> 2.3 * 2
[1] 4.6
7 C
alculos Simples
13
Voce pode nomear um resultado ou valor qualquer a fim de utiliza-lo em outros calculos.
Isso pode ser feito utilizando tres formas diferentes de comando:
Nome <- Valor
> x <- 2
> x
[1] 2
Valor -> Nome > 2 -> x
> x
[1] 2
Nome = Valor
> x = 2 * 2
> x
[1] 4
Todo tipo de calculo pode ser feito utilizando esse comando.
Voce pode designar um nome para um valor e utiliza-lo em um calculo simples.
> x <- 2
> x * 3 + 4
[1] 10
E pode guardar um novo valor na mesma variavel.
> x <- x + 1
> x
[1] 3
Outras funcoes e comandos essenciais:
Raiz quadrada
> sqrt(49)
[1] 7
Log em qualquer base
7 C
alculos Simples
14
> log(1, base = 10)

[1] 0
Log na Base 10
> log10(1e+10)
[1] 10
Log na Base 2
> log2(1024)
[1] 10
A expressao abaixo e equivale a expressao log (x + 1).
> log1p(1)
[1] 0.693
Ja esta equivale a e1 .
> exp(1)
[1] 2.72
A seguinte expressao e equivalente a e(x) 1.
> expm1(1)
[1] 1.72
A integral da funcao f nos limites de a e b, pode ser calculada usando a funcao abaixo:
> a = 1
> b = 13
> f = function(x) ((x^2 - x)/2)
> integrate(f, a, b)
324 with absolute error < 3.6e-12
7 C
alculos Simples
15
Voce pode criar uma matriz utilizando a funcao matrix(). Esse comando tem os seguintes
argumentos:
x
conjunto de n
umero que compoem a matriz
nrow
este parametro determina o n

umero de colunas da matriz
ncol
este parametro determina o n

umero de colunas da matriz
byrow
e parametro booleano onde FALSE significa que o preenchimento comeca

pelas colunas, caso contrario, o preenchimento comeca pelas linhas
dimnames e um parametro que nomeia as linhas e colunas da matriz

Exemplo 1.
> matriz <- matrix(c(1, 0, 0, 0, 1, 0, 0, 0, 1), nrow = 3, ncol = 3,
+
byrow = TRUE, dimnames = list(c("Linha1", "Linha2", "Linha3"),
c("Coluna1", "Coluna2", "Coluna3")))
> matriz
Coluna1 Coluna2 Coluna3
Linha1
Linha2
Linha3
Voce tambem pode criar uma matriz e atribuir valores individualmente, por exemplo:
> A = matrix(0, 3, 6)
O valor 0 equivale aos valores que no exemplo anterior era uma lista de valores, o n
umero
de linhas e 3 e o n
umero de colunas e 6. Inicialmente a matriz fica da seguinte forma:
> A
[,1] [,2] [,3] [,4] [,5] [,6]
[1,]
[2,]
[3,]
Agora voce pode atribuir valores quaisquer a` matriz, sendo que A[1,2], significa o elemento
da primeira linha e segunda coluna da matriz A.
> A[1, 1] = 72
> A[1, 2] = 28
> A[1, 3] = 36
> A[1, 4] = 41
> A[1, 5] = 23
> A[2, 1] = 30
7 C
alculos Simples
16
> A[2, 2] = 51
> A[2, 3] = 47
> A[2, 4] = 30
> A[2, 5] = 42
Voce tambem pode realizar contas com os fatores da matriz como abaixo:
> A[1, 6] = A[1, 1] + A[1, 2] + A[1, 3] + A[1, 4] + A[1, 5]
> A[2, 6] = A[2, 1] + A[2, 2] + A[2, 3] + A[2, 4] + A[2, 5]
> A[3, 1] = A[1, 1] + A[2, 1]
> A[3, 2] = A[1, 2] + A[2, 2]
> A[3, 3] = A[1, 3] + A[2, 3]
> A[3, 4] = A[1, 4] + A[2, 4]
> A[3, 5] = A[1, 5] + A[2, 5]
> A[3, 6] = A[1, 6] + A[2, 6]
> A
[,1] [,2] [,3] [,4] [,5] [,6]
[1,]
72
28
36
41
23
200
[2,]
30
51
47
30
42
200
[3,]
102
79
83
71
65
400
Voce pode usar tambem rotinas de repeticao para realizar um mesmo calculo varias vezes:
> x = 0
> for (cont in 1:8) {
+
x <- x + 1
+ }
> x
[1] 8
O comando for, repete um mesmo calculo quantas vezes voce desejar. Neste caso ele ira
repetir 8 vezes o ato de somar uma unidade. A variavel cont e um contador que o programa
usa pra marcar quantas vezes ele precisa fazer um calculo. O contador deste caso utiliza a
sequencia numerica de 1 ate 8.
Entao para aqueles que nao estao familiarizados com programacao aqui esta uma traducao
deste comando:
para (cont de 1 ate 8) fazer calculo
Basicamente, o programa fez x = 0 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1
A sequencia utilizada dentro da rotina for tambem e um comando e voce pode utiliza-lo.
Essa e a sequencia de 0 ate dez.
7 C
alculos Simples
17
> 0:10
[1]
9 10
Coloca-se a sequencia dentro de uma variavel.

> a <- 0:10
Qualquer calculo pode ser feito com a variavel e ele e realizado utilizando todos os elementos
da sequencia.
Pode-se, por exemplo, multiplicar a sequencia por uma constante.
> a * 2
[1]
8 10 12 14 16 18 20
Pode-se tambem fazer calculos utilizando duas ou mais sequencias.

> b <- 10:0
Pode-se, somar duas sequencias,
> a + b
[1] 10 10 10 10 10 10 10 10 10 10 10
...subrair,
> a - b
[1] -10
-8
-6
-4
-2
10
e ate multiplica-las.
> a * b
[1]
9 16 21 24 25 24 21 16
Alem disso, duas sequencias podem ser juntadas e armazenadas em uma terceira. Para isso
significa concatenar (juntar).
usaremos c(), o S cT
> a <- 0:10
> b <- 50:70
Observe essa funcao. Estamos concatenando primeiro a sequencia a e depois a sequencia b
em uma sequencia que chamamos de m.
8 Explorac
18
> m = c(a, b)
> m
[1]
9 10 50 51 52 53 54 55 56 57 58 59 60 61 62 63
[26] 64 65 66 67 68 69 70
Podemos fazer tambem o contrario e formar uma sequencia nova, concatenando primeiro b
e depois a.
> n = c(b, a)
> n
[1] 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70
[26]
9 10
Explorac
8.1
Inserindo dados (*.txt)
O codigo a seguir tem como objetivo mudar o diretorio que a plataforma usa para buscar
os arquivos.
O codigo precedido pelo smbolo # e um comentario que voce pode adicionar ao codigo a
fim de explicar o que cada parte do codigo significa.
#MUDANCA
DE DIRETORIO
Esse comando mostra ao usuario o diretorio em que a plataforma ira trabalhar.
> getwd()
[1] "C:/Documents and Settings/Acer/Meus documentos/_Ufabc_/Projetos/Sweave"
Aqui coloca-se o conte
udo do comando em uma variavel.
> wdir <- getwd()
O comando abaixo guarda como novo diretorio a ser utilizado neste trabalho, a pasta cujo
caminho o usuario colocar entre as apas.
> setwd("C:/Documents and Settings/Acer/Meus documentos/")
Voce pode usar o comando abaixo novamente para conferir se o novo diretorio foi salvo.
> getwd()
[1] "C:/Documents and Settings/Acer/Meus documentos"
8.2
Tratamento de erros de leitura de dados, possveis casos
8.2
19
Tratamento de erros de leitura de dados, possveis casos
DISPONIVEL
AINDA NAO
8.3
Transforma
c
ao e manipulac
ao de dados
A funcao read.table() le um arquivo de uma tabela (ou planilha) no formato *.txt (salvo
em um editor de texto como por exemplo o Wordpad ou Bloco de Notas).
No exemplo abaixo, a tabela lida foi salva na variavel dados.
dados=read.table("pesquisa8.txt", header=TRUE, row.names=1)
Parametros dentro da funcao podem ser modificados com o objetivo de alterar a forma
como o programa le o arquivo. Como por exemplo:
header=TRUE significa que a primeira linha contem os nomes das colunas
row.names=1
significa que a primeira coluna contem os nomes das fileiras
No exemplo abaixo, o programa le a tabela e guarda a tabela na variavel dados.
> dados = read.table("pesquisa8.txt", header = TRUE)
Ao digitar a variavel dados, toda a tabela lida sera mostrada ao usuario. Ja utilizando
o nome da variavel depois do smbolo $ e depois o nome de uma coluna da tabela e possvel
mostrar somente a referida coluna, como mostra abaixo. Os n
umeros entre colchetes indicam
o ndice do primeiro valor que cada linha mostra.
> dados$O2
[1]
[26]
[51]
[76]
[101]
[126]
1 42
Antes de salvar uma planilha em txt, lembre-se de substituir as vrgulas por pontos utilizando o menu Editar < Substituir.
A funcao table() identifica os diferentes termos da coluna e conta quantas observacoes de
cada ocorrem. No caso abaixo: 3 pessoas responderam 0, 146 pessoas respoderam 1 e 1 pessoa
respondeu 42.
> table(dados$O2)
0
42
3 146
8.4
Medidas Descritivas
8.4
20
Medidas Descritivas
A funcao summary() faz um resumo dos dados calculando as seguintes medidas:

Min. (Mnimo),
e o valor da menor observacao realizada.
1st. Qu (10 Quartil), valor que divide os dados em 25% menores e 75% maiores.
Median (Mediana),
e o valor que divide as observacoes em dois grupos iguais.
Mean (Media),
e o valor central das observacoes.
1st. Qu (3 Quartil), valor que divide os dados em 75% menores e 25% maiores.
Max. (Maximo),
e a maior observacao realizada.
Observe o exemplo abaixo, onde calculou-se um resumo da idade dos entrevistados.
> summary(dados$Q2I)
Min. 1st Qu.
16.0
Median
19.0
23.5
Mean 3rd Qu.
Max.
32.1
84.0
47.8
Essas medidas tambem podem ser calculadas separadamente atraves dos comandos:
> min(dados$Q2I)
[1] 16
> max(dados$Q2I)
[1] 84
> mean(dados$Q2I)
[1] 32.1
> median(dados$Q2I)
[1] 23.5
moda? 1 quartil 3 quartil
Outras medidas descritivas que podem ser calculadas sao;
> var(x) Variancia
> sd(x)
Desvio Padrao
8.5
Func
oes miscel
aneas u
teis
8.5
21
Fun
c
oes miscel
aneas u
teis
Voce pode verificar os objetos existentes na area de trabalho utilizando a funcao a seguir:
> ls()
[1] "a"
"A"
"a.vert"
"a.x"
"anova"
[6] "b"
"B"
"b.x"
"c"
"c.x"
[11] "col"
"cont"
"d"
"d.x"
"d1"
[16] "dados"
"dados2"
"def.par"
"escola0"
"escola1"
[21] "escola2"
"escola3"
"escola4"
"escola5"
"escola6"
[26] "escola7"
"ex"
"f"
"freq"
"fumo"
[31] "h"
"homem"
"i"
"idade"
"k"
[36] "L"
"leg"
"m"
"M"
"m.read"
[41] "mat"
"mat1"
"matriz"
"mm"
"modelo"
[46] "mulher"
"n"
"N"
"perf"
"phi"
[51] "pred"
"read"
"read1"
"resposta"
"reta1"
[56] "reta2"
"ROCR.simple" "rp"
"rs"
"sum.plus.2"
[61] "t"
"tab"
"title"
"v"
"val"
[66] "vcramer"
"wdir"
"x"
"X"
"x.data"
[71] "y"
"z"
"Z"
"z1"
Voce pode tambem remover objetos que nao serao mais utilizados com seguinte a funcao:
> rm(x, y)
Voce pode verificar que tipo de componentes tem cada variavel utilizando a funcao mode()
> a.x = c("A", "B", "C", "D")
> b.x = c("A", 1, "B", 1)
> c.x = c(1, 2, 3, 4)
> d.x = c("sol", "lua", "noite", "dia")
> mode(a.x)
[1] "character"
> mode(b.x)
[1] "character"
> mode(c.x)
8.5
Func
oes miscel
aneas u
teis
22
[1] "numeric"
> mode(d.x)
[1] "character"
Voce tambem pode verificar se uma variavel e um fator ou e numerica utiliazando as funcoes
abaixo.
> rp = c(1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4)
> rp <- factor(rp)
> rs = 1:10
> is.factor(rp)
[1] TRUE
> is.numeric(rs)
[1] TRUE
Voce pode calcular o valor absoluto de um objeto utilizando a funcao abs().
A funcao lines() e uma funcao que adequa linhas aos graficos de dispersao, podendo ser
utilizada para unir pontos.
Observe os exemplos abaixo, para utilizar a funcao spline() e necessario carregar o pacote
stats.
> require(stats)
> require(graphics)
> x <- -9:9
> plot(x, abs(x)^2, col = "red")
> lines(spline(x, abs(x)^2 + (10), n = 101), col = "green")
> lines(spline(x, abs(x)^2, n = 101), col = "blue")
> require(stats)
> require(graphics)
> x <- -9:9
> plot(x, abs(x)^2, col = "red")
> lines(spline(x, abs(x)^2 + (10), n = 101), col = "green")
> lines(spline(x, abs(x)^2, n = 101), col = "blue")
Func
oes miscel
aneas u
teis
80
8.5
23
60
40
abs(x)^2
20
Geralmente e necessario escrever dados$coluna para utilizar os dados de uma tabela ou

data.frame. Em um trabalho extenso isso pode tornar-se trabalhoso.
O R possui um mecanismo chamado search pach (caminho de procura ) que facilita isto.
Utilizando a funcao search() voce vera quais sao os caminhos de procura que o R esta utilizando.
> search()
[1] ".GlobalEnv"
"package:ROCR"
"package:gplots"
[4] "package:grid"
"package:caTools"
"package:bitops"
[7] "package:gdata"
"package:gtools"
"package:MASS"
[10] "package:xtable"
"package:stats"
"package:graphics"
[13] "package:grDevices" "package:utils"
"package:datasets"
[16] "package:methods"
"package:base"
"Autoloads"
Com a funcao attach() voce adiciona o objeto nos caminhos de procura do R.
8.5
Func
oes miscel
aneas u
teis
24
> attach(dados)
The following object(s) are masked from package:base :
T
> search()
[1] ".GlobalEnv"
"dados"
"package:ROCR"
[4] "package:gplots"
"package:grid"
"package:caTools"
[7] "package:bitops"
"package:gdata"
"package:gtools"
[10] "package:MASS"
"package:xtable"
"package:stats"
[13] "package:graphics"
"package:grDevices" "package:utils"
[16] "package:datasets"
"package:methods"
"Autoloads"
[19] "package:base"
Note como a digitacao fica mais rapida e pratica:
> mean(Q2I)
[1] 32.1
> table(Q24)
Q24
0
34 12
2 26 76
> summary(Hist
orico)
Min. 1st Qu.
0.00
1.00
Median
3.00
Mean 3rd Qu.

4.47
7.00
Max.
22.00
Para retirar o objeto dos caminhos de procura utilize a funcao abaixo.
> detach(dados)
pt calcula uma cauda so
par() exemplo o que isso faz?
8.6
Func
oes Apply e Tapply
25
> require(grDevices)
> plot(1:12, type = "b", main = "fg : axes, ticks and box in gray",
+
fg = gray(0.7), bty = "7", sub = R.version.string)
> ex <- function() {

+
old.par <- par(no.readonly = TRUE)
on.exit(par(old.par))
invisible()
+ }
> ex()
8.6
Fun
c
oes Apply e Tapply
A partir de uma matriz podemos usar a funcao apply () para somar os itens de uma coluna
ou linha da matriz. Os argumentos dessa funcao sao:
mat1 nome da matriz que sera utilizada
1
utilize 1 para linhas e 2 para colunas
sum operacoes basicas que podem ser utilizadas como sum (soma) e mean (media)
Definimos um vetor contendo todos os elementos da matriz, ordenados por coluna.
> mat = c(9, 6, 8, 9, 6, 3, 5, 6, 5, 2, 4, 5, 4, 1, 3, 4)
Definimos entao uma matriz que contem os elementos do vetor mat.
> mat1 = matrix(mat, 4, 4)
> mat1
[,1] [,2] [,3] [,4]
[1,]
[2,]
[3,]
[4,]
No caso abaixo a funcao apply() foi utilizada para encontrar a soma dos elementos das
linhas.
> apply(mat1, 1, sum)
[1] 24 12 20 24
Desta vez, calculou-se a soma dos elementos das colunas.
> apply(mat1, 2, sum)
8.6
Func
oes Apply e Tapply
26
[1] 32 20 16 12
Pode-se utilizar tambem uma funcao definida pelo usuario dentro da funcao apply().
> sum.plus.2 <- function(x) {
+
sum(x) + 2
+ }
> apply(mat1, 1, sum.plus.2)
[1] 26 14 22 26
Onde sum.plus.2 e o nome de uma funcao que soma os elementos de x e adiciona o valor 2.
A funcao tambem pode ser definida dentro da funcao apply() como no exemplo abaixo:
> apply(mat1, 1, function(x) sum(x) + 2)
[1] 26 14 22 26
Pode-se tambem generalizar uma funcao adicionando um n
umero qualquer a soma. Neste
exemplo adicionamos 1 a media das linhas.
> apply(mat1, 1, function(x, y) sum(x) + y, y = 1)
[1] 25 13 21 25
Neste caso a funcao tem duas variaveis, a funcao soma os elementos de x e depois adiciona
o elemrnto y, que neste caso tem valor 1.
A funcao tapply(), como a apply() trabalha com matrizes, porem neste caso calcula
operacoes entre dados com variaveis categoricas.
> tapply(dados$Renda, dados$Q26, mean)
0
18767 19143 21303 20140 25915

A funcao tapply() calculou a media da Renda dos entrevistados de acordo com a quantidade de livros lidos em 2009.
> tapply(dados$Renda, list(dados$Q26, dados$Q1), mean)
0
0 16900 20400
1 16722 22074
2 20867 21957
3 18592 26333
4 24700 32600
9 Comparac
27
Desta vez a funcao calculou a media dos entrevistas de acordo com a quantidade de livros
lidos em 2009 e o sexo.
> tab <- tapply(dados$Renda, list(dados$Q26, dados$Q1), mean)
> tab <- data.frame(tab)
> names(tab) = c("Feminino", "Masculino")
> row.names(tab) = c("Nenhum", "No m
aximo 2", "Entre tr^
es e cinco",
+
"Entre cinco e oito", "Mais de oito")
> tab
Feminino Masculino
Nenhum
16900
20400
No m
aximo 2
16722
22074
Entre tr^
es e cinco
20867
21957
Entre cinco e oito
18592
26333
Mais de oito
24700
32600
Comparac
9.1
An
alise de dados utilizando tabelas de conting
encia
9.1.1
O teste qui-quadrado (X 2 )
Primeiramente, vamos ler a tabela e utilizar a funcao tapply() para contar os elementos
que acertaram ou erraram uma questao de conhecimento geral de acordo com o sexo.
> tapply(dados$Q1, dados$Q34, table)
$0
0
61 39
$1
0
27 23
Vamos colocar os valores em um vetor chamado a.
> a = c(61, 27, 39, 23)
9.1
An
encia
28
Criaremos uma matriz b de tamanho 2x2, cujos elementos sao os componentes do vetor a.
> b = matrix(a, 2, 2)
> b
[,1] [,2]
[1,]
61
39
[2,]
27
23
Vamos rodar o teste qui-quadrado sem correcao de Yates, onde b e a matriz com os dados
o programa faz a correcao de Yates para
e o parametro correct e booleano e true e o default Uo teste.
> chisq.test(b, correct = FALSE)
Pearsons Chi-squared test
data:
X-squared = 0.674, df = 1, p-value = 0.4118

X-squared corresponde ao Qobs, estatstica do teste qui-quadrado. O parametro df e o grau
de liberdade da amostra e o p-value e o p-valor encontrado. Podemos ver os valores esperados
para o teste digitando $expected apos o comando do teste qui-quadrado.
> chisq.test(b, correct = FALSE)$expected
[,1] [,2]
[1,] 58.7 41.3
[2,] 29.3 20.7
Veja um exemplo com correcao de Yates.
> chisq.test(b, correct = TRUE)
Pearsons Chi-squared test with Yates continuity correction
data:

> chisq.test(b, correct = TRUE)$expected
[,1] [,2]
[1,] 58.7 41.3
[2,] 29.3 20.7
9.1
An
encia
29
Pode-se fazer tambem teste Qui-quadrado para diferencas de probabilidade, como a quantidade de pessoas de cada genero no nosso teste.
> table(dados$Q1)
0
88 62
> c = c(88, 62)
> chisq.test(c)
Chi-squared test for given probabilities
data:

> chisq.test(c)$expected
[1] 75 75
E tambem podemos fazer para a quantidade de pessoas que acertou ou nao uma questao
de conhecimento geral.
> table(dados$Q34)
0
100
50
> d = c(100, 50)

> chisq.test(d)
data:
X-squared = 16.7, df = 1, p-value = 4.456e-05

> chisq.test(d)$expected
[1] 75 75
Outro exemplo, resposta da frequencia de acesso a sites de relacionamento.
> table(dados$Q21)
0
48 17
5 32 48
9.1
An
encia
30
> a = c(Diariamente = 48, 1vez por semana = 32)

> b = c(Algumas vezes por semana = 5, Raramente = 17, Nunca = 48)
> resposta <- c(a, b)
> chisq.test(resposta)$expected
Diariamente
1vez por semana Algumas vezes por semana
30
30
Raramente
Nunca
30
30
30
> chisq.test(resposta)
data:
resposta
X-squared = 48.2, df = 4, p-value = 8.574e-10

9.1.2
O teste Exato de Fisher
Este teste e bem parecido com o Qui-quadrado. Precisaremos de uma matriz ou tabela.
Neste caso, vamos iniciar montando uma tabela no prompt com dados de um teste clnico.
> a = c(5, 0, 1, 3)
> x = matrix(a, 2, 2)
> x
[,1] [,2]
[1,]
[2,]
> B = data.frame(x)
> names(B) = c("Presente", "Ausente")
> B
Presente Ausente
1
> row.names(B) = c("Rea

c~
ao +", "Rea
c~
ao -")
> B
Presente Ausente
Rea
ca
~o +
Rea
ca
~o -
3
9.1
An
encia
31
Entao rodaremos o Teste Exato de Fisher utilizando o comando fisher.test().

> fisher.test(B)
Fishers Exact Test for Count Data
data:
p-value = 0.04762
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.694
Inf
sample estimates:
odds ratio
Inf
9.1.3
V de Cramer
Nao existe, ate o momento, uma funcao que realize o calculo do V de Crammer automaticamente, entao vamos calcula-lo utilizando funcoes basicas da R.
Vamos primeiramente contar quantas pessoas de cada sexo responderam certo ou errado
uma questao de conhecimentos gerais.
$0
0
61 39
$1
0
27 23
Criaremos um vetor a com os valores, e uma matriz b que contem os valores do vetor.
> a = c(61, 27, 39, 23)
> b = matrix(a, 2, 2)
> b
[,1] [,2]
[1,]
61
39
[2,]
27
23
9.1
An
encia
32
Soma dos elementos das linhas e

> apply(b, 1, sum)
[1] 100
50
Soma dos elementos das colunas e

> apply(b, 2, sum)
[1] 88 62
Podemos encontrar o valor total atraves do comando sum associado à funcao apply().
> sum(apply(b, 1, sum))
[1] 150
ou...
> sum(apply(b, 2, sum))
[1] 150
Vamos guardar as informacoes do teste qui-quadrado em uma variavel z.
> z = chisq.test(b, correct = TRUE)
> z
Pearsons Chi-squared test with Yates continuity correction
data:

Note que utilizando o comando z$statistic, o programa retorna o valor do X-squared.
> z$statistic
X-squared
0.416
E utilizando o comando z$expected, a plataforma mostra a matriz de observacoes esperadas.
> z$expected
[,1] [,2]
[1,] 58.7 41.3
[2,] 29.3 20.7
9.1
An
encia
33
Sabemos que o V de Cramer pode ser calculado desta forma:

> v = (((0.4158)^2)/(150) * (1))^0.5
> v
[1] 0.0339
A formula geral abaixo foi criada para que o usuario nao tenha que digitar os valores,
evitando assim possveis erros de digitacao.
Note que z$statistic e o valor da estatstica do teste qui-quadrado; sum(apply(b,1,sum) e
o tamanho da amostra e min(nrow (b),ncol(b))e o menor valor entre o n
umero de colunas e
n
umero de linhas.
> vcramer = sqrt(((z$statistic)^2)/(sum(apply(b, 1, sum))) * (min(nrow(b),
+
ncol(b)) - 1))
> vcramer
X-squared
0.0340
9.1.4
Phi de Cramer
Ja o Phi de Cramer, e semelhante ao V de Cramer porem nao tem o elemento minimo

entre n0 colunas e nz de linhas multiplicando o tamanho da amostra. Portanto, uma formula
geral para ele e dada por:
> phi = sqrt(((z$statistic)^2)/(sum(apply(b, 1, sum))))
> phi
X-squared
0.0340
Uma vez que o grau de liberdade desse exemplo e 1, o phi e o v tem valores iguais. No
exemplo abaixo, o grau de liberdade e maior e os valores diferem.
$0
0 1 2 3 4 5 7
1 2 1 1 2 3 2
$1
9.1
An
encia
5
3
$2
0
6 22 14
1 17 11 23
$3
0 1 2 3 4
1 2 3 1 2
$4
1
> m = c(1, 0, 3, 3, 0, 2, 0, 6, 2, 1, 1, 0, 22, 3, 17, 1, 0, 14,

+
1, 11, 2, 0, 7, 2, 23, 3, 3, 7, 0, 5, 0, 0, 0, 0, 4, 2, 0,
1, 0, 5)
> n = matrix(m, 5, 8)
> n
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,]
[2,]
[3,]
22
14
[4,]
[5,]
17
11
23
> apply(n, 1, sum)

[1] 12
3 60 11 66
> apply(n, 2, sum)

[1]
7 11 43 27 34 18
> sum(apply(n, 1, sum))

34
9.2
O teste T Pareado
35
[1] 152
> k = chisq.test(n)
> chisq.test(n, correct = TRUE)$expected
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
[,7]
[,8]
[1,] 0.553 0.868
3.395
2.132
2.684 1.421 0.316 0.632
[2,] 0.138 0.217
0.849
0.533
0.671 0.355 0.079 0.158
[3,] 2.763 4.342 16.974 10.658 13.421 7.105 1.579 3.158

[4,] 0.507 0.796
3.112
1.954
2.461 1.303 0.289 0.579
[5,] 3.039 4.776 18.671 11.724 14.763 7.816 1.737 3.474

> vcramer = sqrt(((k$statistic)^2)/(sum(apply(n, 1, sum))) * (nrow(n) +
1))
> vcramer
X-squared
11.9
> v = (((73.256)^2)/(150) * (4))^0.5
> phi = sqrt(((k$statistic)^2)/(sum(apply(n, 1, sum))))
> phi
X-squared
5.94
9.2
O teste T Pareado
Primeiramente vamos abrir arquivo com os dados que serao utilizados, conforme explicado
anteriormente.
Vamos realizar o teste utilizando o comando t.test(), cujos parametros sao:
dados$Q1
parametro x
dados$Celebridade
parametro y
pared=TRUE
argumento booleano que define a paridade. O default e FALSE.
Como esse exemplo e pareado, entao o comando sera:
> t.test(dados$Q1, dados$Celebridade, pared = TRUE)
9.3
O teste T para amostras independentes
36
Welch Two Sample t-test

data:
dados$Q1 and dados$Celebridade
t = -17.7, df = 151, p-value < 2.2e-16

alternative hypothesis: true difference in means is not equal to 0
-9.01 -7.20
sample estimates:
mean of x mean of y
0.413
8.520
A sada do teste mostra a estatstica (t = -17.7123), o p-valor (p-value < 2.2e-16), a media
da componente x (0.4133333) e da componente y (8.5200000). Neste caso, a diferenca entre as
medias dos dois grupos e diferente de zero.
9.3
O teste T para amostras independentes
Analogamente ao Teste T pareado, vamos abrir um arquivo com os dados e entao utilizar o
comando t.test(). Uma vez que o teste e para duas amostras independentes, devemos utilizar
o parametro booleano pared como FALSE ou simplesmente nao utiliza-lo (default).
> dados2 = read.table("teste_t.txt", header = TRUE)
> t.test(dados2$A, dados2$B)
Welch Two Sample t-test
data:
dados2$A and dados2$B
t = 1.15, df = 49.5, p-value = 0.2548

alternative hypothesis: true difference in means is not equal to 0
-0.645
2.380
sample estimates:
mean of x mean of y
5.13
9.4
4.26
An
alise de Vari
ancia (Anova) ou teste F
Ate agora, trabalhamos com testes com ate duas amostras. Ha situacoes porem, em que
e necessario fazer comparacoes entre mais de dois grupos. Para esses casos, pode-se utilizar a
Analise de Variancia, conhecida como ANOVA.
9.4
An
alise de Vari
37
Exemplo 1. Primeiramente, vamos ler os dados de um arquivo que contem dados de

quatro grupos de indivduos, denotados pela variavel A:
> A = read.table("anova2.txt", header = TRUE)
> A
A
78 78 79 77
88 78 73 69
87 83 79 75
88 81 75 70
83 78 77 74
82 81 78 83
81 81 80 80
80 82 78 75
80 76 83 76
10 89 76 84 75
Vamos criar um vetor com fatores de 1 a 4 que identifiquem os valores de A, precisamos entao
de 10 vezes cada valor. Utilizaremos a funcao gl().
> L = gl(4, 10)
> L
[1] 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4
[39] 4 4
Levels: 1 2 3 4
Sera criado um vetor N que contem os valores de A, que pode ser vista como uma conversao
de matriz para vetor.
> N <- c(A$A, A$B, A$C, A$D)

> N
[1] 78 88 87 88 83 82 81 80 80 89 78 78 83 81 78 81 81 82 76 76 79 73 79 75 77
[26] 78 80 78 83 84 77 69 75 70 74 83 80 75 76 75
Definimos entao um data.frame() formado por L e N.
> a.vert <- data.frame(L, N)

9.4
An
alise de Vari
L
38
1 80
18 2 82
27 3 80
36 4 83
1 78
10 1 89
19 2 76
28 3 78
37 4 80
1 88
11 2 78
20 2 76
29 3 83
38 4 75
1 87
12 2 78
21 3 79
30 3 84
39 4 76
1 88
13 2 83
22 3 73
31 4 77
40 4 75
1 83
14 2 81
23 3 79
32 4 69
1 82
15 2 78
24 3 75
33 4 75
1 81
16 2 81
25 3 77
34 4 70
1 80
17 2 81
26 3 78
35 4 74
Utilizaremos entao a funcao aov(), que e a funcao de Analise de Variancia. Guardaremos

o resultado dessa funcao em uma variavel X.
> X <- aov(N ~ L)
> X
Call:
aov(formula = N ~ L)
Terms:
L Residuals
Sum of Squares
Deg. of Freedom
342
456
36
Residual standard error: 3.56

Estimated effects may be unbalanced
Utilizando a funcao summary() teremos uma tabela com o resumo dos resultados.
> summary(X)
Df Sum Sq Mean Sq F value
L
Residuals
342
114
36
456
13
Pr(>F)
9.01 0.00014 ***
--Signif. codes:
0
S***
S 0.001
S**
S 0.01
S*
S 0.05
S.
S 0.1
S
S 1
O resultado da tabela de Anova, mostrou que as diferencas entre as medias sao altamente
significativa(s). Conclui-se entao que ha uma diferenca entre os grupos, porem podemos verificar
entre quais pares de grupos as diferencas sao significantes utilizando o teste Tukey HSD.
> TukeyHSD(X)
9.4
An
alise de Vari
39
Tukey multiple comparisons of means

95% family-wise confidence level
Fit: aov(formula = N ~ L)
$L
diff
lwr
upr p adj
2-1 -4.2
-8.48
0.0848 0.056
3-1 -5.0
-9.28 -0.7152 0.017
4-1 -8.2 -12.48 -3.9152 0.000

3-2 -0.8
-5.08
3.4848 0.958
4-2 -4.0
-8.28
0.2848 0.075
4-3 -3.2
-7.48
1.0848 0.203
Faremos agora um diagrama de dispersao com os resultados o teste TukeyHSD(), que pode
ser visto no grafico abaixo.
> plot(TukeyHSD(X, ordered = TRUE))
12
13
23
14
24
34
95% familywise confidence level
10
Differences in mean levels of L
9.4
An
alise de Vari
40
Pode-se perceber atraves na figura acima?? que existe diferencas significativas entre as duplas 1-3 e 1-4.
Exemplo 2. Neste exemplo chamaremos o conjunto de dados de Z.
> mat = c(87, 90, 67, 99, 686, 18, 92, 46, 38, 65, 426, 35, 52,
+
44, 455, 45, 617, 83, 94, 53, 572, 716, 89, 63, 58, 69, 80,
56, 34, 21, 54, 78, 90, 25, 48, 252, 27, 38, 45, 62, 92,
252, 450, 54, 122, 957, 750, 892)
> mat
[1]
87
90
67
[20]
53 572 716
[39]
45
62
99 686
18
92
46
38
65 426
35
52
44 455
45 617
83
94
89
58
69
80
56
34
54
78
90
48 252
27
38
63
92 252 450
21
25
54 122 957 750 892
> length(mat)
[1] 48
> Z = matrix(mat, 16, 3, dimnames = list(c(NULL), c("A", "B", "C")))
> X
Call:
aov(formula = N ~ L)
Terms:
L Residuals
Sum of Squares
Deg. of Freedom
342
456
36
Residual standard error: 3.56

> L = gl(3, 16)
> L
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3
[39] 3 3 3 3 3 3 3 3 3 3
Levels: 1 2 3
> M = c(Z)
> M
9.4
An
alise de Vari
[1]
87
90
67
[20]
53 572 716
[39]
45
62
41
99 686
18
92
46
38
65 426
35
52
44 455
45 617
83
94
89
58
69
80
56
34
54
78
90
48 252
27
38
53
30 2
21
40 3
62
92
63
92 252 450
21
25
54 122 957 750 892
> a.vert <- data.frame(L, M)

10 1
20 2
65
87
11 1 426
21 2 572
31 2
54
41 3
90
12 1
35
22 2 716
32 2
78
42 3 252
67
13 1
52
23 2
89
33 3
90
43 3 450
99
14 1
44
24 2
63
34 3
25
44 3
1 686
15 1 455
25 2
58
35 3
48
45 3 122
18
16 1
45
26 2
69
36 3 252
46 3 957
92
17 2 617
27 2
80
37 3
27
47 3 750
46
18 2
83
28 2
56
38 3
38
48 3 892
38
19 2
94
29 2
34
39 3
45
> L <- factor(L)

> is.factor(L)
[1] TRUE
> anova <- aov(M ~ L)
> anova
Call:
aov(formula = M ~ L)
Terms:
L Residuals
Sum of Squares
Deg. of Freedom
113478
2950178
45
Residual standard error: 256

> summary(anova)
Df
L
Residuals
Sum Sq Mean Sq F value Pr(>F)

113478
56739
45 2950178
65560
0.87
0.43
54
9.4
An
alise de Vari
42
> TukeyHSD(anova)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = M ~ L)
$L
diff
2-1
lwr upr p adj
24.5 -195 244 0.960
3-1 113.2 -106 333 0.430

3-2
88.7 -131 308 0.593
> plot(TukeyHSD(anova, ordered = TRUE))
32
31
21
95% familywise confidence level
200
100
100
200
300
Differences in mean levels of L
Figura 1: Grafico das diferencas entre os grupos de Z

Ja neste exemplo, percebe-se tanto pelos resultados mostrados como pelo grafico que nao
ha diferencas significativas entre os grupos analizados.
9.5
Medidas de Diagn
ostico
9.5
9.5.1
43
Medidas de Diagn
ostico
Curva ROC
Para fazer curva ROC no R, voce tera que baixar o pacote Rocr que precisa de outros
pacotes para funcionar. Baixe os seguinte pacotes: Rocr, gplots, bitops, caTools, gdata e
gtools. Verifique como baixar e instalar pacotes no R na secao
> library(ROCR)
> data(ROCR.simple)
> pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels)
> perf <- performance(pred, measure = "tpr", x.measure = "fpr")
> plot(perf, col = rainbow(10))
0.6
0.4
0.2
0.0
True positive rate
0.8
1.0
> plot(perf, col = rainbow(10))
0.0
0.2
0.4
0.6
0.8
False positive rate
1.0
9.5
Medidas de Diagn
ostico
9.5.2
44
Regress
ao linear simples
Primeiro calcularemos a correlacao entre a quantidade de acertos em um teste com a idade

do entrevistado.
> cor.test(idade, h)
Pearsons product-moment correlation
data:
idade and h
t = 5.9, df = 148, p-value = 2.314e-08

alternative hypothesis: true correlation is not equal to 0
0.297 0.558
sample estimates:
cor
0.437
A funcao a seguir aplica a regressao linear simples pelo metodo de quadrados mnimos, onde
h e a variavel resposta e idade e a variavel explicativa.
> modelo <- lm(h ~ idade)
Vamos ver um resumo dos resultados da regressao.
> summary(modelo)
Call:
lm(formula = h ~ idade)
Residuals:
Min
1Q Median
-9.482 -2.652 -0.844
3Q
Max
2.077 13.445
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
0.6042
0.7434
0.81
0.42
idade
0.1205
0.0204
5.91
2.3e-08 ***
--Signif. codes:
0
S***
S 0.001
S**
S 0.01
S*
S 0.05
S.
S 0.1
S
S 1
Residual standard error: 4.3 on 148 degrees of freedom

Multiple R-squared: 0.191,
Adjusted R-squared: 0.185
F-statistic: 34.9 on 1 and 148 DF,
p-value: 2.31e-08
9.5
Medidas de Diagn
ostico
45
O valor do intercepto (coeficiente linear) de y e 0.6042 e o valor do gradiente (coeficiente

angular) e 0.1205. Entao a formula da regressao e y = 0.1205x + 0.6042, ou no nosso caso,
h = 0.1205idade + 0.6042. Na plataforma R, a ANOVA verifica a significancia da regressao. O
valor de F e significativo com 1 e 148 graus de liberdade e o p-valor < 0.0001 entao conclumos
que a regressao e significante.
Podemos obter detalhes sobre a regressao aplicando a ANOVA.
> anova(modelo)
Analysis of Variance Table
Response: h
idade
646
646
Residuals 148
2740
19
Pr(>F)
34.9 2.3e-08 ***
--Signif. codes:
0
S***
S 0.001
S**
S 0.01
S*
S 0.05
S.
S 0.1
S
S 1
Agora plotaremos o grafico. E entao, uma reta de regressao podera ser adicionada ao
grafico:
> plot(idade, h, xlab = "Idade", ylab = "Acertos", main = "Acertos por Idade",
+
col = "blue")
> abline(modelo, col = "red")
9.5
Medidas de Diagn
ostico
46
Acertos por Idade
20
15
10
Acertos
20
30
40
50
60
70
80
Idade
Voce tambem pode adcionar a reta utilizando a funcao abaixo e adicionar um texto contendo
a funcao de regressao.
> plot(idade, h, xlab = "Idade", ylab = "Acertos", main = "Acertos por Idade",
+
col = "blue")
> lines(idade, 0.1205 * idade + 0.6042)

> text(30, 22, "y=0.1205x + 0.6042, p<0.01")
9.5
Medidas de Diagn
ostico
47
Acertos por Idade
20
15
10
Acertos
20
30
40
50
60
70
80
Idade
Exemplo 2. No exemplo abaixo, vamos ler uma tabela que esta online e adicionar duas
retas de regressao ao grafico de dispersao dos dados. A primeira segue o metodo dos mnimos
quadrados enquanto a segunda segue o Least Median Squares(lmsreg) que e um metodo de
ajuste de reta que e robusto, pois tenta minimizar alguma funcao dos resduos ao quadrado
ordenados. (4)
> fumo = read.table("http://www.im.ufrj.br/~flavia/aed06/fumo.txt",

+
header = TRUE)
> reta1 = lm(fumo$imorte ~ fumo$ifumo)

> reta2 = lmsreg(fumo$imorte ~ fumo$ifumo)
> plot(fumo$ifumo, fumo$imorte, main = "Fumo versus c^
ancer")
> abline(reta1$coefficients, col = "blue")
> abline(reta2$coefficients, col = "red")
9.5
Medidas de Diagn
ostico
48
Fumo versus cncer
140
120
100
fumo$imorte
80
60
70
80
90
100
110
120
130
fumo$ifumo
9.5.3
Regress
ao linear m
ultipla
Para realizar analise de regressao m

ultipla, utilizam-se as mesmas funcoes usadas na regressao simples. Note, porem, que ao inves de utilizar somente a idade como variavel preditora
utiliza-se idade e renda.
> modelo <- lm(h ~ idade + dados$Renda, data = dados)

> summary(modelo)
Call:
lm(formula = h ~ idade + dados$Renda, data = dados)
Residuals:
Min
1Q Median
-8.491 -2.481 -0.738
3Q
Max
2.051 11.992
Coefficients:
Estimate Std. Error t value Pr(>|t|)
9.5
Medidas de Diagn
ostico
49
(Intercept) -1.68e+00
9.60e-01
-1.75
0.08155 .
idade
1.26e-01
1.97e-02
6.38
2.1e-09 ***
dados$Renda
1.05e-04
2.93e-05
3.58
0.00047 ***
--Signif. codes:
0
S***
S 0.001
S**
S 0.01
S*
S 0.05
S.
S 0.1
S
S 1
Residual standard error: 4.14 on 147 degrees of freedom

Multiple R-squared: 0.255,
Adjusted R-squared: 0.245
F-statistic: 25.2 on 2 and 147 DF,
p-value: 3.83e-10
> anova(modelo)
Analysis of Variance Table
Response: h
Pr(>F)
idade
646
646
37.6 7.5e-09 ***
dados$Renda
219
219
12.8 0.00047 ***
147
2521
17
Residuals
---
Signif. codes:
0
S***
S 0.001
S**
S 0.01
S*
S 0.05
S.
S 0.1
S
S 1
Para facilitar a visualizacao podemos plotar os quatro graficos juntos.
> layout(matrix(c(1, 2, 3, 4), 2, 2))

> plot(modelo)
9.5
Medidas de Diagn
ostico
50
1.5
1.0
0.5
10
10
Fitted values
Normal QQ
Residuals vs Leverage
Fitted values
107
142
107
70142
3
2
1
0
2
107
142
70

0.0
Standardized residuals
142
70

ScaleLocation
107
5
0
10
Residuals
10
Residuals vs Fitted
Cook's distance144
0.00
Theoretical Quantiles
0.02
0.04
0.06
0.08
Leverage
Apos utilizar a funcao layout com a qual pode-se plotar n graficos em um so arquivo, deve-se
utilizar a funcao abaixo para retornar ao default.
> def.par <- par(no.readonly = TRUE)

> par(def.par)
Abaixo uma lista de funcoes uteis para essa analise:
coefficients(fit)
coeficienye do modelo
confint(fit, level=0.95) intervalo de confianca para o modelo
fitted(fit)
valores preditos
residuals(fit)
resduos
anova(fit)
tabela anova
vcov(fit)
matriz de covariancia
influence(fit)
diagnostico da regressao
9.5.4
An
alise Discriminante
No site http://finzi.psych.upenn.edu/R/library/datasets/html/00Index.html o usuario tem

acesso a lista de tabelas de dados que vem no R e sao carregados automaticamente. O iris3 e
9.5
Medidas de Diagn
ostico
51
uma das tabelas e sera utilizada na analise abaixo. O exemplo abaixo foi retirado do topico de
ajuda do R sobre Linear Discrimant Analysis.
> x.data <- data.frame(rbind(iris3[, , 1], iris3[, , 2], iris3[,

+
, 3]), Sp = rep(c("s", "c", "v"), rep(50, 3)))
> y <- sample(1:150, 75)

> table(x.data$Sp[y])
c
29 23 23
> z <- lda(Sp ~ ., x.data, prior = c(1, 1, 1)/3, subset = y)
> predict(z, x.data[-y, ])$class
[1] s s s s s s s s s s s s s s s s s s s s s s s s s s s c c c c c c c c c c c
[39] c c c v c c c c c c v v v v v v v v v v v v v v v v c v v v v v v v v v v
Levels: c s v
> (z1 <- update(z, . ~ . - Petal.W.))
Call:
lda(Sp ~ Sepal.L. + Sepal.W. + Petal.L., data = x.data, prior = c(1,
1, 1)/3, subset = y)
Prior probabilities of groups:
c
0.333 0.333 0.333

Group means:
Sepal.L. Sepal.W. Petal.L.
c
6.06
2.88
4.36
5.00
3.40
1.44
6.47
2.91
5.51
Coefficients of linear discriminants:

LD1
LD2
Sepal.L.
1.345 -1.400
Sepal.W.
0.934
3.207
Petal.L. -3.667
0.929
10 Gr
aficos
52
Proportion of trace:
LD1
LD2
0.998 0.002
10
Gr
aficos
10.1
Par
ametros gerais
Em geral, os comandos de graficos tem a seguinte forma:

> tipodografico( x, y, parametro1, parametro2, parametro3, parametro4...)
A seguir encontram-se os principais parametros graficos:
main=Ttulo do Grafico este parametro adiciona um ttulo ao grafico
col=c(2,3)
com este parametro voce escolhe cores para o grafico
breaks= 20
altera a escala do eixo X, por exemplo, quanto maior o valor,

maior a quantidade de barras em um grafico de barras.
xlim = range(0,100)
este parametro limita o intervalo de valores do eixo X
ylim= range(0,60)
este parametro limita o intervalo de valores do eixo Y
xlab=Nome do eixo X
este parametro nomeia o eixo X
ylab=Nome do eixo Y
este parametro nomeia o eixo Y
init.angle = 45
este parametro define o angulo inicial do grafico de pizza
width = 480
este parametro define a largura do grafico
height = 480
este parametro define a altura do grafico
units = px
este parametro define a unidade de medida do grafico
bg=transparent
este parametro define a cor de fundo do grafico
Alem desses parametros podem se adicionar aos graficos textos e legendas.
A legenda e
adicionada com a funcao legend() que tem os seguintes parametros:

topright
localizacao da legenda que pode ser bottomright, bottom,

bottomleft, left, topleft, top, topright, right, center
leg
nome dos itens da legenda
pch=15
tipo de smbolo da legenda
title=Legenda ttulo da legenda

col
cor do itens da legenda
Para cada n
umero no parametro pch e colocado um smbolo. Abaixo um grafico com os
smbolos possveis.Exemplo retirado do site http://www.harding.edu/fmccown/R/
10.1
Par
ametros gerais
53
> plot(1, 1, xlim = c(1, 5.5), ylim = c(0, 7), type = "n", ann = FALSE)
> text(1:5, rep(6, 5), labels = c(0:4), cex = 1:5, col = 1:5)
> points(1:5, rep(5, 5), cex = 1:5, col = 1:5, pch = 0:4)
> text((1:5) + 0.4, rep(5, 5), cex = 0.6, (0:4))
> points(1:5, rep(4, 5), cex = 2, pch = (5:9))
> text((1:5) + 0.4, rep(4, 5), cex = 0.6, (5:9))
> text((1:5) + 0.4, rep(3, 5), cex = 0.6, (10:14))
> text((1:5) + 0.4, rep(2, 5), cex = 0.6, (15:19))
> points((1:6) * 0.8 + 0.2, rep(1, 6), cex = 2, pch = (20:25))
10
11
12
13
14
16
17
15
20
21
22
18
23
19
25
24
> text((1:6) * 0.8 + 0.5, rep(1, 6), cex = 0.6, (20:25))
Exemplo da utilizacao da legenda.
> leg = c("Feminino", "Masculino")

> legend("topright", leg, pch = 15, title = "Legenda", col = c("orange",
+
"violet"))
10.2
Gr
afico de setores(ou de pizza)
54
O texto deve ser inserido utilizando a funcao text(). Cujos parametros basicos sao:
0,
localizacao em x do texto
-0.95
localizacao em y do texto
texto texto a ser inserido no grafico.

> text(0, -0.95, "texto")
10.2
Gr
afico de setores(ou de pizza)
O comando para grafico de setores e pie(). Observe que no exemplo abaixo, determinamos
a variavel freq como sendo uma conurbacao dos n
umeros 88 e 62. Nomeamos essa conurbacao
atraves do comando names() que nomeia os componentes da variavel freq. Enfim utilizamos a
funcao pie(), o parametro main e o parametro col.
> freq <- c(88, 62)

> names(freq) = c("Mulheres", "Homens")
> pie(freq, main = "Sexo", col = c(2, 3))
> text(0, -0.95, "texto")
E o grafico ficou da seguinte forma:
10.3
Gr
afico de barras
55
Sexo
Mulheres
Homens
texto
10.3
Gr
afico de barras
O grafico de barras ou de colunas pode ser realizado usando a funcao barplot(). Neste
caso foi utilizado as funcoes c() e legend(), explicadas anteriormente.
> col = c("orange", "violet")
> barplot(table(dados$Q1), main = "Sexo", ylim = range(0, 100),
+
col = col)
> leg = c("Feminino", "Masculino")

> legend("topright", leg, pch = 15, title = "Legenda", col = col)
10.4
Histograma
56
100
Sexo
Legenda
20
40
60
80
Feminino
Masculino
Atencao! Lembre-se de que a funcao barplot() deve ser utilizada sempre com a funcao
table().
10.4
Histograma
O grafico de Histograma e muito utilizado e pode ser feito atraves do comando hist()
como no exemplo abaixo:
> hist(dados$Renda, main = "Indice de Renda", xlab = "Indice de Renda (R$)",
+
ylab = "Quantidade de Indiv

duos")
> title = ("Histograma do Indice de Renda")
10.4
Histograma
57
20
15
10
0
Quantidade de Indivduos
25
30
Histogram of dados$Renda
10000
20000
30000
40000
50000
ndice de Renda (R$)
Note que o histograma ficou desregular, porem utilizando o parametro breaks podemos
torna-lo mais condizente com o formato de um histograma.
> hist(dados$Renda, breaks = 5, main = "Histograma do Indice de Renda",
+
xlab = "Indice de Renda (R$)", ylab = "Quantidade de Indiv
duos")
10.5
Boxplots
58
30
20
10
0
Quantidade de Indivduos
40
Histograma do ndice de Renda
10000
20000
30000
40000
50000
ndice de Renda (R$)
10.5
Boxplots
A funcao boxplot() cria graficos do tipo boxplot conforme os exemplos a seguir:

> boxplot(dados$Q18, main = "Boxplot da Quantidade de Horas de Internet",
+
xlab = NULL, ylab = "Horas")

O comando acima vai criar o grafico abaixo:
10.5
Boxplots
59
70
60
Boxplot da Quantidade de Horas de Internet
30
40
10
20
Horas
50
Caso voce nao queira que os outliers aparecam no grafico pode adicionar o parametro como
FALSE.
> boxplot(dados$Q18, outline = FALSE, main = "Quantidade de Horas de Internet",
+
xlab = NULL, ylab = "Horas")

E entao voce tera um grafico assim:
10.5
Boxplots
60
10
20
Horas
30
40
Quantidade de Horas de Internet
Outro exemplo, fazendo uma comparacao entre boxplots utilizando como argumento mais
elementos. Neste caso, os dados referem-se a quantidade de acertos em um teste de conhecimento separados por faixa de escolaridade:
> boxplot(escola0$Q2934soma, escola1$Q2934soma, escola2$Q2934soma,
+
escola3$Q2934soma, escola4$Q2934soma, escola5$Q2934soma,
escola6$Q2934soma, escola7$Q2934soma, names = c("1", "2",
"3", "4", "5", "6", "7", "8"), xlab = "Escolaridades",
main = "Boxplot do Coeficiente de Intelectualidade por Escolaridade",
ylab = "Intelectualidade")
10.6
Gr
afico de dispers
ao
61
6
4
0
Intelectualidade
10
Boxplot do Coeficiente de Intelectualidade por Escolaridade
Escolaridades
10.6
Gr
afico de dispers
ao
Os graficos de dispersao podem ser criados utilizando a funcao plot().

> plot(h, t, xlab = "Acertos de Personagens Hist
oricas", pch = 0,
+
ylab = "Coeficiente de Concentra

c~
ao")
Pode-se adicionar ao grafico ttulo e subttulo com a funcao title(), cujos parametros
principais sao:
Main
Sub
Ttulo do grafico
Subttulo do grafico
Font.main Fonte do ttulo

Font.sub
Fonte do subttulo
Col.main
Cor do ttulo
Col.sub
Cor do subttulo
> title(main = "T

tulo", sub = "Subt
tulo", font.main = 4, col.main = "red",
+
col.sub = "green", font.sub = 3)
10.7
Exportando o gr
afico.
62
1.2
1.0
0.8
0.6
0.2
0.4
Coeficiente de Concentrao
1.4
Ttulo
10
15
20
Acertos de Personagens Histricas

Subttulo
10.7
Exportando o gr
afico.
Os graficos feitos em R podem ser salvos no diretorio de trabalho em diferentes extensoes

como postscript, pdf, jpeg, png, bmp, tif, etc. A extencao *.png (Portable Network graphic) e
mais limpa do que outros formatos. Enquanto *.tif e uma das que tem maiores resolucoes da
imagem. O exemplo a seguir salva o grafico em png:
> png(file = "pie(Q1).png", bg = "transparent")
> freq <- c(88, 62)
> names(freq) = c("Mulheres", "Homens")
> pie(freq, main = "Sexo", col = c(2, 3))
Outro exemplo, agora com arquivo em tif:
> tiff(filename = "plot.tif", width = 480, height = 480, units = "px",
+
bg = "white")
> dev.off()
png:pie(Q1).png
2
10.7
Exportando o gr
afico.
O comando dev.off() fecha o grafico salvo, facilitando o trabalho do usuario.
63

REFERENCIAS
64
Refer
encias
1 EHLERS, R. S. Introducao à Estatstica. Universidade Federal do Parana: Departamento
de Estatstica. 2002.
2 BUSSAB, W. O.; MORETTIN, P. A. Estatstica Basica. 5.. ed. Sao Paulo: Saraiva, 2002.
3 RIPLEY, B. D. The R-Project in the Statistical Computing. Workshop na Universidade de
Glasgow (EUA). maio 2001.
4 LANDIM, F. M. P. F. Analise exploratoria dos dados. Instituto de Matematica. Departamento de Metodos Estatsticos - (DME). Disponvel em http://www.im.ufrj.br/ flavia/aed06/mad114r9.ppt. Acessado em 13 de Julho de 2010.
INDICE REMISSIVO
65
Indice Remissivo
Analise Discriminante, 50
Mudanca de Diretorio, 18
Apply, 25
Multiplicacao, 11
Caminho de Procura, 23
Pacote, 10
Concatenar, 17
Phi de Cramer, 33
Curva ROC, 43
Potenciacao, 12
Exponencial, 14
Raiz Quadrada, 13
Regressao Linear M
ultipla, 48
Fator, 22
Funcoes Trigonometicas, 12
Regressao Linear Simples, 44
cosseno, 12
Sequencia, 16
seno, 12
Soma, 11
tangente, 12
Subtracao, 11
Graficos, 52
Tapply, 26
Barras, 55
Teste Anova, 36
Boxplot, 58
Teste Exato de Fisher, 30
Dispersao, 61
Teste F, 36
Exportar o Grafico, 62
teste Qui-quadrado (X 2 ), 27
Histograma, 56
Teste T Nao-Pareado, 36
Legenda, 52
Teste T Pareado, 35
Parametros, 52
V de Cramer, 31
Pizza, 54
Valor Absoluto, 22
Setores, 54
Texto, 52
Integral, 14
Leitura de dados, 19
Logaritmo, 13
Matriz, 15
Medidas Descritivas, 20
Desvio Padrao, 20
Mediana, 20
Maximo, 20
Media, 20
Mnimo, 20
Variancia, 20

Apostila Introdução Ao R Versao 1.1

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila Introdução Ao R Versao 1.1

Enviado por

Direitos autorais:

Formatos disponíveis

Letcia Mancini Martins

Trabalho submetido `a Universidade Federal

Santo Andre - Sao Paulo

Introducao ao R - Universidade Federal do ABC

2 Objetivos e metas desta apostila

3 Lista de recursos de Ajuda

4 Arquivos que acompanham a apostila

5 Dicas gerais antes de comecar

6 Baixando e instalando pacotes (packages)

Inserindo dados (*.txt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Tratamento de erros de leitura de dados, possveis casos . . . . . . . . . . . . . .

Transformacao e manipulacao de dados . . . . . . . . . . . . . . . . . . . . . . .

Funcoes Apply e Tapply . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Analise de dados utilizando tabelas de contingencia . . . . . . . . . . . . . . . .

O teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . .

O teste T para amostras independentes . . . . . . . . . . . . . . . . . . . . . . .

Analise de Variancia (Anova) ou teste F . . . . . . . . . . . . . . . . . . . . . .

Regressao linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . .

Introducao ao R - Universidade Federal do ABC

10.1 Parametros gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10.2 Grafico de setores(ou de pizza) . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10.3 Grafico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10.6 Grafico de dispersao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10.7 Exportando o grafico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Introducao ao R - Universidade Federal do ABC

de dados e sua consequente transformacao em informacao, para postular, refutar ou validar

2 Objetivos e metas desta apostila

projeto foi idealizado.

Objetivos e metas desta apostila

Lista de recursos de Ajuda

O home page do projeto R

O servidor mirror (espelho) brasileiro

http://cran.r-project.org/other-docs.html Documentos de ajuda

Introducao ao R - Universidade Federal do ABC

3 Lista de recursos de Ajuda

Bioestatstica usando R de Colin Robert Beasley disponvel em

Introducao ao R - Universidade Federal do ABC

4 Arquivos que acompanham a apostila

Arquivos que acompanham a apostila

disponveis em breve na pagina http://lmmartins.webnode.com.br/publicacaobibliografica/

Dicas gerais antes de come

A plataforma e case-sensitive, ou seja, ela diferencia letras min

Introducao ao R - Universidade Federal do ABC

5 Dicas gerais antes de comecar

Lembre sempre que R usa um ponto . em vez de vrgula , quando ha n

6 Baixando e instalando pacotes (packages)

Baixando e instalando pacotes (packages)

Na pagina http://cran.r-project.org/web/packages/ (em ingles) voce encontra uma lista de

Introducao ao R - Universidade Federal do ABC

Na R, clique no menu pacotes e depois em Escolher Espelho CRAN. Escolha qualquer

calcula o cosseno de um angulo

calcula a tangente de um angulo

calcula o angulo de um determinado valor de cosseno

calcula o angulo de um determinado valor de seno

calcula o angulo de um determinado valor de tangente

calcula o cosseno hiperbolico de um angulo

calcula o seno hiperbolico de um angulo

calcula a tangente hiperbolica de um angulo

> acosh(x) calcula o angulo de um determinado valor de cosseno hiperbolico

> log(1, base = 10)

Introducao ao R - Universidade Federal do ABC

este parametro determina o n

este parametro determina o n

e parametro booleano onde FALSE significa que o preenchimento comeca