Escolar Documentos
Profissional Documentos
Cultura Documentos
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Universidade Federal de Alagoas
Instituto de Ciências Biológicas e da Saúde
Prof. Marcos Vinícius Carneiro Vital
Introdução ao uso do software R para as Ciências Biológicas
Versão de 26/09/2013
Este documento nasceu como um guia para auxiliar os estudantes da disciplina de
Bioestatística do ICBS/UFAL no uso do software R. Aos poucos, porém, comecei a achar
que ele poderia ser útil para outras pessoas interessadas em aprender a usar o programa,
e comecei a editá-lo para que possa ser usado por qualquer um. Caso você deseje usar
e/ou distribuir este material, peço apenas que mantenha a sua total integridade e as
informações de autoria. À parte disso, ele pode ser usado e distribuído gratuitamente. Ah,
e um aviso importante: tenha em mente de que este é um guia não tem como objetivo
ensinar estatística: ele visa apenas a sua aplicação prática no R.
Como todos os documentos que publico no meu blog, este passará regularmente
por revisões e/ou atualizações. Para que este processo tenha maior eficiência, sugestões
de modificações e indicações de erros são muito bem vindos, então sinta-se à vontade
para entrar em contato sobre o conteúdo deste documento. Por fim, caso você não tenha
obtido este material diretamente no meu blog, sugiro acessá-lo para conferir se a sua
versão é a mais nova: http://marcosvital.wordpress.com/
Esta apostila foi concebida para ser usada de maneira prática, usando o R ao
mesmo que se lê o texto. Como sugestão de uso, então, o ideal é manter o R aberto durante
a leitura, e ir repetindo os procedimentos que aparecem aqui. Todos os procedimentos
descritos no texto aparecem em imagens do R com sua execução, para que você possa
comparar facilmente o que está fazendo com o que eu fiz. Caso você não tenha em mãos
os arquivos com os dados utilizados ao longo dos exemplos, há uma maneira alternativa
de obter os dados sem ter que usar os arquivos em si, que você poderá conferir no anexo
lá no final. Ah, e no final de cada seção eu inclui um resumo das funções utilizadas
naquela parte, para facilitar a revisão e servir para referências rápidas durante o seu
aprendizado.
Espero que todos aproveitem bem este manual e tenham uma ótima experiência
utilizando o R!
Atenciosamente
Marcos Vinícius Carneiro Vital
2
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
SUMÁRIO
1. Introdução ................................................................................................................. 3
1.1. Obtendo e instalando o software. ........................................................................ 3
1.1.1 Usando o R com um IDE ............................................................................... 4
1.2. Primeiro contato. ................................................................................................ 4
1.3. O R como uma calculadora ................................................................................. 5
1.4. Usando funções no R .......................................................................................... 6
1.5. Usando os mecanismos de ajuda ......................................................................... 7
1.6. Criando objetos................................................................................................... 8
1.7. Importando uma planilha de dados para o R ...................................................... 10
1.8. Instalando e ativando pacotes no R ................................................................... 13
1.8.1. Pacotes com interface gráfica ..................................................................... 14
1.9. Usando um script, inserindo comentários e salvando tudo ................................. 14
1.10. Resolvendo problemas comuns no R ............................................................... 17
1.10.1. Objeto não encontrado .............................................................................. 17
1.10.2. Não foi possível encontrar a função “qualquer” ........................................ 18
1.10.3. Símbolo inesperado .................................................................................. 18
1.10.4. Tio, um danado de um “maiszinho” fica aparecendo no lugar do ‘>’! ....... 19
1.10.5. Orientações gerais .................................................................................... 19
1.11. Funções utilizadas – seção 1 ........................................................................... 20
2. Dados e gráficos ...................................................................................................... 21
2.1. Reconhecendo variáveis de uma planilha .......................................................... 21
2.2. Medidas de tendência central e de dispersão ..................................................... 22
2.3. Lidando com subconjunto de dados .................................................................. 23
2.4. Estudando a distribuição de frequências de uma variável: o histograma ............ 23
2.5. Gráficos, gráficos, gráficos! .............................................................................. 24
2.5.1. Gráficos de dispersão ................................................................................. 26
2.5.2. Gráficos de barras ...................................................................................... 26
2.5.3. Boxplots e gráficos de média com barras de erro ........................................ 27
2.6. Funções utilizadas – seção 2 ............................................................................. 30
3. alguns testes estatísticos .......................................................................................... 31
3.1. A escolha de um teste estatístico ....................................................................... 31
3.2. O teste de qui-quadrado .................................................................................... 31
3.2.1. Pressupostos do qui-quadrado .................................................................... 33
3
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
3.3. O teste t de Student ........................................................................................... 33
3.3.1. Pressupostos do teste t ................................................................................ 34
3.4. A análise de variância (ANOVA)...................................................................... 36
3.4.1. Pressupostos da ANOVA ........................................................................... 37
3.5. A regressão linear simples ................................................................................ 38
3.5.1. Pressupostos da regressão linear simples .................................................... 39
3.6. Funções utilizadas – seção 3 ............................................................................. 40
ANEXO 1: dados utilizados ........................................................................................ 41
1. INTRODUÇÃO
Nesta introdução nós vamos: instalar e ter um primeiro contato com o programa;
ter nosso primeiro contato com uma função; aprender a usar os mecanismos de ajuda;
criar objetos; importar dados; instalar pacotes e, finalmente, criar e utilizar scripts.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
disponível, com os mais variados graus de detalhe e abrangência. Na medida em que
desejar avançar no uso do programa, faça buscas e aproveite a existência deste material,
que é uma das várias vantagens de se usar o R. Quando desejar buscar na internet por
algum material específico (como uma análise ou conjunto de análises de uma determinada
área), a dica é buscar por: [R] “análise desejada”.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
simples: basta digitar o comando desejado e teclar enter, e o programa responde
executando a tarefa desejada (ou apresentando uma mensagem de erro, caso ele não
“saiba” o significado do que foi digitado).
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
inseridos diretamente no R; no caso de dados importados, o R normalmente segue a
configuração sobre separador decimal do computador, convertendo as vírgulas em pontos
sem problemas).
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
1.5. Usando os mecanismos de ajuda
No tópico anterior, usamos a função log, que utilizou dois argumentos: o número
e a base. Um questionamento que pode surgir é: como saber quais são os argumentos de
uma função? E a resposta é simples e muito útil: basta utilizar o mecanismo de ajuda do
R, que pode ser chamado digitando um ponto de interrogação seguido pelo nome da
função desejada. Experimente, então, usar o comando ?log. O resultado é uma nova
janela, aberta no navegador de internet, com informações da função log(). Tome algum
tempo para explorar o formato geral da página de ajuda, pois ela segue um padrão em
todas as funções. Um dos pedaços mais importantes das páginas de ajuda das funções fica
ao seu final: quase sempre há um ou mais exemplos de uso, o que é uma ótima ferramenta
para aprendizado.
A próxima pergunta provavelmente é: mas e se eu nem mesmo sei o nome da
função que desejo?! Aqui entra o mecanismo de busca do programa, que em sua versão
mais simples pode ser chamado com uma dupla interrogação seguida do termo a ser
buscado. Experimente, por exemplo, usar o comando ??variance (para buscar funções
que façam referência à palavra variância), e explore um pouco o resultado, composto por
diversas funções que se relacionam à palavra utilizada. Uma versão um pouco mais
completa desta mesma função é o help.search(), na qual termos com mais de uma palavra
poderão ser buscados, bastando estarem entre aspas simples. Experimente o comando
help.search(“linear regression”) e veja os resultados. Como toda documentação do R está
em inglês, lembre-se sempre em buscar utilizando as palavras neste idioma, ok?
8
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Uma característica bacana do sistema de help do R é o seu funcionamento no
formato html, aberto pelo navegador de internet padrão do computador. Este sistema
permite que você possa abrir novas janelas ou abas usando os links (que aparecem como
palavras azuis grifadas) que aparecem em diversas palavras-chave que possuem páginas
de ajuda próprias. Desta forma, a partir de uma função você pode explorar outras
relacionadas, navegando de função em função. E não se engane: apesar de utilizar o
navegador, as páginas de ajuda estão todas em seu computador, então não há necessidade
de conexão com a internet.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
composto pelo número 15. O fato do R ficar “silencioso” após o comando é normal: nós
mandamos o programa criar o objeto, e só; ele só iria exibir algum tipo de resultado se
fosse instruído para tanto. Se quiser, você pode dar o mesmo comando apontando a seta
para o outro lado, assim: 15->objeto1. O resultado é o mesmo.
Agora que criamos o objeto, podemos usá-lo à vontade. Por exemplo, podemos
“chamar” o objeto no R, simplesmente digitando seu nome e teclando enter. Experimente
fazer isso, e veja o resultado. Também podemos realizar operações matemáticas.
Experimente, por exemplo, digitar a operação objeto1*2. O R exibirá o resultado, mas
perceba que o objeto continua inalterado (basta chama-lo de novo e conferir). Isto
acontece porque nós apenas perguntamos ao R qual o resultado de se multiplicar o objeto
por 2. Se quisermos que ele armazene o resultado no lugar do número original, então o
comando seria: objeto1<-objeto1*2.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
E nunca se esqueça: ao nomear um objeto no R, você sempre deverá chama-lo
pelo nome exatamente como foi criado. Se mudar uma letra maiúscula para minúscula,
um acento ou qualquer outro pequeno detalhe, o programa não irá entender. Por fim, o
comando ls() sempre pode ser chamado quando se quiser saber quais objetos estão na
memória.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Uma vez criado o arquivo, devemos primeiro indicar para o R a sua localização,
antes de importá-lo de fato. Este é um processo simples, feito pelo menu do R: basta
acessar o menu ‘Arquivo’ e selecionar a opção ‘Mudar dir...’, e selecionar o diretório
onde o arquivo se encontra (lembre-se de que o R não “verá” o arquivo, pois estamos
apenas selecionando o diretório). Este procedimento estabelece o que chamamos de
“diretório de trabalho”, e é um aspecto bem importante para termos um bom uso do
programa. Uma vez que o diretório de trabalho está estabelecido, tudo o que tentarmos
importar e tudo aquilo que exportarmos (ou seja, salvarmos “para fora” do R) será
automaticamente feito ali. Uma boa recomendação é criar uma pasta de fácil acesso, e
dentro dela criar subpastas para cada análise, projeto ou outra coisa relevante. E caso você
deseje definir o diretório de trabalho “manualmente”, veja as funções setwd() para
determinar o diretório e getwd() para saber qual o diretório atual.
Após a escolha do diretório desejado, caso queira você poderá conferir quais
arquivos estão salvos dentro dele com o comando dir(). Após conferir se o arquivo
desejado está ali, basta importá-lo para um objeto usando o comando read.table(). O
comando pede apenas um argumento obrigatório: o nome do arquivo (que deve estar entre
aspas e com a extensão). Mas usaremos outro argumento, este opcional: informaremos ao
R que a nossa planilha tem um cabeçalho, que é uma linha que identifica o nome das
variáveis. O comando completo, então, será: read.table(“nomedoarquivo.txt”,header=T).
O argumento header=T é a indicação de que existe um cabeçalho (o T é a abreviação de
TRUE).
12
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Normalmente seguimos com um attach(planilha) para reconhecer as variáveis (veja na seção 2)!
Se por acaso você precisar abrir um arquivo que, por algum motivo, está fora do
seu diretório de trabalho, experimente usar a função file.choose() como argumento no
lugar do nome do arquivo, e veja o que acontece! Legal, não é?
Agora que conseguimos importar um conjunto de dados para o R, podemos
conferir o que foi importado. A maneira mais básica de se fazer isso é simples: basta
“chamar” o objeto que recebeu os dados. Este método, porém, não é lá muito prático, pois
todos os dados irão aparecer no console, o que não é útil para planilhas com muitas linhas
e/ou colunas. Vamos preferir, então, usar funções que permitam uma visão mais compacta
dos nossos dados. A função head() é uma delas: ela fará o R mostrar no console apenas
as seis primeiras linhas da tabela importada, permitindo, por exemplo, conferir os nomes
das variáveis. Outra função bastante útil é summary(), que nos dá algumas estatísticas
descritivas dos dados (o resultado exato depende da natureza das variáveis).
O comando summary() nos dá: para variáveis qualitativas, o número de vezes que
uma classe apareceu; e para variáveis quantitativas, o valor mínimo, o primeiro quartil, a
mediana, a média, o terceiro quartil e o valor máximo (nesta ordem).
13
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Veja o resultado para uma variável categórica.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
1.8.1. Pacotes com interface gráfica
O R possui alguns pacotes que, além de adicionar novas funções à nossa
disposição, adicionam novas maneiras de interagirmos com o programa ao criarem uma
nova janela de interface com o usuário. Dois pacotes são particularmente interessantes: o
Rcmdr e o GrapheR. O primeiro é focado na realização dos principais testes estatísticos,
e o segundo é voltado para a produção de gráficos. Se, por um lado, é fantástico termos
uma interface de usuário mais amigável, por outro devemos ter muita cautela de não
dependermos disso, pois pacotes com estes são sempre, por definição, limitados a
algumas funções. Uma boa maneira de usá-los é como uma ferramenta acessória no
aprendizado: ambos permitem que você veja os comandos das funções executadas, o que
pode ser muito útil para se aprender a usá-las. Em suma: vale à pena conhecê-los, mas
eles devem sempre ser usados com muita cautela, para que o usuário não acabe
dependendo completamente deles e acabe não dominando o uso do R.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
resultados de análises, pois permitem que o usuário anote as suas primeiras conclusões e
interpretações diretamente com os resultados.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Um script do R é uma simples sequências de comandos (que podem incluir
comentários), que podem ser enviados para serem executados no console quando o
usuário assim o desejar. Basta selecionar a(s) linha(s) desejada(s) (ou selecionar todas
usando o atalho ctrl+a) e usar o atalho ctrl+r, e o console irá executar tudo. Uma vez que
a janela do script estiver selecionada, ele poderá ser salvo pelo menu ‘Arquivo’ na opção
‘Salvar’. Os arquivos de script do R são salvos como a extensão .R, mas podem ser abertos
pelo bloco de notas se for desejado.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
1.10. Resolvendo problemas comuns no R
AIMEUDEUSDOCÉUORNÃOFAZOQUEEUQUERO!!!!!1!!!
Calma, muita calma. Quando o R não faz o que queremos, ele normalmente nos
responde com uma mensagem de erro, que pode ser bastante informativa sobre o que está
acontecendo. Lembre-se sempre de ler com calma as mensagens de erro que surgirem, e
tentar interpretá-las, pois na imensa maioria das vezes a solução é bem simples. Na
medida em que nos habituamos com o programa, começamos a perceber quais são os
erros mais comuns, e as coisas vão ficando cada vez mais fáceis. Vamos ver, a seguir,
alguns dos erros mais comuns que costumamos ter com o R e como podemos solucioná-
los.
O erro acima ocorre quando tentamos fazer referência a um objeto que não existe.
Pode ocorrer quando nos esquecemos de importar os dados ou quando simplesmente
escrevemos errado o nome do objeto. Solução 1: confira quais objetos estão na
memória do R e quais os seus nomes com um ls().
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
1.10.2. Não foi possível encontrar a função “qualquer”
A mensagem é bem clara: você tentou chamar uma função que não existe.
Provavelmente você não digitou corretamente o nome da função. Solução 1: reveja o
que escreveu em busca de erros (fique atento ao detalhes, como letras maiúsculas e
símbolos).
Outra possibilidade é ter tentado chamar uma função de um pacote sem o ter
carregado previamente. Solução 2: use o comando library() para carregar o pacote
necessário.
Quando associado à uma função, o mais provável é ter esquecido uma vírgula
entre os argumentos. Solução 2: confira o comando, e lembre-se de que todos os
argumentos de uma função devem ser separados por vírgula.
19
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
1.10.4. Tio, um danado de um “maiszinho” fica aparecendo no lugar do ‘>’!
Pois é, o famoso símbolo de “mais” atormenta muita gente, mas é algo muito
simples e não é um erro em si: ele surge como parte de uma funcionalidade do próprio R,
que é permitir que um comando seja escrito em várias linhas. Caso você esteja escrevendo
uma função bem longa, com muitos argumentos, o R permite que você a escreva aos
poucos, teclando enter entre um conjunto de argumentos caso ache necessário. Para isso
ser possível, basta que você tenha começado a escrever os argumentos e tecle enter antes
de fechar os parênteses daquela função ou aspas de uma parte da função; depois, basta
terminar de escrever e teclar enter novamente para que tudo volte ao normal.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
1.11. Funções utilizadas – seção 1
Vou resumir, a seguir, as funções que vimos até aqui:
+, -, *, / → operadores matemáticos
sqrt() → raiz quadrada
log() → logarítimo
?, ??, help.search() → mecanismos de ajuda
<-, -> → associa elementos (valores, nomes, planilhas, etc) a objetos do R
c → combina elementos em um vetor ou uma lista
ls() → lista os objetos na memória do R
dir() → lista os arquivos no diretório de trabalho
read.table() → lê uma planilhas em arquivo externo
head() → lista as seis primeiras linhas de uma planilha
summary() → resume as informações de um objeto do R
library() → carrega um pacote que já esteja no computador
# → permite a inserção de comentários
21
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
2. DADOS E GRÁFICOS
Nesta seção nós vamos lidar com conjuntos de dados no R, dando os primeiros
“passos estatísticos” com o programa. Especificamente, nós vamos aprender funções
básicas para sumarizar e manipular dados, além de aprender a criar os nossos primeiros
gráficos.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Sem o attach(), a variável
não é reconhecida.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
As funções mean(), var() e sd() calculam, respectivamente, a média, a variância e
o desvio padrão. A função quantile() permite calcular a mediana, os quartis e quaisquer
percentis desejados (veja o exemplo para entender o uso desta última função).
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
hist(). No uso básico da função o próprio R irá “decidir” em quantas classes dividir os
intervalos da variável, o que pode ser alterado pelo argumento breaks. Tome algum tempo
para explorar o help da função, dando especial atenção para os exemplos.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Existem muitos argumentos comuns a todas as funções gráficas do R, como xlab
e ylab (para dar nomes aos eixos), main (para atribuir títulos ao gráfico), axes (para se
adicionar ou remover os eixos) e muitas outras. A documentação de ajuda da função par()
é uma excelente fonte de informações sobre argumentos gerais que podem ser usados em
diversos gráficos diferentes. Ao explorar as funções gráficas do R, use e abuse dos
exemplos que aparecem nas páginas de ajuda, pois eles são uma das melhores maneiras
de se aprender. Caso esteja com dificuldades, tente criar seu gráfico passo à passo: crie
um gráfico básico e depois vá acrescentando, um a um, os argumentos desejados, até
chegar ao ponto ideal.
Vamos olhar agora, bem brevemente, para outros gráficos típicos da estatística.
Estes são gráficos que mostram a relação entre duas variáveis, situação na qual existe
uma convenção geral: sempre que existir uma variável explicativa (ou independente), ela
deve ser representada no eixo x, enquanto a variável resposta (ou dependente) deve ser
representada no y. A exceção, claro, são os gráficos de barras, nos quais o eixo y
representa apenas frequências, de maneira similar aos histogramas. Alguns destes
gráficos deles serão vistos novamente mais adiante, quando lidarmos com os testes
estatísticos, e na ocasião poderemos ver mais detalhes e argumentos conforme necessário.
26
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
2.5.1. Gráficos de dispersão
Os gráficos de dispersão representam a relação entre duas variáveis quantitativas.
Criá-los no R é extremamente simples: basta usar a função plot().
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
A ordem das variáveis faz
diferença! Experimente refazer
mudando a ordem e veja.
Boxplots:
Uma das maneiras mais comuns de se representar medianas, normalmente
acompanhadas de quartis e/ou percentis, são os boxplots. Criá-los no R é feito com a
função boxplot(), como no exemplo a seguir (no qual usei alguns argumentos a mais para
modificar o gráfico básico). Para usar este comando, a relação entre as variáveis foi
determinada usando o símbolo ‘~’. Esta representação é bem comum no R, e irá aparecer
no uso de diversos modelos estatísticos. A lógica desta representação será sempre
‘variável_resposta~variável_explicativa’.
28
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
O argumento ylim foi usado para
estabelecer a escala do eixo y.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Neste último argumento mudei as barras
para o desvio. Use var() onde usei sd() para
ter o gráfico com as variâncias.
Uma outra possibilidade a função plotMeans() do pacote Rcmdr (que foi chamado
aqui apenas para usarmos esta função; não vamos explorar a sua janela de interface de
usuário, que pode ser fechada, mas fique à vontade para dar uma olhada no que ela
oferece). Neste caso, porém, perceba que a função não usará o ‘~’ em sua sintaxe. Uma
desvantagem desta função é que ela insere uma linha ligando as médias, e não há
argumento na função para removê-la.
Por fim, uma última opção é experimentar o pacote GrapheR. Este pacote oferece
uma interface gráfica de usuário voltada para a utilização de diversas funções gráficas do
R de maneira simplificada. É bastante útil durante para o aprendizado sobre gráficos no
R, e bem prático para produzirmos gráficos rápidos.
30
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
2.6. Funções utilizadas – seção 2
Vou resumir, a seguir, as funções que vimos nesta seção.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
3. ALGUNS TESTES ESTATÍSTICOS
Nesta seção vamos explorar alguns testes estatísticos básicos: o qui-quadrado, o
teste T, a ANOVA e a regressão linear. Esta seção, por ser a mais recente, ainda está um
pouco menos elaborada do que as duas primeiras, e ainda deve ser bastante modificada e
expandida.
Com exceção do teste de qui-quadrado, os demais três testes que veremos são
ditos paramétricos, e dependem de alguns pressupostos para que seus resultados sejam
considerados confiáveis. Quando for relevante, então, apresentarei métodos para se
verificar os pressupostos do teste no próprio R, e é recomendável que estas verificações
façam parte da sua rotina de testes estatísticos, uma vez que um pressuposto violado pode
inutilizar o resultado de um teste. Como sempre, não vou entrar em detalhes (já que o
nosso foco está na execução no R), e recomendo a leitura de livros de estatística para mais
detalhes. Nunca se esqueça de que tentar realizar um teste estatístico que você não domina
gera uma chance enorme de que os resultados sejam completamente equivocados!
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Em muitos casos (e este não é uma exceção), é interessante associar o resultado
de um teste a um novo objeto, pois isto permite explorar resultados que não seriam
mostrados com a simples execução da função. No caso do teste de qui-quadrado, podemos
desejar ver, por exemplo, os valores das frequências esperadas por acaso. Se associarmos
o resultado do teste a um objeto e o inspecionarmos com a função summary(), notaremos
que existem vários componentes, e que um deles contém estes valores: o componente
expected. Observe, no exemplo a seguir, como podemos usar o símbolo ‘$’ para ter acesso
a estes valores (eu disse que ele seria útil!).
Por fim, para compreendermos o resultado do teste, é essencial investigarmos os
dados em si, o que normalmente é feito de forma gráfica. Veja o exemplo de gráfico de
barras na apostila anterior.
33
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
3.2.1. Pressupostos do qui-quadrado
O teste de qui-quadrado apresenta pressupostos bem simples, e não são
necessários métodos específicos para verifica-los. O mais básico é um pressuposto
comum a quase todos os testes: o de que as observações (ou seja, as unidades amostrais)
sejam independentes. Além deste pressuposto geral, devemos observar se a tabela de
contingência possui no máximo 20% dos seus valores menores do que cinco. Se este
pressuposto for violado, o resultado do teste não é confiável.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
O argumento mu permite o teste t para
uma amostra.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
(como fizemos no exemplo acima). Ou seja, se nada for dito, o R já fara o teste t para
variâncias heterogêneas. Mas lembre-se de que esta variação de teste t “gasta” mais graus
de liberdade, então é sempre vantajoso usar o teste t tradicional (com var.equal=T) caso
as variâncias sejam homogêneas.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
aqui, mas caso você deseje conhecê-la, veja a documentação do comando wilcox.test()
para saber mais sobre o teste de Mann-Whitney.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
utilizo um como exemplo a seguir: é o teste de Tukey, chamado pela função TukeyHSD(),
que atua diretamente no objeto com o resultado da ANOVA.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
3.5. A regressão linear simples
A regressão linear simples testa a existência de uma relação linear de causa e efeito
entre uma variável explicativa e outra resposta, ambas quantitativas. Também faz parte
da família dos modelos lineares. No R, pode ser chamado pelo comando lm(). Veja o
exemplo a seguir, com os mesmos dados que foram usados no gráfico de dispersão da
apostila anterior.
Os resultados são parecidos com os de uma ANOVA, mas conta com alguns
detalhes a mais. No exemplo acima, a linha (Intercept) refere-se ao intercepto da equação
linear (o b, na equação y = ax + b), e verifica a hipótese nula de que ele seria igual a zero;
de uma forma geral, nós raramente nos preocupamos com a esta parte do resultado, pois
o intercepto normalmente não faz parte da nossa pergunta. Já a linha abaixo, com o nome
da variável explicativa, é sempre do nosso interesse: ela verifica a hipótese nula de que o
parâmetro a da equação seja igual a zero; ou seja, ao rejeitarmos a hipótese nula nós
concluímos que de fato há uma relação estatisticamente significativa entre as duas
variáveis, e que o efeito desta relação é medido por este parâmetro. No exemplo acima, o
teste rejeita a hipótese nula de que a riqueza de espécies não varia em função da área do
fragmento de mata, e o resultado da regressão permite concluirmos que, em média, cada
incremento de uma unidade de área aumenta a riqueza em 0,13885. Por fim, a
interpretação da correlação, que está representada no parâmetro Adjusted R-squared
também é importante. No exemplo acima, diríamos que 39,46% da riqueza de espécies é
explicada pelo tamanho da área dos fragmentos.
39
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Os resultados de uma regressão linear que rejeita a hipótese nula são comumente
apresentados com uma representação gráfica que mostra os dados (em um gráfico de
dispersão) e a equação (na forma de uma reta). Para adicionar a reta da equação ao gráfico
criado pelo comando plot(), basta, com o gráfico aberto, executar o comando abline(),
fazendo referência ao objeto que contém o resultado da regressão. Veja o exemplo a
seguir.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
3.6. Funções utilizadas – seção 3
Vou resumir, a seguir, as funções que vimos nesta seção.
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
ANEXO 1: DADOS UTILIZADOS
Caso você não tenha os arquivos com os dados utilizados nos exemplos desta
apostila, basta copiar e colar o texto da caixa correspondente no console do R e pronto!
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("primário",
92L, 51L, 89L, 128L, 149L, 127L, 108L, 83L, 140L, 163L, 41L,
107L, 79L, 104L, 60L, 82L, 148L, 97L, 49L, 164L, 110L, 51L, 40L,
92L, 163L, 128L, 130L, 122L, 96L, 59L, 73L, 90L, 48L, 166L, 121L,
167L, 48L, 78L, 105L, 90L, 105L, 166L, 84L, 57L, 81L, 122L, 112L
), Riqueza = c(35L, 31L, 39L, 25L, 22L, 35L, 43L, 48L, 35L, 38L,
32L, 33L, 40L, 16L, 31L, 23L, 32L, 35L, 22L, 41L, 24L, 18L, 39L,
32L, 19L, 20L, 31L, 26L, 20L, 33L, 36L, 32L, 28L, 23L, 28L, 16L,
44L, 27L, 37L, 24L, 19L, 28L, 27L, 28L, 27L, 20L, 34L, 20L, 31L,
14L), Abund_sp1 = c(3L, 3L, 1L, 6L, 1L, 0L, 3L, 5L, 0L, 2L, 0L,
2L, 2L, 3L, 5L, 3L, 1L, 4L, 3L, 0L, 2L, 3L, 1L, 3L, 3L, 1L, 3L,
1L, 2L, 2L, 2L, 2L, 8L, 5L, 1L, 0L, 3L, 0L, 3L, 2L, 0L, 2L, 0L,
0L, 1L, 3L, 3L, 4L, 1L, 0L)), .Names = c("UA", "Ambiente", "Área",
-50L))
#Pronto, os dados estão salvos no objeto ‘dados’; pressione enter siga adiante!
42
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Dados do arquivo “fumo.txt”; as letras estão pequenas, mas está tudo aí!
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L,
3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L,
3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L), .Label = c("Moderado",
"Não", "Pesado"), class = "factor"), Câncer = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L), .Label = c("Não", "Sim"), class = "factor")), .Names = c("Fumo", "Câncer"), class = "data.frame", row.names = c(NA, -1011L))
#Pronto, os dados estão salvos no objeto ‘dados’; pressione enter siga adiante!
43
Bioestatística - Prof. Marcos Vinícius Carneiro Vital (ICBS – UFAL) - Material disponível no endereço http://marcosvital.wordpress.com/
Dados do arquivo “peixes.txt” (no exemplo de ANOVA):
3L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
#Pronto, os dados estão salvos no objeto ‘dados’; pressione enter siga adiante!