Bioestatistica LIVRO WEB

Biologia
Bioestatística
Lilian Giotto Zaros

Henrique Rocha de Medeiros
Bioestatística
Lilian Giotto Zaros
Henrique Rocha de Medeiros
Biologia
2ª Edição
Bioestatística
Natal – RN, 2011

Governo Federal
Presidenta da República
Dilma Vana Rousseff
Vice-Presidente da República
Michel Miguel Elias Temer Lulia
Ministro da Educação
Fernando Haddad
Universidade Federal do Rio Grande do Norte – UFRN

Reitora
Ângela Maria Paiva Cruz
Vice-Reitora
Maria de Fátima Freire Melo Ximenes
Secretaria de Educação a Distância (SEDIS)

Secretária de Educação a Distância Secretária Adjunta de Educação a Distância
Maria Carmem Freire Diógenes Rêgo Eugênia Maria Dantas
FICHA TÉCNICA
COORDENAÇÃO DE PRODUÇÃO DE MATERIAIS DIDÁTICOS EDITORAÇÃO DE MATERIAIS

Marcos Aurélio Felipe Criação e edição de imagens
Adauto Harley
Anderson Gomes do Nascimento
GESTÃO DE PRODUÇÃO DE MATERIAIS Carolina Costa de Oliveira
Luciana Melo de Lacerda Dickson de Oliveira Tavares
Rosilene Alves de Paiva Leonardo dos Santos Feitoza
Roberto Luiz Batista de Lima
Rommel Figueiredo
PROJETO GRÁFICO
Ivana Lima
Diagramação
Ana Paula Resende
REVISÃO DE MATERIAIS Carolina Aires Mayer
Revisão de Estrutura e Linguagem Davi Jose di Giacomo Koshiyama
Eugenio Tavares Borges Elizabeth da Silva Ferreira
Janio Gustavo Barbosa Ivana Lima
Jeremias Alves de Araújo José Antonio Bezerra Junior
José Correia Torres Neto Rafael Marques Garcia
Kaline Sampaio de Araújo
Luciane Almeida Mascarenhas de Andrade Módulo matemático
Thalyta Mabel Nobre Barbosa Joacy Guilherme de A. F. Filho
Revisão de Língua Portuguesa

IMAGENS UTILIZADAS
Camila Maria Gomes
Acervo da UFRN
Cristinara Ferreira dos Santos
www.depositphotos.com
Emanuelle Pereira de Lima Diniz
www.morguefile.com
Janaina Tomaz Capistrano
www.sxc.hu
Priscila Xavier de Macedo
Encyclopædia Britannica, Inc.
Rhena Raize Peixoto de Lima
Revisão das Normas da ABNT

Verônica Pinheiro da Silva
Catalogação da publicação na fonte. Bibliotecária Verônica Pinheiro da Silva.
Zaros, Lilian Giotto.

Bioestatística / Lilian Giotto Zaros e Henrique Rocha de Medeiros. – Natal: EDUFRN, 2011.
214 p.: il.
ISBN 978-85-7273-833-0
Conteúdo: Aula 1 – O que é bioestatística. Aula 2 – Como transformar dados em informações.

Aula 3 - Descrevendo Sistemas. Aula 4 – Elaborando hipóteses. Aula 5 – Testando hipóteses. Aula 6
– Análise de variância. Aula 7 – Correlacionando informações. Aula 8 – Análise de regressão. Aula 9 –
Entendendo os números índices e suas aplicações. Aula 10 – Probabilidade: conceitos e aplicações.
Disciplina ofertada ao curso de Biologia a distância da UFRN.
1. Bioestatística. 2. Hipóteses. 3. Probabilidade. I. Medeiros, Henrique Rocha de. II. Título.
CDU 311
Z38b
© Copyright 2005. Todos os direitos reservados a Editora da Universidade Federal do Rio Grande do Norte – EDUFRN.
Nenhuma parte deste material pode ser utilizada ou reproduzida sem a autorização expressa do Ministério da Educacão – MEC
Sumário
Apresentação Institucional 5
Aula 1 O que é Bioestatística 7
Aula 2 Como transformar dados em informações 25
Aula 3 Descrevendo Sistemas 43
Aula 4 Elaborando hipóteses 65
Aula 5 Testando hipóteses 83
Aula 6 Análise de variância 101
Aula 7 Correlacionando informações 129
Aula 8 Análise de regressão 147
Aula 9 Entendendo os números índices e suas aplicações 173
Aula 10 Probabilidade:conceitos e aplicações 193

Apresentação Institucional
A
Secretaria de Educação a Distância – SEDIS da Universidade Federal do Rio Grande
do Norte – UFRN, desde 2005, vem atuando como fomentadora, no âmbito local, das
Políticas Nacionais de Educação a Distância em parceira com a Secretaria de Educação
a Distância – SEED, o Ministério da Educação – MEC e a Universidade Aberta do Brasil –
UAB/CAPES. Duas linhas de atuação têm caracterizado o esforço em EaD desta instituição: a
primeira está voltada para a Formação Continuada de Professores do Ensino Básico, sendo
implementados cursos de licenciatura e pós-graduação lato e stricto sensu; a segunda volta-se
para a Formação de Gestores Públicos, através da oferta de bacharelados e especializações
em Administração Pública e Administração Pública Municipal.
Para dar suporte à oferta dos cursos de EaD, a Sedis tem disponibilizado um conjunto de
meios didáticos e pedagógicos, dentre os quais se destacam os materiais impressos que são
elaborados por disciplinas, utilizando linguagem e projeto gráfico para atender às necessidades
de um aluno que aprende a distância. O conteúdo é elaborado por profissionais qualificados e
que têm experiência relevante na área, com o apoio de uma equipe multidisciplinar. O material
impresso é a referência primária para o aluno, sendo indicadas outras mídias, como videoaulas,
livros, textos, filmes, videoconferências, materiais digitais e interativos e webconferências, que
possibilitam ampliar os conteúdos e a interação entre os sujeitos do processo de aprendizagem.
Assim, a UFRN através da SEDIS se integra o grupo de instituições que assumiram o
desafio de contribuir com a formação desse “capital” humano e incorporou a EaD como moda-
lidade capaz de superar as barreiras espaciais e políticas que tornaram cada vez mais seleto o
acesso à graduação e à pós-graduação no Brasil. No Rio Grande do Norte, a UFRN está presente
em polos presenciais de apoio localizados nas mais diferentes regiões, ofertando cursos de
graduação, aperfeiçoamento, especialização e mestrado, interiorizando e tornando o Ensino
Superior uma realidade que contribui para diminuir as diferenças regionais e o conhecimento
uma possibilidade concreta para o desenvolvimento local.
Nesse sentido, este material que você recebe é resultado de um investimento intelectual
e econômico assumido por diversas instituições que se comprometeram com a Educação e
com a reversão da seletividade do espaço quanto ao acesso e ao consumo do saber E REFLE-
TE O COMPROMISSO DA SEDIS/UFRN COM A EDUCAÇÃO A DISTÂNCIA como modalidade
estratégica para a melhoria dos indicadores educacionais no RN e no Brasil.
SECRETARIA DE EDUCAÇÃO A DISTÂNCIA

SEDIS/UFRN
5
O que é Bioestatística
Aula
1
Apresentação
N
esta primeira aula, apresentaremos um breve histórico da Estatística, suas subdivisões
e como podemos utilizá-la no ramo das Ciências Biológicas. Num segundo momento,
abordaremos o conceito de Bioestatística e suas aplicações, partindo para a retomada de
alguns conceitos vistos na disciplina de Matemática e Realidade. Essa retomada é essencial não
somente para a compreensão das aulas seguintes, mas também da disciplina como um todo.
Para compreender os assuntos que serão abordados nesta aula, é necessário que você
leia atentamente os conceitos, que sempre serão acompanhados de exemplos aplicados às
Ciências Biológicas.
Ao final de cada tópico principal haverá uma série de exercícios propostos para você
resolver, além de exercícios já resolvidos. No final da aula, haverá uma autoavaliação para que
você avalie a sua aprendizagem. Tenha sempre seu caderno em mãos para que você anote
suas dúvidas e as encaminhe para nós o mais rápido possível.
Objetivos
Conhecer a história da Estatística e identificar as situações
1 onde ela pode ser aplicada.
Conhecer e distinguir as diversas fases do método

2 estatístico.
Definir o que é Bioestatística.

3
Compreender os conceitos fundamentais para
4 o entendimento e aplicação da Bioestatística.
Distinguir as técnicas de amostragem para a escolha de

5 elementos que irão compor uma amostra.
Aula 1 Bioestatística 9
O que é Estatística?
Para alguns, responder a essa pergunta é muito fácil, mas para outros, que nunca ouviram
falar em estatística, pode parecer algo impossível de entendimento. Mas, mesmo sem saber,
você já deve ter utilizado a estatística no seu cotidiano. Vamos conferir?
Com a chegada da Copa do Mundo de 2010, muitas lojas irão fazer promoções de
televisores. Você, consumidor, quer comprar uma TV e para saber qual delas tem o melhor
preço, inicia sua pesquisa de loja em loja, anotando os valores. Depois, em casa, compara os
preços, seleciona aquele mais em conta e se dirige até a loja para efetuar a sua compra. Nessa
situação, a estatística esteve presente quando você coletou os dados, extraiu as informações
a partir da sua pesquisa e tomou as decisões baseadas na sua coleta de dados.
Mas, além do cotidiano, a Estatística pode estar presente em qualquer disciplina de

qualquer curso, inclusive do curso de Ciências Biológicas.
Mas você deve estar se perguntando:

“Em quais disciplinas e como?”
B
em, se o professor da disciplina de Biodiversidade pedir para que você faça um
levantamento de quais as espécies animais habitantes da caatinga estão ameaçadas de
extinção, você estará utilizando um dos princípios da Estatística, ou melhor, do método
estatístico (que veremos a seguir), que é o da coleta de dados. Mas se ele for mais além, e pedir
para que você ordene quais os animais mais ameaçados de extinção, aí você terá que fazer
um levantamento mais aprofundado, checar outras fontes, organizar e interpretar os dados e
apresentar os resultados ao professor. Nesse momento você ainda estará utilizando a estatística.
Percebeu como a Estatística toma parte do nosso cotidiano e das disciplinas do Curso
de Ciências Biológicas, por exemplo?
A Estatística tem se mostrado um instrumento extremamente útil na organização

e interpretação dos dados, auxiliando na tomada de decisões, além de proporcionar uma
avaliação adequada de uma determinada situação, seja ela de origem biológica ou não.
10 Aula 1 Bioestatística
O papel da Estatística quando estabelecida como ciência
Pois bem, inicialmente a Estatística se preocupava em enumerar coisas e pessoas para
a avaliação das riquezas e cadastramento das propriedades de uma determinada cidade. Isso
aconteceu há milhares de anos atrás e atualmente acontece no Brasil a cada 10 anos.
Você já deve ter recebido em sua casa um funcionário do Instituto Brasileiro de Geografia
e Estatística (IBGE), munido de um questionário para avaliar sua condição de vida. Pois é esse
questionário, chamado de CENSO, que nos permite adquirir informações sobre cada família
brasileira, e já era realizado em civilizações muito antigas como a do Império Romano, da China
e do antigo Egito em 1000 a.C.
Fonte: <http://matematiques.sites.uol.com.br/pereirafreitas/1.1.2metodoestati
stico.htm>. Acesso em: 25 fev. 2010.
Hoje, com o passar dos anos, podemos constatar que o papel da Estatística vai além de
organizar e descrever fatos e/ou gerar informações analisando um conjunto de dados coletados,
mas também auxiliar no:
1) Planejamento, auxiliando na escolha das situações experimentais e na determinação da

quantidade de indivíduos a serem examinados.
2) Na análise dos dados, indicando técnicas para resumir e apresentar as informações, bem
como para comparar as situações experimentais ou não.
3) Na elaboração das conclusões, utilizando os vários métodos estatísticos que permitem

generalizar a partir dos resultados obtidos.
Estatística é a ciência que tem como objetivo orientar a coleta, o resumo, a

apresentação, a análise e a interpretação dos dados coletados. E para isso, ela
se apóia na utilização do método estatístico. O método estatístico é um processo
para se obter, apresentar e analisar características ou valores numéricos para uma
melhor tomada de decisão em situações de incerteza.
O método estatístico apresenta as seguintes fases:
Definição do problema: Podemos ilustrar essa primeira fase do método estatístico com a
pergunta: O que pesquisar? Nessa etapa você deve conhecer o problema a ser pesquisado,
fazer as perguntas às quais quer que sejam respondidas com a sua pesquisa. Por exemplo:
A altura média dos alunos de cada semestre do Curso de Ciências Biológicas.
Planejamento da pesquisa: Essa segunda etapa pode ser traduzida com a pergunta: Como
pesquisar? Assim, é essencial que você tenha clareza de como a pesquisa será feita. Deve-se
também definir se você utilizará a população ou apenas uma amostra dessa população, que
estudaremos logo a seguir. Utilizando o nosso exemplo acima, devemos planejar se vamos
estudar a altura de todos os alunos do Curso de Ciências Biológicas ou somente dos alunos
do primeiro semestre, ou somente a altura dos homens.
Coleta dos dados: Podemos perguntar: O que coletar? Nessa etapa você deve obter as
informações de acordo com o que foi planejado na etapa anterior. Se o objetivo é saber a altura
dos alunos de cada semestre do Curso de Ciências Biológicas, você deve iniciar as medições de
cada um dos alunos, anotando os valores obtidos, como exemplificados na tabela 1.
Tabela 1 – Altura, em metros, dos alunos do 1º, 2º e 3º semestres do Curso de Ciências Biológicas
Altura dos alunos Altura dos alunos Altura dos alunos

do semestre 1 (m) do semestre 2 (m) do semestre 3 (m)
1,54 1,67 1,65

1,74 1,87 1,54
1,82 1,88 1,64
1,9 1,89 1,56
1,54 1,78 1,75
3,54 1,89 1,56
1,75 1,9 1,6
1,87 1,76 1,64
1,96 1,94 1,65
1,72 1,95 1,6
Crítica dos dados: Essa fase é essencial para saber como anda a sua pesquisa. Pode-se lançar
a seguinte pergunta: Os dados estão coerentes? Você deve observar criticamente os dados
coletados, para que, se detectado algum erro, este não seja repetido nas coletas futuras.
Se você está medindo as alturas dos alunos de cada semestre do Curso de Ciências Biológicas
e encontra uma medida de 3,54 m, conforme apresentado em destaque na Tabela 1, pode ter
certeza que nessa hora, você cometeu algum erro.
Apresentação: Nessa etapa você deverá apresentar os dados coletados após eles serem
organizados. Uma vez os dados coletados, eles devem ser apresentados, seja através de
tabelas ou gráficos, conforme apresentado no Gráfico 1, ou por meio de um texto escrito.
2
1,9
Altura média (m)
1,8
1,7
1,6
1,5
1,4
Alunos do Alunos do Alunos do
semestre 1 semestre 2 semestre 3
Gráfico 1 – Altura média (m) dos alunos do primeiro, segundo e terceiro semestre do Curso de Ciências Biológicas
Análise e interpretação dos dados: Essa é a etapa final do método estatístico, mas nem por
isso, a menos importante. Nessa fase você deve descrever e analisar os dados pesquisados, e
chegar a uma conclusão, ou seja, responder a sua pergunta inicial. No caso do nosso exemplo,
constatar qual a altura média dos alunos de cada semestre do Curso de Ciências Biológicas.
As fases do método estatístico, que incluem desde a definição do problema até

a apresentação dos dados, denominam-se Estatística Descritiva, e a análise e
interpretação dos dados constitui a Estatística Inferencial, que ajuda a concluir
sobre um conjunto maior de dados (populações) quando apenas parte desse
conjunto (as amostras) foi estudada.
Atividade 1
Com base no que você viu até agora sobre o método estatístico, faça uma pesquisa
na sua casa ou comunidade sobre algo que você gostaria de saber (número de
pessoas da comunidade, número de pessoas com olhos claros, tipo de árvore da
sua região, dentre outros) e, à medida que você for organizando sua pesquisa,
explicite quais as fases do método estatístico que você utilizou.
Mas você deve estar se
perguntando: “E a Bioestatística?”
Agora que você já sabe o que é Estatística, você se arriscaria a elaborar uma definição para
Bioestatística? É simples! Considera-se Bioestatística a aplicação dos métodos estatísticos
para solucionar problemas biológicos.
Pode parecer difícil para um aluno que não tem gosto pela Matemática aprender
Bioestatística. Mas ele deve adquirir algum conhecimento sobre essa disciplina, pois só assim
poderá ter um ponto de vista objetivo sobre as técnicas do método científico empregado nas suas
pesquisas e saberá avaliar o grau de importância da informação fornecida por essas técnicas.
Aprender Bioestatística também pode proporcionar que você se familiarize com alguns
conceitos mais utilizados na área. Alguns termos do vocabulário comum têm significado técnico
e específico quando usados em Bioestatística. E é importante conhecê-los.
Enfim, sem despender muito tempo com cálculos e demonstrações, pretendemos que
você adquira os conhecimentos suficientes para tornar-se um usuário competente das técnicas
estatísticas mais comuns que podem ser aplicadas nas Ciências Biológicas.
Atividade 2
Com base no que foi apresentado até aqui, escreva o que você entendeu sobre o que
1 é Bioestatística e qual a sua importância.
Procure, no seu cotidiano, duas utilizações da Estatística.

2
Retomando alguns
conceitos fundamentais
Alguns conceitos fundamentais para o entendimento e aplicação da Bioestatística você
já viu na disciplina de Matemática e Realidade (Aula 2 – A Estatística: do senso comum ao
conhecimento científico. Vamos retomá-los?
Unidade experimental ou Unidade de observação

É a menor unidade a fornecer uma informação. Podem ser pessoas, animais, plantas,
objetos. São aqueles indivíduos submetidos a uma situação de experimento controlado, como
por exemplo, ratos de laboratório colocados em um labirinto para estudar o comportamento
antes e após a administração de uma droga.
População
É o conjunto de “todos” os elementos (pessoas, animais, plantas, objetos) que
apresentam, pelo menos, uma característica comum e que pode ser observada, como por
exemplo, a população de árvores de mandacaru do sertão do Rio Grande do Norte.
Amostra
É qualquer parte retirada de uma população estatística, ou seja, é qualquer subconjunto
de uma população. Árvores de mandacaru do município de Currais Novos (RN).
Dados
São as informações numéricas ou não obtidas de uma unidade experimental ou de observação.
Quando se afirma que as árvores de mandacaru têm 21 espinhos, os dados são “21 espinhos”.
Variável
É alguma característica que pode ser observada (contada ou medida) em uma população
ou em uma amostra. O número de espinhos do mandacaru, a idade de uma pessoa e seus
hábitos quanto ao fumo, a estatura de um jogador de basquete, a cor da pelagem dos animais,
o tipo de folha de uma planta constituem exemplos de variáveis.
Entretanto, as variáveis podem ser classificadas em quantitativas e qualitativas:
1) Variáveis quantitativas: são aquelas cujos dados são valores numéricos, como por exemplo,
a estatura das pessoas, o número de sementes de uma vagem, o nível de colesterol no
sangue, o número de espinhos do mandacaru. As variáveis quantitativas podem ainda ser:
a) Variáveis quantitativas discretas: são aquelas em que os dados podem apresentar

somente determinados valores, no geral, números inteiros, como por exemplo, o número
de filhos de um casal, o número de patas de um cavalo e o número de pétalas das flores.
É impossível dizer que um casal tem 2,3 filhos.
b) Variáveis quantitativas contínuas: são aquelas em que os dados podem apresentar

qualquer valor dentro de um intervalo de variação possível, como por exemplo, o peso de
uma pessoa (56,3 kg) e a altura de uma árvore (1,5 m).
2) Variáveis qualitativas: são aquelas que fornecem dados de natureza não numérica, ou
seja, fornecem qualidade à variável, como por exemplo, a cor da semente das ervilhas, a
raça ou o sexo do animal. As variáveis qualitativas podem ser:
a) Variáveis qualitativas nominais: os níveis de respostas não admitem nenhuma ordem,

diferenciando uma categoria da outra, apenas pelo nome, por exemplo, o sexo dos animais,
ou é fêmea ou macho.
b) Variáveis qualitativas ordinais: os níveis de respostas admitem ordem. Não é só

possível identificar diferentes categorias, mas também reconhecer graus de intensidade
entre elas, possibilitando a sua ordenação. A cor da flor do mandacaru, que pode ser
de branca à vermelha; o nível de intensidade de dor, que pode ser fraca, média, forte e
muito forte.
Atividade 3
Explique com suas palavras o que você entendeu por:
1
a) População:
b) Amostra:
c) Variável:
Classifique as variáveis abaixo:

2
a) Cor do cabelo:
b) Número de patas de um coelho:
c) Número de células brancas no sangue:
d) Tipo sanguíneo A, B, AB e O:
e) Tipo de folha de uma árvore:
f) Número de colônias de E. coli existente na água mineral:
Utilizando as
amostras de uma população
O
s experimentos são realizados com amostras de uma população e não com toda
a população e podemos apresentar duas razões para isso: A primeira, porque as
populações finitas só podem ser estudadas através de amostras, como por exemplo,
um conjunto de alunos de uma escola em determinando ano, e a segunda, porque essas
populações são muito grandes. Imagine sabermos o tipo sanguíneo mais frequente dos
brasileiros? Levaríamos muito tempo e teríamos muito trabalho para realizarmos esses testes.
Fonte: <martabolshaw.blogspot.com/2008_03_01_archive.html>. Acesso em: 25 fev. 2010.
E se pegássemos apenas uma amostra dessa população? O estudo cuidadoso de uma

amostra tem mais valor científico do que o estudo de toda a população. Por exemplo, para
estudar o efeito do flúor sobre a prevenção da cárie em crianças, é melhor submeter uma
amostra de crianças a exames periódicos minuciosos, do que examinar rapidamente todas as
crianças antes e determinado tempo após o uso do flúor. Dessa maneira não seria mais fácil,
e ao mesmo tempo constituiria de uma metodologia correta?
Como fazer para
escolher a amostra correta?
Quando trabalhamos com uma amostra da população, utilizamos as técnicas de
amostragem, isto é, escolhemos o procedimento que vamos adotar para escolher os elementos
que irão compor a amostra.
Amostra casual simples

É composta por elementos retirados ao acaso da população. Todo elemento da população
tem igual probabilidade de ser escolhido para compor a amostra. Vamos ver como?
Vamos supor que você esteja no laboratório de biologia vegetal e quer realizar um
experimento para avaliar os efeitos de diferentes quantidades de cálcio (1mg, 3 mg e 5 mg)
no crescimento da planta. Para a realização desse experimento temos 15 vasos de plantas,
nas mesmas condições de umidade, luz, temperatura, altura da planta e estado nutricional.
A pergunta é: Quais vasos escolher para receber 1mg, 3 mg e 5mg de cálcio?

Nesse caso, fazemos um sorteio dos vasos, para que todos tenham a mesma chance de serem
escolhidos para receber diferentes quantidades de cálcio.
Amostra sistemática
Os elementos são escolhidos por um sistema. Se no exemplo acima, você escolhesse
somente os vasos listrados de preto, estaria organizando uma amostragem sistemática.
Amostra estratificada
É composta por todos os elementos originados de todos os estratos da população.
Por exemplo: A população de Natal (RN) é composta por crianças, jovens, adultos e idosos.
Uma amostra estratificada tem que ter uma representação na mesma proporção das quatro
categorias acima citadas, ou seja, 10 crianças, 10 jovens, 10 adultos e 10 idosos.
Amostra de conveniência
É formada por elementos que o pesquisador reuniu somente porque dispunha deles.
Se você utilizar todos os vasos de plantas citados no primeiro exemplo, independente de um
critério, esta amostra constituirá numa amostra de conveniência. Entretanto, você deve ter
muito cuidado ao utilizar esse tipo de amostra, pois os dados podem ser tendenciosos, não
revelando a realidade da situação.
Atividade 4
Responda às questões abaixo de acordo com o que você entendeu sobre amostras e
seus tipos.
Um pesquisador tem dez gaiolas. Cada uma delas contém seis ratos. Como esse
1 pesquisador pode selecionar dez ratos para compor sua amostra?
Dada uma população de quarenta cajueiros, descreva uma forma de obter uma
2 amostra casual simples composta por seis cajueiros.
Organize uma lista com dez nomes de pessoas em ordem alfabética. Depois descreva
3 uma forma de obter uma amostra sistemática de cinco nomes.
Resumo
Nesta primeira aula, você viu um breve histórico da Estatística e como podemos
aplicá-la nas Ciências Biológicas. Estudou que, com o passar dos anos, o papel
da Estatística se modificou, indo além de organizar e descrever fatos e/ou
gerar informações. Você pode perceber que ela vem auxiliando na escolha das
situações experimentais, na determinação da quantidade de indivíduos a serem
examinados, na análise dos dados, indicando técnicas para resumir e apresentar
as informações e na elaboração das conclusões. Você aprendeu a definição
de método estatístico e todas as suas fases, desde a definição do problema,
passando pelo planejamento, coleta e crítica dos dados, até a apresentação,
análise e interpretação dos dados. Estudou também a Bioestatística, ou seja,
a aplicação da Estatística nas Ciências Biológicas, e retomou alguns conceitos
essenciais para o seu entendimento e aplicação, como a definição de população,
amostra e variável. Por fim, viu que as técnicas de amostragem constituem um
conjunto de procedimentos que vamos adotar para escolher os elementos que
irão compor a amostra que queremos analisar.
Autoavaliação
Nesta aula, você deve ter percebido a importância da Estatística e da aplicação dos
métodos estatísticos para solucionar problemas biológicos. Feito isto, verifique se você
consegue responder, de maneira resumida, às seguintes perguntas:
Qual a finalidade e as fases do método estatístico?
1
Conceitue população e amostra, exemplificando.

2
Se você conseguiu respondê-las, suas respostas certamente contêm os elementos

básicos que você deverá ter apreendido deste conteúdo. Caso contrário, retome os textos e
resolva as questões até que tais conceitos se estabeleçam para você como um conhecimento
bem estruturado.
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA – IBGE. Disponível em: <www.ibge.

gov.br>. Acesso em: 25 fev. 2010.
LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso
Editores, 1999.
SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo

Horizonte: Ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998.
VIEIRA, Sonia. Introdução à bioestatística. Rio de Janeiro: Campus, 1980.
Anotações
Como transformar
dados em informações
Aula
2
Apresentação
Nesta aula, estudaremos o conceito de dados e banco de dados. Veremos como criar
um banco de dados e, posteriormente, a transformar os dados em informações. Inicialmente
faremos uma retomada dos principais conceitos vistos na Aula 1 – O que é Bioestatística – para
depois iniciarmos a apresentação dos novos conceitos sobre os dados.
Conceituado dados e banco de dados, estudaremos as diferenças entre dados e

informações e aprenderemos a planejar uma coleta de dados. Por fim, analisaremos os dados
coletados para que eles sejam apresentados em forma de tabelas, figuras ou gráficos, de
acordo com o objetivo da pesquisa.
Tenha em mãos o seu material da Disciplina de Matemática e Realidade, pois faremos a

revisão utilizando as Aulas 3 (A natureza dos dados estatísticos e sua organização) e 4 (Gráficos
estatísticos: uma síntese dos dados).
Bom estudo!
Objetivos
Conceituar dados e banco de dados.
1
Distinguir a diferença entre dados e informações.
2
Estabelecer critérios para fazer uma coleta de dados.
3
Analisar os dados coletados.
4
Retomando alguns
conceitos da Aula 1
Unidade Experimetal Antes de iniciarmos a nossa aula, é conveniente você relembrar o que é uma unidade
É a menor unidade a experimental, uma variável e como esta pode ser classificada (Aula 1– O que é Bioestatística).
fornecer uma informação.
Podem ser pessoas,
animais, plantas, objetos.
Variável Vamos definir o que são os dados?

É alguma característica
que pode ser observada
(contada ou medida) em
Dados são definidos como informações numéricas (contínuas ou discretas) ou qualitativas,
uma população ou em obtidas de uma unidade experimental ou de observação.
uma amostra.
No exemplo da Aula 1, quando se afirma que as árvores de mandacaru têm 21 espinhos,
os dados são “21 espinhos”. Podemos também citar o exemplo do consumidor que vai a várias
Classificação lojas para fazer uma pesquisa de preço dos televisores. Nesse caso, os dados são os preços
das variáveis das TVs que ele pesquisou.
Quantitativa (discreta ou
Se compararmos os exemplos acima, podemos verificar que os dados podem ainda ser
contínua) e qualitativa
(nominal ou ordinal). classificados em:
Dados isolados, como é o caso dos 21 espinhos de mandacaru, obtidos somente de

uma planta.
Conjunto de dados, como é o caso dos diversos valores pesquisados pelo consumidor
antes de comprar a televisão. Nesse caso, para que esses dados transmitam alguma informação,
eles devem ser organizados.
Como organizar os dados?

Organizar o dado “21 espinhos de mandacaru” é relativamente fácil, sendo possível até
anotar em um papel e guardar. Pronto, simples assim; desde que eu só queira estudar uma planta.
Mas, qual a relevância deste dado (21 espinhos), se o objetivo do meu trabalho é
determinar o número médio de espinhos nos mandacarus em um jardim que tem 20 plantas?
Observe que, nesse caso, teremos que traçar uma estratégia de planejamento e
organização de trabalho, de modo que se possa ao final:
1) Ter contado ou estimado o número médio de espinhos de todas as plantas.
2) Conseguir lembrar ou guardar esses números, a fim de que, se outro indivíduo precisar
recomeçar ou continuar o trabalho, possa repetir o mesmo e chegar a resultados semelhantes.
Nesse momento, quando nos deparamos com uma quantidade maior de dados a serem
coletados para posterior análise, precisamos organizá-los em um banco de dados.
Atividade 1
Diferencie dados e banco de dados.

1
Cite alguns exemplos de dados quantitativos e qualitativos que fazem parte do

2 seu cotidiano.
Banco de dados
Um banco de dados é um conjunto de registros (de números ou variáveis qualitativas)
com uma estrutura regular que permite a reorganização e inserção desses registros de
Forma sistemática forma sistemática, com a finalidade de se gerar informações.
Forma organizada de Pode ser a agenda do seu telefone celular, a lista telefônica, o seu caderno de anotações
dispor os dados, seguindo e até um conjunto de dados organizados em uma planilha de Excel.
algum critério. Por
exemplo: ao arrumar suas Sim, isso mesmo! Mas desde que esses dados sejam organizados de forma sistemática.
camisetas no armário você
as ordena pela cor. Veja o exemplo a seguir:
Situação problema 1: Como posso fazer a identificação das principais espécies

vegetais de uma área de caatinga na reserva florestal do meu município?
Para resolver esse problema, devemos primeiro deixar bem claro:
1) Qual o objetivo da pesquisa?
Identificar as principais espécies vegetais numa determinada área de reserva

florestal do município onde moro.
2) O que fazer para alcançar esse objetivo?
Identificar e contar o número de individuos presentes em cada uma das áreas

de caatinga do município. Note que no objetivo estão “espécies vegetais”, isto
inclui árvores, arbustos, cactáceas, gramíneas e leguminosas, independente de
seu tamanho.
Feito isso, você pode partir para o próximo passo:
3) Identificar e classificar as variáveis a serem estudadas:
As variáveis são as espécies vegetais. Neste exemplo, trata-se de uma variável

numérica e discreta, pois serão dados de contagem (Caso haja dúvidas, volte para
a Aula 1 – O que é Bioestatística – e leia a definição de variáveis e seus tipos).
Agora, como posso definir o método de amostragem já que é impossível contar

todas as espécies vegetais da área? Para isso devemos fazer a seguinte pergunta:
4) Quantas amostras eu vou precisar colher, para fazer essa determinação?
Existem vários métodos para fazer essa determinação, neste caso o mais
recomendado é fazer uma revisão de literatura e procurar identificar o método
mais adequado. Para este caso específico do exemplo, podemos definir que
serão avaliados 12 locais diferentes (L1, L2, L3, L4, L5, ... ,L12) e em cada um
destes locais serão coletadas amostras de parcelas de 4m 2 (Figura 1). Em cada
parcela, todas as plantas encontradas serão identificadas pelo nome comum e
o científico e contadas.
L1 L2 L3 L4
Parcela de 4m 2
contendo todas as
L5 L6 L7 L8
plantas a serem
contadas
L9 L 10 L 11 L 12
Figura 1 – Área experimental e respectiva parcela de 4m 2
Na Figura 1, em cada subunidade será reservada uma parcela com 4m 2 de área

para identificação e contagem do número de plantas de caatinga.
Depois de coletados os dados, veja, na tabela a seguir, como ficou a sua organização.
Tabela 1 – Levantamento fitossociológico de uma área de caatinga
Ordem Nome Popular Espécie Número de indivíduos

1 Angico Piptadenia macrocarpa 4
2 Bambural Hyptis suaveolans (L.) Poit 1375
3 Carrapicho Agulha Bidens sp 37
4 Catingueira Caesalpinia pyramidalis Tul 2
5 Jitirana Merremia aegyptia L. 4
6 Malva Sida cordifolia L. 135
7 Manda Pulão Croton sp. 249
8 Marmeleiro Croton hemiargyreus 8
9 Mata Pasto Senna obtusifolia 13
10 Melosa Ruellia asperula 54
11 Milhã Brachiaria plantaginea 90
12 Mofumbo Combretum leprosum Mart. 13
13 Mororó Bauhinia cheilantha 2
14 Pau Branco Auxemma oncocalyx 4
15 Sabiá Mimosa caesalpiniifolia 1
16 Tiririca Cyperus sp 3
17 Urtiga Fleurya aestuans L. 11
Viu como é fácil? Agora, que tal extrair uma informação desse conjunto de
dados? Identifique a espécie vegetal que apresenta o maior número de indivíduos
(plantas) na área amostrada.
Atividade 2
Vamos tomar algumas medidas de biometria com seus conhecidos? Selecione um grupo
Biometria de 25 indivíduos (podem ser pessoas da sua família, amigos, alunos, colegas de trabalho, da
Estudo das características igreja e/ou de prática de esportes) e organize uma tabela com os seguintes dados: primeiro
biológicas quantitativas de nome, idade, sexo, altura e peso de cada um deles, utilizando a tabela a seguir.
uma população.
Primeiro nome Idade Sexo Altura Peso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Diferenciando os conceitos:
dados x informações
Para discutir o conceito de informações, vamos partir da seguinte situação:
Uma lista telefônica (seja de celular ou papel) é um conjunto de dados, organizados em

função de alguma variável como, por exemplo, o nome e/ou endereço. Quando você precisa
ligar para uma pessoa, cujo telefone não se lembra, o que você faz? Certamente, uma pesquisa/
análise no conjunto de dados da lista a fim de obter a informação desejada: o telefone da pessoa.
Analisando essa situação, podemos definir informação como: o conhecimento obtido

através da interpretação do significado dos dados (HOUAISS; VILLAR; FRANCO, 2001).
Aliás, um dicionário da língua portuguesa nada mais é que um conjunto de dados, organizados
de forma sistemática (normalmente em ordem alfabética), no qual podemos obter informações
sobre a ortografia correta, significados, sinônimos e antônimos de palavras.
Uma curiosidade...
Se, na minha lista telefônica, eu não encontrar o número de telefone da pessoa
que procuro ou se ele não for o correto, ainda assim isso é uma informação?
Sim, só que nesse caso o seu banco de dados (agenda do telefone) não serviu
para responder o seu questionamento. Por esse motivo, a informação obtida foi:
‘você não tem o número do telefone da pessoa’.
Neste caso, se realmente desejar falar com ela, você vai precisar conseguir a
informação correta em outra fonte de dados, que pode ser a lista telefônica, um
colega, etc.
Nessa situação é importante para lembrar que nem sempre o nosso conjunto
de dados vai permitir obter a informação necessária e/ou correta. São vários os
fatores que podem resultar nesse problema, dentre eles podemos citar problemas
na amostragem (número insuficiente e/ou amostras tendenciosas que conduzem
a conclusões inverídicas) e erros na coleta e/ou no processamento dos dados.
Atividade 3
Na tabela construída na Atividade 2, conte o número de pessoas do sexo masculino e do
feminino que tem mais de 1,55m de altura e pesa mais que 68kg.
Planejando a coleta de dados

Lembra que agora a pouco vimos que há vários fatores que podem resultar no fato de
um dado não fornecer nenhuma informação ou fornecer informações erradas? Esse fato foi
exemplificado pelo caso de não acharmos o telefone procurado ou acharmos o telefone e este
estar errado.
Para que isso não ocorra, é importante planejar e traçar uma estratégia para realizar
a coleta de dados. Essa estratégia de planejamento da Coleta de Dados é composta por:
Observação dos ítens do método estatístico (mencionada na Aula 1): Nessa primeira
fase você deve seguir as etapas do método estatístico, que são: (1) Identificação do problema
e (2) Formulação de hipóteses. Conhecendo esses dois ítens, entre outras coisas, é possível:
 Identificar e classificar as variáveis adequadas e necessárias para a pesquisa. Isso é

importante para que você possa organizar as tabelas em função do tipo de resposta
esperada (ex.: sim ou não; presente ou ausente; espaço para número ou texto) para cada
variável estudada.
 Traçar uma estratégia de ação que permita coletar, organizar e processar os dados de
forma precisa e correta. Assim, pode-se evitar desperdício de tempo anotanto informações
que não serão úteis e adequando as condições para coletar os dados e a necessidade do
trabalho. Desse modo, pode-se evitar erros na anotação ou processamento dos dados.
Um exemplo disso pôde ser observado na realização do censo agropecuário 2006, no

qual os entrevistadores utilizaram “palmtops” para coletar os dados. Assim, diminui a chance
de ocorrer erros durante o processamento dos questionários, por erros de leitura. Entretanto,
os erros de coleta de dados podem acontecer na hora da anotação dos questionários por
resposta imprecisa do entrevistado.
Além disto, é importante antes de sair para coletar os dados, verificar:
 Quantas pessoas serão necessárias para realizar o trabalho.
 Se existe material de coleta disponível (por exemplo: lápis e papel, frascos para armazenar
amostras etc.) para todo o trabalho.
 Se é necessário realizar treinamento antes de iniciar o trabalho.
 Como as amostras coletadas podem ser armazenadas e transportadas.
 Se a amostra utilizada é representativa da população.
 Como será realizado o trabalho de coleta.
Tendo como exemplo a Tabela 1, para fazer a coleta de dados de quais as espécies vegetais
e o número de plantas em cada parcela, precisamos de: fita métrica para demarcar o perímetro
da área amostral; lápis e papel para fazer anotar o nome comum (popular), o científico e
a quantidade de indivíduos de cada espécie. Além disso, para esse trabalho específico é
importante levar na equipe uma pessoa que conheça a flora regional e saiba identidicar as
plantas. Em caso de dúvidas, é interessante também ter recipientes adequados para coletar
amostras e levar para o biotério, a fim de fazer identificação correta da espécie.
A Figura 2 reúne as principais etapas do planejamento da coleta de dados.
PLANEJAMENTO DA COLETA DE DADOS
Observação das fases do método estatístico
Identificação do Formulação de
problema hipóteses
ETAPA OPERACIONAL
• Determinar o número de pessoas da equipe
• Realizar treinamento para a coleta dos dados
• Providenciar material necessário
• Organizar o trabaho no local da coleta
• Verificar o modo de armazenamento e
transporte do material coletado
Figura 2 – Principais etapas do planejamento da coleta de dados
Fonte: Henrique Rocha de Medeiros
Atividade 4
Elabore um plano para a coleta de dados idade, peso e altura de todas as pessoas da
cidade onde você mora.
Análise gráfica de conjunto de dados
Como dito anteriormente, um conjunto de dados só poderá ser transformado em
informação se, com ele, for possível realizar alguma análise e interpretação dos seus resultados.
Assim, podemos estabelecer alguns mecanismos de classificação para o conjunto de dados.
Uma das ferramentas que possibilitam essa organização sistematizada são as planilhas
(Figura 3), isto é, um conjunto de dados organizados em linhas e colunas, que podem ser
preenchidas manualmente ou em computadores (planilhas eletrônicas).
Figura 3 – Exemplo da planilha com linhas e colunas feita em computador. Os dados apresentados são referentes
ao exemplo utilizado na aula
A opção de organizar os dados em linhas ou colunas vai depender da preferência definida

antes de iniciar o trabalho de coleta. Todavia, esta deve sempre possibilitar a soma ou contagem
de dados correspondentes à mesma variável seguindo uma única sequência de linhas ou colunas.
Além disso, a sistematização das informações em planilhas facilita ainda a elaboração
de tabelas (ver Tabela 1 – Levantamento fitossociológico de uma área de caatinga) e gráficos
para análise dos dados.
Há vários tipos de gráficos, e a escolha de qual utilizar vai depender do tipo de dados
existentes, da necessidade e familiaridade com as informações. Utilizando os dados do nosso
exemplo, escolhemos apresentá-los em forma de gráfico de barras, mais adequado para o
tipo de dados que temos (Figura 4).
Levantamento fitossociológico de espécies encontradas numa área de Caatinga
1600
1400 Bambural
Número de indivíduos de cada espécie
1200
1000
Número de
800 indivíduos
600
400
Manda
Pulão
200 Malva
Carrapicho Milhã
Agulha Mata Melosa Pau
Angico Jitirana Pasto Mororó Branco Sabiá Tiririca Urtiga
0
Catingueira Marmeleiro Mofumbo
Espécies encontradas
Figura 4 – Identificação e quantificação das espécies vegetais encontradas numa área de caatinga na Região Nordeste do Brasil
Não existe um tipo mais correto de gráfico, todavia é importante que eles permitam
a interpretação rápida e o entendimento dos resultados e, além disso, que respeitem as
normas para a elaboração de gráficos e tabelas, como visto nas Aulas 3 e 4 da disciplina
Matemática e Realidade.
Exercício resolvido 1
Utilizando as informações da Tabela 1 (Levantamento fitossociológico de uma área de caatinga),
indique quantas espécies foram identificadas e qual o total de plantas contadas.
Resolução
Nessa tabela, os dados referentes a cada espécie (observe que os nomes
científicos não se repetem) estão organizados em linhas. Assim, observando-se
a tabela pode-se aferir que foram identificadas 17 espécies. O número total de
plantas contadas pode ser obtido somando-se o número de indivíduos de cada
espécie (4 + 1375+ 37+...+1+3+11 = 2005).
Ainda utilizando as informações da Tabela 1, identifique as três espécies que tem mais
indivíduos na amostra estudada. Nesse caso, a mesma resposta pode ser obtida analisando a
tabela ou construindo gráficos como pôde ser observado.
Resolução
Observando-se os resultados da tabela pode-se identificar que o bamburral, o
manda pulão e a malva, com respectivamente 1.375, 249 e 135 indivíduos cada,
são as espécies vegetais que têm o maior número de plantas na área estudada.
Essa mesma resposta pode ser obtida, analisando-se a Figura 4: Identificação
e quantificação das espécies vegetais encontradas numa área de caatinda na
Região Nordeste do Brasil.
Nesse caso, a opção pela tabela ou pelo gráfico se dará em função da necessidade de
informação. Se o objetivo for apenas identificar as espécies com maior número de indivíduos,
possivelmente o gráfico será a melhor alternativa. Entretanto, se a quantificação é necessária,
a organização da tabela em função do número de indivíduos poderá facilitar o trabalho.
Resumo
Você estudou o conceito de dados e banco de dados e aprendeu como criar
um banco de dados para, posteriormente, transformá-lo em informações. Você
retomou os principais conceitos vistos na Aula 1 – O que é Bioestatística – tais
como, unidade experimental, variável e classificação de variáveis. Você estudou
as diferenças entre dados e informações e aprendeu que, para que dados sejam
transformados em informações, precisa planejar sua coleta de forma a evitar
erros. Para isso, utilizou-se as duas primeiras etapas do método estatístico:
(1) Identificação do problema e (2) Formulação de hipóteses. Você estudou
também algumas ações que fazem parte do planejamento da coleta de
dados, como conhecer o local da coleta, formar uma equipe de coleta, levar
material necessário, dentre outros. Aprendeu que os dados coletados podem
ser organizados em planilhas eletrônicas feitas em computador, o que facilita
posterior análise e interpretação. Por fim, relembrou as formas de apresentação
dos dados, como por exemplo, em tabelas e gráficos.
Autoavaliação
A dengue é uma doença grave, que está disseminada em todo o território nacional.
Então, que tal por em prática os conceitos da aula de hoje, transformando os dados sobre
essa epidemia em informação?
Para isto analise os dados que foram retirados de um texto extraído da página da Secretaria
de Saúde Pública (SESAP/RN) na internet.
<http://www.rn.gov.br/contentproducao/aplicacao/govrn/imprensa/enviados/noticia_detalhe.
asp?nImprensa=0&nCodigoNoticia=17319>:
A Secretaria Estadual de Saúde Pública, por meio do Programa de Controle da Dengue,

divulgou nesta segunda-feira (14/12/2009) o boletim de acompanhamento epidemiológico da
dengue. Desde janeiro deste ano foram notificados 3.577 casos da doença no Rio Grande do
Norte. Destes, 17 foram de Febre Hemorrágica de Dengue (FHD), além de três óbitos ocorridos.
Em relação ao mesmo período do ano anterior (2008) quando foram notificados 43.552, houve
uma redução nos casos. Na região metropolitana da Capital (que inclui os municípios de Natal,
Macaíba, São Gonçalo e Extremoz) foram notificados 1.724 casos de dengue. Em Natal, foram
notificados 1.235 casos de dengue, dos quais 13 de FHD. Já em Mossoró, 370 pessoas foram
acometidas por esta enfermidade (dengue) e 07 apresentaram FHD.
Agora, utilizando os dados acima e:
Construa uma tabela com o número de casos notificados da doença no ano de 2009
1 em todo o estado do Rio Grande do Norte, na Região Metropolitana da capital, em
Natal e em Mossoró.
Calcule a porcentagem de casos ocorridos no município de Natal em relação ao
2 restante do estado, analisando os dados da tabela elaborada na questão 1.
Analise os dados e calcule a redução do número de casos notificados de dengue em

3 2009 em relação ao ano anterior (2008), quando foram notificados 43.552 casos
dessa enfermidade.
Se você conseguiu resolver o exercício acima, parabéns! Caso contrário, entre em contato
com o seu professor, retorne ao texto da aula, reveja os principais conceitos, volte à atividade
de autoavaliação e tente quantas vezes forem necessárias.
Referências
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001.
Editores, 1999.
OTT, Lyman; MENDEENHALL, William. Understanding statistics. Boston: PWS-KENT Publishing

Company, 1990.

Horizonte: FEP MVZ Editora, 1997.
Anotações
Descrevendo Sistemas
Aula
3
Apresentação
N
esta aula, estudaremos as aplicações da estatística descritiva nas Ciências Biológicas.
Para isto, utilizaremos dados de sistemas biológicos para calcular a média, variância,
desvio padrão, moda e mediana e veremos como obter informações com este tipo
de análise estatística. Desse modo, será importante que você tenha uma boa compreensão
dos conceitos vistos na Aula 1 – O que é Bioestatística – e Aula 2 – Como transformar
dados em informações. As análises que aqui serão realizadas terão como base os conceitos
apreendidos nessas aulas.
Objetivos
Distinguir os conceitos de estatística descritiva e suas
1 aplicações em Ciências Biológicas.
Aplicar a estatística descritiva para realizar análises de

2 conjuntos de dados.
Avaliar os resultados da análise dos dados, de modo

3 a poder caracterizar corretamente a amostra e poder fazer
inferências sobre a população.
Medidas de tendência central
As medidas de tendência central indicam um ponto, em torno do qual, se distribuem
ou concentram os números do conjunto de dados. Este tende a estar localizado no centro
da distribuição dos dados. As principais medidas de tendência central são a média, a moda e
a mediana, que estudaremos a seguir.
Média
A média de um conjunto de números pode ser definida como um valor que representa
o total desse conjunto, sem alterar as suas características. Esta medida (média) é um valor
de “equilíbrio” do conjunto de dados.
Se o conjunto de dados é obtido de uma população, utiliza-se a letra grega “µ”

(pronuncia-se mi) para representar a média. Quando o conjunto de dados é obtido de uma
_
amostra da população, utiliza-se o símbolo “x ” (pronuncia-se x barra).
Calculando médias e suas aplicações

_
A média aritmética (x ) de um conjunto de dados é calculada pela soma de todos os dados
dividida pelo número deles. A representação matemática do cálculo da média é a seguinte:

x
x=
n
onde:
∑x = somatório de todos os valores de x
n = a quantidade de valores
Um aluno tirou as notas: 0, 2, 4, 6 e 10, em cinco provas. Calcule a média das notas
desse aluno.
Resolução
1) Primeiro devemos somar (∑x) todos os valores da cada prova: 0 + 2 + 4 +
6 + 10. O resultado é 22.
2) Depois identificamos o n, ou seja, como são 5 notas, temos n = 5.
3) Por fim, divide-se a soma 22 por 5 (22/5) e obtém-se a média 4,4.
4) Conclui-se que o aluno teve média 4,4.
Calcule a média geral das notas da turma de 25 alunos, de acordo com os dados
apresentados na Tabela 1.
Tabela 1 – Resultado da avaliação (nota) de uma turma com 25 alunos
Número de alunos Nota

5 5
8 7
9 8
3 10
Resolução
Neste caso, você pode resolver a questão (e encontrar a média geral da turma)
de duas maneiras:
1) Somando todas as notas (∑x) obtidas pelos alunos (5 + 5 + 5 + 5 + 5

+7+7+7+7+7+7+7+7+8+8+8+8+8+8+8+
8 + 8 + 10 + 10 + 10) que dá ∑x = 183 e dividir o valor encontrado pelo
número (n) de alunos que é n = 25. Assim, o cálculo da média da turma é
obtido pela divisão 183/25, cujo resultado é 7,32.
(5*5) + (8*7) + (9*8)
2) O mesmo resultado de média (7,32) pode ser obtido se você multiplicar a nota + (3*1
3*10)
pelo número de alunos que tiraram a respectiva nota e fizer o somatório de 5*5 = 5+5+5+5+5;
8*7 =
todos os resultados, da seguinte maneira: (5*5) + (8*7) + (9*8) + (3*10) = 183. 7+7+7+7+7+7+7+7;
Assim, se dividirmos 183 por 25 obteremos o mesmo resultado para o cálculo 9*8 =
da média geral da turma, ou seja, 7,32. 8+8+8+8+8+8+8+8+8
e 3*10 =10+10+10
Atividade 1
Calcule a média para os seguintes conjuntos de dados:
a) A altura (em cm) de plantas submetidas a tratamento com hormônio de

crescimento: 12,5cm; 12,6cm; 12,9cm; 13,5cm; 13,7cm; 12,7cm; 13,6cm.
b) Número de movimentos respiratórios por minuto (mpm) de cobaias de

laboratório após a administração de um anestésico intravenoso: 12 mpm;
14 mpm; 13 mpm; 14 mpm; 15 mpm; 16 mpm; 16 mpm; 15 mpm; 13 mpm.
c) Número de salários mínimos recebidos pelos trabalhadores de um

laboratório de análises clínicas: 5 salários míninos; 4 salários míninos;
4,5 salários míninos; 6 salários míninos; 5,5 salários míninos; 8 salários míninos;
6 salários míninos; 6,5 salários míninos.
Mediana e moda
A
análise da média deve refletir o conjunto de dados. Todavia, este cálculo pode ser
afetado por medidas muito discrepantes (muito altas ou muito baixas em relação ao
valor médio). Quando isto acontece, a média calculada não representa adequadamente o
que acontece no conjunto de dados. Para estas situações o cálculo da mediana e/ou da moda
pode ser uma alternativa adequada para descrever o conjunto de dados.
A mediana (cujo símbolo é md) é o valor que ocupa a posição central; esta medida divide
o conjunto de dados em duas metades iguais. Para calcular a mediana, organize o seu conjunto
de dados em ordem crescente e encontre o valor que está no centro da série.
Quando o número de dados for ímpar a mediana será o valor que está no centro da
série. Quando o número de dados for par, a mediana será a média dos valores que estão no
centro da série.
Vamos descobrir a mediana do conjunto de dados utilizado para o cálculo das médias
do Exercício resolvido 2?
Para isso devemos:
1) Organizar o conjunto de dados em ordem crescente. Assim procedendo, obtemos:
Valor 5 5 5 5 5 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 10 10 10
Posição 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
2) Note que temos 25 números. Esse valor é ímpar, e desse modo, a mediana será o valor
que divide esse conjunto. Neste caso, a mediana corresponderá ao número que está na
posição 13 (número 7), pois este dividirá o conjunto de dados em duas metades iguais,
com 12 dados (números) cada um, como se pode observar abaixo:
Conjunto 1 com os 12 primeiros valores (anteriores a mediana)
Valor 5 5 5 5 5 7 7 7 7 7 7 7
Posição 1 2 3 4 5 6 7 8 9 10 11 12
Mediana
Valor 7
Posição 13
Conjunto 2 com os 12 últimos valores (posteriores a mediana)
Valor 8 8 8 8 8 8 8 8 8 10 10 10
Posição 14 15 16 17 18 19 20 21 22 23 24 25
É interessante utilizar essa medida quando se estuda um grande conjunto de dados,
onde existe muita discrepância entre eles. Neste caso, a mediana pode ser uma medida mais
representativa que a média.
Já a moda (cujo símbolo é mo) representa o valor que ocorre com maior frequência no
conjunto de dados.
Analisando-se o conjunto de dados do Exercício resolvido 2, observa-se que a nota que

mais aparece é 8. Neste caso, a moda ou o valor modal é 8.
Neste exercício, a média, a mediana e a moda apresentam valores bem próximos entre si.
E, dependendo do conjunto de dados estas três medidas podem até ter o mesmo valor.
Entretanto, dependendo da variação existente no conjunto de dados, você deverá escolher
qual dessas medidas de tendência central (média, mediana ou moda) é a mais representativa
e adequada para ser utilizada.
Atividade 2
Calcule a média, a moda e a mediana para o conjunto de dados de uma classe com
1 seis alunos, cujas notas foram:
Aluno A B C D E F
Nota 2,0 5,0 8,0 5,0 7,5 3,5
Analisando o conjunto de dados abaixo, responda:

2
Aluno A B C D E F G H
Nota 2,0 5,0 7,0 10,0 5,0 6,0 3,0 8,0
a) Quantos alunos têm nota superior à média geral da turma?
b) Calcule a média, a moda e a mediana desta turma.
c) Qual destas três medidas de tendência central, você acha mais adequada para descrever
o conjunto de dados? Justifique a sua resposta.
Medidas de dispersão
As medidas de dispersão indicam ou permitem ter noção do quanto estão distantes os
dados entre si. Ou seja, como eles variam em relação à média.
Neste sentido, a descrição de um conjunto de dados sempre se faz com uma medida de
tendência central (geralmente a média) e uma de dispersão associadas.
Mas, como medir esta variação em relação à média?
Para isto, devemos analisar a amplitude e os desvios em relação à média.
Amplitude
A amplitude corresponde à diferença entre o maior e o menor valor no conjunto de dados.
Esta medida nos fornece uma noção da dispersão dos dados.
Para explicar este conceito, vamos utilizar dois conjuntos de dados A e B, que representam
a nota obtida pelos alunos de uma determinada disciplina:
Conjunto de dados A: 4; 6; 4; 6; 5; 5
Conjunto de dados B: 9; 1; 5; 5; 1; 9
Para calcular a amplitude destes dois conjuntos de dados, identifique, respectivamente,
o maior e o menor valor em cada um deles.
No conjunto A o maior valor encontrado é 6 e o menor 4. Assim, a amplitude é 6 – 4 = 2.
Para o conjunto de dados B o maior e o menor valor, são respectivamente 9 e 1, portanto

a amplitude é 9 – 1 = 8.
Observe que esta medida permite inferir que a variabilidade do conjunto de dados B é
maior que o do A.
Quando se trabalha com algumas variáveis de grande instabilidade como, por exemplo,
contagem de ovos por grama de fezes (OPG) utilizado para diagnóstico de verminose, onde
se podem determinar valores de amplitude superior a 10000 OPG, esta medida é bastante
interessante para demonstrar a variabilidade e a dispersão existente.
Estas características podem ser comprovadas nos dados da tabela a seguir (Tabela 2),
onde temos zero como o menor valor de OPG e 5100 como o maior valor.
Tabela 2 – Contagem de OPG (ovos/g) de um rebanho de ovinos mestiços (½ sangue Somalis × ½ sem raça definida)
mantidos em pastagem nativa naturalmente contaminada por larvas de nematódeos gastrintestinais
Animal Contagem de OPG

1 100
2 0
3 200
4 300
5 0
6 100
7 400
8 100
9 1100
10 1400
11 5100
12 400
13 700
14 300
15 500
16 0
17 700
18 1300
19 200
20 800
21 300
22 2300
Fonte: Zaros et al (2009).
Desvio em relação à media
O desvio em relação à média permite estimar o quanto um determinado valor se afasta
da média do conjunto. O cálculo do desvio em relação à média é dado pela diferença entre
o valor medido (observado) e a média do conjunto de dados (calculado previamente). Este é
representado matematicamente pela fórmula:
_
Desvio em relação a média = x – x .
Onde:
x = valor medido
_
x = valor da média calculada
Para determinar os desvios, precisamos inicialmente calcular as médias de cada conjunto

de dados. Ainda utilizando os conjuntos A (4; 6; 4; 6; 5; 5) e B (9; 1; 5; 5; 1; 9), vemos que
a média para ambos é 5. Assim, os desvios em relação à média do conjunto de dados A são:
_ _
Valor medido (x) Média (x ) x–x
4 5 –1
6 5 1
4 5 –1
6 5 1
5 5 0
5 5 0
Total = 0
Os desvios em relação à média para o conjunto B são:

_ _
Valor medido (x) Média (x ) x–x
9 5 4
1 5 –4
5 5 0
5 5 0
1 5 –4
9 5 4
Total = 0
Observe que, apesar dos conjuntos de dados A e B possuírem as mesmas médias,

eles apresentam desvios bem diferentes. No conjunto A, os desvios vão de – 1 a + 1 e no B,
de – 4 a + 4.
Você notou que, apesar dos valores diferentes, a soma dos desvios é zero nos dois
conjuntos? Vamos ver o porquê?
Você pode está se perguntando: Se a soma dos desvios em relação à média é sempre
zero para qualquer conjunto de dados, como poderei utilizar esta medida?
_
Neste caso, podemos utilizar um artifício matemático que é elevar o valor de (x – x )
_
ao quadrado, transformando-o em (x – x )2, e assim ter sempre um valor positivo para esta
operação. Assim, sempre que você calcular a soma dos desvios elevada a potência 2, obterá
um valor positivo e diferente de zero.
Vamos conferir?
Calcule a soma dos desvios elevada à potência 2 para os conjuntos de dados A (4; 6;
4; 6; 5; 5) e B (9; 1; 5; 5; 1; 9).
Resolução
1) Para o conjunto de dados A:

_ _ _
Valor medido (x) Média (x ) x–x (x – x ) 2
4 5 –1 1
6 5 1 1
4 5 –1 1
6 5 1 1
5 5 0 0
5 5 0 0
Total = 0 Total = 4
2) Para o conjunto de dados B:

_ _ _
Valor medido (x) Média ( x ) x–x (x – x ) 2
9 5 4 16
1 5 –4 16
5 5 0 0
5 5 0 0
1 5 –4 16
9 5 4 16
Total = 0 Total = 64
3) Calculados os desvios e elevando-os à potência de 2, eles só terão valor zero,

_
se todos os valores x – x do conjunto forem iguais a 0. Neste caso, não existe
dispersão e/ou diferença em relação a média.
Atividade 3
Retome os principais conceitos vistos nesta aula e defina:
a) Média:
b) Mediana:
c) Moda:
d) Amplitude:
e) Desvio em relação à média:
Variância de uma amostra
Depois de calcular os desvios em relação à média, agora, você já pode calcular a variância
(s ) de uma amostra. Esta medida de dispersão permite ter noção de quanto variam os dados
2
em relação a média e principalmente calcular o desvio padrão de uma média.
A variância de uma amostra é estimada pela fórmula:

2 (x − x)2
S =
n−1
Onde:
x = valor medido ou observado na amostra

_
x = Média calculada para amostra
n = número de dados da amostra
Vamos fazer uma aplicação da variância utilizando os dados do exercício resolvido 4?
Neste caso, para os dois conjuntos de dados, A e B, foram utilizados 6 valores, então
o valor de n é igual a 6 e, consequentemente, n – 1 = 5.
Utilizando estes conceitos, a variância para o conjunto A é calculada dividindo-se o valor

_
de (x – x )2, que é igual a 4, por n – 1, que é igual a 5. Assim, a variância de A é 4/5 ou 0,8.
_
Da mesma forma, a variância de B é calculada por 64, resultado de (x – x )2, dividido
por 5, resultado de n – 1. Ou seja, 64/5 que resulta em 12,8.
Observe que a variância é uma medida adimensional.
Agora, conhecendo a variância de um conjunto de dados, eu posso estimar o seu

desvio padrão.
Desvio padrão
C
omo a variância é uma medida que estima os quadrados dos desvios em relação
a média, esta tem pouca aplicação prática. Visto que as unidades de medida dos dados
utilizados no cáculo da variância também são elevadas ao quadrado, o que dificulta a
interpretação das respostas. Tome-se por exemplo uma medida calculada em: kg ou cm ou m 2.
Neste caso, a variância será expressa em respectivamente: kg 2 ou cm 2 ou m 4; dificultando
a interpretação dos resultados.
Uma forma de resolver este problema é extrair a raiz quadrada da variância, obtendo
assim o desvio padrão (s).
O desvio padrão (s) de um conjunto de dados é obtido calculando-se a raiz quadrada da

variância, utilizando a fórmula:
√
2
s = ( S2)
Onde:
S 2 = variância da amostra
Utilizando este conceito nos mesmos conjuntos de dados A e B, obtemos os seguintes

valores:

Para o conjunto A: S 2 = 0,8 então, s = 2 0, 8 s = 0,894

Para o conjunto B: S 2 = 12,8 então, s = 2 12, 8 s = 3,577
Agora, já que conhecemos a média e o desvio padrão do conjunto de dados e a amplitude,

podemos utilizar estas informações para descrever os dados analisados neste exemplo.
1) Conjunto A = 5 ± 0,894; menor valor 4; maior valor 6; n = 5.
2) Conjunto B = 5 ± 3,577; menor valor 1; maior valor 9; n = 5.
Você pode, utilizando essas informações, escolher o conjunto de dados A, se preferir

o que tiver menor desvio em relação à média ou o conjunto de dados B se a opção for pela
maior amplitude.
Coeficiente de variação
Agora, o que representa o desvio em relação à média?
O desvio em relação à média permite avaliar a instabilidade do conjunto de dados.

Esta medida de dispersão é chamada de coeficiente de variação (CV).
O CV é calculado dividindo-se o desvio padrão pela média do conjunto de dados.

_
CV = s/x
Onde:
s = Desvio Padrão
_
x = Média aritimética calculada para o conjunto de dados.
Utilizando os dados do Exercício resolvido 4, teremos os seguintes coeficientes de variação.
1) Conjunto de dados A: 0,894/5 = 0,1788 ou 17,88%
2) Conjunto de dados B: 3,577/5 = 0,7154 ou 71,54%
Este resultado indica que o conjunto de dados A é mais homogêneo e menos instável
que o B.
Atenção
Não estamos afirmando que “A” é melhor do que “B” ou vice-versa, mas sim,
homogêneo. Isto é importante, para se avaliar a representatividade da média em
relação ao conjunto de dados.
Lembra quando falamos da média de dados de contagem de OPG e que nestes casos, se
pode ter amplitude superior a 10000?
Este é um caso de variável muito instável, onde a média não tem muita representatividade.
Nestas situações, trabalhar com a moda ou a mediana é mais interessante que com a média.
A noção de instabilidade de uma variável e a escolha entre utilizar a média, a moda

ou a mediana para descrever o conjunto de dados, é uma opção individual do pesquisador.
Para isto, recomenda-se o bom senso e observar/ler como se publicam estas informações nos
meios científicos, jornais e revistas.
Atividade 4
Os dados a seguir fornecem a concentração de um determinado poluente (ppm) em 8
pontos de um afluente medidos uma hora antes e uma hora depois de um acidente ambiental:
Tabela 3 – Concentração (em ppm) de um determinado poluente nas águas de um rio antes e depois de um
acidente ambiental
Concentração antes Concentração depois

4,67 5,44
4,97 6,11
5,11 6,49
5,17 6,61
5,33 6,67
6.22 6,67
6,50 6,78
7,0 7,89
Fonte: <http://leg.ufpr.br/~paulojus/CE003/ce003/node2.html>. Acesso em: 12 abr. 2010.
Utilizando o conjunto de dados da Tabela 3, calcule a média, a mediana, a moda, o
desvio padrão e o coeficiente de variação da concentração de poluentes antes e depois do
acidente ambiental.
Leitura complementar
PROJETO de ensino. Aprendendo a fazer estatística. Disponível em: <http://www.des.uem.
br/projetos/Estatistica_Descritiva.pdf>. Acesso em: 12 abr. 2010.
Este texto refere-se aos principais conceitos da Estatística Descritiva vistos na aula de
hoje. Além disto, sua leitura possibilitará conhecer outros exemplos de aplicações da Estatística
Descritiva, principalmente para você utilizar em situações de sala de aula tendo como exemplo
as situações do cotidiano.
Resumo
Nesta aula, você estudou as aplicações da estatística descritiva nas Ciências
Biológicas. Para isto, você teve como exemplo dados de sistemas biológicos para
calcular a média, variância, desvio padrão, moda e mediana. Você compreendeu
como obter informações com este tipo de análise estatística e aprendeu a
realizar uma análise de um conjunto de dados utilizando a estatística descritiva.
Por fim, você pôde interpretar os resultados da análise dos dados, de modo a poder
caracterizar corretamente a amostra e poder fazer inferências sobre a população.
Autoavaliação
Um fazendeiro foi avaliar a produção de leite dos seus animais. Ele anotou os
dados na tabela a seguir (Tabela 4). Entretanto, ficou sem saber analisar, fazer
uma estatística descritiva dos resultados.
Tabela 4 – Produção de leite (Kg/animal/dia)
Produção de leite (kg/animal/dia)

Identificação do animal Dia 1 Dia 2 Dia 3 Dia 4
A296 7,4 4 7,2 6,6
A369 6 5,4 8 4,8
A001 8 2,8 3,4 9,4
L061 7,4 9,8 11,2 7
L212 4,6 9 10,2 4
L344 2,8 5 6,2 4
Analise os dados da Tabela 4 e calcule a média, o desvio padrão, a moda, a mediana e

o coeficiente de variação da produção de leite do rebanho.
Se você conseguiu resolver o exercício acima, parabéns. Caso contrário, entre em contato
com o seu professor. Retome o texto da aula, reveja os principais conceitos, volte à atividade
de Autoavaliação e tente quantas vezes forem necessárias.
Referências
Editores, 1999.
MAGALHÃES, M. N.; LIMA, A. C. P. de. Noções de probabilidade e estatística. São Paulo:

IME-USP, 2000.
OTT, Lyman; MENDEENHALL, William. Understanding statistics. Boston: PWS-KENT Publishing

Company, 1990.
PAGANO, Marcello; GAUVREAU, Kimberlee. Princípios de bioestatística. 2. ed. São Paulo:

Pioneira Thomson Learning, 2004.

Horizonte: FEP MVZ Editora, 1997.
ZAROS, L. G. et al. Desempenho de ovinos Somalis resistentes e susceptíveis a nematódeos

gastrintestinais. In: ZOOTEC, 2009, Águas de Lindóia. Anais... Águas de Lindóia, 2009.
Anotações
Anotações
Anotações
Elaborando hipóteses
Aula
4
Apresentação
N
esta aula, apresentaremos o conceito de hipótese, exemplificando com situações
que fazem parte do seu cotidiano. Num segundo momento, veremos quais os tipos
de hipótese e como utilizá-los. Entenderemos o conceito de população amostral e
referência, os quais serão parte essencial na construção da hipótese. Estudaremos quais os
tipos de erros existentes ao se aceitar ou rejeitar uma hipótese verdadeira.
Nesta aula, temos exercícios resolvidos que servirão de guia para que você faça as
atividades propostas após cada assunto abordado.
Lembre-se: para que você compreenda os conceitos desta aula, é necessário que você
leia atentamente o texto, fazendo sempre anotações sobre suas dúvidas e questionamentos.
Objetivos
Definir hipótese.
1
Diferenciar os tipos de hipóteses.
2
Definir erro tipo I e tipo II.
3
Uma provável teoria...
Observe a figura abaixo e responda a seguinte pergunta: Será que

vai chover?
Fonte: <http://noticiasro.nafoto.net/images/photo20081004014824.jpg>.
Acesso em: 25 mar. 2010.
Figura 1 – Céu nublado
Segundo o Dicionário On Line de Português, a palavra hipótese refere-se a uma

suposição que se faz acerca de uma coisa possível ou não, a qual se tira uma
consequência; teoria provável, admissível, embora ainda não demonstrada.
Na ilustração anterior, nossa hipótese é que vai chover. Chegamos a essa

afirmação, constatando o céu cinzento e carregado de nuvens.
Mas, será que podemos comprovar essa hipótese? Será que essa hipótese pode
ser rejeitada? Que elementos temos para aceitar ou rejeitar essa hipótese?
Essas e outras questões serão respondidas no decorrer desta aula.
Se voltarmos um pouco no tempo e relembrarmos algumas disciplinas que você já

estudou, como Biodiversidade, podemos destacar teorias que foram formuladas a partir de
uma, duas ou mais hipóteses.
Um exemplo foi a teoria da evolução dos seres vivos. Essa teoria teve várias hipóteses,
dentre elas a sustentada pelo cientista francês Jean-Baptiste Lamarck, que afirmava que os
seres vivos tinham de se transformar para melhor se adaptarem ao ambiente, ou seja, as girafas
teriam adquirido o pescoço longo ao se esforçarem para ter acesso à comida. Essa hipótese
não foi aceita pela ciência e foi substituída pelas hipóteses de Darwim, que originaram a Teoria
da Seleção Natural.
Esse é apenas um exemplo de hipóteses que, quando aceitas, tornaram-se fatos, teorias.
Figura 2 – Girafas que teriam adquirido pescoço longo ao

se esforçarem para ter acesso à comida - Hipótese de Lamarck
Atividade 1
Baseado nos conhecimentos que você adquiriu durante o curso de Ciências
Biológicas, pesquise e descreva outras hipóteses que foram confirmadas ou
rejeitadas na história da Biologia.
Um exemplo nos dias de hoje
Nas Ciências Biológicas, os trabalhos científicos são realizados com objetivos bem
estabelecidos, expressos por meio de afirmações – as hipóteses – que os pesquisadores
desejam verificar.
Veja esta situação: suponha que o pesquisador queira verificar se o medicamento X,

utilizado no tratamento do câncer de pele apresenta, como efeito colateral, um aumento na
pressão sanguínea. Nesse caso, o pesquisador elabora duas afirmações, ou seja, duas hipóteses
que devem ter sentido contrário uma da outra (igualdade x diferença). Assim, obrigatoriamente,
ao aceitar uma hipótese, a outra deve ser rejeitada. Isso pode ser visto no exemplo a seguir.
Hipótese 1 (H1): o medicamento X, utilizado no tratamento do câncer de pele, não apresenta

efeito colateral.
Hipótese 2 (H2): o medicamento X, utilizado no tratamento do câncer de pele, apresenta pelo

menos um efeito colateral.
Entretanto, para saber quais das hipóteses são verdadeiras, o pesquisador deverá testá-las,
ou seja, inicia-se uma pesquisa para responder às suas perguntas.
No caso do exemplo acima, ele deve selecionar indivíduos, utilizar a medicação X e avaliar
se ocorre algum efeito colateral nos pacientes.
Dependendo dos resultados obtidos, o pesquisador aceita ou não a sua hipótese: se ele
verificar que os indivíduos apresentaram algum efeito colateral, como, por exemplo, alteração
na pressão arterial após a administração do medicamento, ele aceitará a hipótese 2; caso
contrário, deverá aceitar a hipótese 1.
Fonte: <http://frasesilustradas.files.wordpress.com/2009/04/hipotese.jpg>.
Atividade 2
Com base no que você leu até aqui, defina hipótese e construa duas hipóteses
sobre como será a disciplina de Bioestatística.
Hipóteses e seus tipos

Até o momento, vimos o conceito de hipótese. Agora, vamos conhecer seus tipos?
Há dois tipos principais de hipóteses. Uma que chamamos de Hipótese Científica e a

outra que denominamos de Hipótese Estatística.
A hipótese científica é aquela que não menciona o valor do parâmetro. É o caso da nossa Valor do parâmetro
situação acima, em que as hipóteses formuladas não exprimem valor, ou seja, não se referem Valor do parâmetro:
à média da pressão sanguínea dos indivíduos analisados. é um número, um valor
que quantifica a variável.
Já a hipótese estatística menciona o valor do parâmetro. Seria o caso se, no exemplo
acima, o pesquisador apresentasse o valor médio da pressão sanguínea dos indivíduos
analisados, como, por exemplo, 128mmHg (milímetros de mercúrio).
O esquema a seguir resume os dois principais tipos de hipóteses com seus respectivos
exemplos e nos apresenta outros dois subtipos da hipótese estatística, a Hipótese Nula ou de
Nulidade (H0) e a Hipótese Alternativa (Ha).
HIPÓTESE
Hipótese Científica Hipótese Estatística
O medicamento
O medicamento apresenta efeito
Parâmetro Parâmetro
apresenta efeito colateral sobre a
sem valor com valor
colateral média de pressão
sanguínea
Hipótese Hipótese
Nula Ho Alternativa Ha
A média da pressão A média da pressão

sanguínea é igual para os sanguínea é diferente para
indivíduos que receberam os indivíduos que receberam
o medicamento e para os o medicamento e para os
que não receberam que não receberam
Figura 3 – Tipos e subtipos de hipóteses e seus respectivos exemplos

Fonte: Lilian Giotto Zaros.
População Vamos nos aprofundar nas hipóteses estatísticas?

amostrada (μ1)
As hipóteses estatísticas sempre comparam dois ou mais parâmetros, afirmando que
é a amostra que constitui
o seu estudo. No caso são iguais ou não, como você pôde ver no esquema acima. Essas hipóteses ainda podem ser:
do nosso exemplo, os 60
indivíduos que tomaram o Hipótese Nula ou de Nulidade (H0), que estabelece a ausência de diferenças entre os
medicamento constituem parâmetros. É sempre a primeira a ser formulada.
a população amostral ou,
simplesmente, a amostra. Ainda utilizando o exemplo anterior, a hipótese de nulidade pode ser:
H0, a média da pressão sanguínea da população amostrada (μ1), de indivíduos tratados

População tomada
como referência (μ2) com o medicamento X, não difere da média da população tomada como referência (μ2), ou
abreviadamente:
é aquele que serve como
base ou referência para H0 : μ1 = μ2
o estudo. No caso do
exemplo, é a população Se essa hipótese for aceita, a conclusão é de que o medicamento não altera a pressão
de pessoas que não sanguínea.
receberam o medicamento.
O pesquisador não precisa,
necessariamente, medir
a pressão de todas as
pessoas. Ele simplesmente
pode ter como base
estudos já realizados que
constataram que a média
da pressão arterial
é de 128mmHg.
Hipótese alternativa
Hipótese Alternativa (Ha ou H1): é a hipótese contrária à hipótese nula. Estabelece a presença
de diferenças entre os parâmetros. Geralmente, é a que o pesquisador quer ver confirmada.
A hipótese alternativa do exemplo acima é:
Ha, a média da pressão sanguínea da população amostrada (μ1), de indivíduos tratados com
o medicamento X, difere média da população tomada como referência (μ2), ou abreviadamente:
Ha : μ1 ≠ μ2
Se essa hipótese for aceita, a conclusão é de que o medicamento altera a pressão sanguínea.
Exercício resolvido
Formule as hipóteses de nulidade e alternativa para a situação descrita a seguir.
Um pesquisador da Empresa Brasileira de Pesquisa Agropecuária (EMBRAPA) tem se

dedicado aos estudos de caprinos, tentando identificar alguns genes que sejam relacionados
à resistência à verminose. Num dado momento da sua pesquisa, ele notou que vários genes
aparecem em diferentes proporções nos animais mais resistentes do que nos animais mais
susceptíveis e outros genes aparecem nas mesmas proporções em ambos os animais.
Diante dessa observação, o pesquisador precisa formular suas hipóteses para posteriormente
testá-las. Descreva quais as hipóteses esse pesquisador deve testar.
Resolução
Em primeiro lugar, você deve identificar qual a população a ser testada. No
exemplo acima, queremos comparar se os animais resistentes apresentam os
mesmos genes que os animais susceptíveis. Nesse caso, como iremos testar os
dois grupos de animais, podemos denominar os animais resistentes de população
1 (μ1) e os animais susceptíveis de população 2 (μ2), já que ambos serão testados.
Uma vez definida a população a ser testada, você pode elaborar as hipóteses.
 Hipótese de nulidade (H0): a média de expressão gênica dos animais

resistentes não difere da dos animais susceptíveis. H0 : μ1 = μ2
 Hipótese alternativa (H a): a média de expressão gênica dos animais

resistentes difere da dos animais susceptíveis. Ha : μ1 ≠ μ2
Entendido? Agora faça o mesmo nas situações abaixo.
Atividade 3
Um pesquisador da Fundação Oswaldo Cruz, no Rio de Janeiro, recebeu
1 uma demanda do Governo Federal para testar um novo inseticida contra
o mosquito Aedes aegipty, transmissor da dengue e da febre amarela
urbana. Alguns estudos preliminares foram realizados e comprovaram
que o inseticida tem efeito na diminuição da população desse inseto.
Entretanto, o que o governo ainda não sabe é se ele atua inibindo a
eclosão dos ovos, inibindo o desenvolvimento da larva em adulto, ou
tornando os adultos estéreis. Com base nessas informações, escolha
uma das três alternativas para o mecanismo de ação do inseticida e
elabore as hipóteses (H0 e Ha) que devem ser testadas para responder
ao questionamento do Governo Federal.
Antigamente, se pensava que o câncer de mama era uma doença rara

2 em mulheres abaixo dos 35 anos. Pesquisas recentes têm mostrado
que essa incidência não é um evento tão raro como se pensava
anteriormente. Desse modo, pesquisadores de institutos de saúde vêm
se questionando se as causas desse tipo de câncer são as mesmas
em mulheres abaixo de 35 anos, quando comparadas àquelas de 45
anos ou mais. Suponha que você é um desses pesquisadores que irá
realizar a pesquisa e elabore as hipóteses (H0 e Ha) a serem testadas.
Cometendo erros
Agora que você já compreendeu o conceito de hipótese estatística e conseguiu identificar,
em uma situação problema, as hipóteses de nulidade (H0) e alternativa (Ha), você irá ver que
podemos cometer erros ao aceitar ou não uma hipótese. O aceitar ou rejeitar uma hipótese é
dado pelos testes de hipóteses, os quais estudaremos na Aula 5 – Testando hipóteses. Testes de hipóteses
procedimento estatístico
A verificação das hipóteses estatísticas somente se dará com certeza se você estudar toda
pelo qual se rejeita ou não
a população, e não somente uma amostra dessa população, como somente alguns indivíduos uma hipótese, associando
utilizados para avaliar o efeito do medicamento na pressão arterial. à conclusão um risco
máximo de erro.
Entretanto, como não podemos avaliar toda a população, por diversas razões, avaliamos
somente uma amostra dela (por exemplo, 60 indivíduos) e extrapolamos, ou seja, aplicamos
os resultados obtidos com essa amostra para todos os indivíduos da população. Extrapolar
Mas, quando fazemos isso, corremos o risco de cometer erros, afirmando que há uma generalizar; estender a
validade de uma afirmação
diferença, quando ela efetivamente não existe, ou o inverso. ou conclusão além dos
limites em que ela é
comprovável.
E como podem ser esses erros?

Os erros cometidos ao se extrapolar as informações de uma amostra para toda a
população podem ser visualizados no esquema apresentado a seguir.
ERRO
Tipo I - erro α Tipo II - erro β
Rejeita H0 quando Aceita H0 quando

ela é verdadeira ela é falsa
Afirma-se uma diferença Afirma-se uma igualdade

quando ela efetivamente quando o correto seria
não existe afirmar uma diferença
Figura 4 – Tipos de erros que podem ser cometidos ao se testar hipóteses
Fonte: Lilian Giotto Zaros.
Mas, como é possível rejeitar
uma hipótese que é verdadeira?
O teste que realizamos para aceitar ou rejeitar uma hipótese baseia-se numa situação
experimental (amostra), sujeita a flutuações amostrais. Devido a essas flutuações, você pode
ter uma amostra que não represente bem a população, levando a uma conclusão que não
corresponde à realidade.
No quadro a seguir você pode verificar os erros cometidos de acordo com a decisão
tomada pelo pesquisador de aceitar ou não uma hipótese.
Fonte: <http://www.editoraferreira.com.br/publique/media/
pedro_toq14_teste-hipoteses.pdf>. Acesso em: 25 mar. 2010.
Se a Hipótese Nula (H0 ) é
VERDADEIRA FALSA
O PESQUISADOR
ACEITA DECISÃO COMETE O

H0 CORRETA ERRO TIPO II (β)
REJEITA COMETE O DECISÃO

H0 ERRO TIPO I (α) CORRETA
Figura 5 – Tipos de erros cometidos ao aceitar ou rejeitar uma hipótese de nulidade ou alternativa
Se o pesquisador aceita H0 e ela é realmente verdadeira, ele tomou a decisão correta,

e, consequentemente, não cometeu erro algum. Entretanto, se ele aceita H0 e ela é falsa, ele
cometeu um erro, chamado de erro tipo II, representado pela letra grega beta (β).
Mas, se o pesquisador rejeita H0 e ela é verdadeira, ele comete o erro tipo I, representado
pela letra grega alfa (α). Já, se ele rejeita H0 e ela é falsa, ele tomou a decisão correta e não
cometeu erro algum.
E como evitar esses tipos de erros?

Esses erros podem ser evitados através dos testes de hipóteses (Aula 5) que os
tornem menores possíveis. Entretanto, não é possível minimizar ambos os erros
ao mesmo tempo.
Os testes de hipóteses são montados de forma que, fixado o Erro Tipo I que se
está disposto a cometer, o Erro Tipo II seja o menor possível.
Atividade 4
Pesquise o conceito de erro e, com base nos seus conhecimentos adquiridos nesta
1 aula, defina os tipos de erros estatísticos e suas consequências.
O texto abaixo foi escrito por Doris S. M. Fontes (2007, extraído da Internet), graduada
2 em Estatística, aborda a importância do erro estatístico. Leia e reflita sobre ele.
Será que os erros médicos são mais graves que os erros estatísticos?
[...] Muitas vezes, conclui-se que os erros estatísticos não devem ser encarados
com tanto rigor legal como aqueles causados por médicos, advogados ou
engenheiros. Eu realmente não compartilho muito dessa opinião. Erros estatísticos
podem ser muito graves, trazendo consequências realmente nefastas para milhões
de pessoas. Enquanto um médico mata um, dois ou dez pacientes por imperícia,
um resultado estatístico aceito por uma empresa ou governo pode trazer prejuízo/
danos ou mortes para muitas pessoas, ou milhões, simultâneamente, dependendo
do caso [...] O remédio genérico que foi aprovado mais tarde é verificado que
não funciona. E quantas vítimas já terá feito? Um produto lançado a partir de
resultados estatísticos duvidosos, quantos terão morrido?
Resumo
Nesta aula, você aprendeu o conceito de hipótese e também que há hipóteses
científicas e estatísticas. Você estudou os tipos de hipóteses estatísticas
denominadas hipótese de nulidade (H0 ) e hipótese alternativa (Ha ) e as identificou
em vários exemplos utilizados ao longo da aula. Entendeu o conceito de população
amostral e referência, que são parte essencial na construção de hipóteses.
Aprendeu também a formular hipóteses utilizando alguns exemplos da Biologia
e a reconhecer a importância de uma hipótese bem formulada. Você conheceu que
podemos aceitar ou rejeitar hipóteses e verificamos que, ao rejeitar ou aceitar uma
hipótese, podemos cometer algum tipo de erro. Estudou os conceitos de erros
apresentados em erro tipo I, representado pela letra grega alfa (α) e o erro tipo
II, representado pela letra grega beta (β). Por fim, você pôde perceber e refletir
sobre a sua importância quando extrapolamos uma conclusão retirada de um
estudo de uma amostra para toda a população.
Autoavaliação
Vamos aplicar o que aprendemos? Para isso, resolva o exercício abaixo.
Suponha que antropólogos da Alemanha costumam classificar os tipos de

populações antigas com base no comprimento dos seus crânios: população 1 (P1),
com valores médios de 190mm e população 2 (P2), com valores médios de
196mm. Recentemente, descobriram em outra localidade 12 crânios com
comprimento médio de 194mm e desejam saber à qual tipo de população
(P1 ou P2) pertenceram esses crânios. Assim, transforme o problema acima em
uma hipótese estatística.
Se você conseguiu resolver a autoavaliação, parabéns. Caso contrário, entre em contato

com o seu professor, reveja os principais conceitos, volte à atividade e tente quantas vezes
forem necessárias.
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre:
Artmed, 2003.
DEPARTAMENTO DE PATOLOGIA – FMUSP. Biometria: aula II: inferência estatística. Disponível

em: <http://med.fm.usp.br/dim/apostila/biometria/aula02.htm>. Acesso em: 23 fev. 2010.
DICIONÁRIO On Line de Português. Disponível em: <http://m.dicio.com.br/hipotese/>. Acesso
em: 24 fev. 2010.
FONTES, D. S. Será que os erros médicos são mais graves que erros estatísticos? 2007.
Disponível em: <http://www.conre3.org.br/forum/viewtopic.php?t=595>. Acesso em: 25 fev. 2010.
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. 2922p.
Editores, 1999.
Anotações
Anotações
Anotações
Testando hipóteses
Aula
5
Apresentação
Agora que você já compreendeu o conceito de hipótese estatística e conseguiu identificar,
em uma situação problema, as hipóteses de nulidade (H0) e alternativa (Ha),(Aula 4- Elaborando
hipóteses) você irá conhecer os testes pelos quais podemos verificar se as hipóteses que
construímos são ou não verdadeiras. Esses testes são chamados de testes de hipóteses.
Também nesta aula você vai estudar o conceito de nível de significância do teste, onde
você utilizará o conceito de erro tipo I e tipo II visto na aula anterior (Aula 4- Elaborando
hipóteses) para compreender o que é o nível de significância de um teste e sua importância.
Em seguida, você vai aprender a classificar os tipos de testes de hipóteses e verá em quais
situações eles são mais utilizados.
Leia atentamente os textos e anote suas dúvidas. Bom trabalho!
Objetivos
Definir testes de hipóteses.
1
Identificar os principais tipos de testes de hipóteses.
2
Definir o conceito de nível de significância.
3
Reconhecer em quais situações utilizar os testes
4 de hipóteses.
Definindo os testes de hipóteses
Os testes de hipóteses ou testes de significância são procedimentos estatísticos pelos
quais você rejeita ou aceita uma hipótese de nulidade (H0), associando um risco máximo de
erro (nível de significância) para esta conclusão. São utilizados para detectar se existe alguma
diferença entre as médias testadas.
Para entender melhor a definição de testes de hipóteses, suponha que você queira avaliar
se a utilização de suco de abacate com laranja na alimentação de mulheres resulta em perda
de peso. Como você viu anteriormente, primeiro devemos elaborar as hipóteses.
H0: A utilização de suco de abacate com laranja na alimentação não tem efeito sobre a
perda de peso das mulheres.
H1: A utilização de suco de abacate com laranja na alimentação tem efeito sobre a perda
de peso das mulheres.
Após a elaboração das hipóteses, você deverá testá-las, utilizando o teste específico
para comparar os resultados obtidos. Mas antes de escolher qual o melhor teste estatístico,
primeiro você deve analisar:
 Natureza da variável: se ela é qualitativa ou quantitativa;
 Distribuição da variável: se tem distribuição normal ou não;
 Continuidade da variável: se é contínua ou descontínua;
 Instabilidade da variável: se é muito ou pouco instável.
De acordo com esses critérios, podemos ter dois tipos de testes:
 Testes paramétricos: devem ser utilizados quando são avaliados dados com variáveis
quantitativas e de distribuição normal, como por exemplo, o peso médio de um
rebanho bovino.
 Testes não paramétricos: devem ser utilizados para variáveis qualitativas e que não têm
distribuição normal, como por exemplo, número de pessoas que gostam do queijo tipo
“A” numa avaliação de preferências.
Aplicando testes
paramétricos e não paramétricos
O Quadro 1 resume os critérios a serem analisados na escolha do teste estatístico, de
acordo com a sua indicação em teste paramétrico e não paramétrico.
Características da variável Testes paramétricos Testes não paramétricos

Variável qualitativa x
Variável quantitativa x
Distribuição normal x
Sem distribuição normal x
Contínua x
Descontínua x
Estável x
Instável x
Quadro 1 – Critérios analisados na escolha do teste estatístico paramétrico e não paramétrico

Note que os testes paramétricos são indicados para variáveis quantitativas, com
distribuição normal, contínua e estável. Um exemplo de uma variável que se encaixa nesse perfil
é o peso médio dos animais de um rebanho submetidos a diferentes tipos de dieta alimentar.
Já os testes não paramétricos são indicados para variáveis qualitativas, sem distribuição
normal, descontínua e instável, como por exemplo o número de eleitores que votariam num
determinado candidato para a eleição de diretor da escola.
Atividade 1
Agora que você já estudou o conceito de testes paramétricos e não paramétricos e viu
também em quais tipos de variáveis utilizá-los, pesquise em seu material das aulas anteriores
os conceitos a seguir:
a) Variável quantitativa e quantitativa.
b) Variável contínua e descontínua.
c) Variável estável e instável.
Mas o que é uma variável

com distribuição normal?
Média e mediana Diz-se que uma variável apresenta distribuição normal quando a média e mediana são
Caso você não se lembre iguais. Além do mais, os desvios em relação à média são simétricos. Por isso, quando plotamos
do conceito de média e os resultados em gráficos, observa-se que estes apresentam forma de sino.
mediana, volte à Aula 3 –
Estatística descritiva. Está com dificuldades para entender esta definição?
Vamos observar e analisar o gráfico a seguir para facilitar a sua compreensão acerca
destes conceitos.
σ=1
-3 -2 -1 μ=0 1 2 3 z
Figura 1 – Gráfico de uma distribuição normal com média (μ) = 0 e desvio padrão (δ) = ±1
Sempre que a distribuição dos dados for normal, observa-se a média (μ) no centro da
curva (ilustrada pela reta em verde) e desvios simétricos em relação à média (μ).
Vale ressaltar que este gráfico poderá ser mais achatado ou não, de acordo com a relação
entre os desvios e a média.
Atividade 2
Construa um gráfico utilizando o conjunto de dados da Tabela 1 a seguir e analise se os
mesmos têm distribuição normal. Este gráfico pode ser elaborado utilizando a ferramenta de
gráficos do Excel ou em papel milimetrado, inserido após a tabela.
Tabela 1 – Peso médio (valores máximos e mínimos) dos animais de um rebanho bovino e respectivos números
de animais por classe de peso
Classes de peso (kg) Peso médio Número de animais

Mínimo Máximo (kg) por classe por classe de peso
1 62,5 67,4 64,95 6
2 67,5 72,4 69,95 12
3 72,5 77,4 74,95 25
4 77,5 82,4 79,95 38
5 82,5 87,4 84,95 44
6 87,5 92,4 89,95 52
7 92,5 97,4 94,95 47
8 97,5 102,4 99,95 34
9 102,5 107,4 104,95 23
10 107,5 112,4 109,95 14
11 112,5 117,4 114,95 5
Agora já posso iniciar o teste?
Ainda não, mesmo que você já tenha testado todas as condições da variável e identificado
qual tipo de teste a ser utilizado.
Antes você deve convencionar qual o nível de erro desejado para testar esta média. Ou
seja, o limite máximo para se determinar quanto do desvio (erro) é decorrente do acaso ou não.
Esses valores, normalmente, são distribuídos entre 5% e 0,001%. Essa possibilidade

de erro levada em consideração quando se testa as hipóteses é denominada de nível
de significância e é representada pela letra grega alfa (®). A escolha de qual o valor de
probabilidade de erro, entre 5% e 0,001%, escolher dependerá, principalmente, da sua
ponderação e subjetividade. Se você aceitar uma hipótese onde o nível de significância é de
5% ou ® = 0,05, pode-se concluir que ela é 95% verdadeira. Caso você aceite uma hipótese
onde a porcentagem de erro é de 1% ou ® = 0,01, você concluirá que sua hipótese tem 99%
de chance de ser verdadeira. Entendido?
E já que existe uma grande variação nos níveis de significância, qual o valor que devo
utilizar para o meu trabalho?
Acurácia
Esse valor vai depender da hipótese que está sendo testada, da necessidade de acurácia
Medida correta dos e precisão da variável estudada e dos objetivos da pesquisa.
valores.
Mas como avaliar a acurácia e precisão?
Para isso, vamos observar o exemplo da figura a seguir (Figura 2), que ilustra o conceito
Precisão
de acurácia e precisão de quatro atiradores que estão fazendo testes para a tropa de elite da
Capacidade de repetir a Polícia Militar.
medida com acurácia.
Atirador 1 Atirador 2
Alta acurácia Baixa acurácia

Alta precisão Alta precisão
Alta acurácia Baixa acurácia

Baixa precisão Baixa precisão
Figura 2 – Representação esquemática dos conceitos de acurácia e precisão

Fonte: <http://sampa.if.usp.br/~suaide/LabFlex/blog/files/acuracia.jpg>. Acesso em: 17 maio 2010.
Observe que com o Atirador 1, que tem alta acurácia e alta precisão, a maior parte das
marcas pretas (resultantes dos tiros) atinge o centro do alvo, o círculo verde e menor.
O Atirador 2 apresenta baixa acurácia, pois nenhum tiro atingiu o alvo central da figura,
e alta precisão, porque todos os tiros estão bem próximos entre si.
O Atirador 3 tem alta acurácia (atingiu o alvo central) e baixa precisão, pois a maior parte
dos seus tiros são dispersos e longe do alvo.
O Atirador 4 tem baixa precisão e baixa acurácia, pois nenhum dos seus tiros atingiu o
alvo central e todos estão bem dispersos (longe um do outro) na Figura 2.
Vamos refletir sobre esse tema?

Qual a necessidade de precisão e, consequentemente, da escolha do nível de significância
a serem utilizados nas seguintes situações?
1) Testar uma nova variedade de mandioca (Manihot sculenta Crantz), que é resistente à
seca, para ser plantada em regiões semiáridas.
2) Testar uma nova vacina contra gripe para idosos com mais de 60 anos.
Certamente, no caso 2 a necessidade de precisão será muito maior que no caso 1.
Para se testar a resistência de uma variedade de planta em relação a stress hídrico,

níveis entre 1 e 5% de erro podem satisfazer a necessidade de confiança do pesquisador na
resposta obtida.
Para a situação 2, onde se testa uma vacina em idosos, níveis de significância superiores
a 0,1% são inadmissíveis. Esses valores podem e devem ser ainda menores se for testado
um produto que pode causar danos à saúde. Nesse caso, recomenda-se trabalhar nos níveis
de significância de 0,01%.
Atividade 3
Estabeleça os níveis de significância (5%; 1%; 0,1% e 0,01%) adequados para se testar
as situações experimentais a seguir e justifique a sua resposta:
a) Avaliar o efeito da utilização de farinha de mandioca na alimentação de crianças de 4 a 8 anos.
b) Comparar a produção de leite de vacas em uma fazenda.
c) Avaliar o efeito da substituição do leite de vaca por leite de cabra no ganho de peso de
crianças desnutridas com idade entre 1 e 5 anos.
d) Comparar a eficácia da utilização de gargarejo de solução caseira com água, sal e vinagre ou
de fármacos (remédios alopáticos – comprados em farmácia) no tratamento de amigdalite.
e) Avaliar o resultado de uma vacina que imuniza idosos com mais de 60 anos contra gripe.
Pode-se rejeitar uma hipótese que é verdadeira?
Além do nível de significância (determinada pela necessidade de precisão e acurácia na
resposta medida), existe a possibilidade de ocorrerem erros tipo I (®) ou tipo II (¯) quando se
testa uma hipótese. No erro tipo I atribui-se uma diferença às médias quando elas realmente
não existem. No erro tipo II ocorre o contrário: atribui-se uma igualdade quando as médias
são diferentes.
Esses tipos de erro são antagônicos. Assim, seu controle simutâneo e absoluto é
impossível. Neste caso, você deve escolher o tipo de erro (I ou II) a ser minimizado. Para
isso, o tipo de variável estudada e seus possíveis resultados são importantes para a escolha.
Nas situações onde o resultado favorável é uma diferença, deve-se evitar utilizar testes
que beneficiem erro tipo I. Assim, diminui-se a probabilidade de se atribuir diferenças entre
as médias, quando elas realmente não existem.
Esse tipo de erro é indesejado nas situações onde se espera maior eficiência de algum
tratamento, como por exemplo, testes para comparar produtividade de cultivares de mandioca
ou milho plantadas em regiões de semiárido. Assim, o produtor poderá escolher a variedade
de mandioca ou de milho plantada – deveria ser a que apresentasse a maior produtividade.
Por outro lado, quando o resultado favorável (situação desejada) é a equivalência, deve-se
procurar utilizar testes que beneficiem erro tipo II, isto é, atribuir igualdade entre as médias,
quando elas realmente não existem.
Essa situação pode ser exemplificada quando se compara a substituição de um

medicamento importado do exterior por um nacional. Para esta situação, a resposta desejada
é uma equivalência, pois a escolha de qual tratamento será utilizado se dá em função de alguma
facilidade (por exemplo: preço ou maior possibilidade de aquisição).
Todavia, atribuir uma equivalência quando ela realmente não existe é, no mínimo, uma
irresponsabilidade, e poderá comprometer a eficiência do tratamento. Isso porque faltariam
subsídios para indicar o tratamento mais eficaz.
Como dito anteriormente, esses erros são excludentes e não podem ser controlados
conjuntamente. Assim, o pesquisador (você) deverá fazer uma escolha: qual tipo de erro (I ou
II) quer beneficiar ou evitar.
Atividade 4
Escolha o tipo de erro (I ou II) que deverá ser beneficiado para as seguintes situações e
justifique a sua resposta:
a) Comparar a substituição de um medicamento alopático (comprado em farmácia) por um caseiro.
b) Comparar a o efeito, no ganho de peso médio diário de bovinos em confinamento, da

substituição de farelo de trigo por resíduo da produção de melão na alimentação.
c) Avaliar a eficiência de uma vacina contra gripe em pessoas com mais de 60 anos.
d) Avaliar o efeito da utilização de castanha de caju na alimentação de crianças sobre os níveis

de colesterol bom (LDL) no sangue.
Os testes de hipóteses
Existe uma gama diversa de testes de hipóteses. Os testes mais comumente utilzados
em sistemas biológicos são:
 O Teste “F”, proposto por Fisher em 1924. Este teste indica se existe diferença entre
as médias testadas. Porém, não diz quais são as diferenças. Assim, esse teste só deve
ser utilizado para comparar duas médias por vez. Esses tipos de comparação são
denominados contrastes ortogonais.
 O Teste “t” de student. Este teste é bastante utilizado em Biologia, especialmente para
se comparar três ou mais médias simultaneamente. Ele favorece o aparecimento de erro
tipo I (atribui-se uma diferença, quando ela realmente não existe) e controla bem erro
tipo II (¯).
 O Teste de Tukey também é utilizado quando se deseja comparar três ou mais médias
simultaneamente. Este teste controla bem erro tipo I e favorece o aparecimento do erro
tipo II (¯) (atribui-se uma igualdade, quando as médias são diferentes).
Além destes testes, existem vários outros como o SNK, o Duncan e o de Sheffé. A escolha
de qual deles você vai utilizar no seu trabalho deverá ocorrer em função da sua necessidade
de controle de erro e peculiaridades inerentes à pesquisa.
Assim, para escolhar qual o tipo de teste a ser utilizado é interessante que você promova
uma discussão entre os membros da equipe e um estatístico para decidirem qual o a melhor
opção a ser utilizada.
Vamos supor que, pra testar se o suco de abacate com laranja tem efeito no emagrecimento
de mulheres – como exemplificado no início dessa aula – você utilizou como população
amostral 60 mulheres. Destas 60 mulheres, 30 receberam o suco de laranja com abacate
(μ1) e 30 receberam uma mistura que chamamos de placebo (μ2). Placebo
é um fármaco (produto)
As mulheres da população μ1 perderam em média 3,5 kg e as mulheres da população
ou procedimento inerte
μ2 perderam, em média, 0,5 kg. Para testarmos nossas hipóteses, devemos assumir que há que apresenta efeitos
um erro embutido no nosso experimento, já que os dados obtidos são da população amostral terapêuticos devido aos
efeitos fisiológicos da
(60 mulheres) e não de todas as mulheres da população em geral.
crença de que o pacinente
está sendo tratado.
Nesse caso, antes de testarmos nossas hipóteses, devemos assumir esse erro e dar um
valor a ele. Quanto maior for o valor do erro, maior a probabilidade de rejeitar uma hipótese
quando ela é verdadeira. Assim, se assumirmos um valor de erro cada vez menor, temos uma
maior confiança nos resultados obtidos.
Assim, nossa hipótese a ser testada seria:
H0: μ1 =μ2 versus Ha: μ1≠μ2 ,
onde:
μ1 = média da perda de peso das mulheres que receberam suco de abacate com laranja (3,5 kg)
μ2 = média da perda de peso das mulheres que não receberam suco de abacate com
laranja (0,5 kg).
Considera-se aceitável um erro (ou nível de significância) de 5%. Podemos, agora, fazer
a seguinte pergunta: tomar suco de laranja com abacate faz mal à saúde das pessoas?
Se a resposta for “não faz mal a saúde”, o teste de “t” de Student pode ser indicado. Esse
teste favorece erro tipo I, que rejeita H0, quando este é verdadeiro. Mas, como tomar este
suco não vai fazer mal à saúde, não haverá problemas com este tipo de erro, uma vez que o
máximo que pode acontecer é a recomendação para tomar um produto que não vai fazer mal!
Todavia, e se o suco “fizer mal às pessoas”? Neste caso, você deveria utilizar um teste
como o de Tukey, que controla erro tipo II. Assim, não existiria recomendação de que se tomar
suco de laranja com abacate resultaria em emagrecimento, pois, no caso observado, a perda de
peso registrada nos pacientes que tomaram suco foi resultante do acaso, e não do tratamento
imposto (tomar suco de abacate com laranja).
Lembre que estes erros não podem ser controlados e ocorrem

ao acaso. Não são fruto de trabalho errado ou mal feito!!
Entendeu o conceito?
Agora vamos fazer uma atividade e ganhar mais experiência para este tipo de reflexão.
Atividade 5
Indique os testes estatísticos mais adequados para as situações abaixo:
a) Comparar a média de peso de indivíduos que receberam tratamento para diminuir os níveis
de colesterol com aqueles que não receberam nenhum tipo de tratamento.
b) Comparar a média dos níveis de poluentes emitidos por 4 indústrias químicas do Rio
Grande do Norte.
Resumo
Nesta aula você conheceu a definição de testes de hipóteses e os principais
tipos de testes. Você viu que os testes, de uma maneira geral, podem ser
classificados em paramétricos e não paramétricos, de acordo com o tipo de
variável pesquisada. Você revisou o conceito de variável qualitativa, quantitativa,
contínua, descontínua, estável e instável. Compreendeu o que caracteriza uma
variável com distribuição normal e aprendeu a identificá-la. Conheceu o conceito
de nível de significância, identificou, em uma situação problema, erros do tipo I e
erros do tipo II e compreendeu a importância de cada um deles para a realização
de um teste estatístico. Você também conheceu os principais tipos de testes de
hipóteses e compreendeu em quais situações utilizar cada um deles.
Autoavaliação
Existe uma crença popular de que chá de folha de goiabeira pode ser um bom remédio
caseiro para controlar diarreia em bezerros jovens. Proponha uma metodologia para
testar esta hipótese. Para isto, você deve obedecer as seguintes etapas:
a) Elabore a hipótese de nulidade (H0) e a alternativa (Ha) para avaliar o fenômeno escolhido.
b) Escolha o nível de significância (5%; 1%; 0,1% ou 0,01%) adequado para esta situação
e justifique sua resposta.
c) Escolha o tipo de erro (I ou II) que você quer evitar e justifique sua resposta.
d) Escolha o teste estatístico mais adequado aos seus objetivos e justifique sua resposta.
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003.
DEPARTAMENTO DE PATOLOGIA - FMUSP. Biometria: aula II: inferência estatística. Disponível

em: <http://med.fm.usp.br/dim/apostila/biometria/aula02.htm>. Acesso em: 23 fev. 2010.
DICIONÁRIO On Line de Português. Disponível em: <http://m.dicio.com.br/hipotese/>. Acesso

em: 24 fev. 2010.
FONTES, D. S. Será que os erros médicos são mais graves que erros estatísticos? 2007.
Disponível em: <http://www.conre3.org.br/forum/viewtopic.php?t=595>. Acesso em: 25 fev. 2010.
LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman & Affonso
Editores, 1999.
Anotações
Anotações

Análise de variância
Aula
6
Apresentação
A
gora que você já compreendeu o conceito de hipótese estatística (Aula 4 - Elaborando
hipóteses) e os testes estatísticos (Aula 5 - Testando hipóteses), poderemos fazer a
análise de variância. Essa análise é fundamental para que se possa fazer a comparação
de médias. Por isso é importantíssimo que os conceitos apreendidos nas aulas anteriores
estejam bem claros. Volte e estude essas aulas sempre que necessário.
Assim, nesta aula, iremos apresentar o conceito de fatores de variação, de variância, erros
aleatórios e graus de liberdade. É com essas informações que você poderá realizar a análise
das médias ou resultados obtidos nos experimentos e aplicar os testes estatísticos que foram
apresentados na aula passada (Aula 5 - Testando hipóteses).
Com esses conhecimentos apreendidos, você deverá ser capaz de fazer uma avaliação
de experimentos inteiramente casualizados e em blocos completos inteiramente casualizados
em experimentos de Biologia.
Objetivos
Conhecer os conceitos de fatores de variação, graus de
1 liberdade, fazer análise de variância de experimentos
inteiramente casualizados e em blocos completos
casualizados.
Compreender as situações onde se pode utilizar análise

2 de variância corretamente.

Definindo análise de variância
Já vimos na Aula 3 (Descrevendo sistemas) deste curso, os conceitos de variância e
como se fazer a sua estimativa. Essa medida (a variância) é uma peça fundamental em qualquer
análise ou investigação científica, pois é essa análise da variância que permite a comparação
de médias e, assim, verificar se existe diferença significativa entre elas ou não.
Além disso, para fazer uma análise de variância, devemos ter cuidado em respeitar
algumas premissas básicas:
1) A resposta da variável que está sendo analisada deve ter uma distribuição normal.
2) Os tratamentos impostos, nos quais a resposta está sendo medida, devem apresentar
variâncias iguais.
3) A aplicação dos tratamentos deve ser homogênea em todas as unidades experimentais.
4) A distribuição das unidades experimentais deve ser aleatorizada dentro da área

experimental.
Se essas quatro premissas não forem cumpridas, a análise de variância não pode ser
realizada. Você pode testar a normalidade dos dados utilizando as informações disponibilizadas
na Aula 3 (Descrevendo sistemas) e Aula 5 (Testando hipóteses).
E quando os dados não têm distribuição normal ou apresentam variâncias

diferentes?
Quando os dados não têm distribuição normal, eles podem ser analisados
utilizando estatística não paramétrica. Todavia, esse tipo de análise não será
apresentado neste curso. Já para as situações onde a variância é diferente, pode-se
fazer uma transformação de variáveis. No entanto, para escolher como fazer a
transformação adequada para cada situação, deve-se consultar um estatístico ou
discutir com pesquisadores experientes nessa área de conhecimento.
Agora eu já sei calcular as variâncias, conheço as premissas básicas para sua análise...
e agora, o que faço com essas informações?

Análise de variância
Quando realizamos qualquer experimento ou coleta de dados, vários fatores interferem
juntos e ao mesmo tempo nos resultados. Tome, por exemplo, o seguinte experimento:
Um pesquisador deseja avaliar o peso ao nascer de bezerros num rebanho bovino da

raça gir (Tabela 1).
Tabela 1 – Peso ao nascer de bezerro num rebanho bovino da raça gir
Número do bezerro 1 2 3 4 5 6 7 8 9 10
Peso ao nascer (kg) 30 27 24 28 29 18 23 22 20 28
Observe que vários fatores podem estar interferindo no peso ao nascer dos bezerros.
Entre as possíveis causas de variação podemos citar:
 sexo da cria;
 efeito da linhagem paterna;
 peso e alimentação da mãe;
 idade e número de partos da mãe;
 época/estação de nascimento dos bezerros.
Algumas dessas fontes de variação podem ser agrupadas e controladas, outras não.
É por esse motivo que se deve fazer a análise de variância, para se conseguir isolar os
Diferença
fatores de variação impostos e controlados (os tratamentos) daqueles que são do acaso e estatística
não se pode controlar. Assim, você pode avaliar o efeito do que se quer medir (tratamento significativa
experimental) sobre a variável resposta e identificar se existe ou não diferença estatística Indica a possibilidade
significativa entre as médias obtidas nos resultados do experimento. de que o resultado
encontrado no
Para o exemplo da Tabela 1, os dados podem ser organizados em função do touro experimento seja igual ao
utilizado, ou do número de partos das vacas (matrizes) em primíparas ou multíparas etc... existente na população.
Na análise de variância, podemos decompor os fatores de variação em, basicamente,

dois tipos: Primíparas
 Controlados – São aqueles conhecidos “a priori” (antes de se iniciar o experimento) e Animais que só tiveram
um parto
que reconhecidamente têm efeito sobre a variável resposta que está sendo medida. Por
esse motivo, seus efeitos são medidos e entram no modelo estatístico.
 Aleatórias ou do acaso – São variáveis desconhecidas (que não podem ser controladas) Multíparas
e vão compor o erro experimental. Sempre que possível, deve-se minimizar a ação de Animais que tiveram mais
variáveis aletórias e do erro experimental. de um parto.

Afinal, é para isso que se faz planejamento de experimentos e se procura controlar a
aplicação dos tratamentos.
Assim, conhecendo-se as fontes de variação do experimento pode-se aplicar o modelo

Graus de liberdade
estatístico adequado e fazer a contabilização dos resultados através da análise de variância. Para
É um estimador do isso, os fatores de variação estudados são decompostos em função dos seus graus de liberdade
número de categorias
e da soma de quadrados. Nesta aula, serão demonstradas tabelas de análise de variância em
independentes num
teste particular ou experimentos inteiramente casualizados e em blocos completos inteiramente casualizados.
experiência estatística.
Encontram-se mediante a
fórmula n – 1, onde n é
o número de elementos
correspondente ao fator
de variação na amostra.
Atividade 1
a) Qual a diferença entre variância e análise de variância?
b) Quais as condições ou premissas para que um experimento possa ser

avaliado utilizando análise de variância?
c) Proponha um experimento para medir a produção de frutas de uma área

plantada com cajueiro e identifique os fatores de variação controlados e os
aleatórios.
d) Você quer avaliar o peso ao nascer de bezerros em um rebanho da raça

gir. Assim, cite os possíveis fatores de variação que têm ação sobre essa
variável resposta (peso dos bezerros ao nascer) e faça sua classificação em
controlados e do acaso.

Experimentos com delineamento
inteiramente casualizado
Um experimento tem delineamento inteiramente casualizado quando a variável resposta
só sofre ação dos tratamentos impostos e do acaso.
Esse é o delineamento experimental mais simples e por isso mesmo o mais forte, que
minimiza o erro experimental em relação aos tratamentos. Nesse tipo de delineamento os
tratamentos se distribuem ao acaso em todas as unidades experimentais e o número de
repetições por tratamento pode ser igual ou diferente, que não resultará em alterações na
análise. O delineamento inteiramente casualizado é muito útil para o estudo de métodos e
técnicas de trabalho de laboratório, que normalmente têm condições uniformes.
Exercício resolvido 1 Diâmetro a

altura do peito
Um pesquisador deseja avaliar 10 progênies de eucalipto (Eucalyptus saligna) em um
A medição do
experimento inteiramente casualizado, com quatro repetições cada (Tabela 2).
diâmetro da árvore deve
ser feita a uma altura
Tabela 2 – Dados médios do diâmetro a altura do peito (DAP) de parcelas de um experimento de competição
de 10 progênies de eucalipto (Eucalyptus saligna), em centímetros de 1,30 metro do solo.
Progênies P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Total

16,0 14,3 14,7 13,6 11,6 11,0 13,1 10,3 8,5 8,2
Progênies
16,4 14,5 15,6 13,1 10,5 15,0 10,3 13,2 8,6 8,4
14,1 13,8 11,6 14,7 15,9 10,7 14,3 10,2 9,5 9,3 O teste de progênie avalia
os pais pela comparação
11,7 14,6 15,0 15,1 14,0 13,0 10,5 13,0 9,4 9,2
do desempenho das suas
Total 58,2 57,2 56,9 56,5 52,0 49,7 48,2 46,7 36,0 35,1 496,5
descendências.

Solução
1) Observar quais os fatores que podem influenciar as variáveis.
Nesse caso, temos o valor genético da planta mãe como melhoradora (o que se deseja
avaliar), o solo, o clima, possíveis infestações de insetos ou doenças nas raízes, água etc.
Certamente a minha variável resposta medida (o DAP) vai sofrer a interferência de todos
esses fatores e outros tantos mais que são do acaso e não se pode controlar.
Todavia, neste exemplo, o fator de variação que se quer testar é a progênie, e esse
é devidamente controlado. Os demais são do acaso. Nesse caso, como é um experimento
inteiramente casualizado este deve ser conduzido numa área plana, onde não há variação de
tipo de solo e de umidade em nenhum local do terreno.
2) Observar as condições expressas no método estatístico e formular as hipóteses que serão

testadas (Aula 4 – Elaborando hipóteses). São elas:
H 0: Não existe diferença entre as médias de DAP nas 10 progênies avaliadas.
H1: Pelo menos uma das 10 progênies avaliadas difere das demais.
3) Escolher o teste mais adequado.
Nesse caso, utilizaremos o teste de Tukey, que minimiza erro tipo II (Aula 5 – Testando hipóteses).
4) Observar se os dados têm distribuição normal.
Isso pode ser realizado fazendo um gráfico com todos os dados, que deverá ter formato de
sino e/ou testando a variância. Para o caso analisado, os dados obedecem a essas duas condições.
5) Observando os fatores de variação analisados, você verá que a única diferença entre os
tratamentos é a Progênie (P), que vai de 1 a 10.
Como o número de graus de liberdade (GL) é medido pela fórmula: GL = n – 1, onde

n = número de parâmetros do fator de variação. O GL da Progênie será:
GLProgênie = 10 – 1 = 9.
6) Determine o total de parcelas e o grau de liberdade total.
O total de parcelas do experimento é de 40 (10 Progênies × 4 repetições cada). Assim,

o GL total será:
GLTotal = 40 – 1 = 39
7) Calcule o grau de liberdade do erro.
O GL do erro é calculado pela diferença entre o GLTotal e o GLProgênie que será:
GLErro = 39 – 9 = 30

8) Complete o quadro de análise de variância (ANAVA):
Fator de variação GL SQ QM Valor de F calculado Nível de significância

Progênie 9
Erro 30
ANAVA
Total 39 Você pode encontrar
como sinônimo de ANAVA,
SQ e QM significam, respectivamente, Soma de Quadrados e Quadrado Médio do Erro, que
o acrônimo ANOVA,
corresponde a variância.
originado do termo
em inglês “Analysis of
Variance” cuja tradução é
9) Determine a Soma de Quadrados Total, dos Tratamentos e do Erro Experimental. Para isso, Análise de Variância.
você deve calcular o Fator de Correção e, em seguida, a Soma de Quadrados Total, a dos
Tratamentos e a do Erro, nessa ordem.
Fórmula
a) Calcule o Fator de Correção (C ), que deve ser utilizado no cálculo da Soma de Quadrados
Total (SQT) e Soma de Quadrados dos Tratamentos (SQTrat) Os dados apresentados
2 no desenvolvimento
X (496,5)2
C= = = 6.162,80 correspondem a soma
n 40 de todos os valores
b) A Soma dos Quadrados Total (SQT ) corresponde à variância total do experimento, e é da Tabela 2 (Dados
médios do diâmetro
calculada utilizando-se a seguinte fórmula:
a altura do peito

SQT otal = X 2 − C = 6401,35 − 6162,41 = 238,54 , onde (DAP) de parcelas
de um experimento

x2 = 162 + 16,42 + . . . + 14,32 + 152 . . . + 9,22 = 6401,35 de competição de 10
progênies de eucalipto
(Eucalyptus saligna), em
E “C ” é o fator de correção já calculado anteriormente, 6162,80.
centímetros) elevados
c) A Soma dos Quadrados dos Tratamentos (SQTrat ) permite isolar e quantificar a variância ao quadrado.
relacionada aos tratamentos.

Xtrat2
SQT rat = −C
r
Onde:

 Xtrat2 é calculado pela soma de quadrados dos tratamentos, utilizando a seguinte
fórmula:

Xtrat2 = (58,20)2 + (57,2)2 + (56,9)2 + (56,5)2 + (52,0)2 + (49,7)2 + (48,2)2 +
+(46,7)2 + (36,0)2 + (35,1)2

Xtrat2 = 25295,17
 O valor de “r” é dado pelo número de repetições de cada tratamento. Para este exemplo,
o valor de “r” será 4, pois foram utilizadas quatro repetições por cada tratamento (Progênie).
 O “C ” é o Fator de Correção (6126,41), é o mesmo que já foi calculado anteriormente

para a SQTotal .
Daí:

Xtrat2 25295,17
SQT rat = −C = − 6162,41 = 6323,79 − 6162,41 = 160,98
r 4

d) Soma dos Quadrados do Erro (SQErro )
A Soma dos Quadrados do Erro (SQErro ) é calculada pela diferença entre a SQTotal e o
SQTrat. Assim teremos:
SQErro = SQTotal – SQTrat
Como o SQTotal = 238,54 e o SQTrat = 160,98; teremos:
SQErro = SQTotal – SQTrat
SQErro = 238,54 – 160,38
SQErro = 77,56
10) De posse dessas informações, podemos preencher outra coluna da tabela de ANAVA
deste experimento:

Progênie 9 160,98
Erro 30 77,56
Total 39 238,54
11) Determine os valores dos Quadrados Médios (QM).
O valor do Quadrado Médio é calculado dividindo-se a SQ pelo respectivo GL. Não se

calcula o valor de QMTotal, pois este não terá utilidade. Assim teremos:
Para a Progênie
160,98
QM P rogênie = = 17,89
9
77,56
QM Erro = = 2,59
30
12) Calcular o valor de F.
Este é obtido pela razão entre o QMProgênie e QMErro :
QM P rogênie 17,89
F Calculado = = = 6,91
QM Erro 2,59
13) Assim, a nossa tabela de ANAVA ficará da seguinte forma:

Progênie 9 160,98 17,89 6,91 1%
Erro 30 77,56 2,59 -------- --------
Total 39 238,54 -------- --------- ---------
Fonte: Pimentel-Gomes e Garcia (2002).
14) Como o valor de F calculado é maior que o tabelado a 1% ,que é 3,07, (anexo A) diz-se
que o resultado do experimento é significativo a 1% de probabilidade. Ou seja, existe 99%
de possibilidade de o que ocorreu no experimento ser verdade e acontecer na população.
15) Como o valor de F calculado é significativo, esse resultado indica que existe diferença
entre as médias avaliadas. Assim, com essa informação você pode rejeitar H0 e aceitar H1.

Bom, agora você já sabe que existe diferença entre pelo menos uma das médias dos
tratamentos. Entretanto, o teste F (Valor de F calculado) não indica qual dos 10 tratamentos
avaliados tem média diferente. Assim, você precisa calcular a diferença mínima significativa
utilizando o teste de Tukey, que já havia sido previamente escolhido.
Para isto, você deve:
1) Pegar os valores tabelados na tabela de amplitude estudentizada (anexo B) para o teste

de Tukey a 5% para 10 graus de liberdade da fonte testada (tratamento) e 30 graus de
liberdade do erro, que é 4,82.
O cálculo da diferença mínima significativa (DMS) é obtido da seguinte fórmula:

√ √
QM Erro 2,59
DM S = q(10 : 30) √ = 4,82 √ = 3,88 cm
r 4
2) Em seguida, você deve listar (organizar) os resultados (as médias) dos tratamentos, de
forma decrescente (da maior para a menor), como na tabela abaixo:
P1 14,55
P2 14,30
P3 14,23
P4 14,13
P5 13,00
P6 12,43
P7 12,05
P8 11,68
P9 9,00
P10 8,78
3) Após isso, calcule a diferença entre a maior média (14,55) e a DMS (3,88). O resultado
obtido foi 10,67. Assim, todas as médias contidas no intervalo entre 14,55 cm e 10,67 cm,
são iguais entre si e receberam a mesma letra.
4) Em seguida, repita a operação com a segunda média mais alta e realize o mesmo processo,
até que você não encontre mais diferença estatística significativa entre as médias.
Utilizando os resultados dessa ANAVA, você terá o seguinte resultado, da comparação

de médias:
P1 14,55ª
P2 14,30ª
P3 14,23ª
P4 14,13ª
P5 13,00ª
P6 12,43ªb
P7 12,05ªb
P8 11,68ªb
P9 9,00b
P10 8,78b

Assim, como letras iguais indicam que as médias não diferem entre si, você pode
identificar que as médias P1, P2, P3, P4 e P5 ( a ) são estatisticamente diferentes da P9 e P10 ( b ).
Vamos aplicar o conceito de análise de variância em experimentos inteiramente

casualizados?
Atividade 2
Planeje um experimento com delineamento inteiramente casualizado, para testar
1 o efeito de 5 fontes de adubação nitrogenada sobre a produção de milho, usando
4 repetições para cada tratamento.
Num experimento inteiramente casualizado com 5 tratamentos e 4 repetições,

2 estudou-se o efeito de 5 carrapaticidas (tratamentos) no controle de carrapatos em
bovinos. Analisando- se o número de carrapatos que cairam por animal, obtiveram-se
as seguintes somas de quadrados: S.Q. Tratamentos = 41,08 e S.Q. Total = 57,46.
De posse dessas informações, estabeleça as hipóteses estatísticas H0 e H1 e

monte o quadro de análise de variância desse experimento realizado inclusive o
valor calculado de F.

Os dados da Tabela 3 se referem a produções de matéria seca de cultivares de sorgo
3 em t/ha . Utilizando este conjunto de dados estabeleça as hipóteses estatísticas H0
e H1, monte o quadro de análise de variância desse experimento, calcule o valor de
F e diga se existe diferença estatística significativa entre os tratamentos.
Tabela 3 – Produções de matéria seca de cultivares de sorgo em t/ha
REPETIÇÕES
CULTIVAR
1 2 3 4 5 6
A 10,27 11,55 11,68 11,38 11,20 11,24
B 9,77 9,96 10,18 11,94 10,43 10,49
C 9,86 9,59 9,99 10,43 9,85 10,03
D 21,22 20,62 22,33 19,89 21 20,78
E 20,20 20,55 22,12 20,78 20,90 20,92
E os experimentos
em blocos completos
inteiramente casualizados?
Antes de definir esse tipo de delineamento experimental, vamos refletir sobre o efeito de
fatores de variação parcialmente controlados. Por exemplo:
1) Suponha que você quer montar um experimento no campo e observa que existe um
desnível na área, que pode favorecer o acúmulo de água e afetar (beneficiar ou prejudicar)
os tratamentos que forem colocados lá.
2) Você planeja fazer um experimento no laboratório, e observa que existe uma parte do
laboratório que recebe insolação direta, através de uma janela. E, isso também pode
interferir no seu tratamento experimental.

E agora, o que fazer? Bom, você pode conseguir outras áreas que permitam instalar todo
o experimento num delineamento inteiramente casualizado (Figura 1).
Outra alternativa indicada para essa situação é organizar todos os tratamentos impostos
de modo que eles recebam o efeito desses fatores de variação parcialmente controlados
(aqui citados o desnível do terreno e a insolação) de forma uniforme para todos (Figura 2).
Assim, você não estaria beneficiando ou prejudicando nenhum e controlando parcialmente
esses fatores de variação.
É a esse tipo de delineamento que denominamos blocos completos inteiramente

casualizados. Nesse caso, cada bloco deverá conter uma repetição de cada um dos tratamentos
experimentais, distribuídos aleatoriamente.
Desse modo, os blocos podem ser convencionados como um fator de variação que ocorre
em uma só direção e é perpendicular à disposição dos tratamentos.
Figura 1 – Delineamento inteiramente casualizado
FONTE DE VARIAÇÃO NÃO INTENCIONAL
Figura 2 – Delineamento em blocos completos inteiramente casualizados

Nesse tipo de delineamento experimental, uma parte da Soma de Quadrados do Erro
Experimental é transferida para testar o efeito dos blocos sobre as médias. Por outro lado,
possibilita a uniformização da aplicação dos tratamentos.
Um exemplo prático desse tipo de situação é dado ao se tentar implantar um experimento

numa área que tem uma determinada declividade que favorece o acúmulo de água. Isso pode
beneficiar ou prejudicar a produção ou os tratamentos experimentais que se localizem nessa área.
Para este exemplo, vamos utilizar o mesmo experimento da avaliação de progênies de
eucalipto utilizada para o exemplo de delineamento inteiramente casualizado, com uma pequena
alteração: todas as linhas constituirão blocos. Assim, o nosso conjunto de dados ficaria da
seguinte forma:
Progênies P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Total

Bloco 1 16,0 14,3 14,7 13,6 11,6 11,0 13,1 10,3 8,5 8,2 121,3
Bloco 2 16,4 14,5 15,6 13,1 10,5 15,0 10,3 13,2 8,6 8,4 125,6
Bloco 3 14,1 13,8 11,6 14,7 15,9 10,7 14,3 10,2 9,5 9,3 124,1
Bloco 4 11,7 14,6 15,0 15,1 14,0 13,0 10,5 13,0 9,4 9,2 125,5
Total 58,2 57,2 56,9 56,5 52,0 49,7 48,2 46,7 36,0 35,1 496,5
Assim, o quadro da análise de variância (ANAVA) será:

Progênie 9
Bloco 3
Erro 27 27
Total 39
Observe que o valor
dos Graus de Liberdade
SQ e QM significam, respectivamente, Soma de Quadrados e Quadrado Médio do Erro, que corresponde
do Erro no quadro da
à variância.
ANAVA 27 da análise
em blocos completos é
menor que no inteiramente
casualizado (30). Essa
diferença, corresponde
Solução justamente ao número de
blocos (4) menos 1.
1) Inicialmente, deve-se calcular o Fator de Correção (C ) do experimento,

utilizando a seguinte fórmula:

X2 (496,5)2
C= = = 6.162,80
n 40
2) A Soma de Quadrados do Experimento (SQ Total) é calculada da mesma

forma que para delineamentos inteiramente casualizados:

SQT otal = X 2 − C = 6401,35 − 6162,41 = 238,54 , onde

x2 = 162 + 16,42 + . . . + 14,32 + 152 . . . + 9,22 = 6401,35
E “C” é o fator de correção já calculado anteriormente, 6162,80.
3) A Soma de Quadrados da Progênie (SQTrat) também é calculada de forma

semelhante ao delineamento interiamente casualizado. Assim teremos:

Xtrat2
SQT rat = −C
r
onde:

Xtrat2 = (58,20)2 + (57,2)2 + (56,9)2 + (56,5)2 + (52,0)2 + (49,7)2 + (48,2)2 +
+(46,7)2 + (36,0)2 + (35,1)2

Xtrat2 = 25295,17
“C ” é o Fator de Correção anteriormente calculado (6162,41).
Assim, o SQTrat será:

Xtrat2 25295,17
SQT rat = −C = − 6162,41 = 6323,79 − 6162,41 = 160,98
r 4
4) A Soma de Quadrados dos Blocos (SQBloco) permite quantificar a variância

dos blocos, e é calculada da seguinte forma:

XBloco2
SQBloco = −C
k
Onde,

XBloco2 é o somatório ao quadrado dos valores de cada bloco
“k” é o número de blocos
C é o Fator de Correção, já calculado.
Assim, teremos o seguinte cálculo:

XBloco2 61640,11
SQBloco = −C = − 6162,41 = 6164,11 − 6162,41 = 1,61
k 10
5) A Soma de Quadrados do Erro (SQErro ) é calculada pela diferença:
SQErro = SQTotal – SQBloco – SQTrat
SQErro = 238,54 – 1,60 – 160,38 = 76,56
Observe que o conjunto de dados foi o mesmo do Exercício Resolvido 1, entretanto

o valor da SQErro foi menor. Isso se deve ao fato de que parte do erro experimental

foi transferida para os blocos, a fim de quantificar o efeito dessa fonte de variação
sobre o experimento.
6) Agora, de posse dessas informações, podemos preencher outra coluna da

tabela de ANAVA desse experimento:

Progênie 9 160,98
Bloco 3 1,61
Erro 27 76,56
Total 39 238,54
7) Em seguida, devemos calcular os valores dos Quadrados Médios:
O valor do Quadrado Médio é calculado dividindo-se o SQ pelo respectivo GL.
Não se calcula o valor do QMTotal, pois este não terá mais utilidade para a
análise do experimento. Assim teremos para:
160,98
QM P rogênie = = 17,89
9
1,61
QM Bloco = = 0,53
3
76,56
QM Erro = = 2,84
27
8) Calcular o valor de F calculado pela razão entre o QMProgênie e QMErro :
QM P rogênie 17,89
F Calculado = = = 6,28
QM Erro 2,84
9) Assim, a nossa tabela de ANAVA ficará da seguinte forma:

Progênie 9 160,98 17,89 6,28 1%
Bloco 3 1,61 0,54 -------- --------
Erro 27 76,56 2,59 ---------- ----------
Total 39 238,54 ---------- ---------- ----------
10) Como o valor de F calculado também é maior que o tabelado a 1%

(que é 3,07) diz-se que o resultado do experimento é significativo a 1% de
probabilidade. Todavia, observe que houve redução no valor de F calculado.
11) No mais, os resultados continuam iguais aos do experimento anterior e você

obtém a mesma resposta: as médias P1, P2, P3, P4 e P5 são estatisticamente
diferentes da P9 e P10.

Outros tipos de delineamento
experimental e arranjo estatístico
Além do delineamento inteiramente casualizado e em blocos completos, existe também
o delineamento em quadrado latino.
Nesse caso, os fatores de variação atuam no experimento em dois sentidos (perpendicular

e paralelo) em relação à área experimental. Para trabalhar com esse tipo de delineamento
experimental e os arranjos estatísticos em fatorial e parcela subdividida, recomenda-se consulta
a um estatístico para definir a melhor forma de análise e o número mínimo de repetições de
cada tratamento.
Vamos agora aplicar o conceito de análise de variância e resolver alguns exercícios

realizando a Atividade 3?
Atividade 3
Quais são as características de um delineamento em blocos casualizados? E quais
1 as vantagens e desvantagens em sua aplicação?

Planeje um experimento para comparar três fórmulas de adubação no crescimento
2 de Pinus, supondo que você dispõe de um terreno heterogêneo que deve ser dividido
em cinco blocos. Faça o croqui da área.
Em um experimento planejado para verificar o efeito de alguns porta-enxertos para

3 citros no desenvolvimento da laranjeira pera, Mourão Filho ensaiou várias medidas,
como a altura das árvores, volume da copa, diâmetro do tronco, produção de frutos
etc. Foram utilizados 5 porta-enxertos, divididos em quatro blocos, pois o ambiente
utilizado para o experimento apresentava pequenas variações de insolação. Os porta-
enxertos utilizados foram:
T1 = limoeiro cravo T4 = laranjeira caipira
T2 = laranjeira trifoliata T5 = tangerineira cleópatra
T3 = limoeiro volkamericano
A variável que estudaremos será o número médio de frutos por pé nas parcelas. Os dados
se encontram na tabela a seguir.
Tabela 4 – Número médio de frutos de laranjeira pera enxertada sobre 5 porta-enxertos
Repetições
Cultivar
B1 B2 B3 B4
T1 143,25 224,25 211,50 231,50
T2 106,25 185,00 161,25 157,25
T3 110,75 85,00 109,50 94,50
T4 318,75 297,50 289,50 376,25
T5 274,25 281,00 297,75 305,75

Com base nessas informações:
a) Identifique os itens a seguir: o fator; níveis; variável resposta; unidade de análise; número
de repetições; número de ensaios.
b) Quais as hipóteses a serem testadas sobre o experimento. Faça a tabela de análise de

variância e interprete.

c) Aplique o teste de comparação de Tukey ao nível de 5% de significância para as médias
dos tratamentos do experimento do exercício anterior, e interprete os resultados.
Resumo
Nesta aula, você aprendeu o conceito de análise de variância e viu também como
ela é fundamental para que se possa fazer a comparação de médias. Você viu o
conceito de fatores de variação, de variância, erros aleatórios e graus de liberdade,
conceitos essenciais para realizar a análise das médias ou resultados obtidos nos
experimentos. Em seguida, você aprendeu como aplicar os testes estatísticos e
foi capaz de fazer uma avaliação de experimentos inteiramente casualizados e
em blocos completos inteiramente casualizados em experimentos de Biologia.

Autoavaliação
Um estudo sobre adubação nitrogenada na cultura do arroz irrigado testou
quatro formas de aplicação desse macronutriente: A1 = 80 kg/ha no plantio;
A2 = 40 kg/ha no plantio e 40 kg/ha 40 dias após a emergência (DAE);
A3 = 13,2 kg/ha no plantio e 66,8 kg/ha aos 40 DAE; e A4 = 13,2 kg/ha no
plantio e 33,4 kg/ha aos 40 e aos 60 DAE. O experimento tinha oito repetições,
e os dados de produção de grãos em kg/ha estão na tabela a seguir.
Tabela 5 – Dados de produção de arroz irrigado, em kg/ha, no delineamento inteiramente casualizado, com quatro
tratamentos e oito repetições
Repetições
Tratamentos
1 2 3 4 5 6 7 8
A1 6.276 6.035 6.086 5.594 6.321 6.746 5.751 6.191
A2 7.199 6.890 6.586 7.149 6.657 6.210 6.128 6.393
A3 6.457 6.174 6.612 6.087 5.797 5.865 6.498 6.486
A4 7.202 7.173 7.169 6.590 6.444 6.740 6.370 7.270
Utilizando os dados da tabela acima, faça uma análise estatística completa (estatística
descritiva, teste de normalidade, ANAVA e teste de comparação de médias) e estabeleça
conclusões ao nível de 5% de significância.

Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Ed.
Artmed, 2003.
PIMENTEL-GOMES, F.; GARCIA, C. H. Estatística aplicada a experimentos agronômicos e

florestais: exposição com exemplos e orientações para uso de aplicativos. Biblioteca de ciências
agrárias Luiz de Queiroz. Piracicaba: FEALQ, 2002. v 1.

VIEIRA, Sonia. Introdução à Bioestatística. Rio de Janeiro: Ed. Campus, 1980.
Anotações

Anotações

ANEXO A –
Valores de amplitude
total estudentizada (q) para uso no
teste de Tukey a nível de 1% de probabilidade
Fonte: Pimentel-Gomes e Garcia (2002, p. 293).

ANEXO B –
Valores de amplitude total

estudentizada (q) para uso no teste
de Tukey a nível de 5% de probabilidade
Fonte: Pimentel-Gomes e Garcia (2002, p. 291).

Anotações

Anotações

Correlacionando informações
Aula
7
Apresentação
Avaliar se existe associação entre duas características quantitativas é o objetivo de
vários estudos em Biologia, e para isto, são realizadas análises de correlação. Nesta aula,
iremos compreender a importância, a definição e quais os tipos de correlação existentes
entre duas variáveis.
Veremos também os métodos utilizados para avaliar a existência de correlação entre

variáveis: o diagrama de dispersão e o coeficiente de correlação. Aprenderemos como construir
um diagrama de dispersão e como calcular o coeficiente de correlação. Na aula, também existem
exercícios resolvidos e não resolvidos, para que você teste os conhecimentos adquiridos.
Boa aula!
Objetivos
Definir o conceito de correlação entre variáveis.
1
Distinguir os métodos utilizados para avaliar a existência
2 de correlação entre duas variáveis.
Construir um diagrama de dispersão e calcular o

3 coeficiente de correlação entre as variáveis.

Relacionando duas
características
Relacionar No nosso dia a dia, quer no trabalho, na escola ou em casa, temos o costume de relacionar
Fazer relação. Estabelecer alguns fatos que presenciamos. Por exemplo: Será que há relação entre o número de horas
vínculo entre coisas que me dedico aos estudos e minha nota final? Será que há relação entre o ato de beber água
diferentes.
depois das refeições e o aumento de peso?
Fonte: <http://escolaprof.files.wordpress.com/2009/03/computador.jpg>.
Todos estes questionamentos se referem ao querer saber se há relação entre uma variável,
que podemos chamá-la de x (por exemplo, número de horas na frente do computador) e outra
variável que podemos chamá-la de y (por exemplo, dor de cabeça).
Em sistemas biológicos não é diferente

Em estudos de sistemas biológicos, é comum vermos os pesquisados avaliando a
existência de relação entre duas variáveis de interesse.
Por exemplo: Um biólogo pode estar interessado em saber se há relação entre a quantidade
de chumbo medida na água e o volume de dejetos (ou de esgoto) despejados em um rio.
Quando se pode demonstrar que existe relação ou associação entre duas variáveis
quantitativas, isto é, quando se constata que elas variam juntas, diz-se que as variáveis
estão correlacionadas.
Assim, podemos definir correlação como o estudo do comportamento conjunto

de duas variáveis.

Atividade 1
Mesmo sem dispor de dados, que tipo de relação você acha que existe entre as
situações abaixo:
1) Intensidade luminosa de uma planta e seu desenvolvimento.
2) Qualidade da alimentação e o nível de colesterol no sangue.
3) Quantidade de água parada e o desenvolvimento das larvas do mosquito da dengue.
4) Reclamação de clientes e a qualidade do produto.
5) Popularidade de um governo e indicadores econômicos.

Como avaliamos a correlação
entre duas variáveis?
Para avaliar a correlação entre duas variáveis, inicialmente apresentamos os dados em
forma de um gráfico de pontos, denominado diagrama de pontos ou diagrama de dispersão.
Este diagrama permite visualizar a relação entre as duas variáveis.
Mas como podemos construir esse diagrama?
A resposta é simples: Vamos tomar como exemplo as informações sobre a altura dos
alunos do segundo semestre do curso de Ciências Biológicas que utilizamos na Aula 1 (O que é
Bioestatística) e acrescentar mais uma variável a ser medida: o peso destes alunos.
Assim, para construir um diagrama de dispersão você deve:
1) Coletar os dados das variáveis x e y que pretende correlacionar. No nosso exemplo, podemos
chamar de variável x a altura dos alunos e de variável y, o peso dos mesmos, conforme
podemos visualizar na tabela abaixo.
Tabela 1– Altura (m) e peso (Kg) dos alunos do segundo semestre do Curso de Ciências Biológicas
Altura dos alunos do segundo semestre Peso dos alunos do segundo semestre
1,67 56,0
1,87 89,2
1,88 90,6
1,89 93,6
1,78 60,5
1,89 91,4
1,9 95,8
1,76 62,4
1,94 95,0
1,95 99,0
2) Em seguida, você deve traçar um sistema de eixos cartesianos, representando uma variável
em cada eixo, ou seja, a variável que chamamos de x, a altura dos alunos, deve ser colocada
no eixo X e a variável que chamamos de y, o peso dos alunos, deve ser colocada no eixo
Y. Caso você não se lembre como se constrói um gráfico com eixo X e Y, volte às Aulas 5
(Dados quantitativos: como organizá-los?) e 6 (Distribuição de freqüências: apresentação
gráfica) da disciplina de Matemática e Realidade.
3) O próximo passo é marcar pontos nesse gráfico, de modo que, para cada valor de x,
você tenha um valor de y correspondente. Por exemplo: se pela nossa tabela x for 1,67m,
y será 56kg. Isso deve ser feito para todos os dados disponíveis na tabela.
4) Note que, ao ir acrescentando os dados de x e y, teremos pontos específicos no gráfico

representando estes pares de dados (altura e peso).
5) Na sequência, escreva os nomes das variáveis nos respectivos eixos, bem como o título
do diagrama. E está pronto o nosso diagrama de dispersão.

Altura (m) e peso (Kg) dos alunos do
segundo semestre de Biologia
120
100
80
Peso (Kg)
60
40
20
0
1,6 1,7 1,8 1,9 2
Altura(m)
Figura 1– Altura (m) e peso (Kg) dos alunos do segundo semestre do Curso de Ciências Biológicas
Entretanto, você deve notar que, o diagrama acima representado foi feito em computador,
utilizando a planilha eletrônica no Excel. Para você fazer esse mesmo diagrama utilizando papel
milimetrado, você deve seguir os passos representados no esquema a seguir (Figura 2).
Coletar os dados das variáveis

que deseja estudar
Traçar um gráfico com eixos cartesianos

(X e Y), representando uma variável em cada eixo
Escrever os nomes das variáveis nos

seus respectivos eixos
Fazer um ponto que represente cada

par de valores X e Y
Escrever o título e se for o caso,

complementar com uma legenda
Figura 2 – Sequência de procedimentos para a construção de um diagrama de dispersão em papel milimetrado
Importante
Para desenhar o diagrama de dispersão, escolha as escalas de tal maneira que a
figura pareça quadrada. Este cuidado ajuda a obter melhor visão da associação
entre as variáveis.

Atividade 2
Utilizando os dados da Tabela 2, faça um diagrama de dispersão no papel milimetrado a
seguir e repita o mesmo exercício fazendo-o em planilha eletrônica do Excel ou Calc.
Tabela 2 – Quantidade de lixo (m3) produzida de acordo com o número de dormitórios das residências
Número de dormitórios Volume de lixo

1 1
2 3
3 6
4 8
Papel milimetrado para a construção do diagrama de dispersão:
Mas como interpretar o diagrama de dispersão?

Para isso, você deve observar a direção dos pontos.
Note que, no nosso exemplo, à medida que aumenta a altura dos alunos, aumenta também
o peso dos mesmos. Nesse caso, podemos afirmar que as variáveis altura e peso estão
correlacionadas e, à medida que uma aumenta, a outra aumenta também. Assim, podemos
dizer que estas variáveis apresentam correlação positiva.

Se tivéssemos um comportamento diferente, ou seja, à medida que aumenta a altura dos
alunos, diminui o peso, mesmo assim teríamos uma correlação entre as variáveis, porém esta
seria uma correlação negativa.
Se não houvesse nenhuma relação entre a altura dos alunos e o peso, não teríamos
correlação entre as variáveis, ou seja, sem correlação.
Quando além de observarmos a direção dos pontos, também observamos sua dispersão,
podemos ter mais dois outros subtipos de correlações positivas e negativas:
 Correlação forte: Quando há menor dispersão dos pontos.

 Correlação fraca: Quando há maior dispersão dos pontos.
 Correlação perfeita: Quando não há dispersão dos pontos (formam uma linha).
Estes tipos de comportamentos entre as variáveis quando analisadas do ponto de vista
da direção e dispersão dos pontos podem ser ilustrados pelas figuras abaixo:
Diagramas de dispersão que mostram correlação positiva entre as variáveis
Correlação fraca Correlação forte Correlação perfeita
Diagramas de dispersão que mostram correlação negativa entre as variáveis
Correlação fraca Correlação forte Correlação perfeita
Diagrama de dispersão que mostra correlação nula entre as variáveis
Figura 3 – Diagramas de dispersão

Fonte: <www.lugli.org/2008/02/diagrama-de-dispersao/>. Acesso em: 31 mar. 2010.

Atividade 3
De acordo com as figuras abaixo, classifique as correlações em positivas e negativas e
em fortes, fracas e perfeitas.
1) Relação entre o consumo médio de vegetais e a taxa de mortalidade para o sexo feminino.
26
24
o sexo Feminino (100000 pessoas ano)
Média da taxa de mortalidade para
22
20
18
16
14
12
10
8
0 100 200 300 400
Consumo médio de Vegetais (gr/pessoas/dia)
Fonte: <stat2.med.up.pt/cursop/glossario/rregressao.html>.
2) Relação entre peso inicial das vacas com os dias de sobrevida quando submetidas a jejum.
60
50
Dias de Sobrevivência
40
30
20
10
0
0 100 200 300
Peso Inicial da Fêmea (mg)
Fonte: <http://www.scielo.br/img/revistas/rsp/v9n3/09f2.gif>.

3) Média do número de sementes e a quantidade de sólidos solúveis totais de carambolas.
N. de Sementes vs. SST

7,0 C1
C1A
6,6 C1B
C1C
6,2
C1D
C2
C2A
SST
5,8
C2B
C2C
5,4
C2D
C3
5,0 C3A
C3B
4,6 C3C
5 6 7 8 9 10 11 12 13 14 C3D
Sementes
Fonte: <http://www.scielo.br/img/fbpe/sa/v58n1/a15fig02.gif>.
Há outra maneira de avaliar a

correlação entre duas variáveis?
Sim. Além do diagrama de dispersão, há outro método para avaliar a correlação entre
duas variáveis, e este é feito através do cálculo do Coeficiente de Correlação.
O coeficiente de correlação é uma medida do grau de associação entre duas variáveis
e sua fórmula de cálculo foi proposta por Karl Pearson em 1896. Por este motivo, ele
também é conhecido como Coeficiente de Correlação de Pearson (r) e pode ser obtido
através da fórmula:

x− y
xy −
r = n

2
2
x y
x2 − · y2 −
n n
Onde:
∑xy = Somatório dos valores de x vezes os valores de y;
∑x = Somatório dos valores de x;
∑y = Somatório dos valores de y;
∑x2 = Somatório de x ao quadrado;
(∑x)2 = Somatório de x vezes somatório de x;
∑x 2 = Somatório de y ao quadrado;
∑y 2 = Somatório de y vezes somatório de y;
n = números de amostras.

Importante
O valor de r varia entre –1 e +1:
Se r = 1, diz-se que as duas variáveis têm correlação perfeita positiva.

Se r = –1, diz-se que as duas variáveis têm correlação perfeita negativa.
Se r = 0, diz-se que não existe correlação entre as variáveis, ou seja, correlação nula.
Para entender como se aplica a fórmula para calcular o valor de r, observe o Exercício
Resolvido 1.
Exercício Resolvido 1
A Tabela 3 ilustra a taxa de mortalidade infantil e a taxa de analfabetismo no Brasil,
de acordo com cada região brasileira. Utilizando a fórmula acima, calcule o coeficiente de
correlação r e interprete a correlação entre as variáveis.
Tabela 3 – Taxa de mortalidade infantil e taxa de analfabetismo no Brasil, segundo cada região
Região Taxa de mortalidade Taxa de analfabetismo

Norte 35,6 12,7
Nordeste 59 29,4
Sudeste 25,2 8,6
Sul 22,5 8,3
Centro-Oeste 25,4 12,4
Resolução
1) O primeiro passo é determinar qual variável representará a letra x e qual representará a letra y.
Nesse caso, vamos escolher x para a taxa de mortalidade e y para a taxa de analfabetismo.
2) Em seguida, devemos calcular os valores de x2, y2, xy, (∑x)2 e (∑y)2, pedidos na fórmula.
Assim temos:
x2 y2 xy
X (mortalidade) Y (analfabetismo) (mortalidade (analfabetismo ao (mortalidade vezes
ao quadrado) quadrado) analfabetismo)
35,6 12,7 1267,36 161,29 452,12
59 29,4 3481 864,36 1734,6
25,2 8,6 635,04 73,96 216,72
22,5 8,3 506,25 68,89 186,75
25,4 12,4 645,16 153,76 314,96
∑ 167,7 71,4 6534,81 1322,26 2905,15
(∑x)2 = 28123,29 (∑y)2 = 5097,96

3) Depois de calculado os somatórios de x, y, x2, y2, xy,(∑x)2 e (∑y)2 (em destaque na tabela
acima), é só colocar os valores na fórmula:
167, 7 · 71, 4
2905, 15 −
r = 5

28123, 29 5097, 96
6534, 81 − · 1322, 26 −
5 5
r = 0,9724
4) Para interpretarmos esse valor, devemos ter em mente que o valor de r varia entre –1 e +1.
Se obtiver valores fora deste intervalo, pode ter certeza que você errou nos cálculos.
No caso do exercício acima, o valor de r, positivo e muito próximo de 1. Então, existe forte
correlação positiva entre as variáveis. Isto significa que ocorrem mais mortes de menores de
um ano nas regiões em que existe maior número de analfabetos.
Atividade 4
Calcule o coeficiente de correlação utilizando a fórmula de Pearson para os dados
(hipotéticos) de um laboratório de hematologia apresentados na Tabela 4 e interprete a
correlação entre as variáveis leucócitos e eritrócitos:
Tabela 4 – Resultados de exames hematológicos para leucócitos e eritrócitos
Leucócitos (mm3) Eritrócitos (mm 3)

6.8 4.50
9.7 5.20
4.3 4.55
7.9 4.65
7.4 4.40
7.6 4.40
2.8 4.30
7.8 4.60
5.5 4.90
4.6 4.10
8.0 5.00
7.0 5.17
7.1 4.20
5.9 4.40
12.3 4.24

Resumo
Nesta aula, você aprendeu que duas variáveis podem ou não estar relacionadas
ou associadas. Este é o conceito de correlação, ou seja, o estudo do
comportamento conjunto entre duas variáveis. Estudou que as variáveis podem
se comportar de várias maneiras, ou seja, apresentam diferentes tipos de
correlação: correlação positiva, quando apresentam comportamento na mesma
direção; correlação negativa, quando apresentam comportamento em direções
opostas; e aquelas que não apresentam correlação. Você estudou também que
as correlações podem ser fortes e fracas, de acordo com a dispersão de seus
pontos. Você viu que a correlação pode ser obtida de duas maneiras: uma
através da construção do diagrama de dispersão ou diagrama de pontos e a
outra através do cálculo do coeficiente de correlação. Aprendeu como construir
um diagrama de dispersão em planilha eletrônica e em papel milimetrado e
como calcular o coeficiente de correlação, usando a fórmula desenvolvida por
Pearson. Por fim, você calculou o coeficiente de correlação e interpretou a
correlação existente entre as variáveis analisadas.
Autoavaliação
Teste os conhecimentos adquiridos na aula de hoje, conceituando os seguintes termos:
1
a) Correlação:
b) Tipos de correlação de acordo com a direção:

c) Tipos de correlação de acordo com a dispersão dos pontos:
d) Diagrama de dispersão :
e) Coeficiente de correlação e os valores de r:
Faça uma pesquisa com 15 pessoas, podendo ser seus familiares, vizinhos e amigos
2 e preencha a tabela abaixo:
Número de filhos Renda mensal (número de salários mínimos)
2 filhos 3 salários mínimos
Em seguida, usando os dados acima, calcule o coeficiente de correlação, usando a fórmula

de Pearson e interprete os resultados.

Referências
Artmed, 2003.
CORRELAÇÃO e regressão: [disciplina de métodos quantitativos em medicina]. Disponível em:

<http://www.dim.fm.usp.br/regressao/index.php>. Acesso em: 12 mar. 2010.

VIEIRA, Sonia. Princípios de estatística. São Paulo: Ed. Pioneira, 1999.
Anotações

Anotações

Anotações

Análise de regressão
Aula
8
Apresentação
V
ocê estudou na Aula 7 - Correlacionando informações, que empregamos a análise de
correlação para avaliar o comportamento conjunto de duas variáveis quantitativas.
Todavia, nem sempre esse é o objeto de estudo. Isso se dá especialmente nos casos
em que se precisa/deseja avaliar o comportamento de uma variável (dependente) em função
de outra (independente) e expressar matematicamente essa relação de causa e efeito. Nesse
caso, recomenda-se utilizar uma análise de regressão para se avaliar os dados. E é esse tipo
de análise que iremos estudar nesta aula.
Nesta aula, você verá o conceito de regressão, bem como os tipos de regressão existentes.
Vai conceituar variáveis dependentes e independentes e conhecer e calcular o coeficiente linear
e coeficiente angular da reta. Além disso, estudará a equação da reta que representa a regressão
linear e fará exercícios que englobam todos os conceitos trabalhados.
Objetivos
Definir o conceito de regressão.
1
Definir o conceito de variável dependente e independente.
2
Identificar as variáveis dependentes e independentes em
3 uma situação problema.
Diferenciar os tipos de regressão.

4
Definir o conceito de regressão linear.
5
Aplicar os procedimentos de uma análise de regressão
6 linear simples.

Uma questão de variação
No nosso cotidiano, estamos em contato com situações ou fatos que dependem
exatamente uns dos outros.
Pense em um supermercado que vai aumentar o seu gasto com propaganda por que
dizem que “quem não anuncia se esconde”.
Vamos então pensar no aumento do volume de vendas como função do aumento dos
gastos com propaganda. Você acha que existe uma relação exata entre essas variáveis, isto é,
para cada real a mais gasto com propaganda haverá um aumento fixo no volume de vendas?
Não é bem assim.
Há uma série de fatores que podem influenciar essa relação, tais como o aumento das
vendas em certas épocas do ano, o fato do volume de vendas também depender dos preços e
do aumento de salário; depender da concorrência e outros tantos motivos, e é claro, também da
propaganda. Mesmo que conhecêssemos todas as causas que explicam o volume de vendas em
um supermercado, ainda assim não saberíamos prever exatamente o volume dessas vendas.
Nesse caso, queremos estabelecer uma relação de causa e efeito entre o aumento do
volume de vendas e o aumento dos gastos com propaganda, ou seja, ver o quanto o aumento
do volume das vendas varia em função do aumento dos gastos com propaganda, e ainda
expressar matematicamente essa relação. E isso é feito através da análise de regressão.
Mas o que é regressão?

Algumas vezes estamos interessados em saber não apenas se existe associação entre
duas variáveis quantitativas x e y, como é o caso da correlação (Aula 7 - Correlacionando
informações), mas temos também uma hipótese a respeito de uma provável relação de causa
e efeito entre variáveis, ou como uma variável varia em função da outra.
Desse modo, a análise de regressão refere-se ao estabelecimento dessa relação causa-efeito

entre duas variáveis quantitativas e pode ser expressa matematicamente.
Assim, usa-se a análise de regressão com duas finalidades:
1) Previsão: Para prever o valor de uma variável chamada de x a partir do valor de outra
variável chamada de y.
2) Estimativa: Estima o quanto x influencia ou modifica y.

Na Biologia, esse tipo de análise, ou seja, análise de regressão ou análise de relação de
causa e efeito entre variáveis é muito utilizada em experimentos cujo objetivo é determinar
como uma variável varia em função da outra.
Vamos ver alguns exemplos?
Se o pesquisador deseja saber se a quantidade de um determinado anestésico varia em

função do tempo após a sua administração; se um biólogo quiser saber se o nível de fósforo no
solo varia em função da sua adubação; se um nutricionista quiser saber se o nível de vitamina
no sangue varia em função da ingestão de frutas, todos deverão fazer uma análise de regressão,
já que ela tem o poder de avaliar como uma variável varia em função da outra.
Regressão: Estudo de quanto uma variável varia em função da outra,

exprimindo uma relação de causa e efeito.
Atividade 1
Agora que você já conheceu o conceito de regressão, faça uma
1 comparação entre correlação e regressão.
Indique duas situações em que um biólogo utilizaria uma análise de

2 correlação e uma análise de regressão.

Conhecendo melhor
as variáveis x e y analisadas
As variáveis x e y a serem submetidas à análise de regressão recebem denominações
específicas, dependendo de que tipo de relação queremos analisar.
Se desejamos saber se y depende de x, nesse caso, y é chamada de variável dependente

ou variável resposta e x é chamada de variável independente ou variável explanatória.
Caso contrário, se desejamos saber se x depende de y, nesse caso, x é chamada de

variável dependente ou variável resposta e y é chamada de variável independente ou
variável explanatória.
Por convenção, vamos estabelecer que y será sempre a nossa variável dependente e x
a variável independente.
Atividade 2
Identifique as variáveis dependentes (y) e independentes (x) nos exemplos
abaixo:
a) Peso médio dos alunos do curso de Biologia em função da altura.
b) Funcionamento dos rins em função da quantidade de água ingerida durante o dia.
c) Número de batimentos cardíacos em função da intensidade da atividade física.

Mas há somente
um tipo de regressão?
A forma de regressão mais comumente utilizada é a regressão linear, que se caracteriza
pela hipótese de que o valor de y depende do valor de x , e expressamos matematicamente
essa relação por meio de uma equação, assumindo que a associação entre x e y é linear, ou
seja, descrita adequadamente por uma reta.
Mas, como curiosidade, tem-se ainda a regressão por potência, regressão logarítmica
e regressão exponencial, que são chamadas de regressão não linear.
A regressão linear pode ser:
 Simples: Quando temos uma variável dependente y e uma variável independente x.
 Múltipla: Quando temos uma variável dependente y e mais de uma variável independente,
x1, x2, x3... e assim por diante.
A regressão linear simples

Como vimos no parágrafo acima, a regressão linear simples se caracteriza pela dependência
do valor de y em relação ao valor de x. Essa dependência é expressa matematicamente por meio
de uma equação descrita adequadamente por uma reta, chamada de reta de regressão linear.
Essa é a reta que relaciona as variáveis x e y e é representada pela equação abaixo:
y = α + βx
Onde:
y = variável dependente
α = coeficiente linear (valor de y quando x = 0)
β = coeficiente angular (inclinação da reta; aumento ou diminuição em y para cada aumento

de uma unidade em x)
x = variável independente

Atividade 3
Nas equações abaixo, identifique o coeficiente linear e o coeficiente angular da reta:

1
a) y = 3,54 + 1,5 x
b) y = – 0,87x + 3,87
c) y = 1,67 + 5,81 x
Agora, monte as equações da reta com os seguintes valores de coeficientes:

2
a) Coeficiente linear = 1,54 Coeficiente angular: 0,87

b) Coeficiente linear = – 4,76 Coeficiente angular: 1,23
c) Coeficiente linear = – 3,76 Coeficiente angular: – 1,98
A reta de regressão
A seguir, temos um exemplo de reta de regressão que representa a quantidade de
anestésico hidrolisado no plasma de um paciente em função do tempo decorrido após a sua
administração (Figura 1).
35
Quantidade de anestésico
30
25
hidrolisado
20
y = -0.98 + 2,16 x
15
10
0
0 5 10 15 20
Tempo
Figura 1 – Quantidade de anestésico hidrolisado no plasma humano (μL) em função do tempo (minutos) decorrido
após sua administração

Analisando a figura anterior, você pode verificar que os pontos estão praticamente sobre
uma reta, a reta de regressão, e pode concluir que a quantidade de anestésico hidrolisado no
plasma varia em função do tempo decorrido de sua administração. E ainda que essa reta pode
ser representada pela equação:
y = – 0,98 + 2,16 x
Mas o que isso significa?

Na equação anterior, que representa a reta de regressão linear da quantidade de anestésico
hidrolisado no plasma em função do tempo decorrido de sua administração, temos como
coeficiente linear o valor de – 0,98 e como coeficiente angular o valor de 2,16.
O coeficiente linear fornece a altura onde a reta corta os eixos das ordenadas (eixo X),
ou seja, o valor de y onde o x é igual a zero.
O coeficiente angular fornece o ângulo formado pela reta em relação ao eixo x. Assim,
um coeficiente angular positivo, indica que a reta será direcionada pra cima e para a direita, à
medida que o valor de x aumenta. O contrário se dá no caso de uma equação com coeficiente
angular negativo. Nesse caso, à medida que o valor de x aumenta, a reta tende a crescer para
a direita e para baixo.
Entendeu o conceito? Vamos realizar a atividade abaixo, para fixar esses conceitos.
Atividade 4
Utilize as equações abaixo e construa um gráfico para cada uma substituindo o

valor de x , por um número positivo (maior que zero) a sua escolha, totalizando
5 substituições.
a) y = 3 + 1,5x
b) y = 3 – 1,5 x
c) y = 5 + 7x
d) y = 5 – 7x

Montando uma equação de regressão
Bom, agora que já sabemos o que são o coeficiente linear e o coeficiente angular da
regressão, podemos montar a equação que representa a reta. Para isso, vamos tomar como
exemplo a variação da quantidade de anestésico hidrolisado no plasma em função do tempo
decorrido de sua administração.
Para calcularmos os valores desses coeficientes, usamos as fórmulas abaixo:
Coeficiente linear: α̂ = y − β̂ x

x y
xy −
Coeficiente angular: β̂ = n 2
2 ( x)
x −
n
Onde:
⁀α = estimativa do coeficiente linear da reta

_
y = média dos valores de y
⁀β = estimativa do coeficiente angular da reta
_
x = média dos valores de x
∑xy = somatório de x*y
∑x = somatório de x
∑y = somatório de y
∑x 2 somatório de x 2
n = número de amostras
Cálculo dos coeficientes

No exemplo da quantidade de anestésico hidrolisado no plasma humano, acima
apresentado, todos os cálculos foram realizados manualmente e organizados em uma planilha.
Para entender como estimar o coeficiente linear e o angular de uma equação, observe a
seqüência do Exercício resolvido 1.
Elabore uma equação de regressão para estimar a quantidade de anestésico hidrolisado
no plasma humano em função do tempo decorrido após sua administração.

Solução
1) O primeiro passo é obter todos os valores da quantidade de anestésico e do tempo após
sua administração, representados na Tabela 1.
Tabela 1 – Quantidade de anestésico hidrolisado (moles/litro) no plasma humano

e tempo (minutos) decorrido após sua administração
Tempo Quantidade de anestésico hidrolisado
2 3,5
3 5,7
5 9,9
8 16,3
10 19,3
12 25,7
14 28,2
15 32,6
2) Nomear as variáveis.
A variável dependente y será a quantidade de anestésico e a variável x será o tempo.
3) Traçar o gráfico de dispersão de y em função de x (figura 1).
35
Quantidade de anestésico
30
hidrolisado (moles / litro)
25
20
15 Quantidade de
anestésico hidrolisado
10
0
0 5 10 15 20
Tempo (minutos)

4) Colocar os valores de x e y em uma tabela e calcular os valores de xy, x 2 e y 2.
x y xy x2 y2
2 3,5 7 4 12,25
3 5,7 17,1 9 32,49
5 9,9 49,5 25 98,01
8 16,3 130,4 64 265,69
10 19,3 193 100 372,49
12 25,7 308,4 144 660,49
14 28,2 394,8 196 795,24
15 32,6 489 225 1062,76
∑ somatório 69 141,2 1589,2 767 3299,42
5) Agora é só aplicar as fórmulas:
a) Para calcular o coeficiente angular:

x y 69.141,2
xy − 1589,2 −
β̂ = n → β̂ = 8 → β = 2,16
2 ( x)2 4671
x − 767 −
n 8
b) Para calcular o coeficiente linear da reta:

_ _
⁀α = y – ⁀βx
_ _
Mas antes disso precisamos ter a média de x (x ) e média de y (y ):

x 69
x= −→ x = −→ x = 8,62
n 8

y 141,2
y= −→ y = −→ y = 17,65
n 8
_ _
Agora aplicamos a fórmula: ⁀α = y – ⁀βx
α = 17,65 – 2,16 × 8,62
α = – 0,98
6) E o último passo é construir a equação da reta, substituindo as letras pelos valores calculados:
Equação da reta:
y = α + βx
y = – 0,98 + 2,16 x

Resumindo as etapas
da regressão linear simples...
Etapas de uma análise de

regressão linear simples
Obter os valores da variável dependente (y) e da

variável independente (x) que serão analisadas
Traçar o gráfico de dispersão
Colocar os valores de x e y em uma tabela e calcular os somatórios de x, y, xy, x 2 e y 2
Aplicar as fórmulas do coeficiente linear e do coeficiente angular
Construir a equação da reta y = α + βx
Figura 2 – Etapas para a realização de uma análise de regressão linear simples
Fonte: Henrique Rocha de Medeiros.
Atividade 5
Suponha que você esteja estudando a relação entre a quantidade de um poluente
despejado por uma fábrica em um riacho, e o dano ecológico nesse curso d’água, medido
por um escore de dano que vai de 0 a 20 (Tabela 2). Para verificar sua hipótese, você precisa
fazer uma análise de regressão. Assim, utilizando os valores da tabela abaixo, responda
o que se pede.

Tabela 2 – Escore de dano ecológico medido para diferentes concentrações de poluente no riacho
Quantidade de poluente (μg/L) Escore de dano ecológico

1 3
2 6
3 7
4 10
5 10
6 12
a) Identifique as variáveis dependentes e independentes.
b) Monte o diagrama de dispersão utilizando o gráfico milimetrado abaixo.
c) Calcule os valores do coeficiente angular e do coeficiente linear da reta.

d) Monte a equação da reta de regressão e conclua se o escore da dano ecológico está
variando em função da quantidade de poluente de um riacho.
Coeficiente de determinação
Até agora vimos que as variáveis x e y podem variar uma em função da outra, e que
esse comportamento é medido através da análise de regressão, que representa, em uma reta,
o quanto a variável y depende da variável x .
Mas podemos nos perguntar: O quanto essa reta reflete realmente o comportamento de
x e y ? Quanto do que visualizamos na reta é real?
A resposta está baseada na precisão e acurácia da reta, que é refletida nos valores do
coeficiente de determinação, representado pelo símbolo R 2.

O coeficiente de determinação (R 2) é um valor entre 0 e 1, que estima quanto da alteração
da variável dependente (Y ) em função de mudanças na variável independente (X) pode ser
explicada pela equação de regressão. Por esse motivo, o coeficiente de determinação pode
ser definido como o grau de ajuste da reta de regressão estimada ao conjunto de dados.
Ele reflete quão bem o modelo se ajusta ao conjunto de dados utilizados para elaborar a equação
e, por esse motivo, denota a força da associação linear entre x e y.
Por isso, R 2 assume diferentes valores, sempre variando de zero a 1:
 Se R 2 = 1:
1 significa que a variação explicada responde por 100% da variação total.
Ou seja, a reta de regressão representa perfeitamente o conjunto de dados e toda a
variação de y está relacionada com a de x.
 Se R 2 for diferente de zero e inferior a 1: significa que a variação explicada responde

por uma percentagem da variação total. Por exemplo: se R 2 = 0,81, indica que
aproximadamente 81% da variação em y está relacionada com a de x e que o restante
19% (100% – 81%) é explicado pelo acaso (outros fatores que não o “x ”). Observe que
alguns pontos estão localizados fora da reta, mas próximo a mesma. Assim, nesse caso,
a equação representa quase que perfeitamente o conjunto de dados analisados.
 Se R 2 for igual ou muito próximo a zero: quando isso acontece, significa que o valor
médio de y (coeficiente linear) é a melhor projeção para qualquer valor de x. Ou seja, a
reta de regressão não representa os dados observados, e por isso mesmo não deve ser
utilizada para fazer inferências sobre a população.
Calculando o valor do
coeficiente de determinação
O coeficiente de determinação de uma equação pode ser estimado dividindo-se a soma
de quadrados da regressão pela soma de quadrados total da variável resposta, que é “Y ”.
Soma de quadrados da regressão (SQREGRESSÃO), é estimada utilizando-se a seguinte equação:

⎡ n n ⎤

⎢ n Xi Yi ⎥
⎢ ⎥
SQREGRESSÃO = b⎢
⎢ Xi Yi − i=1 i=1 ⎥
⎥
⎣ i−1 n ⎦
Soma de quadrados total (SQTOTAL) é estimada utilizando-se a equação abaixo:

⎡ n 2 ⎤

⎢ n Yi ⎥
⎢ ⎥
SQTOTAL = ⎢
⎢ 2
Yi − i=1 ⎥
⎥
⎢ n ⎥
⎣ i−1 ⎦

Calculando o coeficiente de
determinação de uma equação de regressão
Para isso, vamos utilizar os dados do Exercício resolvido 1.
Como os valores utilizados no cálculo já foram estimados, para calcular o coeficiente

angular e linear da equação, podemos utilizar esses resultados:
n
n

b = 2,16 Xi Yi = 1589,2 Xi = 69
i−1 i=1
n
n

Yi = 141,2 Yi2 = 3299,42 n= 8
i=1 i−1
n 2

Vamos precisar calcular apenas o valor de Yi = 141,22 = 19937,44
i=1
Resolvendo-se a fórmula, temos o seguinte:

⎡ n n ⎤

⎢ n Xi Yi ⎥

SQREGRESSÃO = b ⎢
⎢ Xi Yi − i=1 i=1 ⎥
⎥
⎢ n ⎥
⎣ i−1 ⎦

SQREGRESSÃO = 2,16 1589,2 − (69)(141,2) SQREGRESSÃO = 802,1
8
e
⎡ n 2 ⎤

⎢ n Yi ⎥
⎢ ⎥
⎢ ⎥
SQTOTAL = ⎢ Yi2 − i=1 ⎥
⎢ n ⎥
⎣ i−1 ⎦

SQTOTAL = 3299,42 − 19937,44 SQTOTAL = 807,2
8
SQREGRESSÃO 802,1
R2 = −→ R2 = −→ R2 = 99,3
SQT OT AL 807,2
Exemplo
Vamos ver um exemplo de aplicação de regressão linear?
Especula-se que a quantidade de lixo de uma cidade varia em função do poder aquisitivo
de seus habitantes. Para saber se essa hipótese está correta, o pesquisador realizou uma coleta
de dados em 3 cidades (A, B e C), e anotou a quantidade de lixo produzida (em toneladas) de
acordo com o número de salários-mínimos que a população recebe. Esses dados podem ser
visualizados nas Tabelas 3, 4 e 5.

Tabela 3 – Quantidade de lixo produzida (em toneladas)
na cidade A, de acordo com o número de salários-mínimos da população
Quantidade de lixo Número de salário-mínimo

2 2
4 5
6 8
8 11

na cidade B, de acordo com o número de salários-mínimos da população

2 1
4 2
6 4
8 4


2 5
4 1
6 3
8 8
Após a obtenção desses dados, o pesquisador organizou os dados em uma planilha e

calculou os valores do coeficiente linear e do coeficiente angular da equação de regressão para
cada cidade e obteve a reta de regressão linear (observe o Exercício resolvido 1), a equação
da reta e o coeficiente de determinação R 2 para cada cidade e que podem ser visualizados
nas Figuras 3, 4 e 5.
12
10
salários-mínimos
y = 1,5x -1
R2 = 1
Número de
0
0 2 4 6 8 10
Quantidade de lixo (toneladas)
Figura 3 – Quantidade de lixo produzida (em toneladas) na cidade A,

de acordo com o número de salários-mínimos da população

5
4,5
4
salários-mínimos
Número de 3,5
y = 0,55x
3
R 2 = 0,8963
2,5
2
1,5
1
0,5
0
0 2 4 6 8 10
Figura 4 – Quantidade de lixo produzida (em toneladas)

9
8
salários-mínimos
7
y = 0,55x + 1,5
Número de
6
R 2 = 0,2262
5
4
3
2
1
0
0 2 4 6 8 10
Figura 5 – Quantidade de lixo produzida (em toneladas)

na cidade C, de acordo com o número de salários-mínimos da população
Solução
Ao analisarmos as três figuras, podemos verificar que a quantidade de lixo gerada em
cada cidade em função do número de habitantes variou de maneira diferente: na cidade A,
quanto maior a quantidade de lixo gerada, maior a renda dos habitantes; na cidade B, houve
uma tendência desse mesmo resultado, exceto quando a produção de lixo foi de 6 toneladas;
na cidade C, pode-se notar uma maior dispersão dos dados, quando a variação da quantidade
de lixo gerada não acompanha exatamente o aumento da renda da população.
Mas será que a interpretação dos resultados está correta? Será que a reta traçada para
representar a situação de cada cidade é real, representando o quanto a quantidade de lixo varia
em função da renda da população?

Vamos então analisar a reta de regressão e o coeficiente de determinação da análise de
regressão para cada cidade:
1) No caso da cidade A, o valor de R 2 = 1, o que significa que a reta de regressão traçada

se ajusta perfeitamente aos pontos, o que pode ser verificado pelo fato dela passar
exatamente em cima de cada ponto. Podemos afirmar que 100% da variação que ocorre em
y (quantidade de lixo gerada) está relacionada com a variação de x (renda da população).
Assim, podemos utilizar a equação de regressão para estimar a quatidade de lixo produzida
pela parte da população que ganha 2,5 salários-mínimos.
Equação de A: y = 1,5x + 1
Substituindo-se “x ” por 2,5 temos: y = 1,5*2,5 + 1 = 4,75 toneladas de lixo.
2) No caso da cidade B, o valor de R 2 = 0,89, o que significa que a reta de regressão traçada
se ajusta quase que perfeitamente aos pontos, o que pode ser verificado pelo fato dela se
aproximar muito de cada um deles. Nesse caso, podemos afirmar que 89% da variação
que ocorre em y (quantidade de lixo gerada) está relacionada com a variação de x (renda
da população). O restante, 11%, é fruto de uma variação que não tem explicação.
Nesse caso, como a equação de regressão também apresenta um coeficiente de

determinação alto (maior que 50%), pode-se utilizar a mesma para fazer inferências sobre a
quantidade de lixo produzida em função da renda da população.
3) No caso da cidade C, o valor de R2 = 0,22, o que significa que a reta de regressão

traçada se ajusta muito pouco aos pontos, o que pode ser verificado pelo fato dela não se
aproximar de cada um deles. Nesse caso, podemos afirmar que somente 22% da variação
que ocorre em y (quantidade de lixo gerada) está relacionada com a variação de x (renda
da população). O restante, 78%, é fruto de uma variação que não tem explicação. Nesse
caso, possívelmente existem outros fatores (como por exemplo, o nível de escolaridade e
educação dos habitantes) que influenciam na quantidade de lixo gerada.
Isso quer dizer que a minha equação não serve?
Não propriamente, mas apenas que ela não é suficientemente adequada para explicar
a relação de causa e efeito, entre a receita da população e a quantidade de lixo gerada.
Possivelmente, nesse caso, a adição de outras variáveis (como por exemplo, o número médio
de anos de estudo da população) e uma nova equação de regressão múltipla resultarão em
aumento do R 2.

Resumo
Nesta aula, você viu o conceito de regressão linear simples, ou seja, o estudo
de quanto uma variável varia em função da outra, exprimindo uma relação de
causa e efeito. Estudou que essas variáveis quantitativas podem ser dependentes
(y ) e independentes (x) e verificou como identificá-las em cada situação
problema. Conceituou regressão linear simples e conheceu os demais tipos de
regressão utilizados. Identificou que, numa análise de regressão, temos vários
fatores envolvidos, tais como o coeficiente linear, representado pela letra α e o
coeficiente angular da reta, representado pela letra β. Estudou a equação da reta
que representa a regressão linear, como você pode fazer uma análise de regressão
e como determinar o coeficiente de regressão.
Autoavaliação
Faça uma regressão linear e calcule o seu coeficiente de determinação, utilizando
as informações da Tabela 6, que relaciona a quantidade de filhos por mulher em
função no número de anos de estudo, e discuta sobre a representatividade da
equação gerada.
Tabela 6 – Número de filhos segundo os anos completos de estudos, em mulheres de 15 a 49 anos de idade
Número de anos de estudo Número médio de filhos

0 3,6
3 3,5
7 2,9
8 2,3
11 1,6
12 1,4
Fonte: Adaptado de Berquó e Cavenaghi (2006)

Referências
BERQUO, Elza; CAVENAGHI, Suzana. Fecundidade em declínio: breve nota sobre a redução
no número médio de filhos por mulher no Brasil. Novos estud. - CEBRAP [online], n. 74, p.
11-15, 2006.

Artmed, 2003.
CORRELAÇÃO e regressão. 2000. Disponível em: <http://www.dim.fm.usp.br/regressao/index.

php>. Acesso em: 12 mar. 2010.

VIEIRA, Sonia. Introdução à bioestatística. Rio de Janeiro: Ed. Campus, 1980.
______. Princípios de estatística. São Paulo: Ed. Pioneira, 1999.

Anotações

Anotações

Entendendo os números
índices e suas aplicações
Aula
9
Apresentação
V
ocê já deve ter ouvido expressões como: “Houve aumento no índice de inflação”; “Houve
alteração no índice nacional de custo na construção civil (INCC); “Houve aumento na
taxa de natalidade do Estado do Rio Grande do Norte em 2009”. Esses indicadores
são chamados de números índices e você os estudará nesta aula. Você verá como calcular
os números índices, sua importância e formas de aplicação dessa ferramenta estatística nas
Ciências Biológicas e em situações do cotidiano.
Objetivos
Compreender o conceito de número índice.
1
Diferenciar números índices simples de compostos.
2
Calcular os números índices e interpretar os seus
3 resultados.

Números índices e
o nosso cotidiano
D
iariamente, vemos nos telejornais informações de como anda a nossa economia:
Notícias como “[...] a inflação nos últimos 12 meses foi de 1,56%”; “[...] o aumento
do IGPM foi de 12,6%”; “[...] o INPC teve queda de 2,8% no mês de agosto”. Vemos
também notícias sobre o índice de fertilidade da população brasileira, índice de natalidade,
índice de mortalidade, dentre outros (Figura 1). E, na maioria das vezes, ficamos sem saber o
que estas informações significam.
Figura 1– Exemplos de números índices diariamente apresentados nos telejornais nacionais.

Fonte: Lilian Giotto Zaros
Esses índices ilustrados na figura acima são denominados de números índices. Sua
definição, como calculá-los e como interpretá-los é o que você verá a seguir.

O que são números índices?
O
s números índices (ou apenas índices) são instrumentos estatísticos utilizados
para comparar a evolução ou o comportamento de variáveis através do tempo. São
indicadores que se aplicam no campo da produção, evolução dos preços, dos salários,
da biodiversidade animal e vegetal, do desmatamento, de registros demográficos, dentre
outros, como citados na Figura 1.
Como medem variações no tempo e no espaço, permitem sintetizar e apresentar de forma

eficaz a natureza das alterações nas variáveis. Usando os números índices é possível, com um
só valor, avaliar a evolução de um conjunto complexo de variáveis.
Matematicamente, é a razão entre o valor de uma variável em uma data limite e o valor Data limite
dessa mesma variável em outra data, denominada data base. Data limite: data final
do período de tempo
Por exemplo: quando nos deparamos com a informação de que o índice de mortalidade estudado.
infantil no Rio Grande do Norte no ano de 2010 foi de 3,5%, este índice de mortalidade foi
obtido pela razão entre o número de mortalidades no ano de 2010 e o número de mortalidades
em uma data base, por exemplo, no ano de 2009. Todavia, essa comparação deve ser feita Data base
apenas em relação à data base.
Data base: data inicial
do período de tempo
Note que os números índices são expressos em porcentagens e só se aplicam às datas
estudado.
a que se referem ou são adimensionais (sem unidade de medida).
Curiosidade
Os números índices como dissemos acima, podem ser aplicados nas Ciências
Biológicas. A notícia a seguir exemplifica essa aplicação.
Desmatamento na Caatinga já destruiu metade da vegetação original
Por Jefferson Rudy/MMA
A Caatinga, único bioma exclusivamente brasileiro, possui atualmente metade de

sua cobertura vegetal original. Em 2008, a vegetação remanescente da área era
de 53,62%. Dados do monitoramento do desmatamento no bioma realizado entre
2002 e 2008 revelam que, neste período, o território devastado foi de 16.576km2,
o equivalente a 2% de toda a Caatinga. A taxa anual média de desmatamento na
mesma época ficou em torno de 0,33% (2.763 km2).
Fonte: <http://www.espacoecologiconoar.com.br/index.php?option=com_content&task=view&id=13106&Itemid=1>.
Acesso em: 10 maio 2010.

Atividade 1
Cite dois exemplos, diferentes dos citados anteriormente, de números

índices que você conhece e que são utilizados nas mais diversas subáreas
das Ciências Biológicas.
Tipos de números índices

Há dois tipos de números índices:
1) Simples: Representam a evolução de uma só variável simples entre dois períodos de

tempo. Por exemplo: quando uma família nota que o preço do pão é o dobro do que era
há 10 anos, está fazendo uso de certo tipo de número índice de uma só variável.
A principal limitação dos índices simples é que eles se referem apenas a itens isolados.
Apesar disso, são vários os exemplos de índices simples: crescimento da população, taxa de
natalidade, taxa de mortalidade e indicador de desemprego.

Fonte: Quino, tirinha 231, 16 ago. 2006. Disponível em: <http://clubedamafalda.blogspot.com/2006/08/tirinha-231.html>. Acesso em: 10 maio 2010.
2) Compostos: Expressam a evolução de uma variável composta (que integra várias medidas
juntas) entre dois períodos de tempo. Um exemplo deste tipo de variável composta é
observado no cálculo da inflação. Essa medida/índice é o resultado da variação conjunta
de preços de numerosos itens, como por exemplo, os alimentos (leite, carne, ovos,
manteiga etc.), o transporte (combustíveis, passagens de ônibus etc.), dentre outros.
Alguns desses artigos podem ter tido alteração (aumento ou diminuição) no preço e outros
podem continuar com o mesmo valor. Além disso, cada um desses artigos tem um peso
(ponderação) diferente para o cálculo do índice. Assim, um aumento no preço do leite e do
feijão, por exemplo, tem um impacto muito maior no índice de inflação do que elevação do
valor de automóveis. Isso se deve ao fato de que os alimentos são consumidos por toda
a populção e os automóveis somente por alguns poucos indivíduos.
Atividade 2
Conceitue números índices.

1

Diferencie números índices simples de números índices compostos
2 e dê exemplos de cada um deles, utilizando informações obtidas em
jornais ou revistas ou na internet.
Selecione um grupo de 15 indivíduos (podem ser pessoas da

3 sua família, amigos, alunos, colegas de trabalho, da igreja e/ou de
prática de esportes) e faça as seguintes perguntas: Quais os tipos
de números índices que você conhece? Em que local você obteve
essas informações? Em seguida, complete a tabela abaixo com as
informações obtidas:
Tipo de número índice Local onde obteve

que conhece a informação
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Como calcular
os números índices?
O cálculo dos números índices é feito utilizando-se a fórmula abaixo:
VA
NI = × 100
VB
Onde:
NI = número índice;
VA = valor do parâmetro atual ou na data limite;
VB = valor do parâmetro anterior ou na data base.
Utilizando essa fórmula, você poderá calcular os números índices, sejam eles simples
ou compostos.
Será que se você dividir o número de inscritos no vestibular para o Curso de Ciências
Biológicas em 2010 pelo número de inscritos no ano anterior, e multiplicar por 100, você
terá um índice?
Solução
Sim, você terá um índice. Se o índice for maior do que 100, a procura pelo
curso aumentou. Se ao contrário, for menor do que 100, a demanda diminuiu.
Vamos verificar?
Suponha que o número de inscritos no ano de 2010 foi de 2500 estudantes e em

2009 foi de 2000. Assim, temos que:
VA 2500
NI = × 100 = × 100 = 1,25 × 100 = 125%
VB 2000
Agora, como o ano base representa sempre 100%, e o valor atual do índice é
125%, por diferença podemos calcular se houve ou não aumento do número de
inscritos no vestibular 2010 em relação a 2009.
Efetuando a operação matemática: 125% – 100%, podemos concluir que houve

um aumento de 25% na procura do Curso de Ciências Biológicas no vestibular
2010 em relação a 2009.

Utilizando esse mesmo conceito, você pode ter resultados onde o valor atual (VA) é
menor que o valor base (VB). Nesse caso, o resultado da subtração será um número negativo
e indicará uma redução no índice.
Atividade 3
Calcule o número índice para as seguintes situações e interprete os resultados.
Foram oferecidas 50 bolsas de iniciação científica aos alunos do Curso

1 de Ciências Biológicas no ano de 2009 e 45 no ano de 2010.
Um biólogo notou que 525 plantas floresceram em sua estufa no mês

2 de fevereiro, quando comparadas a 400 plantas no mês de setembro
de 2009.

O volume de chuva na região oeste do estado do Rio Grande do Norte
3 em 2008 foi de 3,5mm e chegou a 6mm no ano seguinte.
Curiosidade
Sempre que se tem o crescimento de um índice, há um reflexo positivo para

a população?
Depende do que seja esse índice. Se for de uma variável boa, o crescimento deste
índice será bom para a população. Como exemplo disso, temos: crescimento na
expectativa de vida, aumento na taxa de escolaridade das crianças, aumento real
do salário mínimo.
Já se fosse o índice de crescimento da inflação ou da taxa de mortalidade de

crianças até cinco anos de idade, por exemplo, seria extremamente diferente,
pois são indicadores que quanto mais baixos ou decrescentes, melhor para a
maioria da população.

Utilizando números índices
Como já visto antes, os números índices estão presentes no cotidiano da população.
Assim, nos próximos parágrafos, vamos discorrer sobre alguns índices que você poderá
calcular para auxiliar o seu trabalho e/ou seu dia a dia.
Índice relativo de preços ou preços

relativos simples
É a razão entre o preço de um produto em uma determinada data e o preço desse mesmo
produto na data escolhida como base.
O índice relativo de preços mostra a evolução do preço de um produto em um determinado

período estudado. Você pode utilizar esse índice para verificar as alterações de preços, por
exemplo, dos principais itens de compra da sua casa.
O índice relativo de preço (IP) é obtido pela fórmula abaixo:

pt
IP = × 100
p0
Onde:
IP= índice de preços;
pt = preço numa data atual;
p0 = preço na data base ou época-base.
O preço de determinado artigo, em 2008, foi R$ 5,00 e em 2010 subiu para R$ 6,25.
Tomando-se por base o ano 2008, determinar o índice relativo de preço em 2010.
Solução
Identificar a data base e a data atual:

1 Data base (0) = 2008 e período atual (t) = 2010
Identificar os preços na época atual e na época base:

2 Preço na data atual = 6,25 e preço na data base = 5,00

Em seguida, aplicar a fórmula do índice relativo de preço:
3 pt 6,25
IP = × 100 = × 100 = 125%
p0 5
Conclusão: Em 2010 houve um aumento de 25% (125 – 100) no preço

4 do artigo, em relação ao preço do mesmo artigo em 2008.
Índice de aprovação dos alunos (IA)

O índice de aprovação dos alunos é rotineiramente utilizado por professores que querem
ter uma ideia de como foi a aprovação dos alunos em sua disciplina.
Ele pode ser obtido aplicando-se a fórmula geral dos números índices, dividindo-se o
total de alunos aprovados pelo número de matrículas na disciplina.
Número de alunos aprovados
IA = × 100
Número de alunos matriculados na disciplina
Note que para este índice, o fato do aluno ter sido aprovado por média (direto) e/ou por
recuperação, bem como ter trancado a disciplina não interfere no resultado. O que me interessa
saber é a relação entre o número de alunos aprovados ao final do curso.
Note que a fórmula para o cálculo do índice de aprovação de alunos é a mesma utilizada
para o cálculo do número índice em geral, como dito anteriormente.
Calcule o índice de aprovação de uma turma da disciplina de Bioestatística do terceiro
semestre de 2010, onde o número de alunos inscritos foi de 41 e de aprovados foi de 30.
Solução
Identificar:
1
Número de alunos aprovados: 30
Número de alunos matriculados: 41

Em seguida, aplicar a fórmula do índice de aprovação:
2
Número de alunos aprovados 30
IA = × 100 = × 100 = 73,1%
Número de alunos matriculados na disciplina 41
Conclusão: O índice de aprovação na disciplina de Bioestatística em 2010

3 foi de 73,1%.
Atividade 4
Calcule o índice relativo de preços nas situações abaixo e interprete os resultados:
Uma caixa de morangos, que custava R$3,50 em fevereiro de 2010,

1 passou a custar R$4,30 em maio do mesmo ano.
Uma moto que custava R$ 5.900,00 em janeiro de 2009, passou a

2 custar R$ 7.100,00 em janeiro de 2010.

Uma casa que custava R$190.000,00 em maio de 2008, passou a
3 custar R$178.000,00 em maio de 2010.
Índices de custo de vida (ICV)

O índice de custo de vida, conhecido pela sigla ICV, é um índice composto e pode ser
calculado como no exemplo abaixo:
Suponha que uma família com cinco pessoas compre semanalmente 10 litros de leite,
4 kg de feijão e 5 kg de arroz e gaste R$ 25,00/semana com transporte. Vamos então elaborar
um índice composto de custo de vida para esta família na primeira (1) e na última semana do
mês (4)?
Nesse caso, precisamos fazer um gasto ponderado entre a quantidade de alimentos e

serviços e o preço de cada item. Para isso, vamos observar a tabela abaixo:
Item Preço na semana 1 Preço na semana 4

Leite R$ 0,77 R$ 0,77
Feijão R$ 1,53 R$ 2,50
Arroz R$ 0,88 R$ 1,88
Transporte R$ 2,5 R$ 2,5
Assim, o VA corresponderá ao valor da cesta de produtos consumida pela família na

semana 4 e o VB ao consumo da família na semana 1.

Deste modo, teremos:
Gasto semanal da família na semana 1
Quantidade Porcentagem
Item Valor unitário (R$) Total da semana 1
consumida do total
Leite 10 R$ 0,77 R$ 7,70 17,82%
Feijão 4 R$ 1,53 R$ 6,12 14,16%
Arroz 5 R$ 0,88 R$ 4,40 10,18%
Transporte
10 R$ 2,5 R$ 25,00 57,84%
(passagens)
Total da semana R$ 43,22 100,00%
Gasto semanal da família na semana 4
Quantidade Porcentagem do
Item Valor unitário (R$) Total da semana 4
consumida total
Leite 10 R$ 0,77 R$ 7,70 14,78%
Feijão 4 R$ 2,50 R$ 10,00 19,19%
Arroz 5 R$ 1,88 R$ 9,40 18,04%
Transporte
10 R$ 2,5 R$ 25,00 47,98%
(passagens)
Total da semana R$ 52,10 100,00%
Aplicando a fórmula do número índice, temos:

VA 52,10
IA = × 100 = × 100 = 1,2055 × 100 = 120,55%
VB 43,22
Neste caso, o índice calculado é de 20,55% (120,555 – 100%).
Embora o aumento no preço do feijão seja de 63,40% e do arroz de 113,64%, o aumento

no índice do custo de vida é menor que este valor (20,55%). Isto ocorre porque os itens que
tiveram maior aumento têm uma participação relativa no custo de vida (despesas) total da família.
É por esse motivo que, às vezes, os índices de inflação são divulgados e você pode achar
que a alteração nos preços observados na sua região é diferente da informação oficial. Isso
ocorre porque a inflação é calculada por uma média ponderada de itens médios de consumo
de uma família brasileira. Assim, nem sempre os hábitos de consumo e os preços observados
são semelhantes aos seus.

Resumo
Nesta aula, você aprendeu o conceito de números índices e foi capaz de perceber
que eles são utilizados nas mais diversas áreas do nosso cotidiano, nas Ciências
Biológicas, na Geografia, na Economia, dentre outras. Você diferenciou números
índices simples e compostos e realizou os cálculos necessários para determinar
um número índice. Além disso, você viu alguns exemplos de números índices,
tais como o índice relativo de preços, o índice de aprovação de alunos e índice
de custo de vida e aprendeu a calcular cada um deles. Por fim, você testou os
conhecimentos adquiridos, acompanhando a resolução de exercícios e fazendo
sua autoavaliação.
Autoavaliação
Fonte: <http://blog.ambientebrasil.com.br/wp-content/
uploads/2009/03/chamine.jpg>. Acesso em: 10 maio 2010.
Leia o texto abaixo, retirado do Jornal O Estado de São Paulo de 31 de outubro

de 2006, e calcule o índice de emissão de gás carbônico na atmosfera para os
anos de 2000 e 2004, tendo como data base o ano de 1990.
“Apesar dos esforços internacionais, as emissões de dióxido de carbono (CO2) que geram
o efeito estufa aumentaram em 2004 e atingiram os maiores índices desde a década de 90.
Os países ricos somados tiveram uma queda de apenas 3,3% em média nas emissões nos
últimos 15 anos. Porém, quando se leva em conta apenas o período entre 2000 e 2004, houve
na realidade um aumento das emissões nessas economias, o que mostra a necessidade de

medidas mais drásticas para lidar com aquecimento do planeta. As emissões nos países ricos
atingiram 19,9 bilhões de toneladas de CO2 em 2004, antes 17,5 bilhões em 2000. Em 1990,
ano-referência para o protocolo de Kyoto, os gases lançados na atmosfera por indústrias,
usinas e carros somavam 18,6 bilhões de toneladas”.
Referências
Artmed, 2003.
JORNAL DA CIÊNCIA. Emissão de CO2 cresce no planeta. 31 out. 2006. Disponível em: <http://
www.jornaldaciencia.org.br/Detalhe.jsp?id=42014>. Acesso em: 10 maio 2010.
SIQUEIRA, Ivana Caldeira; SIMA, Luiz Fernando; ROCHA, João Alberto Guerra da. A importância
dos números-índices. Disponível em: <http://www.eumed.net/ce/2009a/ssr.htm>. Acesso em:
4 abr. 2010.
TELEMEDICINA: informática médica. Disciplina de métodos quantitativos em medicina:
correlação e regressão. 1999. Disponível em: <http://www.dim.fm.usp.br/regressao/index.
php>. Acesso em: 10 maio 2010.

Anotações

Anotações

Probabilidade:
conceitos e aplicações
Aula
10
Apresentação
Nesta aula, você vai conhecer a história da probabilidade, bem como entender o seu
significado. Você verá como a probabilidade está presente no nosso cotidiano e como podemos
empregá-la nas Ciências Biológicas. Vai estudar também as leis da probabilidade e fará
exercícios que são regidos por essas leis.
Esta aula é de extrema importância, uma vez que os conceitos aqui adquiridos serão
utilizados na disciplina de Genética. Desse modo, faça sempre anotações e resolva os exercícios
propostos, que serão úteis em seu aprendizado futuro.
Bom estudo!
Objetivos
Compreender o conceito de probabilidade.
1
Conhecer a história da Teoria da Probabilidade.
2
Conhecer as leis de probabilidade.
3
Aplicar os conceitos aprendidos em estudos de sistemas
4 biológicos.

O que é probabilidade?
Todos conhecem, por intuição, o conceito de probabilidade, ou seja, o risco (chance) de
ocorrer um determinado evento preestabelecido.
Por exemplo, observe o conjunto de dados na Figura 1, abaixo. Todos estes dados não
são viciados, ou seja, não são adulterados, e em cada face existe uma numeração marcada que
vai de um até seis. Assim, se eu pegar um desses dados e arremessá-lo numa caixa, existe a
probabilidade de 1/6 (ou 17%) de sair, na face voltada pra cima, o número 3.
Figura 1 – Conjunto de dados não viciados

Fonte: <http://palavraguda.files.wordpress.com/2007/09/dados.jpg>.
A priori Observe que essa probabilidade é a mesma, se eu escolher, a priori, qualquer um dos números
Do latim “partindo daquilo
entre um e seis para apostar as minhas fichas. Concomitantemente, a probabilidade de ocorrer um
que vem antes”. É uma número diferente do que eu escolhi é de 83%, ou seja, o que faltar para completar 100%.
expressão filosófica que
designa uma etapa para se É utilizando essa lógica que as empresas de jogos legais montam sua estratégia de
chegar ao conhecimento. pagamento das apostas. Assim, elas podem pagar os prêmios devidos e ainda assim auferir lucro.

Curiosidades sobre as loterias...
Você sabe qual a probabilidade de ganhar na Mega-Sena? Aí vai a resposta: 0,000000003%.
Ainda assim, com uma possibilidade tão baixa, raramente o prêmio acumula.
E se você resolver preencher todas as combinações possíveis dentre os números da

Mega-Sena para assegurar que vai ganhar o prêmio principal, você gastará mais dinheiro que
o valor a ser recebido.
A probabilidade é usada para associar, a cada fato possível, sua respectiva chance de
ocorrência. Por exemplo, se há 80% de possibilidade de chover então há 20% de possibilidade
de não chover; se você fosse se submeter a uma cirurgia que tem apenas 30% de chance de
sucesso ponderaria melhor sobre sua decisão.
Às vezes, podemos prever fenômenos, como é o caso de você jogar várias vezes uma
moeda de determinado lugar e medir a velocidade da queda, onde os resultados serão sempre
iguais. Esse fenômeno é previsível, pois obedece determinada lei da Física e é chamado
de determinístico.
Outras vezes, o fenômeno é imprevisível, não determinístico, mas apresenta um padrão

que vem sendo observado a longo prazo. Por exemplo, você não sabe qual será o primeiro
camundongo a girar a roleta dentro da gaiola de experimento, mas sabe que, nas várias vezes
que você observou o comportamento dos animais, foi o camundongo de número 2 o primeiro
a fazê-lo; você não sabe se o terceiro filho de um casal que tem olhos verdes e castanhos terá
olhos castanhos, mas sabe que os dois primeiros filhos tiveram olhos castanhos.
Desse modo, podemos definir probabilidade

como sendo a chance de um evento ocorrer.
Atividade 1
Defina probabilidade.
1

Cite três situações cotidianas em que esteja implícito o conceito de probabilidade.
2
Mas antes de aprofundarmos os nossos estudos sobre probabilidade, vamos conhecer

como a Teoria da Probabilidade se originou?
Um pouco de história
O estudo da Teoria da Probabilidade começou em 1664, com a troca de correspondência
entre dois matemáticos franceses, Blaise Pascal e Pierre Fermant, que tinham sido procurados
por Antonie Gombaund, o Chevalier de Meré, homem de letras e membro da corte de Luis XIV.
a b
Figura 2 – (a) Blaise Pascal (1623-1662). (b) Pierre Fermant, 1601-1665
Fonte: <http://www.york.ac.uk/depts/maths/histstat/people/pascal.gif>;
<http://www.york.ac.uk/depts/maths/histstat/people/fermat.gif>.

O questionamento de Chevalier de Meré era de como dividir o prêmio de um jogo
envolvendo várias partidas se, por alguma razão, o jogo fosse interrompido antes que algum
jogador tivesse vencido o número de partidas combinado anteriormente.
Nessa época, os dois matemáticos iniciaram seus estudos e chegaram, cada qual, a
uma conclusão diferente: Pascal se baseou nos valores esperados de duas ações que se
alternam (alternativas) e Fermant focou seus estudos no cálculo da probabilidade de um evento.
Entretanto, nenhum dos dois estudiosos publicou imediatamente seus resultados.
Desse modo, o Chevalier de Meré avaliou que o estudo das probabilidades não deveria
ser pesquisado a fundo e ainda afirmou que o tempo gasto nesse estudo poderia ser melhor
empregado para outros fins. Felizmente, esse fato não foi acatado por todos os estudiosos
da época.
Assim, em 1655, o astrônomo, físico e matemático holandês Christian Huygens (1629-

1695) teve conhecimento do fato e resolveu iniciar seus estudos, e em 1657 publicou sua
solução. Daí em diante, vários foram os estudiosos que contribuíram com o estudo da
probabilidade, dentre eles, o matemático Jacques Bernoulli (1654-1705) e o matemático,
físico e astrônomo Pierre-Simom de Laplace (1749-1827), que publicou o trabalho intitulado
“Théorie Analytique des Probabilités” (1812), onde as teorias de probabilidade se tornaram Teorias da
cientificamente justificáveis nas prática. probabilidade
Para saber mais

A aceitação das ideias sobre probabilidade pelo pensamento científico moderno foi muito sobre a história das
além do que os pensadores dos séculos XVII e XVIII, principalmente com o desenvolvimento probabilidades, consulte
Crusius (2001).
e aceitação da estatística na ciência e na indústria.
O acaso
A palavra acaso é originária do latim a casu, e significa algo que surge ou acontece a
esmo, sem motivo ou explicação aparente.
Muitas das situações que presenciamos no nosso dia a dia são determinadas pelo acaso,
configurando situações que podem ser classificadas como sorte ou azar. Sair de casa apressado
e ver o ônibus partindo do ponto; não participar de um chat de dúvidas e este não ser realizado
devido à doença do professor; encontrar uma pessoa na rua com a qual você precisava conversar;
ser atendido pelo SUS antes que algo mais grave aconteça com a sua saúde; todos esses são
acontecimentos comuns a todos nós e, muitas vezes, determinados pelo acaso.

Fonte: <http://1.bp.blogspot.com/_Mc6hSIUqSgg/Sm4WqMEAemI/AAAAAAAABiY/Ls3XvHYN68c/s400/Charge+do+Pater+-+A+Tribuna3.jpg>. Acesso em: 4 maio 2010.
Esses acontecimentos acima citados apresentam duas características em comum:
1) Podem ou não acontecer (não sendo previsto com certeza).
2) Qualquer um deles acontecerá um certo número de vezes (e não ocorrerá um outro número
de vezes) ao longo de um determinado período de tempo.
Essas duas características podem ser apresentadas no exemplo acima, no qual você pode
não participar de um chat de dúvidas e este não ser realizado devido à doença do professor
e você pode não participar de um chat de dúvidas e este ocorrer sem a sua participação
(característica 1). Também, esse fato pode ocorrer um determinado número de vezes e se
repetir durante um certo tempo, no caso de você não participar de vários chats marcados pelo
professor e ter a sorte dele adoecer em diversas ocasiões (característica 2).
Existem situações nas quais, embora não se saiba o que de fato irá acontecer, tem-se
uma lista de possíveis resultados. Como por exemplo:
1) O sexo de uma criança: masculino ou feminino.
2) O tipo sanguíneo de uma pessoa: A, B, AB e O.
3) O resultado obtido pelo aluno numa disciplina: aprovado ou reprovado.
Essas situações são denominadas pelos matemáticos de ensaio probabilístico ou ensaio

aleatório, pois os resultados dependem do acaso. Isto é, embora se possa saber os tipos
de resposta existentes, toda vez que o ensaio for repetido, você não poderá saber, a priori,
qual o resultado.

Um exemplo desse conceito foi abordado no lançamento de dados, onde as respostas
possíveis são os números de um a seis, todavia, é impossível você saber (a menos que exista
alguma irregularidade no jogo) qual o resultado (número) obtido ao se jogar o dado.
Outro exemplo desse conceito é quando se analisa a seguinte frase: “É provável que o meu
time ganhe a partida hoje?”. Pode-se esperar a ocorrência de três resultados para a partida:
 O meu time ganhar.
 Haver empate entre os dois times.
 O meu time perder.
Repare que todos os resultados possíveis são conhecidos “a priori”. Todavia, por mais
que você torça pela vitória do seu time, é impossível saber se ele vai ganhar o jogo antes do
término da partida.
Eventos aleatórios
Evento é cada um dos resultados possíveis de uma situação acontecer. Se considerarmos
os exemplos anteriormente citados, seria um evento o fato do camundongo número 2 girar a
roleta dentro da gaiola de experimento; do terceiro filho do casal nascer de olhos castanhos;
de sair o número 3 em um dado.
Um exemplo clássico de evento é o lançamento de uma moeda: se a moeda for honesta, Moeda honesta
o evento “cara” tem igual chance de ocorrer que o evento “coroa”, ou seja 50% de chance. Moeda não viciada, onde
Esses são denominados de eventos aleatórios (do latim alea, sorte), pois cada um deles (cara cara e coroa têm chances
iguais de acontecerem.
e coroa) tem a mesma chance de ocorrer em relação a seus respectivos eventos alternativos
(se der cara, o evento alternativo será coroa e se sair coroa, o evento alternativo será cara).
Fonte: Adaptado de <http://pion.sbfisica.org.br/pdc/var/eznewsletter_site/

storage/images/multimidia/charges/fisica_moderna_e_contemporanea/probabilidade
/24861-1-por-BR/probabilidade.jpg>. Acesso em: 4 maio 2010.

Outro exemplo de evento aleatório é a formação de um determinado tipo de gameta. Um
indivíduo heterozigoto Aa tem a mesma probabilidade de formar gametas portadores do alelo
A (50%) e do alelo a (50%), certo?
Heterozigoto
Indivíduo que tem dois

alelos diferentes do
mesmo gene (Aa).
Atividade 2
Alelo
Veja a seguir as probabilidades de ocorrência de alguns eventos aleatórios e tente explicar
Cada uma das formas por que cada um deles ocorre com a probabilidade indicada.
alternativas do
mesmo gene (A ou a).
A probabilidade de sortear uma carta de espadas de um baralho de 52 cartas é de 1/4.
1
A probabilidade de sortear um rei qualquer de um baralho de 52 cartas é de 1/13.

2
A probabilidade de sortear o rei de espadas de um baralho de 52 cartas é de 1/52.

3

Eventos independentes
Q
uando a ocorrência de um evento não afeta a probabilidade de ocorrência de um outro,
fala-se em eventos independentes. Por exemplo, ao lançar várias moedas ao mesmo
tempo, ou uma mesma moeda várias vezes consecutivas, o resultado do primeiro
lançamento não interfere no resultado dos demais lançamentos. Por isso, cada resultado é
um evento independente do outro.
Da mesma maneira, o nascimento de uma criança com um determinado fenótipo é

um evento independente em relação ao nascimento de outros filhos do mesmo casal. Por
exemplo, imagine um casal que já teve dois filhos homens. Qual a probabilidade de que uma
terceira criança seja do sexo feminino? Uma vez que a formação de cada filho é um evento
independente, a chance de nascer uma menina, supondo que homens e mulheres nasçam com
a mesma frequência, é 1/2 ou 50%, como em qualquer nascimento.
Eventos mutuamente excludentes

Os eventos são classificados como mutuamente excludentes, quando o acontecimento
de um implica na impossibilidade do outro ocorrer. Nesse caso, a soma das probabilidades
dos eventos é igual a 1 ou 100%.
Um exemplo desse tipo de evento é dado pela probabilidade de uma mãe ter uma criança
do sexo masculino ou feminino. Repare que para este evento, só existem duas opções, que são
excludestes entre si com relação ao sexo: masculino ou feminino. Nesse caso, a probabilidade
da mãe ter uma criança do sexo masculino é 0,5 (50%). Consequentemente, a probabilidade
dessa criança ser do sexo feminino é o complemento para 1 (100%), ou seja, 0,5 (50%).
Cálculo da probabilidade
A probabilidade de um determinado evento A ocorrer, é calculada pela equação:
número de eventos que apresentam A

P r(A) =
número total de eventos
Para realizarmos o cálculo da probabilidade, vamos considerar o exemplo a seguir e

efetuar sua resolução passo a passo.

Exemplo
Sabe-se que há 26 cartas pretas e 26 cartas vermelhas em um baralho comum de 52
cartas, não considerando os coringas. Qual a probabilidade de se tirar, ao acaso, uma carta
vermelha deste baralho?
Solução
Passo 1: Em primeiro lugar devemos identificar, no enunciado do problema, quais as
nossas variáveis:
– Número total de eventos: 52, pois este é o número total de cartas no baralho.
– Número de eventos que apresentam A: nesse caso, A é o conjunto de cartas vermelhas, e

há 26 cartas desse tipo em um baralho.
Passo 2: Identificados o número total de eventos e o número de eventos que representam A,

devemos aplicar a fórmula da probabilidade:
número de eventos que apresentam A 26 1
P r(A) = = = = 0, 5
número total de eventos 52 2
Passo 3: Agora é só concluir: A probabilidade de se tirar, ao acaso, uma carta vermelha deste
baralho é de 0,5. Muitas vezes apresentamos o valor da probabilidade em porcentagem. Nesse
caso, é só multiplicar o valor obtido por 100. Assim temos:
0,5 × 100= 50%.
Atividade 3
No lançamento de um dado, qual a probabilidade de:
1
a) Sair o número 6?

b) Sair um número múltiplo de 3?
c) Sair um número menor do que 3?
A probabilidade de um casal heterozigoto (Aa x Aa) para o gene da fenilcetonúria

2 (doença genética caracterizada pelo defeito ou ausência da enzima fenilalanina
hidroxilase ) ter um filho afetado (aa) é 1/4. Se o casal tem 3 filhos, qual a possibilidade
de um dos filhos ter a doença? Justifique sua resposta.
Se a probabilidade de um indivíduo ter sangue Rh– é 10%, qual é a possibilidade de

3 5 indivíduos que se apresentaram para exame de sangue serem todos Rh–?
Justifique sua resposta.

Leis ou regras de probabilidade
Uma grande parte das perguntas relacionadas ao cálculo da probabilidade pode ser
respondida pela observação das suas Propriedades Elementares e a aplicação da Lei ou Regra
da Soma e da Lei ou Regra do Produto de probabilidade.
Propriedades Elementares
P1) A probabilidade de um evento impossível é nula (0%).
P2) A probabilidade de um evento certo é 1 (100%).
P3) A probabilidade de um evento qualquer é sempre um valor entre zero e um (entre 0% e

100%). Assim, é impossível se calcular uma probabilidade negativa ou maior que 1.
Regra da Soma ou regra do “ou”

Essa regra diz que a probabilidade de que ocorram eventos mutuamente excludentes
como, por exemplo, A ou B ou C ou D etc é a soma de suas respectivas probabilidades e o
total obtido será sempre igual a 1 (100%). Essa regra pode ser representada por:
P r(A ou B ou C ou D . . . .) = P r(A) + P r(B) + P r(C) + P r(D) + . . . .
Vamos ver um exemplo?
Exemplo
Qual a probabilidade de, em uma gestação, nascer um indivíduo do sexo masculino ou
do sexo feminino?
1 1
Solução
P r(masculino ou f eminino) = P r(masculino) + P r(f eminino) = + = 1
2 2
Assim, há 100% de probabilidade de nascer um indivíduo do sexo masculino ou do sexo
feminino.
Regra do Produto ou regra do “e”

Essa regra diz que a probabilidade de que ocorram, simultaneamente, os eventos E, F, G,
H etc. é o produto de suas respectivas probabilidades, se estes eventos forem independentes
entre si, e pode ser representado por:
P r(E, F, G, e H . . .) = P r(E) × P r(F ) × P r(G) × P r(H) . . .
Vamos ver um exemplo?

Exemplo
As variáveis gênero (masculino e feminino) e grupo sanguíneo (A, B, AB e O) são
características independentes na espécie humana. Admitindo uma proporção de 1:1 em Natal, a
probabilidade de um natalense selecionado ao acaso ser do sexo feminino e ter tipo sanguíneo O é:
P r(sexo f eminino e grupo O) = P r(sexo f eminino) × P r(grupo O) =
Solução 1 1
= × = 0, 125 ou 12, 5%
2 4
Pode-se concluir que há 12,5% de chance de um natalense ser do sexo masculino e ter
sangue tipo O.
Vamos vem uma aplicação das regras de probabilidade na genética?
Em experimentos realizados por Mendel, observou-se que o cruzamento de ervilhas
amarelas homozigotas (AA) com ervilhas verdes homozigotas (aa) originaram ervilhas
amarelas heterozigotas (Aa). Se essas ervilhas fossem cruzadas entre si, seriam originadas
ervilhas amarelas e verdes, na proporção de 3:1. Suponha que Mendel pegou, ao acaso, três
ervilhas, resultantes do cruzamento de ervilhas amarelas heterozigotas. Qual a probabilidade
de as três serem verdes?
Figura 3 – Gregor Johann Mendel
Resolução
De acordo com o enunciado do texto, se cruzarmos ervilhas amarelas AA com ervilhas verdes
(aa), temos 100% de ervilhas amarelas, pois ambas ervilhas produzirão gametas de um tipo só:

as amarelas produzirão gametas A e as verdes a. A combinação desses gametas
origina apenas Aa, ou seja, ervilhas amarelas.
Agora, se cruzarmos as ervilhas amarelas originadas desse cruzamento (Aa)

entre si, teremos a produção de dois tipos de gametas para cada uma: gametas
A e a. E se realizarmos sua combinação, teremos:
A a
AA Aa
A Proporção 3:1 = Três ervilhas
Ervilha amarela Ervilha amarela
amarelas para uma ervilha verde
Aa aa
a
Ervilha amarela Ervilha verde
Assim, por esse cruzamento, podemos concluir que a probabilidade de uma

ervilha resultante do cruzamento de Aa × Aa de ser verde (aa) é uma em quatro,
ou seja 1/4 ou 25%.
Agora podemos calcular a probabilidade das três ervilhas serem verdes, aplicando
a regra do produto:
1 1 1
Pr(três ervilhas verdes) = Pr(ervilha verde)×Pr(ervilha 1 verde)×Pr(ervilha
P r(três ervilhas verdes) = × × = ou 1, 56%
verde) 4 4 4 64
Atividade 4
Um casal tem dois filhos. Qual a probabilidade de:
O primogênito ser homem.

1

Os dois filhos serem homens.
2
Pelo menos um dos filhos serem homem.

3
Resumo
Nesta aula, você conheceu um pouco da história da probabilidade e compreendeu
o seu conceito. Entendeu o conceito de acaso e estudou os principais tipos
de eventos: aleatórios, independentes e mutuamente excludentes. Aprendeu
como calcular a probabilidade utilizando a sua fórmula e visualizando exercícios
resolvidos. Conheceu as leis de probabilidade, ou seja, regra da soma ou regra do
ou e a regra do produto ou regra do e, bem como suas propriedades elementares.
Aprendeu como aplicar essas leis tendo como exemplo situações cotidianas e
exercícios de genética.

Autoavaliação
Agora que você já compreendeu os principais conceitos e regras que compõem a Teoria
da Probabilidade, teste seus conhecimentos adquiridos, resolvendo o exercício abaixo.
Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo O é 40%, ser do tipo
A é 30% e ser do tipo B é 20%. Suponha ainda que a probabilidade de Rh+ é de 90% e que o
fator Rh independe do tipo sanguíneo. Nessas condições, qual a probabilidade de uma pessoa
tomada ao acaso da população ser:
O, Rh+
1
AB, Rh–
2

Referências
Artmed, 2003.
CRUSIUS, C. A. A razão como faculdade calculadora: a aposta de Pascal. Porto Alegre: Ed.
Universidade/UFRGS, 2001.
LOPES, Paulo Afonso. Probabilidade e estatística: conceitos, modelos e aplicações em excel.

Rio de Janeiro: Reichamann e Afonso Editores, 1999.
Anotações

Anotações

Anotações

Anotações

Esta edição foi produzida em mês de 2012 no Rio Grande do Norte, pela Secretaria de
Educação a Distância da Universidade Federal do Rio Grande do Norte (SEDIS/UFRN).
Utilizando-se Helvetica Lt Std Condensed para corpo do texto e Helvetica Lt Std Condensed
Black títulos e subtítulos sobre papel offset 90 g/m2.
Impresso na nome da gráfica
Foram impressos 1.000 exemplares desta edição.
SEDIS Secretaria de Educação a Distância – UFRN | Campus Universitário

Praça Cívica | Natal/RN | CEP 59.078-970 | sedis@sedis.ufrn.br | www.sedis.ufrn.br

Bioestatistica LIVRO WEB

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bioestatistica LIVRO WEB

Enviado por

Direitos autorais:

Formatos disponíveis

Biologia

Lilian Giotto Zaros

Natal – RN, 2011

Universidade Federal do Rio Grande do Norte – UFRN

Secretaria de Educação a Distância (SEDIS)

COORDENAÇÃO DE PRODUÇÃO DE MATERIAIS DIDÁTICOS EDITORAÇÃO DE MATERIAIS

Revisão de Língua Portuguesa

Revisão das Normas da ABNT

Catalogação da publicação na fonte. Bibliotecária Verônica Pinheiro da Silva.

Zaros, Lilian Giotto.

Conteúdo: Aula 1 – O que é bioestatística. Aula 2 – Como transformar dados em informações.

Disciplina ofertada ao curso de Biologia a distância da UFRN.

1. Bioestatística. 2. Hipóteses. 3. Probabilidade. I. Medeiros, Henrique Rocha de. II. Título.

Aula 1 O que é Bioestatística 7

Aula 2 Como transformar dados em informações 25

Aula 3 Descrevendo Sistemas 43

Aula 4 Elaborando hipóteses 65

Aula 5 Testando hipóteses 83

Aula 6 Análise de variância 101

Aula 7 Correlacionando informações 129

Aula 8 Análise de regressão 147

Aula 9 Entendendo os números índices e suas aplicações 173

Aula 10 Probabilidade:conceitos e aplicações 193

SECRETARIA DE EDUCAÇÃO A DISTÂNCIA

Conhecer e distinguir as diversas fases do método

Deﬁnir o que é Bioestatística.

Distinguir as técnicas de amostragem para a escolha de

Mas, além do cotidiano, a Estatística pode estar presente em qualquer disciplina de

Mas você deve estar se perguntando:

A Estatística tem se mostrado um instrumento extremamente útil na organização

1) Planejamento, auxiliando na escolha das situações experimentais e na determinação da

3) Na elaboração das conclusões, utilizando os vários métodos estatísticos que permitem

Estatística é a ciência que tem como objetivo orientar a coleta, o resumo, a

Altura dos alunos Altura dos alunos Altura dos alunos

1,54 1,67 1,65

As fases do método estatístico, que incluem desde a deﬁnição do problema até

Procure, no seu cotidiano, duas utilizações da Estatística.

Unidade experimental ou Unidade de observação

Entretanto, as variáveis podem ser classiﬁcadas em quantitativas e qualitativas:

a) Variáveis quantitativas discretas: são aquelas em que os dados podem apresentar

b) Variáveis quantitativas contínuas: são aquelas em que os dados podem apresentar

a) Variáveis qualitativas nominais: os níveis de respostas não admitem nenhuma ordem,

b) Variáveis qualitativas ordinais: os níveis de respostas admitem ordem. Não é só

Classiﬁque as variáveis abaixo:

b) Número de patas de um coelho:

c) Número de células brancas no sangue:

e) Tipo de folha de uma árvore:

f) Número de colônias de E. coli existente na água mineral:

Fonte: <martabolshaw.blogspot.com/2008_03_01_archive.html>. Acesso em: 25 fev. 2010.

E se pegássemos apenas uma amostra dessa população? O estudo cuidadoso de uma

Amostra casual simples

A pergunta é: Quais vasos escolher para receber 1mg, 3 mg e 5mg de cálcio?

Conceitue população e amostra, exempliﬁcando.

Se você conseguiu respondê-las, suas respostas certamente contêm os elementos

INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA – IBGE. Disponível em: <www.ibge.

SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo

VIEIRA, Sonia. Introdução à bioestatística. Rio de Janeiro: Campus, 1980.

Conceituado dados e banco de dados, estudaremos as diferenças entre dados e

Tenha em mãos o seu material da Disciplina de Matemática e Realidade, pois faremos a

Variável Vamos deﬁnir o que são os dados?

Dados isolados, como é o caso dos 21 espinhos de mandacaru, obtidos somente de

Como organizar os dados?

1) Ter contado ou estimado o número médio de espinhos de todas as plantas.