Escolar Documentos
Profissional Documentos
Cultura Documentos
Bioestatistica LIVRO WEB PDF
Bioestatistica LIVRO WEB PDF
Bioestatística
Biologia
2ª Edição
Bioestatística
Vice-Presidente da República
Michel Miguel Elias Temer Lulia
Ministro da Educação
Fernando Haddad
Vice-Reitora
Maria de Fátima Freire Melo Ximenes
FICHA TÉCNICA
ISBN 978-85-7273-833-0
CDU 311
Z38b
© Copyright 2005. Todos os direitos reservados a Editora da Universidade Federal do Rio Grande do Norte – EDUFRN.
Nenhuma parte deste material pode ser utilizada ou reproduzida sem a autorização expressa do Ministério da Educacão – MEC
Sumário
Apresentação Institucional 5
A
Secretaria de Educação a Distância – SEDIS da Universidade Federal do Rio Grande
do Norte – UFRN, desde 2005, vem atuando como fomentadora, no âmbito local, das
Políticas Nacionais de Educação a Distância em parceira com a Secretaria de Educação
a Distância – SEED, o Ministério da Educação – MEC e a Universidade Aberta do Brasil –
UAB/CAPES. Duas linhas de atuação têm caracterizado o esforço em EaD desta instituição: a
primeira está voltada para a Formação Continuada de Professores do Ensino Básico, sendo
implementados cursos de licenciatura e pós-graduação lato e stricto sensu; a segunda volta-se
para a Formação de Gestores Públicos, através da oferta de bacharelados e especializações
em Administração Pública e Administração Pública Municipal.
Para dar suporte à oferta dos cursos de EaD, a Sedis tem disponibilizado um conjunto de
meios didáticos e pedagógicos, dentre os quais se destacam os materiais impressos que são
elaborados por disciplinas, utilizando linguagem e projeto gráfico para atender às necessidades
de um aluno que aprende a distância. O conteúdo é elaborado por profissionais qualificados e
que têm experiência relevante na área, com o apoio de uma equipe multidisciplinar. O material
impresso é a referência primária para o aluno, sendo indicadas outras mídias, como videoaulas,
livros, textos, filmes, videoconferências, materiais digitais e interativos e webconferências, que
possibilitam ampliar os conteúdos e a interação entre os sujeitos do processo de aprendizagem.
Assim, a UFRN através da SEDIS se integra o grupo de instituições que assumiram o
desafio de contribuir com a formação desse “capital” humano e incorporou a EaD como moda-
lidade capaz de superar as barreiras espaciais e políticas que tornaram cada vez mais seleto o
acesso à graduação e à pós-graduação no Brasil. No Rio Grande do Norte, a UFRN está presente
em polos presenciais de apoio localizados nas mais diferentes regiões, ofertando cursos de
graduação, aperfeiçoamento, especialização e mestrado, interiorizando e tornando o Ensino
Superior uma realidade que contribui para diminuir as diferenças regionais e o conhecimento
uma possibilidade concreta para o desenvolvimento local.
Nesse sentido, este material que você recebe é resultado de um investimento intelectual
e econômico assumido por diversas instituições que se comprometeram com a Educação e
com a reversão da seletividade do espaço quanto ao acesso e ao consumo do saber E REFLE-
TE O COMPROMISSO DA SEDIS/UFRN COM A EDUCAÇÃO A DISTÂNCIA como modalidade
estratégica para a melhoria dos indicadores educacionais no RN e no Brasil.
5
O que é Bioestatística
Aula
1
Apresentação
N
esta primeira aula, apresentaremos um breve histórico da Estatística, suas subdivisões
e como podemos utilizá-la no ramo das Ciências Biológicas. Num segundo momento,
abordaremos o conceito de Bioestatística e suas aplicações, partindo para a retomada de
alguns conceitos vistos na disciplina de Matemática e Realidade. Essa retomada é essencial não
somente para a compreensão das aulas seguintes, mas também da disciplina como um todo.
Para compreender os assuntos que serão abordados nesta aula, é necessário que você
leia atentamente os conceitos, que sempre serão acompanhados de exemplos aplicados às
Ciências Biológicas.
Ao final de cada tópico principal haverá uma série de exercícios propostos para você
resolver, além de exercícios já resolvidos. No final da aula, haverá uma autoavaliação para que
você avalie a sua aprendizagem. Tenha sempre seu caderno em mãos para que você anote
suas dúvidas e as encaminhe para nós o mais rápido possível.
Objetivos
Conhecer a história da Estatística e identificar as situações
1 onde ela pode ser aplicada.
Aula 1 Bioestatística 9
O que é Estatística?
Para alguns, responder a essa pergunta é muito fácil, mas para outros, que nunca ouviram
falar em estatística, pode parecer algo impossível de entendimento. Mas, mesmo sem saber,
você já deve ter utilizado a estatística no seu cotidiano. Vamos conferir?
Com a chegada da Copa do Mundo de 2010, muitas lojas irão fazer promoções de
televisores. Você, consumidor, quer comprar uma TV e para saber qual delas tem o melhor
preço, inicia sua pesquisa de loja em loja, anotando os valores. Depois, em casa, compara os
preços, seleciona aquele mais em conta e se dirige até a loja para efetuar a sua compra. Nessa
situação, a estatística esteve presente quando você coletou os dados, extraiu as informações
a partir da sua pesquisa e tomou as decisões baseadas na sua coleta de dados.
B
em, se o professor da disciplina de Biodiversidade pedir para que você faça um
levantamento de quais as espécies animais habitantes da caatinga estão ameaçadas de
extinção, você estará utilizando um dos princípios da Estatística, ou melhor, do método
estatístico (que veremos a seguir), que é o da coleta de dados. Mas se ele for mais além, e pedir
para que você ordene quais os animais mais ameaçados de extinção, aí você terá que fazer
um levantamento mais aprofundado, checar outras fontes, organizar e interpretar os dados e
apresentar os resultados ao professor. Nesse momento você ainda estará utilizando a estatística.
Percebeu como a Estatística toma parte do nosso cotidiano e das disciplinas do Curso
de Ciências Biológicas, por exemplo?
10 Aula 1 Bioestatística
O papel da Estatística quando estabelecida como ciência
Pois bem, inicialmente a Estatística se preocupava em enumerar coisas e pessoas para
a avaliação das riquezas e cadastramento das propriedades de uma determinada cidade. Isso
aconteceu há milhares de anos atrás e atualmente acontece no Brasil a cada 10 anos.
Você já deve ter recebido em sua casa um funcionário do Instituto Brasileiro de Geografia
e Estatística (IBGE), munido de um questionário para avaliar sua condição de vida. Pois é esse
questionário, chamado de CENSO, que nos permite adquirir informações sobre cada família
brasileira, e já era realizado em civilizações muito antigas como a do Império Romano, da China
e do antigo Egito em 1000 a.C.
Fonte: <http://matematiques.sites.uol.com.br/pereirafreitas/1.1.2metodoestati
stico.htm>. Acesso em: 25 fev. 2010.
Hoje, com o passar dos anos, podemos constatar que o papel da Estatística vai além de
organizar e descrever fatos e/ou gerar informações analisando um conjunto de dados coletados,
mas também auxiliar no:
2) Na análise dos dados, indicando técnicas para resumir e apresentar as informações, bem
como para comparar as situações experimentais ou não.
Aula 1 Bioestatística 11
O método estatístico apresenta as seguintes fases:
Definição do problema: Podemos ilustrar essa primeira fase do método estatístico com a
pergunta: O que pesquisar? Nessa etapa você deve conhecer o problema a ser pesquisado,
fazer as perguntas às quais quer que sejam respondidas com a sua pesquisa. Por exemplo:
A altura média dos alunos de cada semestre do Curso de Ciências Biológicas.
Planejamento da pesquisa: Essa segunda etapa pode ser traduzida com a pergunta: Como
pesquisar? Assim, é essencial que você tenha clareza de como a pesquisa será feita. Deve-se
também definir se você utilizará a população ou apenas uma amostra dessa população, que
estudaremos logo a seguir. Utilizando o nosso exemplo acima, devemos planejar se vamos
estudar a altura de todos os alunos do Curso de Ciências Biológicas ou somente dos alunos
do primeiro semestre, ou somente a altura dos homens.
Coleta dos dados: Podemos perguntar: O que coletar? Nessa etapa você deve obter as
informações de acordo com o que foi planejado na etapa anterior. Se o objetivo é saber a altura
dos alunos de cada semestre do Curso de Ciências Biológicas, você deve iniciar as medições de
cada um dos alunos, anotando os valores obtidos, como exemplificados na tabela 1.
Tabela 1 – Altura, em metros, dos alunos do 1º, 2º e 3º semestres do Curso de Ciências Biológicas
12 Aula 1 Bioestatística
Crítica dos dados: Essa fase é essencial para saber como anda a sua pesquisa. Pode-se lançar
a seguinte pergunta: Os dados estão coerentes? Você deve observar criticamente os dados
coletados, para que, se detectado algum erro, este não seja repetido nas coletas futuras.
Se você está medindo as alturas dos alunos de cada semestre do Curso de Ciências Biológicas
e encontra uma medida de 3,54 m, conforme apresentado em destaque na Tabela 1, pode ter
certeza que nessa hora, você cometeu algum erro.
Apresentação: Nessa etapa você deverá apresentar os dados coletados após eles serem
organizados. Uma vez os dados coletados, eles devem ser apresentados, seja através de
tabelas ou gráficos, conforme apresentado no Gráfico 1, ou por meio de um texto escrito.
2
1,9
Altura média (m)
1,8
1,7
1,6
1,5
1,4
Alunos do Alunos do Alunos do
semestre 1 semestre 2 semestre 3
Gráfico 1 – Altura média (m) dos alunos do primeiro, segundo e terceiro semestre do Curso de Ciências Biológicas
Análise e interpretação dos dados: Essa é a etapa final do método estatístico, mas nem por
isso, a menos importante. Nessa fase você deve descrever e analisar os dados pesquisados, e
chegar a uma conclusão, ou seja, responder a sua pergunta inicial. No caso do nosso exemplo,
constatar qual a altura média dos alunos de cada semestre do Curso de Ciências Biológicas.
Aula 1 Bioestatística 13
Atividade 1
Com base no que você viu até agora sobre o método estatístico, faça uma pesquisa
na sua casa ou comunidade sobre algo que você gostaria de saber (número de
pessoas da comunidade, número de pessoas com olhos claros, tipo de árvore da
sua região, dentre outros) e, à medida que você for organizando sua pesquisa,
explicite quais as fases do método estatístico que você utilizou.
14 Aula 1 Bioestatística
Mas você deve estar se
perguntando: “E a Bioestatística?”
Agora que você já sabe o que é Estatística, você se arriscaria a elaborar uma definição para
Bioestatística? É simples! Considera-se Bioestatística a aplicação dos métodos estatísticos
para solucionar problemas biológicos.
Pode parecer difícil para um aluno que não tem gosto pela Matemática aprender
Bioestatística. Mas ele deve adquirir algum conhecimento sobre essa disciplina, pois só assim
poderá ter um ponto de vista objetivo sobre as técnicas do método científico empregado nas suas
pesquisas e saberá avaliar o grau de importância da informação fornecida por essas técnicas.
Aprender Bioestatística também pode proporcionar que você se familiarize com alguns
conceitos mais utilizados na área. Alguns termos do vocabulário comum têm significado técnico
e específico quando usados em Bioestatística. E é importante conhecê-los.
Enfim, sem despender muito tempo com cálculos e demonstrações, pretendemos que
você adquira os conhecimentos suficientes para tornar-se um usuário competente das técnicas
estatísticas mais comuns que podem ser aplicadas nas Ciências Biológicas.
Atividade 2
Com base no que foi apresentado até aqui, escreva o que você entendeu sobre o que
1 é Bioestatística e qual a sua importância.
Aula 1 Bioestatística 15
Retomando alguns
conceitos fundamentais
Alguns conceitos fundamentais para o entendimento e aplicação da Bioestatística você
já viu na disciplina de Matemática e Realidade (Aula 2 – A Estatística: do senso comum ao
conhecimento científico. Vamos retomá-los?
População
É o conjunto de “todos” os elementos (pessoas, animais, plantas, objetos) que
apresentam, pelo menos, uma característica comum e que pode ser observada, como por
exemplo, a população de árvores de mandacaru do sertão do Rio Grande do Norte.
Amostra
É qualquer parte retirada de uma população estatística, ou seja, é qualquer subconjunto
de uma população. Árvores de mandacaru do município de Currais Novos (RN).
Dados
São as informações numéricas ou não obtidas de uma unidade experimental ou de observação.
Quando se afirma que as árvores de mandacaru têm 21 espinhos, os dados são “21 espinhos”.
Variável
É alguma característica que pode ser observada (contada ou medida) em uma população
ou em uma amostra. O número de espinhos do mandacaru, a idade de uma pessoa e seus
16 Aula 1 Bioestatística
hábitos quanto ao fumo, a estatura de um jogador de basquete, a cor da pelagem dos animais,
o tipo de folha de uma planta constituem exemplos de variáveis.
1) Variáveis quantitativas: são aquelas cujos dados são valores numéricos, como por exemplo,
a estatura das pessoas, o número de sementes de uma vagem, o nível de colesterol no
sangue, o número de espinhos do mandacaru. As variáveis quantitativas podem ainda ser:
2) Variáveis qualitativas: são aquelas que fornecem dados de natureza não numérica, ou
seja, fornecem qualidade à variável, como por exemplo, a cor da semente das ervilhas, a
raça ou o sexo do animal. As variáveis qualitativas podem ser:
Atividade 3
Explique com suas palavras o que você entendeu por:
1
a) População:
Aula 1 Bioestatística 17
b) Amostra:
c) Variável:
a) Cor do cabelo:
d) Tipo sanguíneo A, B, AB e O:
18 Aula 1 Bioestatística
Utilizando as
amostras de uma população
O
s experimentos são realizados com amostras de uma população e não com toda
a população e podemos apresentar duas razões para isso: A primeira, porque as
populações finitas só podem ser estudadas através de amostras, como por exemplo,
um conjunto de alunos de uma escola em determinando ano, e a segunda, porque essas
populações são muito grandes. Imagine sabermos o tipo sanguíneo mais frequente dos
brasileiros? Levaríamos muito tempo e teríamos muito trabalho para realizarmos esses testes.
Aula 1 Bioestatística 19
Como fazer para
escolher a amostra correta?
Quando trabalhamos com uma amostra da população, utilizamos as técnicas de
amostragem, isto é, escolhemos o procedimento que vamos adotar para escolher os elementos
que irão compor a amostra.
Vamos supor que você esteja no laboratório de biologia vegetal e quer realizar um
experimento para avaliar os efeitos de diferentes quantidades de cálcio (1mg, 3 mg e 5 mg)
no crescimento da planta. Para a realização desse experimento temos 15 vasos de plantas,
nas mesmas condições de umidade, luz, temperatura, altura da planta e estado nutricional.
20 Aula 1 Bioestatística
Amostra sistemática
Os elementos são escolhidos por um sistema. Se no exemplo acima, você escolhesse
somente os vasos listrados de preto, estaria organizando uma amostragem sistemática.
Amostra estratificada
É composta por todos os elementos originados de todos os estratos da população.
Por exemplo: A população de Natal (RN) é composta por crianças, jovens, adultos e idosos.
Uma amostra estratificada tem que ter uma representação na mesma proporção das quatro
categorias acima citadas, ou seja, 10 crianças, 10 jovens, 10 adultos e 10 idosos.
Amostra de conveniência
É formada por elementos que o pesquisador reuniu somente porque dispunha deles.
Se você utilizar todos os vasos de plantas citados no primeiro exemplo, independente de um
critério, esta amostra constituirá numa amostra de conveniência. Entretanto, você deve ter
muito cuidado ao utilizar esse tipo de amostra, pois os dados podem ser tendenciosos, não
revelando a realidade da situação.
Atividade 4
Responda às questões abaixo de acordo com o que você entendeu sobre amostras e
seus tipos.
Um pesquisador tem dez gaiolas. Cada uma delas contém seis ratos. Como esse
1 pesquisador pode selecionar dez ratos para compor sua amostra?
Dada uma população de quarenta cajueiros, descreva uma forma de obter uma
2 amostra casual simples composta por seis cajueiros.
Aula 1 Bioestatística 21
Organize uma lista com dez nomes de pessoas em ordem alfabética. Depois descreva
3 uma forma de obter uma amostra sistemática de cinco nomes.
Resumo
Nesta primeira aula, você viu um breve histórico da Estatística e como podemos
aplicá-la nas Ciências Biológicas. Estudou que, com o passar dos anos, o papel
da Estatística se modificou, indo além de organizar e descrever fatos e/ou
gerar informações. Você pode perceber que ela vem auxiliando na escolha das
situações experimentais, na determinação da quantidade de indivíduos a serem
examinados, na análise dos dados, indicando técnicas para resumir e apresentar
as informações e na elaboração das conclusões. Você aprendeu a definição
de método estatístico e todas as suas fases, desde a definição do problema,
passando pelo planejamento, coleta e crítica dos dados, até a apresentação,
análise e interpretação dos dados. Estudou também a Bioestatística, ou seja,
a aplicação da Estatística nas Ciências Biológicas, e retomou alguns conceitos
essenciais para o seu entendimento e aplicação, como a definição de população,
amostra e variável. Por fim, viu que as técnicas de amostragem constituem um
conjunto de procedimentos que vamos adotar para escolher os elementos que
irão compor a amostra que queremos analisar.
Autoavaliação
Nesta aula, você deve ter percebido a importância da Estatística e da aplicação dos
métodos estatísticos para solucionar problemas biológicos. Feito isto, verifique se você
consegue responder, de maneira resumida, às seguintes perguntas:
22 Aula 1 Bioestatística
Qual a finalidade e as fases do método estatístico?
1
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003.
LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso
Editores, 1999.
Aula 1 Bioestatística 23
Anotações
24 Aula 1 Bioestatística
Como transformar
dados em informações
Aula
2
Apresentação
Nesta aula, estudaremos o conceito de dados e banco de dados. Veremos como criar
um banco de dados e, posteriormente, a transformar os dados em informações. Inicialmente
faremos uma retomada dos principais conceitos vistos na Aula 1 – O que é Bioestatística – para
depois iniciarmos a apresentação dos novos conceitos sobre os dados.
Bom estudo!
Objetivos
Conceituar dados e banco de dados.
1
Distinguir a diferença entre dados e informações.
2
Estabelecer critérios para fazer uma coleta de dados.
3
Analisar os dados coletados.
4
Aula 2 Bioestatística 27
Retomando alguns
conceitos da Aula 1
Unidade Experimetal Antes de iniciarmos a nossa aula, é conveniente você relembrar o que é uma unidade
É a menor unidade a experimental, uma variável e como esta pode ser classificada (Aula 1– O que é Bioestatística).
fornecer uma informação.
Podem ser pessoas,
animais, plantas, objetos.
Conjunto de dados, como é o caso dos diversos valores pesquisados pelo consumidor
antes de comprar a televisão. Nesse caso, para que esses dados transmitam alguma informação,
eles devem ser organizados.
Mas, qual a relevância deste dado (21 espinhos), se o objetivo do meu trabalho é
determinar o número médio de espinhos nos mandacarus em um jardim que tem 20 plantas?
Observe que, nesse caso, teremos que traçar uma estratégia de planejamento e
organização de trabalho, de modo que se possa ao final:
28 Aula 2 Bioestatística
2) Conseguir lembrar ou guardar esses números, a fim de que, se outro indivíduo precisar
recomeçar ou continuar o trabalho, possa repetir o mesmo e chegar a resultados semelhantes.
Nesse momento, quando nos deparamos com uma quantidade maior de dados a serem
coletados para posterior análise, precisamos organizá-los em um banco de dados.
Atividade 1
Aula 2 Bioestatística 29
Banco de dados
Um banco de dados é um conjunto de registros (de números ou variáveis qualitativas)
com uma estrutura regular que permite a reorganização e inserção desses registros de
Forma sistemática forma sistemática, com a finalidade de se gerar informações.
Forma organizada de Pode ser a agenda do seu telefone celular, a lista telefônica, o seu caderno de anotações
dispor os dados, seguindo e até um conjunto de dados organizados em uma planilha de Excel.
algum critério. Por
exemplo: ao arrumar suas Sim, isso mesmo! Mas desde que esses dados sejam organizados de forma sistemática.
camisetas no armário você
as ordena pela cor. Veja o exemplo a seguir:
Existem vários métodos para fazer essa determinação, neste caso o mais
recomendado é fazer uma revisão de literatura e procurar identificar o método
mais adequado. Para este caso específico do exemplo, podemos definir que
30 Aula 2 Bioestatística
serão avaliados 12 locais diferentes (L1, L2, L3, L4, L5, ... ,L12) e em cada um
destes locais serão coletadas amostras de parcelas de 4m 2 (Figura 1). Em cada
parcela, todas as plantas encontradas serão identificadas pelo nome comum e
o científico e contadas.
L1 L2 L3 L4
Parcela de 4m 2
contendo todas as
L5 L6 L7 L8
plantas a serem
contadas
L9 L 10 L 11 L 12
Depois de coletados os dados, veja, na tabela a seguir, como ficou a sua organização.
Viu como é fácil? Agora, que tal extrair uma informação desse conjunto de
dados? Identifique a espécie vegetal que apresenta o maior número de indivíduos
(plantas) na área amostrada.
Aula 2 Bioestatística 31
Atividade 2
Vamos tomar algumas medidas de biometria com seus conhecidos? Selecione um grupo
Biometria de 25 indivíduos (podem ser pessoas da sua família, amigos, alunos, colegas de trabalho, da
Estudo das características igreja e/ou de prática de esportes) e organize uma tabela com os seguintes dados: primeiro
biológicas quantitativas de nome, idade, sexo, altura e peso de cada um deles, utilizando a tabela a seguir.
uma população.
Primeiro nome Idade Sexo Altura Peso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
32 Aula 2 Bioestatística
Diferenciando os conceitos:
dados x informações
Para discutir o conceito de informações, vamos partir da seguinte situação:
Uma curiosidade...
Se, na minha lista telefônica, eu não encontrar o número de telefone da pessoa
que procuro ou se ele não for o correto, ainda assim isso é uma informação?
Sim, só que nesse caso o seu banco de dados (agenda do telefone) não serviu
para responder o seu questionamento. Por esse motivo, a informação obtida foi:
‘você não tem o número do telefone da pessoa’.
Neste caso, se realmente desejar falar com ela, você vai precisar conseguir a
informação correta em outra fonte de dados, que pode ser a lista telefônica, um
colega, etc.
Nessa situação é importante para lembrar que nem sempre o nosso conjunto
de dados vai permitir obter a informação necessária e/ou correta. São vários os
fatores que podem resultar nesse problema, dentre eles podemos citar problemas
na amostragem (número insuficiente e/ou amostras tendenciosas que conduzem
a conclusões inverídicas) e erros na coleta e/ou no processamento dos dados.
Aula 2 Bioestatística 33
Atividade 3
Na tabela construída na Atividade 2, conte o número de pessoas do sexo masculino e do
feminino que tem mais de 1,55m de altura e pesa mais que 68kg.
Para que isso não ocorra, é importante planejar e traçar uma estratégia para realizar
a coleta de dados. Essa estratégia de planejamento da Coleta de Dados é composta por:
Observação dos ítens do método estatístico (mencionada na Aula 1): Nessa primeira
fase você deve seguir as etapas do método estatístico, que são: (1) Identificação do problema
e (2) Formulação de hipóteses. Conhecendo esses dois ítens, entre outras coisas, é possível:
Traçar uma estratégia de ação que permita coletar, organizar e processar os dados de
forma precisa e correta. Assim, pode-se evitar desperdício de tempo anotanto informações
que não serão úteis e adequando as condições para coletar os dados e a necessidade do
trabalho. Desse modo, pode-se evitar erros na anotação ou processamento dos dados.
34 Aula 2 Bioestatística
Além disto, é importante antes de sair para coletar os dados, verificar:
Se existe material de coleta disponível (por exemplo: lápis e papel, frascos para armazenar
amostras etc.) para todo o trabalho.
Tendo como exemplo a Tabela 1, para fazer a coleta de dados de quais as espécies vegetais
e o número de plantas em cada parcela, precisamos de: fita métrica para demarcar o perímetro
da área amostral; lápis e papel para fazer anotar o nome comum (popular), o científico e
a quantidade de indivíduos de cada espécie. Além disso, para esse trabalho específico é
importante levar na equipe uma pessoa que conheça a flora regional e saiba identidicar as
plantas. Em caso de dúvidas, é interessante também ter recipientes adequados para coletar
amostras e levar para o biotério, a fim de fazer identificação correta da espécie.
Identificação do Formulação de
problema hipóteses
ETAPA OPERACIONAL
• Determinar o número de pessoas da equipe
• Realizar treinamento para a coleta dos dados
• Providenciar material necessário
• Organizar o trabaho no local da coleta
• Verificar o modo de armazenamento e
transporte do material coletado
Aula 2 Bioestatística 35
Atividade 4
Elabore um plano para a coleta de dados idade, peso e altura de todas as pessoas da
cidade onde você mora.
36 Aula 2 Bioestatística
Análise gráfica de conjunto de dados
Como dito anteriormente, um conjunto de dados só poderá ser transformado em
informação se, com ele, for possível realizar alguma análise e interpretação dos seus resultados.
Assim, podemos estabelecer alguns mecanismos de classificação para o conjunto de dados.
Uma das ferramentas que possibilitam essa organização sistematizada são as planilhas
(Figura 3), isto é, um conjunto de dados organizados em linhas e colunas, que podem ser
preenchidas manualmente ou em computadores (planilhas eletrônicas).
Figura 3 – Exemplo da planilha com linhas e colunas feita em computador. Os dados apresentados são referentes
ao exemplo utilizado na aula
Aula 2 Bioestatística 37
Levantamento fitossociológico de espécies encontradas numa área de Caatinga
1600
1400 Bambural
Número de indivíduos de cada espécie
1200
1000
Número de
800 indivíduos
600
400
Manda
Pulão
200 Malva
Carrapicho Milhã
Agulha Mata Melosa Pau
Angico Jitirana Pasto Mororó Branco Sabiá Tiririca Urtiga
0
Catingueira Marmeleiro Mofumbo
Espécies encontradas
Figura 4 – Identificação e quantificação das espécies vegetais encontradas numa área de caatinga na Região Nordeste do Brasil
Fonte: Henrique Rocha de Medeiros
Não existe um tipo mais correto de gráfico, todavia é importante que eles permitam
a interpretação rápida e o entendimento dos resultados e, além disso, que respeitem as
normas para a elaboração de gráficos e tabelas, como visto nas Aulas 3 e 4 da disciplina
Matemática e Realidade.
Exercício resolvido 1
Utilizando as informações da Tabela 1 (Levantamento fitossociológico de uma área de caatinga),
indique quantas espécies foram identificadas e qual o total de plantas contadas.
Resolução
Nessa tabela, os dados referentes a cada espécie (observe que os nomes
científicos não se repetem) estão organizados em linhas. Assim, observando-se
a tabela pode-se aferir que foram identificadas 17 espécies. O número total de
plantas contadas pode ser obtido somando-se o número de indivíduos de cada
espécie (4 + 1375+ 37+...+1+3+11 = 2005).
38 Aula 2 Bioestatística
Exercício resolvido 2
Ainda utilizando as informações da Tabela 1, identifique as três espécies que tem mais
indivíduos na amostra estudada. Nesse caso, a mesma resposta pode ser obtida analisando a
tabela ou construindo gráficos como pôde ser observado.
Resolução
Observando-se os resultados da tabela pode-se identificar que o bamburral, o
manda pulão e a malva, com respectivamente 1.375, 249 e 135 indivíduos cada,
são as espécies vegetais que têm o maior número de plantas na área estudada.
Essa mesma resposta pode ser obtida, analisando-se a Figura 4: Identificação
e quantificação das espécies vegetais encontradas numa área de caatinda na
Região Nordeste do Brasil.
Nesse caso, a opção pela tabela ou pelo gráfico se dará em função da necessidade de
informação. Se o objetivo for apenas identificar as espécies com maior número de indivíduos,
possivelmente o gráfico será a melhor alternativa. Entretanto, se a quantificação é necessária,
a organização da tabela em função do número de indivíduos poderá facilitar o trabalho.
Resumo
Você estudou o conceito de dados e banco de dados e aprendeu como criar
um banco de dados para, posteriormente, transformá-lo em informações. Você
retomou os principais conceitos vistos na Aula 1 – O que é Bioestatística – tais
como, unidade experimental, variável e classificação de variáveis. Você estudou
as diferenças entre dados e informações e aprendeu que, para que dados sejam
transformados em informações, precisa planejar sua coleta de forma a evitar
erros. Para isso, utilizou-se as duas primeiras etapas do método estatístico:
(1) Identificação do problema e (2) Formulação de hipóteses. Você estudou
também algumas ações que fazem parte do planejamento da coleta de
dados, como conhecer o local da coleta, formar uma equipe de coleta, levar
material necessário, dentre outros. Aprendeu que os dados coletados podem
ser organizados em planilhas eletrônicas feitas em computador, o que facilita
posterior análise e interpretação. Por fim, relembrou as formas de apresentação
dos dados, como por exemplo, em tabelas e gráficos.
Aula 2 Bioestatística 39
Autoavaliação
A dengue é uma doença grave, que está disseminada em todo o território nacional.
Então, que tal por em prática os conceitos da aula de hoje, transformando os dados sobre
essa epidemia em informação?
Para isto analise os dados que foram retirados de um texto extraído da página da Secretaria
de Saúde Pública (SESAP/RN) na internet.
<http://www.rn.gov.br/contentproducao/aplicacao/govrn/imprensa/enviados/noticia_detalhe.
asp?nImprensa=0&nCodigoNoticia=17319>:
Construa uma tabela com o número de casos notificados da doença no ano de 2009
1 em todo o estado do Rio Grande do Norte, na Região Metropolitana da capital, em
Natal e em Mossoró.
40 Aula 2 Bioestatística
Calcule a porcentagem de casos ocorridos no município de Natal em relação ao
2 restante do estado, analisando os dados da tabela elaborada na questão 1.
Se você conseguiu resolver o exercício acima, parabéns! Caso contrário, entre em contato
com o seu professor, retorne ao texto da aula, reveja os principais conceitos, volte à atividade
de autoavaliação e tente quantas vezes forem necessárias.
Referências
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001.
LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso
Editores, 1999.
Aula 2 Bioestatística 41
Anotações
42 Aula 2 Bioestatística
Descrevendo Sistemas
Aula
3
Apresentação
N
esta aula, estudaremos as aplicações da estatística descritiva nas Ciências Biológicas.
Para isto, utilizaremos dados de sistemas biológicos para calcular a média, variância,
desvio padrão, moda e mediana e veremos como obter informações com este tipo
de análise estatística. Desse modo, será importante que você tenha uma boa compreensão
dos conceitos vistos na Aula 1 – O que é Bioestatística – e Aula 2 – Como transformar
dados em informações. As análises que aqui serão realizadas terão como base os conceitos
apreendidos nessas aulas.
Objetivos
Distinguir os conceitos de estatística descritiva e suas
1 aplicações em Ciências Biológicas.
Aula 3 Bioestatística 45
Medidas de tendência central
As medidas de tendência central indicam um ponto, em torno do qual, se distribuem
ou concentram os números do conjunto de dados. Este tende a estar localizado no centro
da distribuição dos dados. As principais medidas de tendência central são a média, a moda e
a mediana, que estudaremos a seguir.
Média
A média de um conjunto de números pode ser definida como um valor que representa
o total desse conjunto, sem alterar as suas características. Esta medida (média) é um valor
de “equilíbrio” do conjunto de dados.
onde:
n = a quantidade de valores
Exercício resolvido 1
Um aluno tirou as notas: 0, 2, 4, 6 e 10, em cinco provas. Calcule a média das notas
desse aluno.
46 Aula 3 Bioestatística
Resolução
1) Primeiro devemos somar (∑x) todos os valores da cada prova: 0 + 2 + 4 +
6 + 10. O resultado é 22.
Exercício resolvido 2
Calcule a média geral das notas da turma de 25 alunos, de acordo com os dados
apresentados na Tabela 1.
Resolução
Neste caso, você pode resolver a questão (e encontrar a média geral da turma)
de duas maneiras:
2) O mesmo resultado de média (7,32) pode ser obtido se você multiplicar a nota + (3*1
3*10)
pelo número de alunos que tiraram a respectiva nota e fizer o somatório de 5*5 = 5+5+5+5+5;
8*7 =
todos os resultados, da seguinte maneira: (5*5) + (8*7) + (9*8) + (3*10) = 183. 7+7+7+7+7+7+7+7;
Assim, se dividirmos 183 por 25 obteremos o mesmo resultado para o cálculo 9*8 =
da média geral da turma, ou seja, 7,32. 8+8+8+8+8+8+8+8+8
e 3*10 =10+10+10
Aula 3 Bioestatística 47
Atividade 1
Calcule a média para os seguintes conjuntos de dados:
48 Aula 3 Bioestatística
Mediana e moda
A
análise da média deve refletir o conjunto de dados. Todavia, este cálculo pode ser
afetado por medidas muito discrepantes (muito altas ou muito baixas em relação ao
valor médio). Quando isto acontece, a média calculada não representa adequadamente o
que acontece no conjunto de dados. Para estas situações o cálculo da mediana e/ou da moda
pode ser uma alternativa adequada para descrever o conjunto de dados.
A mediana (cujo símbolo é md) é o valor que ocupa a posição central; esta medida divide
o conjunto de dados em duas metades iguais. Para calcular a mediana, organize o seu conjunto
de dados em ordem crescente e encontre o valor que está no centro da série.
Quando o número de dados for ímpar a mediana será o valor que está no centro da
série. Quando o número de dados for par, a mediana será a média dos valores que estão no
centro da série.
Exercício resolvido 3
Vamos descobrir a mediana do conjunto de dados utilizado para o cálculo das médias
do Exercício resolvido 2?
Valor 5 5 5 5 5 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 10 10 10
Posição 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
2) Note que temos 25 números. Esse valor é ímpar, e desse modo, a mediana será o valor
que divide esse conjunto. Neste caso, a mediana corresponderá ao número que está na
posição 13 (número 7), pois este dividirá o conjunto de dados em duas metades iguais,
com 12 dados (números) cada um, como se pode observar abaixo:
Valor 5 5 5 5 5 7 7 7 7 7 7 7
Posição 1 2 3 4 5 6 7 8 9 10 11 12
Mediana
Valor 7
Posição 13
Valor 8 8 8 8 8 8 8 8 8 10 10 10
Posição 14 15 16 17 18 19 20 21 22 23 24 25
Aula 3 Bioestatística 49
É interessante utilizar essa medida quando se estuda um grande conjunto de dados,
onde existe muita discrepância entre eles. Neste caso, a mediana pode ser uma medida mais
representativa que a média.
Já a moda (cujo símbolo é mo) representa o valor que ocorre com maior frequência no
conjunto de dados.
Neste exercício, a média, a mediana e a moda apresentam valores bem próximos entre si.
E, dependendo do conjunto de dados estas três medidas podem até ter o mesmo valor.
Entretanto, dependendo da variação existente no conjunto de dados, você deverá escolher
qual dessas medidas de tendência central (média, mediana ou moda) é a mais representativa
e adequada para ser utilizada.
Atividade 2
Calcule a média, a moda e a mediana para o conjunto de dados de uma classe com
1 seis alunos, cujas notas foram:
Aluno A B C D E F
Nota 2,0 5,0 8,0 5,0 7,5 3,5
50 Aula 3 Bioestatística
b) Calcule a média, a moda e a mediana desta turma.
c) Qual destas três medidas de tendência central, você acha mais adequada para descrever
o conjunto de dados? Justifique a sua resposta.
Medidas de dispersão
As medidas de dispersão indicam ou permitem ter noção do quanto estão distantes os
dados entre si. Ou seja, como eles variam em relação à média.
Neste sentido, a descrição de um conjunto de dados sempre se faz com uma medida de
tendência central (geralmente a média) e uma de dispersão associadas.
Amplitude
A amplitude corresponde à diferença entre o maior e o menor valor no conjunto de dados.
Esta medida nos fornece uma noção da dispersão dos dados.
Para explicar este conceito, vamos utilizar dois conjuntos de dados A e B, que representam
a nota obtida pelos alunos de uma determinada disciplina:
Conjunto de dados A: 4; 6; 4; 6; 5; 5
Conjunto de dados B: 9; 1; 5; 5; 1; 9
Aula 3 Bioestatística 51
Para calcular a amplitude destes dois conjuntos de dados, identifique, respectivamente,
o maior e o menor valor em cada um deles.
Observe que esta medida permite inferir que a variabilidade do conjunto de dados B é
maior que o do A.
Quando se trabalha com algumas variáveis de grande instabilidade como, por exemplo,
contagem de ovos por grama de fezes (OPG) utilizado para diagnóstico de verminose, onde
se podem determinar valores de amplitude superior a 10000 OPG, esta medida é bastante
interessante para demonstrar a variabilidade e a dispersão existente.
Estas características podem ser comprovadas nos dados da tabela a seguir (Tabela 2),
onde temos zero como o menor valor de OPG e 5100 como o maior valor.
Tabela 2 – Contagem de OPG (ovos/g) de um rebanho de ovinos mestiços (½ sangue Somalis × ½ sem raça definida)
mantidos em pastagem nativa naturalmente contaminada por larvas de nematódeos gastrintestinais
52 Aula 3 Bioestatística
Desvio em relação à media
O desvio em relação à média permite estimar o quanto um determinado valor se afasta
da média do conjunto. O cálculo do desvio em relação à média é dado pela diferença entre
o valor medido (observado) e a média do conjunto de dados (calculado previamente). Este é
representado matematicamente pela fórmula:
_
Desvio em relação a média = x – x .
Onde:
x = valor medido
_
x = valor da média calculada
Você notou que, apesar dos valores diferentes, a soma dos desvios é zero nos dois
conjuntos? Vamos ver o porquê?
Você pode está se perguntando: Se a soma dos desvios em relação à média é sempre
zero para qualquer conjunto de dados, como poderei utilizar esta medida?
Aula 3 Bioestatística 53
_
Neste caso, podemos utilizar um artifício matemático que é elevar o valor de (x – x )
_
ao quadrado, transformando-o em (x – x )2, e assim ter sempre um valor positivo para esta
operação. Assim, sempre que você calcular a soma dos desvios elevada a potência 2, obterá
um valor positivo e diferente de zero.
Vamos conferir?
Exercício resolvido 4
Calcule a soma dos desvios elevada à potência 2 para os conjuntos de dados A (4; 6;
4; 6; 5; 5) e B (9; 1; 5; 5; 1; 9).
Resolução
54 Aula 3 Bioestatística
Atividade 3
Retome os principais conceitos vistos nesta aula e defina:
a) Média:
b) Mediana:
c) Moda:
d) Amplitude:
Aula 3 Bioestatística 55
Variância de uma amostra
Depois de calcular os desvios em relação à média, agora, você já pode calcular a variância
(s ) de uma amostra. Esta medida de dispersão permite ter noção de quanto variam os dados
2
Onde:
Neste caso, para os dois conjuntos de dados, A e B, foram utilizados 6 valores, então
o valor de n é igual a 6 e, consequentemente, n – 1 = 5.
Desvio padrão
C
omo a variância é uma medida que estima os quadrados dos desvios em relação
a média, esta tem pouca aplicação prática. Visto que as unidades de medida dos dados
utilizados no cáculo da variância também são elevadas ao quadrado, o que dificulta a
interpretação das respostas. Tome-se por exemplo uma medida calculada em: kg ou cm ou m 2.
Neste caso, a variância será expressa em respectivamente: kg 2 ou cm 2 ou m 4; dificultando
a interpretação dos resultados.
56 Aula 3 Bioestatística
Uma forma de resolver este problema é extrair a raiz quadrada da variância, obtendo
assim o desvio padrão (s).
Onde:
S 2 = variância da amostra
Coeficiente de variação
Agora, o que representa o desvio em relação à média?
Onde:
s = Desvio Padrão
_
x = Média aritimética calculada para o conjunto de dados.
Aula 3 Bioestatística 57
Utilizando os dados do Exercício resolvido 4, teremos os seguintes coeficientes de variação.
Este resultado indica que o conjunto de dados A é mais homogêneo e menos instável
que o B.
Atenção
Não estamos afirmando que “A” é melhor do que “B” ou vice-versa, mas sim,
homogêneo. Isto é importante, para se avaliar a representatividade da média em
relação ao conjunto de dados.
Lembra quando falamos da média de dados de contagem de OPG e que nestes casos, se
pode ter amplitude superior a 10000?
Este é um caso de variável muito instável, onde a média não tem muita representatividade.
Nestas situações, trabalhar com a moda ou a mediana é mais interessante que com a média.
Atividade 4
Os dados a seguir fornecem a concentração de um determinado poluente (ppm) em 8
pontos de um afluente medidos uma hora antes e uma hora depois de um acidente ambiental:
Tabela 3 – Concentração (em ppm) de um determinado poluente nas águas de um rio antes e depois de um
acidente ambiental
58 Aula 3 Bioestatística
Utilizando o conjunto de dados da Tabela 3, calcule a média, a mediana, a moda, o
desvio padrão e o coeficiente de variação da concentração de poluentes antes e depois do
acidente ambiental.
Leitura complementar
PROJETO de ensino. Aprendendo a fazer estatística. Disponível em: <http://www.des.uem.
br/projetos/Estatistica_Descritiva.pdf>. Acesso em: 12 abr. 2010.
Este texto refere-se aos principais conceitos da Estatística Descritiva vistos na aula de
hoje. Além disto, sua leitura possibilitará conhecer outros exemplos de aplicações da Estatística
Descritiva, principalmente para você utilizar em situações de sala de aula tendo como exemplo
as situações do cotidiano.
Aula 3 Bioestatística 59
Resumo
Nesta aula, você estudou as aplicações da estatística descritiva nas Ciências
Biológicas. Para isto, você teve como exemplo dados de sistemas biológicos para
calcular a média, variância, desvio padrão, moda e mediana. Você compreendeu
como obter informações com este tipo de análise estatística e aprendeu a
realizar uma análise de um conjunto de dados utilizando a estatística descritiva.
Por fim, você pôde interpretar os resultados da análise dos dados, de modo a poder
caracterizar corretamente a amostra e poder fazer inferências sobre a população.
Autoavaliação
Um fazendeiro foi avaliar a produção de leite dos seus animais. Ele anotou os
dados na tabela a seguir (Tabela 4). Entretanto, ficou sem saber analisar, fazer
uma estatística descritiva dos resultados.
60 Aula 3 Bioestatística
Se você conseguiu resolver o exercício acima, parabéns. Caso contrário, entre em contato
com o seu professor. Retome o texto da aula, reveja os principais conceitos, volte à atividade
de Autoavaliação e tente quantas vezes forem necessárias.
Referências
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001.
LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso
Editores, 1999.
Aula 3 Bioestatística 61
Anotações
62 Aula 3 Bioestatística
Anotações
Aula 3 Bioestatística 63
Anotações
64 Aula 3 Bioestatística
Elaborando hipóteses
Aula
4
Apresentação
N
esta aula, apresentaremos o conceito de hipótese, exemplificando com situações
que fazem parte do seu cotidiano. Num segundo momento, veremos quais os tipos
de hipótese e como utilizá-los. Entenderemos o conceito de população amostral e
referência, os quais serão parte essencial na construção da hipótese. Estudaremos quais os
tipos de erros existentes ao se aceitar ou rejeitar uma hipótese verdadeira.
Nesta aula, temos exercícios resolvidos que servirão de guia para que você faça as
atividades propostas após cada assunto abordado.
Lembre-se: para que você compreenda os conceitos desta aula, é necessário que você
leia atentamente o texto, fazendo sempre anotações sobre suas dúvidas e questionamentos.
Objetivos
Definir hipótese.
1
Diferenciar os tipos de hipóteses.
2
Definir erro tipo I e tipo II.
3
Aula 4 Bioestatística 67
Uma provável teoria...
Fonte: <http://noticiasro.nafoto.net/images/photo20081004014824.jpg>.
Acesso em: 25 mar. 2010.
Figura 1 – Céu nublado
Mas, será que podemos comprovar essa hipótese? Será que essa hipótese pode
ser rejeitada? Que elementos temos para aceitar ou rejeitar essa hipótese?
Um exemplo foi a teoria da evolução dos seres vivos. Essa teoria teve várias hipóteses,
dentre elas a sustentada pelo cientista francês Jean-Baptiste Lamarck, que afirmava que os
seres vivos tinham de se transformar para melhor se adaptarem ao ambiente, ou seja, as girafas
teriam adquirido o pescoço longo ao se esforçarem para ter acesso à comida. Essa hipótese
não foi aceita pela ciência e foi substituída pelas hipóteses de Darwim, que originaram a Teoria
da Seleção Natural.
68 Aula 4 Bioestatística
Esse é apenas um exemplo de hipóteses que, quando aceitas, tornaram-se fatos, teorias.
Atividade 1
Baseado nos conhecimentos que você adquiriu durante o curso de Ciências
Biológicas, pesquise e descreva outras hipóteses que foram confirmadas ou
rejeitadas na história da Biologia.
Aula 4 Bioestatística 69
Um exemplo nos dias de hoje
Nas Ciências Biológicas, os trabalhos científicos são realizados com objetivos bem
estabelecidos, expressos por meio de afirmações – as hipóteses – que os pesquisadores
desejam verificar.
Entretanto, para saber quais das hipóteses são verdadeiras, o pesquisador deverá testá-las,
ou seja, inicia-se uma pesquisa para responder às suas perguntas.
No caso do exemplo acima, ele deve selecionar indivíduos, utilizar a medicação X e avaliar
se ocorre algum efeito colateral nos pacientes.
Dependendo dos resultados obtidos, o pesquisador aceita ou não a sua hipótese: se ele
verificar que os indivíduos apresentaram algum efeito colateral, como, por exemplo, alteração
na pressão arterial após a administração do medicamento, ele aceitará a hipótese 2; caso
contrário, deverá aceitar a hipótese 1.
Fonte: <http://frasesilustradas.files.wordpress.com/2009/04/hipotese.jpg>.
Acesso em: 25 mar. 2010.
70 Aula 4 Bioestatística
Atividade 2
Com base no que você leu até aqui, defina hipótese e construa duas hipóteses
sobre como será a disciplina de Bioestatística.
A hipótese científica é aquela que não menciona o valor do parâmetro. É o caso da nossa Valor do parâmetro
situação acima, em que as hipóteses formuladas não exprimem valor, ou seja, não se referem Valor do parâmetro:
à média da pressão sanguínea dos indivíduos analisados. é um número, um valor
que quantifica a variável.
Já a hipótese estatística menciona o valor do parâmetro. Seria o caso se, no exemplo
acima, o pesquisador apresentasse o valor médio da pressão sanguínea dos indivíduos
analisados, como, por exemplo, 128mmHg (milímetros de mercúrio).
O esquema a seguir resume os dois principais tipos de hipóteses com seus respectivos
exemplos e nos apresenta outros dois subtipos da hipótese estatística, a Hipótese Nula ou de
Nulidade (H0) e a Hipótese Alternativa (Ha).
Aula 4 Bioestatística 71
HIPÓTESE
O medicamento
O medicamento apresenta efeito
Parâmetro Parâmetro
apresenta efeito colateral sobre a
sem valor com valor
colateral média de pressão
sanguínea
Hipótese Hipótese
Nula Ho Alternativa Ha
72 Aula 4 Bioestatística
Hipótese alternativa
Hipótese Alternativa (Ha ou H1): é a hipótese contrária à hipótese nula. Estabelece a presença
de diferenças entre os parâmetros. Geralmente, é a que o pesquisador quer ver confirmada.
Ha, a média da pressão sanguínea da população amostrada (μ1), de indivíduos tratados com
o medicamento X, difere média da população tomada como referência (μ2), ou abreviadamente:
Ha : μ1 ≠ μ2
Se essa hipótese for aceita, a conclusão é de que o medicamento altera a pressão sanguínea.
Exercício resolvido
Formule as hipóteses de nulidade e alternativa para a situação descrita a seguir.
Resolução
Em primeiro lugar, você deve identificar qual a população a ser testada. No
exemplo acima, queremos comparar se os animais resistentes apresentam os
mesmos genes que os animais susceptíveis. Nesse caso, como iremos testar os
dois grupos de animais, podemos denominar os animais resistentes de população
1 (μ1) e os animais susceptíveis de população 2 (μ2), já que ambos serão testados.
Uma vez definida a população a ser testada, você pode elaborar as hipóteses.
Aula 4 Bioestatística 73
Atividade 3
Um pesquisador da Fundação Oswaldo Cruz, no Rio de Janeiro, recebeu
1 uma demanda do Governo Federal para testar um novo inseticida contra
o mosquito Aedes aegipty, transmissor da dengue e da febre amarela
urbana. Alguns estudos preliminares foram realizados e comprovaram
que o inseticida tem efeito na diminuição da população desse inseto.
Entretanto, o que o governo ainda não sabe é se ele atua inibindo a
eclosão dos ovos, inibindo o desenvolvimento da larva em adulto, ou
tornando os adultos estéreis. Com base nessas informações, escolha
uma das três alternativas para o mecanismo de ação do inseticida e
elabore as hipóteses (H0 e Ha) que devem ser testadas para responder
ao questionamento do Governo Federal.
74 Aula 4 Bioestatística
Cometendo erros
Agora que você já compreendeu o conceito de hipótese estatística e conseguiu identificar,
em uma situação problema, as hipóteses de nulidade (H0) e alternativa (Ha), você irá ver que
podemos cometer erros ao aceitar ou não uma hipótese. O aceitar ou rejeitar uma hipótese é
dado pelos testes de hipóteses, os quais estudaremos na Aula 5 – Testando hipóteses. Testes de hipóteses
procedimento estatístico
A verificação das hipóteses estatísticas somente se dará com certeza se você estudar toda
pelo qual se rejeita ou não
a população, e não somente uma amostra dessa população, como somente alguns indivíduos uma hipótese, associando
utilizados para avaliar o efeito do medicamento na pressão arterial. à conclusão um risco
máximo de erro.
Entretanto, como não podemos avaliar toda a população, por diversas razões, avaliamos
somente uma amostra dela (por exemplo, 60 indivíduos) e extrapolamos, ou seja, aplicamos
os resultados obtidos com essa amostra para todos os indivíduos da população. Extrapolar
Mas, quando fazemos isso, corremos o risco de cometer erros, afirmando que há uma generalizar; estender a
validade de uma afirmação
diferença, quando ela efetivamente não existe, ou o inverso. ou conclusão além dos
limites em que ela é
comprovável.
ERRO
Aula 4 Bioestatística 75
Mas, como é possível rejeitar
uma hipótese que é verdadeira?
O teste que realizamos para aceitar ou rejeitar uma hipótese baseia-se numa situação
experimental (amostra), sujeita a flutuações amostrais. Devido a essas flutuações, você pode
ter uma amostra que não represente bem a população, levando a uma conclusão que não
corresponde à realidade.
No quadro a seguir você pode verificar os erros cometidos de acordo com a decisão
tomada pelo pesquisador de aceitar ou não uma hipótese.
Fonte: <http://www.editoraferreira.com.br/publique/media/
pedro_toq14_teste-hipoteses.pdf>. Acesso em: 25 mar. 2010.
Se a Hipótese Nula (H0 ) é
VERDADEIRA FALSA
O PESQUISADOR
Figura 5 – Tipos de erros cometidos ao aceitar ou rejeitar uma hipótese de nulidade ou alternativa
Mas, se o pesquisador rejeita H0 e ela é verdadeira, ele comete o erro tipo I, representado
pela letra grega alfa (α). Já, se ele rejeita H0 e ela é falsa, ele tomou a decisão correta e não
cometeu erro algum.
Os testes de hipóteses são montados de forma que, fixado o Erro Tipo I que se
está disposto a cometer, o Erro Tipo II seja o menor possível.
76 Aula 4 Bioestatística
Atividade 4
Pesquise o conceito de erro e, com base nos seus conhecimentos adquiridos nesta
1 aula, defina os tipos de erros estatísticos e suas consequências.
O texto abaixo foi escrito por Doris S. M. Fontes (2007, extraído da Internet), graduada
2 em Estatística, aborda a importância do erro estatístico. Leia e reflita sobre ele.
Será que os erros médicos são mais graves que os erros estatísticos?
[...] Muitas vezes, conclui-se que os erros estatísticos não devem ser encarados
com tanto rigor legal como aqueles causados por médicos, advogados ou
engenheiros. Eu realmente não compartilho muito dessa opinião. Erros estatísticos
podem ser muito graves, trazendo consequências realmente nefastas para milhões
de pessoas. Enquanto um médico mata um, dois ou dez pacientes por imperícia,
um resultado estatístico aceito por uma empresa ou governo pode trazer prejuízo/
danos ou mortes para muitas pessoas, ou milhões, simultâneamente, dependendo
do caso [...] O remédio genérico que foi aprovado mais tarde é verificado que
não funciona. E quantas vítimas já terá feito? Um produto lançado a partir de
resultados estatísticos duvidosos, quantos terão morrido?
Aula 4 Bioestatística 77
Resumo
Nesta aula, você aprendeu o conceito de hipótese e também que há hipóteses
científicas e estatísticas. Você estudou os tipos de hipóteses estatísticas
denominadas hipótese de nulidade (H0 ) e hipótese alternativa (Ha ) e as identificou
em vários exemplos utilizados ao longo da aula. Entendeu o conceito de população
amostral e referência, que são parte essencial na construção de hipóteses.
Aprendeu também a formular hipóteses utilizando alguns exemplos da Biologia
e a reconhecer a importância de uma hipótese bem formulada. Você conheceu que
podemos aceitar ou rejeitar hipóteses e verificamos que, ao rejeitar ou aceitar uma
hipótese, podemos cometer algum tipo de erro. Estudou os conceitos de erros
apresentados em erro tipo I, representado pela letra grega alfa (α) e o erro tipo
II, representado pela letra grega beta (β). Por fim, você pôde perceber e refletir
sobre a sua importância quando extrapolamos uma conclusão retirada de um
estudo de uma amostra para toda a população.
78 Aula 4 Bioestatística
Autoavaliação
Vamos aplicar o que aprendemos? Para isso, resolva o exercício abaixo.
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre:
Artmed, 2003.
Aula 4 Bioestatística 79
DICIONÁRIO On Line de Português. Disponível em: <http://m.dicio.com.br/hipotese/>. Acesso
em: 24 fev. 2010.
FONTES, D. S. Será que os erros médicos são mais graves que erros estatísticos? 2007.
Disponível em: <http://www.conre3.org.br/forum/viewtopic.php?t=595>. Acesso em: 25 fev. 2010.
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. 2922p.
LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso
Editores, 1999.
Anotações
80 Aula 4 Bioestatística
Anotações
Aula 4 Bioestatística 81
Anotações
82 Aula 4 Bioestatística
Testando hipóteses
Aula
5
Apresentação
Agora que você já compreendeu o conceito de hipótese estatística e conseguiu identificar,
em uma situação problema, as hipóteses de nulidade (H0) e alternativa (Ha),(Aula 4- Elaborando
hipóteses) você irá conhecer os testes pelos quais podemos verificar se as hipóteses que
construímos são ou não verdadeiras. Esses testes são chamados de testes de hipóteses.
Também nesta aula você vai estudar o conceito de nível de significância do teste, onde
você utilizará o conceito de erro tipo I e tipo II visto na aula anterior (Aula 4- Elaborando
hipóteses) para compreender o que é o nível de significância de um teste e sua importância.
Em seguida, você vai aprender a classificar os tipos de testes de hipóteses e verá em quais
situações eles são mais utilizados.
Objetivos
Definir testes de hipóteses.
1
Identificar os principais tipos de testes de hipóteses.
2
Definir o conceito de nível de significância.
3
Reconhecer em quais situações utilizar os testes
4 de hipóteses.
Aula 5 Bioestatística 85
Definindo os testes de hipóteses
Os testes de hipóteses ou testes de significância são procedimentos estatísticos pelos
quais você rejeita ou aceita uma hipótese de nulidade (H0), associando um risco máximo de
erro (nível de significância) para esta conclusão. São utilizados para detectar se existe alguma
diferença entre as médias testadas.
Para entender melhor a definição de testes de hipóteses, suponha que você queira avaliar
se a utilização de suco de abacate com laranja na alimentação de mulheres resulta em perda
de peso. Como você viu anteriormente, primeiro devemos elaborar as hipóteses.
H0: A utilização de suco de abacate com laranja na alimentação não tem efeito sobre a
perda de peso das mulheres.
H1: A utilização de suco de abacate com laranja na alimentação tem efeito sobre a perda
de peso das mulheres.
Após a elaboração das hipóteses, você deverá testá-las, utilizando o teste específico
para comparar os resultados obtidos. Mas antes de escolher qual o melhor teste estatístico,
primeiro você deve analisar:
Testes paramétricos: devem ser utilizados quando são avaliados dados com variáveis
quantitativas e de distribuição normal, como por exemplo, o peso médio de um
rebanho bovino.
Testes não paramétricos: devem ser utilizados para variáveis qualitativas e que não têm
distribuição normal, como por exemplo, número de pessoas que gostam do queijo tipo
“A” numa avaliação de preferências.
86 Aula 5 Bioestatística
Aplicando testes
paramétricos e não paramétricos
O Quadro 1 resume os critérios a serem analisados na escolha do teste estatístico, de
acordo com a sua indicação em teste paramétrico e não paramétrico.
Note que os testes paramétricos são indicados para variáveis quantitativas, com
distribuição normal, contínua e estável. Um exemplo de uma variável que se encaixa nesse perfil
é o peso médio dos animais de um rebanho submetidos a diferentes tipos de dieta alimentar.
Já os testes não paramétricos são indicados para variáveis qualitativas, sem distribuição
normal, descontínua e instável, como por exemplo o número de eleitores que votariam num
determinado candidato para a eleição de diretor da escola.
Atividade 1
Agora que você já estudou o conceito de testes paramétricos e não paramétricos e viu
também em quais tipos de variáveis utilizá-los, pesquise em seu material das aulas anteriores
os conceitos a seguir:
Aula 5 Bioestatística 87
b) Variável contínua e descontínua.
Vamos observar e analisar o gráfico a seguir para facilitar a sua compreensão acerca
destes conceitos.
σ=1
-3 -2 -1 μ=0 1 2 3 z
Figura 1 – Gráfico de uma distribuição normal com média (μ) = 0 e desvio padrão (δ) = ±1
88 Aula 5 Bioestatística
Sempre que a distribuição dos dados for normal, observa-se a média (μ) no centro da
curva (ilustrada pela reta em verde) e desvios simétricos em relação à média (μ).
Vale ressaltar que este gráfico poderá ser mais achatado ou não, de acordo com a relação
entre os desvios e a média.
Atividade 2
Construa um gráfico utilizando o conjunto de dados da Tabela 1 a seguir e analise se os
mesmos têm distribuição normal. Este gráfico pode ser elaborado utilizando a ferramenta de
gráficos do Excel ou em papel milimetrado, inserido após a tabela.
Tabela 1 – Peso médio (valores máximos e mínimos) dos animais de um rebanho bovino e respectivos números
de animais por classe de peso
Aula 5 Bioestatística 89
Agora já posso iniciar o teste?
Ainda não, mesmo que você já tenha testado todas as condições da variável e identificado
qual tipo de teste a ser utilizado.
Antes você deve convencionar qual o nível de erro desejado para testar esta média. Ou
seja, o limite máximo para se determinar quanto do desvio (erro) é decorrente do acaso ou não.
E já que existe uma grande variação nos níveis de significância, qual o valor que devo
utilizar para o meu trabalho?
Acurácia
Esse valor vai depender da hipótese que está sendo testada, da necessidade de acurácia
Medida correta dos e precisão da variável estudada e dos objetivos da pesquisa.
valores.
Mas como avaliar a acurácia e precisão?
Para isso, vamos observar o exemplo da figura a seguir (Figura 2), que ilustra o conceito
Precisão
de acurácia e precisão de quatro atiradores que estão fazendo testes para a tropa de elite da
Capacidade de repetir a Polícia Militar.
medida com acurácia.
Atirador 1 Atirador 2
90 Aula 5 Bioestatística
Observe que com o Atirador 1, que tem alta acurácia e alta precisão, a maior parte das
marcas pretas (resultantes dos tiros) atinge o centro do alvo, o círculo verde e menor.
O Atirador 2 apresenta baixa acurácia, pois nenhum tiro atingiu o alvo central da figura,
e alta precisão, porque todos os tiros estão bem próximos entre si.
O Atirador 3 tem alta acurácia (atingiu o alvo central) e baixa precisão, pois a maior parte
dos seus tiros são dispersos e longe do alvo.
O Atirador 4 tem baixa precisão e baixa acurácia, pois nenhum dos seus tiros atingiu o
alvo central e todos estão bem dispersos (longe um do outro) na Figura 2.
1) Testar uma nova variedade de mandioca (Manihot sculenta Crantz), que é resistente à
seca, para ser plantada em regiões semiáridas.
2) Testar uma nova vacina contra gripe para idosos com mais de 60 anos.
Para a situação 2, onde se testa uma vacina em idosos, níveis de significância superiores
a 0,1% são inadmissíveis. Esses valores podem e devem ser ainda menores se for testado
um produto que pode causar danos à saúde. Nesse caso, recomenda-se trabalhar nos níveis
de significância de 0,01%.
Atividade 3
Estabeleça os níveis de significância (5%; 1%; 0,1% e 0,01%) adequados para se testar
as situações experimentais a seguir e justifique a sua resposta:
Aula 5 Bioestatística 91
a) Avaliar o efeito da utilização de farinha de mandioca na alimentação de crianças de 4 a 8 anos.
c) Avaliar o efeito da substituição do leite de vaca por leite de cabra no ganho de peso de
crianças desnutridas com idade entre 1 e 5 anos.
d) Comparar a eficácia da utilização de gargarejo de solução caseira com água, sal e vinagre ou
de fármacos (remédios alopáticos – comprados em farmácia) no tratamento de amigdalite.
e) Avaliar o resultado de uma vacina que imuniza idosos com mais de 60 anos contra gripe.
92 Aula 5 Bioestatística
Pode-se rejeitar uma hipótese que é verdadeira?
Além do nível de significância (determinada pela necessidade de precisão e acurácia na
resposta medida), existe a possibilidade de ocorrerem erros tipo I (®) ou tipo II (¯) quando se
testa uma hipótese. No erro tipo I atribui-se uma diferença às médias quando elas realmente
não existem. No erro tipo II ocorre o contrário: atribui-se uma igualdade quando as médias
são diferentes.
Esses tipos de erro são antagônicos. Assim, seu controle simutâneo e absoluto é
impossível. Neste caso, você deve escolher o tipo de erro (I ou II) a ser minimizado. Para
isso, o tipo de variável estudada e seus possíveis resultados são importantes para a escolha.
Nas situações onde o resultado favorável é uma diferença, deve-se evitar utilizar testes
que beneficiem erro tipo I. Assim, diminui-se a probabilidade de se atribuir diferenças entre
as médias, quando elas realmente não existem.
Esse tipo de erro é indesejado nas situações onde se espera maior eficiência de algum
tratamento, como por exemplo, testes para comparar produtividade de cultivares de mandioca
ou milho plantadas em regiões de semiárido. Assim, o produtor poderá escolher a variedade
de mandioca ou de milho plantada – deveria ser a que apresentasse a maior produtividade.
Por outro lado, quando o resultado favorável (situação desejada) é a equivalência, deve-se
procurar utilizar testes que beneficiem erro tipo II, isto é, atribuir igualdade entre as médias,
quando elas realmente não existem.
Todavia, atribuir uma equivalência quando ela realmente não existe é, no mínimo, uma
irresponsabilidade, e poderá comprometer a eficiência do tratamento. Isso porque faltariam
subsídios para indicar o tratamento mais eficaz.
Como dito anteriormente, esses erros são excludentes e não podem ser controlados
conjuntamente. Assim, o pesquisador (você) deverá fazer uma escolha: qual tipo de erro (I ou
II) quer beneficiar ou evitar.
Aula 5 Bioestatística 93
Atividade 4
Escolha o tipo de erro (I ou II) que deverá ser beneficiado para as seguintes situações e
justifique a sua resposta:
c) Avaliar a eficiência de uma vacina contra gripe em pessoas com mais de 60 anos.
94 Aula 5 Bioestatística
Os testes de hipóteses
Existe uma gama diversa de testes de hipóteses. Os testes mais comumente utilzados
em sistemas biológicos são:
O Teste “F”, proposto por Fisher em 1924. Este teste indica se existe diferença entre
as médias testadas. Porém, não diz quais são as diferenças. Assim, esse teste só deve
ser utilizado para comparar duas médias por vez. Esses tipos de comparação são
denominados contrastes ortogonais.
O Teste “t” de student. Este teste é bastante utilizado em Biologia, especialmente para
se comparar três ou mais médias simultaneamente. Ele favorece o aparecimento de erro
tipo I (atribui-se uma diferença, quando ela realmente não existe) e controla bem erro
tipo II (¯).
O Teste de Tukey também é utilizado quando se deseja comparar três ou mais médias
simultaneamente. Este teste controla bem erro tipo I e favorece o aparecimento do erro
tipo II (¯) (atribui-se uma igualdade, quando as médias são diferentes).
Além destes testes, existem vários outros como o SNK, o Duncan e o de Sheffé. A escolha
de qual deles você vai utilizar no seu trabalho deverá ocorrer em função da sua necessidade
de controle de erro e peculiaridades inerentes à pesquisa.
Assim, para escolhar qual o tipo de teste a ser utilizado é interessante que você promova
uma discussão entre os membros da equipe e um estatístico para decidirem qual o a melhor
opção a ser utilizada.
Vamos supor que, pra testar se o suco de abacate com laranja tem efeito no emagrecimento
de mulheres – como exemplificado no início dessa aula – você utilizou como população
amostral 60 mulheres. Destas 60 mulheres, 30 receberam o suco de laranja com abacate
(μ1) e 30 receberam uma mistura que chamamos de placebo (μ2). Placebo
é um fármaco (produto)
As mulheres da população μ1 perderam em média 3,5 kg e as mulheres da população
ou procedimento inerte
μ2 perderam, em média, 0,5 kg. Para testarmos nossas hipóteses, devemos assumir que há que apresenta efeitos
um erro embutido no nosso experimento, já que os dados obtidos são da população amostral terapêuticos devido aos
efeitos fisiológicos da
(60 mulheres) e não de todas as mulheres da população em geral.
crença de que o pacinente
está sendo tratado.
Nesse caso, antes de testarmos nossas hipóteses, devemos assumir esse erro e dar um
valor a ele. Quanto maior for o valor do erro, maior a probabilidade de rejeitar uma hipótese
quando ela é verdadeira. Assim, se assumirmos um valor de erro cada vez menor, temos uma
maior confiança nos resultados obtidos.
Aula 5 Bioestatística 95
onde:
μ1 = média da perda de peso das mulheres que receberam suco de abacate com laranja (3,5 kg)
μ2 = média da perda de peso das mulheres que não receberam suco de abacate com
laranja (0,5 kg).
Considera-se aceitável um erro (ou nível de significância) de 5%. Podemos, agora, fazer
a seguinte pergunta: tomar suco de laranja com abacate faz mal à saúde das pessoas?
Se a resposta for “não faz mal a saúde”, o teste de “t” de Student pode ser indicado. Esse
teste favorece erro tipo I, que rejeita H0, quando este é verdadeiro. Mas, como tomar este
suco não vai fazer mal à saúde, não haverá problemas com este tipo de erro, uma vez que o
máximo que pode acontecer é a recomendação para tomar um produto que não vai fazer mal!
Todavia, e se o suco “fizer mal às pessoas”? Neste caso, você deveria utilizar um teste
como o de Tukey, que controla erro tipo II. Assim, não existiria recomendação de que se tomar
suco de laranja com abacate resultaria em emagrecimento, pois, no caso observado, a perda de
peso registrada nos pacientes que tomaram suco foi resultante do acaso, e não do tratamento
imposto (tomar suco de abacate com laranja).
Entendeu o conceito?
Agora vamos fazer uma atividade e ganhar mais experiência para este tipo de reflexão.
Atividade 5
Indique os testes estatísticos mais adequados para as situações abaixo:
a) Comparar a média de peso de indivíduos que receberam tratamento para diminuir os níveis
de colesterol com aqueles que não receberam nenhum tipo de tratamento.
96 Aula 5 Bioestatística
b) Comparar a média dos níveis de poluentes emitidos por 4 indústrias químicas do Rio
Grande do Norte.
Resumo
Nesta aula você conheceu a definição de testes de hipóteses e os principais
tipos de testes. Você viu que os testes, de uma maneira geral, podem ser
classificados em paramétricos e não paramétricos, de acordo com o tipo de
variável pesquisada. Você revisou o conceito de variável qualitativa, quantitativa,
contínua, descontínua, estável e instável. Compreendeu o que caracteriza uma
variável com distribuição normal e aprendeu a identificá-la. Conheceu o conceito
de nível de significância, identificou, em uma situação problema, erros do tipo I e
erros do tipo II e compreendeu a importância de cada um deles para a realização
de um teste estatístico. Você também conheceu os principais tipos de testes de
hipóteses e compreendeu em quais situações utilizar cada um deles.
Autoavaliação
Existe uma crença popular de que chá de folha de goiabeira pode ser um bom remédio
caseiro para controlar diarreia em bezerros jovens. Proponha uma metodologia para
testar esta hipótese. Para isto, você deve obedecer as seguintes etapas:
a) Elabore a hipótese de nulidade (H0) e a alternativa (Ha) para avaliar o fenômeno escolhido.
Aula 5 Bioestatística 97
b) Escolha o nível de significância (5%; 1%; 0,1% ou 0,01%) adequado para esta situação
e justifique sua resposta.
c) Escolha o tipo de erro (I ou II) que você quer evitar e justifique sua resposta.
d) Escolha o teste estatístico mais adequado aos seus objetivos e justifique sua resposta.
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003.
FONTES, D. S. Será que os erros médicos são mais graves que erros estatísticos? 2007.
Disponível em: <http://www.conre3.org.br/forum/viewtopic.php?t=595>. Acesso em: 25 fev. 2010.
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. 2922p.
LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman & Affonso
Editores, 1999.
98 Aula 5 Bioestatística
Anotações
Aula 5 Bioestatística 99
Anotações
Aula
6
Apresentação
A
gora que você já compreendeu o conceito de hipótese estatística (Aula 4 - Elaborando
hipóteses) e os testes estatísticos (Aula 5 - Testando hipóteses), poderemos fazer a
análise de variância. Essa análise é fundamental para que se possa fazer a comparação
de médias. Por isso é importantíssimo que os conceitos apreendidos nas aulas anteriores
estejam bem claros. Volte e estude essas aulas sempre que necessário.
Assim, nesta aula, iremos apresentar o conceito de fatores de variação, de variância, erros
aleatórios e graus de liberdade. É com essas informações que você poderá realizar a análise
das médias ou resultados obtidos nos experimentos e aplicar os testes estatísticos que foram
apresentados na aula passada (Aula 5 - Testando hipóteses).
Com esses conhecimentos apreendidos, você deverá ser capaz de fazer uma avaliação
de experimentos inteiramente casualizados e em blocos completos inteiramente casualizados
em experimentos de Biologia.
Objetivos
Conhecer os conceitos de fatores de variação, graus de
1 liberdade, fazer análise de variância de experimentos
inteiramente casualizados e em blocos completos
casualizados.
Além disso, para fazer uma análise de variância, devemos ter cuidado em respeitar
algumas premissas básicas:
1) A resposta da variável que está sendo analisada deve ter uma distribuição normal.
2) Os tratamentos impostos, nos quais a resposta está sendo medida, devem apresentar
variâncias iguais.
Se essas quatro premissas não forem cumpridas, a análise de variância não pode ser
realizada. Você pode testar a normalidade dos dados utilizando as informações disponibilizadas
na Aula 3 (Descrevendo sistemas) e Aula 5 (Testando hipóteses).
Quando os dados não têm distribuição normal, eles podem ser analisados
utilizando estatística não paramétrica. Todavia, esse tipo de análise não será
apresentado neste curso. Já para as situações onde a variância é diferente, pode-se
fazer uma transformação de variáveis. No entanto, para escolher como fazer a
transformação adequada para cada situação, deve-se consultar um estatístico ou
discutir com pesquisadores experientes nessa área de conhecimento.
Agora eu já sei calcular as variâncias, conheço as premissas básicas para sua análise...
e agora, o que faço com essas informações?
Número do bezerro 1 2 3 4 5 6 7 8 9 10
Peso ao nascer (kg) 30 27 24 28 29 18 23 22 20 28
Observe que vários fatores podem estar interferindo no peso ao nascer dos bezerros.
Entre as possíveis causas de variação podemos citar:
sexo da cria;
Algumas dessas fontes de variação podem ser agrupadas e controladas, outras não.
É por esse motivo que se deve fazer a análise de variância, para se conseguir isolar os
Diferença
fatores de variação impostos e controlados (os tratamentos) daqueles que são do acaso e estatística
não se pode controlar. Assim, você pode avaliar o efeito do que se quer medir (tratamento significativa
experimental) sobre a variável resposta e identificar se existe ou não diferença estatística Indica a possibilidade
significativa entre as médias obtidas nos resultados do experimento. de que o resultado
encontrado no
Para o exemplo da Tabela 1, os dados podem ser organizados em função do touro experimento seja igual ao
utilizado, ou do número de partos das vacas (matrizes) em primíparas ou multíparas etc... existente na população.
Controlados – São aqueles conhecidos “a priori” (antes de se iniciar o experimento) e Animais que só tiveram
um parto
que reconhecidamente têm efeito sobre a variável resposta que está sendo medida. Por
esse motivo, seus efeitos são medidos e entram no modelo estatístico.
Aleatórias ou do acaso – São variáveis desconhecidas (que não podem ser controladas) Multíparas
e vão compor o erro experimental. Sempre que possível, deve-se minimizar a ação de Animais que tiveram mais
variáveis aletórias e do erro experimental. de um parto.
Esse é o delineamento experimental mais simples e por isso mesmo o mais forte, que
minimiza o erro experimental em relação aos tratamentos. Nesse tipo de delineamento os
tratamentos se distribuem ao acaso em todas as unidades experimentais e o número de
repetições por tratamento pode ser igual ou diferente, que não resultará em alterações na
análise. O delineamento inteiramente casualizado é muito útil para o estudo de métodos e
técnicas de trabalho de laboratório, que normalmente têm condições uniformes.
Nesse caso, temos o valor genético da planta mãe como melhoradora (o que se deseja
avaliar), o solo, o clima, possíveis infestações de insetos ou doenças nas raízes, água etc.
Certamente a minha variável resposta medida (o DAP) vai sofrer a interferência de todos
esses fatores e outros tantos mais que são do acaso e não se pode controlar.
Todavia, neste exemplo, o fator de variação que se quer testar é a progênie, e esse
é devidamente controlado. Os demais são do acaso. Nesse caso, como é um experimento
inteiramente casualizado este deve ser conduzido numa área plana, onde não há variação de
tipo de solo e de umidade em nenhum local do terreno.
H1: Pelo menos uma das 10 progênies avaliadas difere das demais.
Nesse caso, utilizaremos o teste de Tukey, que minimiza erro tipo II (Aula 5 – Testando hipóteses).
Isso pode ser realizado fazendo um gráfico com todos os dados, que deverá ter formato de
sino e/ou testando a variância. Para o caso analisado, os dados obedecem a essas duas condições.
5) Observando os fatores de variação analisados, você verá que a única diferença entre os
tratamentos é a Progênie (P), que vai de 1 a 10.
GLProgênie = 10 – 1 = 9.
GLTotal = 40 – 1 = 39
GLErro = 39 – 9 = 30
c) A Soma dos Quadrados dos Tratamentos (SQTrat ) permite isolar e quantificar a variância ao quadrado.
O valor de “r” é dado pelo número de repetições de cada tratamento. Para este exemplo,
o valor de “r” será 4, pois foram utilizadas quatro repetições por cada tratamento (Progênie).
A Soma dos Quadrados do Erro (SQErro ) é calculada pela diferença entre a SQTotal e o
SQTrat. Assim teremos:
SQErro = 77,56
10) De posse dessas informações, podemos preencher outra coluna da tabela de ANAVA
deste experimento:
Para a Progênie
160,98
QM P rogênie = = 17,89
9
77,56
QM Erro = = 2,59
30
12) Calcular o valor de F.
QM P rogênie 17,89
F Calculado = = = 6,91
QM Erro 2,59
13) Assim, a nossa tabela de ANAVA ficará da seguinte forma:
14) Como o valor de F calculado é maior que o tabelado a 1% ,que é 3,07, (anexo A) diz-se
que o resultado do experimento é significativo a 1% de probabilidade. Ou seja, existe 99%
de possibilidade de o que ocorreu no experimento ser verdade e acontecer na população.
15) Como o valor de F calculado é significativo, esse resultado indica que existe diferença
entre as médias avaliadas. Assim, com essa informação você pode rejeitar H0 e aceitar H1.
P1 14,55
P2 14,30
P3 14,23
P4 14,13
P5 13,00
P6 12,43
P7 12,05
P8 11,68
P9 9,00
P10 8,78
3) Após isso, calcule a diferença entre a maior média (14,55) e a DMS (3,88). O resultado
obtido foi 10,67. Assim, todas as médias contidas no intervalo entre 14,55 cm e 10,67 cm,
são iguais entre si e receberam a mesma letra.
4) Em seguida, repita a operação com a segunda média mais alta e realize o mesmo processo,
até que você não encontre mais diferença estatística significativa entre as médias.
P1 14,55ª
P2 14,30ª
P3 14,23ª
P4 14,13ª
P5 13,00ª
P6 12,43ªb
P7 12,05ªb
P8 11,68ªb
P9 9,00b
P10 8,78b
Atividade 2
Planeje um experimento com delineamento inteiramente casualizado, para testar
1 o efeito de 5 fontes de adubação nitrogenada sobre a produção de milho, usando
4 repetições para cada tratamento.
REPETIÇÕES
CULTIVAR
1 2 3 4 5 6
A 10,27 11,55 11,68 11,38 11,20 11,24
B 9,77 9,96 10,18 11,94 10,43 10,49
C 9,86 9,59 9,99 10,43 9,85 10,03
D 21,22 20,62 22,33 19,89 21 20,78
E 20,20 20,55 22,12 20,78 20,90 20,92
E os experimentos
em blocos completos
inteiramente casualizados?
Antes de definir esse tipo de delineamento experimental, vamos refletir sobre o efeito de
fatores de variação parcialmente controlados. Por exemplo:
1) Suponha que você quer montar um experimento no campo e observa que existe um
desnível na área, que pode favorecer o acúmulo de água e afetar (beneficiar ou prejudicar)
os tratamentos que forem colocados lá.
2) Você planeja fazer um experimento no laboratório, e observa que existe uma parte do
laboratório que recebe insolação direta, através de uma janela. E, isso também pode
interferir no seu tratamento experimental.
Outra alternativa indicada para essa situação é organizar todos os tratamentos impostos
de modo que eles recebam o efeito desses fatores de variação parcialmente controlados
(aqui citados o desnível do terreno e a insolação) de forma uniforme para todos (Figura 2).
Assim, você não estaria beneficiando ou prejudicando nenhum e controlando parcialmente
esses fatores de variação.
Desse modo, os blocos podem ser convencionados como um fator de variação que ocorre
em uma só direção e é perpendicular à disposição dos tratamentos.
Exercício resolvido 2
Para este exemplo, vamos utilizar o mesmo experimento da avaliação de progênies de
eucalipto utilizada para o exemplo de delineamento inteiramente casualizado, com uma pequena
alteração: todas as linhas constituirão blocos. Assim, o nosso conjunto de dados ficaria da
seguinte forma:
Não se calcula o valor do QMTotal, pois este não terá mais utilidade para a
análise do experimento. Assim teremos para:
160,98
QM P rogênie = = 17,89
9
1,61
QM Bloco = = 0,53
3
76,56
QM Erro = = 2,84
27
8) Calcular o valor de F calculado pela razão entre o QMProgênie e QMErro :
QM P rogênie 17,89
F Calculado = = = 6,28
QM Erro 2,84
Atividade 3
Quais são as características de um delineamento em blocos casualizados? E quais
1 as vantagens e desvantagens em sua aplicação?
T3 = limoeiro volkamericano
A variável que estudaremos será o número médio de frutos por pé nas parcelas. Os dados
se encontram na tabela a seguir.
Repetições
Cultivar
B1 B2 B3 B4
T1 143,25 224,25 211,50 231,50
T2 106,25 185,00 161,25 157,25
T3 110,75 85,00 109,50 94,50
T4 318,75 297,50 289,50 376,25
T5 274,25 281,00 297,75 305,75
a) Identifique os itens a seguir: o fator; níveis; variável resposta; unidade de análise; número
de repetições; número de ensaios.
Resumo
Nesta aula, você aprendeu o conceito de análise de variância e viu também como
ela é fundamental para que se possa fazer a comparação de médias. Você viu o
conceito de fatores de variação, de variância, erros aleatórios e graus de liberdade,
conceitos essenciais para realizar a análise das médias ou resultados obtidos nos
experimentos. Em seguida, você aprendeu como aplicar os testes estatísticos e
foi capaz de fazer uma avaliação de experimentos inteiramente casualizados e
em blocos completos inteiramente casualizados em experimentos de Biologia.
Tabela 5 – Dados de produção de arroz irrigado, em kg/ha, no delineamento inteiramente casualizado, com quatro
tratamentos e oito repetições
Repetições
Tratamentos
1 2 3 4 5 6 7 8
A1 6.276 6.035 6.086 5.594 6.321 6.746 5.751 6.191
A2 7.199 6.890 6.586 7.149 6.657 6.210 6.128 6.393
A3 6.457 6.174 6.612 6.087 5.797 5.865 6.498 6.486
A4 7.202 7.173 7.169 6.590 6.444 6.740 6.370 7.270
Utilizando os dados da tabela acima, faça uma análise estatística completa (estatística
descritiva, teste de normalidade, ANAVA e teste de comparação de médias) e estabeleça
conclusões ao nível de 5% de significância.
Anotações
Valores de amplitude
total estudentizada (q) para uso no
teste de Tukey a nível de 1% de probabilidade
Aula
7
Apresentação
Avaliar se existe associação entre duas características quantitativas é o objetivo de
vários estudos em Biologia, e para isto, são realizadas análises de correlação. Nesta aula,
iremos compreender a importância, a definição e quais os tipos de correlação existentes
entre duas variáveis.
Boa aula!
Objetivos
Definir o conceito de correlação entre variáveis.
1
Distinguir os métodos utilizados para avaliar a existência
2 de correlação entre duas variáveis.
Fonte: <http://escolaprof.files.wordpress.com/2009/03/computador.jpg>.
Acesso em: 31 mar. 2010.
Todos estes questionamentos se referem ao querer saber se há relação entre uma variável,
que podemos chamá-la de x (por exemplo, número de horas na frente do computador) e outra
variável que podemos chamá-la de y (por exemplo, dor de cabeça).
Por exemplo: Um biólogo pode estar interessado em saber se há relação entre a quantidade
de chumbo medida na água e o volume de dejetos (ou de esgoto) despejados em um rio.
Quando se pode demonstrar que existe relação ou associação entre duas variáveis
quantitativas, isto é, quando se constata que elas variam juntas, diz-se que as variáveis
estão correlacionadas.
A resposta é simples: Vamos tomar como exemplo as informações sobre a altura dos
alunos do segundo semestre do curso de Ciências Biológicas que utilizamos na Aula 1 (O que é
Bioestatística) e acrescentar mais uma variável a ser medida: o peso destes alunos.
1) Coletar os dados das variáveis x e y que pretende correlacionar. No nosso exemplo, podemos
chamar de variável x a altura dos alunos e de variável y, o peso dos mesmos, conforme
podemos visualizar na tabela abaixo.
Tabela 1– Altura (m) e peso (Kg) dos alunos do segundo semestre do Curso de Ciências Biológicas
Altura dos alunos do segundo semestre Peso dos alunos do segundo semestre
1,67 56,0
1,87 89,2
1,88 90,6
1,89 93,6
1,78 60,5
1,89 91,4
1,9 95,8
1,76 62,4
1,94 95,0
1,95 99,0
2) Em seguida, você deve traçar um sistema de eixos cartesianos, representando uma variável
em cada eixo, ou seja, a variável que chamamos de x, a altura dos alunos, deve ser colocada
no eixo X e a variável que chamamos de y, o peso dos alunos, deve ser colocada no eixo
Y. Caso você não se lembre como se constrói um gráfico com eixo X e Y, volte às Aulas 5
(Dados quantitativos: como organizá-los?) e 6 (Distribuição de freqüências: apresentação
gráfica) da disciplina de Matemática e Realidade.
3) O próximo passo é marcar pontos nesse gráfico, de modo que, para cada valor de x,
você tenha um valor de y correspondente. Por exemplo: se pela nossa tabela x for 1,67m,
y será 56kg. Isso deve ser feito para todos os dados disponíveis na tabela.
5) Na sequência, escreva os nomes das variáveis nos respectivos eixos, bem como o título
do diagrama. E está pronto o nosso diagrama de dispersão.
120
100
80
Peso (Kg)
60
40
20
0
1,6 1,7 1,8 1,9 2
Altura(m)
Figura 1– Altura (m) e peso (Kg) dos alunos do segundo semestre do Curso de Ciências Biológicas
Entretanto, você deve notar que, o diagrama acima representado foi feito em computador,
utilizando a planilha eletrônica no Excel. Para você fazer esse mesmo diagrama utilizando papel
milimetrado, você deve seguir os passos representados no esquema a seguir (Figura 2).
Importante
Para desenhar o diagrama de dispersão, escolha as escalas de tal maneira que a
figura pareça quadrada. Este cuidado ajuda a obter melhor visão da associação
entre as variáveis.
Tabela 2 – Quantidade de lixo (m3) produzida de acordo com o número de dormitórios das residências
Note que, no nosso exemplo, à medida que aumenta a altura dos alunos, aumenta também
o peso dos mesmos. Nesse caso, podemos afirmar que as variáveis altura e peso estão
correlacionadas e, à medida que uma aumenta, a outra aumenta também. Assim, podemos
dizer que estas variáveis apresentam correlação positiva.
Se não houvesse nenhuma relação entre a altura dos alunos e o peso, não teríamos
correlação entre as variáveis, ou seja, sem correlação.
Quando além de observarmos a direção dos pontos, também observamos sua dispersão,
podemos ter mais dois outros subtipos de correlações positivas e negativas:
1) Relação entre o consumo médio de vegetais e a taxa de mortalidade para o sexo feminino.
26
24
o sexo Feminino (100000 pessoas ano)
Média da taxa de mortalidade para
22
20
18
16
14
12
10
8
0 100 200 300 400
Consumo médio de Vegetais (gr/pessoas/dia)
Fonte: <stat2.med.up.pt/cursop/glossario/rregressao.html>.
Acesso em: 31 mar. 2010.
2) Relação entre peso inicial das vacas com os dias de sobrevida quando submetidas a jejum.
60
50
Dias de Sobrevivência
40
30
20
10
0
0 100 200 300
Peso Inicial da Fêmea (mg)
Fonte: <http://www.scielo.br/img/revistas/rsp/v9n3/09f2.gif>.
Acesso em: 31 mar. 2010.
5,8
C2B
C2C
5,4
C2D
C3
5,0 C3A
C3B
4,6 C3C
5 6 7 8 9 10 11 12 13 14 C3D
Sementes
Fonte: <http://www.scielo.br/img/fbpe/sa/v58n1/a15fig02.gif>.
Acesso em: 31 mar. 2010.
Onde:
∑xy = Somatório dos valores de x vezes os valores de y;
∑x = Somatório dos valores de x;
∑y = Somatório dos valores de y;
∑x2 = Somatório de x ao quadrado;
(∑x)2 = Somatório de x vezes somatório de x;
∑x 2 = Somatório de y ao quadrado;
∑y 2 = Somatório de y vezes somatório de y;
n = números de amostras.
Para entender como se aplica a fórmula para calcular o valor de r, observe o Exercício
Resolvido 1.
Exercício Resolvido 1
A Tabela 3 ilustra a taxa de mortalidade infantil e a taxa de analfabetismo no Brasil,
de acordo com cada região brasileira. Utilizando a fórmula acima, calcule o coeficiente de
correlação r e interprete a correlação entre as variáveis.
Tabela 3 – Taxa de mortalidade infantil e taxa de analfabetismo no Brasil, segundo cada região
Resolução
1) O primeiro passo é determinar qual variável representará a letra x e qual representará a letra y.
Nesse caso, vamos escolher x para a taxa de mortalidade e y para a taxa de analfabetismo.
2) Em seguida, devemos calcular os valores de x2, y2, xy, (∑x)2 e (∑y)2, pedidos na fórmula.
Assim temos:
x2 y2 xy
X (mortalidade) Y (analfabetismo) (mortalidade (analfabetismo ao (mortalidade vezes
ao quadrado) quadrado) analfabetismo)
35,6 12,7 1267,36 161,29 452,12
59 29,4 3481 864,36 1734,6
25,2 8,6 635,04 73,96 216,72
22,5 8,3 506,25 68,89 186,75
25,4 12,4 645,16 153,76 314,96
∑ 167,7 71,4 6534,81 1322,26 2905,15
(∑x)2 = 28123,29 (∑y)2 = 5097,96
167, 7 · 71, 4
2905, 15 −
r =
5
28123, 29 5097, 96
6534, 81 − · 1322, 26 −
5 5
r = 0,9724
4) Para interpretarmos esse valor, devemos ter em mente que o valor de r varia entre –1 e +1.
Se obtiver valores fora deste intervalo, pode ter certeza que você errou nos cálculos.
No caso do exercício acima, o valor de r, positivo e muito próximo de 1. Então, existe forte
correlação positiva entre as variáveis. Isto significa que ocorrem mais mortes de menores de
um ano nas regiões em que existe maior número de analfabetos.
Atividade 4
Calcule o coeficiente de correlação utilizando a fórmula de Pearson para os dados
(hipotéticos) de um laboratório de hematologia apresentados na Tabela 4 e interprete a
correlação entre as variáveis leucócitos e eritrócitos:
Autoavaliação
Teste os conhecimentos adquiridos na aula de hoje, conceituando os seguintes termos:
1
a) Correlação:
d) Diagrama de dispersão :
Faça uma pesquisa com 15 pessoas, podendo ser seus familiares, vizinhos e amigos
2 e preencha a tabela abaixo:
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. 2922p.
Anotações
Aula
8
Apresentação
V
ocê estudou na Aula 7 - Correlacionando informações, que empregamos a análise de
correlação para avaliar o comportamento conjunto de duas variáveis quantitativas.
Todavia, nem sempre esse é o objeto de estudo. Isso se dá especialmente nos casos
em que se precisa/deseja avaliar o comportamento de uma variável (dependente) em função
de outra (independente) e expressar matematicamente essa relação de causa e efeito. Nesse
caso, recomenda-se utilizar uma análise de regressão para se avaliar os dados. E é esse tipo
de análise que iremos estudar nesta aula.
Nesta aula, você verá o conceito de regressão, bem como os tipos de regressão existentes.
Vai conceituar variáveis dependentes e independentes e conhecer e calcular o coeficiente linear
e coeficiente angular da reta. Além disso, estudará a equação da reta que representa a regressão
linear e fará exercícios que englobam todos os conceitos trabalhados.
Objetivos
Definir o conceito de regressão.
1
Definir o conceito de variável dependente e independente.
2
Identificar as variáveis dependentes e independentes em
3 uma situação problema.
Pense em um supermercado que vai aumentar o seu gasto com propaganda por que
dizem que “quem não anuncia se esconde”.
Vamos então pensar no aumento do volume de vendas como função do aumento dos
gastos com propaganda. Você acha que existe uma relação exata entre essas variáveis, isto é,
para cada real a mais gasto com propaganda haverá um aumento fixo no volume de vendas?
Há uma série de fatores que podem influenciar essa relação, tais como o aumento das
vendas em certas épocas do ano, o fato do volume de vendas também depender dos preços e
do aumento de salário; depender da concorrência e outros tantos motivos, e é claro, também da
propaganda. Mesmo que conhecêssemos todas as causas que explicam o volume de vendas em
um supermercado, ainda assim não saberíamos prever exatamente o volume dessas vendas.
Nesse caso, queremos estabelecer uma relação de causa e efeito entre o aumento do
volume de vendas e o aumento dos gastos com propaganda, ou seja, ver o quanto o aumento
do volume das vendas varia em função do aumento dos gastos com propaganda, e ainda
expressar matematicamente essa relação. E isso é feito através da análise de regressão.
1) Previsão: Para prever o valor de uma variável chamada de x a partir do valor de outra
variável chamada de y.
Atividade 1
Agora que você já conheceu o conceito de regressão, faça uma
1 comparação entre correlação e regressão.
Por convenção, vamos estabelecer que y será sempre a nossa variável dependente e x
a variável independente.
Atividade 2
Identifique as variáveis dependentes (y) e independentes (x) nos exemplos
abaixo:
Mas, como curiosidade, tem-se ainda a regressão por potência, regressão logarítmica
e regressão exponencial, que são chamadas de regressão não linear.
Múltipla: Quando temos uma variável dependente y e mais de uma variável independente,
x1, x2, x3... e assim por diante.
y = α + βx
Onde:
y = variável dependente
x = variável independente
b) y = – 0,87x + 3,87
c) y = 1,67 + 5,81 x
A reta de regressão
A seguir, temos um exemplo de reta de regressão que representa a quantidade de
anestésico hidrolisado no plasma de um paciente em função do tempo decorrido após a sua
administração (Figura 1).
35
Quantidade de anestésico
30
25
hidrolisado
20
y = -0.98 + 2,16 x
15
10
0
0 5 10 15 20
Tempo
Figura 1 – Quantidade de anestésico hidrolisado no plasma humano (μL) em função do tempo (minutos) decorrido
após sua administração
y = – 0,98 + 2,16 x
O coeficiente linear fornece a altura onde a reta corta os eixos das ordenadas (eixo X),
ou seja, o valor de y onde o x é igual a zero.
O coeficiente angular fornece o ângulo formado pela reta em relação ao eixo x. Assim,
um coeficiente angular positivo, indica que a reta será direcionada pra cima e para a direita, à
medida que o valor de x aumenta. O contrário se dá no caso de uma equação com coeficiente
angular negativo. Nesse caso, à medida que o valor de x aumenta, a reta tende a crescer para
a direita e para baixo.
Entendeu o conceito? Vamos realizar a atividade abaixo, para fixar esses conceitos.
Atividade 4
a) y = 3 + 1,5x
b) y = 3 – 1,5 x
c) y = 5 + 7x
d) y = 5 – 7x
Coeficiente linear: α̂ = y − β̂ x
x y
xy −
Coeficiente angular: β̂ = n 2
2 ( x)
x −
n
Onde:
∑x = somatório de x
∑y = somatório de y
∑x 2 somatório de x 2
n = número de amostras
Exercício resolvido 1
Elabore uma equação de regressão para estimar a quantidade de anestésico hidrolisado
no plasma humano em função do tempo decorrido após sua administração.
2 3,5
3 5,7
5 9,9
8 16,3
10 19,3
12 25,7
14 28,2
15 32,6
2) Nomear as variáveis.
35
Quantidade de anestésico
30
hidrolisado (moles / litro)
25
20
15 Quantidade de
anestésico hidrolisado
10
0
0 5 10 15 20
Tempo (minutos)
x y xy x2 y2
2 3,5 7 4 12,25
3 5,7 17,1 9 32,49
5 9,9 49,5 25 98,01
8 16,3 130,4 64 265,69
10 19,3 193 100 372,49
12 25,7 308,4 144 660,49
14 28,2 394,8 196 795,24
15 32,6 489 225 1062,76
∑ somatório 69 141,2 1589,2 767 3299,42
α = – 0,98
6) E o último passo é construir a equação da reta, substituindo as letras pelos valores calculados:
Equação da reta:
y = α + βx
y = – 0,98 + 2,16 x
Atividade 5
Suponha que você esteja estudando a relação entre a quantidade de um poluente
despejado por uma fábrica em um riacho, e o dano ecológico nesse curso d’água, medido
por um escore de dano que vai de 0 a 20 (Tabela 2). Para verificar sua hipótese, você precisa
fazer uma análise de regressão. Assim, utilizando os valores da tabela abaixo, responda
o que se pede.
Coeficiente de determinação
Até agora vimos que as variáveis x e y podem variar uma em função da outra, e que
esse comportamento é medido através da análise de regressão, que representa, em uma reta,
o quanto a variável y depende da variável x .
Mas podemos nos perguntar: O quanto essa reta reflete realmente o comportamento de
x e y ? Quanto do que visualizamos na reta é real?
A resposta está baseada na precisão e acurácia da reta, que é refletida nos valores do
coeficiente de determinação, representado pelo símbolo R 2.
Se R 2 = 1:
1 significa que a variação explicada responde por 100% da variação total.
Ou seja, a reta de regressão representa perfeitamente o conjunto de dados e toda a
variação de y está relacionada com a de x.
Se R 2 for igual ou muito próximo a zero: quando isso acontece, significa que o valor
médio de y (coeficiente linear) é a melhor projeção para qualquer valor de x. Ou seja, a
reta de regressão não representa os dados observados, e por isso mesmo não deve ser
utilizada para fazer inferências sobre a população.
Calculando o valor do
coeficiente de determinação
O coeficiente de determinação de uma equação pode ser estimado dividindo-se a soma
de quadrados da regressão pela soma de quadrados total da variável resposta, que é “Y ”.
SQREGRESSÃO = 2,16 1589,2 − (69)(141,2) SQREGRESSÃO = 802,1
8
e
⎡ n 2 ⎤
⎢ n Yi ⎥
⎢ ⎥
⎢ ⎥
SQTOTAL = ⎢ Yi2 − i=1 ⎥
⎢ n ⎥
⎣ i−1 ⎦
SQTOTAL = 3299,42 − 19937,44 SQTOTAL = 807,2
8
SQREGRESSÃO 802,1
R2 = −→ R2 = −→ R2 = 99,3
SQT OT AL 807,2
Exemplo
Vamos ver um exemplo de aplicação de regressão linear?
Especula-se que a quantidade de lixo de uma cidade varia em função do poder aquisitivo
de seus habitantes. Para saber se essa hipótese está correta, o pesquisador realizou uma coleta
de dados em 3 cidades (A, B e C), e anotou a quantidade de lixo produzida (em toneladas) de
acordo com o número de salários-mínimos que a população recebe. Esses dados podem ser
visualizados nas Tabelas 3, 4 e 5.
12
10
salários-mínimos
y = 1,5x -1
R2 = 1
Número de
0
0 2 4 6 8 10
Quantidade de lixo (toneladas)
salários-mínimos
Número de 3,5
y = 0,55x
3
R 2 = 0,8963
2,5
2
1,5
1
0,5
0
0 2 4 6 8 10
9
8
salários-mínimos
7
y = 0,55x + 1,5
Número de
6
R 2 = 0,2262
5
4
3
2
1
0
0 2 4 6 8 10
Solução
Ao analisarmos as três figuras, podemos verificar que a quantidade de lixo gerada em
cada cidade em função do número de habitantes variou de maneira diferente: na cidade A,
quanto maior a quantidade de lixo gerada, maior a renda dos habitantes; na cidade B, houve
uma tendência desse mesmo resultado, exceto quando a produção de lixo foi de 6 toneladas;
na cidade C, pode-se notar uma maior dispersão dos dados, quando a variação da quantidade
de lixo gerada não acompanha exatamente o aumento da renda da população.
Mas será que a interpretação dos resultados está correta? Será que a reta traçada para
representar a situação de cada cidade é real, representando o quanto a quantidade de lixo varia
em função da renda da população?
Assim, podemos utilizar a equação de regressão para estimar a quatidade de lixo produzida
pela parte da população que ganha 2,5 salários-mínimos.
Equação de A: y = 1,5x + 1
2) No caso da cidade B, o valor de R 2 = 0,89, o que significa que a reta de regressão traçada
se ajusta quase que perfeitamente aos pontos, o que pode ser verificado pelo fato dela se
aproximar muito de cada um deles. Nesse caso, podemos afirmar que 89% da variação
que ocorre em y (quantidade de lixo gerada) está relacionada com a variação de x (renda
da população). O restante, 11%, é fruto de uma variação que não tem explicação.
Não propriamente, mas apenas que ela não é suficientemente adequada para explicar
a relação de causa e efeito, entre a receita da população e a quantidade de lixo gerada.
Possivelmente, nesse caso, a adição de outras variáveis (como por exemplo, o número médio
de anos de estudo da população) e uma nova equação de regressão múltipla resultarão em
aumento do R 2.
Autoavaliação
Faça uma regressão linear e calcule o seu coeficiente de determinação, utilizando
as informações da Tabela 6, que relaciona a quantidade de filhos por mulher em
função no número de anos de estudo, e discuta sobre a representatividade da
equação gerada.
Tabela 6 – Número de filhos segundo os anos completos de estudos, em mulheres de 15 a 49 anos de idade
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001.
Aula
9
Apresentação
V
ocê já deve ter ouvido expressões como: “Houve aumento no índice de inflação”; “Houve
alteração no índice nacional de custo na construção civil (INCC); “Houve aumento na
taxa de natalidade do Estado do Rio Grande do Norte em 2009”. Esses indicadores
são chamados de números índices e você os estudará nesta aula. Você verá como calcular
os números índices, sua importância e formas de aplicação dessa ferramenta estatística nas
Ciências Biológicas e em situações do cotidiano.
Objetivos
Compreender o conceito de número índice.
1
Diferenciar números índices simples de compostos.
2
Calcular os números índices e interpretar os seus
3 resultados.
D
iariamente, vemos nos telejornais informações de como anda a nossa economia:
Notícias como “[...] a inflação nos últimos 12 meses foi de 1,56%”; “[...] o aumento
do IGPM foi de 12,6%”; “[...] o INPC teve queda de 2,8% no mês de agosto”. Vemos
também notícias sobre o índice de fertilidade da população brasileira, índice de natalidade,
índice de mortalidade, dentre outros (Figura 1). E, na maioria das vezes, ficamos sem saber o
que estas informações significam.
Esses índices ilustrados na figura acima são denominados de números índices. Sua
definição, como calculá-los e como interpretá-los é o que você verá a seguir.
O
s números índices (ou apenas índices) são instrumentos estatísticos utilizados
para comparar a evolução ou o comportamento de variáveis através do tempo. São
indicadores que se aplicam no campo da produção, evolução dos preços, dos salários,
da biodiversidade animal e vegetal, do desmatamento, de registros demográficos, dentre
outros, como citados na Figura 1.
Matematicamente, é a razão entre o valor de uma variável em uma data limite e o valor Data limite
dessa mesma variável em outra data, denominada data base. Data limite: data final
do período de tempo
Por exemplo: quando nos deparamos com a informação de que o índice de mortalidade estudado.
infantil no Rio Grande do Norte no ano de 2010 foi de 3,5%, este índice de mortalidade foi
obtido pela razão entre o número de mortalidades no ano de 2010 e o número de mortalidades
em uma data base, por exemplo, no ano de 2009. Todavia, essa comparação deve ser feita Data base
apenas em relação à data base.
Data base: data inicial
do período de tempo
Note que os números índices são expressos em porcentagens e só se aplicam às datas
estudado.
a que se referem ou são adimensionais (sem unidade de medida).
Curiosidade
Os números índices como dissemos acima, podem ser aplicados nas Ciências
Biológicas. A notícia a seguir exemplifica essa aplicação.
A principal limitação dos índices simples é que eles se referem apenas a itens isolados.
Apesar disso, são vários os exemplos de índices simples: crescimento da população, taxa de
natalidade, taxa de mortalidade e indicador de desemprego.
2) Compostos: Expressam a evolução de uma variável composta (que integra várias medidas
juntas) entre dois períodos de tempo. Um exemplo deste tipo de variável composta é
observado no cálculo da inflação. Essa medida/índice é o resultado da variação conjunta
de preços de numerosos itens, como por exemplo, os alimentos (leite, carne, ovos,
manteiga etc.), o transporte (combustíveis, passagens de ônibus etc.), dentre outros.
Alguns desses artigos podem ter tido alteração (aumento ou diminuição) no preço e outros
podem continuar com o mesmo valor. Além disso, cada um desses artigos tem um peso
(ponderação) diferente para o cálculo do índice. Assim, um aumento no preço do leite e do
feijão, por exemplo, tem um impacto muito maior no índice de inflação do que elevação do
valor de automóveis. Isso se deve ao fato de que os alimentos são consumidos por toda
a populção e os automóveis somente por alguns poucos indivíduos.
Atividade 2
NI = número índice;
Utilizando essa fórmula, você poderá calcular os números índices, sejam eles simples
ou compostos.
Exercício resolvido 1
Será que se você dividir o número de inscritos no vestibular para o Curso de Ciências
Biológicas em 2010 pelo número de inscritos no ano anterior, e multiplicar por 100, você
terá um índice?
Solução
Sim, você terá um índice. Se o índice for maior do que 100, a procura pelo
curso aumentou. Se ao contrário, for menor do que 100, a demanda diminuiu.
Vamos verificar?
Atividade 3
Calcule o número índice para as seguintes situações e interprete os resultados.
Curiosidade
Depende do que seja esse índice. Se for de uma variável boa, o crescimento deste
índice será bom para a população. Como exemplo disso, temos: crescimento na
expectativa de vida, aumento na taxa de escolaridade das crianças, aumento real
do salário mínimo.
Exercício resolvido 2
O preço de determinado artigo, em 2008, foi R$ 5,00 e em 2010 subiu para R$ 6,25.
Tomando-se por base o ano 2008, determinar o índice relativo de preço em 2010.
Solução
Ele pode ser obtido aplicando-se a fórmula geral dos números índices, dividindo-se o
total de alunos aprovados pelo número de matrículas na disciplina.
Número de alunos aprovados
IA = × 100
Número de alunos matriculados na disciplina
Note que para este índice, o fato do aluno ter sido aprovado por média (direto) e/ou por
recuperação, bem como ter trancado a disciplina não interfere no resultado. O que me interessa
saber é a relação entre o número de alunos aprovados ao final do curso.
Note que a fórmula para o cálculo do índice de aprovação de alunos é a mesma utilizada
para o cálculo do número índice em geral, como dito anteriormente.
Exercício resolvido 3
Calcule o índice de aprovação de uma turma da disciplina de Bioestatística do terceiro
semestre de 2010, onde o número de alunos inscritos foi de 41 e de aprovados foi de 30.
Solução
Identificar:
1
Número de alunos aprovados: 30
Atividade 4
Suponha que uma família com cinco pessoas compre semanalmente 10 litros de leite,
4 kg de feijão e 5 kg de arroz e gaste R$ 25,00/semana com transporte. Vamos então elaborar
um índice composto de custo de vida para esta família na primeira (1) e na última semana do
mês (4)?
Quantidade Porcentagem
Item Valor unitário (R$) Total da semana 1
consumida do total
Transporte
10 R$ 2,5 R$ 25,00 57,84%
(passagens)
Quantidade Porcentagem do
Item Valor unitário (R$) Total da semana 4
consumida total
Transporte
10 R$ 2,5 R$ 25,00 47,98%
(passagens)
É por esse motivo que, às vezes, os índices de inflação são divulgados e você pode achar
que a alteração nos preços observados na sua região é diferente da informação oficial. Isso
ocorre porque a inflação é calculada por uma média ponderada de itens médios de consumo
de uma família brasileira. Assim, nem sempre os hábitos de consumo e os preços observados
são semelhantes aos seus.
Autoavaliação
Fonte: <http://blog.ambientebrasil.com.br/wp-content/
uploads/2009/03/chamine.jpg>. Acesso em: 10 maio 2010.
“Apesar dos esforços internacionais, as emissões de dióxido de carbono (CO2) que geram
o efeito estufa aumentaram em 2004 e atingiram os maiores índices desde a década de 90.
Os países ricos somados tiveram uma queda de apenas 3,3% em média nas emissões nos
últimos 15 anos. Porém, quando se leva em conta apenas o período entre 2000 e 2004, houve
na realidade um aumento das emissões nessas economias, o que mostra a necessidade de
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Ed.
Artmed, 2003.
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001.
JORNAL DA CIÊNCIA. Emissão de CO2 cresce no planeta. 31 out. 2006. Disponível em: <http://
www.jornaldaciencia.org.br/Detalhe.jsp?id=42014>. Acesso em: 10 maio 2010.
SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo
Horizonte: Ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998.
SIQUEIRA, Ivana Caldeira; SIMA, Luiz Fernando; ROCHA, João Alberto Guerra da. A importância
dos números-índices. Disponível em: <http://www.eumed.net/ce/2009a/ssr.htm>. Acesso em:
4 abr. 2010.
TELEMEDICINA: informática médica. Disciplina de métodos quantitativos em medicina:
correlação e regressão. 1999. Disponível em: <http://www.dim.fm.usp.br/regressao/index.
php>. Acesso em: 10 maio 2010.
VIEIRA, Sonia. Introdução à bioestatística. Rio de Janeiro: Ed. Campus, 1980.
______. Princípios de estatística. São Paulo: Ed. Pioneira, 1999.
Aula
10
Apresentação
Nesta aula, você vai conhecer a história da probabilidade, bem como entender o seu
significado. Você verá como a probabilidade está presente no nosso cotidiano e como podemos
empregá-la nas Ciências Biológicas. Vai estudar também as leis da probabilidade e fará
exercícios que são regidos por essas leis.
Esta aula é de extrema importância, uma vez que os conceitos aqui adquiridos serão
utilizados na disciplina de Genética. Desse modo, faça sempre anotações e resolva os exercícios
propostos, que serão úteis em seu aprendizado futuro.
Bom estudo!
Objetivos
Compreender o conceito de probabilidade.
1
Conhecer a história da Teoria da Probabilidade.
2
Conhecer as leis de probabilidade.
3
Aplicar os conceitos aprendidos em estudos de sistemas
4 biológicos.
Por exemplo, observe o conjunto de dados na Figura 1, abaixo. Todos estes dados não
são viciados, ou seja, não são adulterados, e em cada face existe uma numeração marcada que
vai de um até seis. Assim, se eu pegar um desses dados e arremessá-lo numa caixa, existe a
probabilidade de 1/6 (ou 17%) de sair, na face voltada pra cima, o número 3.
A priori Observe que essa probabilidade é a mesma, se eu escolher, a priori, qualquer um dos números
Do latim “partindo daquilo
entre um e seis para apostar as minhas fichas. Concomitantemente, a probabilidade de ocorrer um
que vem antes”. É uma número diferente do que eu escolhi é de 83%, ou seja, o que faltar para completar 100%.
expressão filosófica que
designa uma etapa para se É utilizando essa lógica que as empresas de jogos legais montam sua estratégia de
chegar ao conhecimento. pagamento das apostas. Assim, elas podem pagar os prêmios devidos e ainda assim auferir lucro.
A probabilidade é usada para associar, a cada fato possível, sua respectiva chance de
ocorrência. Por exemplo, se há 80% de possibilidade de chover então há 20% de possibilidade
de não chover; se você fosse se submeter a uma cirurgia que tem apenas 30% de chance de
sucesso ponderaria melhor sobre sua decisão.
Às vezes, podemos prever fenômenos, como é o caso de você jogar várias vezes uma
moeda de determinado lugar e medir a velocidade da queda, onde os resultados serão sempre
iguais. Esse fenômeno é previsível, pois obedece determinada lei da Física e é chamado
de determinístico.
Atividade 1
Defina probabilidade.
1
Um pouco de história
O estudo da Teoria da Probabilidade começou em 1664, com a troca de correspondência
entre dois matemáticos franceses, Blaise Pascal e Pierre Fermant, que tinham sido procurados
por Antonie Gombaund, o Chevalier de Meré, homem de letras e membro da corte de Luis XIV.
a b
Fonte: <http://www.york.ac.uk/depts/maths/histstat/people/pascal.gif>;
<http://www.york.ac.uk/depts/maths/histstat/people/fermat.gif>.
Acesso em: 4 maio 2010.
Nessa época, os dois matemáticos iniciaram seus estudos e chegaram, cada qual, a
uma conclusão diferente: Pascal se baseou nos valores esperados de duas ações que se
alternam (alternativas) e Fermant focou seus estudos no cálculo da probabilidade de um evento.
Entretanto, nenhum dos dois estudiosos publicou imediatamente seus resultados.
Desse modo, o Chevalier de Meré avaliou que o estudo das probabilidades não deveria
ser pesquisado a fundo e ainda afirmou que o tempo gasto nesse estudo poderia ser melhor
empregado para outros fins. Felizmente, esse fato não foi acatado por todos os estudiosos
da época.
O acaso
A palavra acaso é originária do latim a casu, e significa algo que surge ou acontece a
esmo, sem motivo ou explicação aparente.
Muitas das situações que presenciamos no nosso dia a dia são determinadas pelo acaso,
configurando situações que podem ser classificadas como sorte ou azar. Sair de casa apressado
e ver o ônibus partindo do ponto; não participar de um chat de dúvidas e este não ser realizado
devido à doença do professor; encontrar uma pessoa na rua com a qual você precisava conversar;
ser atendido pelo SUS antes que algo mais grave aconteça com a sua saúde; todos esses são
acontecimentos comuns a todos nós e, muitas vezes, determinados pelo acaso.
2) Qualquer um deles acontecerá um certo número de vezes (e não ocorrerá um outro número
de vezes) ao longo de um determinado período de tempo.
Essas duas características podem ser apresentadas no exemplo acima, no qual você pode
não participar de um chat de dúvidas e este não ser realizado devido à doença do professor
e você pode não participar de um chat de dúvidas e este ocorrer sem a sua participação
(característica 1). Também, esse fato pode ocorrer um determinado número de vezes e se
repetir durante um certo tempo, no caso de você não participar de vários chats marcados pelo
professor e ter a sorte dele adoecer em diversas ocasiões (característica 2).
Existem situações nas quais, embora não se saiba o que de fato irá acontecer, tem-se
uma lista de possíveis resultados. Como por exemplo:
Outro exemplo desse conceito é quando se analisa a seguinte frase: “É provável que o meu
time ganhe a partida hoje?”. Pode-se esperar a ocorrência de três resultados para a partida:
Repare que todos os resultados possíveis são conhecidos “a priori”. Todavia, por mais
que você torça pela vitória do seu time, é impossível saber se ele vai ganhar o jogo antes do
término da partida.
Eventos aleatórios
Evento é cada um dos resultados possíveis de uma situação acontecer. Se considerarmos
os exemplos anteriormente citados, seria um evento o fato do camundongo número 2 girar a
roleta dentro da gaiola de experimento; do terceiro filho do casal nascer de olhos castanhos;
de sair o número 3 em um dado.
Um exemplo clássico de evento é o lançamento de uma moeda: se a moeda for honesta, Moeda honesta
o evento “cara” tem igual chance de ocorrer que o evento “coroa”, ou seja 50% de chance. Moeda não viciada, onde
Esses são denominados de eventos aleatórios (do latim alea, sorte), pois cada um deles (cara cara e coroa têm chances
iguais de acontecerem.
e coroa) tem a mesma chance de ocorrer em relação a seus respectivos eventos alternativos
(se der cara, o evento alternativo será coroa e se sair coroa, o evento alternativo será cara).
Heterozigoto
Q
uando a ocorrência de um evento não afeta a probabilidade de ocorrência de um outro,
fala-se em eventos independentes. Por exemplo, ao lançar várias moedas ao mesmo
tempo, ou uma mesma moeda várias vezes consecutivas, o resultado do primeiro
lançamento não interfere no resultado dos demais lançamentos. Por isso, cada resultado é
um evento independente do outro.
Um exemplo desse tipo de evento é dado pela probabilidade de uma mãe ter uma criança
do sexo masculino ou feminino. Repare que para este evento, só existem duas opções, que são
excludestes entre si com relação ao sexo: masculino ou feminino. Nesse caso, a probabilidade
da mãe ter uma criança do sexo masculino é 0,5 (50%). Consequentemente, a probabilidade
dessa criança ser do sexo feminino é o complemento para 1 (100%), ou seja, 0,5 (50%).
Cálculo da probabilidade
A probabilidade de um determinado evento A ocorrer, é calculada pela equação:
Solução
Passo 1: Em primeiro lugar devemos identificar, no enunciado do problema, quais as
nossas variáveis:
– Número total de eventos: 52, pois este é o número total de cartas no baralho.
Passo 3: Agora é só concluir: A probabilidade de se tirar, ao acaso, uma carta vermelha deste
baralho é de 0,5. Muitas vezes apresentamos o valor da probabilidade em porcentagem. Nesse
caso, é só multiplicar o valor obtido por 100. Assim temos:
Atividade 3
No lançamento de um dado, qual a probabilidade de:
1
a) Sair o número 6?
Propriedades Elementares
P1) A probabilidade de um evento impossível é nula (0%).
Exemplo
Qual a probabilidade de, em uma gestação, nascer um indivíduo do sexo masculino ou
do sexo feminino?
1 1
Solução
P r(masculino ou f eminino) = P r(masculino) + P r(f eminino) = + = 1
2 2
Assim, há 100% de probabilidade de nascer um indivíduo do sexo masculino ou do sexo
feminino.
Pode-se concluir que há 12,5% de chance de um natalense ser do sexo masculino e ter
sangue tipo O.
Exercício resolvido 1
Em experimentos realizados por Mendel, observou-se que o cruzamento de ervilhas
amarelas homozigotas (AA) com ervilhas verdes homozigotas (aa) originaram ervilhas
amarelas heterozigotas (Aa). Se essas ervilhas fossem cruzadas entre si, seriam originadas
ervilhas amarelas e verdes, na proporção de 3:1. Suponha que Mendel pegou, ao acaso, três
ervilhas, resultantes do cruzamento de ervilhas amarelas heterozigotas. Qual a probabilidade
de as três serem verdes?
Figura 3 – Gregor Johann Mendel
Resolução
De acordo com o enunciado do texto, se cruzarmos ervilhas amarelas AA com ervilhas verdes
(aa), temos 100% de ervilhas amarelas, pois ambas ervilhas produzirão gametas de um tipo só:
A a
AA Aa
A Proporção 3:1 = Três ervilhas
Ervilha amarela Ervilha amarela
amarelas para uma ervilha verde
Aa aa
a
Ervilha amarela Ervilha verde
Agora podemos calcular a probabilidade das três ervilhas serem verdes, aplicando
a regra do produto:
1 1 1
Pr(três ervilhas verdes) = Pr(ervilha verde)×Pr(ervilha 1 verde)×Pr(ervilha
P r(três ervilhas verdes) = × × = ou 1, 56%
verde) 4 4 4 64
Atividade 4
Um casal tem dois filhos. Qual a probabilidade de:
Resumo
Nesta aula, você conheceu um pouco da história da probabilidade e compreendeu
o seu conceito. Entendeu o conceito de acaso e estudou os principais tipos
de eventos: aleatórios, independentes e mutuamente excludentes. Aprendeu
como calcular a probabilidade utilizando a sua fórmula e visualizando exercícios
resolvidos. Conheceu as leis de probabilidade, ou seja, regra da soma ou regra do
ou e a regra do produto ou regra do e, bem como suas propriedades elementares.
Aprendeu como aplicar essas leis tendo como exemplo situações cotidianas e
exercícios de genética.
Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo O é 40%, ser do tipo
A é 30% e ser do tipo B é 20%. Suponha ainda que a probabilidade de Rh+ é de 90% e que o
fator Rh independe do tipo sanguíneo. Nessas condições, qual a probabilidade de uma pessoa
tomada ao acaso da população ser:
O, Rh+
1
AB, Rh–
2
Anotações