Ap01 Fundamentos de Estatística2014 V04

A Condução da Análise 2014/1
A Condução da Análise
© Thierry R. Gasnier/ Universidade Federal do Amazonas
em Ciências Biológicas I
2013/2
Thierry R. Gasnier
Universidade Federal do Amazonas
A Condução da Análise I- 2012/2
Sumário
Introdução ............................................................................................ 3
1. Estatística na perspectiva do usuário ........................................... 4
1.1 A necessidade de estatística .................................................... 4
1.2 Complexidade estatística ........................................................ 4
1.3 Questão, hipótese, previsão e evidência. ................................ 6
1.4 Tipos de evidências .................................................................. 8
1.5 Validando evidências ............................................................. 12
1.6 Estatísticas intuitiva e frequentista ...................................... 15
1.7 Da amostra à população........................................................ 18
2. Do problema biológico ao estatístico. ......................................... 20

2.1 Entidades ................................................................................ 20
2.2 Propriedades .......................................................................... 21
2.3 Tabelas e gráficos EPR ......................................................... 22
2.4 Relações entre variáveis ........................................................ 22
2.5 A estatística para estabelecer relações. ................................ 23
3. Confiança na medida e independência....................................... 27

3.1 Níveis e escalas de medida .................................................... 27
3.2 Atribuição de níveis nominais e ordinais............................. 29
3.3 Exatidão, precisão e acurácia. .............................................. 30
3.4 Distribuições de frequências ................................................. 34
3.5 Parâmetros populacionais .................................................... 36
3.6 Intervalos de confiança de parâmetros................................ 37
3.7 Independência para parâmetros univariados ..................... 41
3.8 Independência em análises de relações ................................ 42
3.9 Considerações complementares ........................................... 44
4. A lógica dos testes de hipóteses ................................................... 50

4.1 O método hipotético dedutivo............................................... 50
4.2 Estabelecendo hipóteses de trabalho ................................... 52
4.3 Controlando a inflação .......................................................... 53
4.4 Descartando hipóteses com procedimentos ......................... 54
4.5 Descartando a hipótese do acaso .......................................... 56
4.6 Nível de significância e tipos de erros. ................................. 59
4.7 Considerações complementares ........................................... 62
5. Diversidade de testes e suas premissas ....................................... 70

5.1 “Ecologia” e diversidade dos testes estatísticos. ................. 70
5.2 Testes com apenas uma variável .......................................... 70
5.3 Testes com duas variáveis ..................................................... 71
5.4 Premissas dos testes paramétricos ....................................... 72
5.5 Transformação de dados....................................................... 76
5.6 Outras premissas ................................................................... 76
5.7 Contrastes .............................................................................. 78
6. Planejamento Amostral ............................................................... 80

6.1 Independência entre unidades amostrais ........................... 80
6.2 A coleta parecia apropriada, mas... ..................................... 80
6.3 Tipos de variáveis dentro de mapas conceituais. ................ 83
6.4 Controle: tratamento, função e estratégia........................... 86
6.5 Escolha a sua abordagem...................................................... 91
6.6 O experimento como modelo na pesquisa de relações........ 91
6.7 Abordagens quase experimentais. ........................................ 92
6.8 Abordagens não experimentais ............................................ 93
6.9 Independência pela distância ............................................... 96
7. Maximizando o poder do teste .................................................... 99

7.1 Testes unicaudais e testes bicaudais ..................................... 99
7.2 Testes pareados e testes em blocos ..................................... 100
7.3 Níveis fixos e níveis livres .................................................... 102
7.4 Relações retilineares, curvilineares e monotonicidade. .... 103
7.5 O poder e os tipos de teste................................................... 103
7.6 O poder e os níveis das variáveis em estudo ...................... 105
7.7 Perdas voluntárias de poder ............................................... 106
7.8 Testes múltiplos ................................................................... 106
8. Glossário ..................................................................................... 109
9. Bibliografia citada e recomendada ........................................... 112

Anexo: Chaves e Guias para uso de testes e gráficos
Introdução alguns autores (e. g. Motulsky 2010, Magnusson &

Mourão 2005) propõem uma ênfase ainda menor na
matemática e ainda maior nos conceitos associados
No título “A Condução da Análise”, o termo “Condu- ao uso da estatística. Podemos ganhar muito se
ção” serve para reforçar uma analogia entre análise “terceirizamos” a parte matemática da estatística
na pesquisa e dirigir um veículo (carro, bicicleta, para os computadores e nos concentramos nas
etc.) que foi utilizada no texto. Talvez o principal questões conceituais sobre a forma correta de utili-
aspecto desta analogia seja que dirigir é uma ativi- zá-la.
dade quase assustadoramente complexa a princípio,
mas, depois de algum tempo de treinamento, vai Para a parte prática, apresentamos um texto anexo
ficando cada vez mais fácil, mesmo sem deixar de com instruções para a escolha de muitos testes e
ser complexa, tendendo a tornar-se agradável. O gráficos; é uma “caixa de ferramentas” básica para
mesmo pode ocorrer com o conhecimento sobre análises e apresentação de resultados. Estas instru-
medida, planejamento e análise dos dados, ao pas- ções servem para qualquer programa estatístico.
so que deixam de ser uma preocupação incômoda Adicionalmente, incluímos neste anexo as instru-
para se tornar parte natural do cotidiano da pesqui- ções específicas sobre como fazer esses teste e
sa. O termo “análise” deve ser compreendido em um gráficos no programa MYSTAT12, que pode ser
sentido bem amplo, pois a confiança em um resulta- baixado gratuitamente pela internet.
do não depende apenas da análise matemática. Um
bom estatístico sempre pergunta como os dados Este livro foi desenvolvido ao longo de mais de 15
foram medidos e coletados antes de ajudar na análi- anos ministrando aulas de bioestatística em gradua-
se, de forma que não é inapropriado utilizar este ção e pós-graduação na Universidade Federal do
sentido amplo para deixar o título mais compacto. Amazonas (UFAM) e no Instituto Nacional de Pes-
quisas da Amazônia (INPA). Devo aos alunos pelo
Este livro não é uma introdução à estatística, é uma estímulo e ajuda na busca de conteúdos mais apro-
introdução à bioestatística aplicada, isto é, ao uso priados para uma estatística aplicada à pesquisa. O
de ferramentas estatísticas para a resolução de amadurecimento do texto foi um processo longo e
problemas biológicos. É importante separarmos dois se deveu muito à contribuição de várias pessoas.
contextos da estatística, o contexto da criação e Pelas discutições de questões básicas que nortea-
fundamentação matemática e o contexto da aplica- ram a redação, agradeço a William Magnusson,
ção. Há profissionais que desenvolvem ferramentas Donald Macnaughton, Cintia Cornélius, José Luiz
estatísticas e avaliam suas aplicações e limitações, Camargo e Paulo Estefano. Agradeço pelas suges-
mas há também pessoas que sabem utilizar estas tões e críticas a versões anteriores do texto a Bruno
ferramentas com competência apenas com a base Spacek, Cecilia Roma, Erika Portela, Fabrício Bac-
necessária para o seu uso. O primeiro é como um caro, José Cardoso Neto e Sérgio Rodrigues da
engenheiro de carros ou um construtor de instru- Silva.
mentos musicais e o segundo é como um piloto ou
um músico. Quando uma pessoa que conhece a
Este texto usado em disciplinas da UFAM continuará em processo de
fundamentação e a aplicação vai ajudar outra pes- aperfeiçoamento. Versões mais recentes poderão ser obtidas no site
soa com um problema estatístico, não se espera www.intertropi.ufam.edu.br/ docs.html. Neste site também estão as
últimas versões das apostilas para escolha de gráficos e testes e outros
que a primeira explique noções de cálculo de proba- anexos. Sugestões poderão ser enviadas para o email tgasni-
bilidade e faça demonstrações de fórmulas (ques- er@ufam.edu.br. Os direitos autorais desta apostila pertencem ao autor
tões mecânicas), espera-se que ela vá direto ao e à Universidade Federal do Amazonas. É permitida a cópia sem fins
lucrativos desde que a fonte seja citada.
assunto e explique qual é a ferramenta apropriada,
quais suas premissas e limitações, como se realiza
o teste em um programa estatístico e quais são os
gráficos mais apropriados para comunicar os resul-
tados (questões de condução). Por isto, o conteúdo
de um livro de apoio na formação de estatísticos
(como para engenheiros ou construtores de instru-
mentos) deve ser diferente de um livro de apoio para
usuários (como para pilotos ou músicos). Ainda que
alguns livros de bioestatística tenham esta proposta,
1. Estatística na perspectiva cessários, mas é preciso ter claro que é o pro-

blema que define esta necessidade. Uma pes-
do usuário soa que optou por não aprender estatística está
limitando sua capacidade de analisar dados e
1.1 A necessidade de estatística de resolver problemas.
Em um sentido amplo, a Estatística é uma área A boa notícia, principalmente para quem não
do conhecimento que lida com a medida, coleta, gosta de fazer cálculos, é que dominar o uso da
organização, apresentação e interpretação de estatística hoje depende muito pouco de se
dados. O termo costuma ser utilizado em um entender as suas bases matemáticas, em fun-
sentido mais estrito referindo-se prioritariamente ção do desenvolvimento dos programas aplica-
à matemática da análise dos dados. A Estatísti- tivos de estatística, o que permite um melhor
ca Aplicada deve ter ênfase didática e priorizar aprofundamento nas questões conceituais es-
o uso correto das técnicas estatísticas em situa- senciais de análise.
ções concretas e contextualizadas em uma
determinada área do conhecimento. Ade- 1.2 Complexidade estatística
quadamente integrada aos conhecimentos da
área, pode deixar de ser apenas uma técnica Muitas pessoas consideram a estatística como
para tornar-se parte de uma filosofia de análise uma especialidade da matemática, mas pode-
de dados. mos considerá-la um ramo da lógica que faz
uso intensivo de matemática. Vista em seu sen-
A ciência avançou por muito tempo sem tido amplo, a estatística lida com pensamento
estatística, então por que agora seu aprendi- complexo. Isto não significa que seja uma forma
zado é considerado uma necessidade? Há pes- diferente de pensar, pois também é complexo
soas que se recusam a aprender a dirigir um nosso pensamento cotidiano.
carro, mas sabem usar transporte público, ima-
gine então uma pessoa que se recusasse a Por exemplo, chegar a um lugar determinado
usar qualquer meio de transporte, até uma bici- em uma cidade é uma atividade complexa
cleta ou um elevador. Esta pessoa poderia es- (Fig. 1.1). Em primeiro lugar você precisa co-
colher um estilo de vida compatível com um nhecer a cidade, ou ter um mapa dela e saber
deslocamento exclusivamente a pé, não é im- se orientar pelo mapa. Depois, você precisa
possível, mas certamente sua autonomia seria saber o local exato onde você está e aonde
muito limitada. A estatística é uma ferramenta quer chegar. Se for de carro, precisa saber diri-
para ajudar na pesquisa, assim como um meio gir o veículo, o que inclui aspectos de “legisla-
de transporte ajuda no deslocamento. Há situa- ção” (como saber que não se deve dirigir na
ções na pesquisa em que não precisamos de contramão), aspectos “psicomotores” (como
estatística, assim como há situações no cotidia- saber dominar o veículo em uma curva) e o uso
no em que só podemos nos deslocar a pé, mas correto dos instrumentos (como o freio ou o
isto não é argumento para optarmos por evitar a limpador de para-brisa). Estamos utilizando
estatística ou os meios de transporte. pensamento complexo quando temos que
integrar conhecimentos de diversos aspec-
Também podemos comparar a estatística com tos da realidade para atingir um determinado
um microscópio, outra ferramenta de pesquisa objetivo. Complexo não significa necessaria-
do biólogo. O microscópio é necessário para mente difícil. Muita gente consegue chegar a
vermos organismos e estruturas muito peque- um endereço sem muita dificuldade, embora
nos e a estatística é necessária para vermos o seja um problema que envolve vários tipos de
que há por trás dos dados. É verdade que nem conhecimento. Lidamos com problemas com-
sempre o microscópio ou a estatística são ne- plexos no dia a dia e precisamos aprender a
lidar com problemas complexos na pesquisa.
4
Hoje em dia não precisamos ter

muito conhecimento de mecânica
para dirigir um carro e chegar a
um endereço. Normalmente basta
saber que temos que colocar ga-
solina, trocar o óleo e calibrar os
pneus ocasionalmente. Pessoas
com conhecimento de mecânica
de automóveis fazem a manuten-
ção de nossos carros. Engenhei-
ros desenvolvem novas tecnologi-
as com base em um conhecimento
de física e de química que os cien-
tistas estão aprofundando nos
institutos de pesquisa e universi-
dades. Estas pessoas, portanto,
nos ajudam a atingir nossos obje-
tivos, pois nos entregam resolvi-
dos os níveis mais “moleculares”
ligados ao funcionamento do veí-
culo. A nossa responsabilidade na
condução de um veículo, portanto, Figura 1.1- A solução de problemas complexos envolve
deve se concentrar no domínio diferentes níveis de conhecimento, desde os mais "molecu-
dos níveis mais “globais” do pro- lares" até os mais "globais", como ocorre quando condu-
zimos um carro até um endereço ou quando conduzimos
blema de como chegar ao endereço. uma pesquisa. A explicação sobre o que é um problema
EPR será apresentada no capítulo 2.
Uma concepção equivocada da maioria dos
livros e cursos de Bioestatística dos últimos 40 quisas pedem análises estatísticas de dados,
anos é que é necessário e suficiente dominar o mas quando isto ocorre, é necessário algum
nível molecular da matemática, como o cálculo preparo em organização dos dados (cap. 2).
de probabilidades, para conduzir uma análise Precisamos entender bem as medidas e as
de dados. Nesta concepção, coloca-se um peso formas de coletar os dados apropriadas para
desproporcional neste nível de análise em de- responder questões (Cap. 3 e 6). E finalmente,
trimento de níveis mais importantes para quem precisamos saber realizar testes e preparar
conduz uma análise de dados. gráficos para uma análise e comunicação apro-
priadas (cap. 5 e Guia de testes e gráficos). É
Para formar usuários, é necessária uma abor- isto que um usuário de estatística precisa saber
dagem que leve em conta que a pesquisa é fazer bem. Para a maioria dos problemas, o
semelhante à forma cotidiana complexa de se usuário não precisa lidar diretamente com fór-
pensar. Quando fazemos pesquisa precisamos, mulas ou com algoritmos complexos e menos
em primeiro lugar, ter conhecimento do referen- ainda com a compreensão de por que as fórmu-
cial teórico do assunto de pesquisa, pois sem las são válidas. Este conhecimento matemático
ele estamos perdidos. Nosso referencial teórico e de programação pode ajudar, mas também
é como um mapa necessário a cada momento, podem atrapalhar, por desviar a atenção do
e é dele que nascem as questões de pesquisa. principal. É necessário que se reconheça que
Cada pesquisa tem o seu referencial, por isto, os conhecimentos fundamentais para o estatís-
neste texto começaremos com o passo seguin- tico não coincidem com os conhecimentos fun-
te, discutindo algo sobre questões e hipóteses damentais necessários para o usuário de esta-
de pesquisas (cap. 1 e 4). Nem todas as pes- tística.
5
1.3 Questão, hipótese, previsão e você precisa construir seu mapa mental concei-
evidência. tual sobre o assunto, isto é, consolidar a base
conceitual consultando pessoas e com uma
As contribuições para a ciência costumam co- pesquisa bibliográfica séria. Levantamento bi-
meçar com questões (ou com observações de bliográfico é uma tarefa inútil se você não estu-
padrões incomuns que levam a questões). As dar o material. Estudar não é apenas ler, dificil-
questões na pesquisa são perguntas temáti- mente se consegue elaborar um projeto interes-
cas relevantes sobre a realidade, que geral- sante sem um grau de envolvimento emocional
mente começam com “como”, “por que”, “o com o problema. A informação não vem apenas
que”, “quando”, “onde” ou “qual”, cuja res- de livros, é necessário desenvolver a capacida-
posta não é óbvia. Por exemplo, ao perceber de de observar. Isto significa estar atento, pro-
que a maioria das trepadeiras em uma floresta curar oportunidades de ver fenômenos de inte-
sobe na hospedeira girando em sentido anti- resse e tentar aplicar a teoria aprendida na leitu-
horário, surge a questão “por que a maioria das ra para interpretar suas observações. Este é o
trepadeiras sobe em sentido anti- horário?”. A momento de gestação da pesquisa, quando ela
resposta para esta pergunta não é óbvia e a precisa tomar forma. Esta etapa demanda tem-
questão é relevante porque pode revelar algum po e muita concentração, esqueça o estilo de
aspecto de fisiologia e ecologia vegetal de tre- vida “Fast Food” quando estiver elaborando um
padeiras que são um componente importante projeto.
das florestas.
Na pesquisa há respostas de dois tipos: descri-
As questões podem ser simples, mas as res- tivas e hipotéticas. As respostas descritivas não
postas podem ser muito complexas. Exemplos envolvem hipóteses, como na questão “como é
de questões de pesquisa: a) Como é possível a o tubo digestivo desta espécie de formiga?”.
coexistência de duas espécies de aranhas ar- Basta desenhar ou fotografar e destacar o que
madeiras muito semelhantes em uma determi- for considerado mais importante. Algumas des-
nada floresta?; b) Por que os dinossauros se tas descrições diretas envolvem ferramentas
extinguiram?; c) Quais os motivos das notas estatísticas, como veremos no capítulo 3. A
baixas do Brasil no exame Pisa (Programme for descrição direta de objetos de interesse científi-
International Student Assessment)? Algumas co, mesmo considerando a complexidade técni-
vezes as questões surgem inesperadamente, ca, costuma ser simples, no sentido de não
como quando surgem pessoas com uma doen- envolver hipóteses formais. Talvez por esta
ça estranha desconhecida, mas o mais comum simplicidade, as questões descritivas frequen-
na atividade científica é irmos atrás das ques- temente são consideradas “inferiores” na pes-
tões. Levantar boas questões envolve a capaci- quisa por algumas pessoas. Para derrubar esta
dade de observação e o conhecimento do refe- ideia, basta considerar o impacto que foi a in-
rencial teórico, inclusive para perceber que a venção do microscópio para a biologia, quando
questão é relevante e merece ser estudada. A todo um novo mundo de microorganismos e
boa questão não garante uma boa pesquisa, microestruturas foi descoberto, ou a atual revo-
mas é difícil imaginar uma pesquisa boa e origi- lução resultante da descrição de genomas, in-
nal sem uma questão bem definida boa e origi- clusive o humano.
nal.
Nossas descrições da realidade param no mo-
Em função disto, é importante refletirmos um mento que aparecem dúvidas sobre o que es-
pouco sobre como criamos questões. Saber tamos vendo. O que pensou o primeiro biólogo
criar boas questões é uma arte, mas há algu- que viu células em um microscópio? Provavel-
mas diretrizes que ajudam a desenvolver esta mente foi “o que são estas caixinhas?”. Quando
capacidade (ver texto paradidático “Writing good há questões sem resposta imediata pela “sim-
questions”). Durante a elaboração de um projeto ples” observação, criamos alternativas de res-
6
postas possíveis e investigamos se estão corre- evidências que apoia fortemente a hipótese
tas ou não. Estas respostas possíveis são cha- como resposta correta a uma questão. Na
madas de Hipóteses. Talvez a primeira hipótese realidade, não testamos diretamente hipóteses,
sobre as “caixinhas” tenha sido que eram meras testamos as previsões das hipóteses.
ornamentações casuais do primeiro organismo
observado, mas esta hipótese teria caído com Previsões são consequências empíricas
as observações posteriores de outros organis- esperadas de hipóteses, e algumas delas
mos. Em algum momento surgiu a hipótese que podem ser usadas nos testes das hipóteses.
as caixinhas eram uma espécie de divisão na Uma coisa é a previsão, que é o esperado pela
organização de todos os organismos. Esta hipó- hipótese, e outra é o observado. As evidências
tese não se sustentou realmente para todos os são os resultados observados em testes de
organismos, mas sustentou-se para os orga- (previsões de) hipóteses. As comparações
nismos pluricelulares. Hoje a teoria celular não das Previsões com as Evidências são denomi-
é mais tratada como uma possível resposta nadas Contrastes PE e costumam seguir re-
para aquela questão, mas como um fato inques- gras pré-estabelecidas de análise que podem
tionável e um dos pilares da Biologia moderna. terminar com um aumento ou redução da credi-
Portanto, o que era hipótese tornou-se descri- bilidade das hipóteses. Se a credibilidade de
ção, pois faz parte do que aceitamos como rea- uma hipótese aumentou muito, podemos dizer
lidade. que respondemos à questão. Usarmos o termo
“Resposta” para denominar o “final” do processo
Hipóteses que não podem ser avaliadas através de criação científica centrado em questões. Não
da observação de fatos não entram na ciência estamos implicando com isto que a hipótese
empírica, por isto, vamos nos referir a “hipótese” transformou-se, de forma definitiva, na resposta
como sinônimo de “hipótese empírica”. Hipóte- para uma questão, apenas que ela passou por
se (empírica) significa “qualquer afirmação um teste de qualidade rigoroso e a evidência
simples ou complexa que tenha consequên- indicou que é recomendável a sua aceitação
cias empíricas constatáveis” (Diez & Molines,
2008). Neste contexto, tanto a teoria
da evolução como a sugestão que
determinado comportamento de um
inseto indica territorialidade são
hipóteses, pois ambas têm conse-
quências empíricas constatáveis.
Entretanto, é mais comum se usar o
termo para ideias relativamente
simples (como o exemplo do inseto),
ficando o termo “Teoria” para uma
rede complexa de ideias. Pela defi-
nição acima, mesmo hipóteses e-
xaustivamente corroboradas são
tecnicamente hipóteses, mas na
prática, estas se tornam ideias acei-
tas com o acúmulo de evidências,
como vimos com a teoria celular.
Não há verdades definitivas na ciên-
cia, mas podemos falar que uma Figura 1.2- Uma hipótese é avaliada pelo contraste entre suas previsões e
hipótese transforma-se em con- as observações (evidências). Neste exemplo, as evidências não apoiam a
hipótese que passar sob uma escada dá azar. (Não tente repetir este
ceito cientificamente estabeleci- experimento sem as condições de segurança apropriadas).
do, quando há um conjunto de
7
como Resposta, ainda que provisoriamente. o resultado não permite uma escolha segura.
Um teste mais efetivo de mutualismo seria plan-
Se as observações correspondem ao previsto tar as duas juntas em densidades variáveis. A
por uma hipótese, então elas apoiam a hipóte- previsão pela hipótese de mutualismo é que
se, mas isto não basta. Algumas vezes outra haveria um maior crescimento de cada uma
hipótese concorrente é compatível com a mes- delas em função do aumento na abundância da
ma previsão. Por isto, quando temos hipóteses outra. Se isto for observado, a única hipótese
concorrentes, temos de procurar previsões alternativa que resta para explicar a evidência é
exclusivas. Esta comparação entre previsões que a diferença foi em direção ao esperado por
de hipóteses é denominada “Contraste de Hi- mero acaso. A estatística é útil nesta situação,
póteses”. Por exemplo, ao observar que duas como ferramenta para a exclusão da possibili-
espécies de plantas tendem a ocorrer juntas, dade do resultado coincidir com a previsão ape-
um pesquisador levanta a hipótese que elas tem nas por acaso.
uma relação mutualista. Para testar a hipótese
ele faz a previsão que quanto mais plantas de Embora existam estudos puramente descritivos,
uma espécie houver em um local, maior será o como a descrição de uma espécie nova para a
número das plantas da outra espécie. Então, ele ciência, geralmente os estudos são parcialmen-
recolhe dados de 100 locais distantes e encon- te descritivos e parcialmente envolvem hipóte-
tro uma forte correlação positiva. O resultado ses. Alguns estudos descritivos terminam com
parece apoiar a hipótese de mutualistmo, mas uma proposta de explicação para o que foi en-
há um problema. Podemos sugerir outra hipóte- contrado. Por exemplo, um estudo com síntese
se, que as plantas não são mutualistas, são de dados sobre muitos aspectos do ensino que
indiferentes ou até competidoras, e que pode se poderiam explicar a posição do Brasil em um
esperar uma correlação positiva entre as suas ranking de educação dificilmente deixaria de
abundâncias porque as duas respondem da propor uma interpretação para estes dados.
mesma forma à fertilidade do solo. Como a Esta interpretação construída a partir de dados
evidência é compatível com as duas hipóteses, descritivos não deixa de ser uma hipótese com-
plexa. Há divergências sobre considerar
um estudo realizado assim como um
teste de hipótese, já que foi principal-
mente uma construção de hipótese. En-
tretanto, o que importa é que um estudo
deste contribuiria para a compreensão
do fenômeno. A inclusão de uma fase
descritiva, em uma fase preliminar ou
como parte programada do projeto de
pesquisa, é algo muito importante. Difi-
cilmente geramos hipóteses interessan-
tes antes de conhecer um pouco mais
sobre o sistema de estudo.
Figura 1.3- Uma hipótese é uma possível resposta para uma questão.
Para avaliar se efetivamente ela é a resposta correta, precisamos
contrastar previsões exclusivas dela com os dados (evidências).
Frequentemente a estatística é uma útil ferramenta para realizar este
contraste.
8
1.4 Tipos de evidências mo momento em que o peixe foi identificado

como um verdadeiro Celacanto. Esta foi uma
A estatística não é uma ferramenta necessária das maiores descobertas da paleontologia, em
em qualquer contraste, sua utilidade depende função da posição deste peixe na filogenia dos
do tipo de evidência esperada. tetrápodes. Dificilmente esta ideia gerada da
própria evidência seria chamada de hipótese,
“Evidência Factual”. Uma evidência é factual mas a evidência é certamente do tipo factual,
quando uma ou poucas pois bastou uma observação para termos con-
observações são suficientes vicção da afirmação.
para convencer que uma
hipótese está correta. Uma “Evidência Factual” não significa uma evi-
dência definitiva e verdadeira, Colombo achava
Considere primeiro um exemplo cotidiano. Su- que a terra era redonda e mostrou que o mundo
ponha que seu telefone tenha deixado de fun- não terminava em um abismo no meio do Atlân-
cionar. Sua questão é: “o que causou a inter- tico, mas errou ao achar que tinha chegado às
rupção no funcionamento?”. Então, você pensa Índias. Evidências factuais, como todas as ou-
nas possibilidades (hipóteses): mau contato na tras, dependem de premissas válidas, isto é, de
tomada, aparelho quebrado, falta de serviço no condições explicitas ou não que justifiquem a
bairro, conta não paga, banco não repassou confiança na afirmação. Ainda que estejamos
pagamento, etc. Vimos que uma hipótese é uma sempre sujeitos a erros, não é preciso muito
suposição de um cenário possível do qual se esforço para encontrar inúmeros exemplos de
tira uma ou mais consequências. Então, você evidências factuais que revolucionaram a ciên-
testa cada hipótese, por suas previsões, até cia e que foram utilizadas para construir nossas
descobrir qual a correta. Para a hipótese de certezas de muitas questões do cotidiano.
mau contato, você meche nos contatos e verifi-
ca se a linha volta. Para a hipótese de problema “Evidência Estatística Simples”. Uma evidên-
na rede telefônica, você vai ao vizinho ver se cia é estatística simples
ele também está com problema. E assim por quando se baseia em
diante, até resolver o problema. várias unidades amostrais
consideradas “indepen-
Isto também ocorre na ciência. Quando cientis- dentes”.
tas observaram anomalias na órbita de Netuno
ao redor do Sol levantaram a hipótese que po- Você se questiona: o que é a febre? Seria uma
deria ser uma perturbação gravitacional causa- resposta do corpo para ajudar na cura da doen-
da por um planeta com órbita mais externa, ça? Ou seria uma reação induzida pelo agente
calcularam aonde o planeta deveria estar e infeccioso que prolonga a doença? As duas
encontraram um novo planeta que chamaram hipóteses fazem sentido, mas como saber qual
de Urano. Há muitos outros exemplos. Uma é a verdadeira? O fato de se observar uma cura
única volta ao redor do globo provou que a terra rápida em um paciente cuja febre não foi tratada
era redonda; a passagem do cometa Halley no é uma evidência favorável à primeira hipótese,
ano previsto provou que cometas são corpos mas é muito fraca. Entretanto, um conjunto de
celestes com passagens periódicas; Pasteur muitos pacientes escolhidos aleatoriamente
derrubou a teoria da geração espontânea com sem tratamento contra a febre com cura rápida
um simples experimento. Algumas vezes, uma comparado com muitos pacientes escolhidos
descoberta é uma evidência factual que gera aleatoriamente com tratamento e cura lenta
uma “hipótese” que ela mesma sustenta. É o seria uma evidência forte a favor da primeira
caso da descoberta do peixe primitivo chamado hipótese.
Celacanto em 1938 A ideia que este peixe não
estava extinto nasceu e se comprovou no mes-
9
A rigor, as evidências estatísticas simples apli- da água de um mês tendem a ser similares aos
cam-se a estudos experimentais, nos quais a registrados no mês anterior. Entretanto, isto não
independência entre unidades amostrais é ga- é necessariamente uma desvantagem, pois é
rantida pela aleatorização de qual unidade a- justamente pelo fato de um mês seguir o outro
mostral receberá qual tratamento (isto será que podemos perceber as dinâmicas defasadas
explicado no Capitulo 3). das chuvas e do nível de água. A informação do
mês do registro é necessária para avaliar a
“Evidência Contextual”. Uma evidência é con- influência da precipitação sobre o nível da água.
textual quando se baseia
em unidades amostrais Assim como vimos para a evidência factual, há
“dependentes”, de for- casos em que a evidência gera a própria hipó-
ma que é necessário tese que ela sustenta. É o caso da hipótese que
incorporar informações houve uma extinção abrupta da diversidade dos
destas unidades amostrais na análise ou redo- dinossauros há cerca de 50 milhões de anos
brar cuidados na forma de coletar dados. depois de reinarem por mais de 100 milhões de
anos (apenas restaram os ancestrais das aves).
Existe uma relação entre a precipitação no es- É um caso de evidência contextual porque a
tado do Amazonas e o nível da água no Rio redução abrupta na abundância de dinossauros
Negro ao longo do ano? A unidade amostral na baseia-se em várias medidas sucessivas de
figura 1.4 é “registro por momento” (uma obser- abundância de dinossauros (unidades amostrais
vação de precipitação e de nível de água por dependentes de “momentos” seguidos no tem-
mês). O gráfico não apenas mostra que existe po) cuja magnitude de variação pôde ser consi-
uma relação, mostra ainda que a defasagem é derada não aleatória. As quedas de meteoros
de cerca de três a quatro meses. Ao contrário eram eventos comuns durante a formação da
da evidência estatística simples, os registros terra, mas foram tornando-se raros até serem
neste caso não são independentes, pois pode- muito raros. Esta também é uma interpretação
mos prever que os valores de chuva e de nível contextual temporal. Portanto, o fato de haver
fortes indícios de uma grande colisão de um
meteoro com a terra nesta época dá muita força
à hipótese da grande extinção ser consequência
do impacto de um meteoro.
As evidências são do tipo contextual principal-

mente nos fenômenos em que há uma depen-
dência espacial ou temporal importante. Nestes
exemplos utilizamos avaliações contextuais
qualitativas, mas há casos em que são utiliza-
das técnicas estatísticas mais precisas e com-
plexas que são específicas para diferentes situ-
ações (e. g. Geoestatística, Análises de séries
temporais). Não abordaremos estas técnicas,
mas dedicaremos o capítulo 6 a estudos obser-
vacionais em que o cuidado redobrado com o
contexto pode permitir a utilização de uma esta-
tística mais simples.
Figura 1.4- Variação da precipitação média e do nível
médio do Rio Negro ao longo dos meses do ano. Fonte:
Key Environments: Amazonia, 1985
10
“Evidência Sistêmica” (ou Evidência por Coe- filhos, mesmo perdendo a chance de ter mais
rência em Rede). . alguns filhos. Em resumo, parar a reprodução
Evidências sistêmicas aumentaria o sucesso reprodutivo. O importante
são aquelas que encon- a notar aqui é que a conclusão não depende de
tram suporte principal- um fato ou de unidades amostrais independen-
mente na força da arti- tes ou dependentes, ela é mais ou menos con-
culação de ideias e/ou fatos de natureza dife- vincente pela articulação das ideias.
rente.
As análises que envolvem evidências sistêmi-
O que determina a perda da fertilidade em mu- cas sempre foram importantes na ciência. Uma
lheres na menopausa? A maioria das pessoas dificuldade em trabalhar com evidências sistê-
acredita que é apenas uma consequência natu- micas é que nem sempre é fácil convencer pes-
ral da idade, como se isto fosse evolutivamente soas, mesmo com vários bons argumentos. O
inevitável. Diamond (2010) sugere uma hipótese desenvolvimento da estatística frequentista no
diferente, que a menopausa é um fenômeno século XX possibilitou a criação de critérios
adaptativo para a espécie humana. Não há poderosos e objetivos de avaliação de uma
como se testar esta hipótese experimentalmen- evidência (quando a evidência for um conjunto
te, mas a análise é possível e também se ba- de dados “independentes”), a ponto de influen-
seia em comparação de previsões. Se a meno- ciar o conceito do que é ciência. Para muitos
pausa fosse mero resultado do envelhecimento, iniciantes, a ciência verdadeira é aquela que
o que poderíamos prever? Por exemplo, pode- envolve estudos experimentais, repetições e
ríamos prever que a interrupção da fertilidade testes estatísticos. O problema é que nem sem-
fosse comum em outras espécies. Entretanto, pre a realidade se apresenta como um conjunto
não é o que ocorre, na grande maioria das es- de dados independentes, como ocorre em um
pécies, as fêmeas não param a reprodução ou laboratório. Como usar estatística para analisar
só deixam de reproduzir ao quando estão muito a revolução francesa? A exigência de testes
velhas, quase morrendo. E se a hipótese de para considerarmos uma teoria como científica
Diamond estiver certa, o que podemos prever? é válida somente se utilizarmos o termo “teste”
Poderíamos prever que haveria vantagem na com um significado mais amplo que o de teste
menopausa relacionada a características distin- estatístico. Hipóteses na História, Arqueologia,
tas de nossa espécie. Diamond destaca duas Sociologia, Geografia Humana, Economia, As-
características: a) um bebê tão grande que a tronomia, Evolução e outras áreas predominan-
chance de morte da mãe e do bebê no parto temente não experimentais podem ser testadas
sempre foi alta (só reduziu recentemente devido por contraste com outras hipóteses comparando
à evolução da medicina); b) o cuidado parental a coerência do conjunto de cada uma delas, e
dura anos, incluindo a educação. Daí conclui lembrando que cada conjunto deve possuir
que a interrupção da fertilidade após certa idade elementos empíricos envolvidos. (e. g. docu-
seria vantajosa pelo aumento da probabilidade mentos e fatos históricos, objetos arqueológi-
da mãe conseguir sobreviver para criar todos os cos, observações de corpos celestes).
11
1.5 Validando evidências

É difícil errar na matemática de análises
estatísticas usando computadores, mas
podemos errar de outras formas. Podemos
errar por distração no registro e na entrada
de dados, o que deve ser evitado com
atenção redobrada e revisões nas bases
de dados. Abordaremos aqui outros impor-
tantes motivos de erros tão comuns que a
verificação que eles não ocorrem é cha-
mada de validação da pesquisa.
1) Validação da medida. Nem é preciso

explicar a necessidade de se manter ins-
trumentos calibrados. O que abordaremos
Figura 1.5- A divisão das evidências em quatro tipos é uma simplifica-
ção didática útil. Entretanto, existem situações intermediárias entre estes
aqui é um aspecto mais sutil da validação
quatro tipos. da medida: a preocupação com variáveis
operacionais tendenciosas em relação às
Embora as evidências possam ser divididas em respectivas variáveis teóricas. As variá-
quatro tipos, as pesquisas geralmente são sis- veis teóricas são aquelas da hipótese e que
têmicas, incluindo evidências factuais, estatísti- dizem respeito à relação em estudo, ainda
cas ou contextuais, pois as questões normal- que não possam ser diretamente medidas. As
mente envolvem diversas hipóteses que devem variáveis operacionais são aquelas efetiva-
estar articuladas de forma coerente. Além disto, mente medidas (são as variáveis da previsão e
há situações intermediárias (fig. 1.5). Por exem- da evidência). Quando uma variável da hipótese
plo, três evidências factuais podem ser mais pode ser medida diretamente, não existe a dis-
fortes que uma evidência factual; não chega a tinção, mas é comum que haja a separação.
ser uma evidência estatística, mas vai nesta Vejamos um exemplo. Sua hipótese é que a
direção. A dependência entre unidades amos- Taxa de Atividade (TA) de um lagarto insetívoro
trais pode ser considerada tão fraca que um muda em relação à disponibilidade de alimento
problema contextual pode ser tratado como um (DA). Para isto, você mede quanto cada lagarto
problema estatístico, mas na verdade esta é se deslocou em uma hora (D) e pesa os insetos
uma situação intermediária. Há sempre conside- (PI) que capturou com armadilhas de cola no
rações sistêmicas em qualquer tipo de evidên- centro do seu território de forrageio. As medidas
cia. Por exemplo, você confia que os dados não de D e PI parecem ser equivalentes a TA e DA,
foram falsos com base na reputação do pesqui- mas não são idênticas e as diferenças podem
sador. Portanto, todas as evidências são parci- comprometer a interpretação. Por exemplo,
almente sistêmicas. você não encontra relação e considera isto evi-
dência contrária à sua hipótese. Entretanto, isto
poderia ser um erro de escolha de variável ope-
racional. Imagine que a mudança de atividade
ocorresse na duração da atividade diária e não
em deslocamento por hora e os insetos captu-
rados nas armadilhas podem não ser as mes-
mas espécies da dieta do lagarto. A má escolha
de variáveis operacionais pode levar a erros de
interpretação sobre relações previstas para
variáveis teóricas.
12
V. dep→ Ordinal ou
Binário Quantitativo
A validação da medida não é um problema ape- V. ind.↓
(Categ. de 2)
Categórico Quantitativo
Condição NP
Condição P
nas de variáveis quantitativas. Imagine que Teste de 2 prop.,

T. Exato de
Tabela de
Contingência (TC)
Mann- Whitney;
Cochran’s TT (c)
Teste t (de 2
grupos) (d)
Binário Fisher ou T.C. (a)
perguntamos para estudantes se eles sabem (cat. de 2) Graf: Seção III
Tabela de
(b) Graf: Seção III
Tabela de
Graf: Seção IV
Kruskal-Wallis
Graf: Seção IV
Análise de
nadar, juntamos os dados, analisamos com Categórico Contingência (b)

Graf: Seção III
Contingência (b)
Graf: Seção III
(e)
Graf: Seção IV
Variância (f)
Graf: Seção IV
Dicotomizar VI ou
testes estatísticos e concluímos que os meninos Ordinal
Mann- Whitney;
Cochran’s TT (c)
VD e usar teste
apropriado (Max.
Correlação de
Postos/ RNL(h)
Correlação de
Postos/ RNL(h)
Graf: Seção VI Graf: Seção V Graf: Seção V
sabem nadar com frequência significativamente Regressão
Balanço) (g)
Dicotomizar VI ou Correlação de
Pearson/
Regressão
maior que as meninas. Mas será que o resulta- Quantitativo Logística (i)
Graf: Seção VI
VD (Max. Balanço)
(g)
Postos/ RNL(h)
Graf: Seção V
Linear/ RNL (j)
Graf: Seção V
do indica uma maior habilidade em nadar ou

mais vergonha de admitir que não sabe?
Figura 1.7- Esquema de uma tabela para escolha de testes
simbolizando a validação de análise.
Em muitos estudos, a medida é a maior fonte de
incertezas. Quando nós utilizamos um coeficien- dação Externa”, o que será explicado adiante.)
te de inteligência, estamos realmente medindo
inteligência? O número de pegadas de predado- 2) Validação de análise. A abordagem mate-
res em uma praia pode ser considerado um mático-estatística escolhida é realmente apro-
indicador de pressão de predação sobre ovos priada para a interpretação dos resultados?
de tartaruga? A concentração medida de fósforo Podemos errar na escolha e na forma de aplicar
total no solo realmente reflete o fósforo disponí- testes estatísticos, mas é fácil aprender a evitar
vel para uma planta? As espécies do estudo isto para as análises mais comuns na pesquisa.
foram identificadas corretamente? Se as incer- Nos capítulos 4 e 5 apresentaremos as bases
tezas sobre medidas são uma fonte de dúvida conceituais para a escolha e aplicação de tes-
(e isto é bastante comum), é essencial explicar tes. Exemplos de erro: utilizar um teste sem
bem como ela é feita nos métodos e por que considerar suas premissas ou basear-se ape-
você acredita que sua medida representa bem o nas em gráficos de barras ou em proporções
que ela deveria representar. Algumas vezes, para concluir algo que exige um teste ou inter-
parte do estudo inclui uma verificação disto. No valos de confiança. A utilização de testes fracos
exemplo do estudo comparando a capacidade onde testes poderosos poderiam ser aplicados
de nadar de meninos e meninas, você poderia também é um erro, embora seja menos grave
pedir para uma parte dos estudantes nadar em (cap. 7). A figura 1.7, tirada da apostila de práti-
uma piscina rasa. Sua medida será válida se ca, simboliza esta forma de validação pela es-
meninos e meninas não diferirem na taxa de colha correta do tipo de teste em função da
respostas falsas nos questionários. (Obs: A natureza dos dados.
validação da medida refere-se a medidas indivi-
duais; a validação de medidas coletivas é “Vali- 3) Validação Interna ou Independência Inter-
na. A forma como os dados foram coletados
previne explicações alternativas à conclusão?
Se eu sempre pescar muitos peixes no lago A e
você sempre pescar poucos peixes no lago B
podemos afirmar com segurança que no lago A
tem mais peixes? Quem garante que nós dois
temos a mesma habilidade de pescar? Dúvidas
deste tipo podem anular a validade de uma
pesquisa científica. Note que estamos analisan-
Figura 1.6- Um paquímetro simbolizando a validação da do a possibilidade de um problema “interno”
medida. comprometer a validade de um estudo. Este
problema seria resolvido se nossos esforços
amostrais fossem iguais nos dois lagos, tornan-
do o resultado independente de uma eventual
diferença de habilidade de pescar. Sem plane-
13
jamento amostral, existe o risco de que todos os mento ou situação particular. Elas geralmente
dados de um estudo precisem ser coletados são feitas com base em amostras. A validação
novamente. A independência interna é geral- externa de medidas coletivas depende basica-
mente simples em estudos experimentais e uma mente de técnicas de se obter uma amostra
das mais complexas em estudos observacio- representativa da população, como no exemplo
nais. Ela será discutida nos capítulo 3 e 6. das intenções de votos. Fala-se em “Indepen-
dência” Externa quando se aplica estas técnicas
4) Validação Externa ou Independência Ex- porque a representatividade anula os efeitos
terna. Até que ponto as conclusões com base tendenciosos de agrupamentos espaciais, tem-
em uma amostra (dados efetivamente coleta- porais e de situação. Voltaremos a discutir re-
dos) podem ser extrapoladas? Você poderia ter presentatividade no capítulo 3.
uma amostra de intenções de voto para presi-
dente de 1000 pessoas do Amazonas e uma Validação Externa por Razoabilidade. Muitas
amostra de 1000 pessoas bem espalhadas por vezes é impraticável ou até impossível se reali-
todo o Brasil. Qual delas é uma amostra mais zar uma amostra representativa, entretanto,
confiável para falarmos da intenção de votos pode ser razoável se generalizar a partir de
dos brasileiros? Você se surpreenderia se os premissas teóricas. Esta situação é mais justifi-
resultados fossem muito diferentes? Os de den- cável quando o estudo aborda relações entre
tro (a amostra) são igualmente representativos variáveis.
dos “externos” (toda a população) nas duas
situações? Há dois tipos de Validação Externa: Considere este exemplo com duas variáveis,
sexo e tamanho. Se eu concluir que machos de
Validação Externa por Representatividade. uma espécie de borboleta são mais ativos que
Medidas coletivas (ou parâmetros populacio- fêmeas da mesma espécie em uma determina-
nais) são aquelas obtidas com um conjunto de da área de estudo baseado em coletas feitas
dados de uma variável, como o peso médio de em janeiro de 2006, o que é razoável se supor?:
crianças recém-nascidas ou a frequência de a) Os machos desta espécie são mais ativos
intenções de votos em determinado local, mo- que as fêmeas todos os anos?; b) Os machos
desta espécie são mais ativos que as fêmeas
durante o ano todo?; C) Os machos são mais
ativos que as fêmeas 1 km dali? (e 10? e 100?
e 1000?); d) Outras espécies do mesmo gêne-
ro têm machos mais ativos em janeiro?;
e) Espécies desta família têm machos mais
ativos em janeiro? E se o estudo do compor-
tamento da borboleta fosse feito em um labo-
ratório? As observações ainda seriam repre-
sentativas do comportamento na natureza?
Figura 1.8- Esquema de coleta simbolizando o planeja-

mento amostral que é objeto de análise da validação
interna.
14
Obviamente, quanto mais distante da situação artificiais de laboratório. Se esta não for a sua
estudada, maior o risco da extrapolação, mas conclusão, cuidado, você está sofrendo de uma
este risco pode ser avaliado, ainda que grossei- doença comum chamada “paranoia metodológi-
ramente, com base no que você já sabe sobre ca” disseminada até mesmo em alguns cursos
borboletas. Se restringirmos nossas generaliza- de metodologia e de estatística superficiais.
ções ao universo amostrado, não há problema Generalizar a partir de um indivíduo é algo ina-
de validação externa. Entretanto, qual é o inte- ceitável em muitas situações, mas não em to-
resse do comportamento de borboletas da sua das, e não nesta em particular. Ao demonstrar
área de estudo em janeiro de 2006 se não po- estatisticamente que isto ocorre em um indiví-
demos generalizar? Poderíamos coletar em duo, temos evidência factual para a espécie,
outras épocas e outros locais, mas isto pode pois sabemos que a determinação do sexo é
não ser praticável e permaneceria a limitação uma característica da espécie que não varia
de não poder generalizar além das épocas e entre indivíduos. As condições artificiais de um
locais dos estudos. Generalizar além do razoá- laboratório precisam ser levadas em conta em
vel é um erro, mas não generalizar também é muitos casos, mas é difícil imaginar como elas
um erro. poderiam influir na razão sexual se ela fosse
cromossômica do tipo 1:1. O contexto biológico
Tomemos um exemplo mais extremo, a genera- nunca deve ser esquecido quando seguimos
lização a partir de uma observação. Imagine diretrizes metodológicas.
que você encontrou uma tartaruga de uma es-
pécie rara colocando seus ovos em um ninho A generalização por razoabilidade é parte intrín-
em uma praia. Você leva estes ovos para o seca da pesquisa. Por exemplo, é comum se
laboratório para verificar se a determinação do utilizar ratos para iniciar estudos sobre remédios
sexo é influenciada pela temperatura durante o para humanos porque: a) a ética nos impede de
desenvolvimento. Ao final do experimento, nas- começar com humanos; b) o custo de manuten-
ceram apenas fêmeas dos 20 ovos mantidos a ção de ratos em biotérios é relativamente baixo;
temperaturas altas e apenas machos dos 20 c) os ratos também são mamíferos, e devem ter
ovos mantidos a temperaturas baixas e você uma fisiologia semelhante em algum grau. Pre-
conclui que nesta espécie o sexo é determinado cisamos avaliar caso a caso até que ponto é
pela temperatura no desenvolvimento. Se esta razoável generalizar e ter consciência que a
for sua conclusão, você estará extrapolando generalização pode estar errada. A validação
para a espécie com base em apenas uma fê- externa por razoabilidade inclui argumentos,
mea e a partir de um experimento em condições citações e dados adicionais que justifiquem a
generalização.
Figura 1.9- Esquema representando a generalização de um

estudo específico para conclusões mais gerais, simboli-
zando a validação externa.
15
1.6 Estatísticas intuitiva e

frequentista
Alguns textos sugerem que cursos de esta-
tística são necessários devido à “dificuldade
dos cérebros humanos em lidar com proba-
bilidades”. Será que nossa estatística intui-
tiva é tão ruim assim? Ao contrário, somos
muito bons, pois a sobrevivência de animais
em geral e dos animais com melhores ca-
pacidades cognitivas em particular depende
destes cálculos intuitivos. Acontece que há
uma diferença entre a estatística intuitiva e
a formal mais utilizada em pesquisas. Ve- Figura 1.10- Três tipos intuitivos de decisão utilizados em problemas
remos nesta seção como esta estatística do cotidiano que também são usados na pesquisa.
intuitiva está em nosso cotidiano e como a
estatística formal mais comum difere dela. acha que valeu a pena porque ele está ficando
mais dourado que no seu preparo usual. Sua
Quando atravessamos uma rua, calculamos a mãe deveria ter chegado há meia hora, esta
velocidade do carro que vem em nossa direção, observação te faz ligar para ela para saber se
a sua distância, o tamanho da rua e o tempo houve algum problema. Cada uma destas atitu-
que levaremos para chegar ao outro lado e des simples está carregada de estatística intuiti-
então cruzamos a via, com a maior naturalida- va.
de. Imagine a complexidade e rapidez dos cál-
culos que realizamos durante uma partida de Não nos damos conta da complexidade dos
tênis ou para dirigir um automóvel no meio de cálculos envolvidos nas decisões do cotidiano.
outros carros e dos pedestres que atravessam a Usamos nossa estatística intuitiva para atribuir
rua. Esta matemática instantânea e sem núme- valores, sintetizar as informações, decidir se
ros desenvolveu-se ao longo da evolução, pois existe uma relação entre determinadas variáveis
quanto mais precisos os cálculos intuitivos, e construir modelos de previsão e de controle.
maior a chance de sobrevivência, sucesso soci- O termo “estatística intuitiva” não implica que
al e reprodutivo. nascemos com ela, da mesma forma que não
nascemos andando, na verdade nascemos com
Parte desta matemática intuitiva é transformada o potencial, mas é uma capacidade que vamos
em estatística intuitiva, utilizada na tomada de desenvolvendo. Se pensarmos bem a estatísti-
decisões do cotidiano. Por exemplo, você está ca intuitiva, é algo tão impressionante como a
saindo de casa e percebe que há nuvens carre- nossa capacidade de andar sobre duas pernas
gadas, volta e pega um guarda chuva. No mer- ou de nos comunicar com palavras.
cado você vai pagar as compras, escolhe a fila
com menos carrinhos, mas muda de fila porque Podemos dividir estas decisões em três tipos de
percebe que os carrinhos da frente estão muito Valor, de relação e de ação (Fig. 1.10). Há deci-
cheios. No caminho de volta, você reconhece e sões de valor, como nas expressões “nuvens
cumprimenta uma pessoa que não via há uns muito carregadas”, “carrinhos muito cheios” ou
10 anos; ela está um pouco diferente, mas qua- no reconhecimento de uma pessoa (esta pes-
se não envelheceu. Preparando a janta, você soa=João). Parece natural, mas pense na com-
avalia que o peixe no forno ainda não está pron- plexidade que é reconhecer uma pessoa. O
to com base no cheiro e na consistência. Con- atraso da mãe foi percebido em função de uma
clui ainda que está demorando e que a demora medida de tempo médio e de atraso médio que
pode ter sido por não ter coberto o peixe, mas permitiu “medir” o atraso como “acima do nor-
16
mal”. Outras decisões são de relações entre você gostaria de casar, mas teme muito a pos-
variáveis, que nos são ensinadas ou que apren- sibilidade separação; qual é a chance disto
demos ou percebemos por conta própria. Por ocorrer? Se você quisesse uma avaliação do
exemplo, a relação entre a quantidade de nu- tipo que se usa mais nas pesquisas científicas,
vens e a probabilidade de chover ou entre o você teria que casar com ele (a) umas 30 vezes
cheiro do peixe e ele estar pronto para ser con- em condições semelhantes à atual e verificar a
sumido. Outras decisões são de ação, como taxa de sucesso para tomar uma decisão com o
pegar o guarda chuvas, mudar de fila ou telefo- tipo de estatística que vamos trabalhar neste
nar para a sua mãe. curso. Naturalmente que isto é impossível neste
exemplo e em muitas situações do cotidiano,
Para entender como uma decisão envolve um mas é bem mais comum isto ser possível na
cálculo, analise o exemplo do guarda chuva. pesquisa, especialmente em estudos experi-
Depois da decisão de valor de considerar que o mentais.
que você viu eram “nuvens muito carregadas” e
depois de ter estabelecido (ainda na sua infân- Na decisão sobre um casamento, só lhe resta
cia) a relação entre a quantidade de nuvens e a uma abordagem sistêmica na qual você recolhe
probabilidade de chuvas, você vai aplicar este informações relevantes e procura fazer um cál-
conhecimento a uma decisão de ação. A deci- culo aproximado de probabilidades. Você pode-
são de ação de pegar o guarda chuva depende ria partir das estatísticas de uma taxa recente
da avaliação do custo de pegar o guarda chu- de divórcios no Brasil de 20% nos 10 anos inici-
vas e não chover contra o custo de não pegar o ais. Entretanto, considerando sua faixa etária e
guarda chuva e chover. Comecemos pelos ex- classe social, você verifica na pesquisa que a
tremos: se pegar chuva fosse extremamente taxa é de 30%, portanto, esta é uma estimativa
perigoso e o guarda chuva fosse muito leve, mais apropriada. Este é um risco alto, o que te
você simplesmente o levaria sempre; se pegar coloca em dúvida. Então, você conversa com
chuva não incomodasse em nada e carregar um amigos que te tranquilizam lembrando que seu
guarda chuvas fosse um estorvo, você nunca o (sua) pretendente teve relacionamentos anterio-
levaria. Em casos intermediários, precisamos de res estáveis e que não terminaram devido a
um cálculo, intuitivo ou formal. Ilustremos com alguma briga irracional. Portanto, você conside-
um cálculo formal. Se você acha que escapar ra que a probabilidade de divórcio com ele (a) é
de uma chuva vale R$10,00 e que pagaria bem inferior aos 30% e aceita a proposta. Esta
R$2,00 para não ter que carregar o guarda chu- probabilidade estimada considerando as infor-
vas por um dia, então não levaria o guarda chu- mações contextuais não é utilizada apenas no
vas se a chance de chover fosse de 50% (pois cotidiano, também é bastante usada em pro-
0,5 x R$10,00 > 0,5 x R$2,00), mas levaria se a blemas aplicados, como no cálculo do valor de
chance de chuva fosse de 90% (pois 0,1 x apólices de seguros, utilizando uma versão
R$10,00 < 0,9 x R$2,00). Não dê importância matemática mais precisa de nossa estatística
ao cálculo exato, o objetivo aqui é perceber que intuitiva chamada Estatística Bayesiana. Sua
a decisão depende de duas coisas: do custo utilização na pesquisa tem sido relativamente
que representa cada alternativa de decisão e da restrita, mas tem crescido nos últimos anos, à
probabilidade de cada alternativa no momento medida que os pesquisadores vão entendendo
da decisão. a sua utilidade para uma diversidade de situa-
ções de tomada de decisão.
É importante iniciarmos valorizando nossa ca-
pacidade de tomar decisões, para entendermos A estatística intuitiva mais comum é uma forma
que nossa lógica intuitiva não está errada, ape- complexa válida de pensar, tanto que tem um
nas difere na aplicação com o que é mais feito equivalente formal, que é a estatística Bayesia-
na ciência. Imagine que seu namorado ou na- na. Entretanto, em condições especiais, quando
morada lhe pede em casamento. Digamos que podemos obter informações de dados com re-
17
petições de unidades amostrais independentes, O ideal é que a população estatística seja muito
e dentro de premissas metodológicas bem defi- bem delimitada, como no exemplo das inten-
nidas, temos uma alternativa bem mais objetiva ções de voto, mas nem sempre isto é possível.
e poderosa para estabelecer relações que é No exemplo de borboletas da seção anterior
chamada Estatística Frequentista. Vamos dificilmente se conseguiria coletar em toda sua
explicar o seu funcionamento a partir do capítu- área de ocorrência, e não seria possível se
lo 3. Neste livro, como na grande maioria dos coletar borboletas no futuro ou no passado. Por
cursos básicos de estatística, apenas tratare- isto, a delimitação assumida como “borboletas
mos de cálculos de probabilidades frequentis- pertencentes a determinada espécie” tem a
tas. Entretanto, a estatística intuitiva também é premissa que as do presente e do local do es-
usada quando utilizamos a frequentista. Não tudo são representativas também de outros
faremos cálculos matemáticos Bayesianos, mas lugares e tempos, premissa cuja validade de-
utilizaremos avaliações de premissas qualitati- pende de reflexão com base na razoabilidade
vas que chamaremos de “Razoabilidade”, como biológica.
fizemos na seção 1.5 na validação externa por
razoabilidade. Os elementos da população estatística que
constituem a amostra são denominados Unida-
1.7 Da amostra à população. des Amostrais. A amostra com todos os ele-
mentos que entraram no estudo pode ser dividi-
O objetivo da análise estatística frequentista de da em amostras menores com base em alguma
dados é fazer as conclusões mais fortes possí- característica das unidades amostrais. Por e-
veis com segurança sobre uma população xemplo, podemos dividir a amostra borboletas
estatística com base nos dados disponíveis em função do sexo e obtemos uma amostra de
(amostra ou amostras) (Motulsky, 2010). machos e uma amostra de fêmeas. Podemos
dividir a amostra de intenções de votos de uma
Já falamos superficialmente em populações e ampla pesquisa no Brasil em 27 amostras (uma
amostras na seção anterior, vamos aprofundar para cada estado). Ao fazermos isto, também
um pouco mais. Uma população estatística é estamos dividindo a população estatística em
um conjunto completo de entidades que se populações estatísticas. Não podemos dizer
pretende estar envolvendo em uma análise. que há uma população biológica de machos de
Em contraste, a amostra é o subconjunto da borboletas, mas podemos dizer que há uma
população estatística efetivamente utilizado população estatística de machos de borboletas.
na análise.
Frequentemente, as conclusões estatísticas
É importante não confundir o termo biológico/ envolvem parâmetros populacionais. Um Parâ-
geográfico de população com o termo “Popula- metro é uma medida coletiva quantitativa de
ção Estatística”. Em um estudo sobre intenções alguma propriedade da população, como a mé-
de votos para presidente do Brasil, a população dia do tamanho das borboletas macho. Outros
estatística é o conjunto de “intenções” (imagine parâmetros incluem número de indivíduos da
uma caixa com papéis com declarações de população, a razão sexual, o grau de dimorfis-
intenção de voto de cada eleitor em determina- mo sexual, a proporção de eleitores dispostos a
do momento). Se preferir imaginar como pesso- votar em certo candidato e coeficientes de mo-
as, então imagine uma “pessoa-momento”. Note delos que descrevem relações. Abordaremos
que a população estatística não é realmente a mais profundamente parâmetros populacionais
população brasileira, pois a população que vai no capítulo 3.
votar praticamente não muda de um mês para
outro, mas as intenções podem mudar bastante Esta seção apenas introduz um assunto que
ao longo do tempo. será tratado mais profundamente no capítulo 3.
Em geral, trataremos de análises de estudos
18
com coletas dirigidas para testes de hipóteses, 1.4- b. Ninhos de cupons. Você percebe que algu-
entretanto, é conveniente destacar que nem mas espécies de cupins fazem seus ninhos no alto
sempre é assim. Muitas pesquisas estão cen- de árvores enquanto outras espécies fazem ninhos
tradas em uma coleta temática, como o “Censo” no solo com uma parte do ninho acima do solo e um
terceiro grupo de espécies fazem ninhos completa-
do Instituto Brasileiro de Geografia e Estatística.
mente subterrâneos.
Trata-se de uma pesquisa planejada que abor-
da muitas perguntas ao mesmo tempo, que 1.4- c. Lua: Você sabe que a variação nas fases da
serão avaliadas de uma forma integrada. Há lua tem efeitos sobre muitos animais. Então você se
ainda pesquisas em que os dados vêm antes pergunta, será que a lua também tem efeito sobre
das perguntas, como no caso de descobertas plantas?
acidentais ou no caso de uma coleta de recicla-
gem na qual estudamos uma base de dados 1.5- Explique o que é uma previsão exclusiva
que não coletamos, como um estudo sobre a
evolução da caça em uma determinada região 1.6- Cite problemas originais que envolvam uma
evidência: a) factual; b) estatística simples; c) con-
cujos dados são provenientes dos registros de
textual d) sistêmica.
comércio de peles.
1.7- Explique um exemplo original de pesquisa em
que as conclusões são suspeitas devido a incerte-
Exercícios: zas na validade das medidas.
1.1- O uso da estatística na pesquisa foi comparado 1.8- Qual é a diferença entre um problema de vali-
com o uso de meios de transporte e de um micros- dação interna e um problema de validação externa?
cópio. Explique a analogia.
1.9- O que é paranoia metodológica?
1.2- O que é um problema complexo e por que o
fato dele ser complexo não implica que seja de difícil 1.10- Por que os problemas de validação da medida
solução. e de validação interna normalmente são mais graves
do que problemas de validação analítica e de vali-
1.3- Algumas pessoas afirmam que os homens não dação externa ao longo de uma pesquisa?
conseguem desenvolver atividades complexas como
as mulheres. Puro preconceito. Se for dado tempo 1.11- Por que evoluímos com uma alta capacidade
suficiente e assessoria adequada, os homens pode realizar cálculos estatísticos intuitivos e falhamos
dem desenvolver atividades igualmente complexas. em algumas questões estatísticas cotidianas banais.
Explique por que preparar uma festa de criança é
um problema complexo e quais partes deste pro- 1.12- Cite exemplos originais de decisões: a) de
blema podemos “terceirizar”. valores; b) de relações; c) de ações.
1.4 Reflita sobre os temas abaixo e pense em um 1.13- Explique a diferença entre a estatística intuitiva
estudo (para cada um) na forma de um problema e a estatística mais utilizada em pesquisas científi-
(um aspecto relevante do tema a ser desenvolvido). cas (frequentista).
Com base nisto: a) defina o problema que será a-
bordado; b) levante uma hipótese dentro deste pro- 1.14- Por que nem sempre é possível delimitar bem
blema; c) faça uma previsão para testar esta hipóte- uma população estatística? Em que sentido isto
se. atrapalha na obtenção de uma amostra representa-
tiva e na determinação de um parâmetro populacio-
1.4- a. Micorrizas: Suponha que você descobriu as nal?
Endomicorrizas*, mas ainda não sabe o que são. O
que você percebeu foi a existência de muitos espo-
ros de fungos no solo que aparentemente estão
ligados às raízes. (Se não sabe o que são endomi-
corrizas, comece com uma pesquisa na internet)
19
2. Do problema biológico ao tos), como para uma entidade particular (gato

no23). Trata-se de um conceito tão básico, que
estatístico. raramente é discutido em metodologia e estatís-
tica. Entretanto, como veremos, é útil deixá-lo
Os livros de estatística vêm com exemplos
explícito. As entidades também podem ser
prontos para a análise de dados. Entretanto,
chamadas de casos, membros de uma popula-
uma das maiores dificuldades dos estudantes é
ção, indivíduos, itens, espécimes, objetos, ob-
a transformação de problemas biológicos (ou de
servações, unidades amostrais, etc.
outras ciências, ou cotidianos) em problemas
estatísticos. Neste capítulo, descreveremos Alguma confusão pode surgir quando há uma
sucintamente a Abordagem EPR (Entidade, derivação imprópria de um substantivo para um
Propriedade e Relação) de Macnaugton (2002) adjetivo ou vice-versa. Por exemplo, a palavra
que ajuda a transformar problemas biológicos (e “burro” designa um animal, mas pode ser usada
outros) em problemas estatísticos. Macnaugh- como adjetivo, referindo-se a uma pessoa, e a
ton mostrou que há alguns conceitos tão bási- palavra “azul” é normalmente um adjetivo, mas
cos que passam despercebidos, e que são cha- na frase “o azul é lindo” ela é um substantivo.
ves para se compreender como se “monta” um Na frase “o pássaro é da cor azul” a expressão
problema antes de iniciar o planejamento de “da cor azul” tem a função de adjetivo para pás-
coleta de dados e para determinar quais serão saro. Na frase “este pássaro é da espécie Pi-
os testes mais adequados à análise dos dados tangus sulphuratus”, estamos qualificando a
obtidos. Vejamos estes conceitos. entidade pássaro com a expressão “da espécie
P. sulphuratus”, enquanto na frase “P. sulphura-
2.1 Entidades tus é uma espécie com distribuição ampla”, P.
sulphuratus é uma entidade. O que vale em
Se você prestar atenção aos seus pensamentos EPR é a classe gramatical no contexto.
cotidianos em um dado momento, provavelmen-
te concordará que estamos pensando sobre
diversos tipos de “coisas”. Por exemplo, neste
minuto você poderia estar pensando em um
amigo ou em um compromisso que tem marca-
do para a tarde. Estas “coisas” são exemplos de
entidades (Fig. 2.1).
Existem muitos tipos de entidades: Objetos

físicos reais simples (montanhas, automóveis,
lagos, pessoas, árvores) ou coletivos (cadeias
de montanhas, florestas, alcateias, turma de
alunos; população; conjunto de elementos em
um grupo, espécie biológica); Objetos imaginá-
rios (fadas, universos paralelos, teorias, concei-
tos); Processos/ações (um experimento, uma
reação química, uma reunião, um beijo; uma
viagem, a força necessária para levantar certo
objeto). Cada tipo de entidade é uma categoria Figura 2.1- Entidades são "coisas" em que pensamos, como
árvores, beijos e unidades amostrais, às quais podemos atribu-
que nomeia diversas entidades unitárias (mon- ir propriedades
tanha 1, montanha 2, etc.)
As entidades têm um papel fundamental no

pensamento. Na gramática são sempre subs-
tantivos, tanto para os tipos de entidades (ga-
20
2.2 Propriedades suem as propriedades comuns aos Homo sapi-

ens, como respirar com pulmões e ser incapaz
Cada tipo de entidade tem associado a ela uma de voar batendo os braços. No seu estudo,
gama de atributos ou propriedades (Fig. 2.2). todos os indivíduos poderiam compartilhar a
Carros têm peso, cor, marca e ano de fabrica- mesma nacionalidade e o fato de possuírem
ção. Árvores têm altura, nome da espécie, posi- sapatos, seja pela contingência da população
ção em um mapa. Bandos de passarinhos têm acessível ao estudo, seja por uma definição
um nome da espécie, um número de indivíduos, prévia estabelecida por você acerca de que
uma razão sexual. Cada entidade tem um valor características teriam os indivíduos seleciona-
para cada propriedade (não existe carro sem dos para fazer parte da amostra.
peso, podemos até não saber o valor, mas ele
existe). Outras propriedades variam entre entidades,
como a altura, o sexo e o meio de transporte
Propriedades também são chamadas de aspec- mais utilizado por pessoas. Estas propriedades
tos, atributos, características, fatores, qualida- são chamadas “Variáveis”. A variação nestas
des ou tratamentos. Os nomes das proprieda- propriedades tem causas e consequências que
des geralmente são substantivos que nomeiam podem ser investigadas. As propriedades a
qualificadores (localização, cor, beleza, idade, serem avaliadas precisam variar no banco de
velocidade, quantidade, valor de pH). As propri- dados do estudo. Você não poderia estudar a
edades também podem ser ações realizadas ou diferença na utilização de transporte público
sofridas (ou não) por uma entidade. Por exem- entre os sexos se apenas entrevistar pessoas
plo, “tomar chocolate” (sim ou não) é propriedade um sexo, nem poderia estudar o efeito de um
de na frase “fulano tomou chocolate”. Os nomes tratamento se não tiver indivíduos sem o trata-
de propriedades também podem ser abrevia- mento (controle).
ções de ações. Por exemplo, a propriedade
“tomou chocolate” (s/n) torna-se apenas “Cho-
colate” (s/n).
Os valores das propriedades são adjetivos

(vermelho, velho, rápido, grande, brasileiro,
estudioso), advérbios (aqui, agora, longe, mal,
sim, não, talvez, muito, pouco), numerais com
funções quantitativas, ordinais ou de rótulo-
planta no 135 e datas), às vezes símbolos (
♂,☺, ♠ ou O+), e até substantivos. Quando os
valores são substantivos, eles têm função quali-
ficadora, isto é, tem papel de adjetivo. As pro-
priedades origem, local de formação e espécie
para a entidade pessoa tem os valores Brasil,
USP e Homo sapiens que substituem os adjeti-
vos brasileiro, “Uspiano” e humano. Como vi-
mos na seção anterior, a espécie Pitangus sul-
phuratus é um substantivo, mas faz parte da
função qualificadora na expressão após o verbo Figura 2.2- Propriedades são atributos das entidades.
na frase “este pássaro é da espécie P. sulfura-
tus”. Os valores das propriedades podem ou
não variar entre as entidades dentro de um
estudo. Por exemplo, em um estudo sobre pes-
soas, todas as entidades necessariamente pos-
21
2.3 Tabelas e gráficos EPR utilizados na apresentação de resultados.
As tabelas ou planilhas EPR são as tabelas com 2.4 Relações entre variáveis
nossos dados organizados em entidades (li-
nhas), propriedades (colunas) e valores (células Hipóteses são testadas a partir de suas previ-
da tabela). Em uma tabela EPR cada entidade sões, e as previsões mais comuns na pesquisa
aparece apenas uma vez e as propriedades envolvem a relações entre duas variáveis, a
são variáveis que serão relacionadas ou que Variável Preditora (ou “Independente”), cuja
participarão da análise de outra forma. A tabela variação influi sobre os valores de uma Variável
EPR é mais que um local para depositar os Resposta (ou “Dependente”), se sua hipótese
dados, ela é estiver correta. Para determinar quais são estas
uma tabela con- variáveis em seu estudo, pergunte a si próprio:
ceitual que su- pela minha hipótese o quê (qual fator ou variá-
mariza o plane- Tamanho Sexo vel) influencia sobre o quê (qual variável)? Por
jamento do nos- 12 m exemplo, se estamos testando a capacidade de
so projeto, de borboletas distinguirem entre cores semelhan-
forma que deve 10 m tes pela previsão que a cor da armadilha (ver-
ser planejada 11 f melhas ou amarelas- variável preditora) atrai
preferencialmen- 11 f uma quantidade diferente de borboletas (variá-
te antes da cole- vel resposta).
ta de dados, Figura 2-3- Nas tabelas EPR, as
tendo em vista linhas são entidades e as colunas Os termos variável preditora e variável resposta
são propriedades. A seta indica se aplicam quando há uma Relação Conse-
as relações que uma relação.
queremos veri- quente (ou causal fig. 2.6) entre elas, isto é,
ficar. quando a causa da variação da segunda é,
direta ou indiretamente, a primeira. Quando esta
Os gráficos EPR são gráficos cartesianos cujos as duas variáveis tem uma relação “próxima”,
eixos são propriedades (as variáveis em estudo) ela é chamada Relação de Causa Proximal, e
e as entidades são representadas, cada uma quando é distante, é chamada Relação de
delas, por um ponto situado no gráfico em fun- Causa Final. Por exemplo, em anos com pouca
ção dos seus valores das propriedades (e. g. chuva, alguns lagos secam causando a mortali-
diagrama de dispersão e “dot density”). Além dade generalizada dos peixes. A causa proximal
dos eixos, as da morte dos peixes é a falta de água para os
propriedades Janeiro ( ) Julho ( ) peixes poderem respirar e não ressecar e a
também podem causa final é a variação climática. Uma pessoa
ser representa- pode perder seu emprego porque a sua produti-
Tamanho
das por diferen- vidade foi abaixo da média (causa proximal),

tes cores ou mas isto só aconteceu em função da necessi-
símbolos (e. g. ♀ dade do banco cortar custos devido à crise ban-
e ♂). São gráfi- cária (causa final). Em estudos biológicos, a
cos mais ricos causa proximal costuma ser fisiológica ou com-
Machos Fêmeas
em informação portamental e a causa final costuma ser evoluti-
que muitos gráfi- Figura 2-4- Nos gráficos EPR, as va.
cos tradicionais variáveis (propriedades) são os
eixos dos gráficos e as entidades
são os pontos. Variáveis adicionais
podem ser apresentadas na forma
de cores ou simbolos.
22
Algumas previsões envolvem duas variáveis a relação entre as variáveis preditora e resposta
(Covariáveis) que tem uma Relação Inconse- “eliminando” ou “controlando” o efeito das ou-
quente (ou correlação), isto é, a variação em tras relações. Em estudos experimentais, nos
uma não influi sobre o valor da outra, mas as quais manipulamos o valor da variável preditora
duas podem covariar (variar ao mesmo tempo) (e. g. quantidade de certo elemento químico em
em resposta a uma terceira variável. Por exem- vasos) e medimos a velocidade de crescimento
plo, podemos verificar se existe uma relação de uma planta, é possível ter segurança que a
entre as cores das roupas que uma pessoa relação encontrada, se houver, é uma relação
prefere vestir e o seu sucesso em desempenhar consequente. Em estudos não experimentais,
tarefas em grupo. A constatação que a relação isto é, naqueles em que não manipulamos a
existe não implica que as cores causam o su- variável preditora, normalmente não podemos
cesso, é mais provável que uma terceira variá- ter esta segurança. Por exemplo, se você com-
vel, talvez o grau de otimismo da pessoa tenha parar a taxa de crescimento de plantas em fun-
influência sobre as cores que ela usa e sobre a ção da quantidade de certo elemento químico
sua tendência a ter sucesso em tarefas em no solo na natureza, você não pode ter certeza
grupo. Estudos com previsões conscientes so- que a relação encontrada, se houver, é causal,
bre relações inconsequentes são válidos, como pois é possível que as duas variáveis sejam
no exemplo acima, entretanto, uma falha co- influenciadas por uma terceira variável. Possi-
mum é achar que a existência de uma relação velmente a umidade no solo tenha um efeito
implica uma causalidade, isto é, mesmo encon- sobre o crescimento da planta e sobre a quanti-
trando a relação entre roupa e sucesso, não dade de algum elemento químico, causando
podemos prever que mudando a cor da roupa uma relação inconsequente entre estas duas
de uma pessoa haverá mudança no sucesso variáveis. Embora correlação não implique cau-
em atividades em grupo. Uma expressão impor- salidade, ela pode ser uma evidência importante
tante em estatística é “Correlação não implica dentro de um estudo sobre relações causais,
causalidade”, isto é, cuidado para não confundir desde que tenhamos a consciência que as con-
relações inconsequentes com relações conse- clusões em estudos não experimentais depen-
quentes. dem de cuidados redobrados (cap. 6).
A relação entre duas variáveis pode ser obscu- 2.5 A estatística para estabelecer
recida ou confundida pela existência de outros relações.
fatores (conhecidos ou não) influenciando nos
valores da variável resposta, por isto, um dos Muitos estudos biológicos envolvem previsões
desafios em um estudo é conseguir estabelecer com uma variável preditora e uma resposta ou
com duas covariáveis. O conjunto de técnicas
utilizadas nesta situação é denominado Estatís-
tica Bivariada (Fig. 2.6). Alguns problemas são
mais complexos, ou tratados de forma mais
complexa, incluindo na análise mais de duas
variáveis ao mesmo tempo para uma descrição
ou teste. O conjunto de ferramentas para estes
problemas é denominado Estatística Multivari-
ada. A estatística multivariada inclui análises
Figura 2-5- Esquema representando diferentes tipos de com uma variável resposta e múltiplas predito-
relações (setas) entre variáveis (letras “A” a “F”). As
relações R1 a R5 são consequentes e as relações r1 a r4
ras e análises com múltiplas variáveis preditoras
são inconsequentes. As relações ligadas diretamente e respostas (muitas pessoas utilizam a expres-
por apenas uma seta são de causa proximal e as rela- são estatística multivariada exclusivamente no
ções entre “A” e “D” e entre “A” e “F” são de causa
final.
segundo caso). Há ainda a Estatística Univari-
ada, que inclui as técnicas para problemas que
23
envolvem apenas uma variável. Na estatística

Tabela 2.1- Tabela EPR para avaliar a questão se a
univariada, a relação avaliada não é com outra ingestão de chocolate causa espinhas
variável, mas com um valor único (ou uma dis-
tribuição de valores) de referência ou esperado.
Por exemplo, quando queremos saber se o
número médio de mosquitos da dengue por
armadilha em casas de um bairro está acima do
padrão que indica risco de epidemia. Neste
livro, trabalharemos apenas com técnicas de
estatística univariada e bivariada (com ênfase
na bivariada).
O primeiro passo no estudo das relações bivari-

adas (e multivariadas em geral) é montar uma
tabela EPR. Comece com a hipótese (e. g. a uma coluna para a variável preditora e outra
ingestão de chocolate causa espinhas), passe para a variável resposta e entre os valores para
para uma previsão com uma variável preditora cada entidade (Tab. 01). Outras colunas com
(“tomou chocolate”- sim/não) e uma variável variáveis adicionais (e. g. idade e sexo da pes-
resposta (“número de espinhas”). A entidade soa) também podem ser incluídas, desde que
inicialmente é alguém ou algo a quem estas sejam apropriadas para a entidade em questão.
propriedades podem ser atribuídas, no caso, Uma única planilha pode ser utilizada para tes-
pessoa (pessoa 1, pessoa 2, etc.). Faça uma tar todas as hipóteses que tem a mesma enti-
coluna para numerar as entidades (opcional), dade em um estudo, basta que as variáveis
envolvidas estejam entre as colunas.
Na tabela EPR, uma entidade não pode

aparecer duas vezes. Se a mesma pes-
soa tomou chocolate mais de uma vez,
então a entidade é ingestão-pessoa-dia
(ingestão 1, ingestão 2, etc.), e “pessoa”
opcionalmente pode entrar na tabela
como mais uma propriedade (quem
ingeriu). (Considerando a importância da
independência entre unidades amostrais
(cap. 6), normalmente se evita incluir a
mesma pessoa em uma amostra de
várias pessoas; a tabela pode ser mon-
tada, mas a análise apropriada pode ser
complexa.) Outra possibilidade seria
realizar todo o estudo com uma única
pessoa, utilizando como entidade “dia”
(dia 1, dia 2, etc.). Pode parecer estra-
nho que “tomou chocolate” seja proprie-
dade de dia, mas pense bem, no dia 3
alguém “tomou chocolate” = sim e no dia
Figura 2-6- A estatística bivariada é a mais utilizada na 7 alguém “tomou chocolate” = não. Esta abor-
pesquisa, incluindo apenas uma variável preditora e uma dagem de usar apenas uma pessoa tem vanta-
resposta, entretanto, também há análises que lidam com
mais variáveis ou com apenas uma variável. gens e desvantagens que serão discutidas de-
pois, o ponto a ressaltar aqui é que diferentes
24
planilhas EPR podem ser utilizadas para anali- plícita (tomou cerveja?- antes/ depois) e uma
sar “a mesma” previsão (embora não seja exa- variável resposta implícita (velocidade).
tamente a mesma quando as entidades são
diferentes). Para MacNaughton (2002), o papel da pesquisa
empírica é descrever relações para predizer e
Nem sempre a determinação da entidade é tão controlar valores de propriedades. A seu ver, as
fácil como no exemplo do chocolate. Se sua hipóteses são sobre relações (entre variáveis ou
hipótese é que o pH da água onde as larvas de em relação a um padrão). O teste de sua hipó-
mosquitos se desenvolve afeta a sua sobrevi- tese é feito com base em predições. Se as evi-
vência, a variável preditora é o pH da água e a dências apoiam uma hipótese, então ela pode
resposta é a sobrevivência do mosquito, mas ser utilizada como base para outras hipóteses e
qual a entidade? Pode ser frasco, se você tiver em na aplicação em problemas práticos, pois
vários frascos diferindo no tipo de água e com nos permite prever valores.
larvas cuja sobrevivência será calculada ao final
do experimento. Há outras possibilidades de- Pense em problemas práticos. Neste lago pega-
pendendo do que foi sua unidade amostral. remos bastante peixe? Este paciente será cura-
Cuidado com o que vai definir como unidade do? A plantação produzirá mais se plantarmos
amostral. Se você quer saber se o investimento em abril ou se esperarmos até setembro? Neste
em merenda escolar por escola influi no rendi- local encontraremos cobras venenosas? Se não
mento acadêmico, sua unidade amostral é es- sabemos as respostas (pois não temos uma
cola, não é aluno. Portanto, cada linha é uma máquina de viajar no tempo ou um oráculo) e
escola e você vai utilizar a média do rendimento não podemos esperar o futuro para tomar deci-
acadêmico por escola. sões, o que fazer? Se conseguirmos identificar
relações entre variáveis, podemos fazer previ-
Algumas hipóteses envolvem apenas uma vari- sões. Se soubermos que lagos de água branca
ável, o que implica em uma coluna na planilha sempre tem muito peixe, e que um determinado
EPR. Considere a hipótese “a resistência de lago tem água branca, então podemos prever
peixes ornamentais ao transporte é influenciada que provavelmente haverá muito peixe nele. Se
pelo sexo do peixe”. Podemos testa-la com a soubermos que pessoas que têm temperatura
previsão que partindo de uma população de 50 alta geralmente estão com infecções, e que
machos e 50 fêmeas, a proporção de fêmeas ao uma determinada substância controla infecções,
final será maior. Sobrevivem 25 machos e 40 podemos predizer que ela provavelmente terá
fêmeas, que é uma diferença estatisticamente diminuição na febre e se sentirá melhor se to-
significativa. A forma de determinar isto será mar esta substância. Esta ação aparentemente
abordada no capítulo 5, o que nos importa ago- banal de estabelecer relações é um dos pila-
ra é que a conclusão baseia-se apenas na vari- res que sustenta a ciência. A explicação é outro
ável “sexo” (a entidade é peixe). Há hipóteses objetivo da ciência, mas se pensarmos bem, ela
com variável preditora e variável resposta que está intimamente ligada ao estabelecimento de
utilizam testes univariados (testes pareados). relações.
Considere a hipótese: “a agilidade de adultos do
sexo masculino diminui após a ingestão de a-
penas uma lata de cerveja”. Sua previsão é que
a velocidade na execução de certa tarefa com-
plexa é menor depois da ingestão de uma lata
de cerveja. Então você mede a diferença de
velocidade antes e depois da cerveja para vá-
rias pessoas. Repare que sua análise vai se
basear apenas em uma variável, a diferença de
velocidade, mas há uma variável preditora im-
25
Exercícios: b) A temperatura durante o desenvolvimento

embrionário afeta a razão sexual em ni-
2.1- Cite exemplos originais de entidades do tipo nhos artificiais de P. expansa.
objeto físico, do tipo entidade coletiva e do tipo pro-
cesso, com duas propriedades inerentes a cada tipo c) Motoristas que utilizam insulfilme em seus
de entidade. carros costumam realizar maior número
de contravenções em ambiente urbano.
2.2- Explique, com um exemplo original, por que d) A taxa de decomposição da serrapilheira
algumas palavras podem ter significados compatí-
varia em função do ambiente (Campina-
veis com entidades (substantivo) ou com valores de
propriedades (e. g. adjetivos) dependendo do con- rana, Baixio e Platô) na Amazônia Cen-
texto. tral.
e) A temperatura na sala de aula influi sobre o
2.3- Monte uma tabela EPR que contenha quatro desempenho de estudantes em provas.
propriedades cujos valores das propriedades sejam
respectivamente adjetivos, advérbios, numerais e f) O pH de um local no qual há acúmulo de
símbolos. Duas destas propriedades devem ser água de chuva afeta a sobrevivência de
variáveis e as outras duas não. mosquitos.
2.4- Defina uma hipótese, uma previsão e faça um g) Há dimorfismo sexual de tamanho nas bor-
esquema de uma tabela EPR com duas colunas, a boletas Capronnieria abretia.
variável preditora na coluna da esquerda e a variá- h) A sobrevivência de gafanhotos verdes é
vel resposta na coluna da direita. Inclua valores para
maior do que de gafanhotos marrons na
cinco entidades.
época chuvosa na caatinga.
2.5- Faça um gráfico EPR para a tabela da questão i) Cigarro causa câncer.
anterior com os 5 valores da tabela e outros 15
adicionais. j) Passar por baixo de uma escada dá azar.
k) Olho gordo seca pimenteira.
2.6- Qual é a diferença entre variáveis teóricas e
operacionais e entre hipóteses de relações e hipóte- 2.10). Quais itens são hipóteses de relação,
ses existenciais? quais são hipóteses existenciais e quais são
previsões? Para os itens com hipóteses exis-
2.7- A frase “correlação não implica causalidade” tenciais, defina uma previsão por relação.
está relacionada com a diferença entre relações
consequentes e inconsequentes? Explique a frase 2.11) Construa uma tabela e um gráfico EPR
com exemplos originais de relações consequentes e para cada relação entre as variáveis operacio-
inconsequentes.
nais com dados imaginários verossímeis.
2.8- De um exemplo original de uma relação proxi- (Quando necessário, substitua variáveis teóri-
mal e uma distal para explicar o mesmo fenômeno. cas por operacionais).
2.9- Qual é a diferença entre as estatísticas bivaria- 2.12) Escolha uma relação para explicar dificul-
da, univariada e multivariada. dades com validação da medida, validação
interna e validação externa.
Elabore tabelas e gráficos EPR para a lista hipó-
teses a seguir: 2.11) Construa uma tabela EPR e dois gráficos
EPR para avaliar relações em seu campo de
a) O tamanho de indivíduos da espécie de tar- pesquisa (preferencialmente um trabalho que
tarugas Podocnemis expansa influi na esteja desenvolvendo).
taxa reprodutiva.
26
3. Confiança na medida e são todos os 25 do eixo Y, pois a menor medida

foi 4 mm, a maior 22 mm, e a precisão da medi-
independência da foi de 1mm (como pode se ver no gráfico).
Se a precisão fosse de 0,5mm, teríamos apro-
Neste capítulo abordaremos: a) a incerteza em
ximadamente o dobro de níveis efetivos.
medidas de valores individuais em função da
forma de atribuir uma categoria ou da falta de Em função do tipo de valor utilizado, as variá-
precisão ou de acurácia em instrumentos ou veis dividem-se em “escalas de medida” da
procedimentos de medida; b) a variação natural seguinte forma:
em valores quantitativos na forma de distribui-
ções de frequências; c) a incerteza na estimati- Binárias: Possuem apenas dois níveis efetivos.
va de parâmetros populacionais e d) a impor- Por exemplo: sim ou não; presença ou ausên-
tância da “independência entre unidades amos- cia; macho ou fêmea; macrofauna ou mesofau-
trais” na estimativa de parâmetros populacio- na; “controle” ou “tratamento”. Também são
nais. Para discutir estes assuntos serão apre- binárias as variáveis quantitativas que assumem
sentados alguns termos. apenas dois valores em uma analise (e. g. com-
paração entre tratamentos com 1 mg ou 2 mg
3.1 Níveis e escalas de medida de um medicamento).
Dizer que uma pessoa é “alta” ou que mede Categóricas: Assumem valores “qualitativos”
1,80m são duas formas válidas de falar sobre (não quantitativos) sem uma ordem intrínseca
altura, mas com poder informativo diferente e natural entre os níveis, ou possuem uma ordem,
que recebem tratamentos estatísticos diferen- mas esta pode ser ignorada na análise. Por
tes. Nas duas formas, estamos falando de vari- exemplo: tipos sanguíneos (A, B, AB e O), mar-
áveis, pois são propriedades que variam entre cas de fertilizante, habitat e nome do coletor
unidades amostrais. Se você divide as pessoas (podem ser ordenadas alfabeticamente, por
em dois grupos, altas e baixas, terá dois níveis exemplo, mas esta ordem é irrelevante para a
de medidas; se você dividir em 3 grupos, altas, análise). Números podem ser utilizados para
médias e baixas, terá três níveis. Se medir com “rotular” entidades (e. g. 135= planta # 135), por
uma fita métrica, terá vários níveis de medida isto a propriedade “número da planta” é categó-
(e. g. 1,73 m, 1,82 m).
Níveis efetivos de medida são os Phoneutria reidyi

diferentes valores de uma variável 25
T amnho da aranh a(mm)
efetivamente incluídos em uma v ♀♂

análise. Para saber o número de
20
?
níveis efetivos (NE) em variáveis 15
categóricas ou ordinais (veremos
a diferença adiante), basta con- 10
tarmos as categorias utilizadas.
Em variáveis quantitativas ele é 5
calculado com esta fórmula sim-
ples: NE= (max-min+1)/precisão 0
(ou conta-se diretamente do gráfi- Jun Ago Out Jan Abr Ago
co ou da base de dados). Por
exemplo, na figura 3.1, a variável Mês da coleta 2001/2002
“Mês” tem 6 níveis efetivos e a
Figura 3.1- Neste gráfico EPR há seis níveis na variável “Mês da coleta”, 19
variável “Tamanho da Aranha” tem níveis na variável “Tamanho da aranha” e três níveis na variável “Sexo”.
19 níveis efetivos. Cuidado, não
27
rica, já que não é uma quantidade sujeita a carros estatísticos. Por exemplo, o número de
operações matemáticas (a planta #1 não é igual ovos é uma variável quantitativa descontínua,
à planta#136 menos a planta#135). Variáveis pois não existem “3,5 ovos”, há um “salto” entre
binárias sempre podem ser tratadas como cate- os níveis 3 e 4. Segundo estes livros, o peso de
góricas, mas diferem das categóricas com mais um ovo seria uma variável quantitativa contínua,
de dois níveis efetivos por possuir uma maior pois há valores intermediários entre 40 e 41 g
flexibilidade em análises estatísticas, o que (como 40,555 g).
justifica uma escala separada. As escalas Biná-
ria e Categórica juntas são chamadas de Esca- A descontinuidade é efetivamente algo que
la Nominal. deve ser levado em conta em análises estatísti-
cas. Entretanto, o problema não se resolve com
Ordinais: Existe uma sequência ordenada rele- esta divisão em dois tipos de números. Esta
vante entre os níveis na análise. A diferença divisão é inapropriada porque: a) na prática, não
entre um nível e o próximo é de posição ape- existe nenhuma medida continua, tudo é conta-
nas, não há uma quantificação. Por exemplo, gem, pois todo equipamento ou procedimento
não podemos saber se o segundo lugar em uma tem um limite de precisão. Por exemplo, no
corrida chegou mais próximo do primeiro ou do caso de pesos nós contamos as microgramas
terceiro apenas com a posição da chegada. do último dígito de uma balança, com “saltos”
Outros exemplos: abundância na escala “nula, de 40,555 para 40,556 mg; b) contagens com
rara, intermediária, comum ou muito comum”; muitos níveis (e. g. posturas de peixes com 623,
vento na escala “fraco, moderado, forte, violento 1.544, etc., em número de ovos) têm proprieda-
e furacão”; notas na escala “A, B, C, D ou redes matemáticas semelhantes em análises
provado”; idade na escala “filhote, jovem pré estatísticas às dos números “descontínuos”
reprodutivo, adulto novo, adulto velho”; tipo de (equivalem a 0,623 e 1,544, etc., em milhares
solo na escala “arenoso, intermediário arenoso, de ovos); c) mesmo para uma variável conside-
intermediário argiloso ou argiloso”. Você pode rada contínua (números Reais), pode haver
usar números nestas escalas, mas é preciso problema de descontinuidade até para instru-
lembrar que estes números não são quantida- mentos de precisão se o número de níveis efeti-
des. vos for pequeno. Por exemplo, se você obtiver
apenas os três níveis efetivos 0,01; 0,02 e 0,03
Quantitativas: Variáveis quantitativas possuem g em todas as suas medidas (note que não são
valores numéricos que efetivamente represen- números Inteiros) haverá descontinuidade. Ao
tam quantidades. Não são variáveis quantitati- invés de separar as estradas em “lisas” (contí-
vas aquelas que possuem valores numéricos nuas) e “esburacadas” (descontínuas), seria
que representam apenas ordem ou rótulo de melhor classificar as estradas em função dos
uma categoria. tamanhos dos buracos, pois microburacos sem-
pre existem sem ser necessariamente um pro-
Muitos livros de estatística dividem a escala blema. Veremos no capítulo 5 que na prática o
quantitativa em duas: Razão e Intervalar. Esta problema da descontinuidade na variável res-
separação envolve um detalhe matemático que posta é irrelevante acima de 20 níveis efetivos,
raramente é relevante para o uso das técnicas pequeno até 10 níveis e vai tornando-se gradu-
estatísticas que abordaremos, de forma que não almente grave a muito grave à medida que te-
a utilizaremos. Outra separação comum na mos menos níveis efetivos, exigindo ajustes na
escala quantitativa é entre números “contínuos” técnica de análise.
(números Reais) e “descontínuos” (números
Inteiros). A questão da continuidade é relevante Outras escalas. Há três escalas de medida
porque os “saltos” dos números entre níveis especiais com as quais não trabalharemos, mas
podem exigir ajustes nos cálculos estatísticos. É que precisam ser conhecidas, uma vez que
como se fossem buracos na estrada de nossos requerem métodos estatísticos próprios. Algu-
28
nesta escala. Entretanto, variáveis como meses

e horas deixam de ser circulares se há uma
referência sequencial adicionada à informação
(e. g. fevereiro de 2008, 23 horas do terceiro
dia).
As escalas de medida normalmente são trata-

das como se fossem excludentes entre si, isto
é, que se um valor pertencesse a uma não per-
tenceria a outra, mas não é assim (Fig. 3.2).
Uma escala quantitativa é também ordinal, pois
os números que representam quantidades estão
ordenados (mas nem toda sequência ordinal é
quantitativa). As escalas quantitativa e ordinal,
Figura 3.2-. Do ponto de vista lógico, as escalas de medida também são categóricas, pois cada valor numé-
não são auto excludentes, algumas estão contidas em
outras, e a Binária (Bi) se encontra dentro de todas.
rico ou de ordem, pode ser visto como uma
categoria. A binária está incluída em todas, pois
dois valores podem ser obtidos em qualquer
mas vezes estas escalas podem ser tratadas escala. Muitos textos dividem os valores em
como se fossem uma das escalas apresentadas quantitativos e qualitativos, o que nos induz a
anteriormente, entretanto, não é o ideal. A Es- pensar que quantidades não são qualidades.
cala “Proporção” é para valores do tipo “x de n” Entretanto, dizer que uma pessoa tem 1,80 m é
(e. g. 15/28 sementes sobreviveram no vaso 1) só uma maneira mais precisa de dizer que ela é
ou do tipo que varia de 0 a 1 ou de 0 a 100%. alta. Portanto, quantidades também são quali-
Muitas vezes estes valores são tratados como dades. A compreensão que algumas escalas de
quantitativos, mas há formas mais apropriadas medida estão “dentro” de outras e que qualquer
de lidar com eles (Warton & Hui, 2011). Na Es- atribuição de valor é uma atribuição de uma
cala Hierárquica a “ordem” entre os níveis qualidade será importante quando abordarmos
efetivos é hierárquica (grupos dentro de gru- lógica e a flexibilidade na escolha de testes
pos). O exemplo mais comum em biologia é a estatísticos (capítulo 5).
variável “espécies” (pois as espécies se agru-
pam de forma hierárquica em gêneros, famílias,
etc.). A variável “local”, como em casas em um
estudo sobre dengue em vários municípios 3.2 Atribuição de níveis nominais e
também é hierárquica, pois as casas podem ser
ordinais
agrupadas em vários níveis espaciais (bairro,
município, estado). As técnicas específicas são Em escalas nominais (binárias ou categóricas) e
diversas em função do problema específico (e. ordinais não há uma quantificação; os níveis
g. Anova hierárquica; Regressão Filogenética, são atribuídos por um reconhecimento ou inter-
Análise de Correspondência Canônica). Na pretação que determinada unidade amostral
Escala Circular os níveis são cíclicos, isto é pertence a uma categoria ou grupo definido ou
seguem uma determinada ordem até chegar a que está dentro de uma posição em uma escala
um último nível e retornar ao primeiro. Os e- ordinal. Muitas vezes isto é simples, como ao
xemplos mais comuns envolvem medidas de registrar o local de uma coleta ou o se um peixe
tempo, como “hora do dia”, “dia da semana”, morreu ou está vivo ao final de um experimento
“mês”. Direções angulares (como a direção do de ecotoxicologia. Entretanto, frequentemente a
voo indivíduos em migração) também estão em atribuição de níveis nominais ou ordinais é uma
escala circular. Métodos de “Estatística Circular” das partes mais sensíveis de um estudo.
(Zar, 1984) são necessários para analisar dados
29
Imagine que você quer saber se a proporção de pessoas entrevistadas de outra cidade gostam
meninos que sabe nadar é diferente da propor- da qualidade de vida, não podemos saber se a
ção de meninas que sabem nadar. Você realiza qualidade de vida é melhor na primeira cidade
entrevistas e pergunta a muitas crianças se elas ou se as pessoas são mais exigentes na se-
sabem nadar. Dos 300 meninos, 66% responde- gunda. Uma pessoa pode achar que há “pou-
ram “sim” (sabem nadar), muito mais que os cas” aves em um local quando estiver come-
33% de 300 meninas que responderam “sim”. çando a observar aves, e perceber que há “mui-
Embora a diferença seja estatisticamente signi- tas” depois de adquirir mais experiência.
ficativa, há uma dúvida importante antes de se
concluir que mais meninos que meninas sabem Abordamos aqui as incertezas na atribuição de
nadar. O significado de um “sim” de um menino valores nominais e abordaremos na próxima
é realmente comparável ao significado de um seção incertezas em precisão e acurácia de
“sim” de uma menina? Possivelmente os meni- valores quantitativos. Terminamos esta seção
nos tenham mais vergonha em admitir que não destacando que também os valores quantitati-
sabem nadar e respondam “sim” mesmo sem vos podem ter incertezas de atribuição, por
saber, enquanto as meninas apenas respondem exemplo, o número de ações agressivas por dia
“sim” se nadam bem. Este exemplo ilustra o tipo dependerá do que se considera um comporta-
de problema que pode acontecer em entrevis- mento agressivo, como já foi discutido acima.
tas, mas o problema não se restringe a entrevis- Portanto, é sempre importante refletir bem so-
tas. bre a possibilidade de erros de atribuição com-
prometendo a interpretação no seu estudo.
Por serem interpretações, as atribuições nomi-
nais e ordinais sempre estão sujeitas a erros, 3.3 Exatidão, precisão e acurácia.
como na identificação de uma espécie, na de-
terminação de qual doença um paciente teve, Uma medida é um valor de uma propriedade de
ou no sentido de um “sim” no parágrafo anterior. uma entidade obtido com o uso de instrumen-
É importante definir cuidadosamente os critérios tos, protocolos e procedimentos que podem ser
de atribuição, principalmente quando a subjeti- bons ou ruins em diferentes graus e aspectos
vidade pode ter um papel importante na decisão que serão tratados aqui.
de valor. Em muitos estudos de comportamento,
é importante se detalhar o significado de cate- A exatidão de uma medida, na teoria, é a pro-
gorias de comportamento utilizadas para permi- ximidade entre o valor obtido e o valor real. Esta
tir comparações (etograma). Se você chamar de definição com foco na medida individual serve
“comportamento agressivo” apenas quando como ideal, mas é insuficiente na prática por
animais efetivamente lutam, vai considerar o três motivos: A) Se você tivesse um valor “real”
comportamento mais raro do que outra pessoa a cada momento não precisaria mais da medi-
que considere qualquer demonstração de a- da, o que tornaria desnecessária a preocupação
gressividade. com exatidão da medida. B) Falta exatidão nes-
ta definição de exatidão: geralmente não é pos-
Quando trabalhamos com níveis ordinais os sível se verificar a “proximidade” porque não é
resultados são muito mais confiáveis se sempre possível se obter um “valor real”. Não se trata
forem definidos pela mesma pessoa suficiente- apenas de limitações tecnológicas, há um fato
mente treinada, ou se houver uma tabela de matemático mais simples: há infinitas casas
referência bem definida (como uma tabela de decimais após uma vírgula e não é possível se
cores de solo). Mais difícil é interpretar níveis definir objetivamente quantas casas bastam
ordinais que variam entre pessoas ou circuns- para se chegar ao “valor real definitivo”. C) Não
tâncias envolvidas na coleta dos dados. Se 60% há referência à precisão e acurácia do procedi-
das pessoas entrevistadas de uma cidade gos- mento. Resumindo, esta definição teórica omite
tam da qualidade de vida e apenas 30% das que “valores reais” são apenas abstrações, o
30
que podemos obter são aproximações instru- A precisão de um procedimento é o grau em

mentais mais ou menos satisfatórias. que conseguimos com ele medidas quantitati-
vamente próximas entre si em condições está-
Na prática, a exatidão de uma medida está liga- veis e homogêneas. Quanto maior a precisão
da à exatidão do procedimento de medida (ins- menor a dispersão dos valores. A precisão nos
trumento, protocolo e técnica, incluindo a expe- tiros ao alvo com o instrumento “espingarda”
riência de quem mede) e tem forte relação com costuma ser alta comparada com a baixa preci-
o grau de satisfação considerando o contexto. são com o instrumento “revolver” para o mesmo
Um valor exato é um valor obtido com um pro- atirador à mesma distância (Fig. 3.3). O resulta-
cedimento cuja “aproximação ao valor real” é do é que os tiros da espingarda ficam mais con-
considerada plenamente satisfatória na situação centrados que os do revolver. Outro exemplo,
da sua utilização. Um instrumento que medisse um grupo de alunos mede uma mesma semente
o tempo em milésimos de segundos é grosseiro com um paquímetro e obtém os valores: 2,34,
demais se você estiver lidando com alguns fe- 2,38, 2,31, 2,35 e 2,32 cm. Estas diferenças
nômenos atômicos enquanto uma xícara de podem ser atribuídas à variação aleatória na
farinha é uma medida exata para se seguir uma segunda casa decimal. No entanto, encontra-
receita de torta. Nem todos os procedimentos mos consistência nos valores na primeira casa,
de medida são plenamente satisfatórios, alguns de forma que temos precisão de uma casa de-
são inúteis de tão grosseiros e outros são im- cimal (2,3 cm). As condições precisam ser está-
precisos, mas ainda assim úteis. Aperfeiçoa- veis, se você medir a precisão de uma balança
mentos metodológicos permitem a melhoraria em um laboratório em terra firme e depois levá-
na exatidão de procedimentos; a melhoria de la para um barco, a precisão tende a mudar. Se
medidas individuais é uma consequência desta medirmos o pH de uma piscina, esperamos
melhoria instrumental. Portanto, para entender- obter um valor representativo.
mos exatidão, nosso foco não deve ser nas
medidas individuais, mas nos procedimentos e A acurácia de um procedimento é o seu grau de
nos dois aspectos da exatidão instrumental: a ajustamento médio em relação ao valor “real”
precisão e a acurácia. (normalmente um padrão). Você pode ter exce-
lente precisão e péssima acurácia ou o contrário
(Fig. 3.3). Em um instrumento 100% preciso, a
distância de uma medida com o valor real é falta
de acurácia e é fixa e em um instrumento 100%
calibrado, a distância é falta de precisão e é
variável. Note que não podemos distinguir se o
desvio de um tiro foi por falta de precisão ou por
falta de acurácia se não tivermos um conjunto
de tiros. No exemplo dos tiros, você recupera
acurácia regulando (calibrando) a mira a partir
da análise do conjunto dos desvios. Normal-
mente isto é feito com a arma fixa e dando vá-
rios tiros para ver se está tendenciosa. Este é
um método estatístico, pois envolve várias me-
didas comparadas a um padrão. E o que é o
valor “real” para referência de calibragem? É um
valor obtido com um instrumento mais preciso.
Figura 3.3- Ilustração sobre dois conceitos de incerteza de Um peso de 100 g usado na calibragem de uma
de instrumental pela analogia com tiros de uma espingarda balança não tem 100 g “reais”, são 100 g “satis-
(acima) e de um revolver (abaixo). fatórias”, isto é, a inexatidão do valor é inferior a
0,1 g verificada a partir de uma balança mais
31
precisa. O ajuste de acurácia dos instrumentos lhorar a sua capacidade de estimar. Ninguém
mais exatos do mundo pode ser um assunto consegue acertar precisamente todas as medi-
complexo para certas medidas pela dificuldade das, mas você pode se considerar “calibrado”
do estabelecimento de referenciais nulos. quando a quantidade de subestimativas é se-
melhante à quantidade de superestimativas.
Precisão e acurácia podem ser medidas (Fig.
3.4). A medida da acurácia é útil para corrigir A exatidão de um procedimento calibrado é a
distorções, por isto trataremos dela primeiro. A sua precisão. O erro de precisão também pode
eliminação de erros de acurácia de instrumen- ser reduzido em algumas situações, como nas
tos é chamada calibragem. Para equipamentos estimativas de tamanhos de jacarés com o trei-
de alta precisão, costuma ser suficiente se namento, mas costuma ser fixo para instrumen-
comparar uma medida obtida com um padrão tos de medida, de forma que só podemos me-
para se corrigir o desvio do aparelho. Por e- lhorar a precisão de medidas individuais trocan-
xemplo, se uma balança estiver medindo 101,3 do o instrumento por outro mais preciso. Embo-
g para um peso padrão de 100,0 g, temos de ra muitas vezes não possamos melhorar a pre-
reduzir 1,3 g na medida. Há equipamentos de cisão, é importante dimensioná-la para saber-
precisão que precisam de mais de um padrão mos se a qualidade da medida sustenta concre-
para a calibragem (e. g. pHmetros). Também é tamente nossas conclusões e afirmações base-
comum não dispormos de procedimentos preci- adas nos dados.
sos de medida. Imagine que você tivesse que
estimar tamanhos de jacarés com base na sua A precisão costuma ser medida pelo seu inver-
capacidade de estimar o tamanho de um jacaré. so, a dispersão dos valores (Fig. 3.4-2). Quan-
Neste caso, você pode calibrar esta capacidade to menor a precisão, mais dispersos serão os
estimando tamanhos de objetos semelhantes a dados ao redor do valor central. A medida mais
jacarés (como troncos) à distância e depois simples de dispersão é a amplitude total, isto
verificar como está se saindo. Se tiver tendência é, a diferença entre o maior e o menor valor
a superestimar o tamanho, reduza suas estima- (Fig. 3.5). Imagine que você já treinou bastante
tivas e se tiver tendência a superestimar, au- sua capacidade de estimar tamanho de objetos
mente as estimativas. Se puder capturar jaca- à distância para seu estudo de jacarés, conse-
rés, é conveniente repetir a avaliação para me- guiu uma excelente acurácia e quer saber como
está a sua precisão. Então, você estima o ta-
Figura 3.5- A dispersão de valores pode ser medida com

Figura 3.4- Representação de medidas relacionadas à exatidão: uma amplitude parcial central dos dados pela exclusão de
1) desvio de um tiro (ou inexatidão pontual); 2) imprecisão de extremos como no Intervalo Interquartil, obtido pela exclu-
uma espingarda (dispersão de valores ou imprecisão instrumen- são de 25% dos valores inferiores e 25% dos valores supe-
tal); 3) descalibragem ou tendenciosidade instrumental (inacurá- riores. O tamanho deste intervalo é chamado de Amplitude
cia instrumental). A imprecisão e a inacurácia são os dois aspec- Interquartil.
tos da inexatidão instrumental.
32
manho de 80 troncos e alguém registra as dife- pouco confiáveis como medida de dispersão.
renças entre o estimado e o “real” (i. e. medido Além disto, ele pode não ser uma boa medida
com fita métrica- Fig. 3.4). A amplitude total de dispersão dependendo da distribuição de
seria o maior valor (+39 cm) menos o menor frequências da variável em questão, como ve-
valor (-35 cm), isto é 65 cm. Esta medida de remos na próxima seção.
dispersão (e precisão) tem alguma utilidade
quando há muitos dados, mas é simplista de-
mais e ruim para a maioria das situações, pois a
amplitude total não varia apenas com a precisão
do instrumento, ela também varia (tende a au-
mentar) com o número de medidas.
Uma solução para este problema é utilizar uma

amplitude parcial central dos dados por exclu-
são de uma porcentagem dos extremos. Em
medidas de dispersão de valores por este mé-
todo, o mais comum costuma ser a amplitude
parcial central excluindo-se ¼ dos menores
valores e ¼ dos maiores valores, que é chama-
da Amplitude do Intervalo Interquartil. Com a
exclusão de uma proporção fixa de extremos, a
amplitude parcial dos dados não aumenta com
o número de dados, como costuma acontecer
com a amplitude total. Isto é, a amplitude Inter-
quartil não tende a ser maior ou menor se for
determinado com oito dados ou com 800, o Quadro 3.1- A média aritmética (1) é um parâmetro popula-
maior número de dados apenas aumenta a cional utilizado em cálculos de muitas medidas paramétricas.
Quando estimada com base em uma amostra, ela é geralmente
precisão desta medida de dispersão. Portanto, a simbolizada com um X ou um Y com uma barra encima. O
amplitude do intervalo interquartil é uma forma Desvio Absoluto Médio (2) é uma medida simples e intuitiva
apropriada de medir a dispersão dos dados. de dispersão. O Desvio Padrão (3) é uma medida bem mais
utilizada, com a mesma essência do DAM. A fórmula de DP
Apesar disto, esta forma de medir a dispersão apresentada é utilizada quando o determinamos com base em
dos dados é pouco utilizada. uma amostra, que é a situação mais comum. N= Tamanho
amostral; xi= cada valor registrado na amostra; Ʃ= símbolo
Outra opção para medir a dispersão é a utiliza- matemático de somatório que significa que deve se somar os
termos a seguir na fórmula. Curiosidade matemática: a estatís-
ção do Desvio Absoluto Médio (DAM) entre os tica paramétrica utiliza estimativas inicialmente tendenciosas
valores e a média destes valores (Quadro 3.1). que necessitam ajustes. É o caso do desvio padrão da amostra
Esta medida é uma forma bastante intuitiva de com seu denominador (N-1). Por que não calculamos a média
dos desvios elevados ao quadrado com o denominador N? De
medir dispersão, mas também é pouco utilizada. fato, no cálculo de um desvio padrão de um conjunto completo
A medida de dispersão mais utilizada é seme- de dados o denominador é N. O problema é que para determi-
lhante na essência: a raiz quadrada da média nar o desvio padrão populacional com base em uma amostra
estaremos subestimando a dispersão com o denominador N,
dos desvios ao quadrado, que é chamada de porque nossa média não é a média real, mas uma estimativa
Desvio Padrão. O desvio padrão é realmente que necessariamente é mais central ao conjunto de dados em
uma excelente medida de dispersão em muitas questão. Ao dividir por (N-1) temos um valor mais aproxima-
do do DP da população.
situações, inclusive na medida da precisão de
instrumentos e procedimentos, mas é necessá-
rio algum cuidado. Primeiro quanto ao número
de valores usados em seu cálculo. Bastam dois
valores para um cálculo de desvio padrão, mas
cálculos com menos que cinco dados são muito
33
3.4 Distribuições de frequências resultado da variação natural dos tamanhos das

sementes. Ocasionalmente esta variação com-
A partir do momento em que temos procedimen- binada (erro de medida + variação natural) é
tos calibrados e com precisão conhecida, po- chamada de “erro”. Este é um termo infeliz, pois
demos nos despreocupar com as medidas indi- nos induz a pensar que a variação natural é
viduais e voltar a nossa atenção para a Varia- parte de um erro da mesma forma que os erros
ção Natural. de instrumentos ou de métodos de medida. Se
a precisão de medida for muito baixa, o erro de
Não se deve confundir a variação de medidas medida pode prevalecer e obscurecer a varia-
em função da precisão de instrumentos com a ção natural, mas se a precisão de medida for
variação natural. Poucas pessoas têm uma boa, a variação encontrada não é um erro, mas
altura que coincide com a média da população, uma característica importante da população em
mas isto não significa que a altura da maioria estudo.
das pessoas esteja errada. Não é uma questão
de erro de medida, é algo natural. No exemplo O gráfico mais comum para mostrar a variação
das sementes do início da seção 3.3, estáva- nos valores de uma variável quantitativa é cha-
mos realmente nos referindo a uma variação de mado Histograma. Trata-se de um gráfico de
precisão de medida, ou erro de medida, porque distribuição de frequências. Vamos ilustrar com
eram medidas da mesma semente. Entretanto, um conjunto de valores de tamanhos de peixes
se os alunos estivessem medindo sementes e de salários de uma amostra representativa de
diferentes, a variação encontrada seria também funcionários em uma grande corporação (Fig.
3.6). Analise o gráfico com atenção, veja que no
eixo X (horizontal) da figura temos valores
quantitativos divididos em intervalos iguais e no
eixo Y (vertical) temos frequência, que pode ser
a contagem das entidades por intervalo (fre-
quência absoluta) ou uma percentagem por
intervalo do total de entidades (frequência rela-
tiva). Na figura 3.5 temos outra forma de apre-
sentar dados de uma variável, mas em histo-
gramas o eixo Y com a frequência dá melhor
visibilidade à forma como os dados se distribu-
em, especialmente quando temos muitos dados
e intervalos de classes pequenos, geralmente
lembrando uma “montanha” (distribuição uni-
modal- como nos dois gráficos da figura).
Os histogramas mostram bem os dados de

amostras, mas são limitados para fazermos
inferências populacionais. Por isto, geralmente
se faz inferências modelando a distribuição
com curvas matemáticas teóricas ajustadas aos
valores obtidos, ou por procedimentos de rea-
Figura 3.6- Duas distribuições de frequência com formatos
diferentes. Na figura A, a distribuição tem o formato apro-
mostragem (seção 3.6), ou simplesmente as-
ximado de um sino. Na figura B a distribuição é fortemente sumindo um modelo matemático, como vere-
assimétrica. As amplitudes com 95% dos dados foram mos adiante. Na figura 3.6 as linhas com uma
determinadas com cálculo paramétrico em (1) e por exclu-
são de extremos em (2).
forma de montanha foram construídas a partir
de modelos matemáticos ajustados aos valores.
Na figura 3.7 são apresentados gráficos de
34
verificação de premissas para a utilização de

determinadas ferramentas de análise estatísti-
ca, como veremos a seguir.
É comum que a “montanha” da distribuição de

frequência tenha um formato bastante simétrico
que lembra um sino, como vemos na figura
3.6 A e na figura 3.7. O modelo matemático que
descreve esta forma de curva é chamado mode-
lo de Distribuição Normal (ou Gaussiano).
Muitas ferramentas estatísticas foram desenvol-
vidas para serem utilizadas quando os dados
tem “normalidade” (isto é, quando é razoável
assumir que a população tem distribuição nor-
mal). Na prática, nunca obtemos uma distribui-
ção perfeitamente normal com nossos dados,
pois um modelo é sempre uma aproximação da
realidade. Por exemplo, na natureza há limites
para tamanhos, mas na distribuição normal não
há. Para uma distribuição de frequência de da-
dos ser considerada do tipo “normal” não é ne-
Figura 3.7- Exemplos gráficos que ilustram modelos de cessário uma forma perfeita de sino, basta o
distribuições de probabilidades teóricas. Estes modelos
servem como bases para utilização de ferramentas estatís- “jeitão” (como na figura 3.6 A). Quando os da-
ticas se podemos assumir que eles realmente são compa- dos não são suficientes para definir o “jeitão”,
tíveis com a distribuição na população. ainda podemos assumir a normalidade com
base na razoabilidade, isto é, em motivos teóri-
modelos matemáticos que podem ser ajustados cos ou de experiência anterior com dados da
aos dados quantitativos obtidos. Naturalmente, mesma natureza. Mesmo quando é evidente
o modelo se aplica bem apenas em uma situa- que a distribuição não tem normalidade, mas
ção estável, isto é, quando a amostra foi retira- ela não se afasta muito da distribuição normal,
da em uma condição na qual qualquer outra ainda é razoável se utilizar técnicas estatísticas
amostra deveria mostrar um resultado bastante que tem a premissa da distribuição normal. O
similar. Por exemplo, se o tamanho médio dos problema é trabalhar com dados assumindo
peixes varia entre anos, não podemos modelar uma distribuição normal sem verificar a compa-
apropriadamente para um ano com base nos tibilidade dos dados com esta distribuição ou
dados de outro ano. sem uma base na razoabilidade.
As distribuições de frequência tem importância Quando temos uma distribuição normal, ou

direta e indireta em estudos biológicos. A impor- aproximada, o desvio padrão é uma excelente
tância direta está na interpretação de causas e medida de dispersão dos dados. Conhecendo a
consequências do formato da distribuição. Por média e o desvio padrão de uma população,
exemplo: a) uma distribuição bimodal (fig. 3.7) pode-se determinar a proporção aproximada da
pode indicar uma seleção natural disruptiva em população a um, dois ou três desvios padrões
um caráter biológico; b) pirâmides etárias são da média (Fig. 3.8). O desvio padrão é calcula-
uma forma especial de histograma que revelam do a partir da média, que é um parâmetro popu-
importantes características de populações, co- lacional, por isto, é uma medida chamada de
mo o grau de desenvolvimento social de um paramétrica.
pais. A importância indireta está em permitir a
35
A vantagem do desvio padrão (DP) é que é uma

excelente medida de dispersão para variáveis
que tem normalidade. A desvantagem é que
simplesmente não é uma medida apropriada
quando a distribuição não é normal. Você pode
determinar o intervalo que contém 95% dos
dados por exclusão de extremos (seção 3.3) ou
de forma paramétrica com base no desvio pa-
drão (Amplitude 95%= média±1,96 DP), com
resultados semelhantes se a distribuição for
normal (Fig. 3.6 A). Entretanto, ao utilizarmos o
Desvio Padrão para descrever uma distribuição
que não é normal podemos chegar a resultados
estranhos, como incluir salários negativos nos Figura 3.8- Quando temos uma distribuição normal, pode-
mos determinar com base na média e no desvio padrão
limites de uma amplitude parcial central (DP), como os dados se distribuem e a proporção a cada
(Fig. 3.6 B), o que nunca acontece com interva- intervalo entre um, dois e três desvios padrões acima e
los determinados por exclusão de extremos. abaixo da média.
Quando não há normalidade, há algumas alter-
nativas: a) utilizar a amplitude interquartil como duos da população estatística (não confunda o
medida de dispersão; b) realizar uma transfor- número de indivíduos da população com tama-
mação dos dados de forma a obter normalidade nho de uma amostra desta população).
(Cap. 5); c) apresentar a distribuição de fre-
Os parâmetros de proporção são contagens de
quência ao invés de uma síntese numérica.
unidades amostrais de uma categoria divididos
por um total de unidades amostrais, como a
3.5 Parâmetros populacionais razão sexual de adultos e a taxa de sucessos
em um estudo sobre aprendizado (sucessos/
Na Biologia, geralmente estamos mais interes-
sados em características de populações ou de tentativas). Em variáveis binárias só se apre-
senta um parâmetro de proporção relevante (e.
conjuntos de observações ou eventos do que
em indivíduos ou em eventos singulares. Algu- g. razão sexual= machos/ total), pois o parâme-
tro da outra categoria (fêmeas/ total) seria re-
mas destas características são valores quantita-
tivos denominados parâmetros. dundante, de forma que você pode escolher
qualquer um. Quando há mais de duas catego-
Quando temos um conjunto de valores (popula- rias em uma variável, pode haver mais de um
ção estatística) com distribuição de frequência parâmetro relevante (e. g. “azul/total”, “ver-
estatisticamente estável, podemos estimar a- de/total”, “amarelo/total”). Embora isto possa ser
propriadamente alguns parâmetros a partir de aplicado para categorias ordinais, normalmente
subconjuntos representativos (amostras). Isto é é preferível se usar outro parâmetro que será
muito útil, já que raramente temos acesso a apresentado adiante para esta escala.
toda a população estatística em que estamos
interessados em um estudo. Nesta seção serão Os parâmetros de variáveis quantitativas envol-
vem contagens, como o número médio de célu-
apresentados os parâmetros populacionais mais
las brancas por campo em uma lâmina de san-
importantes. Os parâmetros podem ser univari-
gue, ou medidas “contínuas”, como o desvio
ados (de contagem, de proporção, de variáveis
padrão no tamanho (em µm) de indivíduos de
ordinais, de variáveis quantitativas) ou multiva-
riados (de relação). uma população de Artemia salina. Note que as
contagens neste tipo de parâmetro não são de
Os parâmetros de contagem são totais para unidades amostrais, mas de algo que está em
toda a população, como número total de indiví- cada unidade amostral. No exemplo da lâmina
36
de sangue, a unidade amostral era campo e a chente de um rio para construirmos uma barra-
população eram os campos daquela lâmina. gem segura.
Os parâmetros de variáveis ordinais e de variá- Parâmetros multivariados envolvem mais de

veis quantitativas mais importantes são de três uma variável ao mesmo tempo. Por exemplo, a
tipos: de tendência central, de dispersão e ex- diferença nos tamanhos médios de machos e
tremos. As três medidas de tendência central fêmeas de ratos silvestres em uma população
principais são a média, a mediana e a moda. A (parâmetro de grau de dimorfismo sexual em
média comum (também chamada de média tamanho) ou a inclinação (coeficiente angular)
aritmética) é a soma dos valores divididos pelo da reta que descreve a relação entre o peso de
número de observações (a princípio não deveria indivíduos uma população de ratos silvestres e
ser aplicado para variáveis ordinais). A mediana a quantidade de recursos alimentares em sua
divide os valores ordenados pela metade. Por área de vida (parâmetro em um modelo mate-
exemplo, se colocarmos 25 valores em ordem mático). São parâmetros, pois são característi-
crescente, a mediana será o 13º valor. A moda cas quantitativas relacionadas a estas popula-
é o valor mais frequente quando os dados quan- ções, e são importantes nos estudos de rela-
titativos estão agrupados em intervalos. A me- ções. Há análises em que diversos parâmetros
diana geralmente é considerada uma medida são determinados ao mesmo tempo, como em
mais apropriada de “centralidade” quando não equações que descrevem a relação entre uma
temos uma distribuição normal ou aproximada- variável resposta e diversas variáveis preditoras
mente normal, entretanto, a média é sempre (regressão múltipla).
uma medida significativa para medidas quantita-
tivas, mesmo na ausência de normalidade, pois 3.6 Intervalos de confiança de
reflete um aspecto de centralidade que a medi- parâmetros.
ana não reflete.
Como já vimos, raramente trabalhamos com
Nas seções anteriores vimos medidas de dis- parâmetros, trabalhamos com estimativas de
persão como o Desvio Padrão e a Amplitude do parâmetros e estas estimativas tem utilidade
Intervalo Interquartil. Se a imprecisão da medida limitada sem um intervalo de confiança.
for pouco relevante em relação à variação natu-
ral, estas medidas também são parâmetros Se você está estudando um pequeno bando de
populacionais (quando toda a população foi girafas de uma reserva, basta contá-las para
amostrada), ou estimativas de parâmetros po- obter o valor do parâmetro “número de indiví-
pulacionais (quando o cálculo foi feito por uma duos”. Entretanto, se quiser estimar a popula-
amostra), pois a variação é uma característica ção de gafanhotos na mesma área, a contagem
de uma população. de todos provavelmente seria impraticável. Vo-
cê poderia dividir a área em muitas partes, sor-
Parâmetros quantitativos extremos são o máxi- tear algumas, realizar contagens apenas nes-
mo e o mínimo populacional para uma variável. tas, tirar uma média e multiplicar pelo número
Não nos referimos a médias de mínimos ou de de partes. Neste caso, você não teria o valor do
máximos, mas a estimativas de mínimos e má- parâmetro, mas uma estimativa. A chance de
ximos absolutos a partir de amostras. Sua de- você acertar exatamente é extremamente baixa,
terminação é bem mais incerta e complexa do por isto qualquer estimativa de parâmetro é
que para medidas de centralidade e de disper- praticamente inútil sem um intervalo de confian-
são. Por este motivo, raramente são tratados ça.
em cursos básicos, entretanto, são parâmetros
extremamente importantes. Por exemplo, preci- Um intervalo de confiança é uma extensão da
samos ter estimativas do valor máximo da en- nossa estimativa para uma amplitude ao invés
de um valor pontual, tendo um grau de rigor pré-
37
estabelecido para seu cálculo. Os intervalor de do valor real da população. No exemplo dos
confiança mais utilizados são IC99%, IC95%, gafanhotos, quanto mais áreas de certo tama-
IC90% e o erro padrão (ou IC68,27%). Um nho você tiver, maior precisão terá. Neste e-
IC95% de um parâmetro significa que o interva- xemplo, também teremos maior precisão quanto
lo foi calculado de forma a ter 95% de chance maior for cada área, pois isto tende a diminuir a
do intervalo de conter o parâmetro. Por exem- variação nos valores entre áreas e a represen-
plo, uma estimativa de média de gafanhotos por tatividade de cobertura da área coletada. (A
100 m2 de 12,3 com IC95% entre 8,5 e 20,3 nos representatividade em distribuição é um concei-
dá uma ideia bastante precisa de até que ponto to diferente relacionado com acurácia da esti-
nossa estimativa pontual é confiável. A figura mativa que será tratado na próxima seção.)
3.9 ilustra uma utilização de intervalos de confi-
ança para mostrar mudanças temporais. Os O conceito de intervalo de confiança é essencial
intervalos permitem avaliar as mudanças nas ao usuário de estatística, mas o seu cálculo não
médias de volume de néctar por horário de for- é, por isto não entraremos em detalhes sobre a
ma objetiva. O aumento entre 5:00 e 6:00 horas forma de calcular intervalos de confiança de
é incerto, mas podemos dizer com segurança parâmetros de contagens e de parâmetros de
que houve redução entre 6:00 e 7:00 horas. proporções. Estes intervalos podem ser facil-
mente calculados em sites como
Quanto menor o intervalo de confiança obtido www.graphpad.com/quickcalcs/confInterval1
para um parâmetro, melhor é a estimativa, isto é (Motulsky, 2010). Entretanto, entraremos um
maior é a sua precisão. A precisão de um pa- pouco nos detalhes de como obter intervalos de
râmetro depende da precisão das medidas indi- confiança de parâmetros de variáveis ordinais e
viduais, da variação natural entre unidades a- quantitativas, pois há conceitos relevantes ao
mostrais e da representatividade de cobertura. usuário que precisam ser tratados.
Abordamos precisão das medidas individuais na
seção 3.3. É bom termos medidas individuais Há diferentes formas de se determinar interva-
precisas, mas a im-
precisão e a variação
natural no cálculo de 12
Volume de Nectar (µL)
parâmetros podem
10
ser compensadas por
uma maior represen- 8
tatividade de cobertu-
ra. A representativi- 6
dade de cobertu-
ra.tem dois elemen- 4
tos principais, o ta-
manho da amostra 2
(número de unidades
amostrais) e o tama- 0
nho da unidade a-
0
0
0
0
:0
:0
:0
:0
:0
:0
05
06
08
07
09
10
mostral (quando ela

varia em tamanho). Horário da manhã
Basicamente, quanto
maior o tamanho da Figura 3.9- Variação na quantidade de néctar (µL) em flores de Ficus devendus entre as 5:00
amostra, maior é a e as 10:00 horas da manhã. A barra horizontal representa a medida paramétrica do Intervalo
de Confiança de 95% da Média. O IC95% paramétrico é simétrico, mas foram omitidos os
certeza de que a valores negativos no gráfico.
estimativa do parâ-
metro está próxima
38
los de confiança. As mais utilizadas para o pa- de intervalos de confiança assimétricos ajusta-
râmetro média têm sido o Erro Padrão (Quadro dos aos dados. A lógica do funcionamento do
3.2) e uma estimativa paramétrica do Intervalo Bootstrap é bastante intuitiva e é apresentada
de Confiança da Média (ICM) de 95% (ou na legenda do Quadro 3.3. Quando há normali-
IC95% da média) calculada a partir do valor do dade, suas estimativas são tão boas quanto as
erro padrão. É importante não confundir o erro obtidas por métodos paramétricos e quando não
padrão com o desvio padrão. O desvio padrão é há normalidade suas medidas são sempre me-
uma medida de dispersão de valores da popu- lhores. Outra vantagem do Bootstrap é que esta
lação; é uma característica desta população que técnica não se restringe a avaliações da média,
ganha precisão quanto maior a amostra usada permite a determinação de intervalos de confi-
para estimá-lo. O erro padrão é um intervalo de ança para qualquer parâmetro das escalas
confiança da média (equivale a um IC68%) que quantitativa e ordinal.
diminui quanto maior for o tamanho da amostra
utilizada na estimativa. Sempre que usar um ou Embora seja uma técnica antiga, raramente é
outro é obrigatório explicitar de qual se trata. apresentada em cursos introdutórios de estatís-
tica, porque os conteúdos destes cursos foram
O erro padrão e o intervalo de confiança para- definidos há uns 30 anos, quando o acesso ao
métrico são simétricos acima e abaixo da medi- poder de computação era mais restrito, e esta
a. Este é um dos problemas desta forma de técnica exige este poder. Entretanto, já faz tem-
calcular intervalos de confiança que fica claro po que isto não é um fator limitante e trata-se de
no exemplo da figura 3.8. Note que foi omitida a uma técnica valiosa, de forma que lentamente
parte negativa do intervalo de confiança no está vencendo o tradicionalismo e começando a
horário 10:00hs. Isto foi feito porque sabemos ser incorporada aos cursos básicos.
que não existe quantidade negativa de néctar.
Quando a distribuição de frequências é muito Mesmo o intervalo determinado por Bootstrap é
assimétrica, como ocorreu neste exemplo, me- suspeito quando o tamanho amostral é peque-
didas paramétricas de intervalos de confiança no. De quantos dados precisamos para obter
devem ser evitadas. um intervalo de confiança confiável? O ideal é
mais de 30. Entretanto, assim como no exemplo
A técnica chamada Bootstrap (Quadro 3.3) da figura 3.9, é comum que tenhamos bem me-
permite obter uma estimativa não paramétrica nos. Considerando que esta precisão varia com
o tipo de distribuição, podemos recomendar um
mínimo de 5 quando há forte expectativa de
distribuição de frequências aproximadamente
normal, um mínimo de 10 quando há um desvio
bastante forte da normalidade (e. g. 2, 2, 3, 3, 3,
4, 4, 5, 5, 5, 5, 7, 8, 10, 14, 15) e um mínimo de
15 quando há um desvio maior (e. g. 0, 0, 0, 0,
0, 1, 1, 3, 5, 9, 20). Quando temos tamanhos
amostrais menores, o intervalo de confiança
pode ser utilizado, mas é muito importante tam-
bém apresentar os dados brutos, como foi feito
na figura 3.9, onde os pontos todos são mostra-
dos. Tamanhos amostrais pequenos não são
Quadro 3.2- Cálculo paramétrico do Intervalo de Confian-
um pecado acadêmico, mas está errado escon-
ça IC95% da média. O cálculo do Desvio Padrão foi apre- der do leitor as incertezas nos dados.
sentado no Quadro 3.1.
39
Quadro 3.3- Determinação de Intervalos de Confiança pela técnica de Reamostragem chamada Bootstrap. Funciona
como se o computador “clonasse” os dados várias vezes, “recriando” algo semelhante à população original (como os
números na tabela acima). Tendo esta população, o computador retira uma amostra do mesmo tamanho amostral da
amostra inicial (representada em destaque na tabela) e calcula o valor do parâmetro (e. g. a média). Depois repete o
processo muitas vezes (e. g. 1000 vezes), obtendo repetições de estimativa do parâmetro. Então retira uma porcentagem
dos valores extremos (e. g.. 5% para obter um IC95%) e obtêm os limites do Intervalo de Confiança.
40
3.7 Independência para parâmetros

univariados
Os valores de parâmetros univariados e seus
Intervalos de Confiança apenas são válidos se
as amostras utilizadas para as estimativas fo-
rem baseadas em amostras representativas
em distribuição na população em questão.
Uma amostra com representatividade em distri-

buição é aquela obtida de forma a se obter uma
estimativa não tendenciosa de um parâmetro
univariado. A forma mais conhecida de se obter
uma amostra representativa em distribuição é
pela aleatorização (isto é, pelo sorteio) de quais
unidades amostrais de toda a população serão
incluídas na amostra. Esta não é a única forma
válida de obter amostras representativas em
distribuição, uma coleta sistemática apropriada
também permite isto (Fig. 3.11). Por que isto é
importante? Suponha que você quisesse esti-
mar a produtividade vegetal média em uma
fazenda e realizasse todas as coletas na mar-
gem leste desta fazenda por uma questão de
conveniência (proximidade da estrada de aces-
so). O problema é que esta produtividade pode-
ria ser influenciada pela fertilidade do solo que
não é necessariamente homogênea e poderia
*variar em gradiente de uma margem a outra da
área. Isto não é uma questão de paranoia me-
todológica (seção 1.5), é uma possibilidade
concreta que não pode ser desprezada. A pos-
sibilidade da estimativa do parâmetro ser desvi-
ada por qualquer variável de confundimento que
possa ter algum padrão espacial ou temporal é
anulada se a coleta for feita de uma forma a- Figura 3.11- Três formas de coletar dados. X= unidades
propriada, como em uma coleta aleatória ou amostrais selecionadas para compor a amostra. Neste
sistemática na área de estudo. Algo semelhante caso, a amostra sistemática não é representativa da borda
da área e a amostra de conveniência só é representativa de
acontece com coletas realizadas ao longo do uma borda.
tempo.
A qualidade de uma estimativa de parâmetro

univariado depende, primariamente, das unida-
des amostrais terem sido obtidas de uma forma
bem distribuída no universo amostral (represen-
tatividade em distribuição) e, secundariamente,
da porcentagem da população que foi amostra-
da (representatividade em cobertura). Por e-
xemplo, se você conseguir dados de altura de
41
0,01% da população masculina adulta do Brasil combinações de níveis das variáveis preditoras,
por sorteio de toda a população terá uma amos- se houver mais de uma) possuem representati-
tra excelente para calcular a média de alturas. vidade em distribuição válida em relação à po-
Se você utilizar os dados de toda a população pulação estatística. Esta situação é rara, como
masculina adulta de um único estado, como veremos adiante, de forma que geralmente se
São Paulo, esta medida não será representativa busca nesta situação uma representatividade
da média nacional, mesmo contendo cerca de paralela parcial e generalizações com base na
20% da população do Brasil. Quando há repre- razoabilidade. Na representatividade paralela
sentatividade em distribuição as unidades a- parcial, os conjuntos de unidades amostrais de
mostrais, frequentemente se diz que são “inde- cada nível da variável preditora possuem a
pendentes”. O que significa independentes? mesma representatividade em distribuição entre
Independentes umas das outras? Não, nem si, ainda que nenhum destes níveis seja válido
poderiam, já que estamos falando de uma popu- como representatividade em distribuição de
lação e todas devem pertencer à mesma popu- toda a população estatística. Esta situação será
lação. O termo Independência significa fora da explicada com exemplos experimentais, pois
influência de um fator de confundimento. neles é mais simples se obter esta condição.
3.8 Independência em análises de Vamos comparar três experimentos para testar

relações a hipótese que a Vermiculita (um mineral seme-
lhante à mica usado na agricultura) adicionada
As análises mais comuns em estudos biológicos ao solo influi sobre a produtividade de soja.
envolvem a avaliação de relações que implicam Para testar esta hipótese você vai comparar o
causalidade (relações consequentes). Nestas crescimento de plantas em vasos sem vermicu-
análises são calculados parâmetros multivaria- lita (controle) com o crescimento de plantas em
dos (e seus intervalos de confiança), incluindo vasos com 50 g de Vermiculita adicionada ao
diferenças de médias entre grupos, coeficientes solo. No primeiro experimento você utiliza ape-
de correlação ou coeficientes para cada variável nas sementes saudáveis de soja de um pacote
de uma equação em modelos matemáticos mais que comprou em um supermercado. Ao final, as
complexos. Nesta situação, podemos falar em plantas nos vasos com o tratamento cresceram
independência quando há representatividade significativamente mais e a resposta para sua
paralela (Fig. 3.12). Na representatividade questão, dentro de critérios estatísticos, é sim,
paralela ideal, os conjuntos de unidades amos- pelo menos para este pacote. Note que um
trais de cada nível da variável preditora (ou pacote não pode ser considerado representativo
das plantas de soja do mundo, entretanto o
resultado positivo pode ser considerado uma
evidência relevante do efeito da vermiculita para
além deste pacote. A lógica é que, neste con-
texto, costuma ser mais razoável imaginar que a
diferença é uma característica genérica da soja
do que particular ao pacote. Voltaremos a isto
adiante.
Agora imagine que você tem dois pacotes de

Figura 3.12- A representatividade paralela ocorre quando
sementes de soja, um de um lote brasileiro e
os conjuntos de unidades amostrais de cada nível da outro de um lote japonês. Você escolhe (ou
variável preditora (linhas paralelas) possuem a mesma sorteia) qual deles vai ser utilizado no controle e
representatividade de distribuição. Isto ocorre, por exem-
plo, quando selecionamos aleatoriamente as unidades
o outro vai para o tratamento. Ao final, as plan-
amostrais que serão utilizadas em cada tratamento em um tas nos vasos com o tratamento cresceram
experimento. significativamente mais. O problema é que você
42
não sabe se cresceram mais em função do o único fator que influi no sentido de causar
tratamento ou em função do lote. Não há repre- uma diferença entre o tratamento e o controle é
sentatividade paralela porque os níveis da vari- o próprio efeito do tratamento em estudo.
ável preditora diferem em algo que relevante
além da própria variável em estudo. O sorteio No segundo experimento o potencial efeito do
foi uma aleatorização irrelevante, pois não foi lote tornou o resultado inconclusivo, mas no
para cada semente e sim para cada pacote, de terceiro experimento o efeito do lote foi anulado
forma que não permitiu a homogenização da porque o sorteio garantiu a representatividade
representatividade entre os níveis. A variável balanceada, isto é, a distribuição do efeito do
“lote” neste caso é uma variável de confundi- lote igualmente entre tratamento e controle.
mento porque gera uma indefinição, já que é Tecnicamente dizemos que “realizamos atribui-
uma explicação alternativa ao tratamento com ção aleatória de qual semente vai para cada
Vermiculita para explicar a diferença entre tra- nível de tratamento”. Em uma linguagem mais
tamento e controle. Portanto, este segundo simples, a gente simplesmente mistura bem as
experimento é inconclusivo. sementes e distribui entre os tratamentos. Ape-
nas em estudos experimentais temos este po-
Em um terceiro experimento, você sorteia de der de atribuição aleatória de tratamentos. Em
qual dos dois lotes, do Brasil ou do Japão, sairá estudos não experimentais precisamos encon-
cada uma das sementes que irá para o trata- trar outras formas de anular ou reduzir o efeito
mento e para o controle. Desta forma, terá uma de variáveis de confundimento que trataremos
mistura dos dois lotes tanto no controle como no no capítulo 6, mas a essência de se buscar
tratamento. Ao final, as plantas nos vasos com representatividade paralela é a mesma.
o tratamento cresceram significativamente mais
e a resposta para sua questão é sim, pelo me- Além de anular o efeito de potenciais variáveis
nos para esta mistura de dois pacotes. Assim de confundimento, há uma segunda preocupa-
como o primeiro experimento, este também é ção que precisa ser levada em conta em estu-
válido. dos de relações: a representatividade. Como já
comentamos acima, o experimento 1 com as
Note que em nenhum desses experimentos sementes foi considerado válido, mas baseou-
temos garantia de representatividade em distri- se em apenas um lote de sementes de soja. O
buição das amostras em relação a todas as ideal não seria que fosse utilizada uma amostra
plantas de soja do mundo, mas isto não é tão aleatória de todas as sementes de soja do
importante quanto a representatividade paralela. mundo? Isto seria muito difícil, mas pelo menos
Vejamos por quê. não deveríamos tentar misturar vários lotes
diferentes?
Nos estudos de relações entre uma variável
preditora e uma variável resposta não há ape- Para responder estas perguntas, precisamos
nas duas variáveis em jogo, há muitas outras levar em conta conhecimentos biológicos e
variáveis influindo sobre a variável resposta, razoabilidade. A rigor, a conclusão a que che-
que podem atrapalhar na avaliação sobre a gamos com um lote aplica-se apenas ao lote de
relação em estudo. O primeiro e o terceiro expe- sementes que estudamos. Entretanto, este nível
rimentos são considerados válidos porque a de rigor é exagerado. Podemos e devemos
representatividade em distribuição entre os utilizar a validação externa por razoabilidade
níveis da variável preditora é idêntica. Isto é, (seção 1.5). Com base em nossos conhecimen-
ainda que não tenham representatividade em tos biológicos, devemos ser cautelosos em ge-
distribuição da população, não diferem de forma neralizar o resultado para toda a espécie em
potencialmente tendenciosa, pois não existe um qualquer clima e solo, mas é muito razoável
fator que afeta o grupo do tratamento de forma generalizar para a variedade e para o mesmo
diferente da que afeta o grupo controle. Assim, clima e solo. Poderíamos ter feito uma mistura
43
de lotes diferentes, o que realmente aumenta o das. Com esta definição, somos induzidos a
poder de generalização, entretanto, isto introduz achar que não haveria problema de indepen-
ruído na análise. Ruído é a variação ocasionada dência no segundo experimento da seção ante-
por incluir o efeito de outras variáveis, ainda que rior, pois não há nenhuma influência de uma
de forma não tendenciosa, o que leva ao obscu- semente sobre a outra, cada uma está em um
recimento do efeito em estudo. A decisão de vaso separado. Entretanto, o problema das
misturar alguns lotes é razoável e precisa ser sementes não estaria na influência presente de
ponderada pelo pesquisador, levando em conta uma réplica sobre outra durante o experimento,
se irá priorizar o poder do teste ou a generaliza- mas em potenciais diferenças nos “passados
ção. Entretanto, considerando que normalmente compartilhados” que são fatores comuns a cada
queremos generalizar nossas conclusões para o lote de sementes (constituição genética, riqueza
futuro, e que não podemos viajar no tempo, a do solo onde foram geradas, tempo de armaze-
representatividade paralela ideal raramente é namento, qualidade obtida em função da forma
possível e geralmente teremos que julgar com de colheita e transporte, etc.).
base na razoabilidade até onde podemos gene-
ralizar as conclusões de um estudo. Definição 2: “Em probabilidade e estatística,
independência entre variáveis aleatórias ou
Em resumo: em estudos de relações, o aspecto eventos significa que a partir do resultado de
mais importante é proceder de forma a anular um deles não é possível inferir nenhuma con-
todas as potenciais variáveis de confundimento clusão sobre o outro” (Wikipédia). A Wikipédia é
(aquelas que podem causar tendenciosidades). uma valiosa fonte para tirar dúvidas de estatísti-
Desta forma, teremos a segurança de que as ca, mas não ajudou. O que significa “a partir do
diferenças significativas nas variáveis respostas resultado de um deles”? Com dependência ou
apenas possam ser atribuídas às variáveis pre- sem, nunca podemos inferir um valor a partir de
ditoras estabelecidas no estudo. Adicionalmen- outro. E se considerarmos vários valores, o
te, é preciso refletir até que ponto as unidades conceito não se sustenta logicamente nem nos
amostrais representam o universo amostral exemplos de jogos de azar. O que significa “não
inferido pelo estudo. é possível inferir nenhuma conclusão sobre o
outro”? Se eu jogar um dado muitas vezes (e-
3.9 Considerações complementares ventos independentes) posso verificar que há
seis números diferentes com frequências seme-
3.9.1- Sobre o significado do termo “Indepen- lhantes de ocorrência e posso concluir que a
dência”. chance de cair qualquer um deles na próxima
jogada é de 1/6, ao contrário do que propõe a
Como vimos, o termo “independência” tem sig- definição.
nificados diferentes, o que gera confusão. Nesta
seção analisaremos o uso do termo e sintetiza- É surpreendente que um termo tão importante
remos o que vimos nas duas seções anteriores. na estatística não seja definido de forma mais
Mesmo nos melhores textos de bioestatística o apropriada. Estas definições provavelmente
conceito de independência é apresentado de refletem uma visão de estatística predominan-
forma pouco esclarecedora. temente inspirada em jogos, mas que não se
encaixa bem em situações de pesquisa.
Definição 1: “Por independência queremos dizer
que as observações coletadas em uma réplica A dificuldade existe porque se utiliza um termo
não tem influência sobre as observações cole- para quatro conceitos diferentes: a independên-
tadas em outra” (Gotelli e Elison 2010). Mesmo cia genérica, a independência absoluta, a inde-
neste excelente livro, a definição não é clara. É pendência induzida de amostragens e a inde-
difícil entender como observações coletadas pendência induzida de relações.
podem influir sobre outras observações coleta-
44
A Independência (genérica) é um termo que se Existe independência induzida de amostragem

aplica quando se obtém as condições necessá- quando as unidades amostrais incluídas na
rias para análises estatísticas não tendenciosas. amostra foram selecionadas de forma represen-
Entretanto, o termo normalmente não é utilizado tativa do universo amostral (representatividade
estritamente com este sentido. A expressão em distribuição). O modelo ideal de indepen-
“independência entre unidades amostrais” é dência induzida de amostragem é a amostra
utilizada com frequência, como se fosse uma aleatória na qual cada unidade amostral tem
característica intrínseca das unidades amos- igual chance de ser escolhida para fazer parte
trais. Mas é importante entendermos que duas da amostra. Entretanto, há outras formas de se
unidades amostrais nunca são independentes obter independência induzida de amostragem.
sob todos os aspectos imagináveis. Você pode- Esta forma de independência é necessária para
ria considerar independentes duas unidades estimativas de medidas coletivas (parâmetros)
amostrais obtidas em lados opostos do mundo, de uma população.
mas elas seriam dependentes em algum outro
aspecto, como, por exemplo, por terem sido Existe independência induzida de relação por
medidas no mesmo ano. Na realidade, entre as representatividade balanceada em estudos com
unidades amostrais tem que haver uma depen- variáveis preditoras e variável resposta quando
dência fundamental: todas devem pertencer à a relação entre cada variável preditora e a vari-
mesma população, que é delimitada por muitas ável resposta não é influenciada ou por uma
características comuns. Na forma como o termo variável de confundimento ou até mesmo pelo
costuma ser usado, não fica claro que estas efeito de uma variável preditora sobre a outra. A
condições variam em função do tipo de análise forma ideal de se obter isto é pela aleatorização
que estamos fazendo. da atribuição de tratamentos descrita na seção
anterior que pode ser obtida em estudos expe-
Dois eventos são “absolutamente independen- rimentais, mas há outras abordagem que po-
tes” se a ocorrência de ambos é aleatória dentro dem se aproximar deste ideal.
do mesmo universo de possibilidades delimita-
do. Depois de tirar uma carta do baralho (e ver
o que ela era), o universo de possibilidades da
segunda retirada é diferente (uma carta conhe-
cida está fora), logo os dois eventos não são
absolutamente independentes, pois um influi
sobre o outro. Apenas com condições idênticas
temos independência absoluta entre eventos.
Este conceito de independência é aplicável em
jogos e em muitos experimentos em física e
química. Algo próximo a isto pode ocorrer em
laboratórios de biologia quando é possível con-
siderar todas as condições biológicas idênticas
(condições climáticas estritamente controladas,
ao se utilizar clones, eficiência do manipulador
padronizada, etc.). Se houver qualquer dúvida
sobre eventuais efeitos de mudanças temporais,
espaciais, genéticas, de eficiência, etc., dentro
do laboratório, que não seja o tratamento em
estudo, é melhor realizar a pesquisa com o
conceito de representatividade balanceada.
45
3.9.2- O preço a pagar pela qualidade. cada medida; b) quando há dificuldade em se

obter os objetos a serem medidos; c) quando o
Alta precisão e acurácia são características estudo permite obter várias medidas “indepen-
desejáveis em medidas, mas não existe medida dentes”.
perfeita e qualidade tem seu preço, sejam elas
medidas de propriedades de unidades amos- Nas duas primeiras situações, a prioridade na
trais ou medidas de propriedades de popula- precisão é mais alta que na terceira. Por exem-
ções. Por exemplo, vale a pena gastar metade plo, se estivermos selecionando atletas para
do dinheiro de um projeto para trocar um ins- uma olimpíada, não é aceitável a exclusão de
trumento de baixa precisão por outro de alta um atleta por erro de medida (cada medida leva
precisão, comprometendo uma verba que per- a uma decisão importante). Quando temos difi-
mitiria mais idas ao campo? É razoável delimi- culdade em obter os objetos ou encontrar as
tarmos o tamanho de um transecto de 200 m situações de interesse da pesquisa, cada opor-
usando passos, ou é necessário sempre utili- tunidade deve ser aproveitada ao máximo. O
zarmos da precisão de uma trena? Se uma que se ressalta aqui é que apenas nos casos
amostra aleatória é inviável, podemos utilizar em que cada medida for muito importante ou
uma amostra menos representativa ou é melhor difícil de ser obtida, a alta precisão justifica alta
desistir do estudo? Um experimento deve ser prioridade de investimento. Naturalmente, não é
cancelado se questões logísticas nos impedem uma questão de investir ou não na qualidade,
de realizar as medidas do tratamento e do con- mas de quanto investir.
trole na mesma semana?
Na terceira situação, temos que separar preci-
Administrar projetos de pesquisa é uma ativida- são de acurácia. Por causar desvios aleatórios
de complexa, de forma que não podemos igno- (i. e. não tendenciosos), a falta de precisão
rar custos, tempo, praticidade e questões logís- normalmente não é um problema tão grave na
ticas na determinação da precisão e acurácia pesquisa. É um problema indesejável, mas fre-
que será utilizada. É importante conhecer ideais quentemente pode ser compensado por uma
metodológicos (e. g. medidas precisas e não amostragem maior (com a vantagem de melhor
tendenciosas, tamanhos amostrais grandes, representatividade). Isto ocorre porque nos
amostragens aleatórias, etc.), mas estes ideais testes de hipóteses estatísticas, as conclusões
não são leis metodológicas absolutas, são ape- são tomadas quando uma tendência (relação
nas diretrizes que devem ser levadas muito a em estudo) é tão forte que pode ser distinta de
sério. Acontece que há limites logísticos, físicos variações aleatórias, sejam elas naturais ou de
e morais que ocasionalmente nos impedem de medida. A falta de precisão pode contribuir para
medir e coletar dados da forma ideal. É essen- não termos sucesso em “provar” uma determi-
cial entender a diferença entre um comporta- nada relação, em função de uma amostragem
mento cuidadoso para evitar interpretações insuficiente. Isto é considerado um erro menos
equivocadas e uma paranoia metodológica (se- sério do que “provar” equivocadamente uma
ção 1.5). Um treinamento metodológico não relação que não existe, como veremos no capí-
pode te proibir de agir nestas condições, mas tulo 4. Em outras palavras, a falta de precisão
ensinar como redobrar o cuidado quando for pode atrasar a obtenção de resultados significa-
necessário. Não existe uma única metodologia tivos, mas não aumenta a chance de um falso
correta, existem metodologias apropriadas (ou positivo. Por outro lado, a falta de acurácia não
não) considerando o contexto e as alternativas pode ser compensada por um aumento no nú-
disponíveis para resolver um problema. mero de unidades amostrais medidas. Portanto,
é uma fonte de preocupações nas três situa-
Vamos abordar situações concretas. É necessá- ções.
rio diferenciar três situações nas medidas indi-
viduais: a) quando há uma decisão importante a
46
É importante que o cuidado com a qualidade da ta forma, mesmo sem diferença na habilidade
medida não se torne obsessivo, isto é, prejudi- de nadar, concluiríamos que os meninos têm
cial ao próprio estudo. Por exemplo, digamos mais habilidade. Este exemplo ilustra os riscos
que você esteja fazendo um trabalho de ecolo- da falta da acurácia em medidas em qualquer
gia vegetal no Pico da Neblina e seu tempo é escala.
muito curto por questões logísticas. É válido
medir transectos com passos para economizar Os conceitos de precisão e acurácia aplicam-se
o tempo de estender a trena em cada transec- melhor a valores quantitativos, mas podem ser
to? Vimos que a falta de precisão não é um generalizados para outras escalas de medida.
problema sério, mas e se neste processo in- Quando estamos com uma variável ordinal,
conscientemente obtivermos uma medida ten- podemos obter maior precisão quanto maior for
denciosa que subestima o tamanho do transec- o número de categorias ordinais. Por exemplo,
to? Digamos que esta falta de acurácia resulte se queremos avaliar a sensação térmica de
em transectos com 190 m em média ao invés pessoas, teremos menos precisão com uma
de 200 m. Qual a gravidade disto? Depende da escala de três níveis efetivos (quente, agradá-
questão em estudo. Se você estiver querendo vel, frio) do que uma de cinco níveis efetivos
comparar a densidade de plantas em diferentes (muito quente, quente, agradável, frio e muito
altitudes e cometer o mesmo erro, então a falta frio). Entretanto, escalas ordinais exigem um
de acurácia seria irrelevante, pois todos os tran- cuidado redobrado na análise, pois muitas ve-
sectos serão do mesmo tamanho, que é o que zes é difícil avaliar acurácia nestas condições
importa para que sejam comparáveis. Entretan- (e. g. qual o valor real de “muito frio”?). Quando
to, se o objetivo for obter medidas precisas de falamos em escala categórica, temos uma situ-
densidade para comparar com outros locais, ação similar. Nem sempre os limites de uma
então quanto maior for o desvio, maior será o categoria são claros. Qual é o limite onde o
problema com o resultado. Provavelmente, uma vermelho deixa de ser vermelho para se tornar
sub-estimativa de 5% na área de cada transecto laranja? O resultado de um exame de sangue
não tenha muita relevância, neste exemplo em pode ser positivo ou negativo (logo binário) para
particular. malária, entretanto, há uma incerteza (pode ser
um falso positivo) que diminui em função da
Alguns dos problemas mais graves ligados à quantidade de amostras e da experiência de
qualidade dos dados aparecem quando esta- quem analisa o exame. Por isto, os erros de
mos tomando uma medida por outra. Um exem- atribuição de categorias também podem ser
plo clássico é a utilização de provas para medir considerados erros de precisão (se não forem
coeficientes de inteligência, como se uma prova tendenciosos) ou de acurácia (se forem tenden-
destas conseguisse captar conjuntamente a ciosos).
complexidade dos diferentes tipos de inteligên-
cia. O máximo que estes testes poderiam medir Como vimos na seção 3.6, a acurácia na medi-
é a capacidade das pessoas de se saírem bem da de um parâmetro é maximizada quanto me-
neste tipo de teste. Podemos considerar pro- lhor a representatividade amostral. Se a amos-
blemas deste tipo como falta de acurácia por tragem aleatória não é possível, o que é muito
indefinição de um padrão de referência para comum, procure o método de coleta que mais
calibrar as medidas. Na seção 1.5 vimos outros se aproxima daquilo que você esperaria obter
problemas de validação da medida ligados a em uma amostra que fosse aleatória. Há muitas
esta falta de acurácia inclusive um com variável formas sistemáticas de coletar os dados que
binária. Ao perguntarmos a meninos se eles permitem obter amostras representativas. Tam-
sabiam nadar, a resposta (sim ou não) era ten- bém há formas de analisar os dados para obter
denciosa (muitos não sabiam, mas tinham ver- resultados mais representativos (e. g. a média
gonha de responder a verdade), a das meninas ponderada). Se nada disto for possível, procure
também era, mas de forma menos intensa. Des- coletar amostras o mais distante possível dentro
47
da área de estudo. Tente evitar associar alguma

variável que poderia dar um viés à coleta. Por
exemplo, se quer investigar o interesse de uma
população por futebol, o último lugar onde vai
obter uma amostra representativa é em um
estádio de futebol. Entrevistar pessoas na rua
em diferentes bairros não é o ideal, pois exclui
grupos de pessoas que andam pouco na rua,
como idosos. Telefonar para pessoas também
pode excluir pessoas que não tem dinheiro ou
interesse em ter um telefone. Entretanto, se
você fizer as duas coisas e os resultados forem
semelhantes, então tem uma indicação que
estas formas de amostrar não foram tão ruins.
Outra opção é simplesmente reduzir o universo
de estudo ao grupo com o qual se pode traba-
lhar e tirar conclusões apenas sobre este grupo.
Por exemplo, seu estudo pode ser sobre o inte-
resse em futebol das pessoas que andam na
rua.
Como vimos na seção 3.8, a questão da inde-

pendência no estudo de relações é um proble-
ma fácil de resolver em abordagens experimen-
tais normais, nas quais podemos escolher alea-
toriamente quais entidades receberão quais
tratamentos. Entretanto, quando isto não é pos-
sível é bem mais complicado analisar causali-
dade. Este assunto será aprofundado no capítu-
lo 6.
48
Exercícios: normal. Coloque nomes nos eixos ilustrando um

exemplo de um estudo biológico imaginário.
1) O que são escalas de medida? Apresente um
exemplo original de cada uma delas. 11) Cite usando exemplos de variáveis originais
a) um parâmetro populacional para uma variável
2) Faça um gráfico EPR com três níveis de me- binária; b) dois parâmetros populacionais para
dida ordinais no eixo x e com cinco níveis quan- uma variável ordinal; c) três parâmetros popula-
titativos no eixo Y. Represente 20 entidades cionais para uma variável quantitativa; d) um
neste gráfico. parâmetro multivariado.
3) Explique por que dividir a escala quantitativa 12) Quando a mediana e a moda são medidas
em “números contínuos” e “números descontí- mais úteis?
nuos” não resolve o problema da descontinui-
dade. 13) Para que utilizamos intervalos de confiança
em estudos biológicos?
4) O fato de um valor pertencer a uma escala
não implica que ele não possa pertencer a outra 14) Qual a diferença na utilidade do desvio pa-
escala ao mesmo tempo. Explique. drão e do erro padrão.
5) Explique e exemplifique as incertezas na 15) No “Bootstrap”, o computador “cria” “pseu-

atribuição de valores nominais e ordinais. dopopulações” pela clonagem dos dados. Expli-
que como isto permite determinar intervalos de
6) Faça uma ilustração representando alvos confiança pela exclusão de extremos.
atingidos por uma espingarda com a) alta preci-
são e alta acurácia; b) alta precisão e baixa 16) Explique por que acurácia é mais importante
acurácia; c) baixa precisão e alta acurácia; que a precisão quando estamos estimando
d) baixa precisão e baixa acurácia. parâmetros populacionais?
7) Explique porque o Intervalo Interquartil é uma 17) Explique diferença entre a independência
medida de dispersão (ou imprecisão) melhor induzida de amostragem e a independência
que a amplitude total para comparar a dispersão induzida de relação quanto à forma de ser obti-
de amostras com número de observações dife- da e quanto à sua aplicação.
rentes.
18) Explique a dificuldade que existe na defini-
8) Em que o desvio padrão é mais conveniente ção do termo “independência” em contextos
que intervalos interquartis como medida de estatísticos.
dispersão e quando a utilização de desvios
padrões não é apropriada. 19) O que é “paranoia metodológica” e porque
nem sempre podemos seguir ideais metodológi-
9) Alguns textos usam o termo “erro” para a cos?
dispersão de dados em função da imprecisão
da medida e para a variação natural. Explique 20) Podemos falar em precisão e acurácia em
por que isto não é apropriado. escalas de medidas ordinal, categóricas e biná-
rias?
10) Faça um histograma com 24 valores que
represente uma distribuição bastante próxima
do esperado para uma população com distribui-
ção normal e um segundo histograma com 24
valores com uma distribuição muito fora do es-
perado para uma população com distribuição
49
4. A lógica dos testes de

hipóteses
Uma das funções mais importantes da estatísti-

ca é fornecer ferramentas que ajudam a “testar”
hipóteses. O assunto é tão central em livros e
cursos de estatística que algumas pessoas
acham que se trata de um assunto dentro da
estatística (Fig. 4.1-A). Em função disto, é con-
veniente chamar a atenção para o fato que nem
todos os testes de hipóteses envolvem estatísti-
ca. Testes de hipóteses sem estatística são
extremamente comuns, não apenas em filmes
de Sherlock Holmes, como no seu cotidiano e
em muitas pesquisas científicas (seção 1.4).
Além disto, mesmo quando se utiliza estatística, Figura 4.1- O assunto teste de hipóteses não é algo que está
o teste de hipótese é algo mais amplo que o dentro da estatística como simbolizado na figura A. O teste
teste estatístico (Fig. 4.1-B). O assunto deste de hipóteses é algo mais amplo que pode utilizar importan-
tes ferramentas estatísticas (área de sobreposição na figura
capítulo é a lógica dos testes estatísticos dentro B).
do contexto mais amplo dos testes de hipóte-
ses. Um biólogo estudava uma espécie de formiga
que caça em grupos de cerca de 20 indivíduos,
4.1 O método hipotético dedutivo captura cupins a até 200 m de distância do ni-
nho e depois retorna ao ninho. Ele se pergun-
tou: como elas acham o caminho de volta?
Testar uma hipótese (vamos chamá-la de hipó-
(Questão). Ele sabia que as formigas utilizam
tese de trabalho) envolve (a) deduzir conse-
pistas químicas, mas há um risco alto delas
quências (previsões) dela, (b) verificar que ocor-
acidentalmente perderem a trilha, por isto achou
reu o que ela previu e (c) conseguir rejeitar to-
que elas poderiam estar utilizando outras pistas
das as explicações (hipóteses) concorrentes
para encontrar seus ninhos. Então, ele levantou
razoáveis para o que foi observado. A rejeição
a hipótese que elas usavam também referenci-
das hipóteses concorrentes é tão essencial ao
ais espaciais (árvores e arbustos ao redor) para
processo quanto a verificação do previsto pela
achar o caminho de volta. Então, ele esperou as
hipótese de trabalho. Quando a previsão da
formigas se afastarem 100 m do ninho e pren-
hipótese de trabalho coincide com a previsão de
deu-as sob um balde, retirou uma camada su-
uma hipótese concorrente, não podemos con-
perficial de solo da área ao redor do ninho, mar-
cluir que nossa hipótese foi corroborada pelos
cou as formigas com uma tinta não tóxica e
fatos. Para não perdermos tempo, a fase “a”
soltou-as. No dia seguinte, ele voltou ao formi-
precisa ser planejada prevenindo problemas
gueiro e encontrou as formigas marcadas lá.
com a fase “c”, isto é, para contrastar hipóte-
Desta forma, ele concluiu que as formigas são
ses, você precisa criar ou buscar situações
capazes de encontrar o ninho mesmo sem as
em que as previsões da hipótese de trabalho
pistas químicas e devem possuir uma capaci-
sejam divergentes das previsões das hipóte-
dade de orientação com base em referências
ses concorrentes. Esta afirmação será expli-
espaciais. Veja como este procedimento envol-
cada ao longo deste capítulo, vamos começar
ve contrastes de previsões.
analisando um exemplo.
50
A previsão da hipótese era que as formigas Ainda há uma hipótese a considerar: as formi-
conseguiriam retornar ao ninho (pois podem gas poderiam ter conseguido retornar por sorte.
utilizar referenciais espaciais). Entretanto, a Poderiam ter andado a esmo pela área e por
mera observação das formigas de volta no ni- acaso encontrado a pequena abertura do formi-
nho não teria nenhum valor sem a eliminação gueiro. Entretanto, procure imaginar a situação,
dos rastos com a remoção do solo, pois elas não eram 2m ou 10 m, eram 100 m. É uma
poderiam ter retornado utilizando apenas as distância enorme para as formigas andarem ao
pistas químicas. O biólogo ainda marcou as acaso e encontrarem o formigueiro apenas por
formigas para eliminar a possibilidade de estar sorte. Seria muito mais provável que elas sim-
confundindo os indivíduos do estudo com outras plesmente se perdessem se não tivessem orien-
formigas do ninho, ou até com formigas de outro tação. A hipótese de terem encontrado ao aca-
ninho que tivessem aproveitado a oportunidade so é tão improvável que pode ser tranquilamen-
do ninho vazio. Alguém poderia questionar a te descartada.
validade de um experimento que prendeu formi-
gas sob um balde, trocou o solo e as marcou O exemplo acima ilustra o que chamamos de
com tinta, o que certamente poderia ter afetado Método Hipotético Dedutivo de Julgamento
o comportamento delas. Entretanto, estas criti- Centrado (Fig. 4.2), no qual há uma hipótese de
cas não comprometem a interpretação do resul- trabalho em uma posição central, pois é dela
tado, pois o que poderíamos prever desta per- que parte a previsão que queremos verificar, e
turbações é que elas apenas poderiam atrapa- hipóteses concorrentes de diversos tipos que
lhar as formigas, de nenhuma forma poderiam precisam ser derrubadas para dar significado ao
ajudá-las. O fato é que mesmo com estas per- que foi verificado (i. e. estabelecer a causalida-
turbações, elas conseguiram chegar ao formi- de correta).
gueiro. Outra pessoa poderia questionar a inter-
pretação dizendo
que as formigas
poderiam ter se
orientado com base
no eixo magnético
da terra, utilizando
uma “bússola” inter-
na. Ele poderia ter
respondido que esta
possibilidade não
pode ser excluída,
mas que não parece
razoável, pois já foi
demonstrada a ca-
pacidade de orien-
tação por referenci-
ais espaciais em
outros himenópte-
ros, mas nunca foi
demonstrada a ca-
pacidade de orien- Figura 4.2- Duas formas de contrastar hipóteses. O método hipotético dedutivo pode utilizar
tação magnética em ambas, primeiro uma fase de julgamento competitivo para selecionar uma hipótese de trabalho
e depois um julgamento centrado no qual a hipótese de trabalho é contrastada com outras
insetos. hipóteses
51
Na realidade, o processo completo de teste de

hipóteses frequentemente se inicia com a esco-
lha da hipótese de trabalho com base em um
Método Hipotético Dedutivo de Julgamento
Competitivo. Veremos que há um risco em cada
teste de hipótese por julgamento centrado, de
forma que uma seleção preliminar de hipóteses
relevantes e objetivas é parte essencial do pro-
cesso de pesquisa.
4.2 Estabelecendo hipóteses de

trabalho
A estratégia mais utilizada de método hipotético uma simpática velhinha. Nesta fase, é difícil
dedutivo na pesquisa científica separa a solu- colocar regras, pois até descobertas casuais
ção do problema em duas etapas, antes e de- podem ser vitais. Entretanto, certamente há
pois da formulação da hipótese de trabalho. diretrizes de ações, como entrevistar conheci-
Conscientemente ou não, os pesquisadores dos da vítima, recolher materiais da cena do
costumam utilizar Julgamento Competitivo na crime, etc., juntando peças até começar a se
primeira fase e Julgamento Centrado na segun- formar um quadro. Em situações complexas, é
da. importante começar com a mente aberta para
qualquer possibilidade razoável e submetê-las a
Este processo é utilizado na solução de crimes. o processo de competição de hipóteses, como
A princípio, qualquer habitante da terra poderia em um campeonato para ver o melhor time,
ser o culpado de um determinado assassinato frequentemente com diferentes etapas até che-
(= bilhões de hipóteses). Não podemos julgar o gar ao suspeito qualificado (ou grupo suspeito
mundo inteiro, por isto precisamos de uma in- que trabalhou junto). Normalmente ainda existe
vestigação para chegar a um suspeito ou a um uma fase adicional para verificar a suficiência
grupo de suspeitos que trabalhou junto para de evidências antes de se levar o suspeito a
realizar o crime (= 1 hipótese de trabalho). De- julgamento.
pois, há uma busca de evidências que apoiem a
hipótese e então o caso é levado a julgamento. O mesmo se aplica à pesquisa. Como apontou
No momento do julgamento nós nos concen- o filósofo da ciência Karl Popper, “não importa”
tramos em uma única pessoa ou grupo de pes- como você chega à sua hipótese. O importante
soas que poderia ter trabalhado junto para reali- é a nossa disposição em submetê-la a “testes”
zar o crime. Reduzimos bilhões de hipóteses a (contrastes) e que estejamos dispostos a colo-
apenas duas: os réus são culpados ou os réus cá-la de lado se a evidência contrária for forte.
são inocentes. (como ocorre em um tribunal). Quando Popper
disse que “não importa”, significa apenas que
A fase da determinação de qual é o principal não há uma regra obrigatória, a fase de chegar
suspeito de cometer um crime pode ser tão à hipótese de trabalho é extremamente impor-
simples que acontece inconscientemente ou tão tante, e há diretrizes. É preciso refletir muito,
complexa que nem conseguimos chegar a um pois nem toda hipótese justifica um financia-
suspeito qualificado. Nossa mente possui me- mento ou o investimento em tempo. É necessá-
canismos de escolha tão rápidos que, em algu- rio selecionar hipóteses relevantes e coerentes.
mas situações, você nem percebe que fez uma
escolha. Certamente nossa primeira opção re- Ao definir uma hipótese de trabalho, automati-
cairá antes em uma pessoa agressiva do conví- camente definimos duas hipóteses: ela mesma
vio da vítima que na possibilidade de ter sido e a hipótese complementar que ela está errada,
52
(mesmo se a previsão se realizar) que chama-

remos de “Hipótese da Negação” ou HN. Há
uma diferença entre as duas, a hipótese de
trabalho é uma hipótese autônoma, isto é, per-
mite previsões por si só (e. g. As formigas con-
seguem retornar ao ninho por referências espa-
ciais). Por outro lado, a HN só pode “prever”
que a hipótese de trabalho vai se mostrar insa-
tisfatória em algum momento quando conhe-
cermos mais o fenômeno, o que é muito vago
(Se as formigas chegaram ao ninho, o motivo
não foi a capacidade de utilizar as referências
espaciais). Não podemos contrastar hipóteses
se não há previsões autônomas a se contrastar. so, pode contratá-la. Alguém dirá: “Por que
No entanto, podemos dividir a HN em cinco perder tempo com este teste se já há vários
hipóteses autônomas: a Hipótese da Inflação de registros ‘confiáveis’ de pessoas que previram
Testes, a Hipótese da Medida Inapropriada, a coisas que resolveram crimes; estes registros
Hipótese de “Outras Causas”, a Hipótese da não bastam para provar a existência da mediu-
Falha de Representatividade e a Hipótese do nidade?” O problema é que estes registros não
Acaso (Fig. 4.2). teriam se tornado registros se a adivinhação
não fosse correta, teriam caído no esquecimen-
4.3 Controlando a inflação to, de forma que não sabemos a taxa de fracas-
so. Imagine que milhares de pessoas fazem
Por que uma seleção preliminar de hipóteses centenas de previsões ousadas. Fatalmente
relevantes e objetivas é parte essencial do pro- algumas destas previsões serão corretas. Por
cesso de pesquisa? Por que não sair por ai isto, não basta te mostrarem alguns registros
coletando dados simplesmente e depois ver impressionantes, isto não prova nada. Não dá
aonde chegamos? Seria apenas uma questão para confiar porque sabemos que houve uma
de custo do processo de testar muitas hipóte- inflação de testes. Nossa estatística intuitiva é
ses? Acontece que as argumentações a favor fraca para lidar com alguns tipos de cálculos de
de hipóteses de trabalho se baseiam na proba- probabilidade e há coisas em que queremos
bilidade de hipóteses concorrentes. Algo impro- acreditar ignorando o razoável. Por que pesso-
vável é algo raro, mas não algo impossível, as com alegadas capacidades extrassensoriais
senão nem seria testado. O problema é que a nunca decidem quebrar a banca dos cassinos
observação ou um resultado raro não prova ao invés de tentar nos convencer dos seus po-
nada se não soubermos quantas outras obser- deres? Tomamos decisões com base em pro-
vações ou testes foram feitos para se chegar a babilidades isoladas, mas tudo muda quando
este resultado “raro”. Vamos entender isto ana- temos muitos testes. As observações do passa-
lisando dois exemplos. do são úteis para levantar hipóteses (e. g. de
possíveis médiuns), mas devem ser vistas com
Podemos analisar cientificamente se pessoas muita desconfiança como provas se não tiver-
com alegadas capacidades extrassensoriais mos informações adicionais suficientes.
podem ajudar na solução de crimes? Claro que
sim. Chame a pessoa que diz ter estes poderes, Na bolsa de valores há corretores que são con-
escolha um crime não resolvido aleatoriamente siderados geniais com base na proporção das
e peça para ela predizer com precisão onde ações que eles recomendaram e que tiveram
está um corpo desaparecido. Se ela conseguir lucros excepcionais, e eles são contratados com
prever que o corpo está enterrado do lado do salários milionários. Será que eles valem estes
terceiro pinheiro à esquerda da caverna do ur- salários ou são simplesmente os ganhadores na
53
loteria das bolsas? Estudos mostraram que,

depois dos sucessos excepcionais, estes corre-
tores “brilhantes” não tinham mais sucesso que
corretores medianos. Não percebemos isto
porque nossas convicções que o sucesso está
ligado à competência são tão fortes que nos
cegam para perceber que muitas vezes o su-
cesso é fortemente influenciado pelo acaso.
Resultados extremamente positivos são evidên-
cia de competência, mas a evidência torna-se
fraca se o número de tentativas for elevado.
Achamos que alguns corretores são brilhantes
com base em seus resultados extremamente
positivos porque esquecemos que há milhares ainda antes da coleta de dados com base em
de corretores realizando milhões de operações procedimentos preventivos e na razoabilidade.
durante anos.
Vimos na seção anterior como eliminar ou mi-
A inflação de testes certamente é principal cau- nimizar a hipótese da inflação de testes com o
sa de falsas evidências não intencionais publi- procedimento preventivo de escolher bem as
cadas na ciência. Muitas pessoas acham que o hipóteses que vamos testar.
uso de estatística as torna imunes ao risco dos
cometer estes erros. Trata-se de um problema A hipótese de medida inapropriada tem a previ-
real que não recebe a atenção devida em cur- são: a calibragem do instrumento ou método
sos de metodologia. A principal forma de anu- está errada e os valores estão fora do padrão
lamos ou minimizamos a hipótese da inflação (sem acurácia). Se esta verificação for feita
de testes é dividir o problema em duas fases depois da coleta de dados, e um erro for consta-
(Julgamento Competitivo e Julgamento Centra- tado, possivelmente o melhor seja descartar os
do). Evitamos uma inflação de testes deixando dados. Entretanto, naturalmente é melhor des-
para a segunda fase apenas uma hipótese mais cartar a hipótese com o procedimento de cali-
relevante a ser testada (ou minimizamos com bração regular de instrumentos e de métodos e
poucas hipóteses). A hipótese da inflação de verificando que as atribuições de valores nomi-
teses é um complemento da hipótese do acaso. nais ou ordinais não é tendenciosa. Erros de
Se você ficar testando muitas possibilidades, precisão não entram na hipótese de Medida
você vai distorcer no conjunto o significado de Inapropriada porque não são tendenciosos.
cada teste individual. Uma pesquisa não precisa
se restringir a uma hipótese de trabalho. Pode A hipótese das outras causas tem uma previsão
haver várias questões e hipóteses envolvendo o vaga: algum fator tornou-se uma variável de
tema em estudo, mas é importante restringir os confundimento levando ao estabelecimento de
testes a hipóteses relevantes para não escolher uma relação espúria (estudos bi ou multivaria-
apenas os resultados significativos. Voltaremos dos). Embora a previsão seja vaga, esta incer-
a este assunto quando abordarmos testes múl- teza pode ser eliminada em estudos experimen-
tiplos no capítulo 7. tais, pois todas as potenciais variáveis de con-
fundimento pré aleatorização são descartadas
4.4 Descartando hipóteses com no procedimento de aleatorização da atribuição
de tratamentos por unidade amostral (seção
procedimentos 3.8). Portanto, a menos que seja cometido al-
gum erro depois do estabelecimento de trata-
As hipóteses da inflação de testes, da medida
mentos, a Hipótese de outras causas é automa-
inapropriada, das outras causas e da represen-
ticamente eliminada. Em estudos amostrais a
tatividade frequentemente são “derrubadas”
54
situação é bem mais complexa e será tratada não poderia ter sido porque você usou uma
no Capítulo 6. medida inapropriada?” R: A medida foi um “sim”
ou “não” para o retorno das formigas, não há
A previsão da hipótese de falha de representati- como se enganar com o significado da medida.
vidade também é um pouco vaga: A amostra Q3) “Mas este resultado pode ser considerado
obtida no estabelecimento de um parâmetro não representativo para a espécie?” R. Nunca se
representa bem o Universo Amostral de forma pode ter certeza absoluta que todas as formigas
que a conclusão com os dados do estudo não desta espécie tenham esta capacidade, mas é
pode ser generalizada para a população de muito mais razoável esperar que este compor-
interesse. Normalmente, isto se torna um pro- tamento extremamente adaptativo seja comum
blema com amostras com unidades amostrais na espécie do uma mutação casual justamente
agrupadas em uma situação de variações nos na colônia escolhida para a pesquisa. Q4) “Mas
valores da variável em estudo não distribuídas o retorno das formigas não poderia ser por outro
homogeneamente no espaço e/ou no tempo. A motivo?” R: Antes do trabalho imaginamos al-
melhor forma de lidar com isto é a busca de gumas possibilidades: a) achar formigas na
unidades amostrais escolhidas aleatoriamente colônia que fossem de outro grupo ou até inva-
em toda a população estatística em considera- soras, por isto marcamos as formigas; b) pen-
ção, mas ainda há outras técnicas válidas con- samos que as formigas poderiam encontrar
forme a situação (seção 3.7). Infelizmente, nem trilhas químicas antigas ao redor da colônia, por
sempre isto é possível. Há situações em que se isto trocamos o solo de todo o entorno. Q5)
pode descartar esta hipótese por razoabilidade, “Mas as formigas não poderiam ter achado a
mas, principalmente em estudos com hipóteses colônia por sorte?” R. Esta opção nunca pode
univariadas, é necessário levar esta hipótese ser totalmente eliminada, entretanto, conside-
muito a sério. rando o velocidade do deslocamento das formi-
gas, a distância de 100 m e o pequeno tamanho
A hipótese do acaso tem a previsão que as da entrada do formigueiro, avaliamos que esta
coisas saíram dentro do esperado pela hipótese probabilidade seria muito menor do que uma em
de trabalho por mero acaso. Como derrubar 1000.
uma hipótese destas? Qual é concretamente a
previsão? Eventualmente ela pode ser descar- Vejamos outro exemplo com as mesmas formi-
tada por razoabilidade, como no exemplo das gas no qual a hipótese do acaso será derrubada
formigas do início do capítulo. Na próxima se- a partir de um cálculo de probabilidade. O cálcu-
ção veremos como a hipótese do acaso pode lo de probabilidade será tratado na próxima
ser descartada estatisticamente e que a previ- seção, mas vamos explorar aqui as hipóteses
são é um modelo matemático de frequências descartadas por procedimentos.
esperadas específico para a situação em análi-
se. Nosso amigo biólogo percebeu que as formigas
são muito mais comuns em solo argiloso, embo-
Para resumir o descarte de hipóteses com pro- ra tanto este solo como o solo arenoso sejam
cedimentos preventivos, vamos ver como ele comuns na floresta onde elas ocorrem. Possi-
funcionou no exemplo das formigas. O biólogo velmente a formiga não seja capaz de diferenci-
que estudou formigas planejou seu estudo de ar entre tipos de solo e simplesmente é mais
forma a não tropeçar em questões do tipo: abundante onde encontra mais alimentos e
“...mas não poderia ter sido...”.. Ele se preparou menos inimigos naturais. Por outro lado, se ela
para ser questionado de várias formas: Q1) “... sobrevive e se reproduz mais em um tipo de
mas não poderia ter sido porque você realizou solo, seria vantajoso se ela tivesse a capacida-
muitos testes e apenas nos está mostrando de de evitar o outro tipo de solo. Então ele deci-
aquele que deu positivo?” Resposta: Não, eu só diu testar a hipótese que as rainhas jovens es-
realizei este teste durante o estudo. Q2) “Mas colhem o tipo de solo onde fundam suas colô-
55
nias. Sua previsão é que rainhas jovens levadas temos que pensar como uma mudança de com-
ao laboratório e mantidas em arenas com solo portamento afetaria o resultado do trabalho.
argiloso de um lado e arenoso do outro escava- Possivelmente a formiga ficasse mais ativa, ou
rão com maior frequência o primeiro tipo de menos ativa. Possivelmente deixe de se preo-
solo. cupar em escolher solo quando está estressada
em cativeiro. Entretanto, não é uma previsão
Com relação à medida, veja que não estamos razoável supor que a formiga fosse incapaz de
medindo preferência diretamente (não podemos perceber o solo na natureza e começasse a
entrevistar as formigas). Entretanto, se houver perceber quando estivesse sob estresse em
preferência por um tipo de solo, é razoável as- cativeiro. Portanto, se as formigas não diferirem
sumir que a frequência de escolha por um tipo no solo utilizado para escavar, o resultado é
de solo possa ser utilizada como uma medida inconclusivo, pois não podemos saber se foi um
de preferência, desde que não haja interferência efeito de mudança comportamental. Entretanto,
de outra variável nesta escolha do solo (como se uma diferença fosse encontrada, ela não
veremos adiante). poderia ser associada a um efeito do cativeiro
sobre a preferência.
Com relação à representatividade, não temos
validação externa de amostragem porque cole- Restou apenas uma hipótese a descartar: A
tamos rainhas jovens apenas de uma área. maior frequência de escavações no solo argilo-
Entretanto, podemos argumentar que temos so não poderia ter ocorrido por mero acaso?
validação externa por razoabilidade. No caso de
um resultado positivo, é mais razoável esperar 4.5 Descartando a hipótese do acaso
que este comportamento adaptativo seja co-
mum à espécie do uma mutação restrita à popu- A forma mais tradicional de derrubar estatisti-
lação da área da coleta. Raramente temos vali- camente a hipótese do acaso é chamada de
dação externa de amostragem em estudos eco- Teste de Significância de Hipótese Nula.
lógicos. É preciso avaliar a razoabilidade de (TSHN) (Wood, 2012). A abordagem parte do
uma validação externa conforme o caso, e lem- princípio que os problemas na obtenção de
brar que razoável não significa certo. Por outro dados discutidos anteriormente foram todos
lado, ainda que o comportamento não esteja eliminados por procedimento (a amostra é re-
presente em toda a espécie, encontrá-lo em presentativa, a medida foi apropriada, não hou-
uma população não deixa de ser interessante. ve inflação de testes e o desenho amostral ex-
clui a possibilidade de variáveis de confundi-
Com relação à hipótese de outras causas, foi mento). Portanto, se o observado coincide com
levantada a possibilidade da disposição dos o previsto pela hipótese de trabalho, restam
tipos de solo no laboratório interferir no resulta- apenas duas opções: a hipótese de trabalho
do. A escolha do solo poderia ser influenciada está certa ou a coincidência ocorreu por mero
por sons e movimentos na proximidade do labo- acaso. Neste ponto entra a característica mar-
ratório. Ainda que houvesse pouco som e mo- cante do TSHN: o cálculo da probabilidade do
vimento, não podemos excluir a possibilidade obtido ter ocorrido por acaso e a comparação
das formigas serem bastante sensíveis a eles. desta probabilidade com um valor limite pré-
Por isto, a disposição dos tipos de solo foi de- definido.
terminada aleatoriamente.
A Hipótese Nula, geralmente simbolizada como
Alguns fatores não podem ser eliminados, mas Ho, é normalmente a negação de uma hipótese
ainda assim não comprometem a interpretação de trabalho afirmativa prevendo diferenças. Por
do resultado. Por exemplo, é razoável supor exemplo, se sua hipótese de trabalho é que há
que o comportamento das formigas seja afetado um efeito de certo tratamento sobre uma variá-
pelo fato de estarem em cativeiro. Entretanto, vel resposta (e você prevê diferença entre tra-
56
tamento e controle), a hipótese nula é que não

há. A hipótese nula é uma ideia que se trans-
forma em um modelo matemático. Você faz de
conta que ela é verdadeira, considera as carac-
terísticas dos dados da sua amostra e calcula
probabilidades esperadas. Podemos calcular a
probabilidade esperada de 8 de 10 plantas te-
rem alto crescimento no tratamento contra 2 de
10 no controle quando não há efeito de trata-
mento (hipótese nula de proporções iguais;
P<0.01- para diferenças iguais ou mais extre-
mas; teste de 2 proporções de duas caudas).
Não se preocupe agora como se chega a estas
probabilidades, o que importa é entender que a
previsão da hipótese nula são valores de fre- muito importante e funciona muito bem em di-
quência esperados para cada resultado possí- versas circunstâncias. Pode até ser bastante
vel. É possível rejeitar uma hipótese nula quan- precisa, por exemplo, acreditamos que a chan-
do a probabilidade encontrada for muito baixa, ce de cair “cara” é de 50% principalmente por
mas não podemos provar que a hipótese nula intuição, pois uma moeda tem dois lados prati-
está correta, isto é, garantir que o efeito foi unicamente iguais. Em situações de emergência e
camente por acaso, mesmo com um valor alto em condições especiais podemos utilizar a intu-
de probabilidade (seção 4.6). O TSHN é uma ição. Entretanto, a intuição pode ser muito sub-
abordagem apropriada quando a hipótese de jetiva e incerta. Há outra forma. Pedir para esta
trabalho é afirmativa. Entretanto, uma hipótese pessoa jogar as moedas algumas vezes e “cal-
de trabalho pode ser negativa e prever uma cular a probabilidade com base nos resulta-
semelhança, como quando temos a hipótese dos”. Quando fazemos isto, não estamos cal-
que certo remédio genérico tem um efeito equi- culando a probabilidade dela ter a habilida-
valente a outro remédio de marca ou quando de, mas dos dados apoiarem a hipótese que
sua hipótese é que duas espécies com compor- ela tem quando na realidade não tem. Então
tamentos diferentes consomem proporções você pede a ele que mostre.
semelhantes de um tipo de presa, quando estu-
A pessoa te mostra que a moeda tem “cara” e
dos anteriores sugerem que a dieta neste caso
deveria ser muito diferente. Nesta situação há coroa (descartando a hipótese de moeda com
duas caras). A moeda dá várias voltas no ar e
abordagens melhores que o TSHN (seção 4.7).
cai com a face “cara” para cima. Você sorri, mas
A abordagem TSHN é poderosa a ponto de não se convence. Você sorri porque pensa que
“provar o improvável”. Se uma pessoa disser deve ser uma coincidência, mas não se con-
que desenvolveu a habilidade de controlar a vence porque não é uma coincidência tão im-
forma de jogar a moeda para cair cara, você provável para te impressionar. Você não acredi-
desconfia. Qual é a probabilidade dela realmen- ta que uma pessoa possa ter tanta habilidade
te ter a habilidade? Posso achar improvável para contar o número de voltas e parar a moeda
porque nunca ouvi falar que alguém pudesse do lado escolhido. Trata-se de uma hipótese
fazer isto e porque a precisão necessária ao que parece muito improvável com base no seu
jogar uma moeda e obter uma face escolhida conhecimento cotidiano. Entretanto, ela lança a
parece além da capacidade humana. Também moeda mais vezes e continua acertando. Você
posso achar provável porque conheço a pessoa para de sorrir e começa a ficar cada vez mais
e sei que ela é hábil e não mentiria para mim. impressionado (a) a cada novo acerto. E depois
Esta probabilidade calculada “sem dados”, deri- de 10 lances você mudou de ideia, abandonou
vada de informações inerentes à situação é a hipótese do acaso completamente e está intei-
57
ramente convencido que a pessoa possui a tal cia de algum efeito de habilidade? Chega de
habilidade. É verdade que não se pode descar- moedas, passemos para um exemplo biológico.
tar totalmente a hipótese do acaso, mas a Voltemos ao experimento de preferência de
chance de acertar 10 vezes seguidas por acaso solos pelas formigas para analisar a evidência a
é menor que uma em 1.000 (Tab. 4.1). Embora partir de frequências.
a habilidade de controlar o lance de moeda seja
impressionante, é menos impressionante do A pergunta no estudo da preferência das formi-
que acertar um número em mil na primeira ten- gas não é se elas sempre vão escavar o lado do
tativa. Se uma hipótese de trabalho estiver cer- solo argiloso, mas se tendem a escavar o solo
ta, quanto mais informação obtiver, maior será o argiloso com maior frequência do que o espera-
acúmulo de informação contrária à hipótese do do pela hipótese nula. Suponha que tenhamos
acaso. É importante entender este conceito, que realizado o experimento com 8 rainhas jovens e
é a base do processo de rejeição do TSHN. tenhamos obtido 5 (62,5%) que escavaram em
(Não se preocupe com as fórmulas matemáticas solo argiloso e 3 (37,5%) que escavaram em
que eventualmente apareçam no texto, como na solo arenoso. O esperado, supondo que não
Tab. 4.1 e no Quadro 4.1, mais importante é haja preferência por solos, seria que 50% das
entender o processo.) formigas escavariam em solo arenoso e a outra
metade em solo argiloso. O resultado obtido foi
A situação foi colocada de forma muito rigorosa na direção da previsão da hipótese de trabalho.
na Tabela 4.1, a pessoa teria de acertar todas O problema é que esta diferença também é
as vezes. Mas e se ela errar de vez em quan- compatível com a hipótese nula. No quadro 4.1
do? Digamos que acerte 19 de 20 jogadas. realizamos o cálculo de probabilidade para a
Ainda é convincente que ela tem a habilidade. mesma diferença percentual com tamanhos
Mas e se ela acertar 70%? E se ela acertar amostrais diferentes. O que vemos é que a
55%? Certamente seria algo bem menos con- probabilidade de se obter a mesma proporção
vincente, mas pelo menos serve como evidên- de formigas escavando em solo argiloso sem ter
escolhido este solo (isto é, ao acaso) vai dimi-
Número de acertos nuindo até valores absurdamente improváveis.
seguidos Probabilidade E quando a probabilidade do resultado ocorrer
ao acaso é muito pequena, ela é descartada.
1 0.5
2 0.25
3 0.125
4 0.0625
5 0.03125
6 0.015625
7 0.0078125
8 0.00390625
9 0.001953125
10 0.000976563
Tabela 4.1 Sabemos intuitivamente que a probabilidade

de acertar ao acaso vários lances seguidos de moeda
diminui com o número de lances, mas normalmente
subestimamos o quanto um resultado é improvável. A
matemática é uma ferramenta essencial para avaliações
precisas e objetivas. Neste caso, a probabilidade é calcu-
lada pela fórmula P= 1/(2)n..
58
4.6 Nível de significância e tipos de rar o valor da probabilidade calculada no teste.

erros.
Como interpretar o valor da probabilidade calcu-
Vimos que a hipótese nula é rejeitada quando lada (P) em um teste de significância da hipóte-
obtemos um valor baixo de probabilidade com se nula? Vimos que um valor baixo de “P” é
base nos dados obtidos. Isto naturalmente nos uma evidência contrária à hipótese nula. Pode-
leva a uma questão prática: qual é o valor de mos ir mais longe, quanto mais próximo de zero
referência abaixo do qual podemos rejeitar a for o valor de “P”, mais forte é a evidência con-
hipótese nula? tra a hipótese nula (Fig. 4.3). Para entender
esta relação, faremos uma analogia com uma
Não existe um valor mágico universal que sepa- prova de alternativas. Como nos testes de hipó-
re meros indícios de evidência segura, a ideia teses nulas, em uma prova com alternativas
de definir um valor é que regras objetivas preci- sempre existe um componente de “sorte” (alea-
sam ser definidas “antes do jogo” (o termo téc- toriedade). Uma pessoa que acertou a metade
nico é “a priori”). O valor limite pré-determinado das perguntas em uma prova do tipo “verdadei-
de uma probabilidade para um teste de hipótese ro ou falso” não demonstra nenhum conheci-
nula é chamado Nível de Significância, e é mento, pois este é o esperado de acertos por
representado pela letra grega α (alfa). Os valo- mero acaso. Portanto, só temos indícios de
res mais utilizados são 0,05; 0,01 e 0,001, de- conhecimento acima de 50% de acerto. Mesmo
pendendo do grau de rigor que se quer assumir. um acerto de 60 a 80% pode acontecer só por
Algo parecido acontece quando determinamos a acaso em uma prova com poucas questões.
nota mínima de aprovação em um curso, que Uma pessoa até poderia acertar 100% das
pode ser 5, 6 ou 7. Seja qual for o grau de exi- questões por pura sorte em uma prova com 5
gência, ele precisa ser estabelecido antes de questões, mas isto seria praticamente impossí-
começarem as avaliações. Por outro lado, isto vel em uma prova com 50 questões.
não significa que vamos nos
preocupar apenas com a
aprovação. Uma nota 4,5
significa reprovação, mas é
interessante saber que o
aluno não estava longe do
limite. Uma nota Dez signifi-
ca aprovação, mas é uma
aprovação bem mais segura
do que um 5,0. Em síntese,
devemos utilizar critérios
definidos antecipadamente
para decidir pelo sim ou pelo
não, mas não devemos igno-
Quadro 4.1 Probabilidade calculada pelo método χ2com base no obtido (O)– o
esperado central (E). .
59
E quanto aos valores altos de “P”? Voltando à mos os valores arbitrários 0,05; 0,01 e 0,001,
analogia, qual seria a interpretação para a prova mas como escolher entre eles? A decisão sobre
de uma pessoa que errou mais que 50% das o Nível de Significância a se adotar depende do
questões? A princípio, significa duas coisas: a custo dos dois tipos de erro que podemos co-
pessoa não tem nenhum conhecimento e ainda meter e da urgência na decisão (Tab. 4.2- ao
teve algum azar. Considerando que qualquer final do capítulo) (e de outra consideração que
um pode ter azar, até quem tem algum conhe- será abordada na seção 4.7). Ao tomar uma
cimento e acertou 50%, uma nota abaixo de decisão estatística, os dois tipos de erro que
50% é um indício mais forte de ausência de podemos cometer são o Falso Positivo, ou
conhecimento que exatamente 50% de acerto, Erro Tipo I, que consiste em rejeitar a hipótese
entretanto, não é indício de conhecimento nega- nula quando ela é verdadeira e o Falso Negati-
tivo, pois isto não existe. Agora uma nota pró- vo, ou Erro Tipo II, que consiste em aceitar a
xima de 100% de erro seria algo muito estra- hipótese nula quando ela é falsa. Nas situações
nho. Se o número de questões for grande, po- em que a prudência exige não aceitar uma mu-
demos até suspeitar que a pessoa sabia tudo e dança de posição sem forte evidência favorável
errou propositalmente. É interessante verificar a à decisão, a prioridade é evitar o Erro Tipo I,
possibilidade de alguma anomalia deste tipo como em tribunais e na maioria das situações
quando temos valores muito altos de P (como de pesquisa. Nas situações em que a prudência
P>0,95). Entretanto, em geral, simplesmente é exige uma ação preventiva, ainda que a evidên-
um acaso que acontece quando estamos fa- cia favorável seja fraca, a prioridade é evitar o
zendo muitos testes. Erro Tipo II, como quando vigias ouvem um
barulho estranho, ou quando uma criança chega
Entender o significado do valor de “P” não impli- ao hospital com suspeita de intoxicação. E há
ca em abrir mão de definir a priori valores limi- situações em que os dois tipos de erro seriam
tes para tomada de decisões. É razoável usar- graves, como ao se decidir sobre o resultado de
a) Peso da evidência
contra a Hipótese Nula b) Analogia
(prova de 100 questões de
Nível de aprendizado
Muito Forte Muito Alto
Alto “Verdadeiro ou Falso”)
Evidência contra Ho
Forte Médio
0
Média Negativo?
0 50% 100%
Erros
0
Negativa?
0 0.05 0.5 1
0.001 0.01
Probabilidade calculada (“P”)
Figura 4.3 A probabilidade calculada em um teste estatístico serve como medida do peso da evidência contrá-
ria à Hipótese Nula. Quanto menor o valor de “P”, maior a evidência contrária à Hipótese Nula. Valores in-
termediários de “P” indicam situação indefinida e valores muito altos são “estranhos”. Ver a explicação no
texto com uma analogia com uma prova com alternativas do tipo “verdadeiro ou falso”.
60
um exame sobre uma doença muito séria quan- A tabela 4.3 resume estas possibilidades.
do há indícios de positividade. Podemos ver na
tabela 4.2 como a análise e a ação de proces- Basicamente, queremos evitar erros. Uma for-
sos decisórios dependem da importância de ma de evitar erros de decisão é obter mais in-
cada tipo de erro e do tempo (etapas, oportuni- formação relevante. Há técnicas (subutilizadas)
dades) que temos para obter mais dados. As de amostragem até atingir critérios de decisão
situações mais comuns na pesquisa estão em (e. g. amostragem sequencial). Entretanto, o
destaque na tabela. Abordaremos unicamente mais comum é que a informação seja limitada
estas situações neste livro, mas é importante (por tempo, dinheiro ou porque todas as pistas
termos consciência que estes métodos não são foram exaustivamente exploradas). A forma de
os mais apropriados em outras situações, inclu- agir neste caso depende da prioridade que da-
sive de pesquisa. Vamos analisar mais profun- mos em evitar o Erro Tipo I e em evitar o Erro
damente os dois tipos de erro com ênfase na Tipo II. Ao assumir como premissa a inocência
situação mais comum na pesquisa, mas ilus- do réu, estamos dando prioridade em evitar o
trando com o funcionamento do processo deci- Erro Tipo I. A única forma de evitar o Erro Tipo I
sório em um tribunal. de forma absoluta seria decidir pela inocência
sem julgamento e independente de provas, o
Um assassino solto é algo ruim e deve ser evi- que não é aceitável. Infelizmente, sabemos que
tado. Entretanto, um inocente preso por assas- alguns inocentes serão presos, mas pelo menos
sinato é algo mais grave. Por que assumir que a podemos reduzir esta probabilidade a uma pos-
inocência de uma pessoa tem prioridade sobre sibilidade remota ao dar ampla chance de defe-
o risco para resto da população? Parece estra- sa e conservadorismo em aceitar provas. A
nho, mas esta foi a conclusão de um longo pro- chance de Erro Tipo I é limitada a priori pelo
cesso civilizatório. Acontece que crimes costu- princípio da inocência, e quanto mais rigorosos
mam deixar pistas e é bom lembrar que um dia formos em evitar a chance de erro tipo I, maior
poderíamos ser nós mesmos em um banco de a chance de um erro do tipo II. Portanto, cabe
réus. Enfim, a regra é que toda pessoa deve ser ao promotor a responsabilidade de obter infor-
considerada inocente até que haja uma evidên- mação suficiente, de forma a evitar a chance de
cia realmente convincente de que ela é culpada. Erro Tipo II.
Entretanto, por melhor que seja a justiça, ela
nunca será perfeita e há quatro resultados pos- Ao propor uma hipótese de trabalho, fazemos
síveis em um julgamento: 1) podemos mandar previsões que algo acontecerá de certa forma.
prender uma pessoa inocente (injustiça); Entretanto, o fato disto acontecer não significa
2) Podemos mandar prender um assassino; nada se o previsto puder acontecer por outras
3) Podemos libertar uma pessoa inocente e razões ou ao acaso. Vimos nas primeiras se-
4) podemos libertar um assassino (impunidade). ções do capítulo que precisamos tomar algumas
atitudes preventivas para excluir hipóteses con-
Realidade Î
Inocente Culpado Realidade Î
Decisão Ð H0 Verdadeira H0 Falsa
DecisãoÐ
Decisão Decisão
Culpado Injustiça Rejeita H0 Erro tipo I
Correta Correta
Decisão Decisão
Inocente Impunidade Aceita H0 Erro tipo II
Correta Correta
Tabela 4.3 Decisões e tipos de erros em um tribunal.. Tabela 4.4 Decisões e tipos de erros na pesquisa..
61
correntes, mas ainda resta avaliar se as previ- 4.7 Considerações complementares

sões poderiam ser obtidas por mero acaso. Na
analogia com o tribunal, é como se a hipótese Nas seções anteriores vimos o essencial sobre
nula fosse o réu. A princípio, a hipótese nula testes de hipóteses, mas restaram vários aspec-
deve ser considerada verdadeira até a prova do tos adicionais importantes que serão tratados
contrário, de forma a evitar o Erro Tipo I. Cabe nesta seção.
ao pesquisador obter informações suficientes
para derrubar a hipótese nula. a) adequando “alfa” à questão.
Uma diferença entre o tribunal e a pesquisa é Vimos na seção anterior que o valor de “alfa”
que nesta muitas vezes podemos definir a (Nível de Significância) é definido ao início do
chance de Erro Tipo I de forma quantitativa. O estudo normalmente em valores tradicionais de
Nível de Significância (ou “alfa”) é a chance de 0,05 ou 0,01 ou 0,001. Há algum critério para
Erro Tipo I que estamos dispostos a aceitar, um escolhermos um destes valores? Sim, depende
grau de rigor que se estabelece a priori. Na se sua hipótese de trabalho é esperada, ousada
pesquisa, o mais comum é se utilizar um ou muito ousada. Testes com hipóteses de tra-
α=0,05, que significa que aceitamos cometer balho tidas como quase certas normalmente
um Erro do Tipo I para cada 20 testes em que a tem uma função de apenas comprovar algo,
hipótese nula era verdadeira. É como aceitar podemos dizer que a hipótese nula está em um
mandar uma pessoa inocente de cada 20 ino- grupo de “alto risco” de ser rejeitada. Uma hipó-
centes que a gente julgar. Se utilizarmos um tese de trabalho ousada é bem mais incerta, e
α=0,01, é como se estivéssemos mandando um está em um grupo de “risco intermediário” e
inocente para cadeia de cada 100 inocentes uma hipótese muito ousada tem um “risco bai-
julgados. Este nível é aceitável para a pesqui- xo” de ser rejeitada. Com base nisto, devería-
sas, mas não é aceitável na justiça. As provas mos utilizar respectivamente 0,05; 0,01 e 0,001
em um tribunal devem ser mais contundentes, a como Níveis de Significância para cada um
chance de mandar um inocente para cadeia destes casos. Para entender por que, veja como
deveria ser inferior a 1:1000. Não confunda, um devemos interpretar resultados de exames con-
α=0,01 não significa que vamos cometer um siderando o grupo de risco (Mlodinov 2008).
erro a cada 100 julgamentos, pois em muitos
julgamentos o réu era realmente culpado. O fato Suponha que a probabilidade de um falso posi-
de muitos julgamentos terminarem em conde- tivo em um exame de AIDS tenha sido estabe-
nação reflete principalmente a obrigatoriedade lecida em 0,7%. O que significa isto? Que qual-
de indícios fortes de culpa antes de se levar um quer pessoa que receber um resultado positivo
réu a julgamento. tem apenas 0,7% chance dele estar errado?
Não, ao contrário do que muita gente pensa.
O que foi descrito acima é uma postura comum Acompanhe este raciocínio. Duas pessoas re-
na pesquisa, estabelecemos um limite para o cebam um resultado positivo em um exame de
Erro Tipo I, mas não para o Erro Tipo II, apenas AIDS, a primeira pertence a um grupo de risco
tentamos obter informação suficiente para dimi- (usuário de drogas que não pratica sexo seguro
nuir a chance que ele ocorra. Veremos adiante em uma metrópole com alta incidência de
como estabelecer o valor do Nível de Signifi- AIDS), e a segunda não pertence ao grupo de
cância (Alfa) e depois voltaremos a situações risco. Imagine que no grupo de risco a incidên-
em que o Erro Tipo II deve ser considerado na cia de AIDS seja de 1/10, enquanto no grupo de
análise. baixo risco ela seja de 1/10.000.
Milhares de pessoas fazem exames de AIDS.

Quantos são os falsos positivos de cada grupo?
Considere 10.000 pessoas no caso do grupo
62
com incidência 1/10, teremos 1000 positivos e (Outra questão relacionada a ajustes no valor
9000 negativos. Dos 9.000 negativos, 0.7% (63) de alfa será discutida no capítulo 7).
terão falsos positivos. Portanto, a chance deste
“positivo” ser realmente um positivo é de Hipóteses ousadas não devem ser evitadas,
1000/(1000+63) isto é, 94%. Agora considere pois muitas vezes marcam revoluções na ciên-
10.000 pessoas no grupo com incidência cia, entretanto, devem ser tratadas com maior
1/10.000. Teremos um positivo e 9.999 negati- rigor para não criar falsos mitos. A estatística
vos. Destes, 0,7% terão falsos negativos (aprox. não é só um jogo, nossas expectativas preci-
70 pessoas). Portanto, a chance deste “positivo” sam ser levadas em conta.
ser realmente um positivo é de 1/(1+70), isto é
1,41%. Portanto, a probabilidade da primeira b) abordagens alternativas ao Teste de Sig-
pessoa ter AIDS é cerca de 70 vezes maior! nificância de Hipótese Nula
O problema é que confundimos o que chama- O teste de significância de hipótese nula é uma
mos de falso positivo para um teste isolado com abordagem tão preponderante na análise esta-
a chance de um positivo no meio a muitos tes- tística de dados que muita gente acha que é a
tes ser realmente um positivo, ignorando a pro- única. É por isto que tanto espaço foi dedicado
porção esperada de falsos negativos. a esta abordagem neste capítulo. Entretanto há
outras duas abordagens que estão crescendo e
Uma situação análoga pode ser considerada possivelmente vão superá-la em importância em
para a pesquisa. Uma hipótese razoável, como testes de hipóteses do acaso.
uma formiga preferir um tipo de solo (arenoso
ou argiloso) para fundar uma colônia cai no A primeira alternativa é a utilização de intervalos
grupo de risco das hipóteses razoáveis, das de confiança de parâmetros ao invés de cálcu-
quais boa parte deve ser realmente verdadeira, los de probabilidades associados a hipóteses
digamos em uma proporção entre 1/2 a 1/10. nulas (van Belle, 2008; Wood 2012). Uma van-
Entretanto, uma hipótese que testasse se o tagem é a riqueza da informação fornecida. Ao
comportamento da formiga é influenciado por invés de dizermos “Houve um efeito significativo
pequenas diferenças nos teores de cobre ou por do tratamento em relação ao controle
um leve campo magnético próximo das arenas (F1,20=6,53; p<0.05)”, diríamos “Houve um efei-
experimentais no solo soa estranho com base to significativo do tratamento em relação ao
no que se sabe sobre formigas. Estas hipóteses controle (Diferença= 1,25; IC95%= 0.90 a
parecem muito improváveis, talvez 1/50 a 1,60)”. A segunda vantagem é que esta é tam-
1/1000 possam ser realmente ser corretas. Co- bém a forma mais natural para apresentar resul-
mo as situações são análogas, a chance de um tados que utilizam técnicas de reamostragem,
falso positivo em hipóteses ousadas ou bizarras como o “Bootstrap” (seção 3.6). A terceira van-
é muitas vezes maior para o mesmo alfa. tagem é que é mais fácil se realizar um teste de
hipóteses de trabalho de semelhança (seção
Não é fácil quantificar quanto que nossas hipó- 4.5). Esta alternativa foi introduzida no capítulo
teses são razoáveis ou bizarras, entretanto, 3 e será contemplada no capítulo 5.
podemos chegar a uma diretriz aproximada. Se
sua hipótese de trabalho tratar de uma tendên- Outra abordagem alternativa em crescimento é
cia que você considera intuitivamente muito a utilização de Análises Bayesianas (Gotelli &
razoável, pode usar um alfa de 0,05. Se for uma Ellison, 2011), que é uma forma bem diferente
ideia um pouco mais ousada, mas não extraor- de calcular probabilidade. No TSHN calculamos
dinária, use 0,01. Se for uma hipótese extrava- a probabilidade de obter uma diferença obser-
gante que abala conceitos estabelecidos dentro vada se a hipótese nula for verdadeira, isto é
da sua área de pesquisa, melhor utilizar 0,001. simbolizado como P (dados│hipótese nula). Na
análise Bayesiana, calculamos a probabilidade
63
da hipótese aplicando os dados fornecidos, o declará-lo culpado”. É importante ressaltar que o

que é simbolizado P (hipótese de traba- “Sim” não significa “Definitivamente sim”, significa
lho│dados). É uma estatística mais semelhante “Tenho convicção que sim”, e os graus de convicção
à nossa forma intuitiva de pensar. Na seção 4.1 dependem da situação, como vimos na seção ante-
rior. Note que no sistema de decisão que descreve-
comentamos que a escolha da hipótese de tra-
mos para tribunais e para a maioria das pesquisas o
balho baseia-se na nossa intuição. A escolha de “Talvez” é tratado como um “Não” (em caso de dúvi-
uma hipótese que formigas usam referenciais da prevalece a inocência/ aceitamos a hipótese
espaciais baseou-se em um “cálculo”. Parece nula). Como nesta abordagem apenas levamos em
improvável que formigas usem apenas pistas conta o “Alfa” (Nível de Significância), podemos
químicas, aqui chove muito, a chance de perde- denominá-la Abordagem “Alfacêntrica”.
rem a trilha é grande, além disto, podem passar
por um tronco e ele cair. Já li que outros hime- A abordagem alfacêntrica é apropriada quando
nópteros (vespas) são capazes de usar referen- temos prioridade em evitar o Erro Tipo I e vamos
cias espaciais, etc. Por outro lado, a hipótese tomar uma decisão com a informação que foi cole-
que as formigas utilizam o magnetismo terrestre tada em uma única etapa anterior ao Julgamento
Centrado. Estas condições ocorrem em tribunais e
lhe parece muito improváveis. Você junta infor-
em projetos de pesquisa ou dissertações ou teses
mações e pode tomar decisões sobre a “proba- em que temos um tempo determinado para coletar
bilidade” de uma hipótese estar correta. Esta os dados. A desvantagem da abordagem alfacêntri-
abordagem também é mais apropriada quando ca é que aceitar a hipótese nula é um resultado de
estamos comparando duas hipóteses de traba- pouco valor, pois não sabemos se temos um “Não”
lho concorrentes, para ver qual delas se ajusta ou “Talvez”, e um “Talvez” pode ser um “Sim”. Entre-
melhor aos dados. tanto, vimos na Tabela 4.2 que há outras aborda-
gens.
c) entre o sim e o não existe um vão
Vejamos agora uma situação em que precisamos
Quando tomamos decisões, informações complexas separar o “Não” do “Talvez”. Imagine que você tra-
podem ser transformadas em “Sim ou Não”, que balha em um laboratório de análises clínicas e tem
levarão a duas diferentes possibilidades de ação. em mãos um resultado com níveis elevados de uma
Ocasionalmente, temos três opções: “Sim”, “Talvez” substância que indica uma doença muito grave,
ou “Não”. Podemos ainda decidir em mais categori- como Câncer ou AIDS, mas os níveis não são tão
as: o “sim forte”, o “sim fraco”, o “Talvez”, o “não elevados a ponto de ter certeza. Se você apresentar
fraco” e o “não forte”. Eventualmente, há decisões o resultado como positivo e for um falso positivo, a
em que se utiliza uma escala quantitativa entre os pessoa passará por uma angustia profunda para
extremos (e.g. custo de apólices de seguro em fun- depois descobrir que não tinha a doença. Por outro
ção do risco). Nesta seção, vamos nos concentrar lado, se apresentar o resultado como negativo, pode
em decisões com três possibilidades. estar adiando a chance da pessoa se tratar e ter
uma sobrevida mais longa e melhor ou até uma
No caso da pesquisa, vamos chamar de “Sim” a cura. O que fazer? Nesta situação, a ação em caso
rejeição da hipótese nula (Sim, a evidência é sufici- de “Sim” (iniciar o tratamento) é diferente da ação no
ente para rejeitarmos a hipótese nula). No tribunal, caso de “Não” (liberar o paciente), que também
“Sim” significa “Sim, temos evidência suficiente para difere no caso de “Talvez” (realizar mais exa-
mes).
Também há situações em que o Erro Tipo II é

um risco de gravidade muito maior que do Erro
Tipo I. Imagine que tenha havido um caso de
Doença de Chagas aparentemente adquirida
pelo consumo de açaí em um bairro de Manaus.
Em casos deste tipo, é comum que a ação
anteceda a coleta de dados, com a proibição
imediata da venda de açai. Em uma análise
64
preliminar, o órgão responsável pela vigilância sani- consciência que a abordagem alfacêntrica não se
tária recolhe amostras de açaí de 10 vendedores e aplica a todas as situações, até mesmo na pesquisa
não encontra nenhuma amostra infectada. Portanto, podemos ter que utilizar outra abordagem.
não há evidência que a doença tenha sido transmiti-
da desta forma. Entretanto, se este resultado for um d) Podemos provar uma hipótese?
falso negativo (Erro Tipo II), há risco de transmissão
de uma doença grave para outras pessoas, portan- A melhor forma que criar confusão é um diálogo
to, o consumo não é liberado até o término de uma envolvendo duas linguagens. Existe uma lin-
investigação exaustiva. Lidar com alto custo de Erro guagem lógica/matemática e uma linguagem
Tipo II é sempre muito complicado. É difícil se definir “cotidiana”. Na linguagem da lógica/matemática
quanto esforço de investigação será suficiente para
o termo “provar” só se aplica a demonstrações
uma conclusão segura, e temos que lembrar que a
suspensão da venda também está prejudicando
inquestionáveis, como quando provamos que a
pessoas. soma dos ângulos internos de um triângulo é
180o. Nas Ciências Naturais e Humanas as
Para separar o “Não” do “Talvez”, normalmente hipóteses sempre podem estar erradas, ainda
precisamos de múltiplas etapas de coleta de dados, que a evidência favorável seja extrema. Esta-
como mais exames no exemplo da suspeita de do- mos chamando de “cotidiana” qualquer lingua-
ença ou continuação exaustiva da coleta de dados gem sem o rigor absoluto da linguagem lógi-
no exemplo do açai. A nova coleta de dados não co/matemática, inclusive a linguagem bastante
precisa ser da mesma natureza dos dados anterio- rigorosa de um tribunal. Nesta linguagem, “pro-
res. No caso de exames sobre doenças, muitas var” significa apresentar uma evidência contun-
vezes se realiza repete exames de outra natureza
dente, ainda que não definitiva do ponto de vista
para avaliar um sintoma complementar da mesma
doença. No caso do açaí, é importante investigar lógico.
outras possibilidades de contágio. Se a coleta de
dados for da mesma natureza, a hipótese nula pode Outro problema do termo “provar” (mesmo na
acabar sendo aceita após uma coleta exaustiva, linguagem cotidiana) é que ele está associado
considerando que já deveria ter sido rejeitada se no pensamento comum com uma ideia de verifi-
fosse falsa. car pelo acúmulo de dados favoráveis. Einstein
teria dito algo assim sobre sua teoria: “Nenhu-
Só é possível se definir quantos dados precisamos ma quantidade de evidência seria suficiente
coletar para considerar uma coleta “suficientemente para mostrar que eu estou certo, mas bastaria
exaustiva” para dar um veredito “Não” se tivermos um experimento para mostrar que eu estou
um valor de “efeito mínimo” de referência. Por e- errado”. Esta ideia foi mais elaborada pelo filó-
xemplo, digamos que você queira saber o efeito de
sofo da Ciência Karl Popper, que disse que a
uma substância sobre a pressão sanguínea de ra-
tos. Se a substância aumentar a pressão da grande lógica do método científico consistiria em propor
maioria dos ratos, terá rejeitado a hipótese nula. Se hipóteses ou teorias “falseáveis”. Deveria haver
não obtiver nenhuma diferença significativa (isto é, um esforço para falseá-las, e enquanto elas
além do que esperamos ao acaso), aceitará a hipó- resistissem seriam mantidas como a melhor
tese nula. No entanto, não pode dizer que não haja opção vigente. Hipóteses ou teorias que não
efeito, pois ele pode ser tão sutil que não pôde ser pudessem ser falseadas (derrubadas a partir de
detectado com o tamanho amostral do experimento. observações) não seriam consideradas científi-
Por outro lado, se você perguntar se existe um efeito cas. A derrubada da concepção errônea de
de aumentar pelo menos 10% a pressão sanguínea, prova pelo acúmulo de evidências favoráveis foi
e tiver algumas informações sobre os dados, então um grande avanço epistemológico, mas a apli-
poderá calcular o tamanho amostral necessário a
cação da proposta do falsacionismo como me-
partir de uma probabilidade de Erro Tipo II (ou “Be-
ta”, β) pré definida por você. todologia foi problemática.
Não entraremos nos detalhes de como se realizam O filósofo da ciência Imre Lakatos percebeu
as abordagens da Tabela 4.2. Entretanto, é bom ter falhas nesta concepção de ciência. As ideias de
65
Popper não se sustentam se quisermos levá-las estatística como de epistemologia. Por outro
para o campo de uma lógica estrita. Qualquer lado, o TSHN pode perfeitamente ser visto co-
observação pode ser um engano, portanto, é mo uma forma de contrastar a hipótese de tra-
impossível se derrubar tanto quanto é impossí- balho com a hipótese do acaso.
vel provar uma hipótese ou teoria. Então o que
podemos fazer? A proposta de Lakatos é que o Vamos tentar resumir sem tropeçar na lingua-
método científico envolve a competição entre gem e na filosofia usando aspas para a lingua-
“Programas de Investigação Científica” (teorias gem cotidiana: Em princípio, não podemos pro-
complexas) com base na previsão de cada provar nenhuma hipótese, entretanto, podemos
grama. Trazendo o conceito para o nível dos “provar” uma hipótese de trabalho no sentido de
testes de hipótese, não falseamos uma hipótese atingir critérios pré determinados de confiabili-
isoladamente, mas contrastamos hipóteses, dade. “Provar” não significa apenas acumular
escolhendo a mais forte em condições apro- evidência favorável (previsões da hipótese de
priadas para permitir este contraste. O Jul- trabalho que se mostram corretas), significa
gamento Centrado inclui a hipótese de trabalho conseguir “Derrubar” as hipóteses concorrentes
no centro contrastando com as possibilidades (contraste de hipóteses baseado nas previsões
que ela esteja errada. de cada hipótese autônoma). Convém terminar
com o óbvio: o objetivo de um teste não é “pro-
Alguns estatísticos tentaram associar a filosofia var” a hipótese de trabalho, no sentido de com-
Popperiana com o Teste de Significância da prová-la, ela pode ser falsa. O objetivo é colocá-
Hipótese Nula (TSHN) vendo a rejeição da hipó- la a prova, e aceitar o resultado. A paixão pela
tese nula como um análogo ao ideal científico pesquisa é uma qualidade, a paixão por uma
de falseamento de Popper. Esta posição é pro- hipótese ou teoria que não se sustente não é.
blemática. Popper referia-se a hipóteses que
descrevem o funcionamento do mundo com e) Significativo é sinônimo de relevante?
previsões ousadas que permitissem o seu fal-
seamento, logo, ele se referia a hipóteses de O uso da estatística cresceu e as revistas cientí-
trabalhos, não a hipóteses secundárias constru- ficas e bancas de avaliação acadêmica passa-
ídas para a avaliação destas. A hipótese seria ram a exigir que testes fossem utilizados para
científica por estar aberta ao falseamento, mas mostrar que tendências tinham relevância esta-
ainda resistir, portanto, é uma hipótese viva. No tística. Esta pressão pelo uso da estatística
momento em que a hipótese de trabalho fosse contribuiu para a qualidade da pesquisa, mas
falseada (admitindo esta possibilidade), ela também levou a alguns desvios, como a busca
deixaria de ser ciência e entraria para a história pelo resultado significativo independente da
da ciência, e se buscaria uma nova hipótese questão. Alguns acreditam que o “melhor” teste
para ocupar o seu lugar. A hipótese nula não é dentro de um estudo é aquele que foi mais sig-
uma hipótese sobre como funciona o mundo, é nificativo.
apenas uma hipótese para servir de base para
calcular a possibilidade das previsões da hipó- Um aspecto psicologicamente forte no teste de
tese de trabalho estar dentro do esperado ao previsão de hipóteses é que ele responde cate-
acaso. Não devemos inverter os papeis da hipó- goricamente (com sim ou não) se evidências
tese nula e da hipótese de trabalho. Não há para a existência de uma relação são significati-
hipótese nula antes de se estabelecer uma hi- vas. Não temos um critério semelhante para
pótese de trabalho a primeira nasce como alter- atribuirmos o valor biológico para um teste. É
nativa da segunda, e muitos textos estatísticos uma questão de bom senso. A relação entre
invertem a lógica natural chamando a hipótese tamanho de qualquer espécie e seu peso é
de trabalho de “hipótese alternativa”. Esta asso- sempre fortemente significativa, mesmo com
ciação do TSHN, com a filosofia popperiana é poucos dados, de forma que não é nada sur-
equivocada e confunde tanto o aprendizado de preendente obter-se um P<0,001 para esta
66
relação. Um efeito significativo obtido apenas transgenia, já provaram que funcionam, entre-
com um tamanho amostral imenso pode signifi- tanto, um acompanhamento é necessário pois
car variáveis de ruído interferindo muito ou sim- ainda não sabemos quais são os riscos ambien-
plesmente um efeito biologicamente irrelevante tais e para a saúde. Os farmacêuticos têm muito
de uma variável sobre outra. O valor calculado mais trabalho com a análise de cada possível
de “P” tem relação com a “força” da evidência, efeito colateral do que da comprovação dos
não tem relação com a relevância da questão. efeitos positivos. É importante não se confundir
o poder da estatística em avaliar efeitos especí-
f) Efeitos colaterais ficos com uma garantia sobre aspectos que
extrapolam cada teste particular.
Em algumas situações, particularmente no de-
senvolvimento de remédios, alimentos ou pro-
dutos que possam oferecer riscos ambientais ou
à saúde humana, temos de ir além das conside-
rações sobre o erro tipo I e tipo II. Imagine uma
substância com potencial para diminuir os enjô-
os durante a gravidez. Podemos testar estatisti-
camente se o remédio é efetivo fixando o erro
tipo I e até o erro tipo II, definindo um tamanho
amostral apropriado com base em coletas pre-
liminares. Esta análise permitirá que se defina
dentro dos critérios discutidos neste capítulo se
o remédio é efetivo ou não para reduzir o enjôo.
Entretanto, este teste só avalia o enjôo, não
garante que este remédio não tenha contra
indicações. Um remédio chamado Talidomida
foi usado na década de 1960 contra enjôo na
gravidez e causou malformações em muitos
bebês.
Ignorar efeitos colaterais não é cometer um erro

tipo I ou tipo II, é cometer um erro que extrapola
o teste. Pelo princípio da prudência, temos até
que considerar provas circunstanciais, como
uma acusação improvável de uma pessoa que
consumiu um remédio ou indícios de algum
impacto ambiental, como uma evidência que a
atenção deve ser redobrada. A análise de efei-
tos colaterais pode ser complexa. Embora haja
ferramentas estatísticas para ajudar nesta tare-
fa, cada potencial efeito (podemos mesmo listar
todos?) deveria ser analisado separadamente e,
como vimos anteriormente, é difícil separar o
“talvez” do “não”. Não é possível se obter uma
garantia que nenhum efeito colateral vá ocorrer,
mas é essencial que se considere qualquer
indício de problema e se faça um levantamento
exaustivo de todas as possibilidades razoáveis
de efeitos colaterais. Novas tecnologias, como a
67
Tabela 4.2 Análise e ação em diferentes situações em função do custo do Erro Tipo I (falso positivo) e do Erro Tipo II
(falso negativo) e do número de etapas de coleta de dados. As formas de analisar os dados mais comuns na pesquisa
estão em destaque.
Custo Custo
Falso Falso Tempo Exemplo Análise e Ação
Positivo Negativo
Tratamento de grave intoxicação sem Análise de risco emergencial; Priorizar a velocidade
Muito Alto ou Alto
causa bem definida (usar remédi o da conclusão mas com o máximo de certeza possível.
Único forte que tem com contra Sobre o diagnóstico. Importante haver pre paro
Muito Alto
indicações?) antecipado para decisões rápidas e corretas.
Paciente com sintomas de possív el Avaliação em etapas (poucas). Indícios fracos de
doença grave de tratamento positivo justificam exames complementares.
Poucas Etapas
agressivo; Continuar os testes até ter segurança suficiente sobre
o diaqgnóstico.
Pesquisa de um remédio promissor Avaliação em etapas (muitas); Descobrir um remédio
Muitas Etapas com potenciais efeitos colaterais é algo importante, mas a certeza da ausência de
graves. efeitos colaterais tem prioridade.
Julgamento em tribunais criminais. Assumir postura fortemente conservadora em
Estudos acadêmicos com propostas relação ao falso positivo (e.g. princípio da inocência a
Muito Alto ou Alto
Único polêmicas. O tempo único refere‐se à priori) ; Estatística com Alfa rigoroso (0,01) ou muito

análise única (não dividida em etapas rigoroso (0,001). Tamanhos amostrais e testes
decisórias) e à defesa única. geralmente definidos a priori .
Médio
Exames complexos para possíveis Avaliação em etapas (poucas). Indícios de positivo
doenças de gravidade intermediária justificam exames complementares. Continuar os
Poucas Etapas
em estágios iniciais. testes até ter segurança suficiente sobre o
diaqgnóstico.
Pesquisa de mercado para lançar um Avaliação em etapas. Amostragem sequencial e
novo produto. Pesquisa sobre Métodos de controle de processos estatísticos
Muitas Etapas
intenções de votos durante processo (detecção de anormalidades) podem ser úteis
eleitoral. conforme o problema.
Maior parte dos trabalhos Conservadorismo para prevenir falsos positivos, mas
Alto ou Médio
acadêmicos; Problemas cotidianos não tão extremo a ponto de frear muito a pesquisa.
Único
que exigem nível mediano de certeza Estatística com Alfa Rigoroso (0,01) ou comum (0,05).
Baixo
antes de afirmar algo.
Problemas cotidianos que exigem Avaliação em etapas. Coletas preliminares +
nível mediano de certeza com Estatística alfacêntrica (duas etapas); Amostragem
Em Etapas evidência acumulada gradualmente. sequencial (testando uma questão); Métodos de
controle de processos estatísticos (detecção de
anormalidades); etc.
Relatório de avaliação de impacto Assumir postura mais conservadora contra falsos
Baixo ou médio
Muito Alto ou
ambiental e ecotoxicologica; Evento negativos. Análise de Risco rigorosa; Valorizar toda
Único suspeito durante vigilia policial informação relevante disponível. Considerar uso de
(bandido ou só gato?). Emitir alarme Estatística Bayesiana; Medidas preventivas rigorosas;
Alto
contra catástrofes (e.g. te rremoto).
Monitoramento ambien tal e Avaliação em etapas. Métodos de Controle de
sanitário. Monitoramento de Processos Estatísticos; Análise de Riscos; Medidas
Em Etapas qualidade de processos de alto risco preventivas rigorosas para falsos negativos;
(e.g. funcionamento de usína Considerar uso de Estatística Bayesiana.
atômica)
Decisão de realizar um evento com Análise de riscos simples; Medidas preventivas para
Único
base em previsão de tempo. falsos negativos.
Médio
Baixo
Monitoramentos cotidianos de Avaliação em etapas. Testes múltiplos em etapas.
qualidade de processos de médio ou Amostragem sequencial; Métodos de Controle de
Em Etapas baixo risco (e.g. eficiência em linha Processos Estatísticos. Monitoramento simples.
de produção e satisfação de
clientes).
68
Exercícios 4.13- O que são efeitos colaterais e como de-

vemos lidar com eles?
4.1- A lógica dos testes de hipóteses é um as-
sunto mais amplo do que a utilização de cálcu-
los estatísticos em testes de hipóteses. Expli-
que.
4.2- Descreva um exemplo original de teste de

hipóteses com Julgamento Centrado sem utili-
zação de teste estatístico.
4.3- Explique a diferença entre as duas etapas

do método hipotético dedutivo.
4.4- Qual é o risco da inflação de testes e como

ele pode ser evitado?
4.5- Quais hipóteses do Julgamento Centrado

costumam ser descartadas por procedimentos
preventivos durante um planejamento experi-
mental?
4.6- Como é “descartada” a “hipótese do aca-

so”? Utilize na sua resposta os conceitos de
a) Hipótese Nula; b) Probabilidade calculada;
c) Nível de significância (α).
4.7- Por que precisamos de um nível de signifi-

cância em um processo de decisão.
4.8- Explique a relação entre o valor calculado

de probabilidade em um teste (“P”) e seu peso
como evidência contra a hipótese nula.
4.9- Explique a diferença entre Erro Tipo I (falso

positivo) e Erro Tipo II (falso negativo) em pro-
cessos decisórios em tribunais e na pesquisa
científica.
4.10- Como devemos ajustar o Nível de Signifi-

cância em função da “ousadia” de uma hipótese
de trabalho.
4.11- Como devemos proceder quando o custo

do Erro Tipo II é elevado?
4.12- Por que não podemos “provar” apenas

pelo acúmulo de repetições favoráveis à nossa
hipótese de trabalho? E como podemos agir
para “provar” a hipótese de trabalho.
69
5. Diversidade de testes e suas Compreendida a unidade, entramos em um

aspecto técnico dos testes que é entender as
premissas situações em que cada um é utilizado, suas
premissas e alternativas quando eles não são
5.1 “Ecologia” e diversidade dos testes recomendáveis. É como se houvesse “nichos
estatísticos. ecológicos” para cada espécie de teste dentro
de um ecossistema de situações problema. O
No capítulo anterior, vimos que o teste estatísti- estatístico precisa conhecer a fisiologia do teste,
co de hipóteses envolve primeiro a escolha de mas o usuário de estatística precisa entender
hipóteses relevantes, pois ficar “brincando” de sua ecologia, isto é, as condições para sua
testar hipóteses é uma boa forma de multiplicar aplicação.
as chances de descobertas espúrias. Escolhida
a hipótese, entramos na frase da verificação da 5.2 Testes com apenas uma variável
compatibilidade entre o previsto e o observado.
Não basta que tenha acontecido como a hipóte- Os testes de uma variável geralmente compa-
se de trabalho previa, é necessário que outras ram valores obtidos com “valores esperados”,
explicações alternativas para este “sucesso” da por isto são chamados de testes de aderência
hipótese tenham sido descartadas. Precisamos ou de ajustamento (ou “goodness of fit” em in-
verificar com cuidado que foram excluídos pos- glês). Por exemplo, podemos comparar a razão
síveis erros de procedimentos, desde a calibra- sexual de 33 ♀♀: 12 ♂♂ (obtido) com uma
ção de instrumentos, o cuidado ao digitar os razão esperada de 1♀:1♂. Valores, como esta
dados, o planejamento amostral e a avaliação proporção de 50% por sexo são chamados de
da representatividade dos dados. Finalmente, esperados, mas seria mais apropriado dizer que
mesmo com todos os cuidados, ainda resta a o esperado é um intervalo ao redor deste valor,
possibilidade do “sucesso” por mero acaso. pois este valor central exato costuma ser bas-
Esta possibilidade é eliminada calculando a tante improvável, como seria obter exatamente
frequência esperada de um valor igual ao ob- 500 machos de 1000 adultos. Em outras pala-
servado se a hipótese nula for/fosse verdadeira. vras, o valor “esperado”, na realidade é um
Esta probabilidade é denominada probabilidade “valor esperado central”; pois algum desvio está
frequentista. Se esta probabilidade for menor dentro do esperado.
que um nível de significância pré-determinado,
rejeitamos a hipótese nula e dizemos que a Os testes estatísticos tradicionais utilizados
evidência favorável à hipótese de trabalho é nestas condições estão listados na tabela 3 do
estatisticamente significativa. guia de gráficos e testes: a) para variáveis biná-
rias são o “Binomial Exato” e o “Teste Z” (apro-
Há diferentes formas de calcular a probabilidade ximado); para variáveis categóricas: o “Teste Χ2
frequentista, em função de particularidades dos ou o “Teste G”; para variáveis quantitativas, o
dados, e estes diferentes tipos de testes estatís- teste mais utilizado é o “Teste T de uma amos-
ticos recebem nomes, como o teste kolmogo- tra” para avaliar se a média desta amostra dife-
rov-smirnov, o teste t, a regressão logística e re significativamente de um valor pré determi-
muitos outros. O importante, em primeiro lugar é nado. É interessante conhecer estes testes e
entender a unidade na diversidade. Todos estes suas aplicações porque ainda são muito usa-
testes fazem essencialmente a mesma coisa: dos, entretanto, o mais recomendado é substitu-
calcular a probabilidade frequentista. É impor- í-los por determinações de Intervalos de Confi-
tante ressaltar isto, porque as divisões de capí- ança, porque: 1) Em alguns casos são mais
tulos em muitos livros estatísticos podem atra- precisos e poderosos em rejeitar a Hipótese
palhar esta percepção. Nula; 2) são mais intuitivos e informativos;
3) nas variáveis quantitativas o IC por “boots-
trap” tem menos premissas e maior flexibilidade
70
de aplicações (não é só para médias, serve Nos testes de relações geralmente temos uma
para qualquer parâmetro). Ao invés de rejeitar- variável resposta e uma ou mais variáveis predi-
mos a hipótese nula porque P foi menor que α, toras. Os testes com apenas uma variável predi-
rejeitamos porque o valor de referência não está tora predominam em estudos experimentais,
contido no Intervalo de Confiança. Pela forma são mais simples e têm menos premissas, de
anterior, o resultado era apresentado assim: “A forma que serão analisados primeiro e em maior
razão sexual (33 ♀♀: 12 ♂♂) foi significativa- profundidade. Neste capítulo apenas trataremos
mente diferente de 1♀: 1♂ (teste binomial exa- de estudos em que as unidades amostrais não
to P<0,001)”.Pela forma atual: “O intervalo de estão organizadas em blocos, assunto que será
confiança da razão sexual ( 33 ♀♀: 12 ♂♂) tratado no capítulo 7.
não incluiu 0,5 ♂♂/ total (RS=0,22;
IC95%=0,1280 a 0,3452).” A escolha dos testes com duas variáveis de-
pende das escalas da variável preditora (inde-
Há testes com uma variável, como o “Kolmogo- pendente) e da variável resposta (dependente),
rov Smirnov” e o “Shapiro-Wilk”, que servem conforme a tabela a seguir. Quando há uma
para verificar se a distribuição de frequência variável ordinal ou quantitativa, o número de
observada em uma amostra difere do esperado níveis efetivos também influi na escolha do tes-
com base em uma frequência teórica discreta te. Estas diferenças são explicadas caso a caso
(e. g. binomial, uniforme discreta, poison) ou no Guia de Testes e Gráficos. A parte da tabela
teórica contínua (e. g. normal, uniforme contí- que discutiremos mais é no caso da variável
nua). Uma das aplicações mais comuns destes resposta ser quantitativa, o que abre duas pos-
testes é a verificação da compatibilidade da sibilidades de análise: a estatística paramétrica
distribuição dos dados com uma curva normal e a estatística não paramétrica. A primeira tem
para testes paramétricos. Muitos testes tem a premissas mais exigentes, mas, quando pode
premissa de normalidade, de forma que é co- ser aplicada, dá mais poder ao teste e permite
mum que os testes de normalidade sejam re- uma descrição muito mais completa da relação.
comendados. Entretanto, é necessário explicar A segunda tem premissas menos exigentes, de
uma limitação destes testes. A Hipótese Nula forma que pode ser aplicada em uma diversida-
dos testes de normalidade é que a distribuição de maior de situações.
dos dados é normal, isto é, ao rejeitarmos esta
hipótese nula (P<α) temos elementos para uma
decisão: não utilizar o teste paramétrico. Entre-
tanto, quando não rejeitamos a hipótese nula,
podemos afirmar que a distribuição é normal? V. dep→ Binário
Ordinal ou
Quantitativo
Categórico Quantitativo
Não. Este “detalhe” frequentemente é omitido V. ind.↓
(Categ. de 2)
Condição NP*
Condição P*
quando se recomenda a utilização destes tes- Teste de 2 prop.,

T. Exato de
Tabela de
Contingência (TC)
Mann- Whitney;
Cochran’s TT (c)
Teste t (de 2
grupos) (d)
tes. Usuários mal esclarecidos utilizam este Binário
(cat. de 2)
Fisher ou T.C. (a)
Graf: Seção III
(b) Graf: Seção III Graf: Seção IV Graf: Seção IV
Tabela de Tabela de Kruskal-Wallis Análise de
teste com tamanhos amostrais insuficientes Categórico Contingência (b) Contingência (b) (e) Variância (f)
Graf: Seção III Graf: Seção III Graf: Seção IV Graf: Seção IV
para rejeitar a hipótese nula do teste de norma- Mann- Whitney;
Dicotomizar VI ou
VD e usar teste
Correlação de Correlação de
lidade e sentem-se confiantes para utilizar tes- Ordinal Cochran’s TT (c)

Graf: Seção VI
apropriado (Max.
Balanço) (g)
Postos/ RNL(h)
Graf: Seção V
Postos/ RNL(h)
Graf: Seção V
tes paramétricos em situações inapropriadas. Regressão Dicotomizar VI ou Correlação de

Pearson/
Regressão
Quantitativo Logística (i) VD (Max. Balanço) Postos/ RNL(h)
Qualquer tamanho amostral é suficiente se o Graf: Seção VI (g) Graf: Seção V
Linear/ RNL (j)
Graf: Seção V
resultado do teste for (P<α), entretanto, apenas

deveríamos ter confiança que uma distribuição
Figura 1 Tabela para escolha de testes com uma variável
é compatível com a normalidade se o teste de preditora e uma resposta. A maior dificuldade na deter-
normalidade não rejeitou a hipótese nula com minação do teste está ligada à avaliação das premissas
N>30. Voltaremos a discutir isto adiante. dos testes paramétricos.
5.3 Testes com duas variáveis
71
5.4 Premissas dos testes paramétricos Normalidade. Vamos relembrar e aprofundar

conceitos que imos antes. Normalidade significa
Há duas premissas mais básicas para os testes adequação de um conjunto de valores quantita-
paramétricos: normalidade e homocedasticida- tivos a uma distribuição de frequência em forma
de. O número de níveis efetivos da variável de sino denominada “Normal”. Uma distribuição
resposta pode ser visto como um aspecto da de frequência é uma descrição de quantos valo-
normalidade, mas vale a pena ser tratado à res existem para cada intervalo de valor de uma
parte, pois é de fácil verificação. Estas premis- variável quantitativa. A princípio, a distribuição
sas serão explicadas adiante. Note que na rea- normal é uma distribuição contínua (“lisa”, sem
lidade não há uma fronteira exata a partir da “degrausinhos”), mas podemos ter uma aproxi-
qual as condições permitem ou não um teste mação de distribuição normal como na figura a
paramétrico. Para enfatizar isto, descrevemos 3 seguir. Ela é representada por um gráfico cujo
situações: eixo x mostra a variável em questão dividida em
intervalos de valores e o eixo y é a frequência
Variável resposta quantitativa em condições que pode ser em valores absolutos (contagens)
paramétricas. Situação: a) número de níveis ou relativos (porcentagem do total de casos ou
efetivos superior a 10; e b) distribuição de valo- proporção em relação ao valor máximo). Note
res da variável resposta “normal” em cada nível que é um padrão com distribuição com tendên-
da variável preditora; e c) homogeneidade na cia simétrica, com moda, mediana e média a-
variância da variável resposta entre os níveis da proximadamente coincidentes e na forma de um
variável preditora. sino. A figura seguinte mostra um padrão dife-
rente, mais compatível com uma distribuição
Variável resposta quantitativa fora de condi- denominada “Poisson”, mais comum quando
ções paramétricas. Situação: a) número de temos contagens com poucos níveis efetivos.
níveis efetivos igual ou menor que 5; ou b) dis- Podemos também ter distribuições bimodais
tribuição dos valores da variável dependente se (dois “morrinhos”), que não são raros quando
desviam fortemente da normalidade dentro de trabalhamos com uma variável expressa em
cada nível da variável preditora; ou c) a variân- porcentagens.
cia da variável resposta diferir fortemente entre
os níveis da variável preditora. 1.0
“Normal”
Freqüência relativa
0.8
Variável resposta quantitativa em condições
intermediárias. A variável está em condições 0.6
intermediárias se: a) o número de níveis efeti- 0.4

vos está entre 6 e 9; ou b) a distribuição dos
0.2
valores em cada nível da variável resposta tem
um certo desvio da normalidade; ou c) A vari- 0.0
0 1 2 3 4 5 6 7
ância da variável resposta não é similar, mas Número de peixes por pescador
não é extremamente diferente entre os níveis da 1.0
variável preditora.
Fre qüência relativa
0.8
Poisson
0.6
Há uma exceção quanto a estas exigências.
Quando a variável preditora for binária, pode- 0.4
mos utilizar um teste t com variâncias separa- 0.2

das, que é um teste paramétrico com a premis-
0.0
sa de normalidade, mas sem a premissa da 0 2 4 6 8 10 12
Número de peixes por pescador
homogeneidade das variâncias.
Figura 3 Duas distribuições de frequência comuns, a
"Normal" e a “Poison".
72
A distribuição normal é especial porque muitas da normalidade. Este segundo procedimento

variáveis assumem distribuições com esta for- ainda é um pouco arriscado, por ser um pouco
ma, e esta informação incorporada ao teste subjetivo, mas geralmente é aceito, pois os
permite maior poder de previsão. Podemos testes que exigem normalidade são considera-
ainda utilizar os testes paramétricos para variá- dos robustos, isto é, eles “aguentam” desvios
veis com pequeno desvio da normalidade, pois razoáveis da normalidade.
estes testes são robustos, entretanto, isto tem
um limite. No caso de grandes desvios, os re- 1c) Se você tiver mais de 30 dados, você pode
sultados dos testes não são confiáveis e podem utilizar um teste de normalidade (e. g. “Shapi-
levar tanto ao erro tipo II como ao erro tipo I. Em ro-Wikes”), que determina se o desvio da nor-
algumas circunstâncias, podemos transformar malidade é grande demais para considerar a
algebricamente variáveis sem normalidade em curva normal. Se o teste mostrar um desvio
variáveis modificadas com normalidade (seção significativo da normalidade, então você ainda
5.5). Quando a transformação for possível, ela é poderia tentar uma transformação dos dados
recomendada, em função das vantagens dos (como veremos adiante).
testes paramétricos.
Situação 2: uma variável resposta quantitativa e
Análise de normalidade em testes. uma variável preditora binária, categórica ou
ordinal.
Situação 1: uma única variável quantitativa.
Nesta situação vimos que a recomendação é a Vale o mesmo que apresentamos acima para
utilização de Intervalos de Confiança ao invés uma variável, podemos assumir normalidade,
de testes de significância comuns. Entretanto, avaliar graficamente ou testar a normalidade.
mostraremos a análise, pois ela ajuda a enten- Entretanto, neste caso, a análise de normalida-
der como isto é feito para duas variáveis. No de é feita dentro de cada um dos níveis da vari-
caso, o teste paramétrico seria um “Teste T de ável preditora. Por exemplo, numa análise de
uma amostra” (e a melhor alternativa não para- alguma medida de resistência de pessoas (y)
métrica seria o próprio Bootstrap). em função do tipo sanguíneo é necessário que
haja normalidade da distribuição dos valores de
A análise depende do contexto: 40
1a) Algumas variáveis simplesmente costumam
ter distribuição normal, e assumimos (por ra-
zoabilidade) que a distribuição é normal sem
30
realizar uma análise de normalidade. Por exem-
plo, tamanho costuma ter distribuição normal, e
Resistência
poucas pessoas questionariam presumir norma-

lidade na maioria das situações. Entretanto, há 20
um risco nesta premissa, até para variáveis que
tipicamente têm “comportamento normal”.
10
1b) Se você não pode assumir tranquilamente
este risco, então precisará colocar os dados em
um gráfico e avaliar a distribuição para ver se
0
têm um “jeitão” de curva normal, isto é, deve ser A AB B O
aproximadamente simétrica na forma de um Tipo Sangüíneo
sino. Esta análise depende de pelo menos uns Figura 3 Avaliação qualitativa de normalidade da variável
10 dados para caracterizar este “jeitão”. Não resposta dentro de cada nível da variável preditora. Os
precisa encontrar padrões perfeitamente nor- padrões neste gráfico são compatíveis com distribuições
normais.
mais, mas já dá para perceber grandes desvios
73
10
10
Tendência retilinear
Var. Dep. Quant.

9
9
V. Dep. Quant
8
8
7
7
6
6
5
5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
0 1 2 3 4 5
Var. Ind. Quantitativa
Var. Ind. Quantitativa 2
2
Resíduos de Y em X
Resíduos de Y em X
1
1
0
0
-1
-1
-2
-2 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
0 1 2 3 4 5 Var. Ind. Quant itativa
Var. Ind. Quantitativa
10
Figura 5- Normalidade em relação linear (ver texto). Figura 4- Normalidade e curvilinearidade (ver texto).
m X
resistência para cada tipo sanguíneo (as curvas Repare que os resíduos estão homogeneamen-
normais ficam viradas em 90º no gráfico sobre te distribuídos ao longo do eixo da variável pre-
cada nível de x). Novamente, não espere que ditora. Um desvio de normalidade ocorre quan-
os dados formem uma curva perfeitamente do aplicamos um modelo retilinear a uma rela-
normal se os tamanhos amostrais não forem ção que na realidade é curvilinear (figura 5.4).
muito grandes, mas é necessário que a distribu- Repare que os resíduos não se distribuem ho-
ição seja pelo menos aproximadamente simétri- mogeneamente ao longo do eixo da variável
ca e na forma de um sino para os testes para- preditora, inicialmente eles são muito altos,
métricos. No exemplo abaixo os quatro níveis depois muito baixos e ao final muito autos no-
têm padrão compatível com uma distribuição vamente. (*usamos o termo “retilinear” porque o
normal. termo “linear” não se restringe a modelos com
uma reta; vários modelos curvilineares também
Situação 3: Uma variável resposta quantitativa e entram nesta categoria segundo Zuug et al
uma variável preditora quantitativa. Neste caso, 2009)
a relação entre as variáveis é representada por
uma linha. O esperado é que se encontre uma Caso a análise de resíduos indique uma relação
curva normal em cada nível da variável predito- não retilinear, então a forma de agir dependerá
ra e esta curva normal deve estar com a média do problema: a) se o objetivo for apenas saber
sobre o valor esperado para aquele nível da se há uma relação com previsão de aumento ou
variável preditora. Na prática, o problema de redução monotônicos (sem reversão de tendên-
normalidade mais comum nesta situação é a cia), pode se utilizar o teste não paramétrico
média desta curva normal não estar no local correlação de Spearman; b) se o objetivo inclui
esperado, porque o modelo usado não é apro- uma descrição da relação, então você terá que
priado. comparar estatisticamente os modelos alternati-
vos ou verificar a existência de um modelo flexí-
Suponha que o seu modelo é de regressão vel apropriado. Estes procedimentos estão des-
retilinear, que é um modelo representado por critos em Zar (1984).
uma linha reta. O esperado é que a média em
cada nível esteja aproximadamente sobre a
linha reta, e que os pontos tenham uma distribu- Número de níveis efetivos apropriados na
ição normal neste nível, como na figura ao lado. variável resposta. A contagem do número de
74
30

30
Var. Dependente
20
20
Resistência
10
0
0 1 2 3 4 5 6
Var. Independente
10
Figura 5-5- Heterogeneidade de variâncias da variável

resposta entre níveis categóricos da variável indepen-
dente.
0
A AB B O outra condição para podermos utilizar testes
Tipo Sangüíneo paramétricos. Isto também pode ser investigado
Figura 6Heterogeneidade de variâncias da variável respos-
graficamente. Em termos simples, as curvas
ta entre níveis quantitativos da variável preditora. normais imaginárias sobre a distribuição dos
dados devem ser aproximadamente igualmente
níveis efetivos substitui a tradicional categoriza- “gordas”.A figura 5.5 mostra uma situação de
ção de variáveis em “discretas” e “contínuas”. O heterogeneidade de variâncias com variável
conceito de variável contínua não se sustenta preditora categórica e a figura 5.6 com variável
porque todo instrumento de medida tem uma resposta quantitativa.
precisão limitada. O problema da continuidade
existe, mas está ligado a um baixo número de Lidando com as “situações intermediárias”
níveis efetivos, não à natureza da medida. Se você tem 6 a 9 níveis efetivos de medida na
variável resposta ou se há um desvio da norma-
A condição de número de níveis efetivos sufici- lidade, mas este desvio não for muito grande ou
ente é uma extensão da premissa de normali- se há uma diferença entre as variâncias entre
dade. Se houver menos que cinco níveis efeti- os níveis das variáveis preditoras, mas esta
vos na variável resposta, então o “salto” de um diferença não for muito grande, então você está
nível para o outro é proporcionalmente grande, em uma situação intermediária entre a situação
igual ou maior que 20% da amplitude (diferença em que recomendamos um teste paramétrico e
entre o menor e o maior valor). Portanto, não se a situação em que recomendamos um teste não
pode falar em uma curva normal, o máximo é paramétrico. Não há uma fronteira definida.
uma “escada normal”, e estamos “forçando” o Caberá a você escolher conforme a situação,
nosso algoritmo paramétrico devido à desconti- considerando: a) Se a situação exigir uma abor-
nuidade dos valores. Por isto, quando você tiver dagem mais conservadora, ou se você tem uma
seis níveis efetivos ou menos na variável res- personalidade mais conservadora, dê preferên-
posta, deveria utilizar um teste não paramétrico. cia aos testes não-paramétricos; b) se há um
Quando você tiver 10 ou mais níveis efetivos, conhecimento de que a variável em estudo cos-
então, dependendo das outras premissas, pode- tuma ter um comportamento mais próximo às
rá utilizar um teste paramétrico. premissas de testes paramétricos, então dê
preferência a estes; c) Leve em conta na esco-
Homogeneidade de variâncias. Também lha que esta região tem um forte gradiente, e. g.
chamada de homocedasticidade, a homogenei- uma variável com 6 níveis efetivos está muito
dade (ou similaridade) de variâncias da variável mais próxima da necessidade de testes não
resposta entre níveis da variável preditora é paramétricos do que uma variável com 9 níveis
75
efetivos. d) Leve em conta os três critérios ao trapaça, porque você realiza a transformação
mesmo tempo, uma circunstância com condição durante a fase de avaliação das premissas,
intermediária em apenas um critério tende a ser antes de ver o resultado do teste. Seria trapaça
menos crítica que uma circunstância com conse o motivo da transformação fosse o resultado
dição intermediária nos três critérios. do teste. Estas transformações são realmente
um procedimento recomendado para variáveis
5.5 Transformação de dados quantitativas respostas antes da decisão de se
utilizar um teste não paramétrico.
Como dissemos antes, havendo normalidade e
homocedasticidade, a estatística paramétrica é 5.6 Outras premissas
mais poderosa. Em muitos casos em que as
premissas não se aplicam, é possível utilizar
operações matemáticas para transformar os Há outras premissas que envolvem testes de
dados e obter normalidade e homocedasticida- relações, algumas se aplicam a todos os testes
de. Este procedimento de tentar uma transfor- (e. g. balanço) e outras a alguns testes em par-
mação é recomendado para se obter o poder do ticular (e. g. ortogonalidade, “empates” em ran-
teste paramétrico e quando se deseja obter queamento, tamanhos amostrais em testes de
descrições com equações lineares. proporções).
Balanço entre níveis da variável preditora

A transformação utilizando logaritmo é reco-
Balanço significa equilíbrio no número de dados
mendada quando há uma relação positiva entre
entre os níveis da variável preditora em testes
a média e a variância (quanto maior a média,
de relações entre duas ou mais variáveis. Se
maior a variância). Quando não há valores i-
quisermos comparar o tamanho de aranhas em
guais a zero, a fórmula utilizada é y’= LN(y);
função do sexo e vamos medir 20 aranhas, é
quando há valores iguais a zero é y’= LN(y+1).
melhor termos 10 machos e 10 fêmeas do que
Em alguns casos, como na relação entre peso e
17 machos e três fêmeas.
altura, costuma-se utilizar uma curva “log-log”,
onde são utilizados os logaritmos tanto da vari-
O balanço se aplica a variáveis de qualquer
ável preditora como da resposta. A transforma-
escala de medida da variável preditora, binárias,
ção pela raiz quadrada é recomendada quando
categóricas, ordinais ou quantitativas. No caso
não há normalidade e a variável resposta é uma
de variáveis categóricas, o número de casos
contagem de casos, o que normalmente leva a
para cada categoria (cada nível categórico) não
uma distribuição do tipo “Poison”, ou em outras
deveria ser muito diferente. No caso de variá-
situações em que seja observada esta forma de
veis ordinais, cada categoria ordinal (cada nível
distribuição. Quando não há valores iguais a
ordinal) deve ter números aproximadamente
zero, a fórmula utilizada é y’=SQR (y); e quando
semelhantes. No caso de variáveis quantitati-
há valores iguais a zero, a fórmula é y’=
SQR(y+0,5) (SQR= Raiz Quadrada). Outras 15
transformações são mais complexas, como a

Box-Cox são utilizadas quando não se aplicam 10
Tamanho
as duas transformações anteriores, mas não

estamos lidando com proporções, e a transfor-
5
mação de Arcoseno quando os dados são
proporções (0 a 1) ou porcentagens (0 a 100%).
Nestes casos, deve se consultar um texto mais 0
f m
aprofundado (e. g. Sokal & Rohlf, 1988). Sexo
Figura 7 Dados balanceados com 10 entidades por nível.

Estas transformações podem parecer que se
está “trapaceando” no “jogo” estatístico. Não é
76
20
vas, a distribuição dos dados deveria ser apro-
ximadamente homogênea ao longo do eixo x. 15
VARIÁVEL Y
Se dividirmos os dados da variável quantitativa
em 3 a 5 intervalos, a quantidade de dados em 10
cada um deles não deve ser muito diferente.

5
O balanço é algo que podemos controlar facil- 0

mente em situações experimentais. Em situa- 0 5 10 15 20 25
VARIÁVEL X
ções não experimentais em que temos possibi-
lidade de coletar bastante, podemos estratificar Figura 8- Dados desbalanceados ao longo de variável
quantitativa.
a amostra de forma a obter balanço (e. g. cole-
tar 10 indivíduos de cada espécie, tanto das variável preditora na questão, é necessário se
comuns como das raras). Entretanto, quando há ter mais atenção, pois desbalanços podem ge-
poucos dados, podemos ter dificuldade para rar relações espúrias.
obter balanço. Imagine que as aranhas do e-
xemplo acima fossem fósseis raros, como obter Por exemplo, se estamos querendo avaliar o
mais fêmeas se são tão raras? efeito do nitrogênio e do cálcio sobre o cresci-
mento de uma planta ao mesmo tempo (nor-
Não encontrei nenhum livro ou artigo na internet malmente para verificar a existência de uma
que fornecesse critérios para sabermos quanto interação entre estes fatores), o ideal é utilizar-
de desbalanço compromete uma análise com mos um número de vasos igual para cada com-
uma única variável preditora. Há bons livros de binação dos níveis de cada fator. Por exemplo,
estatística com exemplos de análises com des- se tivermos os níveis +0, +10 e +50mg de nitro-
balanço superior ao dobro de casos entre o gênio e os níveis +0, +10 e +50g de cálcio, te-
nível com menos dados e o nível com mais remos nove combinações de concentrações.
dados, o que sugere que podemos assumir Normalmente isto é possível em situações ex-
robustez para desbalanços fortes, mas não perimentais. Há alternativas para tratar dados
haveria um mínimo? O teste Qui quadrado é o desbalanceados nesta situação, mas elas estão
único teste que conheço que considera suspei- fora do escopo deste texto.
tos resultados com menos que 5 valores em
alguma das combinações de níveis, e podemos Balanço entre níveis da variável resposta em
sugerir que este critério seja estendido a outros testes não paramétricos por ranqueamento.
testes da seguinte forma: no mínimo 5 unidades Os testes não paramétricos que mostramos
amostrais em cada nível da variável preditora neste curso são do tipo mais comum, chamado
categórica e pelo menos 5 unidades amostrais testes de ranqueamento, no qual os valores
em cada extremidade de regressões lineares, absolutos medidos são substituídos por valores
para que não ocorra situações como esta da de posição. Este procedimento é mais apropria-
figura abaixo. Caso haja menos que 5 unidades, do do que um teste paramétrico quando a distri-
então a categoria deveria ser eliminada da aná- buição está muito fora da normalidade e/ou da
lise ou aglutinada com outra categoria. Outra homogeneidade de variância. Entretanto, pou-
opção seria a utilização de um teste não para- cos textos de estatística destacam que estes
métrico de permuta. No caso das regressões, a testes também são influenciados pela distribui-
análise deveria ser restrita à região do gráfico ção dos valores ranqueados em casos extre-
que possui dados suficientes. mos. Por exemplo, imagine que você quer com-
parar o deslocamento de uma espécie de sapo
Ortogonalidade. A falta de balanço em testes em dois ambientes. Você tem várias medidas
com uma única variável preditora só deve ser de distância, mas cerca da metade dos sapos
uma preocupação em casos de desbalanços não se moveu. Este padrão com muitos zeros
extremos. Entretanto, quando há mais de uma
77
empatados (“ties”) não é raro, e não deveria ser Esta seção trata de um aspecto dos testes com
analisado por um teste de ranqueamento co- variável resposta quantitativa e variável predito-
mum. Alguns autores (e. g. Gotelli & Elisson, ra categórica. Nesta situação, o teste nos permi-
2010) recomendam que estes testes sejam te determinar se há uma diferença entre os
abandonados e substituídos por procedimentos níveis da variável preditora. Por exemplo, po-
de permuta do tipo Monte Carlo. É uma posição demos comparar o crescimento de galinhas
muito válida, entretanto, considerando que ain- com três marcas de ração e descobrir que há
da não há uma tradição consolidada do uso dos efetivamente uma diferença. Entretanto, isto
testes de permuta, ainda é razoável a manuten- não costuma ser uma resposta satisfatória,
ção do uso dos testes de ranqueamento em normalmente queremos saber quais diferenças
situações em que não há um excesso de empa- são significativas entre cada marca de ração.
tes em poucos níveis efetivos de testes não
paramétricos de ranqueamento. Digamos que tenhamos os níveis A, B e C e
tenhamos obtido uma diferença estatisticamente
Tamanhos amostrais mínimos em testes de significativa. Isto significa que: A>B>C ou que
proporções. Cuidado ao aplicar testes de pro- A>B=C ou que A=B>C? Para definir quais dife-
porções, eles só são válidos em certas condi- renças são estatisticamente significativas é
ções. No caso do teste de uma proporção, a necessário um teste de contraste após um teste
condição é [n .p0 > 10 e n (1 − p0) > 10], sendo de ANOVA ou Kruskal-Wallis. O teste mais usa-
n o tamanho amostral e p0 a proporção obtida. do para ANOVA chama-se Tukey. No caso do
Por exemplo, se você quer saber se a propor- Kruskal-Wallis pode se utilizar um teste Mann
ção 3:5 é significativamente diferente de 50%, Whitney entre cada nível. Existe a possibilidade
terá n=8 e p0=0,375. Como 8x0,375<10, este do teste não apontar diferenças significativas
teste não poderia ser aplicado. Entretanto, po- entre os níveis (A=B e B=C). Isto parece um
deríamos testar se 30:50 é significativamente contra senso, mas é possível porque no conjun-
diferente de 50% porque n=80 e 80x0,375>10. to a diferença é significativa, mas que pode não
No caso de testes de duas proporções, a condi- haver dados suficientes para saber qual nível é
ção é [(n1 p1) > 5 e n1(1 − p1) > 5 e (n2 p2) > 5 diferente de outro nível.
e n2(1 − p2) > 5], sendo n1 e n2 os tamanhos
amostrais e p1 e p2 as proporções. Assim, se
queremos testar se as proporções 1:5 e 40:50 Exercícios
são diferentes, teríamos 6x0,2<5, o que tornaria
5.1- Represente com um gráfico EPR uma situação
o teste suspeito. Tabelas de contingência tam-
com uma variável preditora com 4 níveis efetivos
bém têm restrições para tamanhos amostrais ordinais (não quantitativos) e uma variável resposta
pequenos dentro de cada célula. No Mystat quantitativa com mais de 10 níveis efetivos e forte
quando há menos que 5 observações em uma diferença na variância entre os níveis.
célula, o resultado é considerado suspeito pelo
programa. 5.2- Represente com um gráfico EPR uma situação
com variável preditora binária em que um dos níveis
Se você está com um problema de tamanho apresenta uma distribuição de dados claramente
amostral em um teste deste tipo, e não puder discrepante de uma distribuição normal e o outro
coletar mais dados, provavelmente possa utili- nível com uma distribuição claramente compatível
zar uma abordagem de permuta como o “boots- com uma distribuição normal com 10 entidades em
cada nível.
trap”, mas é bom considerar uma consulta a um
estatístico. 5.3- Represente com um gráfico EPR uma situação
com variáveis respostas e preditoras quantitativas. A
5.7 Contrastes variável preditora deve ter quatro níveis e a relação
não deve ser compatível com uma relação retilinear.
78
5.4- A transformação de dados é um procedimento

recomendado em que situações?*
5.5- Quais as diferenças entre as condições para

testes paramétricos e para testes não paramétricos.
5.6- Por que realizamos análise de contrastes quan-

do a variável preditora é categórica?
5.7- Represente com um gráfico EPR uma situ-

ação com uma variável preditora com 4 níveis
categóricos (não quantitativos ou ordinais) e
uma variável resposta quantitativa com mais de
10 níveis efetivos. Neste gráfico deve haver um
forte desbalanço (>50%) entre o nível mais re-
presentado e o menos representado na variável
preditora.
5.8- Quais as premissas dos testes paramétri-

cos apresentadas neste capítulo e qual teste
paramétrico pode ser realizado sem homoge-
neidade de variâncias entre os níveis das variá-
veis preditoras.
79
6. Planejamento Amostral evitar alguma tendenciosidade e depois em

função da conveniência logística.
6.1 Independência entre unidades No caso de perguntas sobre relações, que en-
amostrais volvem duas ou mais variáveis (sendo pelo
menos uma preditora e pelo menos uma res-
O planejamento amostral tem por objetivo de- posta), a independência, significa que “Os valo-
terminar a melhor forma de coletar os dados res da(s) variável (is) preditora(s) foram manipu-
prevenindo relações espúrias (este capítulo) e lados ou escolhidos de forma que as influências
obtendo o máximo de poder para a nossa análi- de relações com potenciais variáveis de con-
se (próximo capítulo) dentro das possibilidades fundimento sobre a relação em estudo foram
logísticas do estudo. A introdução sobre coleta todas anuladas ou radicalmente reduzidas.”
de dados do capítulo 3 será aprofundada nestes (cap.3).
dois capítulos.
A situação ideal para se obter a independência
Os cursos introdutórios de estatística, como em estudos de relações é o experimento contro-
este, lidam basicamente com “hipóteses estatís- lado, no qual manipulamos o valor da variável
ticas simples” (seção 1.3), que tem como pre- preditora e medimos o efeito na variável respos-
missa a independência entre unidades amos- ta. Entretanto, em muitos estudos não é possí-
trais. As ferramentas para lidar com estas hipó- vel se manipular a variável preditora. Vejamos
teses são diversificadas e se constituem nas alguns exemplos de problemas de confundi-
formas predominantes da análise de dados em mento.
biologia. A premissa que lhe dá força é justa-
mente seu Calcanhar de Aquiles: a indepen-
dência entre unidades amostrais. Se não houver 6.2 A coleta parecia apropriada, mas...
garantia desta independência, o resultado da
análise não será confiável. Estudo 1. Pergunta: há diferenças no tamanho
de machos e fêmeas de borboletas da espécie
No caso de perguntas sobre uma única variável, Capronnieria abretia (Satyrinae) ?
a independência significa que a amostra é re-
presentativa da população. Por exemplo, se Procedimento: coleta de 20 borboletas em janei-
quisermos saber se a proporção de plantas com ro e 20 em julho.Na figura ao lado representa-
flores vermelhas ou brancas de uma espécie mos uma parte da tabela EPR. As entidades
em um campo é compatível com a 1ª lei de seriam borboletas e as propriedades seriam
Mendel (3:1), o ideal é que a escolha das plan- tamanho e sexo. A relação está representada
tas na amostra seja aleatória. Entretanto, pode pela seta.
ser inviável marcar todas as plantas para um
sorteio, então poderíamos pensar em outra
forma de amostrar, desde que tenhamos confi-
ança que o resultado não seria tendencioso. Por
exemplo, poderíamos ter um mapa detalhado Tamanho Sexo
da área, criar um “grid” (gradeado) e escolher 12 m
as plantas mais centrais em cada célula do 10 m
“grid” (amostra sistemática). Há diversos tipos
possíveis de amostras sistemáticas, mas nem 11 f
todas garantem a representatividade, de forma 11 f
que devem ser pensadas primeiramente para
80
Há algo errado com este procedimento? O grá- Estudo 2. Pergunta: A abundância de peixes
fico abaixo mostra que o tamanho dos animais em lagos de várzea no amazonas varia entre a
em janeiro (verde) é maior que em julho (bran- fronteira com o Perú e Belém?
co) Também vemos que em janeiro encontra-
mos mais machos e em julho mais fêmeas. Amostragem: 6 meses coletando ao longo do
Machos e fêmeas de janeiro têm os mesmos Rio Amazonas em diversos lagos com método
tamanhos; machos e fêmeas de julho têm o padronizado. Os lagos são escolhidos ao acaso
mesmo tamanho. Portanto, não há dimorfismo à medida que o barco de coleta vai descendo o
sexual de tamanho. Entretanto, se não levamos rio.
em conta as variações temporais de tamanho e
de abundância, aparece uma falsa evidência de Há algo errado? A quantidade de peixes varia
dimorfismo. muito ao longo do ano nos lagos próximos ao
Rio Amazonas. Digamos que a coleta seja inici-
Janeiro ( ) Julho ( ) ada quando há pouco peixe nos lagos e termine
quando há muitos peixes no lago. Se a coleta é
feita à medida que o barco desce o rio, haverá
Tamanho
diminuição da pesca à medida que o barco se

afasta do Perú, não devido à variação espacial
da pesca, mas devido à variação temporal. A
variável de confundimento foi a época do ano
que estava relacionada com a posição do barco
e com a quantidade de peixes.
Machos Fêmeas
Estudo 3. Pergunta: A temperatura do ar condi-
cionado influi sobre a capacidade de concentra-
Isto ocorre quando há uma variável de con- ção durante uma avaliação?
fundimento. Uma variável de confundimento é
aquela que influi sobre a variável resposta e a Coleta de dados. 15 voluntários são colocados
variável preditora ao mesmo tempo, criando para resolver problemas que exigem concentra-
uma relação inconsequente espúria entre elas. ção em 3 momentos. Sem que eles soubessem,
Isto fica mais claro no esquema das flechas a temperatura da sala foi ajustada em diferentes
nesta figura níveis em cada momento e a posição deles na
sala foi determinada aleatoriamente. No primei-
ro dia, a temperatura estava em 20ºC, no se-
gundo dia em 24ºC e no terceiro dia em 28ºC. A
maioria dos estudantes obteve os piores resul-
tados no primeiro dia e o melhor no último dia, o
resultado foi fortemente significativo (P< 0,001).
Tamanho Sexo Época A interpretação do experimento é que os estu-
12 m 1 dantes concentram-se melhor em salas mais
10 m 1 quentes e recomendaram a exclusão dos condi-
11 f 1 cionadores de ar das salas de aula da universi-
11 f 1
dade.
Relação espúrea
Problema. Na realidade, os estudantes tendem
a se concentrar melhor a 20ºC, entretanto, no
. Relações causais primeiro dia eles tinham pouca experiência com
o teste. No segundo dia, eles aprenderam ainda
mais e no terceiro fizeram a sua melhor prova,
81
mesmo com o incômodo de uma temperatura deve ser eliminado apenas porque secou há 4
alta. A ordem dos exames foi a variável de con- anos, isto acontece em lagos, trocar de lago
fundimento, pois ela determinou a temperatura não é a solução. O errado é querer tirar mais de
e a experiência. Seria melhor que a ordem das uma medida por lago se a questão é a diferença
temperaturas fosse aleatória, embora isto seja entre lagos. Melhor seria ter uma coleta por lago
um fator complicador na hora de realizar um em 5 lagos de água branca e em 5 lagos de
estudo destes, quando há uma variável de con- água preta, preferencialmente de bacias hidro-
fundimento ligada à sequência de tratamentos, gráficas diferentes. Dos exemplos apresenta-
planejamentos experimentais como estes são dos, este é o caso mais claro de Pseudoreplica-
um convite para relações inconsequentes espú- ção.
rias.
A pseudo-replicação é definida como o uso de
Estudo 4. Pergunta: Lagos de água branca têm estatística inferencial para testar efeitos de tra-
mais peixes do que lagos de água preta? tamentos com dados de experimentos que não
são replicados ou quando as replicatas não são
Coleta: Instalamos 50 redes de coleta de peixes estatisticamente independentes (Hurlbert,
em um lago no centro de uma ilha em Anavilha- 1984). Em abordagens experimentais e em
nas (bem representativo de lagos de água pre- alguns estudos observacionais, como o citado
ta) e 50 redes de coleta em um lago semelhante acima, é mais fácil se perceber quando há
no centro da ilha da Marchantaria (bem repre- pseudo-replicação, mas nem sempre é assim. O
sentativo de lagos de água branca) na mesma termo pseudo-replicação tornou-se muito popu-
época do ano lar e tem sido muito importante para despertar
e com técnica mais nas pessoas o cuidado com replicatas
padronizada. indevidas. Entretanto, acredito que ele só possa
Os dois lagos ser bem compreendido depois de se entender
foram selecio- Taxa de Tipo de melhor alguns os tipos de variáveis (em termos
nados aleato- captura água de sua influência na relação em estudo) e tipos
riamente de de controle.
uma lista
grande de 23 branca
lagos repre- 29 branca
sentativos dos 3 preta
respectivos 5 preta
tipos de água.
A princípio, a estrutura da planilha para este

estudo seria esta ao lado, mas será que ela é
válida nesta situação? Taxa de Tipo de local Lago
captura água secou
nos
O problema é que todas as coletas de peixes de últimos 5
água branca foram feitos no lago 1, e todas as anos?
23 branca Lago 1 não
de água preta foram feitos no lago 2. A diferen- 29 branca Lago 1 não
ça de tipo de água certamente não é a única 3 preta Lago 2 sim
5 preta Lago 2 sim
diferença entre estes dois lagos. Por exemplo, o
lago 1 secou há 4 anos, e a comunidade de
peixes e de plantas que são refúgio para peixes
foram severamente afetadas. O resultado do
estudo é simplesmente se há diferença na taxa
de captura entre estes dois lagos. O lago 1 não
82
6.3 Tipos de variáveis dentro de mapas alternativas razoáveis que poderiam levar ao
conceituais. mesmo resultado, como a diferença na prefe-
rência a algum fator ambiental (e. g. umidade)
Como vimos anteriormente, algumas questões ou à densidade de um predador comum às duas
podem ter apenas uma variável em análise. espécies que prefere alimenta-se mais da presa
Neste caso, temos de nos preocupar apenas onde o predador for menos abundante.
com a representatividade (seção 3.3), não há
variáveis externas nem possibilidade de con- É quando estamos realizando um estudo cuida-
fundimento. doso de relações causais que precisamos avali-
ar variáveis externas. Vejamos os tipos de vari-
Algumas vezes investigamos a existência de áveis externas e como lidar com elas.
relações entre duas variáveis sem relação cau-
sal entre si, mas que poderiam estar respon- As variáveis externas são divididas em:
dendo à mesma variável preditora ou realiza- b1) Variáveis Neutras, não afetam nem a vari-
mos uma investigação preliminar sobre causali- ável resposta nem a preditora; b2) Variáveis
dade sem a preocupação rigorosa com a possi- Pré Explicativas, que afetam diretamente ape-
bilidade de variáveis de confundimento. Neste nas a variável preditora; b3) Variáveis de Ruí-
caso, dizemos que estamos estudando a exis- do (VR), são aquelas que afetam a variável
tência de uma correlação. Variáveis que apre- resposta, mas não afetam a(s) variável(is) predi-
sentam relações causais costumam apresentar tora(s); b4) Variáveis de Confundimento (VC).
correlação, desde que a variável preditora varie São aquelas que afetam tanto a variável predi-
suficientemente, e desde que variáveis de ruído tora como a variável resposta, criando uma
não obscureçam muito a relação. Entretanto, relação inconsequente espúria entre as variá-
correlações não implicam relações causais de- veis em questão; b5) Variáveis de Caminho,
vido à possibilidade de confundimento. Por isto, são aquelas que explicam a relação consequen-
em uma análise de correlação, não estamos te entre a variável preditora e a variável respos-
nos preocupando muito com variáveis externas. ta.
Você poderia comparar a correlação entre da-

dos climáticos efetivamente medidos (e. g. Cho-
veu) e as previsões feitas por dois modelos
climáticos (um dizia que ia chover e o outro
não). Note que as previsões de clima não cau-
sam o clima, entretanto, tanto o clima como as
previsões são influenciadas pelas condições
atmosféricas anteriores. Aqui o estudo de corre-
lação nos conduz a conclusões concretas
A correlação frequentemente é estudada como

uma forma de obter indícios de relações cau-
sais, mas a conclusão tende a ser menos con-
creta. Por exemplo, podemos verificar se a a-
bundância de uma espécie (e. g. uma presa)
está correlacionada com a abundância de outra
espécie (e. g. seu predador). A existência de
uma correlação negativa é um indício que o Figura 9- Classificação dos tipos de variáveis em função
predador influi sobre a densidade da presa, mas da sua participação em uma questão.
é um indício fraco, pois há outras explicações
83
Figura 6-2- Mapa conceitual mostrando duas Variáveis em Questão (mais escuro) e diversas variáveis externas.
gunta se isto poderia ter causado a diferen-

Vamos discutir esta classificação em um exem- ça.
plo. A figura 6.2 representa um mapa conceitual 3) Dr. Livinstone pergunta se poderia haver
de uma questão sobre o efeito do tipo de água uma diferença entre as nascentes das fon-
sobre a quantidade de tambaquis em lagos. A tes que alimentam o lago para causar as di-
ideia é que água branca tem mais nutrientes ferenças de cor da água.
que possibilitam uma maior produção de frutos 4) Dr. Glenn pergunta se poderia ter havido
das árvores da borda que são o principal ali- algum efeito da fase da lua durante a cole-
mento para os peixes adultos. ta.
5) Dr. Traíra sugere que a causa da maior
Digamos que fizemos a coleta de dados em 15 abundância não seja a diferença de produ-
lagos de água branca e 15 de água preta e ção de frutos, mas uma diferença de trans-
obtivemos uma relação significativa (P<0,05) parência da água, o que dificulta a ação dos
entre o tipo de água e a abundância de peixes. predadores, pois são visualizados de longe
Levamos o trabalho a um congresso e as pes- pelas presas. Outra possibilidade é que os
soas questionam sua conclusão. jovens Tambaquis tenham mais alimentos
em uma fase em que são predadores. Por-
1) Dra. Kaufman, economista da USP, obser- tanto, o importante seria o alimento na fase
vou que os lagos de água preta estão mais de jovens e não de adultos.
próximos da metrópole e levanta a possibi-
lidade da diferença na quantidade de peixes O tipo de água e a abundância de tambaqui
ser causada mais pela pressão do consumo foram respectivamente a Variáveis preditora e
do que por diferenças ambientais. a Variável resposta, as duas Únicas Variáveis
2) Dr. Fisher pergunta sobre a experiência dos em Questão; as outras são Variáveis Externas.
pescadores que ajudaram no estudo e per-
84
A proximidade da metrópole poderia ser causa- Variável Neutra. Algumas vezes, simplesmente
dora de uma relação inconsequente espúria tomamos como premissa que algumas variáveis
(como sugere a Dra. Kaufman). Foi a pergunta são neutras, o que envolve um risco. Na dúvida,
mais “perigosa” das que foram feitas porque é é bom tentar neutralizar até os menores riscos
uma potencial Variável de Confundimento. de confundimento, entretanto, o bom senso
precisa ser utilizado para não ficarmos paranói-
A experiência dos pescadores realmente pode cos quando uma variável não puder ser contro-
afetar a eficiência da pesca e a quantidade de lada, mas puder ser considerada irrelevante.
peixes capturados. Explicamos que não houve
confundimento porque os pescadores foram A sugestão do Dr. Traíra é válida. Nós sugeri-
sempre os mesmos nos lagos de água branca e mos um “caminho” de causalidade e mostramos
nos de água preta, portanto, o efeito da diferen- que nossos dados são coerentes com nossa
ça de habilidade distribuído igualmente, preve- proposta de explicação do funcionamento do
nindo uma relação inconsequente espúria por sistema. Entretanto, há outros “caminhos” que
este fator. Se os pescadores diferirem muito na seriam coerentes com nossos resultados. Ape-
sua habilidade, isto adiciona variância aos da- nas estudos mais profundos poderão nos permi-
dos, e pode obscurecer a relação, por isto esta tir ter certeza do caminho real. Entretanto, isto
variável é chamada Variável de Ruído. Entre- não invalida o trabalho, a relação encontrada foi
tanto, como a diferença foi significativa, o pro- pelo menos um avanço para se compreender o
blema do “ruído” foi superado pelo tamanho funcionamento do sistema. As observações do
amostral. De qualquer forma, o ruído é um pro- Dr. Traíra precisam ser anotadas para alternati-
blema menos sério que a tendenciosidade. vas em estudos posteriores. Por isto, estas
variáveis são chamadas Variáveis de Cami-
A pergunta sobre as nascentes é aceitável co- nho.
mo curiosidade e pode até ser útil para especu-
lações relacionadas à questão. Entretanto, é Em resumo, o único questionamento realmente
uma pergunta inofensiva para a questão especí- crítico para o seu trabalho foi o da Variável de
fica. A questão do estudo não era o que deter- Confundimento. Note sua característica no es-
minava o tipo de água entre os lagos. Partia-se quema de mapa conceitual: é a única que forma
do fato de que elas são diferentes para se ques- uma alça externa entre as variáveis preditora e
tionar as consequências disto. Esta variável resposta. É o seu calcanhar de Aquiles. Discuti-
afeta a variável resposta, mas justamente pelo remos o que pode ser feito sobre isto depois.
seu efeito na preditora, de forma que não cria Pelo menos, nesta seção nós vimos que não
uma relação espúria. Por isto é chamada de temos que ficar paranóicos com quaisquer vari-
Variável Pré-Explicativa áveis, apenas as potenciais variáveis de con-
fundimento realmente colocam o estudo em
Nós nem pensamos em verificar a lua. Entretan- risco de ser considerado inválido.
to, acreditávamos que ela realmente seria irre-
levante. Nenhum estudo anterior chegou a su- Nas próximas seções abordaremos conceitos
gerir este efeito, este peixe tem hábitos diurnos que serão úteis para compreendermos como
e as coletas entre lagos foram intercaladas, lidar com as variáveis de confundimento.
sendo improvável que houvesse coincidido um
maior número de coletas em um tipo de água
associado a um tipo de lua. Seja por questões
biológicas ou por questões da forma como os
dados foram coletados, consideramos que esta
variável não seria uma fonte de relações espú-
rias. Por isto esta variável foi considerada uma
85
6.4 Controle: tratamento, função e droga injetável. No controle de tratamento

estratégia nulo processual, o controle significa um grupo
com um procedimento mais próximo ao trata-
Quando nosso objetivo é determinar se uma mento alternativo, como quando aplicamos soro
relação existe e/ou descrever a relação, usamos fisiológico em um grupo de ratos (controle)
um princípio básico (preliminar) de controle: comparado com outro grupo que recebeu a
“Precisamos variar a variável preditora, man- droga diluída no mesmo soro. No controle de
ter fixas todas as demais variáveis e ver co- tratamento nulo reverso, cada tratamento
mo muda a variável resposta”. Veremos adi- funciona como um controle do outro, como
ante que este princípio é utópico, mas é um quando injetamos drogas diferentes em dois
ideal que serve como referência para entender grupos de ratos. Algumas pessoas acreditam
o objetivo do planejamento amostral no estabe- que sempre precisamos de “tratamentos nulos
lecimento de relações. Note que este objetivo simples ou processuais”, entretanto, para esta-
não é compatível com a amostra representativa belecermos uma relação, só o que precisamos
(aleatória) da população descrita na seção ante- é uma comparação.
rior. Não precisamos ter uma amostra represen-
tativa de todas as sementes de soja do mundo 6.5.2 Controle no sentido de função.
para testar o efeito de um nutriente sobre o seu
desenvolvimento, basta um lote. É verdade que No sentido de função, há duas categorias de
as conclusões podem não valer para todos os controle, o controle de ruído e o controle de
lotes, ou todas as variedades, mas isto é uma tendenciosidade, que tem objetivos diferentes.
questão de validação externa que normalmente
é tratada em um segundo momento. A essência Quando estamos querendo estudar a relação
do princípio é que temos que ter o máximo de entre uma variável resposta e uma variável
controle sobre as variáveis potenciais de con- preditora* (variáveis em questão), temos tam-
fundimento. bém uma infinidade de variáveis externas que
podem influir sobre a variável preditora, sobre a
Há três sentidos para a palavra controle, o sen- variável resposta ou sobre ambas (Fig. 6.3).
tido tratamento, o sentido de função e o sentido
de estratégia. Se a variável externa influir apenas sobre a
variável preditora, temos uma Variável Pré Ex-
plicativa (seção 6.3), que não influi diretamente
6.5.1 Controle no sentido de tratamento nulo. sobre a relação R1. No exemplo daquela seção,
tínhamos uma questão sobre a relação entre o
Para verificar o efeito de algum fator (uma vari- tipo de água (VI) e a abundância de tambaquis
ável preditora) sobre “alguma coisa” mensurá- (VR), e vimos que o motivo das águas serem
vel, temos que realizar uma comparação. O diferentes era o tipo de solo nas nascentes
termo tratamento é utilizado para abordagens (VE), que era irrelevante para a questão. O solo
experimentais nas quais manipulamos a variá- nas nascentes não tinha uma relação direta (i.
vel preditora e significa cada nível da variável e. separada) com a abundância dos peixes,
preditora. O controle no sentido de tratamento apenas tinha uma relação indireta através da
divide-se em três tipos, o controle de tratamento própria variável preditora.
nulo, o controle de tratamento processual nulo e
o controle nulo reverso. No controle de trata- Se a variável externa influir apenas sobre a
mento nulo simples, o controle significa grupo variável resposta, não teremos uma Variável de
sem intervenção, como quando não aplicamos Confundimento nem uma relação inconsequen-
nada em um grupo de ratos (chamado de conte espúria. Entretanto, quanto mais a variável
trole) comparado com o grupo que recebeu uma externa variar, maior será a variação da variável
resposta, a ponto de poder “obscurecer” a rela-
86
todos eles foram para todos os lagos, mas se

um fossem para os lagos de água branca e
outro fosse para os lagos de água preta, então
teríamos uma potencial variável de confundi-
mento. Este controle contra relações inconse-
quente espúrias, isto é, contra o aumento da
chance de erro tipo I (para além de α), é deno-
minado Controle Anti Tendenciosidade. As
estratégias para se obter os dois tipos de con-
troles serão discutidas na próxima seção.
6.5.3 Estratégias de controle
Os controles no sentido de estratégias envol-

vem fixar, aleatorizar, sistematizar e/ou blocar
valores de variáveis ou incluir mais variáveis na
questão.
Figura 6 3. Efeitos de Variáveis Externas sobre uma relação em
estudo (R1). As relações entre estas variáveis e a Variável predito- Controle por identidade das condições inici-
ra (R2 a R5) são potenciais geradoras de confundimento. As rela-
ções entre as Variáveis Externas e a Variável resposta em questão
ais.
R6 a R9 são causadoras de ruído. (*O mesmo se aplica com mais
variáveis preditoras em estudo, mas é mais complexo, pois as Se todas as variáveis com potencial de influir
relações entre as variáveis preditoras em estudo também precisam
ser consideradas.)
sobre a variável resposta tivessem valores ab-
solutamente idênticos, ou tivessem um efeito
ção R1. Este efeito é denominado Ruído. O insignificante, muito menor que o efeito da vari-
ruído, por definição, não é tendencioso, mas é ável preditora, e fizéssemos variar apenas a
prejudicial porque aumenta a chance de erro variável resposta, bastariam duas unidades
tipo II. A manipulação de uma variável externa amostrais com dois níveis para a variável predi-
para reduzir o ruído é denominada Controle tora para mostrarmos a existência de uma rela-
Anti Ruído, e consiste em fixar seu valor ou ção (ou mais níveis para descrevermos a rela-
pelo menos diminuir a variância desta variável. ção).
No exemplo dos tambaquis, diferenças nas
habilidades dos pescadores poderiam obscure- É a premissa mais forte que se pode imaginar
cer a relação em estudo, de forma que seria para um teste, a menos razoável, e a que dá o
mais indicado que apena um pescador realizas- maior poder possível a um teste. Apesar de
se o trabalho ou que todos fossem treinados em parecer absurda, a premissa de “controle abso-
técnicas bem padronizadas. luto” pode ser utilizada frequentemente em labo-
ratórios de Física e de Química, com experi-
Se a variável externa influir sobre a variável mentos com objetos padronizados e em rea-
resposta e sobre a variável preditora ao mesmo ções com substâncias puras. Na realidade,
tempo, temos que eliminar uma das duas rela- controle absoluto não existe nem nestas ciên-
ções. A relação entre a VE e a VR só pode ser cias exatas, o que ocorre é que em algumas
anulada fixando-se VE, o que também anula situações já se conhece suficientemente um
sua relação com VI. Entretanto, quando isto não fenômeno para se saber que variáveis externas
é possível, ou em função de uma preocupação teriam dimensões tão irrelevantes que podem
com a validação externa do estudo, a opção é ser simplesmente ignoradas. Em situações tão
anular a relação entre VE e VI. No exemplo dos controladas, normalmente nem se está testando
Tambaquis, a habilidade dos pescadores não se uma relação existe, já se sabe que existe, o
tinha relação com a variável preditora porque
87
objetivo do estudo costuma ser descrever a forma de prevenir este tipo de tendenciosidade.
forma da relação. Entretanto, quando a aleatorização é complica-
da por questões logísticas, pode-se utilizar al-
Em biologia, raramente é razoável se assumir gum método alternativo, se houver uma justifi-
este controle absoluto. Na física você pode cativa forte para se acreditar que ele não é ten-
utilizar um mesmo objeto duas vezes em um dencioso.
experimento, na biologia você não pode fazer
uma semente germinar duas vezes e duas se- Após formarmos grupos iguais, aplicamos tra-
mentes nunca são absolutamente idênticas, tamentos diferentes em cada grupo. Portanto,
nem clones são absolutamente idênticos, no esta abordagem só está disponível para estu-
máximo geneticamente idênticos, diferenças dos experimentais. Tecnicamente, o que fize-
podem surgir até durante o desenvolvimento mos chama-se atribuição aleatória dos níveis
embrionário. da variável preditora. Se a diferença entre os
grupos for maior do que a esperada ao acaso
Controle por aleatorização simples. comparado com uma probabilidade limite pré
estabelecida (α), dizemos que rejeitamos a
Como vimos acima, se pegássemos duas se- hipótese nula e que temos uma prova estatística
mentes absolutamente idênticas, poderíamos para nossa hipótese alternativa.
tirar conclusões sem replicatas (repetições) de
tratamentos. O problema é que não basta pare- Esta forma de controle previne contra tenden-
cer igual, não temos condições de garantir que ciosidade, isto é, contra erro tipo I, mas não
duas sementes são absolutamente iguais. Não contra ruído. Por isto, Geralmente este controle
podemos ter certeza se uma diferença ao final é feito junto com outras formas de controle,
resultou do próprio tratamento ou se foi resulta- como veremos na Abordagem Experimental
do de diferenças intrínsecas não visíveis, isto é, (seção 6.6)
elas talvez se tornassem diferentes mesmo sem
receber os tratamentos diferentes. Controle sistemático simples.
Uma solução para este problema é trabalhar Voltando ao exemplo das sementes de soja,
com várias sementes em um grupo tratamento e imagine que você tem dois sacos de sementes
várias sementes em um grupo controle. Se conde lotes diferentes. Os lotes podem ser diferen-
seguíssemos dois grupos iguais, as diferenças tes em idade, tratamento, origem, etc. Se mon-
entre as sementes se anulariam. Não há como tássemos os grupos aleatoriamente, podería-
se conseguir dois grupos idênticos, mas se as mos obter dois grupos comparáveis, como vi-
sementes fossem escolhidas aleatoriamente, mos acima. Entretanto, outra forma de se obter
estes grupos seriam cada vez mais semelhan- isto, seria se pegássemos alternadamente uma
tes quanto mais sementes fossem utilizadas, e semente de cada saco até obtermos o número
seria possível se decidir estatisticamente dentro necessário para o tratamento e depois repetir a
de critérios estabelecidos a priori se uma dife- operação para o controle. Os dois grupos foram
rença obtida está além do esperado por acaso. feitos equivalentes por intercalação. A interca-
lação, ou outra forma de proceder que garanta a
A abordagem com este aleatorização contrasta igualdade entre os grupos tratamento e controle
com uma formação de dois grupos em que o é outra forma de se obter grupos semelhantes.
pesquisador escolhe as sementes. Inconscien-
temente, ele poderia selecionar sementes me- O controle aleatório é mais fiel às fórmulas esta-
lhores para um dos tratamentos. A estatística tísticas do que o controle sistemático, mas a
tem muito poder para detectar diferenças sutis, diferença pode ser considerada mínima, e a
mesmo que a causa seja uma variável de con- amostragem sistemática apresenta algumas
fundimento, de forma que a aleatorização é uma vantagens. Estatísticos divergem sobre qual dos
88
dois modelo é mais apropriado. Acompanho o Dentro da abordagem experimental, em que os

ponto de vista de Hurlbert (1984), que defendeu níveis da variável preditora é atribuída aleatori-
que as vantagens práticas da intercalação de amente entre as subunidades amostrais nos
níveis em experimentos manipulativos superam blocos, o efeito dos blocos é reduzir a chance
as desvantagens de sutilezas matemáticas de de erro tipo II, pois a aleatorização já controlou
uma abordagem estritamente aleatória, princi- a chance de erro tipo I. A utilização de blocos é
palmente para tamanhos amostrais pequenos. recomendada quando há grande variação espa-
cial ou temporal nas VEs mais relevantes, ou
Além disto, em estudos não experimentais (se- uma variável importante a ser controlada com
ção 6.8) não podemos manipular a variável os blocos. Do contrário, geralmente a aborda-
preditora, portanto, não podemos atribuí-la alea- gem sem blocos tem mais poder porque cada
toriamente. Entretanto, podemos intercalar ní- “subunidade” amostral torna-se uma unidade
veis no tempo e no espaço. Por exemplo, no amostral.
exemplo da borboleta da seção 6.2 não poderí-
amos marcar todas as borboletas da floresta e Os blocos permitem a realização de aleatoriza-
sortear as que seriam coletadas, e, se fosse ções múltiplas, o que pode ser muito importan-
possível, isto só funcionaria para evitar uma te, pois nem sempre as aleatorizações podem
relação inconsequente espúria se participassem ser feitas em um único momento. Por exemplo,
do sorteio as borboletas de todas as épocas. podemos não ter espaço suficiente em um único
Entretanto, este problema seria contornado momento na casa da vegetação para todas as
intercalando-se medidas de machos e fêmeas, replicatas necessárias para um experimento.
isto é, ignorando borboletas que tivessem o Os blocos são especialmente úteis em aborda-
mesmo sexo que a borboleta coletada anterior- gens não experimentais, pois podem controlar
mente. todas as variáveis externas ao bloco, o que não
é pouco. Se todos os níveis da variável predito-
Assim como no controle aleatório, esta forma de ra puderem ser encontrados em um bloco de
controle previne contra tendenciosidade apenas dimensões espaciais/ temporais muito menores
e pode ser feita em conjunto com outras formas do que as dimensões da área/ Período de estu-
de controle que reduzem a chance de erro tipo do, os blocos reduzem drasticamente o efeito
II. de variáveis externas e são fortemente reco-
mendáveis. Neste caso, eles servem para dimi-
Controle com blocos VP nuir tanto a chance de erro tipo I como de erro
tipo II.
Uma forma especial de controle sistemático é o
estabelecimento de blocos, dentro dos quais há Caso haja Variáveis Externas que sejam poten-
todos os níveis da Variável preditora, que, ide- ciais Variáveis de confundimento dentro de
almente são atribuídos de forma aleatória para blocos, é recomendável a utilização de algum
subunidades amostrais (neste texto considera- controle sobre estas variáveis.
mos cada bloco como a unidade amostral). Os
blocos podem ser constituídos no espaço (cada Controle por fixação de variáveis externas.
um em um local), no tempo (cada um em um
momento, no espaço-tempo (cada um em um Em estudos experimentais, a fixação de variá-
local e tempo determinado) ou numa posição na veis externas é uma forma de controle de ruído.
escala de uma variável externa (cada um em Quanto mais variáveis externas puderem ser
um nível de uma variável categórica ou ordinal fixas, maior o poder do experimento. Portanto, é
ou em um “segmento de reta” de uma escala uma forma de reduzir erros tipo II.
quantitativa).
Em estudos quase experimentais e não experi-
mentais, a fixação de variáveis externas tam-
89
bém tende a reduzir a chance de erro tipo II, tamento) ou a inclusão de uma variável com
mas é mais importante como uma forma de níveis livres.
minimizar a chance de reduzir erro tipo I. Espe-
cialmente quando não há um controle por blo- Em estudos experimentais, a inclusão de mais
cos, é importante se levantar todas as potenci- uma variável controlada normalmente leva a
ais variáveis de confundimento e tentar fixá-las desenhos experimentais fatoriais, nos quais
ou reduzir sua variância ao máximo, ou incluí- temos as combinações dos níveis das variáveis
las no estudo (próximo item), pois estes tipos de preditoras com o mesmo número de unidades
estudos estão mais sujeitos a relações espúrias amostrais e uma estatística simples e segura
do que os estudos experimentais. para analisar a interação entre variáveis predito-
ras em seus efeitos sobre a resposta. Por e-
Controle por inclusão de variável.A análise xemplo, se queremos ver se um nutriente con-
de Variáveis preditoras Múltiplas é um assunto tribui para o crescimento de uma plante, pode-
que está além do escopo deste texto básico, mos fixar a quantidade de outros nutriente, mas
apresentamos apenas uma introdução concei- pode ser que o efeito do nutriente mude em
tual sobre esta forma de controle. função da concentração do outro nutriente. Para
investigar isto montamos um desenho amostral
A inclusão de uma variável pode ser de dois com combinações de concentrações dos dois
tipos: inclusão de uma variável controlada (tra- tipos de nutrientes.
Figura 10- Chave para a escolha de abordagens de pesquisa. VI= Variável Independente; VR= Variável resposta; VE=
Variável Externa.
90
de cidra por dia; b) um tipo de elixir usado por

Em estudos experimentais ou não experimen- marinheiros c) um pouco de água do mar; d)
tais, a análise com níveis livres é mais comple- uma mistura de alho e mostarda; e) duas colhe-
xa, de forma que é recomendada a ajuda de res de vinagre; f) duas laranjas e um limão. Os
uma pessoa que entenda do assunto. De qual- homens que tomaram frutas cítricas melhora-
quer forma, a inclusão normalmente tem um ram radicalmente em 6 dias. Havia muitas idei-
papel principal de controle anti ruído no estudo as sobre formas de curar esta terrível doença,
experimental e de controle anti tendenciosidade mas apenas com esta abordagem controlada foi
no estudo não experimental. Um exemplo de possível separar especulações de evidência
inclusão de variável em um estudo não experi- objetiva. (*embora provavelmente não tenha
mental foi apresentado na seção 6.2, na análise havido um processo de sorteio, isto não com-
do dimorfismo sexual de borboletas. prometeu o resultado. É mais um exemplo histó-
rico do que um exemplo ideal, pois a separação
6.5 Escolha a sua abordagem de tratamentos já representou um grande avan-
ço metodológico).
Como vimos no capítulo 1, normalmente a prio-
Vimos na seção anterior que um experimento
ridade da pesquisa é evitar o erro tipo I, cuja
envolve a manipulação (aleatória ou sistemáti-
chance é ampliada pela influência de variáveis
ca) nos valores de uma variável preditora (tra-
de confundimento. Portanto, a prioridade é evi-
tamento) para se verificar o seu efeito em uma
tar que estas variáveis possam influir na relação
variável resposta. Vamos reforçar a ideia de um
em estudo. O ideal para isto é a abordagem
experimento com mais um exemplo. Para sa-
experimental, mas nem sempre pode ser apli-
bermos se café aumenta a produtividade, temos
cada, pois as variáveis preditoras não podem
que dar café para algumas pessoas e não dar
ser sempre manipuladas (não experimentos), ou
nada (ou só água quente com açúcar) para
podem ser manipuladas, mas a atribuição não
outras (manipulação da variável preditora “inge-
pode ser aleatória da forma necessária para um
riu café?- (S/N)”) e ver a produtividade. A esco-
experimento controlado estatisticamente (quase
lha de quem vai tomar café, a princípio, precisa-
experimento). Quando temos um não experi-
ria ser por sorteio; você não pode deixar as
mento, ainda temos a chance de “atribuir” valo-
pessoas escolherem se vão tomar café ou não.
res para a variável preditora escolhendo estes
São necessárias várias pessoas, porque há
valores (níveis fixos multivalor). Quando não
vários fatores que influem sobre a produtivida-
escolhemos os valores da variável preditora,
de, mas a aleatorização distribui as diferenças
podemos inferir independência pela distância,
igualmente entre os dois grupos e tornam a
ou pelo menos controlar parte das variáveis
comparação confiável dentro de critérios esta-
preditoras. A figura acima sintetiza estas opções
tísticos bem definidos.
que serão explicadas nas próximas seções.
Um sorteio pode controlar fatores “do passado”
6.6 O experimento como modelo na como origem, lote e condições da planta antes
pesquisa de relações. da aleatorização. Entretanto, se as plantas do
tratamento crescerem mais próximas da fonte
O primeiro registro de planejamento experimen- de luz que as plantas do controle, o experimen-
tal é de 1747, quando o médico James Lind to fica comprometido por uma variável de con-
verificou que a doença escorbuto, que era co- fundimento pós Aleatorização. Por isto, é reco-
mum em marinheiros, poderia ser combatida mendado que a posição de plantas em uma
com uma dieta especial. Para isto, ele selecio- casa de vegetação também seja determinada
nou 12 homens doentes de uma tripulação e aleatoriamente ou sistematicamente. Atitudes
dividiu-os em 6 grupos. Cada grupo recebeu similares precisam ser adotadas em outras situ-
todo dia respectivamente: a) um quarto de copo
91
ações com potenciais variáveis de confundi- 6.7 Abordagens quase experimentais.

mento pós aleatorização.
A atribuição aleatória ou sistemática dos níveis Apenas quando há uma completa aleatorização
da variável preditora feita da forma apropriada e da atribuição dos tratamentos temos uma abor-
associada a uma análise estatística é uma for- dagem dita “Experimental”, também denomina-
ma muito efetiva de se controlar todas as Variá- da “Experimento Aleatorizado de Medida Pós
veis de Confundimento de uma única vez contra Teste”. Na notação de planejamentos experi-
qualquer tendenciosidade, portanto, protege mentais (Trochim 2000), os mais simples são
contra erro tipo I (que não ultrapassa o valor de simbolizados da seguinte forma:
α). A princípio, a única variável manipulada é a
variável preditora. Entretanto, esta abordagem
não reduz ruído. Por isto, quase sempre se fixa A X1 O
outras variáveis de forma a se reduzir a variân- A Xc O
cia do sistema. É o que se faz em laboratórios
com clima e ração controlados para ratos que Onde cada “A” representa um grupo seleciona-
possuem pouca variabilidade genética ou ao do aleatóriamente. “X1” representa um trata-
excluir todas as sementes de soja que boiam na mento e “Xc” outro tratamento ou o controle. “O”
água (potencialmente estragadas) antes da representa uma observação. Se houvesse mais
aleatorização, manter as plântulas crescendo tratamentos seriam X2, X3, etc. Portanto, em
em casas de vegetação com clima controlado cada linha temos um grupo escolhido aleatoria-
etc. A padronização é um procedimento desejá- mente, tratado de forma diferente e observado
vel para aumento do poder, portanto, diminui a posteriormente.
chance de erro tipo II. É importante destacar
que a padronização não é obrigatória para a Há uma segunda categoria de experimentos
validação interna. Um resultado significativo denominados “quase experimentos”, ou “expe-
sem padronização, mas com controle de atribui- rimento de pré-teste e pós-teste de grupos não
ção aleatória dos níveis da variável preditora aleatórios”. Há várias abordagens escolhidas
não pode ser questionado em sua validade em função do tipo de limitação e de opções
interna. para mitigar os efeitos da falta de aleatorização.
A simples simples é representada assim:
O experimento com controle estatístico é consi-
derado a abordagem ideal para se estabelecer
uma relação entre duas variáveis devido a sua N O X1 O
“imunidade” à tendenciosidade (mas não ao N O Xc O
acaso estatístico). A estatística tradicional foi
“construída” tendo em consideração o experi-
mento como modelo. Então por que nem toda a Onde N é um grupo que não foi obtido de forma
pesquisa é experimental? Simplesmente porque aleatória. As letras “O” antes e depois dos “X”
em muitos casos não é possível tecnicamente, indicam observações antes e depois para verifi-
eticamente ou economicamente se manipular a car mudanças. Exemplo de grupos não aleató-
variável preditora ou realizar aleatorizações da rios: a) alunos de duas classes, uma com um
forma ideal. Entretanto, é importante compreen- novo método didático e a outra no método tradi-
der que as outras abordagens que vamos apre- cional; b) Coletas diárias padronizadas de pei-
sentar são “aproximações” da abordagem expe- xes em dois lagos, um protegido contra pesca e
rimental. Quanto mais uma abordagem se as- outro não, antes e depois da proteção; c) Cole-
semelhar da abordagem experimental mais tas de invertebrados a montante e a jusante de
confiável ela tende a ser. uma fábrica potencialmente poluidora antes e
depois de sua instalação. O ideal é que os gru-
pos das duas linhas sejam tão semelhantes
92
quanto possível, mas não é absolutamente ne-

cessário. Frequentemente é desejável o menor 6.8 Abordagens não experimentais
tempo possível entre o pré-teste e o pós-teste.
Há uma série de premissas para esta aborda-
Um estudo não experimental de relações é a-
gem ser considerada válida, e os esquemas são
quele em que não se manipula a variável predi-
escolhidos em função das características de
tora, geralmente porque isto não é possível
cada problema específico.
devido a restrições técnicas, éticas ou econômi-
cas.
O planejamento pode ser mais elaborado, por
exemplo:
Na seção 6.3, vimos que em situações não
experimentais nossas conclusões sobre a rela-
N O X1 O Xc O ção entre a Variável preditora e a Variável res-
N O Xc O X1 O posta estão vulneráveis ao efeito de Variáveis
de Confundimento. A forma de agir para diminu-
Neste caso há trocas de tratamentos entre os ir muito a chance de uma relação espúria de-
grupos, o que é considerado um planejamento pende do tipo de amostragem que estamos
bastante forte, desde que não haja influência da utilizando. As abordagens não experimentais
ordem dos tratamentos. dividem-se em três tipos: a) Amostragem Fixa
Multivalores da Variável preditora simples;
Outra opção elaborada: b) Amostragem Fixa Multivalores da Variável
preditora com Blocos; c) Amostragem de Níveis
N1 O Livres.
N1 X1 O
N2 O Nas amostragens fixas multivalores simples ou
em blocos, os valores da variável preditora são
N 2 Xc O procurados na natureza e se observa qual é o
valor da variável resposta naquele lugar (há um
Neste caso a metade do primeiro grupo é ob-
caso em que é contrário, como veremos poste-
servada no pré- teste e a outra metade passa
riormente). No exemplo da seção 6.3, procura-
pelo tratamento e é observada no pós-teste. O
mos lagos de água branca para verificar se
segundo grupo tem metade medida no pré-teste
havia mais peixes de uma determinada espécie
e a outra metade tem uma medida no pós-teste
do que lagos de água preta. Note que não é um
como controle (Xc). Se sua observação inicial
experimento, pois não manipulamos a variável
pode influir sobre a observação final (e. g. reali-
preditora, nem é uma coleta livre, pois escolhe-
zar uma prova prepara as pessoas para a se-
mos os lagos com base no valor da variável
gunda prova), você pode separar a classe 1 em
preditora.
duas partes, uma que faz a prova antes do mé-
todo testado e outra que faz a prova depois. A
A primeira potencial variável de confundimento
sala 2 é um controle feito da mesma forma.
a ser considerada nas abordagens fixas é o
Comparando as diferenças entre a linha 1 e a
“conhecimento do valor da variável resposta
linha 2 com as diferenças entre a linha 3 e a
antes da escolha”. Se a pessoa que escolhe as
linha 4 teremos uma avaliação sem o efeito do
unidades amostrais conhecer os valores da
aprendizado da prova.
variável resposta, sua escolha pode ser tenden-
ciosa. Pensando no exemplo da seção 6.3, se
Há outros esquemas de “quase-experimentos”
escolhemos um lago porque ele tem água bran-
(ver Trochim, 2000). O importante aqui é ver
ca e porque ouvimos que lá tem muito peixe, e
que há alternativas de estudos manipulativos
rejeitamos outro lago de água branca porque
em que não é possível se realizar a aleatoriza-
ouvimos que tem pouco peixe, então estaremos
ção da atribuição de tratamentos.
93
sendo tendenciosos na escolha. É necessário as medidas antes e depois de uma chuva ou

muito cuidado, pois até inconscientemente po- várias medidas por fase da lua em um único
demos ser tendenciosos nas escolhas. Quando mês) mas a chance de pseudo-replicação tem-
é inevitável a observação dos valores da variá- poral ou espacial seria alta.
vel resposta, o que possibilita uma coleta ten-
denciosa, é recomendável que a escolha das Amostragem com VI fixa multivalores por
unidades amostrais seja feita por uma pessoa escolha com blocos
que desconheça a relação esperada, o que é
chamado de “escolha cega”. Este problema não As unidades amostrais são blocos divididos em
existe quando o valor da variável resposta for subunidades (medidas repetidas) selecionadas
desconhecido no momento da escolha. a) em função dos valores (níveis) pré-definidos
da Variável preditora (implícita) ou b) em função
Amostragem com VI fixa multivalores por de valores da variável resposta.
escolha sem blocos
Os blocos com níveis da VI pré definidos são
A unidade amostral é simples, selecionada em normalmente áreas (espacial) ou momentos
função de valores pré-definidos da variável pre- (temporais) nos quais encontramos cada nível
ditora. Trata-se de uma das abordagens mais da variável preditora implícita. Exemplos,
comuns em estudos de campo. O controle esta- 1) Bloco= montanha, VI implícita= altura (0, 300,
tístico é inexistente ou parcial por intercalação. 600), VR= produtividade de pinheiros, permi-
Sem intercalação, (exemplo da fig. 6.2) esta tem que se verifique o efeito do “tratamento”
amostragem tem os mesmos problemas (e so- (variável preditora implícita) isolando o efeito da
luções) das amostragens de níveis livres ou ao heterogeneidade entre blocos; 2) Bloco=árvore,
acaso (ver abaixo), menos um, podemos definir VI implícita= altura da flor (alta, média, baixa),
balanço no número de dados por nível da variá- VR= produção de néctar; 3) bloco=dia, VI=horas
vel preditora. Neste caso, é necessária alguma do dia (8, 10, 12, 14, 16, 18), VR= número de
justificativa para inferir que as unidades amos- bois forrageando.
trais podem ser consideradas independentes
(seção 6.9). Com intercalação, a amostragem Vamos entender por um exemplo: Você quer
com VI fixa multivalores é uma forma sistemáti- saber se há uma relação entre a quantidade de
ca de coleta recomendável contra tendenciosi- baratas silvestres e a quantidade de serrapilhei-
dade (Hulbert 1984), a menos que haja algum ra no chão em uma floresta. Suponha que não
fator que varia de forma periódica que coincida existe uma relação consequente entre estas
com a periodicidade da variável preditora, como duas variáveis. Entretanto, sua área de estudo é
pode ocorrer com avaliações temporais de fe- ampla, e há áreas muito úmidas onde há menos
nômenos sujeitos à sazonalidade. Em relação à serrapilheira (devido à decomposição mais rápi-
abordagem em blocos, a amostragem fixa mul- da) e em lugares mais úmidos as baratas sejam
tivalores simples pode apresentar vantagens em mais abundantes, mas não em função da serra-
termos de poder do teste. Exemplo com interca- pilheira. A umidade seria uma variável de con-
lação: podemos ver a relação entre a ocorrência fundimento a causar uma relação espúria. Nu-
de chuvas à noite e a atividade de cupins de dia ma abordagem em blocos, poderíamos separar
alternando contagens após uma noite de chuva, blocos com duas subunidades amostrais, uma
interrompendo as contagens nas noites seguin- com 1 a 5 litros de serrapilheira por m2 (pouca
tes com chuva, outra contagem após uma noite serrapilheira) e outra com 10 a 20 litros por m2
sem chuva e assim por diante. Também poderí- (muita serrapilheira) dentro de uma mesma área
amos avaliar o efeito das quatro fases da lua de 10 x 10 m. Neste desenho, o efeito das dife-
sobre a abundancia de mariposas. Teríamos renças de umidades seria praticamente elimina-
uma medida para cada fase da lua por mês. O do (pelo menos extremamente reduzido), pois
mesmo poderia ser feito sem intercalação (vari- teríamos locais com pouca e muita serrapilheira
94
em locais secos e em locais úmidos. A aborda- das variáveis em estudo, não a todas as variá-
gem em blocos não reduziria apenas o efeito da veis externas, pois algumas podem estar con-
umidade, mas de todas as variações espaciais troladas.
e temporais entre blocos. Quanto menores fo-
rem os blocos (em termos espaciais ou tempo- Do ponto de vista estritamente lógico, a aborda-
rais) em relação ao tamanho da área/ tempo do gem ao acaso no estudo de relações seria per-
estudo, mais efetivo o controle dos blocos sobre da de tempo, pois sempre poderia haver variá-
variáveis de confundimento em geral. veis de confundimento em que sequer pensa-
mos. Entretanto, testar hipótese não é só um
A abordagem com blocos com níveis de VR jogo matemático, nosso conhecimento de biolo-
pré-definidos são menos comuns. Nenhuma gia também conta. Normalmente conhecemos o
variável é manipulada, mas os valores das su- sistema que estudamos o suficiente para imagi-
bunidades amostrais são escolhidos. A opção nar quais são as principais candidatas a variá-
por fixar a VR é recomendada em estudos nos veis de confundimento. Em um estudo sobre o
quais a variável preditora não pode ser manipu- efeito de um nutriente sobre o crescimento de
lada (não experimental) e que tem valores da plantas precisamos suspeitar do efeito da sazo-
variável resposta que raramente são diferentes nalidade climática, não nos preocupamos muito
de zero. Por exemplo, se queremos estudar com um efeito da lua e consideramos irrelevan-
fatores de risco para Doença de Chagas asso- tes eventuais alterações no campo magnético
ciados a fazendas com extração de açaí, que é da terra. Se pudermos controlar as variáveis
algo pouco frequente, mas grave, podemos externas relevantes das formas descritas na
comparar blocos constituídos por fazendas on- seção 6.4, podemos assumir que um resultado
de houve registro de Doença de Chagas e uma significativo realmente corrobora a nossa hipó-
fazenda vizinha onde não houve. Comparando tese alternativa.
estes pares quanto ao uso de tela na casa,
cuidados em lavar os frutos de açaí, etc, pode- Há diferentes tipos de amostragens ao acaso.
mos ter um levantamento bastante objetivo dos Imagine um estudo sobre tamanho de bromélias
fatores de risco. Sem uma abordagem pareada, e a proporção de espécies predadoras na fauna
teríamos diversos costumes regionais de uma associada à água acumulada entre as suas
área endêmica que poderiam ser confundidas folhas. Você pode escolher: a) as primeiras 20
com comportamentos de risco. bromélias que encontrar, todas próximas entre
O problema de fixar a variável resposta é que si; b) numerar 1000 bromélias e sortear 20;
provavelmente não teremos balanço para os c) montar um “grid” na área de estudo e pegar
valores da maioria das variáveis em risco sele- as bromélias localizadas mais próximas às 20
cionadas. Provavelmente seja mais apropriado esquinas deste grid. Cuidado, embora o grid
considerar esta abordagem como uma boa fer- seja uma otimização da distribuição de amos-
ramenta de levantar fatores de risco do que tras em uma área, não é um controle sistemáti-
como um teste que comprova relações conse- co de nenhuma variável no sentido da seção
quentes. 6.4.
Amostragem de Níveis Livres Depois de ter controlado as variáveis de risco

mais importantes, a princípio é desejável se
Nas amostragens de níveis livres, ou amostra- posicionar as unidades amostrais o mais distan-
gens ao acaso, tanto VI como VR possuem te possível umas das outras, mas considerando
níveis livres. Lembre que “ao acaso”’ não tem restrições inerentes ao estudo como o custo
um sentido de aleatória (por sorteio) e nem tem associado à distância entre as coletas. Outro
o sentido de uma amostra representativa da critério de distância mínima é biológico, a dis-
população. O termo “níveis livres” refere-se tância entre unidades amostrais em um estudo
unicamente à liberdade dos valores nos níveis de ácaros não precisa ser tanta como o que é
95
necessário para um estudo de aves. A aleatori- apenas dois lagos para comparar o efeito do
zação é menos recomendável do que uma a- tipo de água sobre a abundância de peixes, e
mostragem sistemática como um “grid”. Outro chamamos a isto de pseudo-replicação. A
critério é o da autocorrelação espacial ou tem- pseudo-replicação é um problema porque as
poral, em que se avalia se a variância entre medidas obtidas em um mesmo lago tendem a
valores vizinhos é menor do que a variância ser semelhantes por compartilharem valores de
geral, indicando que a distância entre unidades várias variáveis externas, de forma que não são
amostrais precisa ser aumentada. Avaliações representativas da variação que temos dentro
gráficas de ausência de autocorrelação podem de cada nível da variável preditora. Por exem-
ser importantes complementos aos testes. plo, por acaso, este lago de água preta secou
há 3 anos, e a população de peixes ainda não
6.9 Independência pela distância voltou ao normal, de forma que teremos várias
medidas de abundância baixa para representar
Vimos que independência entre unidades amos- os lagos de água preta. Este é um exemplo
trais significa que as medidas das variáveis extremo de problema de proximidade de unida-
respostas foram obtidas em um contexto de des amostrais. Se tivéssemos 5 lagos de cada
coleta de dados em que o efeito de todas as tipo, mas considerássemos cada dia de coleta
variáveis externas foi: a) anulado pela atribuição como uma amostra preditora, teríamos também
aleatória dos níveis da variável preditora (abor- uma pseudo-replicação (chamada de pseudo-
dagem experimental); ou b) suficientemente replicação “sacrificial”). E se tirássemos medi-
(será?) reduzido por um desenho quase expe- das diárias de abundância de mosquitos contra
rimental, ou em blocos ou com intercalação de medidas diárias de precipitação, teríamos pseu-
níveis da VI; ou c) reduzido pelo controle de do-replicação temporal, pois tanto a abundância
cada uma ou mais das variáveis externas conde mosquitos como a chuva tendem a ser se-
sideradas relevantes por estratégias de fixação melhantes de um dia para outro.
univalor, fixação balanceada multivalores ou
inclusão da variável na análise. O que fazer para lidar com esta questão da
distância? Se temos um experimento de campo,
Entretanto, estas abordagens não resolvem isto é, a variável preditora for manipulável, en-
todos os problemas. Há situações em que não
podemos controlar devidamente variáveis ex-
ternas que variam no tempo e no espaço.
Normalmente, quanto mais próximas estiverem

duas Unidades Amostrais (no tempo e no espa-
ço), maior a chance delas estarem sob os
mesmos valores de diversas variáveis externas
de potencial confundimento. A composição da
fauna de solo a 1 m da lagoa tende a ter mais
semelhança com a fauna encontrada a 2m do
que com a fauna encontrada a 100m da lagoa.
Não é só porque a lagoa influi sobre as condi-
ções da sua vizinhança, há muitas razões Para
a semelhança, por exemplo, formigas do mes-
Figura 11- Desenhos amostrais mostrando a disposição
mo formigueiro serão capturadas em duas uni- dos níveis da variável independente (e. g. preto=
dades amostrais tão próximas. tratamento e branco=controle). Considerando a
possibilidade de um efeito espacial em gradiente, algumas
opções são recomendáveis e outras deveriam ser evitadas
No estudo 5 da seção 6.2 apresentamos uma (Hurlbert, 1984).
situação extrema de várias medidas feitas em
96
tão temos as possibilidades da figura abaixo, ente para determinar distâncias suficientes para
sendo a abordagem por blocos aleatórios a definir unidades amostrais independentes. En-
mais recomendada, e a completamente aleató- tretanto, também é comum os pesquisadores
rioa e a sistemática como boas. As outras abor- subestimarem o poder da estatística em detec-
dagens são consideradas de forte risco de contar efeitos sutis de variáveis externas de con-
fundimento. fundimento.
Se a variável preditora não for manipulável (es- Neste capítulo apresentamos uma série de téc-
tudo não experimental), podemos utilizar a es- nicas para reduzir a chance de variáveis exter-
tratégia de escolher os valores naturais dos nas obscurecerem os efeitos da variável predi-
níveis por intercalação ou com os níveis da tora, ou pior, gerar relações espúrias. A diretriz
Variável preditora ou da Variável resposta orga- mais genérica é que devemos planejar cuidado-
nizados em blocos. samente e com bom senso. Como foi dito antes,
a validação interna é uma fase crítica de um
Se houver limitações em um estudo não expe- trabalho. Vale a pena pensar bem antes de
rimental que impressa a organização em blocos, começar para não ter que recomeçar.
a opção é se manipular as distâncias. Mas a .
que distância podemos considerar que nossas
unidades amostrais são independentes? As Exercícios:
respostas para esta pergunta diferem muito em
função dos contextos possíveis para um estudo. 6.1- A “independência entre unidades amos-
trais” é uma expressão infeliz para descrever
a) Se você não tem limitações de custos de uma premissa de testes estatísticos. Explique
deslocamento, mas tem limitação de tamanho por que a expressão não é apropriada e qual a
da área de estudo e de custo por medida em independência que é premissa para qualquer
cada unidade amostral, simplesmente distribua teste estatístico.
suas unidades da forma mais regular possível
(normalmente um grid) para obter a maior dis- 6.2- Dê um exemplo de problema com uma
tância mínima possível entre amostras. variável de confundimento diferente dos apre-
b) Você pode coletar os dados ao longo de um sentados na seção 6.2.
transecto e depois fazer teses de autocorrela-
ção espacial (run test) para verificar a que dis- 6.3- Quais são os tipos de variáveis em função
tância entre unidades amostrais não há autocor- das suas participações em uma questão?
relação.
6.4- Qual é a diferença entre uma amostra-
c) Você pode coletar os dados ao longo de um gem ao acaso e uma amostragem aleatória e
transecto e depois fazer uma análise gráfica por que apenas a segunda é garantia de re-
para verificar a que distância entre unidades presentatividade.
amostrais não há autocorrelação. (Normalmente
a associação entre (b) e (c) é mais poderosa. 6.5- Qual é a diferença entre uma amostragem
aleatória para caracterização de uma população
d) Você pode partir de premissas biológicas e uma amostragem utiliza em estudos experi-
para assumir que determinada distância “segu- mentais?
ramente” é suficiente para considerar as unida-
des amostrais como independentes. 6.6- Explique as categorias de controle no sen-
tido de tratamento
Na prática, a opção d é assumida na maioria
dos estudos não experimentais. Frequentemen- 6.7- Explique as categorias de controle no sen-
te, os pesquisadores têm conhecimento sufici- tido de função
97
6.8- Explique as categorias de controle no sen-

tido de Estratégia
6.9- Qual é a diferença entre uma abordagem

experimental e uma abordagem quase experi-
mental.
6.10- Explique as diferentes categorias de estu-

dos não experimentais com níveis fixos multiva-
lores
6.11- Explique as diferentes categorias de estu-

dos não experimentais com níveis livres
6.12- Faça um mapa conceitual de um problema

relacionado com uma pesquisa que você reali-
zou, está realizando ou pensa em realizar.
6.13- Analise no seu mapa da questão os tipos

de variáveis conforme a seção 6.3.
6.14- Descreva três formas diferentes de coletar

os dados eliminando o risco de confundimento
para o estudo 1 da seção 6.2
6.15- Considerando os custos e tempo de mobi-

lidade, como proceder no estudo 2 da seção 6.2
para obter uma avaliação válida da forma como
varia a abundância de peixes entre Perú e Be-
lém?
6.16- Como poderíamos coletar os dados no

problema 3 da seção 6.2 e efeito da ordem dos
exames sobre a relação entre temperatura e
aproveitamento da prova?
6.17- Considere para o estudo 5 que você agora

vai trabalhar com 5 lagos de água branca e 5
lagos de água preta com 5 redes de pesca em
cada lago e duas ocasiões de coleta. Monte
uma tabela EPR para avaliar a se o tipo de á-
gua influi sobre a abundância de peixes.
98
7. Maximizando o poder do teste; f) Escolhas na definição dos níveis das

variáveis em estudo. Evite perguntas desneces-
teste sariamente complexas é a primeira diretriz para
se chegar a um resultado significativo. Algumas
Segurança, custo e poder. Estas são as três limitações de poder estão relacionadas a cus-
preocupações para se aperfeiçoar um carro de tos, como o tamanho amostral, a precisão da
corrida. As pessoas que apenas assistem às medida e algumas das ações para reduzir ruí-
corridas pensam que a ênfase está em conse- dos. Entretanto, pode se ganhar poder (a baixo
guir um carro mais potente (veloz). Entretanto, custo) com escolha de testes apropriados, esco-
não dá para usar uma turbina se o carro nem lhas certas nas definições de níveis das variá-
fosse conseguir fazer curvas; o piloto precisa veis (este capítulo) e com um bom planejamen-
chegar vivo para ganhar o campeonato. A segu- to amostral..
rança é a prioridade. O outro fator óbvio é o
custo. Por isto, o desafio é ter criatividade para
7.1 Testes unicaudais e testes
superar limitações tecnológicas e aumentar o
poder sem comprometer a segurança e dentro bicaudais
dos recursos que temos.
Quando uma questão tem duas possibilidades
Algo semelhante ocorre com nossos testes opostas de resultado, e valores extremos em
estatísticos, queremos o máximo de segurança qualquer das duas direções forem resultados
(menor chance de erro tipo I) e o máximo de relevantes, então necessitamos um teste bicau-
poder (menor chance de erro tipo II) dentro das dal. Por exemplo, homens e mulheres usam a
nossas limitações de custos (em dinheiro, tem- droga crack com a mesma frequência? Uma
po, paciência) e dentro de limitações relaciona- frequência significativamente maior de homens
das com aspectos intrínsecos do estudo (limites é um resultado tão relevante como uma fre-
físicos ou técnicos, questões éticas, etc). A quência significativamente maior de mulheres.
chance de erro tipo I é definida a priori ao esco- No teste bicaudal, a hipótese nula é sempre a
lhermos um α (nível de significância) e sua se- negação de uma diferença (e. g. Ho= não há
gurança está garantida se as premissas da diferença entre sexos no consumo de crack).
independência das amostras (capítulos 3 e 6) e
dos testes forem válidas. Após os cuidados com Por outro lado, quando uma questão tem duas
o erro tipo I, nossas preocupações devem recair possibilidades opostas de resultado e apenas
na redução do erro tipo II. Evitar o erro tipo I é em uma direção os valores extremos têm rele-
tão importante como garantir a segurança do vância, então necessitamos um teste unicaudal.
piloto. Evitar o erro tipo II é tão importante como Por exemplo, esta substância X reduz a febre
tornar o carro competitivo. Esta analogia mostra de pacientes? (i.e. tem potencial para ser utili-
que o erro tipo II também é uma preocupação zado como remédio anti-térmico?). A princípio,
relevante, mesmo que não seja definido a priori, haveria duas possibilidades de resultados signi-
o erro tipo II deve ser minimizado. ficativos, uma redução maior no grupo tratado
com a substância e uma redução maior no gru-
O poder de um teste é sua capacidade de rejei- po controle. Entretanto, uma redução maior no
tar uma hipótese nula, isto é, quanto mais pode- grupo controle não é um resultado relevante
roso for um teste menor a chance de levar a um para quem busca um anti-térmico, seja ele de-
erro tipo II. Contribuem para um maior poder: vido a um mecanismo real de aumento da febre
a) Perguntas mais objetivas; b) Um maior tama- ou devido ao acaso estatístico de obter valores
nho amostral; c) Medidas mais precisas; maiores de redução de temperatura no grupo
d) coletas feitas de forma a limitar o ruído (vari- controle. Apenas a redução significativa da fe-
ação não tendenciosa de variáveis que não são bre no grupo tratado é um resultado relevante
o objeto do estudo); e) Maior poder no tipo do neste caso. No teste unicaudal, a hipótese nula
99
é sempre a negação de uma desigualdade mos VR e VI, temos Variáveis de Medidas Re-
(maior ou menor- e. g. Ho= A redução de tem- petidas (VRM1 e VRM2).
peratura no grupo tratado não é maior do que a
redução de temperatura do grupo controle). O teste pareado parece um teste de duas variá-
veis, mas é um teste com uma única variável, a
A opção por testes unicaudais ou bicaudais diferença (quantitativa, ordinal ou binária) entre
ocorre em contextos que pedem determinados os valores das variáveis de níveis. Em nosso
testes. Por isto, os testes binomiais de uma e exemplo, a diferença de nota entre Gluglu e
duas proporções, o “Fisher exact test”, o Teste Gostoso, que será positiva se Gluglu tiver me-
T simples, de “duas amostras” e pareado e tes- lhor nota e será negativa se Gluglu tiver menor
tes Z têm as opções de uma ou duas caudas nota. A hipótese nula é que as notas não serão
enquanto tabelas de contingência, ANOVA e significativamente diferentes, isto é, que a dife-
testes de Correlação não têm esta opção. Por rença não será significativamente diferente de
ser uma opção, podemos dizer “teste unicaudal” zero.
ou “teste na opção unicaudal”. Quando a ques-
tão pede a opção “unicaudal” e utilizamos a Se a distribuição das diferenças for semelhante
opção “bicaudal”, perdemos poder no teste des- a uma curva normal (ver seção 3.3- Análise de
necessariamente. Por outro lado, ao utilizarmos normalidade em testes), o teste utilizado é o
a opção unicaudal, não teria sentido discutir um teste T pareado (ou o teste T simples sobre as
resultado na direção oposta da hipótese alterna- diferenças). Se a distribuição das diferenças
tiva. não for semelhante a uma curva normal, a al-
ternativa é a utilização do teste Wilkoxon Pare-
7.2 Testes pareados e testes em ado. Se não houver diferenças quantificadas,
blocos mas apenas uma diferença categórica (Gluglu
preferido ou Gostoso preferido ou empate),
Qual é o refrigerante preferido pelos estudantes, elimina-se os dados do empate e aplica-se um
“Gluglu” ou “Gostoso”? Vamos ver. Aborda- “Sign test”, que é equivalente a um teste de
gem 1: Pegue 40 pessoas e ofereça para cada proporção com hipótese nula que nenhum deles
uma um copo de refrigerante de uma das mar- difere estatisticamente de 50% das preferên-
cas e peça para dar uma nota de zero a dez. cias.
Abordagem 2: peque 20 pessoas e dê a cada
uma delas um copo com Gluglu e um copo com Qual abordagem é mais poderosa, a pareada
Gostoso (sem identificação) para elas darem ou a não pareada? Em primeiro lugar, nem to-
notas para cada um (a ordem é sorteada e a dos os problemas podem ser abordados com
pessoa está vendada). O primeiro procedimento testes pareados. Você não pode pegar um ani-
ilustra um teste não pareado e o segundo ilustra mal do sexo masculino, medir seu tamanho,
um teste pareado. trocar o sexo dele e medir seu novo tamanho.
Para avaliar a existência de dimorfismo sexual
Para a tabela EPR temos pessoa como entida- em tamanho somos obrigados a utilizar uma
de nos dois procedimentos, mas as proprieda- abordagem não pareada. Em situações como o
des do primeiro são a variável preditora Refrige- exemplo do refrigerante acima, as duas aborda-
rante (Gluglu ou Gostoso) e a variável resposta gens são válidas, entretanto, o teste pareado
Nota (0 a a 10), enquanto na segunda aborda- normalmente é mais poderoso porque as pes-
gem as propriedades são uma variável para a soas diferem muito em critérios, algumas pes-
primeira coluna Nota do Gluglu (0 a 10) e uma soas são muito críticas, e darão notas baixas
variável para a segunda medida (nota do Gos- para as duas, outras muito generosas e darão
toso (0 a 10). Na segunda abordagem não te- notas altas para as duas. A abordagem pareada
ganha força neste caso porque diminui a chan-
ce de se perder a sutileza em meio à variação
100
entre pessoas. Se o crítico pegar um refrigeran- ro de baratas. Na abordagem pareada, a unida-

te e o generoso pegar o outro, esta diferença de amostral seria um par de quadrados de 1m2,
não será tendenciosa, mas adicionará variância um medido de dia e outro medido de noite. É
à análise, reduzindo o poder do teste. uma abordagem duas vezes mais “cara” em
termos de m2 por unidade amostral. Se as dife-
Entretanto, suponha que o custo do estudo seja renças entre o número de dia e o número de
nos copos de refrigerante e que as pessoas não noite for sutil quando comparada à diferenças
diferem muito em critérios. Neste caso, a abor- espaciais entre número de baratas, a aborda-
dagem pareada terá um custo duas vezes mai- gem pareada será mais poderosa. Se as dife-
or, ou, se fixarmos por custo, teremos que redu- renças espaciais forem pequenas, então a a-
zir o número de pessoas, o que reduz o poder bordagem não pareada pode chegar a ser duas
do teste. vezes mais poderosa que a pareada. A amos-
tragem pareada também é mais vantajosa em
É necessário cuidado para não confundir a Uni- estudos observacionais em que há dúvidas
dade Amostral em estudos pareados e em es- sobre a independência das unidades amostrais.
tudos não pareados. Suponha que você queira Retornaremos a isto no capítulo 6.
saber se baratas são mais abundantes na ser-
rapilheira da mata de noite ou de dia. Em uma Voltemos ao exemplo do refrigerante, o que
abordagem não pareada, cada unidade amos- aconteceria se déssemos mais de dois tipos
tral seria um quadrado de 1m2, as propriedades para as pessoas experimentarem? O teste pa-
seriam período da coleta (dia ou noite) e núme- reado é um preparo conceitual para a aborda-
101
Figura 7.1- Esquema de desenho em bloco com 4 "subunidades" amostrais por bloco.
gem em blocos que

tem mais de dois ní-
veis. Como dissemos
acima, nos testes
pareados temos dois
níveis da variável
preditora implícita.
Quando temos mais
níveis, então temos
uma ANOVA de me-
didas repetidas e um
planejamento amos-
tral em blocos. As
abordagens pareadas
e em blocos são abordagens fortes em termos
de evitar relações inconsequentes espúrias Figura 12- Classificação dos tipos de níveis de variáveis.
(seção 2.4) que serão discutidas no capítulo 6.
Entretanto, elas dependem de algumas condi- momento, concentremo-nos na diferença entre
ções que serão discutidas naquele capítulo. níveis fixos e livres através de exemplos.
7.3 Níveis fixos e níveis livres Definições: Uma variável preditora tem Níveis
Fixos se os valores dos níveis foram seleciona-
Uma classificação de níveis é importante para dos para o teste e Níveis Livres se os valores
diferenciar diretrizes ligadas ao poder de testes, não foram selecionados, isto é, se foram deter-
para diferenciar cálculos de probabilidade em minados “ao acaso” ou “livremente”.
ANOVA, para determinar tipos de regressões e
para questões relacionadas ao planejamento Exemplo:
amostral (capítulo 6).
Problema 1- A pureza do café difere entre as
Antes um esclarecimento. Usamos o termo marcas A, B, C. D e E?
“Níveis livres” ao invés do termo mais utilizado Problema 2- A pureza do café varia entre mar-
“Níveis ao Acaso” ou “Níveis Aleatórios” pois o cas? [Você escolhe ao acaso (livremente) 5
primeiro é mais claro porque: a) “livre” é antô- marcas de café (A, X, F, T e M) para represen-
nimo de “fixo”, o que facilita a compreensão do tar todas as marcas.]
conceito; b) níveis livres não são rigorosamente Problema 3- A produtividade do feijão muda ao
aleatórios (não são obtidos por sorteio), embora se adicionar 0 (controle), 2 e 4 mg de Nitrogênio
possam ser considerados “ao acaso” (ver dife- ao solo?
rença na seção 6.4); c) Porque este termo gera Problema 4- A produtividade do feijão é diferen-
menos confusão. O sentido de “ao acaso” em te em função da concentração de nitrogênio no
níveis pode ser confundido com o sentido de solo (valores de campo variando ao acaso ou
“ao acaso” na “amostragem ao acaso” e na livremente entre 0 e 4 mg de N).
“atribuição de níveis ao acaso”. Por exemplo, Os problemas 1 e 2 e os problemas 3 e 4 pare-
veremos na seção 6.1 que podemos atribuir cem iguais, mas não são. Nos problemas 1 e 3
níveis fixos ao açaso para uma unidade amos- os valores dos níveis são definidos e fixos pelo
tral em um experimento, mas não é possível pesquisador e nos problemas 2 e 4 eles são
atribuir níveis livres ao acaso para uma unidade valores "ao acaso".
amostral (dizer níveis “ao acaso” atribuídos ao
acaso seria algo confuso em um assunto que já Podemos ter níveis fixos em um único valor,
tem alguma complexidade intrínseca). Para o como vimos no capítulo anterior para o controle
102
de variáveis externas, ou com diferentes valores

pré determinados da variável preditora para
7.4 Relações retilineares, curvilineares
analisar o efeito na variável resposta. Níveis
multivalores da variável preditora podem ter os e monotonicidade.
valores atribuídos aleatoriamente ou sistemati-
camente. Níveis livres são sempre multivalores Quando temos uma relação entre duas variá-
ao acaso. Os níveis fixos multivalores também veis que são ordinais ou quantitativas, esta
podem ser divididos na forma como é feita a relação pode ser descrita por uma linha em um
atribuição do valor em Níveis Fixos por Mani- gráfico EPR, e esta relação é denomina linear.
pulação, na abordagem Experimental (ex. duas Se uma reta descreve esta relação apropriada-
concentrações de uma droga que foram injeta- mente, ela é chamada retilinear, do contrario
das em ratos) e Níveis Fixos por Seleção, na teremos uma relação curvilinear. Se a relação
abordagem não experimental (e. g. a compara- for sempre ascendente ou sempre descendente,
ção de lagos com dois tipos de água para ver ela é chamada de tendência monotônica. Se ela
qual tipo tem maior abundância de peixes. não tiver esta característica, sendo ocasional-
mente ascendente e ocasionalmente descen-
A distinção em níveis fixos e livres não afeta o dente (e. g. situações com “ótimos” ou situações
cálculo da probabilidade no caso de variáveis cíclicas), ela é chamada de tendência variável.
categóricas em testes de ANOVA com uma
única variável preditora, ou no caso de testes de 7.5 O poder e os tipos de teste
ANOVA com mais variáveis preditoras que pos-
suam balanço prefeito. Em uma ANOVA com As diretrizes para maximizar o poder de um
mais de uma variável preditora sem balanço e teste, incluindo as mostradas nas seções ante-
com alguma das variáveis com níveis livres, é riores e outras que serão discutidas agora estão
necessária a utilização de uma ANOVA Modelo resumidas na figura 7.4.
II ou Modelo III. Não vamos nos aprofundar
neste caso, pois não é uma situação muito co- a) Utilize os testes paramétricos (Teste
mum, entretanto, é essencial
que o usuário de estatística 20
reconheça quando a situação Tendênc ia monotônical
Variável dependente
não permite uma ANOVA tradi- Tendência variável

cional (Modelo I) e procure se
informar como agir (e. g.
www.matstat.com/ss/).
10
Esta distinção é também impor-
tante no caso de variáveis pre-
ditoras quantitativas. O teste de
uma regressão retilinear não é
afetado pelo tipo de nível, mas
a reta que descreve a relação 0
só pode ser calculada por mí- 0 10 20 30 40
nimos quadrados (Modelo I) se Variável Independente
a variável for fixa. Se for uma
Figura 13- Quatro tipos de relações monotônicas (azuis) e dois e-
variável com níveis livres deve- xemplos de relações com tendências variáveis.(vermelho).
se utilizar um método diferente,
por exemplo, por iteração (Mo-
delo II). O mesmo se aplica a
regressões curvilineares.
103
T,Análise de Variância, e Regressão Retilinear/ rado com a variação entre unidades amostrais
Correlação) quando as premissas destes testes que seriam utilizadas em um teste não pareado
estiverem sendo atendidas. Se estas premissas (do contrário prefira uma abordagem não pare-
não forem satisfeitas considere a possibilidade ada- seção 4.2);
de transformar os dados. Se ainda assim não
atender as premissas, utilize os equivalentes d) Limite os testes múltiplos. Como foi dito no
não paramétricos (Testes Mann-Whitney, Krus- capítulo anterior, testes múltiplos requerem
kal-Wallis e correlação de Spearman). Não se correções no nível de significância, o que leva a
preocupe muito com as situações intermediá- uma redução brutal no poder de um conjunto de
rias, os testes paramétricos são relativamente testes A limitação do número de testes é uma
robustos e que os testes não paramétricos nor- forma recomendável de se lidar com este pro-
malmente não são muito menos poderosos, de blema. Ao invés de realizar um teste para 100
forma que os dois são aplicáveis (seções 3.3 e espécies, escolha apenas as 10 melhor amos-
3.4). tradas ou 10 que apresentem um interesse es-
pecial. Outra abordagem seria repetir o estudo
b) Use testes unicaudais em questões que pe- apenas com as espécies nas quais o Ho foi
dem esta opção; rejeitado e ver se acontecem os mesmos resul-
tados. Se o mesmo resultado é significativo
c) Use testes pareados ou em blocos quando a para uma espécie em dois testes independen-
questão permite sua utilização e quando o fator tes, então ele provavelmente é verdadeiro. (se-
em estudo tenha um efeito sutil quando compa- ção 4.3)
Figura 14 Resumo das diretrizes para maximizar testes estatísticos (ver texto).
104
mais poderosa do que atribuir só três categorias

7.6 O poder e os níveis das variáveis ordinais (arenoso, intermediário e argiloso).
em estudo
e) Restrinja os níveis categóricos ao mínimo
necessário, se possível, utilize binário. É com-
A influência dos tipos e número de níveis das plicado trabalhar com variáveis respostas cate-
variáveis em estudo diverge para as variáveis góricas. De forma geral, se ganha poder ao se
respostas e as preditoras com níveis livres por transformar esta variável em binária por agluti-
um lado e para as variáveis preditoras com nação ou por exclusão de níveis, mesmo com a
níveis fixos por outro. perda de informação, devido ao ganho em obje-
tividade. Se tiver que trabalhar com categóricas
4.7.1- Variáveis respostas e variáveis preditoras com mais de dois níveis, quanto menor o núme-
com níveis livres ro de níveis mais poderoso o teste. Isto ocorre
a) Dê prioridade a medidas quantitativa com porque nas variáveis o aumento do número de
relação às ordinais. Por exemplo, evite valores níveis não implica em mais precisão, ao contrá-
como “Arenoso” se puder medir a porcentagem rio, implica em uma questão menos objetiva.
de areia no solo.
b) Dê prioridade a medidas ordinais com rela- 4.7.2- Variáveis preditoras com níveis fixos
ção às categóricas. Isto é, se sua variável res-
posta possuir categorias com uma ordem rele- Quando a variável preditora for fixa, então ela
vante para a questão, evite tratá-la como se pode, e deve ser manipulada no número e nos
fosse categórica; na chave de testes, entre co- valores da escala de medida em função dos
mo ordinal. A perda de informação ao omitir a seus objetivos.
ordem dos níveis resulta em perda de poder.
Se a variável preditora tiver escala quantitativa
c) Quanto maior o número de níveis quantitati- ou ordinal, temos a flexibilidade de determinar
vos (= precisão) maior o poder do teste. Evite quais serão os valores da escala de medida
medidas grosseiras se puder ter medidas mais (níveis fixos multivalores). Se o objetivo princi-
exatas. Especialmente críticas são as medidas pal for determinar se existe uma relação, ha-
com menos de 10 níveis na variável resposta. vendo a certeza que esta relação só poderia ser
Entretanto, não precisa exagerar na precisão, monotônica, então o máximo poder é obtido
pois a relação custo da precisão e benefício em utilizando apenas dois valores extremos. Por
ganho de poder não é retilinear. Se você obtiver exemplo, se tivermos 20 vasos e quisermos
mais de vinte níveis com seu velho pHmetro saber se a granumolometria do solo afeta o
com duas casas decimais, fique tranquilo, não crescimento de uma planta, e acreditássemos
há necessidade de comprar um pHmetro dez que a relação seria monotônica, o melhor seria
vezes mais caro para ganhar mais uma casa plantar 10 plantas com 0% de areia e 10 plantas
decimal. E lembre-se, mais importante do que a em 100% de areia.
precisão de um aparelho é que ele esteja ade-
quadamente calibrado. Se o objetivo principal for a descrição da forma
da relação, então a melhor descrição é obtida
d) Quanto maior o número de níveis ordinais, com o maior número de níveis possível, mas se
maior o poder do teste. Se não puder utilizar perde um pouco do poder. Se o objetivo for uma
níveis quantitativos, utilize o máximo de níveis descrição aproximada com um poder médio,
ordinais que puder. Por exemplo, se quiser ver pode-se utilizar um número de níveis mediano.
o efeito da frequência de plantio sobre a granu- Neste caso, amostras preliminares seriam ne-
lomentria do solo (em ordinal), ordene as amos- cessárias para se definir quais seriam estes
tras em ordem da porcentagem de areia e nu- níveis, levando-se em conta a forma da curva
mere as posições. Esta abordagem seria muito definida preliminarmente. Seguindo o exemplo
105
do parágrafo anterior, Se quiséssemos descre- de cabeça”+”enjôo”-> “mal estar”). Um exemplo

ver a relação, utilizaríamos 0, 5, 10, 15, ...95, extremo: duas variáveis quantitativas como
100% de areia. Uma abordagem intermediária tamanho de tartarugas e número de ovos po-
seria utilizar 0, 0, 0, 0, 25, 25, 25, 25, ... 100, dem ser transformadas em tamanhos “grande
100, 100, 100. ou pequeno” e em número de ovos “muitos ou
poucos”. A análise será mais grosseira, mas
Caso não haja certeza que a relação seria mo- não está errada. O contrário não é recomenda-
notônica, então a prioridade é obrigatoriamente do ou não é possível, por exemplo, é errado se
a descrição da relação, mesmo que nosso inte- utilizar testes paramétricos em situações que
resse seja sobre a existência da relação. exigem testes não paramétricos e não se pode
transformar uma variável categórica não ordinal
Quando a variável for de natureza categórica em uma ordinal.
(não ordinal), então, quanto menor o número de
níveis mais poderoso tende a ser o teste. Aqui, Reduções de poder normalmente devem ser
naturalmente dependerá de quais níveis entra- evitadas, porque costumam ser desvantajosas.
rão na análise. Por exemplo, se queremos com- Entretanto, há situações em que podemos re-
parar a eficiência de diferentes marcas de ra- duzir o poder em um aspecto da análise para
ção, um teste com muitas marcas será pouco melhorá-la no seu conjunto, por exemplo: a) no
poderoso, enquanto um teste comparando ape- caso de testes múltiplos em que alguns dos
nas duas marcas será mais poderoso para um testes têm as premissas para estatística para-
mesmo número de amostras. Digamos que a métrica e outros não, é melhor utilizar testes
marca A seja a melhor e a marca B seja a pior. não paramétricos em todos por uma questão de
A inclusão de 10 marcas pode levar-nos a acei- padronização; b) Quando há um forte desbalan-
tar a hipótese nula que é a ausência de diferen- ço no numero de medidas entre os níveis da
ças entre marcas. Comparações aos pares têm variável preditora; c) Quando houver critérios
maior poder individualmente, mas a compara- racionais para a fusão de categorias de uma
ção conjunta de cada par possível constitui variável categórica de forma a se aumentar o
testes múltiplos. Da mesma forma que foi suge- poder do teste; d) no caso de uma transforma-
rido com os testes múltiplos, a abordagem mais ção de uma variável ordinal de poucos níveis (3
poderosa seria escolher poucas comparações ou 4) em uma categórica com os mesmos níveis
com base em amostras preliminares ou algum porque a diversidade de ferramentas estatísti-
outro critério relevante. cas para análises categóricas é bem maior e a
perda de poder não é muito grande neste caso;
7.7 Perdas voluntárias de poder e) nos casos em que a variável resposta for
categórica (não binária) e a preditora for quanti-
É sempre possível se manipular os dados na tativa ou ordinal, porque não há testes simples
direção de uma redução do poder da analise. diretos para estas situações (ver tabela de tes-
Testes não-paramétricos podem substituir testes); f) em testes não paramétricos de ranque-
tes paramétricos. Perguntas unicaudais podem amento com muitos valores zero (>20% dos
ser testadas com testes bicaudais. Variáveis valores) na variável resposta é mais apropriado
quantitativas podem ser tratadas como ordinais trabalhar com presença-ausência (mas ainda
ou como categóricas (perda de informação). melhor seria usar um teste de permuta).
Variáveis ordinais podem ser tratadas como
categóricas. Medidas quantitativas com alta 7.8 Testes múltiplos
precisão podem ser arredondadas, o que reduz
o número de níveis. Níveis ordinais seguidos Quando realizamos testes múltiplos para a
podem ser aglutinados (bom+muito bom-> satis- mesma questão genérica, alguns autores de-
fatório); variáveis categóricas podem ser agluti- fenderam que o nível de significância (α) deve-
nadas por algum critério de semelhança (“dor ria ser corrigido porque a chance de rejeição
106
inapropriada da hipótese nula (erro tipo I) é teste, pois estaríamos desconsiderando que
multiplicada pelo número de testes. Por exem- alguns testes levam a positivos verdadeiros) ,
plo, quando testamos se a espécie 1, a espécie que podemos estimar pelo Bonferroni sequenci-
2, … e a espécie 100 são sensíveis uma deter- al) em α=0,05. Entretanto, a maioria das pesso-
minada substância baseado em 100 experimen- as tende a considerar cada teste como um teste
tos, se rejeitarmos Ho para 10 espécies utilizan- independente. Por isto, no caso de tabelas com
do um nível de significância de 5%, então, te- uma sequência de testes relacionados, conside-
remos cerca de 5 falsos positivos e, portanto, ro recomendável se apresentar uma coluna com
apenas cerca de 5 seriam positivos verdadeiros. P (probabilidade calculada) e outra com a con-
Cerca da metade das espécies consideradas firmação da significância do teste após uma
sensíveis seriam falsos positivos ou relações correção semelhante à de Rice (1989). Isto
espúrias, não devido a uma relação inconse- ajuda a dar uma referência de probabilidade
quente, mas devido ao aumento do risco resul- dentro de um determinado contexto.
tante do excesso de testes.
Em segundo lugar, devemos pensar bem antes
A correção mais simples para testes múltiplos é de multiplicar desnecessariamente o número de
chamada de Correção de Bonferroni (o nome do testes em um estudo. Os críticos das correções
matemático que a criou) e é a divisão do α pelo estão certos ao dizer que não existem limites
número de testes. Entretanto, se você tiver 20 lógicos para correções de testes múltiplos fora
testes e um valor inicial de α=0,05, o novo α de tabelas. Por outro lado, a credibilidade de um
será 0,001, o que um nível de significância ex- positivo em cinco testes é certamente menor
tremamente conservador. Rice (1989) reco- que a de um positivo em 50 testes. A valoriza-
menda a utilização de um cálculo menos con- ção da estatística nos últimos anos acentuou a
servador que ele descreve como um “Bonferroni tendência a se multiplicar exageradamente o
Sequential” com um diferente valor de α para número de testes dentro de cada estudo, às
cada teste. Ainda é uma correção conservado- vezes para todas as perguntas logisticamente
ra, mas bem menos, e, portanto, muito útil. testáveis, sejam elas relevantes ou não. Os
cursos de metodologia precisam enfatizar que
Por outro lado, a utilização de correções em isto é um problema e incentivar a atitude de
testes múltiplos foi desaconselhada por alguns restringir o número de testes após considera-
autores (e. g. Moran, 2003; Gotelli & Elison, ções teóricas ou coletas preliminares. Esta é a
2010). Eles questionam a drástica redução de atitude mais poderosa, pois reduz o número de
poder de testes com as correções e o limite testes quando fazemos a correção ou suporta
lógico para o número de testes considerados na um mínimo de credibilidade aceitável se não a
correção. Se aplicássemos a lógica da correção fizermos.
rigorosamente, teríamos de corrigir pelo número
de testes de todo um artigo? Teríamos de corri-
gir por todos os testes feitos durante a vida de Exercícios
um pesquisador? Claro que isto seria absurdo.
Eles estão certos. Então, o que fazer, simples-
mente esquecer a questão das correções? Não, 7.1- O que é poder de um teste e por que a
a reflexão sobre este problema é essencial. preocupação com o poder é geralmente secun-
dária na pesquisa, mas ainda assim é muito
Em primeiro lugar, temos que reconhecer que relevante?
há um problema cultural na forma como as pes-
soas interpretam qualquer conjunto de testes. É 7.2- Cite seis aspectos em um estudo que con-
preciso aprender a ver conjuntos de testes sa- tribuem para um maior poder.
bendo que teremos cerca um falso positivo para
cada 20 vezes que rejeitamos Ho (não é a cada
107
7.3- Em que situação é preferível utilizar um níveis e por quê? c) em que escala o poder
teste unicaudal e por que na dúvida devemos diminui e por quê?
utilizar um teste bicaudal?
7.12- Quando os níveis da variável preditora
7.3- Dê um exemplo de previsão de hipótese são fixos em relações monotônicas, qual a for-
unicaudal pareada envolvendo diferenças de ma de se obter o maior poder com a escolha
dieta de gêmeos e sucesso escolar. Faça uma dos níveis?
tabela EPR para este exemplo.
7.13- Qual é o procedimento na escolha de
7.4- Faça uma tabela EPR para avaliar se o níveis quando não se sabe qual é a forma da
número de baratas é maior em coletas noturnas relação
comparada com coletas noturnas para um estu-
do com amostras não pareadas e outra tabela 7.14- Em que situações é recomendável tomar
EPR para realizar a mesma comparação em um atitudes que reduzem o poder de um teste?
teste pareado. Explicite a entidade em cada
tabela. Quais as vantagens e desvantagens de
cada abordagem?
7.5- Como decidir se aplicamos um teste para-

métrico ou não paramétrico em uma abordagem
pareada?
7.6- O que são testes múltiplos e como é reali-

zada a correção no nível de significância se
quisermos evitar o aumento global na chance
de erro tipo I?
7.7- Por que estudos experimentais quase sem-

pre têm níveis fixos e estudos observacionais
geralmente têm níveis livres. Cite um exemplo
de estudo observacional com níveis fixos.
7.8- Faça um gráfico mostrando uma relação

retilinear, uma relação curvilinear monotônica e
uma relação curvilinear variável.
7.9- Como varia o poder de um teste em função

do tipo de teste (paramétrico x não paramétrico;
unicaudal x bicaudal) com uma hipótese nula
unicaudal com as premissas para testes para-
métricos válidas.
7.10- Quando um teste pareado é mais podero-

so que um não pareado e vice versa.
7.11- Quando os níveis são livres: a) quais as

escalas de medida mais poderosas; b) em que
escalas o poder aumenta com o número de
108
8. Glossário C. Estratégia Absoluto- Estudo em condi-

ções em que apenas a variável preditora tem
efeito relevante sobre a variável resposta.
Abordagem Experimental- Pesquisa na qual C. E. Aleatorização VI- Estudo em condi-
os valores das variáveis preditoras são manipu- ções controladas estatisticamente pela atribui-
lados para verificar seu efeito sobre a Variável ção aleatória dos níveis da variável preditora.
resposta, em duas condições, com controle C. E. Sistematização VI- Estudo em condi-
absoluto de variáveis externas ou com controle ções controladas estatisticamente pela atribui-
estatístico por aleatorização na atribuição dos ção sistemática dos níveis da variável preditora.
níveis da variável preditora. C. E. Blocos VI- Estudo em condições con-
Abordagem Quase experimental- Pesquisa troladas estatisticamente pela atribuição aleató-
com manipulação dos valores da Variável predi- ria dos níveis da variável preditora dentro de
tora para verificar seu efeito sobre a variável blocos.
resposta, mas sem controle absoluto ou estatís- C. E. Fixação VE- Estudo em condições
tico com atribuição aleatória de níveis. parcialmente controladas estatisticamente pela
Abordagem Não Experimental- Pesquisa sem fixação dos níveis de uma variável externa.
manipulação nos valores das variáveis predito- C. E. Inclusão VE- Estudo em condições
ras. parcialmente controladas estatisticamente pela
Acurácia- é o grau de proximidade com a me- inclusão de uma variável externa.
dida verdadeira. C. Função Anti-ruido Ações de controle
Aleatório- Por sorteio ou processo equivalente. com a finalidade de aumentar o poder de um
Não é sinônimo de “ao acaso”. teste pela redução do efeito aleatório de variá-
Alfa (α)- Nível de significância adotado antes de veis externas.
realizar um teste estatístico que indica a proba- C. F. Anti-tendenciosidade- Ações de con-
bilidade de erro tipo I. trole com a finalidade de aumentar a confiabili-
“Ao acaso”- Devido a um conjunto de peque- dade de um teste pela redução do efeito ten-
nas causas preditoras entre si, que se prendem dencioso de variáveis externas.
a leis ignoradas e que determinam um aconte- C. de Tratamento Nulo Simples- Amostras
cimento qualquer, não é sinônimo de aleatório. sem tratamento utilizadas para comparar com
Autocorrelação- Relação entre valores medi- amostras que sofreram um determinado trata-
dos em sequência espacial ou temporal, por mento.
exemplo, relação entre Xi e Xi+1, onde i é a C. T. Nulo Processual- Amostras com tra-
iésima medida. tamento parcial utilizadas para comparar com
Balanço- Igualdade (balanço perfeito) ou seme- amostras que sofreram um determinado trata-
lhança no número de entidades para cada nível mento completo.
da variável preditora. C. T. Nulo Reverso- Amostras com diferen-
Bloco- Conjunto de unidades amostrais que tes tratamentos para terem seus efeitos compa-
funcionam como entidade em uma tabela EPR- rados.
Bloco. Nesta tabela, as linhas são os blocos e Desenho Experimental/ Amostral- Descrição
as colunas propriedades em cada unidade a- de parte ou de todos os procedimentos conside-
mostral. rados relevantes para garantir as validações
Contraste- Avaliação a posteriori em uma Ana- interna, da medida e analítica em um estudo. O
lise de Variância paramétrica ou não paramétri- primeiro termo é mais apropriado para estudos
ca para determinar quais níveis são significati- experimentais e o segundo para estudos não
vamente diferentes. experimentais (i.e. sem manipulação da variável
Controle- Diferentes tipos de ações planejadas preditora)
para aumentar a confiabilidade e poder de um Entidade- Qualquer coisa que podemos imagi-
teste. nar e que possui propriedades.
109
Escala de Medida- Categoria de tipo de medida Probabilidade: Valor de uma expectativa de

de uma variável. As principais são binária, cate- chance de uma determinada ocorrência.
górica, ordinal ou quantitativa. Propriedades- Atributos que qualificam uma
Estatística Descritiva- Procedimentos mate- entidade. Em um estudo, uma propriedade que
máticos e gráficos que permitem caracterizar varia costuma ser chamada de variável.
um conjunto de dados e/ou formas de relações. Pseudo-replicação- o uso de estatística infe-
E. Inferencial- Procedimentos matemáticos rencial para testar efeitos de tratamentos com
que permitem a tomada de uma decisão sobre a dados de experimentos que não são replicados
existência de uma relação com base em crité- ou quando as replicatas não são estatisticamen-
rios pré determinados. te independentes
E. Intuitiva- Processos intuitivos equivalen- Planejamento Amostral- O mesmo que dese-
tes à estatística formal utilizados para tomada nho experimental
de decisões cotidianas. Premissa- uma proposição que precisa ser
Gráfico EPR- Gráfico cartesiano com a Variável verdadeira para podermos chegar a uma dada
preditora na abscissa, a resposta na ordenada e conclusão.
pontos representando entidades. Poder- Em estatística significa a capacidade
Hipótese- Uma possibilidade de resposta para que um teste ou um procedimento tem de rejei-
uma pergunta com duas ou mais alternativas. tar a hipótese nula quando ela é falsa.
Independência- Premissa de testes estatísticos Relação: Qualquer tendência significativa que
garantida por um desenho experimental apro- exista entre valores de propriedades de algum
priado ou assumida por análise ou por conside- tipo de entidade. Com base na existência de
rações teóricas. Se a premissa de independên- relações que podemos fazer previsões com
cia for falsa, o teste não será confiável. algum grau de certeza.
Independência pela distância- premissa que a R. Consequente- A relação existente entre
distância entre unidades amostrais é suficiente Duas variáveis que estão sobre a mesma linha
para tratar as unidades amostrais como se fos- de causalidade. Pode ser direta ou indireta, mas
sem independentes. não apenas porque ambas são influenciadas
Nível de Medida- Um valor assumido por uma por uma terceira.
variável dentro de um banco de dados. R. Curvilinear- Relação linear entre duas
NM Fixo- Um ou mais valores pré determi- variáveis quantitativas (excepcionalmente ordi-
nados assumidos por uma variável dentro de nais) que é significativamente não retilinear.
um banco de dados. R. Espúria- Uma relação encontrada entre
NM Fixo Univalor Quando uma variável tem duas variáveis interpretada como relação causal
um nível único pré-determinado. sem que haja realmente uma relação causal
NM Fixos Univalores Quando uma variável entre elas. É impossível garantir que não ocor-
tem mais de um nível pré-determinado. ram, mas elas podem ser reduzidas pelo nível
NM Livre- Quando os níveis de uma variável de significância assumido (um controle de risco
não são pré-determinados. conhecido), com desenhos experimentais (um
NM Multivalor- Quando uma variável tem controle contra riscos desconhecidos) e corri-
mais de um nível pré-determinado ou não. gindo os níveis de significância pelo número de
NM Unilote- Quando as entidades provêm testes (controle de inflação de risco).
de um único lote R. Inconsequente- Uma relação entre duas
NM Multilote Quando as entidades provêm variáveis em função das duas serem influencia-
de mais de um lote. das por uma terceira. Se houver conciência da
Nível de Significância- Ver Alfa. falta de causalidade entre as duas variáveis, a
Precisão- é o grau em que conseguimos uma relação inconsequente não é considerada espú-
medida quantitativamente próxima em condi- ria, mas apenas uma correlação.
ções estáveis. R. Linear- Relações descritas por modelos
retilineares, quadráticos, exponenciais, logísti-
110
cos e outros (GLM), em contraste com modelos linha de causalidade e que contribuem para
aditivos (GAM) que não abordamos. detalhar o funcionamento de um sistema.
R. Retilinear- Uma relação entre duas variá- V. Condicionalmente Correlacionadas-
veis quantitativas que é compatível com uma Duas variáveis que estão correlacionadas sob
reta. ação de uma terceira variável, não havendo
Resposta Contextual- Resposta baseada em causalidade entre elas, de forma que fixando a
unidades amostrais com influência relevante de terceira variável a relação deixa de existir.
fatores contextuais no espaço, tempo, filogenia V. de Confundimento- Variável que influi
ou outra condição análoga de posição. sobre a variável resposta e preditora de forma a
R. Estatística- Resposta baseada em unida- criar uma relação espúria entre elas.
des amostrais independentes sem influência V. de Ruído- Variável obscurece a relação
relevante de fatores contextuais. enter duas variáveis, mas que não tem influên-
R. Fato- Resposta que encontra sua força em cia tendenciosa entre elas, isto é, não é uma
apenas uma ou poucas observações. variável de confundimento.
R. Sistêmica- Ver resposta por coerência em V. resposta Uma variável tida hipotetica-
rede. mente como influenciada pelos os valores da
R. por Coerência em Rede- Resposta cuja variável denominada variável preditora (o que
força ou fraqueza está no grau de coerência será estabelecido durante o estudo.)
entre ideias relacionadas tomadas como um V. Externa- Uma variável que não está no
conjunto. O mesmo que Resposta Sistêmica. modelo em questão, mas que pode interferir
Tabela EPR- Formato de entrada de dados em sobre o estudo, seja como variável de confun-
planilhas no qual as entidades estão nas linhas dimento ou como variável de ruído.
e as propriedades nas colunas. Cada entidade V. em Estudo- As variáveis diretamente en-
aparece apenas uma vez na planilha. volvidas na questão e que estão no modelo
Teste estatístico- Uma decisão sobre a valida- sendo testado.
de de uma hipótese a partir de critérios pré- V. Fixa- Uma variável cujo valor ou valores
estabelecidos utilizando algorrítimos matemáti- foram pré- determinados para o estudo.
cos desenvolvidos para diferentes situações. V. Livre Uma variável cujos valores não fo-
T. Bicaudal- Teste estatístico com hipótese ram pré- determinados para o estudo.
nula assumindo uma igualdade entre os níveis V. preditora- Uma variável tida hipotetica-
da variável preditora. mente como um fator que influi sobre os valores
T. Não Paramétrico- Uma categoria de testes da variável denominada variável resposta (o
com premissas menos exigentes, mas com que será estabelecido durante o estudo.)
poder relativamente baixo. V. Neutra- Uma variável que não influi sobre
T. Paramétrico- Uma categoria de testes com a variável preditora nem sobre a variável res-
premissas mais exigentes, mas poder relativa- posta.
mente alto e alta capacidade de descrição. V. Pré-Explicativa- Uma variável que influi
T. Unicaudal Teste estatístico com hipótese sobre a variável preditora, mas não tem um
nula assumindo uma desigualdade entre os efeito sobre a variável resposta, exceto pela sua
níveis da variável preditora.. influência sobre a primeira.
Transformação de dados- Operações mate-
máticas frequentemente utilizadas para trans-
formar variáveis de forma a se obter condições
dentro de premissas de testes paramétricos.
Variável: Uma propriedade dentro de um estu-
do de relações
V. de Caminho- Variáveis que se encontram
entre duas variáveis extremas dentro de uma
111
9. Bibliografia citada e reco-

MORAN, M. D. 2003. Arguments for rejecting
mendada the sequential Bonferroni in ecological studies.
Oikos 100:2.
DIAMOND, J. 2010. O Terceiro Chimpanzé: A
Evolução e o Futuro do Ser Humano. Record. MOTULSKY, H. 2010. Intuitive Biostatistics: A
São Paulo. 430pp. Nonmathematical Guide to Statistical Thinking.
Oxford Univ. 472pp.
FOWLER J. & L. COHEN. 1990. Practical Sta-
tistics fo Field Biology. John Wiley & Sons. Chi- SCHEINER, S. M. & GUREVITCH, J. 1993.
chter. 227p. (um livro simples e didático dirigido Design and Analysis of Ecological Experiments.
para a pratica do biólogo). Chapman & Hall. New York. (Livro sobre plane-
jamentos amostrais para biólogos com exem-
GOTELLI N. J. & A. M. ELISON. 2010. Princí- plos de aplicações)
pios de Estatística em Ecologia. Artmed. 527p.
SOKAL R. R. & ROHLF, F. J. 1981. Biometry.
HURLBERT, S. H. 1984. Pseudoreplication and 2nd ed. Freeman. New York. . (Livro que vai um
the design of ecological field experiments. Eco- pouco mais fundo na matemática atrás da esta-
logical Monographs 52(2). (Artigo classico sobre tística, mas acessível aos não matemáticos.)
desenho experimental).
TRIOLA, F. M. Introdução à Estatística. LTC.
LEVINE, D. L., M. L. BERENSON & D. S. Rio de Janeiro. 1999. (um dos livros de estatís-
STEPHAN. 1998. Estatística: Teorias e Aplica- tica geral que mais gosto).
ções: Usando o Microsoft Excel em Português.
LCT. 811p. (Embora o Excel não seja formal- TROCHIM, W. 2000. The Research Methods
mente um aplicativo estatístico, sua flexibilidade Knowledge Base, 2nd ed. Atomic Dog Publi-
pode torná-lo uma ferramenta mais poderosa shing, Cincinnati. (Disponível para venda na
que os programas estatísticos para alguns usos. internet). (Muito atual e com abordagem bastan-
Este livro ajudará a conhecer mais este progra- te didática. Sua ênfase em Ciências Sociais
ma.) Aplicadas não compromete sua explicação dos
fundamentos de planejamentos amostrais e
LUDWIG, J. A. & REYNOLDS, J. F. 1988. Sta- ainda facilitará ao Biólogo desenvolver estudos
tistical Ecology. Wiley. New York. (Fornece úteis que envolvam o ser humano.
ferramentas estatísticas alternativas ao que se
encontra em quase todos os livros de bioestatís- ZAR, J. H. 1984. Bioestatistical Analysis, 2nd.
tica, especialmente técnicas descritivas. Uma Ed. Prentice-Hall, Englewood Cliffs, N.J. (Outro
boa introdução à estatística multivariada.) livro que vai um pouco mais fundo na matemáti-
ca atrás da estatística, também acessível aos
MAGNUSSON, W.E. & G. MOURÃO. 2005. não matemáticos.)
Estatística sem matemática: a ligação entre as
questões e as análises. Planta. Londrina. (Um ZUUG, A. E., E. IENO, N. WALKER, A. A.
livro de estatística dirigido aos usuários, mas SAVELIEV & G. M. SMITH. 2009. Mixed Effects
com uma abordagem e temática diferentes das Models and Extensions in Ecology with R.
utilizadas aqui) Springer. NY. (Um livro avançado e recente de
estatística para Ecologia.)
MLODINOW, L. 2008. O Andar do Bêbado.

Na Internet:
Zahar. RJ. (Aborda problemas no uso da esta-
tística intuitiva. Muito divertido e revelador).
112
GARSON, D. 2006. http://www2.chass.nsu.edu/

garson/pa765/statnote.htm. (Um exemplo de
sítio para tirar dúvidas sobre testes estatísticos.
Bastante completo (Último acesso em maio de
2009).
MACNAUGHTON, D. B. 2002. The introductory

statistics course: The entity-property-relationship
approach. Available at http://www.matstat. com/
teach (Último acesso em maio de 2009.) (Para
entender mais sobre a abordagem EPR).
http://www.mathworks.com/access/helpdesk/hel
p/toolbox/stats/index.html?/access/helpdesk/hel
p/toolbox/stats/bqttcvf.html#bqttd20-
1Macnaughton, D. (2004). The Introductory
Statistics Course: The Entity-Property-
RelationshipApproach. Available online at:
www.MatStat.com/teach
(Ver como citar o Writing Good questinos:

http://www.conservationleadershipprogramme.or
g/UserDataWEB/ProjectManuals/Writing%20Go
od%20Questions.pdf
113
Leitura complementar 10. O pão é cozido nas temperaturas tão eleva-

das quanto 400 graus! O calor neste nível pode
matar um adulto em menos de um minuto.
Este texto mostra com humor como a estatística 11. A maioria de comedores de pão é totalmen-
mal aplicada pode nos induzir a interpretar mal te incapaz de distinguir entre o fato científico
os dados. Reflita sobre ele para não cometer significativo e um blábláblá estatístico sem sen-
erros semelhantes. Na página seguinte é apre- tido.
sentada uma tabela comparando cursos tradi-
cionais com cursos mais voltado aos usuários Na luz destas estatísticas assustadoras, nós
de estatística. propomos as seguintes limitações ao pão:
1. Nenhuma venda do pão aos menores.
!!! O PÃO É PERIGOSO!!! Eu andei pesquisan- 2. Uma campanha completa de âmbito nacional
do um pouco, e o que eu descobri deve fazer “Diga não às torradas” nos horários de maior
qualquer um pensar duas vezes.... audiência e com participação de celebridades.
1. Mais de 98 por cento dos criminosos são 3. Um imposto federal de 300 por cento em todo
usuários do pão. o pão de forma a pagar por todos os males
2. A METADE de todas as crianças que cres- que a sociedade puder associar com o pão.
cem em casas onde se come pão estão abaixo 4. Nenhuma imagem de animais, de pessoas,
da média em testes escolares padronizados. ou uso de cores vivas (que puderem ser apela-
3. No século XVIII, quando virtualmente todo o tivas para as crianças) podem ser usadas para
pão era cozido em casa, a expectativa de vida promover o uso do pão.
média era 50 anos menor; as taxas de mortali- 5. O estabelecimento de zonas livres de pão em
dade infantil eram inaceitavelmente elevadas; torno das escolas.
muitas mulheres morriam no parto; e doenças (Adaptado de um texto de David Devejian.)
como a febre tifóide, febre amarela, e a influen-
za varriam nações inteiras.
4. Mais de 90 por cento de crimes violentos são
cometidos dentro de 24 horas após o consumo
de pão.
5. O pão é feito de uma substância chamada
"massa de pão." Provou-se que com apenas um
quilo de massa de pão pode-se sufocar um rato.
Uma pessoa média come mais pão do que esta
quantidade por mês!
6. Sociedades tribais primitivas que não conso-
mem nenhum pão têm uma incidência baixa de
câncer, de doença de Alzheimer, de Parkinson,
e de osteoporose.
7. Foi provado que o pão vicia. Pessoas priva-
das de pão que receberam somente água para
consumir imploraram pelo pão em apenas dois
dias.
8. O pão frequentemente conduz o usuário ao
consumo de outros artigos alimentícios tais
como a manteiga, a geleia, a manteiga de a-
mendoim, e cortes frios uniformes.
9. Os bebês recém nascidos podem engasgar
com pão.
114
capítulo
Pseudoreplicação ou pseudorepetição
Completar exercícios Cap.5; Ajustes sobre Ruidos tendenciosos e não tendenciosos;
Complementar com livro verde; Ajustes apostila prática para R e Rcmdr;
Ver pdf vieses e variáveis de confundimento, posso absorver algo dai

“...Conhecimento este que pode ser usado no interesse da previsão e do controle”
(Frase de Giddens pag25)
Prologo do andar do bêbado aborda 3 temas importantes: 1) que nós “criamos um
olhar próprio sobre o mundo e o empregamos para filtrar e processar nossas per-
cepções, extraindo significados do oceano de dados que nos inunda diariamente
(OK)”; 2) ao final do parágrafo 2 aborda decisões. Isto talvez ainda precise de ênfase
melhor no cap 1.; 3) no par. 3 fala e m concorrência de diferentes interpretações,
uma boa forma da falar em testes de hipóteses.
Verificar
Reflexões 1- Base epistemológica
Indutivismo enumerativo: Não se sustenta bem logicamente. Ou podemos dizer que é uma evidência
pouco satisfatória. Não podemos “provar” uma hipótese com inúmeras evidências favoráveis, basta uma
desfavorável para derrubá-la. Você não pode provar a inocência de uma pessoa com vários filmes dela
se portando bem, basta um vídeo dela roubando para derrubar sua inocência. Não pode provar que aqui
não haverá terremotos com base na ausência em milhares de anos. Se você acha que continuará sen-
do, tem de explicar o porquê. (E.g. meio de placa tectônica.). Precisamos de hipóteses que ligam dife-
rentes aspectos da realidade.
Temos uma mistura de outras visões epistemológicas do que podemos chamar de provar. (Abdução-
“dedução” pela melhor explicação; Prova por Exclusão; Método HD).
Método Hipotético Dedutivo- (Usa dedução, mas não é prova dedutiva).
Método Hipotético Dedutivo de Previsão Obrigatória e Exclusiva- O caso Einstein.
Método H.D. de Previsão Estatística.
Porque acreditamos que o sol nascerá amanhã? 1) Porque sempre nasceu? (indutivismo enumerativo);
2) porque temos uma concepção de terra redonda em rotação aos redor do sol, etc., e levando em conta
toda uma história complexa temos a expectativa que nascerá? (paradigma atual); 3) Porque os Deuses
são piedosos, etc, (um paradigma alternativo); 4) Porque se não for assim, de qualquer forma, eu não
poderia fazer para ajudar, e tento pensar em coisas mais úteis.
Reflexão 2- Sobre hipóteses. O termo hipótese alternativa é infeliz. Já incorporado suficientemente?

Rever, talvez incorporado até demais. O termo hipótese autônoma (com previsões próprias) é interes-
sante, mas talvez não venha ao caso neste texto. Cap. 4 precisa ser simplificado. Não é inválido falar em
115
hipótese de medida incorreta, mas é meio esquisito mesmo. Talvez seja melhor não inovar tanto e cha-
mar de possibilidades serem eliminadas.
Reflexão 3- Variáveis operacionais (estão na previsão) e variável teórica (Variáveis que estão na hipóte-
se). (Cap 1 ou 2?). Será que é isto mesmo?
Hipótese= Resposta temporária. Respondida satisfatoriamente =conclusão.

Variáveis teóricas= Variáveis preditoras e respostas na hipótese
Variáveis operacionais= Variáveis preditoras e respostas na predição
Questão= Descritiva. Qual, como , etc. Evitar porque, pois abre muito o leque.
Conteúdos sobre análise de dados para profissionais das Ciências Biológicas.
Qual o conteúdo sobre análise de dados que deve ser dominado por estudantes de graduação, de pós-
graduação e por pesquisadores na área de Ciências Biológicas?
1- Qual a importância da filosofia da ciência na análise de dados?

2- O método “Questão, Hipótese e Previsão”.
3- O método Entidade-Propriedade-Relação
116
4-
5-
Este livro foi desenvolvido ao longo de mais de 10 anos ministrando aulas de bioestatística aplicada em
graduação e pós-graduação na Universidade Federal do Amazonas e no INPA.
Proposta
Graduação: Conceitos Fundamentais (técnicos e filosóficos), Estatística Univariada e Bivariada, uso de
pacotes estatísticos.
Pós Graduação: Regressão Múltipla, Regressão Logística; Estatística Multivariada e Modelagem. Uso
da plataforma R (nível fundamental e médio).
Pesquisador: Conhecimento de opções diversificadas de análises (ainda que sem o domínio de todas).
Algumas opções de aprofundamento. Análise de caminhos. Estratégias (éticas) de publicação; Coorde-
nação de grupos de pesquisa; Tomada de decisões. Uso da plataforma R em nível avançado I (Uso de
scripts pré definidos) e avançado II (desenvolvimento de scripts).
Quais são os conceitos fundamentais?
1- O lugar da estatística na análise de dados.

2- A Hipótese como base da análise (estatística é ferramenta)
3- A construção e a verificação de hipóteses
4- Os tipos de resposta para previsões
5- Estatística envolve inferências de amostras para populações
117
6- Conclusões estatísticas envolvem várias formas de validação

7- Estatística aperfeiçoa a intuição
8- Como montar tabelas para análises estatísticas
9- A estatística é ferramenta para estabelecer relações, que é uma atividade central na ciência
10- Níveis e escalas de medidas
11- Incerteza na atribuição de valores nominais
12- Incerteza na atribuição de valores quantitativos
13- Distribuições de frequência
14- Parâmetros populacionais
15- Intervalos de confiança
16- Independência univariada
17- Independência em relações
18- O método hipotético dedutivo por contraste
19- Hipótese de trabalho, previsão e hipóteses concorrentes.
20- Nível de significância e tipos de erros
21- Ajuste do alfa à questão
22- Distinção entre estatística experimental e observacional
23- x
118
Cap 5- Diversidade
5.1- Ecologia e a diversidade de testes
5.2- Testes de diferença com uma variável
5.3- Testes de diferença com duas variáveis
5.4- Testes de diferença em blocos
5.5- Testes multivariados
5.6- Testes de semelhança com uma variável
5.7- Testes de semelhança com duas variáveis
5.8- Premissas de testes paramétricos
5.9- Transformação de dados
5.10- Contrastes
Cap. 6- Planejamento
6.1- Experimental versus amostral
6.2- Esquemas experimentais
6.3- Ilustrando a incerteza em estudos amostrais
6.4- Mapas conceituais
6.5- Abordagens amostrais
6.6- Abordagens quase experimentais
6.7- Abordagens amostrais com blocos
6.8- Independência pela distância
6.9- Abordagens multianálises
119
Cap. 7- Maximizando Poder

7.1- Testes unicaudais e bicaudais
7.2- Testes pareados e em blocos
7.3- Níveis livres e fixos
7.4- Relações retilineares, curvilineares e monotonicidade
7.5- O poder e os tipos de testes
7.6- O poder e os níveis das variáveis em estudo
7.7- Perdas justificadas de poder
7.8- Testes múltiplos
120
• Bromélias absorvem Fósforo da água acumulada entre as suas folhas.

Qual é a hipótese e previsão
121

Ap01 Fundamentos de Estatística2014 V04

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Ap01 Fundamentos de Estatística2014 V04

Enviado por

Direitos autorais:

Formatos disponíveis

A Condução da Análise 2014/1

2. Do problema biológico ao estatístico. ......................................... 20

3. Confiança na medida e independência....................................... 27

4. A lógica dos testes de hipóteses ................................................... 50

5. Diversidade de testes e suas premissas ....................................... 70

6. Planejamento Amostral ............................................................... 80

7. Maximizando o poder do teste .................................................... 99

8. Glossário ..................................................................................... 109

9. Bibliografia citada e recomendada ........................................... 112

Introdução alguns autores (e. g. Motulsky 2010, Magnusson &

1. Estatística na perspectiva cessários, mas é preciso ter claro que é o pro-

Hoje em dia não precisamos ter

1.4 Tipos de evidências mo momento em que o peixe foi identificado

As evidências são do tipo contextual principal-

1.5 Validando evidências

1) Validação da medida. Nem é preciso

nas de variáveis quantitativas. Imagine que Teste de 2 prop.,

nadar, juntamos os dados, analisamos com Categórico Contingência (b)

do indica uma maior habilidade em nadar ou

Figura 1.8- Esquema de coleta simbolizando o planeja-

Figura 1.9- Esquema representando a generalização de um

1.6 Estatísticas intuitiva e

2. Do problema biológico ao tos), como para uma entidade particular (gato

Existem muitos tipos de entidades: Objetos

As entidades têm um papel fundamental no

2.2 Propriedades suem as propriedades comuns aos Homo sapi-

Os valores das propriedades são adjetivos

2.3 Tabelas e gráficos EPR utilizados na apresentação de resultados.

das por diferen- vidade foi abaixo da média (causa proximal),

envolvem apenas uma variável. Na estatística

O primeiro passo no estudo das relações bivari-

Na tabela EPR, uma entidade não pode

Exercícios: b) A temperatura durante o desenvolvimento

3. Confiança na medida e são todos os 25 do eixo Y, pois a menor medida

Níveis efetivos de medida são os Phoneutria reidyi

efetivamente incluídos em uma v ♀♂

nesta escala. Entretanto, variáveis como meses

As escalas de medida normalmente são trata-

que podemos obter são aproximações instru- A precisão de um procedimento é o grau em

Figura 3.5- A dispersão de valores pode ser medida com

Uma solução para este problema é utilizar uma

3.4 Distribuições de frequências resultado da variação natural dos tamanhos das

Os histogramas mostram bem os dados de

verificação de premissas para a utilização de

É comum que a “montanha” da distribuição de

As distribuições de frequência tem importância Quando temos uma distribuição normal, ou

A vantagem do desvio padrão (DP) é que é uma

Os parâmetros de variáveis ordinais e de variá- Parâmetros multivariados envolvem mais de

mostral (quando ela

3.7 Independência para parâmetros

Uma amostra com representatividade em distri-

A qualidade de uma estimativa de parâmetro

3.8 Independência em análises de Vamos comparar três experimentos para testar

Agora imagine que você tem dois pacotes de

A Independência (genérica) é um termo que se Existe independência induzida de amostragem

3.9.2- O preço a pagar pela qualidade. cada medida; b) quando há dificuldade em se

da área de estudo. Tente evitar associar alguma

Como vimos na seção 3.8, a questão da inde-

Exercícios: normal. Coloque nomes nos eixos ilustrando um

5) Explique e exemplifique as incertezas na 15) No “Bootstrap”, o computador “cria” “pseu-

4. A lógica dos testes de

Uma das funções mais importantes da estatísti-

Na realidade, o processo completo de teste de

4.2 Estabelecendo hipóteses de