Escolar Documentos
Profissional Documentos
Cultura Documentos
A Condução da Análise
© Thierry R. Gasnier/ Universidade Federal do Amazonas
em Ciências Biológicas I
2013/2
Thierry R. Gasnier
Universidade Federal do Amazonas
A Condução da Análise I- 2012/2
© Thierry R. Gasnier/ Universidade Federal do Amazonas
Sumário
Introdução ............................................................................................ 3
1. Estatística na perspectiva do usuário ........................................... 4
1.1 A necessidade de estatística .................................................... 4
1.2 Complexidade estatística ........................................................ 4
1.3 Questão, hipótese, previsão e evidência. ................................ 6
1.4 Tipos de evidências .................................................................. 8
1.5 Validando evidências ............................................................. 12
1.6 Estatísticas intuitiva e frequentista ...................................... 15
1.7 Da amostra à população........................................................ 18
Em um sentido amplo, a Estatística é uma área A boa notícia, principalmente para quem não
do conhecimento que lida com a medida, coleta, gosta de fazer cálculos, é que dominar o uso da
organização, apresentação e interpretação de estatística hoje depende muito pouco de se
dados. O termo costuma ser utilizado em um entender as suas bases matemáticas, em fun-
sentido mais estrito referindo-se prioritariamente ção do desenvolvimento dos programas aplica-
à matemática da análise dos dados. A Estatísti- tivos de estatística, o que permite um melhor
ca Aplicada deve ter ênfase didática e priorizar aprofundamento nas questões conceituais es-
o uso correto das técnicas estatísticas em situa- senciais de análise.
ções concretas e contextualizadas em uma
determinada área do conhecimento. Ade- 1.2 Complexidade estatística
quadamente integrada aos conhecimentos da
área, pode deixar de ser apenas uma técnica Muitas pessoas consideram a estatística como
para tornar-se parte de uma filosofia de análise uma especialidade da matemática, mas pode-
de dados. mos considerá-la um ramo da lógica que faz
uso intensivo de matemática. Vista em seu sen-
A ciência avançou por muito tempo sem tido amplo, a estatística lida com pensamento
estatística, então por que agora seu aprendi- complexo. Isto não significa que seja uma forma
zado é considerado uma necessidade? Há pes- diferente de pensar, pois também é complexo
soas que se recusam a aprender a dirigir um nosso pensamento cotidiano.
carro, mas sabem usar transporte público, ima-
gine então uma pessoa que se recusasse a Por exemplo, chegar a um lugar determinado
usar qualquer meio de transporte, até uma bici- em uma cidade é uma atividade complexa
cleta ou um elevador. Esta pessoa poderia es- (Fig. 1.1). Em primeiro lugar você precisa co-
colher um estilo de vida compatível com um nhecer a cidade, ou ter um mapa dela e saber
deslocamento exclusivamente a pé, não é im- se orientar pelo mapa. Depois, você precisa
possível, mas certamente sua autonomia seria saber o local exato onde você está e aonde
muito limitada. A estatística é uma ferramenta quer chegar. Se for de carro, precisa saber diri-
para ajudar na pesquisa, assim como um meio gir o veículo, o que inclui aspectos de “legisla-
de transporte ajuda no deslocamento. Há situa- ção” (como saber que não se deve dirigir na
ções na pesquisa em que não precisamos de contramão), aspectos “psicomotores” (como
estatística, assim como há situações no cotidia- saber dominar o veículo em uma curva) e o uso
no em que só podemos nos deslocar a pé, mas correto dos instrumentos (como o freio ou o
isto não é argumento para optarmos por evitar a limpador de para-brisa). Estamos utilizando
estatística ou os meios de transporte. pensamento complexo quando temos que
integrar conhecimentos de diversos aspec-
Também podemos comparar a estatística com tos da realidade para atingir um determinado
um microscópio, outra ferramenta de pesquisa objetivo. Complexo não significa necessaria-
do biólogo. O microscópio é necessário para mente difícil. Muita gente consegue chegar a
vermos organismos e estruturas muito peque- um endereço sem muita dificuldade, embora
nos e a estatística é necessária para vermos o seja um problema que envolve vários tipos de
que há por trás dos dados. É verdade que nem conhecimento. Lidamos com problemas com-
sempre o microscópio ou a estatística são ne- plexos no dia a dia e precisamos aprender a
lidar com problemas complexos na pesquisa.
4
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
1.3 Questão, hipótese, previsão e você precisa construir seu mapa mental concei-
evidência. tual sobre o assunto, isto é, consolidar a base
conceitual consultando pessoas e com uma
As contribuições para a ciência costumam co- pesquisa bibliográfica séria. Levantamento bi-
meçar com questões (ou com observações de bliográfico é uma tarefa inútil se você não estu-
padrões incomuns que levam a questões). As dar o material. Estudar não é apenas ler, dificil-
questões na pesquisa são perguntas temáti- mente se consegue elaborar um projeto interes-
cas relevantes sobre a realidade, que geral- sante sem um grau de envolvimento emocional
mente começam com “como”, “por que”, “o com o problema. A informação não vem apenas
que”, “quando”, “onde” ou “qual”, cuja res- de livros, é necessário desenvolver a capacida-
posta não é óbvia. Por exemplo, ao perceber de de observar. Isto significa estar atento, pro-
que a maioria das trepadeiras em uma floresta curar oportunidades de ver fenômenos de inte-
sobe na hospedeira girando em sentido anti- resse e tentar aplicar a teoria aprendida na leitu-
horário, surge a questão “por que a maioria das ra para interpretar suas observações. Este é o
trepadeiras sobe em sentido anti- horário?”. A momento de gestação da pesquisa, quando ela
resposta para esta pergunta não é óbvia e a precisa tomar forma. Esta etapa demanda tem-
questão é relevante porque pode revelar algum po e muita concentração, esqueça o estilo de
aspecto de fisiologia e ecologia vegetal de tre- vida “Fast Food” quando estiver elaborando um
padeiras que são um componente importante projeto.
das florestas.
Na pesquisa há respostas de dois tipos: descri-
As questões podem ser simples, mas as res- tivas e hipotéticas. As respostas descritivas não
postas podem ser muito complexas. Exemplos envolvem hipóteses, como na questão “como é
de questões de pesquisa: a) Como é possível a o tubo digestivo desta espécie de formiga?”.
coexistência de duas espécies de aranhas ar- Basta desenhar ou fotografar e destacar o que
madeiras muito semelhantes em uma determi- for considerado mais importante. Algumas des-
nada floresta?; b) Por que os dinossauros se tas descrições diretas envolvem ferramentas
extinguiram?; c) Quais os motivos das notas estatísticas, como veremos no capítulo 3. A
baixas do Brasil no exame Pisa (Programme for descrição direta de objetos de interesse científi-
International Student Assessment)? Algumas co, mesmo considerando a complexidade técni-
vezes as questões surgem inesperadamente, ca, costuma ser simples, no sentido de não
como quando surgem pessoas com uma doen- envolver hipóteses formais. Talvez por esta
ça estranha desconhecida, mas o mais comum simplicidade, as questões descritivas frequen-
na atividade científica é irmos atrás das ques- temente são consideradas “inferiores” na pes-
tões. Levantar boas questões envolve a capaci- quisa por algumas pessoas. Para derrubar esta
dade de observação e o conhecimento do refe- ideia, basta considerar o impacto que foi a in-
rencial teórico, inclusive para perceber que a venção do microscópio para a biologia, quando
questão é relevante e merece ser estudada. A todo um novo mundo de microorganismos e
boa questão não garante uma boa pesquisa, microestruturas foi descoberto, ou a atual revo-
mas é difícil imaginar uma pesquisa boa e origi- lução resultante da descrição de genomas, in-
nal sem uma questão bem definida boa e origi- clusive o humano.
nal.
Nossas descrições da realidade param no mo-
Em função disto, é importante refletirmos um mento que aparecem dúvidas sobre o que es-
pouco sobre como criamos questões. Saber tamos vendo. O que pensou o primeiro biólogo
criar boas questões é uma arte, mas há algu- que viu células em um microscópio? Provavel-
mas diretrizes que ajudam a desenvolver esta mente foi “o que são estas caixinhas?”. Quando
capacidade (ver texto paradidático “Writing good há questões sem resposta imediata pela “sim-
questions”). Durante a elaboração de um projeto ples” observação, criamos alternativas de res-
6
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
postas possíveis e investigamos se estão corre- evidências que apoia fortemente a hipótese
tas ou não. Estas respostas possíveis são cha- como resposta correta a uma questão. Na
madas de Hipóteses. Talvez a primeira hipótese realidade, não testamos diretamente hipóteses,
sobre as “caixinhas” tenha sido que eram meras testamos as previsões das hipóteses.
ornamentações casuais do primeiro organismo
observado, mas esta hipótese teria caído com Previsões são consequências empíricas
as observações posteriores de outros organis- esperadas de hipóteses, e algumas delas
mos. Em algum momento surgiu a hipótese que podem ser usadas nos testes das hipóteses.
as caixinhas eram uma espécie de divisão na Uma coisa é a previsão, que é o esperado pela
organização de todos os organismos. Esta hipó- hipótese, e outra é o observado. As evidências
tese não se sustentou realmente para todos os são os resultados observados em testes de
organismos, mas sustentou-se para os orga- (previsões de) hipóteses. As comparações
nismos pluricelulares. Hoje a teoria celular não das Previsões com as Evidências são denomi-
é mais tratada como uma possível resposta nadas Contrastes PE e costumam seguir re-
para aquela questão, mas como um fato inques- gras pré-estabelecidas de análise que podem
tionável e um dos pilares da Biologia moderna. terminar com um aumento ou redução da credi-
Portanto, o que era hipótese tornou-se descri- bilidade das hipóteses. Se a credibilidade de
ção, pois faz parte do que aceitamos como rea- uma hipótese aumentou muito, podemos dizer
lidade. que respondemos à questão. Usarmos o termo
“Resposta” para denominar o “final” do processo
Hipóteses que não podem ser avaliadas através de criação científica centrado em questões. Não
da observação de fatos não entram na ciência estamos implicando com isto que a hipótese
empírica, por isto, vamos nos referir a “hipótese” transformou-se, de forma definitiva, na resposta
como sinônimo de “hipótese empírica”. Hipóte- para uma questão, apenas que ela passou por
se (empírica) significa “qualquer afirmação um teste de qualidade rigoroso e a evidência
simples ou complexa que tenha consequên- indicou que é recomendável a sua aceitação
cias empíricas constatáveis” (Diez & Molines,
2008). Neste contexto, tanto a teoria
da evolução como a sugestão que
determinado comportamento de um
inseto indica territorialidade são
hipóteses, pois ambas têm conse-
quências empíricas constatáveis.
Entretanto, é mais comum se usar o
termo para ideias relativamente
simples (como o exemplo do inseto),
ficando o termo “Teoria” para uma
rede complexa de ideias. Pela defi-
nição acima, mesmo hipóteses e-
xaustivamente corroboradas são
tecnicamente hipóteses, mas na
prática, estas se tornam ideias acei-
tas com o acúmulo de evidências,
como vimos com a teoria celular.
Não há verdades definitivas na ciên-
cia, mas podemos falar que uma Figura 1.2- Uma hipótese é avaliada pelo contraste entre suas previsões e
hipótese transforma-se em con- as observações (evidências). Neste exemplo, as evidências não apoiam a
hipótese que passar sob uma escada dá azar. (Não tente repetir este
ceito cientificamente estabeleci- experimento sem as condições de segurança apropriadas).
do, quando há um conjunto de
7
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
como Resposta, ainda que provisoriamente. o resultado não permite uma escolha segura.
Um teste mais efetivo de mutualismo seria plan-
Se as observações correspondem ao previsto tar as duas juntas em densidades variáveis. A
por uma hipótese, então elas apoiam a hipóte- previsão pela hipótese de mutualismo é que
se, mas isto não basta. Algumas vezes outra haveria um maior crescimento de cada uma
hipótese concorrente é compatível com a mes- delas em função do aumento na abundância da
ma previsão. Por isto, quando temos hipóteses outra. Se isto for observado, a única hipótese
concorrentes, temos de procurar previsões alternativa que resta para explicar a evidência é
exclusivas. Esta comparação entre previsões que a diferença foi em direção ao esperado por
de hipóteses é denominada “Contraste de Hi- mero acaso. A estatística é útil nesta situação,
póteses”. Por exemplo, ao observar que duas como ferramenta para a exclusão da possibili-
espécies de plantas tendem a ocorrer juntas, dade do resultado coincidir com a previsão ape-
um pesquisador levanta a hipótese que elas tem nas por acaso.
uma relação mutualista. Para testar a hipótese
ele faz a previsão que quanto mais plantas de Embora existam estudos puramente descritivos,
uma espécie houver em um local, maior será o como a descrição de uma espécie nova para a
número das plantas da outra espécie. Então, ele ciência, geralmente os estudos são parcialmen-
recolhe dados de 100 locais distantes e encon- te descritivos e parcialmente envolvem hipóte-
tro uma forte correlação positiva. O resultado ses. Alguns estudos descritivos terminam com
parece apoiar a hipótese de mutualistmo, mas uma proposta de explicação para o que foi en-
há um problema. Podemos sugerir outra hipóte- contrado. Por exemplo, um estudo com síntese
se, que as plantas não são mutualistas, são de dados sobre muitos aspectos do ensino que
indiferentes ou até competidoras, e que pode se poderiam explicar a posição do Brasil em um
esperar uma correlação positiva entre as suas ranking de educação dificilmente deixaria de
abundâncias porque as duas respondem da propor uma interpretação para estes dados.
mesma forma à fertilidade do solo. Como a Esta interpretação construída a partir de dados
evidência é compatível com as duas hipóteses, descritivos não deixa de ser uma hipótese com-
plexa. Há divergências sobre considerar
um estudo realizado assim como um
teste de hipótese, já que foi principal-
mente uma construção de hipótese. En-
tretanto, o que importa é que um estudo
deste contribuiria para a compreensão
do fenômeno. A inclusão de uma fase
descritiva, em uma fase preliminar ou
como parte programada do projeto de
pesquisa, é algo muito importante. Difi-
cilmente geramos hipóteses interessan-
tes antes de conhecer um pouco mais
sobre o sistema de estudo.
Figura 1.3- Uma hipótese é uma possível resposta para uma questão.
Para avaliar se efetivamente ela é a resposta correta, precisamos
contrastar previsões exclusivas dela com os dados (evidências).
Frequentemente a estatística é uma útil ferramenta para realizar este
contraste.
8
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
9
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
A rigor, as evidências estatísticas simples apli- da água de um mês tendem a ser similares aos
cam-se a estudos experimentais, nos quais a registrados no mês anterior. Entretanto, isto não
independência entre unidades amostrais é ga- é necessariamente uma desvantagem, pois é
rantida pela aleatorização de qual unidade a- justamente pelo fato de um mês seguir o outro
mostral receberá qual tratamento (isto será que podemos perceber as dinâmicas defasadas
explicado no Capitulo 3). das chuvas e do nível de água. A informação do
mês do registro é necessária para avaliar a
“Evidência Contextual”. Uma evidência é con- influência da precipitação sobre o nível da água.
textual quando se baseia
em unidades amostrais Assim como vimos para a evidência factual, há
“dependentes”, de for- casos em que a evidência gera a própria hipó-
ma que é necessário tese que ela sustenta. É o caso da hipótese que
incorporar informações houve uma extinção abrupta da diversidade dos
destas unidades amostrais na análise ou redo- dinossauros há cerca de 50 milhões de anos
brar cuidados na forma de coletar dados. depois de reinarem por mais de 100 milhões de
anos (apenas restaram os ancestrais das aves).
Existe uma relação entre a precipitação no es- É um caso de evidência contextual porque a
tado do Amazonas e o nível da água no Rio redução abrupta na abundância de dinossauros
Negro ao longo do ano? A unidade amostral na baseia-se em várias medidas sucessivas de
figura 1.4 é “registro por momento” (uma obser- abundância de dinossauros (unidades amostrais
vação de precipitação e de nível de água por dependentes de “momentos” seguidos no tem-
mês). O gráfico não apenas mostra que existe po) cuja magnitude de variação pôde ser consi-
uma relação, mostra ainda que a defasagem é derada não aleatória. As quedas de meteoros
de cerca de três a quatro meses. Ao contrário eram eventos comuns durante a formação da
da evidência estatística simples, os registros terra, mas foram tornando-se raros até serem
neste caso não são independentes, pois pode- muito raros. Esta também é uma interpretação
mos prever que os valores de chuva e de nível contextual temporal. Portanto, o fato de haver
fortes indícios de uma grande colisão de um
meteoro com a terra nesta época dá muita força
à hipótese da grande extinção ser consequência
do impacto de um meteoro.
10
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
“Evidência Sistêmica” (ou Evidência por Coe- filhos, mesmo perdendo a chance de ter mais
rência em Rede). . alguns filhos. Em resumo, parar a reprodução
Evidências sistêmicas aumentaria o sucesso reprodutivo. O importante
são aquelas que encon- a notar aqui é que a conclusão não depende de
tram suporte principal- um fato ou de unidades amostrais independen-
mente na força da arti- tes ou dependentes, ela é mais ou menos con-
culação de ideias e/ou fatos de natureza dife- vincente pela articulação das ideias.
rente.
As análises que envolvem evidências sistêmi-
O que determina a perda da fertilidade em mu- cas sempre foram importantes na ciência. Uma
lheres na menopausa? A maioria das pessoas dificuldade em trabalhar com evidências sistê-
acredita que é apenas uma consequência natu- micas é que nem sempre é fácil convencer pes-
ral da idade, como se isto fosse evolutivamente soas, mesmo com vários bons argumentos. O
inevitável. Diamond (2010) sugere uma hipótese desenvolvimento da estatística frequentista no
diferente, que a menopausa é um fenômeno século XX possibilitou a criação de critérios
adaptativo para a espécie humana. Não há poderosos e objetivos de avaliação de uma
como se testar esta hipótese experimentalmen- evidência (quando a evidência for um conjunto
te, mas a análise é possível e também se ba- de dados “independentes”), a ponto de influen-
seia em comparação de previsões. Se a meno- ciar o conceito do que é ciência. Para muitos
pausa fosse mero resultado do envelhecimento, iniciantes, a ciência verdadeira é aquela que
o que poderíamos prever? Por exemplo, pode- envolve estudos experimentais, repetições e
ríamos prever que a interrupção da fertilidade testes estatísticos. O problema é que nem sem-
fosse comum em outras espécies. Entretanto, pre a realidade se apresenta como um conjunto
não é o que ocorre, na grande maioria das es- de dados independentes, como ocorre em um
pécies, as fêmeas não param a reprodução ou laboratório. Como usar estatística para analisar
só deixam de reproduzir ao quando estão muito a revolução francesa? A exigência de testes
velhas, quase morrendo. E se a hipótese de para considerarmos uma teoria como científica
Diamond estiver certa, o que podemos prever? é válida somente se utilizarmos o termo “teste”
Poderíamos prever que haveria vantagem na com um significado mais amplo que o de teste
menopausa relacionada a características distin- estatístico. Hipóteses na História, Arqueologia,
tas de nossa espécie. Diamond destaca duas Sociologia, Geografia Humana, Economia, As-
características: a) um bebê tão grande que a tronomia, Evolução e outras áreas predominan-
chance de morte da mãe e do bebê no parto temente não experimentais podem ser testadas
sempre foi alta (só reduziu recentemente devido por contraste com outras hipóteses comparando
à evolução da medicina); b) o cuidado parental a coerência do conjunto de cada uma delas, e
dura anos, incluindo a educação. Daí conclui lembrando que cada conjunto deve possuir
que a interrupção da fertilidade após certa idade elementos empíricos envolvidos. (e. g. docu-
seria vantajosa pelo aumento da probabilidade mentos e fatos históricos, objetos arqueológi-
da mãe conseguir sobreviver para criar todos os cos, observações de corpos celestes).
11
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
V. dep→ Ordinal ou
Binário Quantitativo
A validação da medida não é um problema ape- V. ind.↓
(Categ. de 2)
Categórico Quantitativo
Condição NP
Condição P
jamento amostral, existe o risco de que todos os mento ou situação particular. Elas geralmente
dados de um estudo precisem ser coletados são feitas com base em amostras. A validação
novamente. A independência interna é geral- externa de medidas coletivas depende basica-
mente simples em estudos experimentais e uma mente de técnicas de se obter uma amostra
das mais complexas em estudos observacio- representativa da população, como no exemplo
nais. Ela será discutida nos capítulo 3 e 6. das intenções de votos. Fala-se em “Indepen-
dência” Externa quando se aplica estas técnicas
4) Validação Externa ou Independência Ex- porque a representatividade anula os efeitos
terna. Até que ponto as conclusões com base tendenciosos de agrupamentos espaciais, tem-
em uma amostra (dados efetivamente coleta- porais e de situação. Voltaremos a discutir re-
dos) podem ser extrapoladas? Você poderia ter presentatividade no capítulo 3.
uma amostra de intenções de voto para presi-
dente de 1000 pessoas do Amazonas e uma Validação Externa por Razoabilidade. Muitas
amostra de 1000 pessoas bem espalhadas por vezes é impraticável ou até impossível se reali-
todo o Brasil. Qual delas é uma amostra mais zar uma amostra representativa, entretanto,
confiável para falarmos da intenção de votos pode ser razoável se generalizar a partir de
dos brasileiros? Você se surpreenderia se os premissas teóricas. Esta situação é mais justifi-
resultados fossem muito diferentes? Os de den- cável quando o estudo aborda relações entre
tro (a amostra) são igualmente representativos variáveis.
dos “externos” (toda a população) nas duas
situações? Há dois tipos de Validação Externa: Considere este exemplo com duas variáveis,
sexo e tamanho. Se eu concluir que machos de
Validação Externa por Representatividade. uma espécie de borboleta são mais ativos que
Medidas coletivas (ou parâmetros populacio- fêmeas da mesma espécie em uma determina-
nais) são aquelas obtidas com um conjunto de da área de estudo baseado em coletas feitas
dados de uma variável, como o peso médio de em janeiro de 2006, o que é razoável se supor?:
crianças recém-nascidas ou a frequência de a) Os machos desta espécie são mais ativos
intenções de votos em determinado local, mo- que as fêmeas todos os anos?; b) Os machos
desta espécie são mais ativos que as fêmeas
durante o ano todo?; C) Os machos são mais
ativos que as fêmeas 1 km dali? (e 10? e 100?
e 1000?); d) Outras espécies do mesmo gêne-
ro têm machos mais ativos em janeiro?;
e) Espécies desta família têm machos mais
ativos em janeiro? E se o estudo do compor-
tamento da borboleta fosse feito em um labo-
ratório? As observações ainda seriam repre-
sentativas do comportamento na natureza?
14
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
Obviamente, quanto mais distante da situação artificiais de laboratório. Se esta não for a sua
estudada, maior o risco da extrapolação, mas conclusão, cuidado, você está sofrendo de uma
este risco pode ser avaliado, ainda que grossei- doença comum chamada “paranoia metodológi-
ramente, com base no que você já sabe sobre ca” disseminada até mesmo em alguns cursos
borboletas. Se restringirmos nossas generaliza- de metodologia e de estatística superficiais.
ções ao universo amostrado, não há problema Generalizar a partir de um indivíduo é algo ina-
de validação externa. Entretanto, qual é o inte- ceitável em muitas situações, mas não em to-
resse do comportamento de borboletas da sua das, e não nesta em particular. Ao demonstrar
área de estudo em janeiro de 2006 se não po- estatisticamente que isto ocorre em um indiví-
demos generalizar? Poderíamos coletar em duo, temos evidência factual para a espécie,
outras épocas e outros locais, mas isto pode pois sabemos que a determinação do sexo é
não ser praticável e permaneceria a limitação uma característica da espécie que não varia
de não poder generalizar além das épocas e entre indivíduos. As condições artificiais de um
locais dos estudos. Generalizar além do razoá- laboratório precisam ser levadas em conta em
vel é um erro, mas não generalizar também é muitos casos, mas é difícil imaginar como elas
um erro. poderiam influir na razão sexual se ela fosse
cromossômica do tipo 1:1. O contexto biológico
Tomemos um exemplo mais extremo, a genera- nunca deve ser esquecido quando seguimos
lização a partir de uma observação. Imagine diretrizes metodológicas.
que você encontrou uma tartaruga de uma es-
pécie rara colocando seus ovos em um ninho A generalização por razoabilidade é parte intrín-
em uma praia. Você leva estes ovos para o seca da pesquisa. Por exemplo, é comum se
laboratório para verificar se a determinação do utilizar ratos para iniciar estudos sobre remédios
sexo é influenciada pela temperatura durante o para humanos porque: a) a ética nos impede de
desenvolvimento. Ao final do experimento, nas- começar com humanos; b) o custo de manuten-
ceram apenas fêmeas dos 20 ovos mantidos a ção de ratos em biotérios é relativamente baixo;
temperaturas altas e apenas machos dos 20 c) os ratos também são mamíferos, e devem ter
ovos mantidos a temperaturas baixas e você uma fisiologia semelhante em algum grau. Pre-
conclui que nesta espécie o sexo é determinado cisamos avaliar caso a caso até que ponto é
pela temperatura no desenvolvimento. Se esta razoável generalizar e ter consciência que a
for sua conclusão, você estará extrapolando generalização pode estar errada. A validação
para a espécie com base em apenas uma fê- externa por razoabilidade inclui argumentos,
mea e a partir de um experimento em condições citações e dados adicionais que justifiquem a
generalização.
15
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
mal”. Outras decisões são de relações entre você gostaria de casar, mas teme muito a pos-
variáveis, que nos são ensinadas ou que apren- sibilidade separação; qual é a chance disto
demos ou percebemos por conta própria. Por ocorrer? Se você quisesse uma avaliação do
exemplo, a relação entre a quantidade de nu- tipo que se usa mais nas pesquisas científicas,
vens e a probabilidade de chover ou entre o você teria que casar com ele (a) umas 30 vezes
cheiro do peixe e ele estar pronto para ser con- em condições semelhantes à atual e verificar a
sumido. Outras decisões são de ação, como taxa de sucesso para tomar uma decisão com o
pegar o guarda chuvas, mudar de fila ou telefo- tipo de estatística que vamos trabalhar neste
nar para a sua mãe. curso. Naturalmente que isto é impossível neste
exemplo e em muitas situações do cotidiano,
Para entender como uma decisão envolve um mas é bem mais comum isto ser possível na
cálculo, analise o exemplo do guarda chuva. pesquisa, especialmente em estudos experi-
Depois da decisão de valor de considerar que o mentais.
que você viu eram “nuvens muito carregadas” e
depois de ter estabelecido (ainda na sua infân- Na decisão sobre um casamento, só lhe resta
cia) a relação entre a quantidade de nuvens e a uma abordagem sistêmica na qual você recolhe
probabilidade de chuvas, você vai aplicar este informações relevantes e procura fazer um cál-
conhecimento a uma decisão de ação. A deci- culo aproximado de probabilidades. Você pode-
são de ação de pegar o guarda chuva depende ria partir das estatísticas de uma taxa recente
da avaliação do custo de pegar o guarda chu- de divórcios no Brasil de 20% nos 10 anos inici-
vas e não chover contra o custo de não pegar o ais. Entretanto, considerando sua faixa etária e
guarda chuva e chover. Comecemos pelos ex- classe social, você verifica na pesquisa que a
tremos: se pegar chuva fosse extremamente taxa é de 30%, portanto, esta é uma estimativa
perigoso e o guarda chuva fosse muito leve, mais apropriada. Este é um risco alto, o que te
você simplesmente o levaria sempre; se pegar coloca em dúvida. Então, você conversa com
chuva não incomodasse em nada e carregar um amigos que te tranquilizam lembrando que seu
guarda chuvas fosse um estorvo, você nunca o (sua) pretendente teve relacionamentos anterio-
levaria. Em casos intermediários, precisamos de res estáveis e que não terminaram devido a
um cálculo, intuitivo ou formal. Ilustremos com alguma briga irracional. Portanto, você conside-
um cálculo formal. Se você acha que escapar ra que a probabilidade de divórcio com ele (a) é
de uma chuva vale R$10,00 e que pagaria bem inferior aos 30% e aceita a proposta. Esta
R$2,00 para não ter que carregar o guarda chu- probabilidade estimada considerando as infor-
vas por um dia, então não levaria o guarda chu- mações contextuais não é utilizada apenas no
vas se a chance de chover fosse de 50% (pois cotidiano, também é bastante usada em pro-
0,5 x R$10,00 > 0,5 x R$2,00), mas levaria se a blemas aplicados, como no cálculo do valor de
chance de chuva fosse de 90% (pois 0,1 x apólices de seguros, utilizando uma versão
R$10,00 < 0,9 x R$2,00). Não dê importância matemática mais precisa de nossa estatística
ao cálculo exato, o objetivo aqui é perceber que intuitiva chamada Estatística Bayesiana. Sua
a decisão depende de duas coisas: do custo utilização na pesquisa tem sido relativamente
que representa cada alternativa de decisão e da restrita, mas tem crescido nos últimos anos, à
probabilidade de cada alternativa no momento medida que os pesquisadores vão entendendo
da decisão. a sua utilidade para uma diversidade de situa-
ções de tomada de decisão.
É importante iniciarmos valorizando nossa ca-
pacidade de tomar decisões, para entendermos A estatística intuitiva mais comum é uma forma
que nossa lógica intuitiva não está errada, ape- complexa válida de pensar, tanto que tem um
nas difere na aplicação com o que é mais feito equivalente formal, que é a estatística Bayesia-
na ciência. Imagine que seu namorado ou na- na. Entretanto, em condições especiais, quando
morada lhe pede em casamento. Digamos que podemos obter informações de dados com re-
17
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
petições de unidades amostrais independentes, O ideal é que a população estatística seja muito
e dentro de premissas metodológicas bem defi- bem delimitada, como no exemplo das inten-
nidas, temos uma alternativa bem mais objetiva ções de voto, mas nem sempre isto é possível.
e poderosa para estabelecer relações que é No exemplo de borboletas da seção anterior
chamada Estatística Frequentista. Vamos dificilmente se conseguiria coletar em toda sua
explicar o seu funcionamento a partir do capítu- área de ocorrência, e não seria possível se
lo 3. Neste livro, como na grande maioria dos coletar borboletas no futuro ou no passado. Por
cursos básicos de estatística, apenas tratare- isto, a delimitação assumida como “borboletas
mos de cálculos de probabilidades frequentis- pertencentes a determinada espécie” tem a
tas. Entretanto, a estatística intuitiva também é premissa que as do presente e do local do es-
usada quando utilizamos a frequentista. Não tudo são representativas também de outros
faremos cálculos matemáticos Bayesianos, mas lugares e tempos, premissa cuja validade de-
utilizaremos avaliações de premissas qualitati- pende de reflexão com base na razoabilidade
vas que chamaremos de “Razoabilidade”, como biológica.
fizemos na seção 1.5 na validação externa por
razoabilidade. Os elementos da população estatística que
constituem a amostra são denominados Unida-
1.7 Da amostra à população. des Amostrais. A amostra com todos os ele-
mentos que entraram no estudo pode ser dividi-
O objetivo da análise estatística frequentista de da em amostras menores com base em alguma
dados é fazer as conclusões mais fortes possí- característica das unidades amostrais. Por e-
veis com segurança sobre uma população xemplo, podemos dividir a amostra borboletas
estatística com base nos dados disponíveis em função do sexo e obtemos uma amostra de
(amostra ou amostras) (Motulsky, 2010). machos e uma amostra de fêmeas. Podemos
dividir a amostra de intenções de votos de uma
Já falamos superficialmente em populações e ampla pesquisa no Brasil em 27 amostras (uma
amostras na seção anterior, vamos aprofundar para cada estado). Ao fazermos isto, também
um pouco mais. Uma população estatística é estamos dividindo a população estatística em
um conjunto completo de entidades que se populações estatísticas. Não podemos dizer
pretende estar envolvendo em uma análise. que há uma população biológica de machos de
Em contraste, a amostra é o subconjunto da borboletas, mas podemos dizer que há uma
população estatística efetivamente utilizado população estatística de machos de borboletas.
na análise.
Frequentemente, as conclusões estatísticas
É importante não confundir o termo biológico/ envolvem parâmetros populacionais. Um Parâ-
geográfico de população com o termo “Popula- metro é uma medida coletiva quantitativa de
ção Estatística”. Em um estudo sobre intenções alguma propriedade da população, como a mé-
de votos para presidente do Brasil, a população dia do tamanho das borboletas macho. Outros
estatística é o conjunto de “intenções” (imagine parâmetros incluem número de indivíduos da
uma caixa com papéis com declarações de população, a razão sexual, o grau de dimorfis-
intenção de voto de cada eleitor em determina- mo sexual, a proporção de eleitores dispostos a
do momento). Se preferir imaginar como pesso- votar em certo candidato e coeficientes de mo-
as, então imagine uma “pessoa-momento”. Note delos que descrevem relações. Abordaremos
que a população estatística não é realmente a mais profundamente parâmetros populacionais
população brasileira, pois a população que vai no capítulo 3.
votar praticamente não muda de um mês para
outro, mas as intenções podem mudar bastante Esta seção apenas introduz um assunto que
ao longo do tempo. será tratado mais profundamente no capítulo 3.
Em geral, trataremos de análises de estudos
18
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
com coletas dirigidas para testes de hipóteses, 1.4- b. Ninhos de cupons. Você percebe que algu-
entretanto, é conveniente destacar que nem mas espécies de cupins fazem seus ninhos no alto
sempre é assim. Muitas pesquisas estão cen- de árvores enquanto outras espécies fazem ninhos
tradas em uma coleta temática, como o “Censo” no solo com uma parte do ninho acima do solo e um
terceiro grupo de espécies fazem ninhos completa-
do Instituto Brasileiro de Geografia e Estatística.
mente subterrâneos.
Trata-se de uma pesquisa planejada que abor-
da muitas perguntas ao mesmo tempo, que 1.4- c. Lua: Você sabe que a variação nas fases da
serão avaliadas de uma forma integrada. Há lua tem efeitos sobre muitos animais. Então você se
ainda pesquisas em que os dados vêm antes pergunta, será que a lua também tem efeito sobre
das perguntas, como no caso de descobertas plantas?
acidentais ou no caso de uma coleta de recicla-
gem na qual estudamos uma base de dados 1.5- Explique o que é uma previsão exclusiva
que não coletamos, como um estudo sobre a
evolução da caça em uma determinada região 1.6- Cite problemas originais que envolvam uma
evidência: a) factual; b) estatística simples; c) con-
cujos dados são provenientes dos registros de
textual d) sistêmica.
comércio de peles.
1.7- Explique um exemplo original de pesquisa em
que as conclusões são suspeitas devido a incerte-
Exercícios: zas na validade das medidas.
1.1- O uso da estatística na pesquisa foi comparado 1.8- Qual é a diferença entre um problema de vali-
com o uso de meios de transporte e de um micros- dação interna e um problema de validação externa?
cópio. Explique a analogia.
1.9- O que é paranoia metodológica?
1.2- O que é um problema complexo e por que o
fato dele ser complexo não implica que seja de difícil 1.10- Por que os problemas de validação da medida
solução. e de validação interna normalmente são mais graves
do que problemas de validação analítica e de vali-
1.3- Algumas pessoas afirmam que os homens não dação externa ao longo de uma pesquisa?
conseguem desenvolver atividades complexas como
as mulheres. Puro preconceito. Se for dado tempo 1.11- Por que evoluímos com uma alta capacidade
suficiente e assessoria adequada, os homens po- de realizar cálculos estatísticos intuitivos e falhamos
dem desenvolver atividades igualmente complexas. em algumas questões estatísticas cotidianas banais.
Explique por que preparar uma festa de criança é
um problema complexo e quais partes deste pro- 1.12- Cite exemplos originais de decisões: a) de
blema podemos “terceirizar”. valores; b) de relações; c) de ações.
1.4 Reflita sobre os temas abaixo e pense em um 1.13- Explique a diferença entre a estatística intuitiva
estudo (para cada um) na forma de um problema e a estatística mais utilizada em pesquisas científi-
(um aspecto relevante do tema a ser desenvolvido). cas (frequentista).
Com base nisto: a) defina o problema que será a-
bordado; b) levante uma hipótese dentro deste pro- 1.14- Por que nem sempre é possível delimitar bem
blema; c) faça uma previsão para testar esta hipóte- uma população estatística? Em que sentido isto
se. atrapalha na obtenção de uma amostra representa-
tiva e na determinação de um parâmetro populacio-
1.4- a. Micorrizas: Suponha que você descobriu as nal?
Endomicorrizas*, mas ainda não sabe o que são. O
que você percebeu foi a existência de muitos espo-
ros de fungos no solo que aparentemente estão
ligados às raízes. (Se não sabe o que são endomi-
corrizas, comece com uma pesquisa na internet)
19
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
As tabelas ou planilhas EPR são as tabelas com 2.4 Relações entre variáveis
nossos dados organizados em entidades (li-
nhas), propriedades (colunas) e valores (células Hipóteses são testadas a partir de suas previ-
da tabela). Em uma tabela EPR cada entidade sões, e as previsões mais comuns na pesquisa
aparece apenas uma vez e as propriedades envolvem a relações entre duas variáveis, a
são variáveis que serão relacionadas ou que Variável Preditora (ou “Independente”), cuja
participarão da análise de outra forma. A tabela variação influi sobre os valores de uma Variável
EPR é mais que um local para depositar os Resposta (ou “Dependente”), se sua hipótese
dados, ela é estiver correta. Para determinar quais são estas
uma tabela con- variáveis em seu estudo, pergunte a si próprio:
ceitual que su- pela minha hipótese o quê (qual fator ou variá-
mariza o plane- Tamanho Sexo vel) influencia sobre o quê (qual variável)? Por
jamento do nos- 12 m exemplo, se estamos testando a capacidade de
so projeto, de borboletas distinguirem entre cores semelhan-
forma que deve 10 m tes pela previsão que a cor da armadilha (ver-
ser planejada 11 f melhas ou amarelas- variável preditora) atrai
preferencialmen- 11 f uma quantidade diferente de borboletas (variá-
te antes da cole- vel resposta).
ta de dados, Figura 2-3- Nas tabelas EPR, as
tendo em vista linhas são entidades e as colunas Os termos variável preditora e variável resposta
são propriedades. A seta indica se aplicam quando há uma Relação Conse-
as relações que uma relação.
queremos veri- quente (ou causal fig. 2.6) entre elas, isto é,
ficar. quando a causa da variação da segunda é,
direta ou indiretamente, a primeira. Quando esta
Os gráficos EPR são gráficos cartesianos cujos as duas variáveis tem uma relação “próxima”,
eixos são propriedades (as variáveis em estudo) ela é chamada Relação de Causa Proximal, e
e as entidades são representadas, cada uma quando é distante, é chamada Relação de
delas, por um ponto situado no gráfico em fun- Causa Final. Por exemplo, em anos com pouca
ção dos seus valores das propriedades (e. g. chuva, alguns lagos secam causando a mortali-
diagrama de dispersão e “dot density”). Além dade generalizada dos peixes. A causa proximal
dos eixos, as da morte dos peixes é a falta de água para os
propriedades Janeiro ( ) Julho ( ) peixes poderem respirar e não ressecar e a
também podem causa final é a variação climática. Uma pessoa
ser representa- pode perder seu emprego porque a sua produti-
Tamanho
22
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
Algumas previsões envolvem duas variáveis a relação entre as variáveis preditora e resposta
(Covariáveis) que tem uma Relação Inconse- “eliminando” ou “controlando” o efeito das ou-
quente (ou correlação), isto é, a variação em tras relações. Em estudos experimentais, nos
uma não influi sobre o valor da outra, mas as quais manipulamos o valor da variável preditora
duas podem covariar (variar ao mesmo tempo) (e. g. quantidade de certo elemento químico em
em resposta a uma terceira variável. Por exem- vasos) e medimos a velocidade de crescimento
plo, podemos verificar se existe uma relação de uma planta, é possível ter segurança que a
entre as cores das roupas que uma pessoa relação encontrada, se houver, é uma relação
prefere vestir e o seu sucesso em desempenhar consequente. Em estudos não experimentais,
tarefas em grupo. A constatação que a relação isto é, naqueles em que não manipulamos a
existe não implica que as cores causam o su- variável preditora, normalmente não podemos
cesso, é mais provável que uma terceira variá- ter esta segurança. Por exemplo, se você com-
vel, talvez o grau de otimismo da pessoa tenha parar a taxa de crescimento de plantas em fun-
influência sobre as cores que ela usa e sobre a ção da quantidade de certo elemento químico
sua tendência a ter sucesso em tarefas em no solo na natureza, você não pode ter certeza
grupo. Estudos com previsões conscientes so- que a relação encontrada, se houver, é causal,
bre relações inconsequentes são válidos, como pois é possível que as duas variáveis sejam
no exemplo acima, entretanto, uma falha co- influenciadas por uma terceira variável. Possi-
mum é achar que a existência de uma relação velmente a umidade no solo tenha um efeito
implica uma causalidade, isto é, mesmo encon- sobre o crescimento da planta e sobre a quanti-
trando a relação entre roupa e sucesso, não dade de algum elemento químico, causando
podemos prever que mudando a cor da roupa uma relação inconsequente entre estas duas
de uma pessoa haverá mudança no sucesso variáveis. Embora correlação não implique cau-
em atividades em grupo. Uma expressão impor- salidade, ela pode ser uma evidência importante
tante em estatística é “Correlação não implica dentro de um estudo sobre relações causais,
causalidade”, isto é, cuidado para não confundir desde que tenhamos a consciência que as con-
relações inconsequentes com relações conse- clusões em estudos não experimentais depen-
quentes. dem de cuidados redobrados (cap. 6).
A relação entre duas variáveis pode ser obscu- 2.5 A estatística para estabelecer
recida ou confundida pela existência de outros relações.
fatores (conhecidos ou não) influenciando nos
valores da variável resposta, por isto, um dos Muitos estudos biológicos envolvem previsões
desafios em um estudo é conseguir estabelecer com uma variável preditora e uma resposta ou
com duas covariáveis. O conjunto de técnicas
utilizadas nesta situação é denominado Estatís-
tica Bivariada (Fig. 2.6). Alguns problemas são
mais complexos, ou tratados de forma mais
complexa, incluindo na análise mais de duas
variáveis ao mesmo tempo para uma descrição
ou teste. O conjunto de ferramentas para estes
problemas é denominado Estatística Multivari-
ada. A estatística multivariada inclui análises
Figura 2-5- Esquema representando diferentes tipos de com uma variável resposta e múltiplas predito-
relações (setas) entre variáveis (letras “A” a “F”). As
relações R1 a R5 são consequentes e as relações r1 a r4
ras e análises com múltiplas variáveis preditoras
são inconsequentes. As relações ligadas diretamente e respostas (muitas pessoas utilizam a expres-
por apenas uma seta são de causa proximal e as rela- são estatística multivariada exclusivamente no
ções entre “A” e “D” e entre “A” e “F” são de causa
final.
segundo caso). Há ainda a Estatística Univari-
ada, que inclui as técnicas para problemas que
23
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
24
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
planilhas EPR podem ser utilizadas para anali- plícita (tomou cerveja?- antes/ depois) e uma
sar “a mesma” previsão (embora não seja exa- variável resposta implícita (velocidade).
tamente a mesma quando as entidades são
diferentes). Para MacNaughton (2002), o papel da pesquisa
empírica é descrever relações para predizer e
Nem sempre a determinação da entidade é tão controlar valores de propriedades. A seu ver, as
fácil como no exemplo do chocolate. Se sua hipóteses são sobre relações (entre variáveis ou
hipótese é que o pH da água onde as larvas de em relação a um padrão). O teste de sua hipó-
mosquitos se desenvolve afeta a sua sobrevi- tese é feito com base em predições. Se as evi-
vência, a variável preditora é o pH da água e a dências apoiam uma hipótese, então ela pode
resposta é a sobrevivência do mosquito, mas ser utilizada como base para outras hipóteses e
qual a entidade? Pode ser frasco, se você tiver em na aplicação em problemas práticos, pois
vários frascos diferindo no tipo de água e com nos permite prever valores.
larvas cuja sobrevivência será calculada ao final
do experimento. Há outras possibilidades de- Pense em problemas práticos. Neste lago pega-
pendendo do que foi sua unidade amostral. remos bastante peixe? Este paciente será cura-
Cuidado com o que vai definir como unidade do? A plantação produzirá mais se plantarmos
amostral. Se você quer saber se o investimento em abril ou se esperarmos até setembro? Neste
em merenda escolar por escola influi no rendi- local encontraremos cobras venenosas? Se não
mento acadêmico, sua unidade amostral é es- sabemos as respostas (pois não temos uma
cola, não é aluno. Portanto, cada linha é uma máquina de viajar no tempo ou um oráculo) e
escola e você vai utilizar a média do rendimento não podemos esperar o futuro para tomar deci-
acadêmico por escola. sões, o que fazer? Se conseguirmos identificar
relações entre variáveis, podemos fazer previ-
Algumas hipóteses envolvem apenas uma vari- sões. Se soubermos que lagos de água branca
ável, o que implica em uma coluna na planilha sempre tem muito peixe, e que um determinado
EPR. Considere a hipótese “a resistência de lago tem água branca, então podemos prever
peixes ornamentais ao transporte é influenciada que provavelmente haverá muito peixe nele. Se
pelo sexo do peixe”. Podemos testa-la com a soubermos que pessoas que têm temperatura
previsão que partindo de uma população de 50 alta geralmente estão com infecções, e que
machos e 50 fêmeas, a proporção de fêmeas ao uma determinada substância controla infecções,
final será maior. Sobrevivem 25 machos e 40 podemos predizer que ela provavelmente terá
fêmeas, que é uma diferença estatisticamente diminuição na febre e se sentirá melhor se to-
significativa. A forma de determinar isto será mar esta substância. Esta ação aparentemente
abordada no capítulo 5, o que nos importa ago- banal de estabelecer relações é um dos pila-
ra é que a conclusão baseia-se apenas na vari- res que sustenta a ciência. A explicação é outro
ável “sexo” (a entidade é peixe). Há hipóteses objetivo da ciência, mas se pensarmos bem, ela
com variável preditora e variável resposta que está intimamente ligada ao estabelecimento de
utilizam testes univariados (testes pareados). relações.
Considere a hipótese: “a agilidade de adultos do
sexo masculino diminui após a ingestão de a-
penas uma lata de cerveja”. Sua previsão é que
a velocidade na execução de certa tarefa com-
plexa é menor depois da ingestão de uma lata
de cerveja. Então você mede a diferença de
velocidade antes e depois da cerveja para vá-
rias pessoas. Repare que sua análise vai se
basear apenas em uma variável, a diferença de
velocidade, mas há uma variável preditora im-
25
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
2.9- Qual é a diferença entre as estatísticas bivaria- 2.12) Escolha uma relação para explicar dificul-
da, univariada e multivariada. dades com validação da medida, validação
interna e validação externa.
Elabore tabelas e gráficos EPR para a lista hipó-
teses a seguir: 2.11) Construa uma tabela EPR e dois gráficos
EPR para avaliar relações em seu campo de
a) O tamanho de indivíduos da espécie de tar- pesquisa (preferencialmente um trabalho que
tarugas Podocnemis expansa influi na esteja desenvolvendo).
taxa reprodutiva.
26
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
27
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
rica, já que não é uma quantidade sujeita a carros estatísticos. Por exemplo, o número de
operações matemáticas (a planta #1 não é igual ovos é uma variável quantitativa descontínua,
à planta#136 menos a planta#135). Variáveis pois não existem “3,5 ovos”, há um “salto” entre
binárias sempre podem ser tratadas como cate- os níveis 3 e 4. Segundo estes livros, o peso de
góricas, mas diferem das categóricas com mais um ovo seria uma variável quantitativa contínua,
de dois níveis efetivos por possuir uma maior pois há valores intermediários entre 40 e 41 g
flexibilidade em análises estatísticas, o que (como 40,555 g).
justifica uma escala separada. As escalas Biná-
ria e Categórica juntas são chamadas de Esca- A descontinuidade é efetivamente algo que
la Nominal. deve ser levado em conta em análises estatísti-
cas. Entretanto, o problema não se resolve com
Ordinais: Existe uma sequência ordenada rele- esta divisão em dois tipos de números. Esta
vante entre os níveis na análise. A diferença divisão é inapropriada porque: a) na prática, não
entre um nível e o próximo é de posição ape- existe nenhuma medida continua, tudo é conta-
nas, não há uma quantificação. Por exemplo, gem, pois todo equipamento ou procedimento
não podemos saber se o segundo lugar em uma tem um limite de precisão. Por exemplo, no
corrida chegou mais próximo do primeiro ou do caso de pesos nós contamos as microgramas
terceiro apenas com a posição da chegada. do último dígito de uma balança, com “saltos”
Outros exemplos: abundância na escala “nula, de 40,555 para 40,556 mg; b) contagens com
rara, intermediária, comum ou muito comum”; muitos níveis (e. g. posturas de peixes com 623,
vento na escala “fraco, moderado, forte, violento 1.544, etc., em número de ovos) têm proprieda-
e furacão”; notas na escala “A, B, C, D ou re- des matemáticas semelhantes em análises
provado”; idade na escala “filhote, jovem pré estatísticas às dos números “descontínuos”
reprodutivo, adulto novo, adulto velho”; tipo de (equivalem a 0,623 e 1,544, etc., em milhares
solo na escala “arenoso, intermediário arenoso, de ovos); c) mesmo para uma variável conside-
intermediário argiloso ou argiloso”. Você pode rada contínua (números Reais), pode haver
usar números nestas escalas, mas é preciso problema de descontinuidade até para instru-
lembrar que estes números não são quantida- mentos de precisão se o número de níveis efeti-
des. vos for pequeno. Por exemplo, se você obtiver
apenas os três níveis efetivos 0,01; 0,02 e 0,03
Quantitativas: Variáveis quantitativas possuem g em todas as suas medidas (note que não são
valores numéricos que efetivamente represen- números Inteiros) haverá descontinuidade. Ao
tam quantidades. Não são variáveis quantitati- invés de separar as estradas em “lisas” (contí-
vas aquelas que possuem valores numéricos nuas) e “esburacadas” (descontínuas), seria
que representam apenas ordem ou rótulo de melhor classificar as estradas em função dos
uma categoria. tamanhos dos buracos, pois microburacos sem-
pre existem sem ser necessariamente um pro-
Muitos livros de estatística dividem a escala blema. Veremos no capítulo 5 que na prática o
quantitativa em duas: Razão e Intervalar. Esta problema da descontinuidade na variável res-
separação envolve um detalhe matemático que posta é irrelevante acima de 20 níveis efetivos,
raramente é relevante para o uso das técnicas pequeno até 10 níveis e vai tornando-se gradu-
estatísticas que abordaremos, de forma que não almente grave a muito grave à medida que te-
a utilizaremos. Outra separação comum na mos menos níveis efetivos, exigindo ajustes na
escala quantitativa é entre números “contínuos” técnica de análise.
(números Reais) e “descontínuos” (números
Inteiros). A questão da continuidade é relevante Outras escalas. Há três escalas de medida
porque os “saltos” dos números entre níveis especiais com as quais não trabalharemos, mas
podem exigir ajustes nos cálculos estatísticos. É que precisam ser conhecidas, uma vez que
como se fossem buracos na estrada de nossos requerem métodos estatísticos próprios. Algu-
28
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
29
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
Imagine que você quer saber se a proporção de pessoas entrevistadas de outra cidade gostam
meninos que sabe nadar é diferente da propor- da qualidade de vida, não podemos saber se a
ção de meninas que sabem nadar. Você realiza qualidade de vida é melhor na primeira cidade
entrevistas e pergunta a muitas crianças se elas ou se as pessoas são mais exigentes na se-
sabem nadar. Dos 300 meninos, 66% responde- gunda. Uma pessoa pode achar que há “pou-
ram “sim” (sabem nadar), muito mais que os cas” aves em um local quando estiver come-
33% de 300 meninas que responderam “sim”. çando a observar aves, e perceber que há “mui-
Embora a diferença seja estatisticamente signi- tas” depois de adquirir mais experiência.
ficativa, há uma dúvida importante antes de se
concluir que mais meninos que meninas sabem Abordamos aqui as incertezas na atribuição de
nadar. O significado de um “sim” de um menino valores nominais e abordaremos na próxima
é realmente comparável ao significado de um seção incertezas em precisão e acurácia de
“sim” de uma menina? Possivelmente os meni- valores quantitativos. Terminamos esta seção
nos tenham mais vergonha em admitir que não destacando que também os valores quantitati-
sabem nadar e respondam “sim” mesmo sem vos podem ter incertezas de atribuição, por
saber, enquanto as meninas apenas respondem exemplo, o número de ações agressivas por dia
“sim” se nadam bem. Este exemplo ilustra o tipo dependerá do que se considera um comporta-
de problema que pode acontecer em entrevis- mento agressivo, como já foi discutido acima.
tas, mas o problema não se restringe a entrevis- Portanto, é sempre importante refletir bem so-
tas. bre a possibilidade de erros de atribuição com-
prometendo a interpretação no seu estudo.
Por serem interpretações, as atribuições nomi-
nais e ordinais sempre estão sujeitas a erros, 3.3 Exatidão, precisão e acurácia.
como na identificação de uma espécie, na de-
terminação de qual doença um paciente teve, Uma medida é um valor de uma propriedade de
ou no sentido de um “sim” no parágrafo anterior. uma entidade obtido com o uso de instrumen-
É importante definir cuidadosamente os critérios tos, protocolos e procedimentos que podem ser
de atribuição, principalmente quando a subjeti- bons ou ruins em diferentes graus e aspectos
vidade pode ter um papel importante na decisão que serão tratados aqui.
de valor. Em muitos estudos de comportamento,
é importante se detalhar o significado de cate- A exatidão de uma medida, na teoria, é a pro-
gorias de comportamento utilizadas para permi- ximidade entre o valor obtido e o valor real. Esta
tir comparações (etograma). Se você chamar de definição com foco na medida individual serve
“comportamento agressivo” apenas quando como ideal, mas é insuficiente na prática por
animais efetivamente lutam, vai considerar o três motivos: A) Se você tivesse um valor “real”
comportamento mais raro do que outra pessoa a cada momento não precisaria mais da medi-
que considere qualquer demonstração de a- da, o que tornaria desnecessária a preocupação
gressividade. com exatidão da medida. B) Falta exatidão nes-
ta definição de exatidão: geralmente não é pos-
Quando trabalhamos com níveis ordinais os sível se verificar a “proximidade” porque não é
resultados são muito mais confiáveis se sempre possível se obter um “valor real”. Não se trata
forem definidos pela mesma pessoa suficiente- apenas de limitações tecnológicas, há um fato
mente treinada, ou se houver uma tabela de matemático mais simples: há infinitas casas
referência bem definida (como uma tabela de decimais após uma vírgula e não é possível se
cores de solo). Mais difícil é interpretar níveis definir objetivamente quantas casas bastam
ordinais que variam entre pessoas ou circuns- para se chegar ao “valor real definitivo”. C) Não
tâncias envolvidas na coleta dos dados. Se 60% há referência à precisão e acurácia do procedi-
das pessoas entrevistadas de uma cidade gos- mento. Resumindo, esta definição teórica omite
tam da qualidade de vida e apenas 30% das que “valores reais” são apenas abstrações, o
30
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
precisa. O ajuste de acurácia dos instrumentos lhorar a sua capacidade de estimar. Ninguém
mais exatos do mundo pode ser um assunto consegue acertar precisamente todas as medi-
complexo para certas medidas pela dificuldade das, mas você pode se considerar “calibrado”
do estabelecimento de referenciais nulos. quando a quantidade de subestimativas é se-
melhante à quantidade de superestimativas.
Precisão e acurácia podem ser medidas (Fig.
3.4). A medida da acurácia é útil para corrigir A exatidão de um procedimento calibrado é a
distorções, por isto trataremos dela primeiro. A sua precisão. O erro de precisão também pode
eliminação de erros de acurácia de instrumen- ser reduzido em algumas situações, como nas
tos é chamada calibragem. Para equipamentos estimativas de tamanhos de jacarés com o trei-
de alta precisão, costuma ser suficiente se namento, mas costuma ser fixo para instrumen-
comparar uma medida obtida com um padrão tos de medida, de forma que só podemos me-
para se corrigir o desvio do aparelho. Por e- lhorar a precisão de medidas individuais trocan-
xemplo, se uma balança estiver medindo 101,3 do o instrumento por outro mais preciso. Embo-
g para um peso padrão de 100,0 g, temos de ra muitas vezes não possamos melhorar a pre-
reduzir 1,3 g na medida. Há equipamentos de cisão, é importante dimensioná-la para saber-
precisão que precisam de mais de um padrão mos se a qualidade da medida sustenta concre-
para a calibragem (e. g. pHmetros). Também é tamente nossas conclusões e afirmações base-
comum não dispormos de procedimentos preci- adas nos dados.
sos de medida. Imagine que você tivesse que
estimar tamanhos de jacarés com base na sua A precisão costuma ser medida pelo seu inver-
capacidade de estimar o tamanho de um jacaré. so, a dispersão dos valores (Fig. 3.4-2). Quan-
Neste caso, você pode calibrar esta capacidade to menor a precisão, mais dispersos serão os
estimando tamanhos de objetos semelhantes a dados ao redor do valor central. A medida mais
jacarés (como troncos) à distância e depois simples de dispersão é a amplitude total, isto
verificar como está se saindo. Se tiver tendência é, a diferença entre o maior e o menor valor
a superestimar o tamanho, reduza suas estima- (Fig. 3.5). Imagine que você já treinou bastante
tivas e se tiver tendência a superestimar, au- sua capacidade de estimar tamanho de objetos
mente as estimativas. Se puder capturar jaca- à distância para seu estudo de jacarés, conse-
rés, é conveniente repetir a avaliação para me- guiu uma excelente acurácia e quer saber como
está a sua precisão. Então, você estima o ta-
32
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
manho de 80 troncos e alguém registra as dife- pouco confiáveis como medida de dispersão.
renças entre o estimado e o “real” (i. e. medido Além disto, ele pode não ser uma boa medida
com fita métrica- Fig. 3.4). A amplitude total de dispersão dependendo da distribuição de
seria o maior valor (+39 cm) menos o menor frequências da variável em questão, como ve-
valor (-35 cm), isto é 65 cm. Esta medida de remos na próxima seção.
dispersão (e precisão) tem alguma utilidade
quando há muitos dados, mas é simplista de-
mais e ruim para a maioria das situações, pois a
amplitude total não varia apenas com a precisão
do instrumento, ela também varia (tende a au-
mentar) com o número de medidas.
35
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
36
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
de sangue, a unidade amostral era campo e a chente de um rio para construirmos uma barra-
população eram os campos daquela lâmina. gem segura.
37
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
estabelecido para seu cálculo. Os intervalor de do valor real da população. No exemplo dos
confiança mais utilizados são IC99%, IC95%, gafanhotos, quanto mais áreas de certo tama-
IC90% e o erro padrão (ou IC68,27%). Um nho você tiver, maior precisão terá. Neste e-
IC95% de um parâmetro significa que o interva- xemplo, também teremos maior precisão quanto
lo foi calculado de forma a ter 95% de chance maior for cada área, pois isto tende a diminuir a
do intervalo de conter o parâmetro. Por exem- variação nos valores entre áreas e a represen-
plo, uma estimativa de média de gafanhotos por tatividade de cobertura da área coletada. (A
100 m2 de 12,3 com IC95% entre 8,5 e 20,3 nos representatividade em distribuição é um concei-
dá uma ideia bastante precisa de até que ponto to diferente relacionado com acurácia da esti-
nossa estimativa pontual é confiável. A figura mativa que será tratado na próxima seção.)
3.9 ilustra uma utilização de intervalos de confi-
ança para mostrar mudanças temporais. Os O conceito de intervalo de confiança é essencial
intervalos permitem avaliar as mudanças nas ao usuário de estatística, mas o seu cálculo não
médias de volume de néctar por horário de for- é, por isto não entraremos em detalhes sobre a
ma objetiva. O aumento entre 5:00 e 6:00 horas forma de calcular intervalos de confiança de
é incerto, mas podemos dizer com segurança parâmetros de contagens e de parâmetros de
que houve redução entre 6:00 e 7:00 horas. proporções. Estes intervalos podem ser facil-
mente calculados em sites como
Quanto menor o intervalo de confiança obtido www.graphpad.com/quickcalcs/confInterval1
para um parâmetro, melhor é a estimativa, isto é (Motulsky, 2010). Entretanto, entraremos um
maior é a sua precisão. A precisão de um pa- pouco nos detalhes de como obter intervalos de
râmetro depende da precisão das medidas indi- confiança de parâmetros de variáveis ordinais e
viduais, da variação natural entre unidades a- quantitativas, pois há conceitos relevantes ao
mostrais e da representatividade de cobertura. usuário que precisam ser tratados.
Abordamos precisão das medidas individuais na
seção 3.3. É bom termos medidas individuais Há diferentes formas de se determinar interva-
precisas, mas a im-
precisão e a variação
natural no cálculo de 12
Volume de Nectar (µL)
parâmetros podem
10
ser compensadas por
uma maior represen- 8
tatividade de cobertu-
ra. A representativi- 6
dade de cobertu-
ra.tem dois elemen- 4
tos principais, o ta-
manho da amostra 2
(número de unidades
amostrais) e o tama- 0
nho da unidade a-
0
0
0
0
:0
:0
:0
:0
:0
:0
05
06
08
07
09
10
los de confiança. As mais utilizadas para o pa- de intervalos de confiança assimétricos ajusta-
râmetro média têm sido o Erro Padrão (Quadro dos aos dados. A lógica do funcionamento do
3.2) e uma estimativa paramétrica do Intervalo Bootstrap é bastante intuitiva e é apresentada
de Confiança da Média (ICM) de 95% (ou na legenda do Quadro 3.3. Quando há normali-
IC95% da média) calculada a partir do valor do dade, suas estimativas são tão boas quanto as
erro padrão. É importante não confundir o erro obtidas por métodos paramétricos e quando não
padrão com o desvio padrão. O desvio padrão é há normalidade suas medidas são sempre me-
uma medida de dispersão de valores da popu- lhores. Outra vantagem do Bootstrap é que esta
lação; é uma característica desta população que técnica não se restringe a avaliações da média,
ganha precisão quanto maior a amostra usada permite a determinação de intervalos de confi-
para estimá-lo. O erro padrão é um intervalo de ança para qualquer parâmetro das escalas
confiança da média (equivale a um IC68%) que quantitativa e ordinal.
diminui quanto maior for o tamanho da amostra
utilizada na estimativa. Sempre que usar um ou Embora seja uma técnica antiga, raramente é
outro é obrigatório explicitar de qual se trata. apresentada em cursos introdutórios de estatís-
tica, porque os conteúdos destes cursos foram
O erro padrão e o intervalo de confiança para- definidos há uns 30 anos, quando o acesso ao
métrico são simétricos acima e abaixo da medi- poder de computação era mais restrito, e esta
a. Este é um dos problemas desta forma de técnica exige este poder. Entretanto, já faz tem-
calcular intervalos de confiança que fica claro po que isto não é um fator limitante e trata-se de
no exemplo da figura 3.8. Note que foi omitida a uma técnica valiosa, de forma que lentamente
parte negativa do intervalo de confiança no está vencendo o tradicionalismo e começando a
horário 10:00hs. Isto foi feito porque sabemos ser incorporada aos cursos básicos.
que não existe quantidade negativa de néctar.
Quando a distribuição de frequências é muito Mesmo o intervalo determinado por Bootstrap é
assimétrica, como ocorreu neste exemplo, me- suspeito quando o tamanho amostral é peque-
didas paramétricas de intervalos de confiança no. De quantos dados precisamos para obter
devem ser evitadas. um intervalo de confiança confiável? O ideal é
mais de 30. Entretanto, assim como no exemplo
A técnica chamada Bootstrap (Quadro 3.3) da figura 3.9, é comum que tenhamos bem me-
permite obter uma estimativa não paramétrica nos. Considerando que esta precisão varia com
o tipo de distribuição, podemos recomendar um
mínimo de 5 quando há forte expectativa de
distribuição de frequências aproximadamente
normal, um mínimo de 10 quando há um desvio
bastante forte da normalidade (e. g. 2, 2, 3, 3, 3,
4, 4, 5, 5, 5, 5, 7, 8, 10, 14, 15) e um mínimo de
15 quando há um desvio maior (e. g. 0, 0, 0, 0,
0, 1, 1, 3, 5, 9, 20). Quando temos tamanhos
amostrais menores, o intervalo de confiança
pode ser utilizado, mas é muito importante tam-
bém apresentar os dados brutos, como foi feito
na figura 3.9, onde os pontos todos são mostra-
dos. Tamanhos amostrais pequenos não são
Quadro 3.2- Cálculo paramétrico do Intervalo de Confian-
um pecado acadêmico, mas está errado escon-
ça IC95% da média. O cálculo do Desvio Padrão foi apre- der do leitor as incertezas nos dados.
sentado no Quadro 3.1.
39
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
Quadro 3.3- Determinação de Intervalos de Confiança pela técnica de Reamostragem chamada Bootstrap. Funciona
como se o computador “clonasse” os dados várias vezes, “recriando” algo semelhante à população original (como os
números na tabela acima). Tendo esta população, o computador retira uma amostra do mesmo tamanho amostral da
amostra inicial (representada em destaque na tabela) e calcula o valor do parâmetro (e. g. a média). Depois repete o
processo muitas vezes (e. g. 1000 vezes), obtendo repetições de estimativa do parâmetro. Então retira uma porcentagem
dos valores extremos (e. g.. 5% para obter um IC95%) e obtêm os limites do Intervalo de Confiança.
40
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
0,01% da população masculina adulta do Brasil combinações de níveis das variáveis preditoras,
por sorteio de toda a população terá uma amos- se houver mais de uma) possuem representati-
tra excelente para calcular a média de alturas. vidade em distribuição válida em relação à po-
Se você utilizar os dados de toda a população pulação estatística. Esta situação é rara, como
masculina adulta de um único estado, como veremos adiante, de forma que geralmente se
São Paulo, esta medida não será representativa busca nesta situação uma representatividade
da média nacional, mesmo contendo cerca de paralela parcial e generalizações com base na
20% da população do Brasil. Quando há repre- razoabilidade. Na representatividade paralela
sentatividade em distribuição as unidades a- parcial, os conjuntos de unidades amostrais de
mostrais, frequentemente se diz que são “inde- cada nível da variável preditora possuem a
pendentes”. O que significa independentes? mesma representatividade em distribuição entre
Independentes umas das outras? Não, nem si, ainda que nenhum destes níveis seja válido
poderiam, já que estamos falando de uma popu- como representatividade em distribuição de
lação e todas devem pertencer à mesma popu- toda a população estatística. Esta situação será
lação. O termo Independência significa fora da explicada com exemplos experimentais, pois
influência de um fator de confundimento. neles é mais simples se obter esta condição.
não sabe se cresceram mais em função do o único fator que influi no sentido de causar
tratamento ou em função do lote. Não há repre- uma diferença entre o tratamento e o controle é
sentatividade paralela porque os níveis da vari- o próprio efeito do tratamento em estudo.
ável preditora diferem em algo que relevante
além da própria variável em estudo. O sorteio No segundo experimento o potencial efeito do
foi uma aleatorização irrelevante, pois não foi lote tornou o resultado inconclusivo, mas no
para cada semente e sim para cada pacote, de terceiro experimento o efeito do lote foi anulado
forma que não permitiu a homogenização da porque o sorteio garantiu a representatividade
representatividade entre os níveis. A variável balanceada, isto é, a distribuição do efeito do
“lote” neste caso é uma variável de confundi- lote igualmente entre tratamento e controle.
mento porque gera uma indefinição, já que é Tecnicamente dizemos que “realizamos atribui-
uma explicação alternativa ao tratamento com ção aleatória de qual semente vai para cada
Vermiculita para explicar a diferença entre tra- nível de tratamento”. Em uma linguagem mais
tamento e controle. Portanto, este segundo simples, a gente simplesmente mistura bem as
experimento é inconclusivo. sementes e distribui entre os tratamentos. Ape-
nas em estudos experimentais temos este po-
Em um terceiro experimento, você sorteia de der de atribuição aleatória de tratamentos. Em
qual dos dois lotes, do Brasil ou do Japão, sairá estudos não experimentais precisamos encon-
cada uma das sementes que irá para o trata- trar outras formas de anular ou reduzir o efeito
mento e para o controle. Desta forma, terá uma de variáveis de confundimento que trataremos
mistura dos dois lotes tanto no controle como no no capítulo 6, mas a essência de se buscar
tratamento. Ao final, as plantas nos vasos com representatividade paralela é a mesma.
o tratamento cresceram significativamente mais
e a resposta para sua questão é sim, pelo me- Além de anular o efeito de potenciais variáveis
nos para esta mistura de dois pacotes. Assim de confundimento, há uma segunda preocupa-
como o primeiro experimento, este também é ção que precisa ser levada em conta em estu-
válido. dos de relações: a representatividade. Como já
comentamos acima, o experimento 1 com as
Note que em nenhum desses experimentos sementes foi considerado válido, mas baseou-
temos garantia de representatividade em distri- se em apenas um lote de sementes de soja. O
buição das amostras em relação a todas as ideal não seria que fosse utilizada uma amostra
plantas de soja do mundo, mas isto não é tão aleatória de todas as sementes de soja do
importante quanto a representatividade paralela. mundo? Isto seria muito difícil, mas pelo menos
Vejamos por quê. não deveríamos tentar misturar vários lotes
diferentes?
Nos estudos de relações entre uma variável
preditora e uma variável resposta não há ape- Para responder estas perguntas, precisamos
nas duas variáveis em jogo, há muitas outras levar em conta conhecimentos biológicos e
variáveis influindo sobre a variável resposta, razoabilidade. A rigor, a conclusão a que che-
que podem atrapalhar na avaliação sobre a gamos com um lote aplica-se apenas ao lote de
relação em estudo. O primeiro e o terceiro expe- sementes que estudamos. Entretanto, este nível
rimentos são considerados válidos porque a de rigor é exagerado. Podemos e devemos
representatividade em distribuição entre os utilizar a validação externa por razoabilidade
níveis da variável preditora é idêntica. Isto é, (seção 1.5). Com base em nossos conhecimen-
ainda que não tenham representatividade em tos biológicos, devemos ser cautelosos em ge-
distribuição da população, não diferem de forma neralizar o resultado para toda a espécie em
potencialmente tendenciosa, pois não existe um qualquer clima e solo, mas é muito razoável
fator que afeta o grupo do tratamento de forma generalizar para a variedade e para o mesmo
diferente da que afeta o grupo controle. Assim, clima e solo. Poderíamos ter feito uma mistura
43
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
de lotes diferentes, o que realmente aumenta o das. Com esta definição, somos induzidos a
poder de generalização, entretanto, isto introduz achar que não haveria problema de indepen-
ruído na análise. Ruído é a variação ocasionada dência no segundo experimento da seção ante-
por incluir o efeito de outras variáveis, ainda que rior, pois não há nenhuma influência de uma
de forma não tendenciosa, o que leva ao obscu- semente sobre a outra, cada uma está em um
recimento do efeito em estudo. A decisão de vaso separado. Entretanto, o problema das
misturar alguns lotes é razoável e precisa ser sementes não estaria na influência presente de
ponderada pelo pesquisador, levando em conta uma réplica sobre outra durante o experimento,
se irá priorizar o poder do teste ou a generaliza- mas em potenciais diferenças nos “passados
ção. Entretanto, considerando que normalmente compartilhados” que são fatores comuns a cada
queremos generalizar nossas conclusões para o lote de sementes (constituição genética, riqueza
futuro, e que não podemos viajar no tempo, a do solo onde foram geradas, tempo de armaze-
representatividade paralela ideal raramente é namento, qualidade obtida em função da forma
possível e geralmente teremos que julgar com de colheita e transporte, etc.).
base na razoabilidade até onde podemos gene-
ralizar as conclusões de um estudo. Definição 2: “Em probabilidade e estatística,
independência entre variáveis aleatórias ou
Em resumo: em estudos de relações, o aspecto eventos significa que a partir do resultado de
mais importante é proceder de forma a anular um deles não é possível inferir nenhuma con-
todas as potenciais variáveis de confundimento clusão sobre o outro” (Wikipédia). A Wikipédia é
(aquelas que podem causar tendenciosidades). uma valiosa fonte para tirar dúvidas de estatísti-
Desta forma, teremos a segurança de que as ca, mas não ajudou. O que significa “a partir do
diferenças significativas nas variáveis respostas resultado de um deles”? Com dependência ou
apenas possam ser atribuídas às variáveis pre- sem, nunca podemos inferir um valor a partir de
ditoras estabelecidas no estudo. Adicionalmen- outro. E se considerarmos vários valores, o
te, é preciso refletir até que ponto as unidades conceito não se sustenta logicamente nem nos
amostrais representam o universo amostral exemplos de jogos de azar. O que significa “não
inferido pelo estudo. é possível inferir nenhuma conclusão sobre o
outro”? Se eu jogar um dado muitas vezes (e-
3.9 Considerações complementares ventos independentes) posso verificar que há
seis números diferentes com frequências seme-
3.9.1- Sobre o significado do termo “Indepen- lhantes de ocorrência e posso concluir que a
dência”. chance de cair qualquer um deles na próxima
jogada é de 1/6, ao contrário do que propõe a
Como vimos, o termo “independência” tem sig- definição.
nificados diferentes, o que gera confusão. Nesta
seção analisaremos o uso do termo e sintetiza- É surpreendente que um termo tão importante
remos o que vimos nas duas seções anteriores. na estatística não seja definido de forma mais
Mesmo nos melhores textos de bioestatística o apropriada. Estas definições provavelmente
conceito de independência é apresentado de refletem uma visão de estatística predominan-
forma pouco esclarecedora. temente inspirada em jogos, mas que não se
encaixa bem em situações de pesquisa.
Definição 1: “Por independência queremos dizer
que as observações coletadas em uma réplica A dificuldade existe porque se utiliza um termo
não tem influência sobre as observações cole- para quatro conceitos diferentes: a independên-
tadas em outra” (Gotelli e Elison 2010). Mesmo cia genérica, a independência absoluta, a inde-
neste excelente livro, a definição não é clara. É pendência induzida de amostragens e a inde-
difícil entender como observações coletadas pendência induzida de relações.
podem influir sobre outras observações coleta-
44
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
45
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
46
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
É importante que o cuidado com a qualidade da ta forma, mesmo sem diferença na habilidade
medida não se torne obsessivo, isto é, prejudi- de nadar, concluiríamos que os meninos têm
cial ao próprio estudo. Por exemplo, digamos mais habilidade. Este exemplo ilustra os riscos
que você esteja fazendo um trabalho de ecolo- da falta da acurácia em medidas em qualquer
gia vegetal no Pico da Neblina e seu tempo é escala.
muito curto por questões logísticas. É válido
medir transectos com passos para economizar Os conceitos de precisão e acurácia aplicam-se
o tempo de estender a trena em cada transec- melhor a valores quantitativos, mas podem ser
to? Vimos que a falta de precisão não é um generalizados para outras escalas de medida.
problema sério, mas e se neste processo in- Quando estamos com uma variável ordinal,
conscientemente obtivermos uma medida ten- podemos obter maior precisão quanto maior for
denciosa que subestima o tamanho do transec- o número de categorias ordinais. Por exemplo,
to? Digamos que esta falta de acurácia resulte se queremos avaliar a sensação térmica de
em transectos com 190 m em média ao invés pessoas, teremos menos precisão com uma
de 200 m. Qual a gravidade disto? Depende da escala de três níveis efetivos (quente, agradá-
questão em estudo. Se você estiver querendo vel, frio) do que uma de cinco níveis efetivos
comparar a densidade de plantas em diferentes (muito quente, quente, agradável, frio e muito
altitudes e cometer o mesmo erro, então a falta frio). Entretanto, escalas ordinais exigem um
de acurácia seria irrelevante, pois todos os tran- cuidado redobrado na análise, pois muitas ve-
sectos serão do mesmo tamanho, que é o que zes é difícil avaliar acurácia nestas condições
importa para que sejam comparáveis. Entretan- (e. g. qual o valor real de “muito frio”?). Quando
to, se o objetivo for obter medidas precisas de falamos em escala categórica, temos uma situ-
densidade para comparar com outros locais, ação similar. Nem sempre os limites de uma
então quanto maior for o desvio, maior será o categoria são claros. Qual é o limite onde o
problema com o resultado. Provavelmente, uma vermelho deixa de ser vermelho para se tornar
sub-estimativa de 5% na área de cada transecto laranja? O resultado de um exame de sangue
não tenha muita relevância, neste exemplo em pode ser positivo ou negativo (logo binário) para
particular. malária, entretanto, há uma incerteza (pode ser
um falso positivo) que diminui em função da
Alguns dos problemas mais graves ligados à quantidade de amostras e da experiência de
qualidade dos dados aparecem quando esta- quem analisa o exame. Por isto, os erros de
mos tomando uma medida por outra. Um exem- atribuição de categorias também podem ser
plo clássico é a utilização de provas para medir considerados erros de precisão (se não forem
coeficientes de inteligência, como se uma prova tendenciosos) ou de acurácia (se forem tenden-
destas conseguisse captar conjuntamente a ciosos).
complexidade dos diferentes tipos de inteligên-
cia. O máximo que estes testes poderiam medir Como vimos na seção 3.6, a acurácia na medi-
é a capacidade das pessoas de se saírem bem da de um parâmetro é maximizada quanto me-
neste tipo de teste. Podemos considerar pro- lhor a representatividade amostral. Se a amos-
blemas deste tipo como falta de acurácia por tragem aleatória não é possível, o que é muito
indefinição de um padrão de referência para comum, procure o método de coleta que mais
calibrar as medidas. Na seção 1.5 vimos outros se aproxima daquilo que você esperaria obter
problemas de validação da medida ligados a em uma amostra que fosse aleatória. Há muitas
esta falta de acurácia inclusive um com variável formas sistemáticas de coletar os dados que
binária. Ao perguntarmos a meninos se eles permitem obter amostras representativas. Tam-
sabiam nadar, a resposta (sim ou não) era ten- bém há formas de analisar os dados para obter
denciosa (muitos não sabiam, mas tinham ver- resultados mais representativos (e. g. a média
gonha de responder a verdade), a das meninas ponderada). Se nada disto for possível, procure
também era, mas de forma menos intensa. Des- coletar amostras o mais distante possível dentro
47
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
48
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
3) Explique por que dividir a escala quantitativa 12) Quando a mediana e a moda são medidas
em “números contínuos” e “números descontí- mais úteis?
nuos” não resolve o problema da descontinui-
dade. 13) Para que utilizamos intervalos de confiança
em estudos biológicos?
4) O fato de um valor pertencer a uma escala
não implica que ele não possa pertencer a outra 14) Qual a diferença na utilidade do desvio pa-
escala ao mesmo tempo. Explique. drão e do erro padrão.
7) Explique porque o Intervalo Interquartil é uma 17) Explique diferença entre a independência
medida de dispersão (ou imprecisão) melhor induzida de amostragem e a independência
que a amplitude total para comparar a dispersão induzida de relação quanto à forma de ser obti-
de amostras com número de observações dife- da e quanto à sua aplicação.
rentes.
18) Explique a dificuldade que existe na defini-
8) Em que o desvio padrão é mais conveniente ção do termo “independência” em contextos
que intervalos interquartis como medida de estatísticos.
dispersão e quando a utilização de desvios
padrões não é apropriada. 19) O que é “paranoia metodológica” e porque
nem sempre podemos seguir ideais metodológi-
9) Alguns textos usam o termo “erro” para a cos?
dispersão de dados em função da imprecisão
da medida e para a variação natural. Explique 20) Podemos falar em precisão e acurácia em
por que isto não é apropriado. escalas de medidas ordinal, categóricas e biná-
rias?
10) Faça um histograma com 24 valores que
represente uma distribuição bastante próxima
do esperado para uma população com distribui-
ção normal e um segundo histograma com 24
valores com uma distribuição muito fora do es-
perado para uma população com distribuição
49
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
50
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
A previsão da hipótese era que as formigas Ainda há uma hipótese a considerar: as formi-
conseguiriam retornar ao ninho (pois podem gas poderiam ter conseguido retornar por sorte.
utilizar referenciais espaciais). Entretanto, a Poderiam ter andado a esmo pela área e por
mera observação das formigas de volta no ni- acaso encontrado a pequena abertura do formi-
nho não teria nenhum valor sem a eliminação gueiro. Entretanto, procure imaginar a situação,
dos rastos com a remoção do solo, pois elas não eram 2m ou 10 m, eram 100 m. É uma
poderiam ter retornado utilizando apenas as distância enorme para as formigas andarem ao
pistas químicas. O biólogo ainda marcou as acaso e encontrarem o formigueiro apenas por
formigas para eliminar a possibilidade de estar sorte. Seria muito mais provável que elas sim-
confundindo os indivíduos do estudo com outras plesmente se perdessem se não tivessem orien-
formigas do ninho, ou até com formigas de outro tação. A hipótese de terem encontrado ao aca-
ninho que tivessem aproveitado a oportunidade so é tão improvável que pode ser tranquilamen-
do ninho vazio. Alguém poderia questionar a te descartada.
validade de um experimento que prendeu formi-
gas sob um balde, trocou o solo e as marcou O exemplo acima ilustra o que chamamos de
com tinta, o que certamente poderia ter afetado Método Hipotético Dedutivo de Julgamento
o comportamento delas. Entretanto, estas criti- Centrado (Fig. 4.2), no qual há uma hipótese de
cas não comprometem a interpretação do resul- trabalho em uma posição central, pois é dela
tado, pois o que poderíamos prever desta per- que parte a previsão que queremos verificar, e
turbações é que elas apenas poderiam atrapa- hipóteses concorrentes de diversos tipos que
lhar as formigas, de nenhuma forma poderiam precisam ser derrubadas para dar significado ao
ajudá-las. O fato é que mesmo com estas per- que foi verificado (i. e. estabelecer a causalida-
turbações, elas conseguiram chegar ao formi- de correta).
gueiro. Outra pessoa poderia questionar a inter-
pretação dizendo
que as formigas
poderiam ter se
orientado com base
no eixo magnético
da terra, utilizando
uma “bússola” inter-
na. Ele poderia ter
respondido que esta
possibilidade não
pode ser excluída,
mas que não parece
razoável, pois já foi
demonstrada a ca-
pacidade de orien-
tação por referenci-
ais espaciais em
outros himenópte-
ros, mas nunca foi
demonstrada a ca-
pacidade de orien- Figura 4.2- Duas formas de contrastar hipóteses. O método hipotético dedutivo pode utilizar
tação magnética em ambas, primeiro uma fase de julgamento competitivo para selecionar uma hipótese de trabalho
e depois um julgamento centrado no qual a hipótese de trabalho é contrastada com outras
insetos. hipóteses
51
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
52
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
situação é bem mais complexa e será tratada não poderia ter sido porque você usou uma
no Capítulo 6. medida inapropriada?” R: A medida foi um “sim”
ou “não” para o retorno das formigas, não há
A previsão da hipótese de falha de representati- como se enganar com o significado da medida.
vidade também é um pouco vaga: A amostra Q3) “Mas este resultado pode ser considerado
obtida no estabelecimento de um parâmetro não representativo para a espécie?” R. Nunca se
representa bem o Universo Amostral de forma pode ter certeza absoluta que todas as formigas
que a conclusão com os dados do estudo não desta espécie tenham esta capacidade, mas é
pode ser generalizada para a população de muito mais razoável esperar que este compor-
interesse. Normalmente, isto se torna um pro- tamento extremamente adaptativo seja comum
blema com amostras com unidades amostrais na espécie do uma mutação casual justamente
agrupadas em uma situação de variações nos na colônia escolhida para a pesquisa. Q4) “Mas
valores da variável em estudo não distribuídas o retorno das formigas não poderia ser por outro
homogeneamente no espaço e/ou no tempo. A motivo?” R: Antes do trabalho imaginamos al-
melhor forma de lidar com isto é a busca de gumas possibilidades: a) achar formigas na
unidades amostrais escolhidas aleatoriamente colônia que fossem de outro grupo ou até inva-
em toda a população estatística em considera- soras, por isto marcamos as formigas; b) pen-
ção, mas ainda há outras técnicas válidas con- samos que as formigas poderiam encontrar
forme a situação (seção 3.7). Infelizmente, nem trilhas químicas antigas ao redor da colônia, por
sempre isto é possível. Há situações em que se isto trocamos o solo de todo o entorno. Q5)
pode descartar esta hipótese por razoabilidade, “Mas as formigas não poderiam ter achado a
mas, principalmente em estudos com hipóteses colônia por sorte?” R. Esta opção nunca pode
univariadas, é necessário levar esta hipótese ser totalmente eliminada, entretanto, conside-
muito a sério. rando o velocidade do deslocamento das formi-
gas, a distância de 100 m e o pequeno tamanho
A hipótese do acaso tem a previsão que as da entrada do formigueiro, avaliamos que esta
coisas saíram dentro do esperado pela hipótese probabilidade seria muito menor do que uma em
de trabalho por mero acaso. Como derrubar 1000.
uma hipótese destas? Qual é concretamente a
previsão? Eventualmente ela pode ser descar- Vejamos outro exemplo com as mesmas formi-
tada por razoabilidade, como no exemplo das gas no qual a hipótese do acaso será derrubada
formigas do início do capítulo. Na próxima se- a partir de um cálculo de probabilidade. O cálcu-
ção veremos como a hipótese do acaso pode lo de probabilidade será tratado na próxima
ser descartada estatisticamente e que a previ- seção, mas vamos explorar aqui as hipóteses
são é um modelo matemático de frequências descartadas por procedimentos.
esperadas específico para a situação em análi-
se. Nosso amigo biólogo percebeu que as formigas
são muito mais comuns em solo argiloso, embo-
Para resumir o descarte de hipóteses com pro- ra tanto este solo como o solo arenoso sejam
cedimentos preventivos, vamos ver como ele comuns na floresta onde elas ocorrem. Possi-
funcionou no exemplo das formigas. O biólogo velmente a formiga não seja capaz de diferenci-
que estudou formigas planejou seu estudo de ar entre tipos de solo e simplesmente é mais
forma a não tropeçar em questões do tipo: abundante onde encontra mais alimentos e
“...mas não poderia ter sido...”.. Ele se preparou menos inimigos naturais. Por outro lado, se ela
para ser questionado de várias formas: Q1) “... sobrevive e se reproduz mais em um tipo de
mas não poderia ter sido porque você realizou solo, seria vantajoso se ela tivesse a capacida-
muitos testes e apenas nos está mostrando de de evitar o outro tipo de solo. Então ele deci-
aquele que deu positivo?” Resposta: Não, eu só diu testar a hipótese que as rainhas jovens es-
realizei este teste durante o estudo. Q2) “Mas colhem o tipo de solo onde fundam suas colô-
55
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
nias. Sua previsão é que rainhas jovens levadas temos que pensar como uma mudança de com-
ao laboratório e mantidas em arenas com solo portamento afetaria o resultado do trabalho.
argiloso de um lado e arenoso do outro escava- Possivelmente a formiga ficasse mais ativa, ou
rão com maior frequência o primeiro tipo de menos ativa. Possivelmente deixe de se preo-
solo. cupar em escolher solo quando está estressada
em cativeiro. Entretanto, não é uma previsão
Com relação à medida, veja que não estamos razoável supor que a formiga fosse incapaz de
medindo preferência diretamente (não podemos perceber o solo na natureza e começasse a
entrevistar as formigas). Entretanto, se houver perceber quando estivesse sob estresse em
preferência por um tipo de solo, é razoável as- cativeiro. Portanto, se as formigas não diferirem
sumir que a frequência de escolha por um tipo no solo utilizado para escavar, o resultado é
de solo possa ser utilizada como uma medida inconclusivo, pois não podemos saber se foi um
de preferência, desde que não haja interferência efeito de mudança comportamental. Entretanto,
de outra variável nesta escolha do solo (como se uma diferença fosse encontrada, ela não
veremos adiante). poderia ser associada a um efeito do cativeiro
sobre a preferência.
Com relação à representatividade, não temos
validação externa de amostragem porque cole- Restou apenas uma hipótese a descartar: A
tamos rainhas jovens apenas de uma área. maior frequência de escavações no solo argilo-
Entretanto, podemos argumentar que temos so não poderia ter ocorrido por mero acaso?
validação externa por razoabilidade. No caso de
um resultado positivo, é mais razoável esperar 4.5 Descartando a hipótese do acaso
que este comportamento adaptativo seja co-
mum à espécie do uma mutação restrita à popu- A forma mais tradicional de derrubar estatisti-
lação da área da coleta. Raramente temos vali- camente a hipótese do acaso é chamada de
dação externa de amostragem em estudos eco- Teste de Significância de Hipótese Nula.
lógicos. É preciso avaliar a razoabilidade de (TSHN) (Wood, 2012). A abordagem parte do
uma validação externa conforme o caso, e lem- princípio que os problemas na obtenção de
brar que razoável não significa certo. Por outro dados discutidos anteriormente foram todos
lado, ainda que o comportamento não esteja eliminados por procedimento (a amostra é re-
presente em toda a espécie, encontrá-lo em presentativa, a medida foi apropriada, não hou-
uma população não deixa de ser interessante. ve inflação de testes e o desenho amostral ex-
clui a possibilidade de variáveis de confundi-
Com relação à hipótese de outras causas, foi mento). Portanto, se o observado coincide com
levantada a possibilidade da disposição dos o previsto pela hipótese de trabalho, restam
tipos de solo no laboratório interferir no resulta- apenas duas opções: a hipótese de trabalho
do. A escolha do solo poderia ser influenciada está certa ou a coincidência ocorreu por mero
por sons e movimentos na proximidade do labo- acaso. Neste ponto entra a característica mar-
ratório. Ainda que houvesse pouco som e mo- cante do TSHN: o cálculo da probabilidade do
vimento, não podemos excluir a possibilidade obtido ter ocorrido por acaso e a comparação
das formigas serem bastante sensíveis a eles. desta probabilidade com um valor limite pré-
Por isto, a disposição dos tipos de solo foi de- definido.
terminada aleatoriamente.
A Hipótese Nula, geralmente simbolizada como
Alguns fatores não podem ser eliminados, mas Ho, é normalmente a negação de uma hipótese
ainda assim não comprometem a interpretação de trabalho afirmativa prevendo diferenças. Por
do resultado. Por exemplo, é razoável supor exemplo, se sua hipótese de trabalho é que há
que o comportamento das formigas seja afetado um efeito de certo tratamento sobre uma variá-
pelo fato de estarem em cativeiro. Entretanto, vel resposta (e você prevê diferença entre tra-
56
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
57
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
ramente convencido que a pessoa possui a tal cia de algum efeito de habilidade? Chega de
habilidade. É verdade que não se pode descar- moedas, passemos para um exemplo biológico.
tar totalmente a hipótese do acaso, mas a Voltemos ao experimento de preferência de
chance de acertar 10 vezes seguidas por acaso solos pelas formigas para analisar a evidência a
é menor que uma em 1.000 (Tab. 4.1). Embora partir de frequências.
a habilidade de controlar o lance de moeda seja
impressionante, é menos impressionante do A pergunta no estudo da preferência das formi-
que acertar um número em mil na primeira ten- gas não é se elas sempre vão escavar o lado do
tativa. Se uma hipótese de trabalho estiver cer- solo argiloso, mas se tendem a escavar o solo
ta, quanto mais informação obtiver, maior será o argiloso com maior frequência do que o espera-
acúmulo de informação contrária à hipótese do do pela hipótese nula. Suponha que tenhamos
acaso. É importante entender este conceito, que realizado o experimento com 8 rainhas jovens e
é a base do processo de rejeição do TSHN. tenhamos obtido 5 (62,5%) que escavaram em
(Não se preocupe com as fórmulas matemáticas solo argiloso e 3 (37,5%) que escavaram em
que eventualmente apareçam no texto, como na solo arenoso. O esperado, supondo que não
Tab. 4.1 e no Quadro 4.1, mais importante é haja preferência por solos, seria que 50% das
entender o processo.) formigas escavariam em solo arenoso e a outra
metade em solo argiloso. O resultado obtido foi
A situação foi colocada de forma muito rigorosa na direção da previsão da hipótese de trabalho.
na Tabela 4.1, a pessoa teria de acertar todas O problema é que esta diferença também é
as vezes. Mas e se ela errar de vez em quan- compatível com a hipótese nula. No quadro 4.1
do? Digamos que acerte 19 de 20 jogadas. realizamos o cálculo de probabilidade para a
Ainda é convincente que ela tem a habilidade. mesma diferença percentual com tamanhos
Mas e se ela acertar 70%? E se ela acertar amostrais diferentes. O que vemos é que a
55%? Certamente seria algo bem menos con- probabilidade de se obter a mesma proporção
vincente, mas pelo menos serve como evidên- de formigas escavando em solo argiloso sem ter
escolhido este solo (isto é, ao acaso) vai dimi-
Número de acertos nuindo até valores absurdamente improváveis.
seguidos Probabilidade E quando a probabilidade do resultado ocorrer
ao acaso é muito pequena, ela é descartada.
1 0.5
2 0.25
3 0.125
4 0.0625
5 0.03125
6 0.015625
7 0.0078125
8 0.00390625
9 0.001953125
10 0.000976563
58
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
Quadro 4.1 Probabilidade calculada pelo método χ2com base no obtido (O)– o
esperado central (E). .
59
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
E quanto aos valores altos de “P”? Voltando à mos os valores arbitrários 0,05; 0,01 e 0,001,
analogia, qual seria a interpretação para a prova mas como escolher entre eles? A decisão sobre
de uma pessoa que errou mais que 50% das o Nível de Significância a se adotar depende do
questões? A princípio, significa duas coisas: a custo dos dois tipos de erro que podemos co-
pessoa não tem nenhum conhecimento e ainda meter e da urgência na decisão (Tab. 4.2- ao
teve algum azar. Considerando que qualquer final do capítulo) (e de outra consideração que
um pode ter azar, até quem tem algum conhe- será abordada na seção 4.7). Ao tomar uma
cimento e acertou 50%, uma nota abaixo de decisão estatística, os dois tipos de erro que
50% é um indício mais forte de ausência de podemos cometer são o Falso Positivo, ou
conhecimento que exatamente 50% de acerto, Erro Tipo I, que consiste em rejeitar a hipótese
entretanto, não é indício de conhecimento nega- nula quando ela é verdadeira e o Falso Negati-
tivo, pois isto não existe. Agora uma nota pró- vo, ou Erro Tipo II, que consiste em aceitar a
xima de 100% de erro seria algo muito estra- hipótese nula quando ela é falsa. Nas situações
nho. Se o número de questões for grande, po- em que a prudência exige não aceitar uma mu-
demos até suspeitar que a pessoa sabia tudo e dança de posição sem forte evidência favorável
errou propositalmente. É interessante verificar a à decisão, a prioridade é evitar o Erro Tipo I,
possibilidade de alguma anomalia deste tipo como em tribunais e na maioria das situações
quando temos valores muito altos de P (como de pesquisa. Nas situações em que a prudência
P>0,95). Entretanto, em geral, simplesmente é exige uma ação preventiva, ainda que a evidên-
um acaso que acontece quando estamos fa- cia favorável seja fraca, a prioridade é evitar o
zendo muitos testes. Erro Tipo II, como quando vigias ouvem um
barulho estranho, ou quando uma criança chega
Entender o significado do valor de “P” não impli- ao hospital com suspeita de intoxicação. E há
ca em abrir mão de definir a priori valores limi- situações em que os dois tipos de erro seriam
tes para tomada de decisões. É razoável usar- graves, como ao se decidir sobre o resultado de
a) Peso da evidência
contra a Hipótese Nula b) Analogia
(prova de 100 questões de
Nível de aprendizado
Alto “Verdadeiro ou Falso”)
Evidência contra Ho
Forte Médio
0
Média Negativo?
0 50% 100%
Erros
0
Negativa?
0 0.05 0.5 1
0.001 0.01
Probabilidade calculada (“P”)
Figura 4.3 A probabilidade calculada em um teste estatístico serve como medida do peso da evidência contrá-
ria à Hipótese Nula. Quanto menor o valor de “P”, maior a evidência contrária à Hipótese Nula. Valores in-
termediários de “P” indicam situação indefinida e valores muito altos são “estranhos”. Ver a explicação no
texto com uma analogia com uma prova com alternativas do tipo “verdadeiro ou falso”.
60
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
um exame sobre uma doença muito séria quan- A tabela 4.3 resume estas possibilidades.
do há indícios de positividade. Podemos ver na
tabela 4.2 como a análise e a ação de proces- Basicamente, queremos evitar erros. Uma for-
sos decisórios dependem da importância de ma de evitar erros de decisão é obter mais in-
cada tipo de erro e do tempo (etapas, oportuni- formação relevante. Há técnicas (subutilizadas)
dades) que temos para obter mais dados. As de amostragem até atingir critérios de decisão
situações mais comuns na pesquisa estão em (e. g. amostragem sequencial). Entretanto, o
destaque na tabela. Abordaremos unicamente mais comum é que a informação seja limitada
estas situações neste livro, mas é importante (por tempo, dinheiro ou porque todas as pistas
termos consciência que estes métodos não são foram exaustivamente exploradas). A forma de
os mais apropriados em outras situações, inclu- agir neste caso depende da prioridade que da-
sive de pesquisa. Vamos analisar mais profun- mos em evitar o Erro Tipo I e em evitar o Erro
damente os dois tipos de erro com ênfase na Tipo II. Ao assumir como premissa a inocência
situação mais comum na pesquisa, mas ilus- do réu, estamos dando prioridade em evitar o
trando com o funcionamento do processo deci- Erro Tipo I. A única forma de evitar o Erro Tipo I
sório em um tribunal. de forma absoluta seria decidir pela inocência
sem julgamento e independente de provas, o
Um assassino solto é algo ruim e deve ser evi- que não é aceitável. Infelizmente, sabemos que
tado. Entretanto, um inocente preso por assas- alguns inocentes serão presos, mas pelo menos
sinato é algo mais grave. Por que assumir que a podemos reduzir esta probabilidade a uma pos-
inocência de uma pessoa tem prioridade sobre sibilidade remota ao dar ampla chance de defe-
o risco para resto da população? Parece estra- sa e conservadorismo em aceitar provas. A
nho, mas esta foi a conclusão de um longo pro- chance de Erro Tipo I é limitada a priori pelo
cesso civilizatório. Acontece que crimes costu- princípio da inocência, e quanto mais rigorosos
mam deixar pistas e é bom lembrar que um dia formos em evitar a chance de erro tipo I, maior
poderíamos ser nós mesmos em um banco de a chance de um erro do tipo II. Portanto, cabe
réus. Enfim, a regra é que toda pessoa deve ser ao promotor a responsabilidade de obter infor-
considerada inocente até que haja uma evidên- mação suficiente, de forma a evitar a chance de
cia realmente convincente de que ela é culpada. Erro Tipo II.
Entretanto, por melhor que seja a justiça, ela
nunca será perfeita e há quatro resultados pos- Ao propor uma hipótese de trabalho, fazemos
síveis em um julgamento: 1) podemos mandar previsões que algo acontecerá de certa forma.
prender uma pessoa inocente (injustiça); Entretanto, o fato disto acontecer não significa
2) Podemos mandar prender um assassino; nada se o previsto puder acontecer por outras
3) Podemos libertar uma pessoa inocente e razões ou ao acaso. Vimos nas primeiras se-
4) podemos libertar um assassino (impunidade). ções do capítulo que precisamos tomar algumas
atitudes preventivas para excluir hipóteses con-
Realidade Î
Inocente Culpado Realidade Î
Decisão Ð H0 Verdadeira H0 Falsa
DecisãoÐ
Decisão Decisão
Culpado Injustiça Rejeita H0 Erro tipo I
Correta Correta
Decisão Decisão
Inocente Impunidade Aceita H0 Erro tipo II
Correta Correta
Tabela 4.3 Decisões e tipos de erros em um tribunal.. Tabela 4.4 Decisões e tipos de erros na pesquisa..
61
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
Uma diferença entre o tribunal e a pesquisa é Vimos na seção anterior que o valor de “alfa”
que nesta muitas vezes podemos definir a (Nível de Significância) é definido ao início do
chance de Erro Tipo I de forma quantitativa. O estudo normalmente em valores tradicionais de
Nível de Significância (ou “alfa”) é a chance de 0,05 ou 0,01 ou 0,001. Há algum critério para
Erro Tipo I que estamos dispostos a aceitar, um escolhermos um destes valores? Sim, depende
grau de rigor que se estabelece a priori. Na se sua hipótese de trabalho é esperada, ousada
pesquisa, o mais comum é se utilizar um ou muito ousada. Testes com hipóteses de tra-
α=0,05, que significa que aceitamos cometer balho tidas como quase certas normalmente
um Erro do Tipo I para cada 20 testes em que a tem uma função de apenas comprovar algo,
hipótese nula era verdadeira. É como aceitar podemos dizer que a hipótese nula está em um
mandar uma pessoa inocente de cada 20 ino- grupo de “alto risco” de ser rejeitada. Uma hipó-
centes que a gente julgar. Se utilizarmos um tese de trabalho ousada é bem mais incerta, e
α=0,01, é como se estivéssemos mandando um está em um grupo de “risco intermediário” e
inocente para cadeia de cada 100 inocentes uma hipótese muito ousada tem um “risco bai-
julgados. Este nível é aceitável para a pesqui- xo” de ser rejeitada. Com base nisto, devería-
sas, mas não é aceitável na justiça. As provas mos utilizar respectivamente 0,05; 0,01 e 0,001
em um tribunal devem ser mais contundentes, a como Níveis de Significância para cada um
chance de mandar um inocente para cadeia destes casos. Para entender por que, veja como
deveria ser inferior a 1:1000. Não confunda, um devemos interpretar resultados de exames con-
α=0,01 não significa que vamos cometer um siderando o grupo de risco (Mlodinov 2008).
erro a cada 100 julgamentos, pois em muitos
julgamentos o réu era realmente culpado. O fato Suponha que a probabilidade de um falso posi-
de muitos julgamentos terminarem em conde- tivo em um exame de AIDS tenha sido estabe-
nação reflete principalmente a obrigatoriedade lecida em 0,7%. O que significa isto? Que qual-
de indícios fortes de culpa antes de se levar um quer pessoa que receber um resultado positivo
réu a julgamento. tem apenas 0,7% chance dele estar errado?
Não, ao contrário do que muita gente pensa.
O que foi descrito acima é uma postura comum Acompanhe este raciocínio. Duas pessoas re-
na pesquisa, estabelecemos um limite para o cebam um resultado positivo em um exame de
Erro Tipo I, mas não para o Erro Tipo II, apenas AIDS, a primeira pertence a um grupo de risco
tentamos obter informação suficiente para dimi- (usuário de drogas que não pratica sexo seguro
nuir a chance que ele ocorra. Veremos adiante em uma metrópole com alta incidência de
como estabelecer o valor do Nível de Signifi- AIDS), e a segunda não pertence ao grupo de
cância (Alfa) e depois voltaremos a situações risco. Imagine que no grupo de risco a incidên-
em que o Erro Tipo II deve ser considerado na cia de AIDS seja de 1/10, enquanto no grupo de
análise. baixo risco ela seja de 1/10.000.
62
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
com incidência 1/10, teremos 1000 positivos e (Outra questão relacionada a ajustes no valor
9000 negativos. Dos 9.000 negativos, 0.7% (63) de alfa será discutida no capítulo 7).
terão falsos positivos. Portanto, a chance deste
“positivo” ser realmente um positivo é de Hipóteses ousadas não devem ser evitadas,
1000/(1000+63) isto é, 94%. Agora considere pois muitas vezes marcam revoluções na ciên-
10.000 pessoas no grupo com incidência cia, entretanto, devem ser tratadas com maior
1/10.000. Teremos um positivo e 9.999 negati- rigor para não criar falsos mitos. A estatística
vos. Destes, 0,7% terão falsos negativos (aprox. não é só um jogo, nossas expectativas preci-
70 pessoas). Portanto, a chance deste “positivo” sam ser levadas em conta.
ser realmente um positivo é de 1/(1+70), isto é
1,41%. Portanto, a probabilidade da primeira b) abordagens alternativas ao Teste de Sig-
pessoa ter AIDS é cerca de 70 vezes maior! nificância de Hipótese Nula
O problema é que confundimos o que chama- O teste de significância de hipótese nula é uma
mos de falso positivo para um teste isolado com abordagem tão preponderante na análise esta-
a chance de um positivo no meio a muitos tes- tística de dados que muita gente acha que é a
tes ser realmente um positivo, ignorando a pro- única. É por isto que tanto espaço foi dedicado
porção esperada de falsos negativos. a esta abordagem neste capítulo. Entretanto há
outras duas abordagens que estão crescendo e
Uma situação análoga pode ser considerada possivelmente vão superá-la em importância em
para a pesquisa. Uma hipótese razoável, como testes de hipóteses do acaso.
uma formiga preferir um tipo de solo (arenoso
ou argiloso) para fundar uma colônia cai no A primeira alternativa é a utilização de intervalos
grupo de risco das hipóteses razoáveis, das de confiança de parâmetros ao invés de cálcu-
quais boa parte deve ser realmente verdadeira, los de probabilidades associados a hipóteses
digamos em uma proporção entre 1/2 a 1/10. nulas (van Belle, 2008; Wood 2012). Uma van-
Entretanto, uma hipótese que testasse se o tagem é a riqueza da informação fornecida. Ao
comportamento da formiga é influenciado por invés de dizermos “Houve um efeito significativo
pequenas diferenças nos teores de cobre ou por do tratamento em relação ao controle
um leve campo magnético próximo das arenas (F1,20=6,53; p<0.05)”, diríamos “Houve um efei-
experimentais no solo soa estranho com base to significativo do tratamento em relação ao
no que se sabe sobre formigas. Estas hipóteses controle (Diferença= 1,25; IC95%= 0.90 a
parecem muito improváveis, talvez 1/50 a 1,60)”. A segunda vantagem é que esta é tam-
1/1000 possam ser realmente ser corretas. Co- bém a forma mais natural para apresentar resul-
mo as situações são análogas, a chance de um tados que utilizam técnicas de reamostragem,
falso positivo em hipóteses ousadas ou bizarras como o “Bootstrap” (seção 3.6). A terceira van-
é muitas vezes maior para o mesmo alfa. tagem é que é mais fácil se realizar um teste de
hipóteses de trabalho de semelhança (seção
Não é fácil quantificar quanto que nossas hipó- 4.5). Esta alternativa foi introduzida no capítulo
teses são razoáveis ou bizarras, entretanto, 3 e será contemplada no capítulo 5.
podemos chegar a uma diretriz aproximada. Se
sua hipótese de trabalho tratar de uma tendên- Outra abordagem alternativa em crescimento é
cia que você considera intuitivamente muito a utilização de Análises Bayesianas (Gotelli &
razoável, pode usar um alfa de 0,05. Se for uma Ellison, 2011), que é uma forma bem diferente
ideia um pouco mais ousada, mas não extraor- de calcular probabilidade. No TSHN calculamos
dinária, use 0,01. Se for uma hipótese extrava- a probabilidade de obter uma diferença obser-
gante que abala conceitos estabelecidos dentro vada se a hipótese nula for verdadeira, isto é
da sua área de pesquisa, melhor utilizar 0,001. simbolizado como P (dados│hipótese nula). Na
análise Bayesiana, calculamos a probabilidade
63
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
64
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
preliminar, o órgão responsável pela vigilância sani- consciência que a abordagem alfacêntrica não se
tária recolhe amostras de açaí de 10 vendedores e aplica a todas as situações, até mesmo na pesquisa
não encontra nenhuma amostra infectada. Portanto, podemos ter que utilizar outra abordagem.
não há evidência que a doença tenha sido transmiti-
da desta forma. Entretanto, se este resultado for um d) Podemos provar uma hipótese?
falso negativo (Erro Tipo II), há risco de transmissão
de uma doença grave para outras pessoas, portan- A melhor forma que criar confusão é um diálogo
to, o consumo não é liberado até o término de uma envolvendo duas linguagens. Existe uma lin-
investigação exaustiva. Lidar com alto custo de Erro guagem lógica/matemática e uma linguagem
Tipo II é sempre muito complicado. É difícil se definir “cotidiana”. Na linguagem da lógica/matemática
quanto esforço de investigação será suficiente para
o termo “provar” só se aplica a demonstrações
uma conclusão segura, e temos que lembrar que a
suspensão da venda também está prejudicando
inquestionáveis, como quando provamos que a
pessoas. soma dos ângulos internos de um triângulo é
180o. Nas Ciências Naturais e Humanas as
Para separar o “Não” do “Talvez”, normalmente hipóteses sempre podem estar erradas, ainda
precisamos de múltiplas etapas de coleta de dados, que a evidência favorável seja extrema. Esta-
como mais exames no exemplo da suspeita de do- mos chamando de “cotidiana” qualquer lingua-
ença ou continuação exaustiva da coleta de dados gem sem o rigor absoluto da linguagem lógi-
no exemplo do açai. A nova coleta de dados não co/matemática, inclusive a linguagem bastante
precisa ser da mesma natureza dos dados anterio- rigorosa de um tribunal. Nesta linguagem, “pro-
res. No caso de exames sobre doenças, muitas var” significa apresentar uma evidência contun-
vezes se realiza repete exames de outra natureza
dente, ainda que não definitiva do ponto de vista
para avaliar um sintoma complementar da mesma
doença. No caso do açaí, é importante investigar lógico.
outras possibilidades de contágio. Se a coleta de
dados for da mesma natureza, a hipótese nula pode Outro problema do termo “provar” (mesmo na
acabar sendo aceita após uma coleta exaustiva, linguagem cotidiana) é que ele está associado
considerando que já deveria ter sido rejeitada se no pensamento comum com uma ideia de verifi-
fosse falsa. car pelo acúmulo de dados favoráveis. Einstein
teria dito algo assim sobre sua teoria: “Nenhu-
Só é possível se definir quantos dados precisamos ma quantidade de evidência seria suficiente
coletar para considerar uma coleta “suficientemente para mostrar que eu estou certo, mas bastaria
exaustiva” para dar um veredito “Não” se tivermos um experimento para mostrar que eu estou
um valor de “efeito mínimo” de referência. Por e- errado”. Esta ideia foi mais elaborada pelo filó-
xemplo, digamos que você queira saber o efeito de
sofo da Ciência Karl Popper, que disse que a
uma substância sobre a pressão sanguínea de ra-
tos. Se a substância aumentar a pressão da grande lógica do método científico consistiria em propor
maioria dos ratos, terá rejeitado a hipótese nula. Se hipóteses ou teorias “falseáveis”. Deveria haver
não obtiver nenhuma diferença significativa (isto é, um esforço para falseá-las, e enquanto elas
além do que esperamos ao acaso), aceitará a hipó- resistissem seriam mantidas como a melhor
tese nula. No entanto, não pode dizer que não haja opção vigente. Hipóteses ou teorias que não
efeito, pois ele pode ser tão sutil que não pôde ser pudessem ser falseadas (derrubadas a partir de
detectado com o tamanho amostral do experimento. observações) não seriam consideradas científi-
Por outro lado, se você perguntar se existe um efeito cas. A derrubada da concepção errônea de
de aumentar pelo menos 10% a pressão sanguínea, prova pelo acúmulo de evidências favoráveis foi
e tiver algumas informações sobre os dados, então um grande avanço epistemológico, mas a apli-
poderá calcular o tamanho amostral necessário a
cação da proposta do falsacionismo como me-
partir de uma probabilidade de Erro Tipo II (ou “Be-
ta”, β) pré definida por você. todologia foi problemática.
Não entraremos nos detalhes de como se realizam O filósofo da ciência Imre Lakatos percebeu
as abordagens da Tabela 4.2. Entretanto, é bom ter falhas nesta concepção de ciência. As ideias de
65
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
Popper não se sustentam se quisermos levá-las estatística como de epistemologia. Por outro
para o campo de uma lógica estrita. Qualquer lado, o TSHN pode perfeitamente ser visto co-
observação pode ser um engano, portanto, é mo uma forma de contrastar a hipótese de tra-
impossível se derrubar tanto quanto é impossí- balho com a hipótese do acaso.
vel provar uma hipótese ou teoria. Então o que
podemos fazer? A proposta de Lakatos é que o Vamos tentar resumir sem tropeçar na lingua-
método científico envolve a competição entre gem e na filosofia usando aspas para a lingua-
“Programas de Investigação Científica” (teorias gem cotidiana: Em princípio, não podemos pro-
complexas) com base na previsão de cada pro- var nenhuma hipótese, entretanto, podemos
grama. Trazendo o conceito para o nível dos “provar” uma hipótese de trabalho no sentido de
testes de hipótese, não falseamos uma hipótese atingir critérios pré determinados de confiabili-
isoladamente, mas contrastamos hipóteses, dade. “Provar” não significa apenas acumular
escolhendo a mais forte em condições apro- evidência favorável (previsões da hipótese de
priadas para permitir este contraste. O Jul- trabalho que se mostram corretas), significa
gamento Centrado inclui a hipótese de trabalho conseguir “Derrubar” as hipóteses concorrentes
no centro contrastando com as possibilidades (contraste de hipóteses baseado nas previsões
que ela esteja errada. de cada hipótese autônoma). Convém terminar
com o óbvio: o objetivo de um teste não é “pro-
Alguns estatísticos tentaram associar a filosofia var” a hipótese de trabalho, no sentido de com-
Popperiana com o Teste de Significância da prová-la, ela pode ser falsa. O objetivo é colocá-
Hipótese Nula (TSHN) vendo a rejeição da hipó- la a prova, e aceitar o resultado. A paixão pela
tese nula como um análogo ao ideal científico pesquisa é uma qualidade, a paixão por uma
de falseamento de Popper. Esta posição é pro- hipótese ou teoria que não se sustente não é.
blemática. Popper referia-se a hipóteses que
descrevem o funcionamento do mundo com e) Significativo é sinônimo de relevante?
previsões ousadas que permitissem o seu fal-
seamento, logo, ele se referia a hipóteses de O uso da estatística cresceu e as revistas cientí-
trabalhos, não a hipóteses secundárias constru- ficas e bancas de avaliação acadêmica passa-
ídas para a avaliação destas. A hipótese seria ram a exigir que testes fossem utilizados para
científica por estar aberta ao falseamento, mas mostrar que tendências tinham relevância esta-
ainda resistir, portanto, é uma hipótese viva. No tística. Esta pressão pelo uso da estatística
momento em que a hipótese de trabalho fosse contribuiu para a qualidade da pesquisa, mas
falseada (admitindo esta possibilidade), ela também levou a alguns desvios, como a busca
deixaria de ser ciência e entraria para a história pelo resultado significativo independente da
da ciência, e se buscaria uma nova hipótese questão. Alguns acreditam que o “melhor” teste
para ocupar o seu lugar. A hipótese nula não é dentro de um estudo é aquele que foi mais sig-
uma hipótese sobre como funciona o mundo, é nificativo.
apenas uma hipótese para servir de base para
calcular a possibilidade das previsões da hipó- Um aspecto psicologicamente forte no teste de
tese de trabalho estar dentro do esperado ao previsão de hipóteses é que ele responde cate-
acaso. Não devemos inverter os papeis da hipó- goricamente (com sim ou não) se evidências
tese nula e da hipótese de trabalho. Não há para a existência de uma relação são significati-
hipótese nula antes de se estabelecer uma hi- vas. Não temos um critério semelhante para
pótese de trabalho a primeira nasce como alter- atribuirmos o valor biológico para um teste. É
nativa da segunda, e muitos textos estatísticos uma questão de bom senso. A relação entre
invertem a lógica natural chamando a hipótese tamanho de qualquer espécie e seu peso é
de trabalho de “hipótese alternativa”. Esta asso- sempre fortemente significativa, mesmo com
ciação do TSHN, com a filosofia popperiana é poucos dados, de forma que não é nada sur-
equivocada e confunde tanto o aprendizado de preendente obter-se um P<0,001 para esta
66
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
relação. Um efeito significativo obtido apenas transgenia, já provaram que funcionam, entre-
com um tamanho amostral imenso pode signifi- tanto, um acompanhamento é necessário pois
car variáveis de ruído interferindo muito ou sim- ainda não sabemos quais são os riscos ambien-
plesmente um efeito biologicamente irrelevante tais e para a saúde. Os farmacêuticos têm muito
de uma variável sobre outra. O valor calculado mais trabalho com a análise de cada possível
de “P” tem relação com a “força” da evidência, efeito colateral do que da comprovação dos
não tem relação com a relevância da questão. efeitos positivos. É importante não se confundir
o poder da estatística em avaliar efeitos especí-
f) Efeitos colaterais ficos com uma garantia sobre aspectos que
extrapolam cada teste particular.
Em algumas situações, particularmente no de-
senvolvimento de remédios, alimentos ou pro-
dutos que possam oferecer riscos ambientais ou
à saúde humana, temos de ir além das conside-
rações sobre o erro tipo I e tipo II. Imagine uma
substância com potencial para diminuir os enjô-
os durante a gravidez. Podemos testar estatisti-
camente se o remédio é efetivo fixando o erro
tipo I e até o erro tipo II, definindo um tamanho
amostral apropriado com base em coletas pre-
liminares. Esta análise permitirá que se defina
dentro dos critérios discutidos neste capítulo se
o remédio é efetivo ou não para reduzir o enjôo.
Entretanto, este teste só avalia o enjôo, não
garante que este remédio não tenha contra
indicações. Um remédio chamado Talidomida
foi usado na década de 1960 contra enjôo na
gravidez e causou malformações em muitos
bebês.
67
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
Tabela 4.2 Análise e ação em diferentes situações em função do custo do Erro Tipo I (falso positivo) e do Erro Tipo II
(falso negativo) e do número de etapas de coleta de dados. As formas de analisar os dados mais comuns na pesquisa
estão em destaque.
Custo Custo
Falso Falso Tempo Exemplo Análise e Ação
Positivo Negativo
Tratamento de grave intoxicação sem Análise de risco emergencial; Priorizar a velocidade
Muito Alto ou Alto
causa bem definida (usar remédi o da conclusão mas com o máximo de certeza possível.
Único forte que tem com contra Sobre o diagnóstico. Importante haver pre paro
Muito Alto
indicações?) antecipado para decisões rápidas e corretas.
Paciente com sintomas de possív el Avaliação em etapas (poucas). Indícios fracos de
doença grave de tratamento positivo justificam exames complementares.
Poucas Etapas
agressivo; Continuar os testes até ter segurança suficiente sobre
o diaqgnóstico.
Pesquisa de um remédio promissor Avaliação em etapas (muitas); Descobrir um remédio
Muitas Etapas com potenciais efeitos colaterais é algo importante, mas a certeza da ausência de
graves. efeitos colaterais tem prioridade.
Julgamento em tribunais criminais. Assumir postura fortemente conservadora em
Estudos acadêmicos com propostas relação ao falso positivo (e.g. princípio da inocência a
Muito Alto ou Alto
Exames complexos para possíveis Avaliação em etapas (poucas). Indícios de positivo
doenças de gravidade intermediária justificam exames complementares. Continuar os
Poucas Etapas
em estágios iniciais. testes até ter segurança suficiente sobre o
diaqgnóstico.
Pesquisa de mercado para lançar um Avaliação em etapas. Amostragem sequencial e
novo produto. Pesquisa sobre Métodos de controle de processos estatísticos
Muitas Etapas
intenções de votos durante processo (detecção de anormalidades) podem ser úteis
eleitoral. conforme o problema.
Maior parte dos trabalhos Conservadorismo para prevenir falsos positivos, mas
Alto ou Médio
acadêmicos; Problemas cotidianos não tão extremo a ponto de frear muito a pesquisa.
Único
que exigem nível mediano de certeza Estatística com Alfa Rigoroso (0,01) ou comum (0,05).
Baixo
antes de afirmar algo.
Problemas cotidianos que exigem Avaliação em etapas. Coletas preliminares +
nível mediano de certeza com Estatística alfacêntrica (duas etapas); Amostragem
Em Etapas evidência acumulada gradualmente. sequencial (testando uma questão); Métodos de
controle de processos estatísticos (detecção de
anormalidades); etc.
Relatório de avaliação de impacto Assumir postura mais conservadora contra falsos
Baixo ou médio
Muito Alto ou
ambiental e ecotoxicologica; Evento negativos. Análise de Risco rigorosa; Valorizar toda
Único suspeito durante vigilia policial informação relevante disponível. Considerar uso de
(bandido ou só gato?). Emitir alarme Estatística Bayesiana; Medidas preventivas rigorosas;
Alto
contra catástrofes (e.g. te rremoto).
Monitoramento ambien tal e Avaliação em etapas. Métodos de Controle de
sanitário. Monitoramento de Processos Estatísticos; Análise de Riscos; Medidas
Em Etapas qualidade de processos de alto risco preventivas rigorosas para falsos negativos;
(e.g. funcionamento de usína Considerar uso de Estatística Bayesiana.
atômica)
Decisão de realizar um evento com Análise de riscos simples; Medidas preventivas para
Único
base em previsão de tempo. falsos negativos.
Médio
Baixo
Monitoramentos cotidianos de Avaliação em etapas. Testes múltiplos em etapas.
qualidade de processos de médio ou Amostragem sequencial; Métodos de Controle de
Em Etapas baixo risco (e.g. eficiência em linha Processos Estatísticos. Monitoramento simples.
de produção e satisfação de
clientes).
68
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
69
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
de aplicações (não é só para médias, serve Nos testes de relações geralmente temos uma
para qualquer parâmetro). Ao invés de rejeitar- variável resposta e uma ou mais variáveis predi-
mos a hipótese nula porque P foi menor que α, toras. Os testes com apenas uma variável predi-
rejeitamos porque o valor de referência não está tora predominam em estudos experimentais,
contido no Intervalo de Confiança. Pela forma são mais simples e têm menos premissas, de
anterior, o resultado era apresentado assim: “A forma que serão analisados primeiro e em maior
razão sexual (33 ♀♀: 12 ♂♂) foi significativa- profundidade. Neste capítulo apenas trataremos
mente diferente de 1♀: 1♂ (teste binomial exa- de estudos em que as unidades amostrais não
to P<0,001)”.Pela forma atual: “O intervalo de estão organizadas em blocos, assunto que será
confiança da razão sexual ( 33 ♀♀: 12 ♂♂) tratado no capítulo 7.
não incluiu 0,5 ♂♂/ total (RS=0,22;
IC95%=0,1280 a 0,3452).” A escolha dos testes com duas variáveis de-
pende das escalas da variável preditora (inde-
Há testes com uma variável, como o “Kolmogo- pendente) e da variável resposta (dependente),
rov Smirnov” e o “Shapiro-Wilk”, que servem conforme a tabela a seguir. Quando há uma
para verificar se a distribuição de frequência variável ordinal ou quantitativa, o número de
observada em uma amostra difere do esperado níveis efetivos também influi na escolha do tes-
com base em uma frequência teórica discreta te. Estas diferenças são explicadas caso a caso
(e. g. binomial, uniforme discreta, poison) ou no Guia de Testes e Gráficos. A parte da tabela
teórica contínua (e. g. normal, uniforme contí- que discutiremos mais é no caso da variável
nua). Uma das aplicações mais comuns destes resposta ser quantitativa, o que abre duas pos-
testes é a verificação da compatibilidade da sibilidades de análise: a estatística paramétrica
distribuição dos dados com uma curva normal e a estatística não paramétrica. A primeira tem
para testes paramétricos. Muitos testes tem a premissas mais exigentes, mas, quando pode
premissa de normalidade, de forma que é co- ser aplicada, dá mais poder ao teste e permite
mum que os testes de normalidade sejam re- uma descrição muito mais completa da relação.
comendados. Entretanto, é necessário explicar A segunda tem premissas menos exigentes, de
uma limitação destes testes. A Hipótese Nula forma que pode ser aplicada em uma diversida-
dos testes de normalidade é que a distribuição de maior de situações.
dos dados é normal, isto é, ao rejeitarmos esta
hipótese nula (P<α) temos elementos para uma
decisão: não utilizar o teste paramétrico. Entre-
tanto, quando não rejeitamos a hipótese nula,
podemos afirmar que a distribuição é normal? V. dep→ Binário
Ordinal ou
Quantitativo
Categórico Quantitativo
Não. Este “detalhe” frequentemente é omitido V. ind.↓
(Categ. de 2)
Condição NP*
Condição P*
71
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
0.8
Variável resposta quantitativa em condições
intermediárias. A variável está em condições 0.6
variável preditora.
Fre qüência relativa
0.8
Poisson
0.6
Há uma exceção quanto a estas exigências.
Quando a variável preditora for binária, pode- 0.4
72
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
10
10
Tendência retilinear
8
8
7
7
6
6
5
5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
0 1 2 3 4 5
Var. Ind. Quantitativa
Var. Ind. Quantitativa 2
2
Resíduos de Y em X
Resíduos de Y em X
1
1
0
0
-1
-1
-2
-2 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
0 1 2 3 4 5 Var. Ind. Quant itativa
Var. Ind. Quantitativa
10
Figura 5- Normalidade em relação linear (ver texto). Figura 4- Normalidade e curvilinearidade (ver texto).
m X
resistência para cada tipo sanguíneo (as curvas Repare que os resíduos estão homogeneamen-
normais ficam viradas em 90º no gráfico sobre te distribuídos ao longo do eixo da variável pre-
cada nível de x). Novamente, não espere que ditora. Um desvio de normalidade ocorre quan-
os dados formem uma curva perfeitamente do aplicamos um modelo retilinear a uma rela-
normal se os tamanhos amostrais não forem ção que na realidade é curvilinear (figura 5.4).
muito grandes, mas é necessário que a distribu- Repare que os resíduos não se distribuem ho-
ição seja pelo menos aproximadamente simétri- mogeneamente ao longo do eixo da variável
ca e na forma de um sino para os testes para- preditora, inicialmente eles são muito altos,
métricos. No exemplo abaixo os quatro níveis depois muito baixos e ao final muito autos no-
têm padrão compatível com uma distribuição vamente. (*usamos o termo “retilinear” porque o
normal. termo “linear” não se restringe a modelos com
uma reta; vários modelos curvilineares também
Situação 3: Uma variável resposta quantitativa e entram nesta categoria segundo Zuug et al
uma variável preditora quantitativa. Neste caso, 2009)
a relação entre as variáveis é representada por
uma linha. O esperado é que se encontre uma Caso a análise de resíduos indique uma relação
curva normal em cada nível da variável predito- não retilinear, então a forma de agir dependerá
ra e esta curva normal deve estar com a média do problema: a) se o objetivo for apenas saber
sobre o valor esperado para aquele nível da se há uma relação com previsão de aumento ou
variável preditora. Na prática, o problema de redução monotônicos (sem reversão de tendên-
normalidade mais comum nesta situação é a cia), pode se utilizar o teste não paramétrico
média desta curva normal não estar no local correlação de Spearman; b) se o objetivo inclui
esperado, porque o modelo usado não é apro- uma descrição da relação, então você terá que
priado. comparar estatisticamente os modelos alternati-
vos ou verificar a existência de um modelo flexí-
Suponha que o seu modelo é de regressão vel apropriado. Estes procedimentos estão des-
retilinear, que é um modelo representado por critos em Zar (1984).
uma linha reta. O esperado é que a média em
cada nível esteja aproximadamente sobre a
linha reta, e que os pontos tenham uma distribu- Número de níveis efetivos apropriados na
ição normal neste nível, como na figura ao lado. variável resposta. A contagem do número de
74
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
30
30
Var. Dependente
20
20
Resistência
10
0
0 1 2 3 4 5 6
Var. Independente
10
0
A AB B O outra condição para podermos utilizar testes
Tipo Sangüíneo paramétricos. Isto também pode ser investigado
Figura 6Heterogeneidade de variâncias da variável respos-
graficamente. Em termos simples, as curvas
ta entre níveis quantitativos da variável preditora. normais imaginárias sobre a distribuição dos
dados devem ser aproximadamente igualmente
níveis efetivos substitui a tradicional categoriza- “gordas”.A figura 5.5 mostra uma situação de
ção de variáveis em “discretas” e “contínuas”. O heterogeneidade de variâncias com variável
conceito de variável contínua não se sustenta preditora categórica e a figura 5.6 com variável
porque todo instrumento de medida tem uma resposta quantitativa.
precisão limitada. O problema da continuidade
existe, mas está ligado a um baixo número de Lidando com as “situações intermediárias”
níveis efetivos, não à natureza da medida. Se você tem 6 a 9 níveis efetivos de medida na
variável resposta ou se há um desvio da norma-
A condição de número de níveis efetivos sufici- lidade, mas este desvio não for muito grande ou
ente é uma extensão da premissa de normali- se há uma diferença entre as variâncias entre
dade. Se houver menos que cinco níveis efeti- os níveis das variáveis preditoras, mas esta
vos na variável resposta, então o “salto” de um diferença não for muito grande, então você está
nível para o outro é proporcionalmente grande, em uma situação intermediária entre a situação
igual ou maior que 20% da amplitude (diferença em que recomendamos um teste paramétrico e
entre o menor e o maior valor). Portanto, não se a situação em que recomendamos um teste não
pode falar em uma curva normal, o máximo é paramétrico. Não há uma fronteira definida.
uma “escada normal”, e estamos “forçando” o Caberá a você escolher conforme a situação,
nosso algoritmo paramétrico devido à desconti- considerando: a) Se a situação exigir uma abor-
nuidade dos valores. Por isto, quando você tiver dagem mais conservadora, ou se você tem uma
seis níveis efetivos ou menos na variável res- personalidade mais conservadora, dê preferên-
posta, deveria utilizar um teste não paramétrico. cia aos testes não-paramétricos; b) se há um
Quando você tiver 10 ou mais níveis efetivos, conhecimento de que a variável em estudo cos-
então, dependendo das outras premissas, pode- tuma ter um comportamento mais próximo às
rá utilizar um teste paramétrico. premissas de testes paramétricos, então dê
preferência a estes; c) Leve em conta na esco-
Homogeneidade de variâncias. Também lha que esta região tem um forte gradiente, e. g.
chamada de homocedasticidade, a homogenei- uma variável com 6 níveis efetivos está muito
dade (ou similaridade) de variâncias da variável mais próxima da necessidade de testes não
resposta entre níveis da variável preditora é paramétricos do que uma variável com 9 níveis
75
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
efetivos. d) Leve em conta os três critérios ao trapaça, porque você realiza a transformação
mesmo tempo, uma circunstância com condição durante a fase de avaliação das premissas,
intermediária em apenas um critério tende a ser antes de ver o resultado do teste. Seria trapaça
menos crítica que uma circunstância com con- se o motivo da transformação fosse o resultado
dição intermediária nos três critérios. do teste. Estas transformações são realmente
um procedimento recomendado para variáveis
5.5 Transformação de dados quantitativas respostas antes da decisão de se
utilizar um teste não paramétrico.
Como dissemos antes, havendo normalidade e
homocedasticidade, a estatística paramétrica é 5.6 Outras premissas
mais poderosa. Em muitos casos em que as
premissas não se aplicam, é possível utilizar
operações matemáticas para transformar os Há outras premissas que envolvem testes de
dados e obter normalidade e homocedasticida- relações, algumas se aplicam a todos os testes
de. Este procedimento de tentar uma transfor- (e. g. balanço) e outras a alguns testes em par-
mação é recomendado para se obter o poder do ticular (e. g. ortogonalidade, “empates” em ran-
teste paramétrico e quando se deseja obter queamento, tamanhos amostrais em testes de
descrições com equações lineares. proporções).
20
vas, a distribuição dos dados deveria ser apro-
ximadamente homogênea ao longo do eixo x. 15
VARIÁVEL Y
Se dividirmos os dados da variável quantitativa
em 3 a 5 intervalos, a quantidade de dados em 10
empatados (“ties”) não é raro, e não deveria ser Esta seção trata de um aspecto dos testes com
analisado por um teste de ranqueamento co- variável resposta quantitativa e variável predito-
mum. Alguns autores (e. g. Gotelli & Elisson, ra categórica. Nesta situação, o teste nos permi-
2010) recomendam que estes testes sejam te determinar se há uma diferença entre os
abandonados e substituídos por procedimentos níveis da variável preditora. Por exemplo, po-
de permuta do tipo Monte Carlo. É uma posição demos comparar o crescimento de galinhas
muito válida, entretanto, considerando que ain- com três marcas de ração e descobrir que há
da não há uma tradição consolidada do uso dos efetivamente uma diferença. Entretanto, isto
testes de permuta, ainda é razoável a manuten- não costuma ser uma resposta satisfatória,
ção do uso dos testes de ranqueamento em normalmente queremos saber quais diferenças
situações em que não há um excesso de empa- são significativas entre cada marca de ração.
tes em poucos níveis efetivos de testes não
paramétricos de ranqueamento. Digamos que tenhamos os níveis A, B e C e
tenhamos obtido uma diferença estatisticamente
Tamanhos amostrais mínimos em testes de significativa. Isto significa que: A>B>C ou que
proporções. Cuidado ao aplicar testes de pro- A>B=C ou que A=B>C? Para definir quais dife-
porções, eles só são válidos em certas condi- renças são estatisticamente significativas é
ções. No caso do teste de uma proporção, a necessário um teste de contraste após um teste
condição é [n .p0 > 10 e n (1 − p0) > 10], sendo de ANOVA ou Kruskal-Wallis. O teste mais usa-
n o tamanho amostral e p0 a proporção obtida. do para ANOVA chama-se Tukey. No caso do
Por exemplo, se você quer saber se a propor- Kruskal-Wallis pode se utilizar um teste Mann
ção 3:5 é significativamente diferente de 50%, Whitney entre cada nível. Existe a possibilidade
terá n=8 e p0=0,375. Como 8x0,375<10, este do teste não apontar diferenças significativas
teste não poderia ser aplicado. Entretanto, po- entre os níveis (A=B e B=C). Isto parece um
deríamos testar se 30:50 é significativamente contra senso, mas é possível porque no conjun-
diferente de 50% porque n=80 e 80x0,375>10. to a diferença é significativa, mas que pode não
No caso de testes de duas proporções, a condi- haver dados suficientes para saber qual nível é
ção é [(n1 p1) > 5 e n1(1 − p1) > 5 e (n2 p2) > 5 diferente de outro nível.
e n2(1 − p2) > 5], sendo n1 e n2 os tamanhos
amostrais e p1 e p2 as proporções. Assim, se
queremos testar se as proporções 1:5 e 40:50 Exercícios
são diferentes, teríamos 6x0,2<5, o que tornaria
5.1- Represente com um gráfico EPR uma situação
o teste suspeito. Tabelas de contingência tam-
com uma variável preditora com 4 níveis efetivos
bém têm restrições para tamanhos amostrais ordinais (não quantitativos) e uma variável resposta
pequenos dentro de cada célula. No Mystat quantitativa com mais de 10 níveis efetivos e forte
quando há menos que 5 observações em uma diferença na variância entre os níveis.
célula, o resultado é considerado suspeito pelo
programa. 5.2- Represente com um gráfico EPR uma situação
com variável preditora binária em que um dos níveis
Se você está com um problema de tamanho apresenta uma distribuição de dados claramente
amostral em um teste deste tipo, e não puder discrepante de uma distribuição normal e o outro
coletar mais dados, provavelmente possa utili- nível com uma distribuição claramente compatível
zar uma abordagem de permuta como o “boots- com uma distribuição normal com 10 entidades em
cada nível.
trap”, mas é bom considerar uma consulta a um
estatístico. 5.3- Represente com um gráfico EPR uma situação
com variáveis respostas e preditoras quantitativas. A
5.7 Contrastes variável preditora deve ter quatro níveis e a relação
não deve ser compatível com uma relação retilinear.
78
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
79
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
6.1 Independência entre unidades No caso de perguntas sobre relações, que en-
amostrais volvem duas ou mais variáveis (sendo pelo
menos uma preditora e pelo menos uma res-
O planejamento amostral tem por objetivo de- posta), a independência, significa que “Os valo-
terminar a melhor forma de coletar os dados res da(s) variável (is) preditora(s) foram manipu-
prevenindo relações espúrias (este capítulo) e lados ou escolhidos de forma que as influências
obtendo o máximo de poder para a nossa análi- de relações com potenciais variáveis de con-
se (próximo capítulo) dentro das possibilidades fundimento sobre a relação em estudo foram
logísticas do estudo. A introdução sobre coleta todas anuladas ou radicalmente reduzidas.”
de dados do capítulo 3 será aprofundada nestes (cap.3).
dois capítulos.
A situação ideal para se obter a independência
Os cursos introdutórios de estatística, como em estudos de relações é o experimento contro-
este, lidam basicamente com “hipóteses estatís- lado, no qual manipulamos o valor da variável
ticas simples” (seção 1.3), que tem como pre- preditora e medimos o efeito na variável respos-
missa a independência entre unidades amos- ta. Entretanto, em muitos estudos não é possí-
trais. As ferramentas para lidar com estas hipó- vel se manipular a variável preditora. Vejamos
teses são diversificadas e se constituem nas alguns exemplos de problemas de confundi-
formas predominantes da análise de dados em mento.
biologia. A premissa que lhe dá força é justa-
mente seu Calcanhar de Aquiles: a indepen-
dência entre unidades amostrais. Se não houver 6.2 A coleta parecia apropriada, mas...
garantia desta independência, o resultado da
análise não será confiável. Estudo 1. Pergunta: há diferenças no tamanho
de machos e fêmeas de borboletas da espécie
No caso de perguntas sobre uma única variável, Capronnieria abretia (Satyrinae) ?
a independência significa que a amostra é re-
presentativa da população. Por exemplo, se Procedimento: coleta de 20 borboletas em janei-
quisermos saber se a proporção de plantas com ro e 20 em julho.Na figura ao lado representa-
flores vermelhas ou brancas de uma espécie mos uma parte da tabela EPR. As entidades
em um campo é compatível com a 1ª lei de seriam borboletas e as propriedades seriam
Mendel (3:1), o ideal é que a escolha das plan- tamanho e sexo. A relação está representada
tas na amostra seja aleatória. Entretanto, pode pela seta.
ser inviável marcar todas as plantas para um
sorteio, então poderíamos pensar em outra
forma de amostrar, desde que tenhamos confi-
ança que o resultado não seria tendencioso. Por
exemplo, poderíamos ter um mapa detalhado Tamanho Sexo
da área, criar um “grid” (gradeado) e escolher 12 m
as plantas mais centrais em cada célula do 10 m
“grid” (amostra sistemática). Há diversos tipos
possíveis de amostras sistemáticas, mas nem 11 f
todas garantem a representatividade, de forma 11 f
que devem ser pensadas primeiramente para
80
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
Há algo errado com este procedimento? O grá- Estudo 2. Pergunta: A abundância de peixes
fico abaixo mostra que o tamanho dos animais em lagos de várzea no amazonas varia entre a
em janeiro (verde) é maior que em julho (bran- fronteira com o Perú e Belém?
co) Também vemos que em janeiro encontra-
mos mais machos e em julho mais fêmeas. Amostragem: 6 meses coletando ao longo do
Machos e fêmeas de janeiro têm os mesmos Rio Amazonas em diversos lagos com método
tamanhos; machos e fêmeas de julho têm o padronizado. Os lagos são escolhidos ao acaso
mesmo tamanho. Portanto, não há dimorfismo à medida que o barco de coleta vai descendo o
sexual de tamanho. Entretanto, se não levamos rio.
em conta as variações temporais de tamanho e
de abundância, aparece uma falsa evidência de Há algo errado? A quantidade de peixes varia
dimorfismo. muito ao longo do ano nos lagos próximos ao
Rio Amazonas. Digamos que a coleta seja inici-
Janeiro ( ) Julho ( ) ada quando há pouco peixe nos lagos e termine
quando há muitos peixes no lago. Se a coleta é
feita à medida que o barco desce o rio, haverá
Tamanho
mesmo com o incômodo de uma temperatura deve ser eliminado apenas porque secou há 4
alta. A ordem dos exames foi a variável de con- anos, isto acontece em lagos, trocar de lago
fundimento, pois ela determinou a temperatura não é a solução. O errado é querer tirar mais de
e a experiência. Seria melhor que a ordem das uma medida por lago se a questão é a diferença
temperaturas fosse aleatória, embora isto seja entre lagos. Melhor seria ter uma coleta por lago
um fator complicador na hora de realizar um em 5 lagos de água branca e em 5 lagos de
estudo destes, quando há uma variável de con- água preta, preferencialmente de bacias hidro-
fundimento ligada à sequência de tratamentos, gráficas diferentes. Dos exemplos apresenta-
planejamentos experimentais como estes são dos, este é o caso mais claro de Pseudoreplica-
um convite para relações inconsequentes espú- ção.
rias.
A pseudo-replicação é definida como o uso de
Estudo 4. Pergunta: Lagos de água branca têm estatística inferencial para testar efeitos de tra-
mais peixes do que lagos de água preta? tamentos com dados de experimentos que não
são replicados ou quando as replicatas não são
Coleta: Instalamos 50 redes de coleta de peixes estatisticamente independentes (Hurlbert,
em um lago no centro de uma ilha em Anavilha- 1984). Em abordagens experimentais e em
nas (bem representativo de lagos de água pre- alguns estudos observacionais, como o citado
ta) e 50 redes de coleta em um lago semelhante acima, é mais fácil se perceber quando há
no centro da ilha da Marchantaria (bem repre- pseudo-replicação, mas nem sempre é assim. O
sentativo de lagos de água branca) na mesma termo pseudo-replicação tornou-se muito popu-
época do ano lar e tem sido muito importante para despertar
e com técnica mais nas pessoas o cuidado com replicatas
padronizada. indevidas. Entretanto, acredito que ele só possa
Os dois lagos ser bem compreendido depois de se entender
foram selecio- Taxa de Tipo de melhor alguns os tipos de variáveis (em termos
nados aleato- captura água de sua influência na relação em estudo) e tipos
riamente de de controle.
uma lista
grande de 23 branca
lagos repre- 29 branca
sentativos dos 3 preta
respectivos 5 preta
tipos de água.
6.3 Tipos de variáveis dentro de mapas alternativas razoáveis que poderiam levar ao
conceituais. mesmo resultado, como a diferença na prefe-
rência a algum fator ambiental (e. g. umidade)
Como vimos anteriormente, algumas questões ou à densidade de um predador comum às duas
podem ter apenas uma variável em análise. espécies que prefere alimenta-se mais da presa
Neste caso, temos de nos preocupar apenas onde o predador for menos abundante.
com a representatividade (seção 3.3), não há
variáveis externas nem possibilidade de con- É quando estamos realizando um estudo cuida-
fundimento. doso de relações causais que precisamos avali-
ar variáveis externas. Vejamos os tipos de vari-
Algumas vezes investigamos a existência de áveis externas e como lidar com elas.
relações entre duas variáveis sem relação cau-
sal entre si, mas que poderiam estar respon- As variáveis externas são divididas em:
dendo à mesma variável preditora ou realiza- b1) Variáveis Neutras, não afetam nem a vari-
mos uma investigação preliminar sobre causali- ável resposta nem a preditora; b2) Variáveis
dade sem a preocupação rigorosa com a possi- Pré Explicativas, que afetam diretamente ape-
bilidade de variáveis de confundimento. Neste nas a variável preditora; b3) Variáveis de Ruí-
caso, dizemos que estamos estudando a exis- do (VR), são aquelas que afetam a variável
tência de uma correlação. Variáveis que apre- resposta, mas não afetam a(s) variável(is) predi-
sentam relações causais costumam apresentar tora(s); b4) Variáveis de Confundimento (VC).
correlação, desde que a variável preditora varie São aquelas que afetam tanto a variável predi-
suficientemente, e desde que variáveis de ruído tora como a variável resposta, criando uma
não obscureçam muito a relação. Entretanto, relação inconsequente espúria entre as variá-
correlações não implicam relações causais de- veis em questão; b5) Variáveis de Caminho,
vido à possibilidade de confundimento. Por isto, são aquelas que explicam a relação consequen-
em uma análise de correlação, não estamos te entre a variável preditora e a variável respos-
nos preocupando muito com variáveis externas. ta.
83
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
Figura 6-2- Mapa conceitual mostrando duas Variáveis em Questão (mais escuro) e diversas variáveis externas.
A proximidade da metrópole poderia ser causa- Variável Neutra. Algumas vezes, simplesmente
dora de uma relação inconsequente espúria tomamos como premissa que algumas variáveis
(como sugere a Dra. Kaufman). Foi a pergunta são neutras, o que envolve um risco. Na dúvida,
mais “perigosa” das que foram feitas porque é é bom tentar neutralizar até os menores riscos
uma potencial Variável de Confundimento. de confundimento, entretanto, o bom senso
precisa ser utilizado para não ficarmos paranói-
A experiência dos pescadores realmente pode cos quando uma variável não puder ser contro-
afetar a eficiência da pesca e a quantidade de lada, mas puder ser considerada irrelevante.
peixes capturados. Explicamos que não houve
confundimento porque os pescadores foram A sugestão do Dr. Traíra é válida. Nós sugeri-
sempre os mesmos nos lagos de água branca e mos um “caminho” de causalidade e mostramos
nos de água preta, portanto, o efeito da diferen- que nossos dados são coerentes com nossa
ça de habilidade distribuído igualmente, preve- proposta de explicação do funcionamento do
nindo uma relação inconsequente espúria por sistema. Entretanto, há outros “caminhos” que
este fator. Se os pescadores diferirem muito na seriam coerentes com nossos resultados. Ape-
sua habilidade, isto adiciona variância aos da- nas estudos mais profundos poderão nos permi-
dos, e pode obscurecer a relação, por isto esta tir ter certeza do caminho real. Entretanto, isto
variável é chamada Variável de Ruído. Entre- não invalida o trabalho, a relação encontrada foi
tanto, como a diferença foi significativa, o pro- pelo menos um avanço para se compreender o
blema do “ruído” foi superado pelo tamanho funcionamento do sistema. As observações do
amostral. De qualquer forma, o ruído é um pro- Dr. Traíra precisam ser anotadas para alternati-
blema menos sério que a tendenciosidade. vas em estudos posteriores. Por isto, estas
variáveis são chamadas Variáveis de Cami-
A pergunta sobre as nascentes é aceitável co- nho.
mo curiosidade e pode até ser útil para especu-
lações relacionadas à questão. Entretanto, é Em resumo, o único questionamento realmente
uma pergunta inofensiva para a questão especí- crítico para o seu trabalho foi o da Variável de
fica. A questão do estudo não era o que deter- Confundimento. Note sua característica no es-
minava o tipo de água entre os lagos. Partia-se quema de mapa conceitual: é a única que forma
do fato de que elas são diferentes para se ques- uma alça externa entre as variáveis preditora e
tionar as consequências disto. Esta variável resposta. É o seu calcanhar de Aquiles. Discuti-
afeta a variável resposta, mas justamente pelo remos o que pode ser feito sobre isto depois.
seu efeito na preditora, de forma que não cria Pelo menos, nesta seção nós vimos que não
uma relação espúria. Por isto é chamada de temos que ficar paranóicos com quaisquer vari-
Variável Pré-Explicativa áveis, apenas as potenciais variáveis de con-
fundimento realmente colocam o estudo em
Nós nem pensamos em verificar a lua. Entretan- risco de ser considerado inválido.
to, acreditávamos que ela realmente seria irre-
levante. Nenhum estudo anterior chegou a su- Nas próximas seções abordaremos conceitos
gerir este efeito, este peixe tem hábitos diurnos que serão úteis para compreendermos como
e as coletas entre lagos foram intercaladas, lidar com as variáveis de confundimento.
sendo improvável que houvesse coincidido um
maior número de coletas em um tipo de água
associado a um tipo de lua. Seja por questões
biológicas ou por questões da forma como os
dados foram coletados, consideramos que esta
variável não seria uma fonte de relações espú-
rias. Por isto esta variável foi considerada uma
85
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
objetivo do estudo costuma ser descrever a forma de prevenir este tipo de tendenciosidade.
forma da relação. Entretanto, quando a aleatorização é complica-
da por questões logísticas, pode-se utilizar al-
Em biologia, raramente é razoável se assumir gum método alternativo, se houver uma justifi-
este controle absoluto. Na física você pode cativa forte para se acreditar que ele não é ten-
utilizar um mesmo objeto duas vezes em um dencioso.
experimento, na biologia você não pode fazer
uma semente germinar duas vezes e duas se- Após formarmos grupos iguais, aplicamos tra-
mentes nunca são absolutamente idênticas, tamentos diferentes em cada grupo. Portanto,
nem clones são absolutamente idênticos, no esta abordagem só está disponível para estu-
máximo geneticamente idênticos, diferenças dos experimentais. Tecnicamente, o que fize-
podem surgir até durante o desenvolvimento mos chama-se atribuição aleatória dos níveis
embrionário. da variável preditora. Se a diferença entre os
grupos for maior do que a esperada ao acaso
Controle por aleatorização simples. comparado com uma probabilidade limite pré
estabelecida (α), dizemos que rejeitamos a
Como vimos acima, se pegássemos duas se- hipótese nula e que temos uma prova estatística
mentes absolutamente idênticas, poderíamos para nossa hipótese alternativa.
tirar conclusões sem replicatas (repetições) de
tratamentos. O problema é que não basta pare- Esta forma de controle previne contra tenden-
cer igual, não temos condições de garantir que ciosidade, isto é, contra erro tipo I, mas não
duas sementes são absolutamente iguais. Não contra ruído. Por isto, Geralmente este controle
podemos ter certeza se uma diferença ao final é feito junto com outras formas de controle,
resultou do próprio tratamento ou se foi resulta- como veremos na Abordagem Experimental
do de diferenças intrínsecas não visíveis, isto é, (seção 6.6)
elas talvez se tornassem diferentes mesmo sem
receber os tratamentos diferentes. Controle sistemático simples.
Uma solução para este problema é trabalhar Voltando ao exemplo das sementes de soja,
com várias sementes em um grupo tratamento e imagine que você tem dois sacos de sementes
várias sementes em um grupo controle. Se con- de lotes diferentes. Os lotes podem ser diferen-
seguíssemos dois grupos iguais, as diferenças tes em idade, tratamento, origem, etc. Se mon-
entre as sementes se anulariam. Não há como tássemos os grupos aleatoriamente, podería-
se conseguir dois grupos idênticos, mas se as mos obter dois grupos comparáveis, como vi-
sementes fossem escolhidas aleatoriamente, mos acima. Entretanto, outra forma de se obter
estes grupos seriam cada vez mais semelhan- isto, seria se pegássemos alternadamente uma
tes quanto mais sementes fossem utilizadas, e semente de cada saco até obtermos o número
seria possível se decidir estatisticamente dentro necessário para o tratamento e depois repetir a
de critérios estabelecidos a priori se uma dife- operação para o controle. Os dois grupos foram
rença obtida está além do esperado por acaso. feitos equivalentes por intercalação. A interca-
lação, ou outra forma de proceder que garanta a
A abordagem com este aleatorização contrasta igualdade entre os grupos tratamento e controle
com uma formação de dois grupos em que o é outra forma de se obter grupos semelhantes.
pesquisador escolhe as sementes. Inconscien-
temente, ele poderia selecionar sementes me- O controle aleatório é mais fiel às fórmulas esta-
lhores para um dos tratamentos. A estatística tísticas do que o controle sistemático, mas a
tem muito poder para detectar diferenças sutis, diferença pode ser considerada mínima, e a
mesmo que a causa seja uma variável de con- amostragem sistemática apresenta algumas
fundimento, de forma que a aleatorização é uma vantagens. Estatísticos divergem sobre qual dos
88
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
bém tende a reduzir a chance de erro tipo II, tamento) ou a inclusão de uma variável com
mas é mais importante como uma forma de níveis livres.
minimizar a chance de reduzir erro tipo I. Espe-
cialmente quando não há um controle por blo- Em estudos experimentais, a inclusão de mais
cos, é importante se levantar todas as potenci- uma variável controlada normalmente leva a
ais variáveis de confundimento e tentar fixá-las desenhos experimentais fatoriais, nos quais
ou reduzir sua variância ao máximo, ou incluí- temos as combinações dos níveis das variáveis
las no estudo (próximo item), pois estes tipos de preditoras com o mesmo número de unidades
estudos estão mais sujeitos a relações espúrias amostrais e uma estatística simples e segura
do que os estudos experimentais. para analisar a interação entre variáveis predito-
ras em seus efeitos sobre a resposta. Por e-
Controle por inclusão de variável.A análise xemplo, se queremos ver se um nutriente con-
de Variáveis preditoras Múltiplas é um assunto tribui para o crescimento de uma plante, pode-
que está além do escopo deste texto básico, mos fixar a quantidade de outros nutriente, mas
apresentamos apenas uma introdução concei- pode ser que o efeito do nutriente mude em
tual sobre esta forma de controle. função da concentração do outro nutriente. Para
investigar isto montamos um desenho amostral
A inclusão de uma variável pode ser de dois com combinações de concentrações dos dois
tipos: inclusão de uma variável controlada (tra- tipos de nutrientes.
Figura 10- Chave para a escolha de abordagens de pesquisa. VI= Variável Independente; VR= Variável resposta; VE=
Variável Externa.
90
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
92
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
em locais secos e em locais úmidos. A aborda- das variáveis em estudo, não a todas as variá-
gem em blocos não reduziria apenas o efeito da veis externas, pois algumas podem estar con-
umidade, mas de todas as variações espaciais troladas.
e temporais entre blocos. Quanto menores fo-
rem os blocos (em termos espaciais ou tempo- Do ponto de vista estritamente lógico, a aborda-
rais) em relação ao tamanho da área/ tempo do gem ao acaso no estudo de relações seria per-
estudo, mais efetivo o controle dos blocos sobre da de tempo, pois sempre poderia haver variá-
variáveis de confundimento em geral. veis de confundimento em que sequer pensa-
mos. Entretanto, testar hipótese não é só um
A abordagem com blocos com níveis de VR jogo matemático, nosso conhecimento de biolo-
pré-definidos são menos comuns. Nenhuma gia também conta. Normalmente conhecemos o
variável é manipulada, mas os valores das su- sistema que estudamos o suficiente para imagi-
bunidades amostrais são escolhidos. A opção nar quais são as principais candidatas a variá-
por fixar a VR é recomendada em estudos nos veis de confundimento. Em um estudo sobre o
quais a variável preditora não pode ser manipu- efeito de um nutriente sobre o crescimento de
lada (não experimental) e que tem valores da plantas precisamos suspeitar do efeito da sazo-
variável resposta que raramente são diferentes nalidade climática, não nos preocupamos muito
de zero. Por exemplo, se queremos estudar com um efeito da lua e consideramos irrelevan-
fatores de risco para Doença de Chagas asso- tes eventuais alterações no campo magnético
ciados a fazendas com extração de açaí, que é da terra. Se pudermos controlar as variáveis
algo pouco frequente, mas grave, podemos externas relevantes das formas descritas na
comparar blocos constituídos por fazendas on- seção 6.4, podemos assumir que um resultado
de houve registro de Doença de Chagas e uma significativo realmente corrobora a nossa hipó-
fazenda vizinha onde não houve. Comparando tese alternativa.
estes pares quanto ao uso de tela na casa,
cuidados em lavar os frutos de açaí, etc, pode- Há diferentes tipos de amostragens ao acaso.
mos ter um levantamento bastante objetivo dos Imagine um estudo sobre tamanho de bromélias
fatores de risco. Sem uma abordagem pareada, e a proporção de espécies predadoras na fauna
teríamos diversos costumes regionais de uma associada à água acumulada entre as suas
área endêmica que poderiam ser confundidas folhas. Você pode escolher: a) as primeiras 20
com comportamentos de risco. bromélias que encontrar, todas próximas entre
O problema de fixar a variável resposta é que si; b) numerar 1000 bromélias e sortear 20;
provavelmente não teremos balanço para os c) montar um “grid” na área de estudo e pegar
valores da maioria das variáveis em risco sele- as bromélias localizadas mais próximas às 20
cionadas. Provavelmente seja mais apropriado esquinas deste grid. Cuidado, embora o grid
considerar esta abordagem como uma boa fer- seja uma otimização da distribuição de amos-
ramenta de levantar fatores de risco do que tras em uma área, não é um controle sistemáti-
como um teste que comprova relações conse- co de nenhuma variável no sentido da seção
quentes. 6.4.
necessário para um estudo de aves. A aleatori- apenas dois lagos para comparar o efeito do
zação é menos recomendável do que uma a- tipo de água sobre a abundância de peixes, e
mostragem sistemática como um “grid”. Outro chamamos a isto de pseudo-replicação. A
critério é o da autocorrelação espacial ou tem- pseudo-replicação é um problema porque as
poral, em que se avalia se a variância entre medidas obtidas em um mesmo lago tendem a
valores vizinhos é menor do que a variância ser semelhantes por compartilharem valores de
geral, indicando que a distância entre unidades várias variáveis externas, de forma que não são
amostrais precisa ser aumentada. Avaliações representativas da variação que temos dentro
gráficas de ausência de autocorrelação podem de cada nível da variável preditora. Por exem-
ser importantes complementos aos testes. plo, por acaso, este lago de água preta secou
há 3 anos, e a população de peixes ainda não
6.9 Independência pela distância voltou ao normal, de forma que teremos várias
medidas de abundância baixa para representar
Vimos que independência entre unidades amos- os lagos de água preta. Este é um exemplo
trais significa que as medidas das variáveis extremo de problema de proximidade de unida-
respostas foram obtidas em um contexto de des amostrais. Se tivéssemos 5 lagos de cada
coleta de dados em que o efeito de todas as tipo, mas considerássemos cada dia de coleta
variáveis externas foi: a) anulado pela atribuição como uma amostra preditora, teríamos também
aleatória dos níveis da variável preditora (abor- uma pseudo-replicação (chamada de pseudo-
dagem experimental); ou b) suficientemente replicação “sacrificial”). E se tirássemos medi-
(será?) reduzido por um desenho quase expe- das diárias de abundância de mosquitos contra
rimental, ou em blocos ou com intercalação de medidas diárias de precipitação, teríamos pseu-
níveis da VI; ou c) reduzido pelo controle de do-replicação temporal, pois tanto a abundância
cada uma ou mais das variáveis externas con- de mosquitos como a chuva tendem a ser se-
sideradas relevantes por estratégias de fixação melhantes de um dia para outro.
univalor, fixação balanceada multivalores ou
inclusão da variável na análise. O que fazer para lidar com esta questão da
distância? Se temos um experimento de campo,
Entretanto, estas abordagens não resolvem isto é, a variável preditora for manipulável, en-
todos os problemas. Há situações em que não
podemos controlar devidamente variáveis ex-
ternas que variam no tempo e no espaço.
tão temos as possibilidades da figura abaixo, ente para determinar distâncias suficientes para
sendo a abordagem por blocos aleatórios a definir unidades amostrais independentes. En-
mais recomendada, e a completamente aleató- tretanto, também é comum os pesquisadores
rioa e a sistemática como boas. As outras abor- subestimarem o poder da estatística em detec-
dagens são consideradas de forte risco de con- tar efeitos sutis de variáveis externas de con-
fundimento. fundimento.
Se a variável preditora não for manipulável (es- Neste capítulo apresentamos uma série de téc-
tudo não experimental), podemos utilizar a es- nicas para reduzir a chance de variáveis exter-
tratégia de escolher os valores naturais dos nas obscurecerem os efeitos da variável predi-
níveis por intercalação ou com os níveis da tora, ou pior, gerar relações espúrias. A diretriz
Variável preditora ou da Variável resposta orga- mais genérica é que devemos planejar cuidado-
nizados em blocos. samente e com bom senso. Como foi dito antes,
a validação interna é uma fase crítica de um
Se houver limitações em um estudo não expe- trabalho. Vale a pena pensar bem antes de
rimental que impressa a organização em blocos, começar para não ter que recomeçar.
a opção é se manipular as distâncias. Mas a .
que distância podemos considerar que nossas
unidades amostrais são independentes? As Exercícios:
respostas para esta pergunta diferem muito em
função dos contextos possíveis para um estudo. 6.1- A “independência entre unidades amos-
trais” é uma expressão infeliz para descrever
a) Se você não tem limitações de custos de uma premissa de testes estatísticos. Explique
deslocamento, mas tem limitação de tamanho por que a expressão não é apropriada e qual a
da área de estudo e de custo por medida em independência que é premissa para qualquer
cada unidade amostral, simplesmente distribua teste estatístico.
suas unidades da forma mais regular possível
(normalmente um grid) para obter a maior dis- 6.2- Dê um exemplo de problema com uma
tância mínima possível entre amostras. variável de confundimento diferente dos apre-
b) Você pode coletar os dados ao longo de um sentados na seção 6.2.
transecto e depois fazer teses de autocorrela-
ção espacial (run test) para verificar a que dis- 6.3- Quais são os tipos de variáveis em função
tância entre unidades amostrais não há autocor- das suas participações em uma questão?
relação.
6.4- Qual é a diferença entre uma amostra-
c) Você pode coletar os dados ao longo de um gem ao acaso e uma amostragem aleatória e
transecto e depois fazer uma análise gráfica por que apenas a segunda é garantia de re-
para verificar a que distância entre unidades presentatividade.
amostrais não há autocorrelação. (Normalmente
a associação entre (b) e (c) é mais poderosa. 6.5- Qual é a diferença entre uma amostragem
aleatória para caracterização de uma população
d) Você pode partir de premissas biológicas e uma amostragem utiliza em estudos experi-
para assumir que determinada distância “segu- mentais?
ramente” é suficiente para considerar as unida-
des amostrais como independentes. 6.6- Explique as categorias de controle no sen-
tido de tratamento
Na prática, a opção d é assumida na maioria
dos estudos não experimentais. Frequentemen- 6.7- Explique as categorias de controle no sen-
te, os pesquisadores têm conhecimento sufici- tido de função
97
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
98
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
99
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
é sempre a negação de uma desigualdade mos VR e VI, temos Variáveis de Medidas Re-
(maior ou menor- e. g. Ho= A redução de tem- petidas (VRM1 e VRM2).
peratura no grupo tratado não é maior do que a
redução de temperatura do grupo controle). O teste pareado parece um teste de duas variá-
veis, mas é um teste com uma única variável, a
A opção por testes unicaudais ou bicaudais diferença (quantitativa, ordinal ou binária) entre
ocorre em contextos que pedem determinados os valores das variáveis de níveis. Em nosso
testes. Por isto, os testes binomiais de uma e exemplo, a diferença de nota entre Gluglu e
duas proporções, o “Fisher exact test”, o Teste Gostoso, que será positiva se Gluglu tiver me-
T simples, de “duas amostras” e pareado e tes- lhor nota e será negativa se Gluglu tiver menor
tes Z têm as opções de uma ou duas caudas nota. A hipótese nula é que as notas não serão
enquanto tabelas de contingência, ANOVA e significativamente diferentes, isto é, que a dife-
testes de Correlação não têm esta opção. Por rença não será significativamente diferente de
ser uma opção, podemos dizer “teste unicaudal” zero.
ou “teste na opção unicaudal”. Quando a ques-
tão pede a opção “unicaudal” e utilizamos a Se a distribuição das diferenças for semelhante
opção “bicaudal”, perdemos poder no teste des- a uma curva normal (ver seção 3.3- Análise de
necessariamente. Por outro lado, ao utilizarmos normalidade em testes), o teste utilizado é o
a opção unicaudal, não teria sentido discutir um teste T pareado (ou o teste T simples sobre as
resultado na direção oposta da hipótese alterna- diferenças). Se a distribuição das diferenças
tiva. não for semelhante a uma curva normal, a al-
ternativa é a utilização do teste Wilkoxon Pare-
7.2 Testes pareados e testes em ado. Se não houver diferenças quantificadas,
blocos mas apenas uma diferença categórica (Gluglu
preferido ou Gostoso preferido ou empate),
Qual é o refrigerante preferido pelos estudantes, elimina-se os dados do empate e aplica-se um
“Gluglu” ou “Gostoso”? Vamos ver. Aborda- “Sign test”, que é equivalente a um teste de
gem 1: Pegue 40 pessoas e ofereça para cada proporção com hipótese nula que nenhum deles
uma um copo de refrigerante de uma das mar- difere estatisticamente de 50% das preferên-
cas e peça para dar uma nota de zero a dez. cias.
Abordagem 2: peque 20 pessoas e dê a cada
uma delas um copo com Gluglu e um copo com Qual abordagem é mais poderosa, a pareada
Gostoso (sem identificação) para elas darem ou a não pareada? Em primeiro lugar, nem to-
notas para cada um (a ordem é sorteada e a dos os problemas podem ser abordados com
pessoa está vendada). O primeiro procedimento testes pareados. Você não pode pegar um ani-
ilustra um teste não pareado e o segundo ilustra mal do sexo masculino, medir seu tamanho,
um teste pareado. trocar o sexo dele e medir seu novo tamanho.
Para avaliar a existência de dimorfismo sexual
Para a tabela EPR temos pessoa como entida- em tamanho somos obrigados a utilizar uma
de nos dois procedimentos, mas as proprieda- abordagem não pareada. Em situações como o
des do primeiro são a variável preditora Refrige- exemplo do refrigerante acima, as duas aborda-
rante (Gluglu ou Gostoso) e a variável resposta gens são válidas, entretanto, o teste pareado
Nota (0 a a 10), enquanto na segunda aborda- normalmente é mais poderoso porque as pes-
gem as propriedades são uma variável para a soas diferem muito em critérios, algumas pes-
primeira coluna Nota do Gluglu (0 a 10) e uma soas são muito críticas, e darão notas baixas
variável para a segunda medida (nota do Gos- para as duas, outras muito generosas e darão
toso (0 a 10). Na segunda abordagem não te- notas altas para as duas. A abordagem pareada
ganha força neste caso porque diminui a chan-
ce de se perder a sutileza em meio à variação
100
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
101
Figura 7.1- Esquema de desenho em bloco com 4 "subunidades" amostrais por bloco.
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
7.3 Níveis fixos e níveis livres Definições: Uma variável preditora tem Níveis
Fixos se os valores dos níveis foram seleciona-
Uma classificação de níveis é importante para dos para o teste e Níveis Livres se os valores
diferenciar diretrizes ligadas ao poder de testes, não foram selecionados, isto é, se foram deter-
para diferenciar cálculos de probabilidade em minados “ao acaso” ou “livremente”.
ANOVA, para determinar tipos de regressões e
para questões relacionadas ao planejamento Exemplo:
amostral (capítulo 6).
Problema 1- A pureza do café difere entre as
Antes um esclarecimento. Usamos o termo marcas A, B, C. D e E?
“Níveis livres” ao invés do termo mais utilizado Problema 2- A pureza do café varia entre mar-
“Níveis ao Acaso” ou “Níveis Aleatórios” pois o cas? [Você escolhe ao acaso (livremente) 5
primeiro é mais claro porque: a) “livre” é antô- marcas de café (A, X, F, T e M) para represen-
nimo de “fixo”, o que facilita a compreensão do tar todas as marcas.]
conceito; b) níveis livres não são rigorosamente Problema 3- A produtividade do feijão muda ao
aleatórios (não são obtidos por sorteio), embora se adicionar 0 (controle), 2 e 4 mg de Nitrogênio
possam ser considerados “ao acaso” (ver dife- ao solo?
rença na seção 6.4); c) Porque este termo gera Problema 4- A produtividade do feijão é diferen-
menos confusão. O sentido de “ao acaso” em te em função da concentração de nitrogênio no
níveis pode ser confundido com o sentido de solo (valores de campo variando ao acaso ou
“ao acaso” na “amostragem ao acaso” e na livremente entre 0 e 4 mg de N).
“atribuição de níveis ao acaso”. Por exemplo, Os problemas 1 e 2 e os problemas 3 e 4 pare-
veremos na seção 6.1 que podemos atribuir cem iguais, mas não são. Nos problemas 1 e 3
níveis fixos ao açaso para uma unidade amos- os valores dos níveis são definidos e fixos pelo
tral em um experimento, mas não é possível pesquisador e nos problemas 2 e 4 eles são
atribuir níveis livres ao acaso para uma unidade valores "ao acaso".
amostral (dizer níveis “ao acaso” atribuídos ao
acaso seria algo confuso em um assunto que já Podemos ter níveis fixos em um único valor,
tem alguma complexidade intrínseca). Para o como vimos no capítulo anterior para o controle
102
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
T,Análise de Variância, e Regressão Retilinear/ rado com a variação entre unidades amostrais
Correlação) quando as premissas destes testes que seriam utilizadas em um teste não pareado
estiverem sendo atendidas. Se estas premissas (do contrário prefira uma abordagem não pare-
não forem satisfeitas considere a possibilidade ada- seção 4.2);
de transformar os dados. Se ainda assim não
atender as premissas, utilize os equivalentes d) Limite os testes múltiplos. Como foi dito no
não paramétricos (Testes Mann-Whitney, Krus- capítulo anterior, testes múltiplos requerem
kal-Wallis e correlação de Spearman). Não se correções no nível de significância, o que leva a
preocupe muito com as situações intermediá- uma redução brutal no poder de um conjunto de
rias, os testes paramétricos são relativamente testes A limitação do número de testes é uma
robustos e que os testes não paramétricos nor- forma recomendável de se lidar com este pro-
malmente não são muito menos poderosos, de blema. Ao invés de realizar um teste para 100
forma que os dois são aplicáveis (seções 3.3 e espécies, escolha apenas as 10 melhor amos-
3.4). tradas ou 10 que apresentem um interesse es-
pecial. Outra abordagem seria repetir o estudo
b) Use testes unicaudais em questões que pe- apenas com as espécies nas quais o Ho foi
dem esta opção; rejeitado e ver se acontecem os mesmos resul-
tados. Se o mesmo resultado é significativo
c) Use testes pareados ou em blocos quando a para uma espécie em dois testes independen-
questão permite sua utilização e quando o fator tes, então ele provavelmente é verdadeiro. (se-
em estudo tenha um efeito sutil quando compa- ção 4.3)
Figura 14 Resumo das diretrizes para maximizar testes estatísticos (ver texto).
104
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
inapropriada da hipótese nula (erro tipo I) é teste, pois estaríamos desconsiderando que
multiplicada pelo número de testes. Por exem- alguns testes levam a positivos verdadeiros) ,
plo, quando testamos se a espécie 1, a espécie que podemos estimar pelo Bonferroni sequenci-
2, … e a espécie 100 são sensíveis uma deter- al) em α=0,05. Entretanto, a maioria das pesso-
minada substância baseado em 100 experimen- as tende a considerar cada teste como um teste
tos, se rejeitarmos Ho para 10 espécies utilizan- independente. Por isto, no caso de tabelas com
do um nível de significância de 5%, então, te- uma sequência de testes relacionados, conside-
remos cerca de 5 falsos positivos e, portanto, ro recomendável se apresentar uma coluna com
apenas cerca de 5 seriam positivos verdadeiros. P (probabilidade calculada) e outra com a con-
Cerca da metade das espécies consideradas firmação da significância do teste após uma
sensíveis seriam falsos positivos ou relações correção semelhante à de Rice (1989). Isto
espúrias, não devido a uma relação inconse- ajuda a dar uma referência de probabilidade
quente, mas devido ao aumento do risco resul- dentro de um determinado contexto.
tante do excesso de testes.
Em segundo lugar, devemos pensar bem antes
A correção mais simples para testes múltiplos é de multiplicar desnecessariamente o número de
chamada de Correção de Bonferroni (o nome do testes em um estudo. Os críticos das correções
matemático que a criou) e é a divisão do α pelo estão certos ao dizer que não existem limites
número de testes. Entretanto, se você tiver 20 lógicos para correções de testes múltiplos fora
testes e um valor inicial de α=0,05, o novo α de tabelas. Por outro lado, a credibilidade de um
será 0,001, o que um nível de significância ex- positivo em cinco testes é certamente menor
tremamente conservador. Rice (1989) reco- que a de um positivo em 50 testes. A valoriza-
menda a utilização de um cálculo menos con- ção da estatística nos últimos anos acentuou a
servador que ele descreve como um “Bonferroni tendência a se multiplicar exageradamente o
Sequential” com um diferente valor de α para número de testes dentro de cada estudo, às
cada teste. Ainda é uma correção conservado- vezes para todas as perguntas logisticamente
ra, mas bem menos, e, portanto, muito útil. testáveis, sejam elas relevantes ou não. Os
cursos de metodologia precisam enfatizar que
Por outro lado, a utilização de correções em isto é um problema e incentivar a atitude de
testes múltiplos foi desaconselhada por alguns restringir o número de testes após considera-
autores (e. g. Moran, 2003; Gotelli & Elison, ções teóricas ou coletas preliminares. Esta é a
2010). Eles questionam a drástica redução de atitude mais poderosa, pois reduz o número de
poder de testes com as correções e o limite testes quando fazemos a correção ou suporta
lógico para o número de testes considerados na um mínimo de credibilidade aceitável se não a
correção. Se aplicássemos a lógica da correção fizermos.
rigorosamente, teríamos de corrigir pelo número
de testes de todo um artigo? Teríamos de corri-
gir por todos os testes feitos durante a vida de Exercícios
um pesquisador? Claro que isto seria absurdo.
Eles estão certos. Então, o que fazer, simples-
mente esquecer a questão das correções? Não, 7.1- O que é poder de um teste e por que a
a reflexão sobre este problema é essencial. preocupação com o poder é geralmente secun-
dária na pesquisa, mas ainda assim é muito
Em primeiro lugar, temos que reconhecer que relevante?
há um problema cultural na forma como as pes-
soas interpretam qualquer conjunto de testes. É 7.2- Cite seis aspectos em um estudo que con-
preciso aprender a ver conjuntos de testes sa- tribuem para um maior poder.
bendo que teremos cerca um falso positivo para
cada 20 vezes que rejeitamos Ho (não é a cada
107
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
7.3- Em que situação é preferível utilizar um níveis e por quê? c) em que escala o poder
teste unicaudal e por que na dúvida devemos diminui e por quê?
utilizar um teste bicaudal?
7.12- Quando os níveis da variável preditora
7.3- Dê um exemplo de previsão de hipótese são fixos em relações monotônicas, qual a for-
unicaudal pareada envolvendo diferenças de ma de se obter o maior poder com a escolha
dieta de gêmeos e sucesso escolar. Faça uma dos níveis?
tabela EPR para este exemplo.
7.13- Qual é o procedimento na escolha de
7.4- Faça uma tabela EPR para avaliar se o níveis quando não se sabe qual é a forma da
número de baratas é maior em coletas noturnas relação
comparada com coletas noturnas para um estu-
do com amostras não pareadas e outra tabela 7.14- Em que situações é recomendável tomar
EPR para realizar a mesma comparação em um atitudes que reduzem o poder de um teste?
teste pareado. Explicite a entidade em cada
tabela. Quais as vantagens e desvantagens de
cada abordagem?
108
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
109
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
cos e outros (GLM), em contraste com modelos linha de causalidade e que contribuem para
aditivos (GAM) que não abordamos. detalhar o funcionamento de um sistema.
R. Retilinear- Uma relação entre duas variá- V. Condicionalmente Correlacionadas-
veis quantitativas que é compatível com uma Duas variáveis que estão correlacionadas sob
reta. ação de uma terceira variável, não havendo
Resposta Contextual- Resposta baseada em causalidade entre elas, de forma que fixando a
unidades amostrais com influência relevante de terceira variável a relação deixa de existir.
fatores contextuais no espaço, tempo, filogenia V. de Confundimento- Variável que influi
ou outra condição análoga de posição. sobre a variável resposta e preditora de forma a
R. Estatística- Resposta baseada em unida- criar uma relação espúria entre elas.
des amostrais independentes sem influência V. de Ruído- Variável obscurece a relação
relevante de fatores contextuais. enter duas variáveis, mas que não tem influên-
R. Fato- Resposta que encontra sua força em cia tendenciosa entre elas, isto é, não é uma
apenas uma ou poucas observações. variável de confundimento.
R. Sistêmica- Ver resposta por coerência em V. resposta Uma variável tida hipotetica-
rede. mente como influenciada pelos os valores da
R. por Coerência em Rede- Resposta cuja variável denominada variável preditora (o que
força ou fraqueza está no grau de coerência será estabelecido durante o estudo.)
entre ideias relacionadas tomadas como um V. Externa- Uma variável que não está no
conjunto. O mesmo que Resposta Sistêmica. modelo em questão, mas que pode interferir
Tabela EPR- Formato de entrada de dados em sobre o estudo, seja como variável de confun-
planilhas no qual as entidades estão nas linhas dimento ou como variável de ruído.
e as propriedades nas colunas. Cada entidade V. em Estudo- As variáveis diretamente en-
aparece apenas uma vez na planilha. volvidas na questão e que estão no modelo
Teste estatístico- Uma decisão sobre a valida- sendo testado.
de de uma hipótese a partir de critérios pré- V. Fixa- Uma variável cujo valor ou valores
estabelecidos utilizando algorrítimos matemáti- foram pré- determinados para o estudo.
cos desenvolvidos para diferentes situações. V. Livre Uma variável cujos valores não fo-
T. Bicaudal- Teste estatístico com hipótese ram pré- determinados para o estudo.
nula assumindo uma igualdade entre os níveis V. preditora- Uma variável tida hipotetica-
da variável preditora. mente como um fator que influi sobre os valores
T. Não Paramétrico- Uma categoria de testes da variável denominada variável resposta (o
com premissas menos exigentes, mas com que será estabelecido durante o estudo.)
poder relativamente baixo. V. Neutra- Uma variável que não influi sobre
T. Paramétrico- Uma categoria de testes com a variável preditora nem sobre a variável res-
premissas mais exigentes, mas poder relativa- posta.
mente alto e alta capacidade de descrição. V. Pré-Explicativa- Uma variável que influi
T. Unicaudal Teste estatístico com hipótese sobre a variável preditora, mas não tem um
nula assumindo uma desigualdade entre os efeito sobre a variável resposta, exceto pela sua
níveis da variável preditora.. influência sobre a primeira.
Transformação de dados- Operações mate-
máticas frequentemente utilizadas para trans-
formar variáveis de forma a se obter condições
dentro de premissas de testes paramétricos.
Variável: Uma propriedade dentro de um estu-
do de relações
V. de Caminho- Variáveis que se encontram
entre duas variáveis extremas dentro de uma
111
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
113
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
114
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
capítulo
Pseudoreplicação ou pseudorepetição
Completar exercícios Cap.5; Ajustes sobre Ruidos tendenciosos e não tendenciosos;
Complementar com livro verde; Ajustes apostila prática para R e Rcmdr;
Verificar
Indutivismo enumerativo: Não se sustenta bem logicamente. Ou podemos dizer que é uma evidência
pouco satisfatória. Não podemos “provar” uma hipótese com inúmeras evidências favoráveis, basta uma
desfavorável para derrubá-la. Você não pode provar a inocência de uma pessoa com vários filmes dela
se portando bem, basta um vídeo dela roubando para derrubar sua inocência. Não pode provar que aqui
não haverá terremotos com base na ausência em milhares de anos. Se você acha que continuará sen-
do, tem de explicar o porquê. (E.g. meio de placa tectônica.). Precisamos de hipóteses que ligam dife-
rentes aspectos da realidade.
Temos uma mistura de outras visões epistemológicas do que podemos chamar de provar. (Abdução-
“dedução” pela melhor explicação; Prova por Exclusão; Método HD).
Porque acreditamos que o sol nascerá amanhã? 1) Porque sempre nasceu? (indutivismo enumerativo);
2) porque temos uma concepção de terra redonda em rotação aos redor do sol, etc., e levando em conta
toda uma história complexa temos a expectativa que nascerá? (paradigma atual); 3) Porque os Deuses
são piedosos, etc, (um paradigma alternativo); 4) Porque se não for assim, de qualquer forma, eu não
poderia fazer para ajudar, e tento pensar em coisas mais úteis.
115
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
hipótese de medida incorreta, mas é meio esquisito mesmo. Talvez seja melhor não inovar tanto e cha-
mar de possibilidades serem eliminadas.
Reflexão 3- Variáveis operacionais (estão na previsão) e variável teórica (Variáveis que estão na hipóte-
se). (Cap 1 ou 2?). Será que é isto mesmo?
Qual o conteúdo sobre análise de dados que deve ser dominado por estudantes de graduação, de pós-
graduação e por pesquisadores na área de Ciências Biológicas?
116
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
4-
5-
Este livro foi desenvolvido ao longo de mais de 10 anos ministrando aulas de bioestatística aplicada em
graduação e pós-graduação na Universidade Federal do Amazonas e no INPA.
Proposta
Graduação: Conceitos Fundamentais (técnicos e filosóficos), Estatística Univariada e Bivariada, uso de
pacotes estatísticos.
Pós Graduação: Regressão Múltipla, Regressão Logística; Estatística Multivariada e Modelagem. Uso
da plataforma R (nível fundamental e médio).
Pesquisador: Conhecimento de opções diversificadas de análises (ainda que sem o domínio de todas).
Algumas opções de aprofundamento. Análise de caminhos. Estratégias (éticas) de publicação; Coorde-
nação de grupos de pesquisa; Tomada de decisões. Uso da plataforma R em nível avançado I (Uso de
scripts pré definidos) e avançado II (desenvolvimento de scripts).
117
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
118
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
Cap 5- Diversidade
5.1- Ecologia e a diversidade de testes
5.2- Testes de diferença com uma variável
5.3- Testes de diferença com duas variáveis
5.4- Testes de diferença em blocos
5.5- Testes multivariados
5.6- Testes de semelhança com uma variável
5.7- Testes de semelhança com duas variáveis
5.8- Premissas de testes paramétricos
5.9- Transformação de dados
5.10- Contrastes
Cap. 6- Planejamento
6.1- Experimental versus amostral
6.2- Esquemas experimentais
6.3- Ilustrando a incerteza em estudos amostrais
6.4- Mapas conceituais
6.5- Abordagens amostrais
6.6- Abordagens quase experimentais
6.7- Abordagens amostrais com blocos
6.8- Independência pela distância
6.9- Abordagens multianálises
119
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
120
A Condução da Análise 2014/1
© Thierry R. Gasnier/ Universidade Federal do Amazonas
121