Você está na página 1de 59

Estatstica Prtica para Docentes e Ps-Graduandos

de Geraldo Maia Campos

Prefcio
Que minhas primeiras palavras sejam para explicar por que este livro foi escrito, e por que o
escrevi da maneira como ele se apresenta. Ele no surgiu evidentemente de nenhuma
inspirao momentnea. Pelo contrrio, fruto de anos de meditao e a amparar-me tenho a
experincia de mais de vinte anos dedicados orientao e elaborao da anlise estatstica
de muitas centenas de trabalhos de pesquisa, tanto teses como artigos para publicao, e tanto
de minha prpria autoria como de outros pesquisadores, muitos destes bastante experientes
em pesquisa, mas comumente pouco versados em Estatstica. Nesses anos todos, eu era
freqentemente fustigado sempre pela mesma intrigante pergunta: por que teriam as pessoas
tanta dificuldade em entender e em aplicar os mtodos estatsticos, que a mim me pareciam
to lgicos e to simples? Cheguei concluso de que o problema da Estatstica deveria ser o
mesmo da Matemtica - que a grande maioria dos pesquisadores que a mim recorriam
(geralmente da rea biolgica) ia declarando logo de incio detestar cordialmente. Essa
averso generalizada Matemtica estendia-se pois Estatstica porque, por algum motivo, o
conceito de Estatstica parecia-lhes estar intimamente ligado ao de Matemtica. Isso talvez at
seja verdadeiro para quem se dedica a criar, desenvolver ou aperfeioar mtodos e testes
estatsticos, ou at mesmo para quem pretende programar esses testes em computador. Mas
no o para aqueles que so apenas usurios dos mtodos e testes estatsticos, e no os seus
idealizadores ou programadores. Nesse caso, por que a ojeriza generalizada Estatstica? E
por que a maioria das pessoas no conseguia entender os seus mtodos e a sua lgica, no
obstante todas j tivessem feito um ou outro curso de Estatstica em sua vida, s vezes at
mais de um? Por que seria a Estatstica considerada assim to dificil? Cheguei concluso de
que, se a Estatstica no era na verdade to difcil, ento era fatal concluir que, se os
estudantes no conseguiam entend-la, era porque deveria estar sendo ensinada de uma forma
incorreta. Mas, se estava sendo mal ensinada, qual seria a melhor maneira e o modo mais
correto de faz-lo? Muitas horas de meditao levaram-me por fim a desenvolver um mtodo
de ensino da Estatstica, com base nos procedimentos que vinha adotando ao longo dos muitos
anos em que atendi aos que me procuravam para ajud-los a resolver problemas de Estatstica
relacionados com a interpretao dos resultados de seus experimentos. Tratava-se de pessoas
provindas das mais diversas reas do conhecimento humano, de modo que me via forado a
fazer muitas perguntas, para tentar entender o que cada uma pretendia com sua pesquisa.
Assim, acabei descobrindo algo muitssimo importante: para poder ajudar algum de uma
forma eficaz, foroso conhecer o seu trabalho tanto quanto ele prprio, ou provavelmente
at mais do que ele. Desse modo, com base nas perguntas que fazia, e nas respostas que
costumava receber de meus consulentes, acabei aprendendo onde residiam as dvidas da
maioria das pessoas no afeitas aos mtodos estatsticos, e o que deveria ensinar-lhes, para
que futuramente fossem capazes de resolver elas prprias os seus problemas. Esse mtodo
muito simples: consiste apenas em ensinar alguns poucos conceitos fundamentais e, a partir
destes, traar um roteiro lgico que habilite as pessoas no propriamente a deduzir frmulas
ou a realizar clculos matemticos, mas sim a reconhecer o modelo matemtico em que se
enquadram os seus experimentos e, com base nessas premissas, a decidirem elas mesmas
sobre qual o teste estatstico mais adequado ao tratamento estatstico dos seus dados
experimentais, a fim de poderem interpretar corretamente os seus resultados, evidenciar o seu
verdadeiro valor e a sua real importncia e, finalmente, tirar deles concluses substanciais,
pertinentes e relevantes. Esse pois o objetivo deste livro.

2
1. A primeira pergunta
A primeira pergunta que um estaticista faz ao seu consulente e que este deveria estar apto a
responder esta: Qual (ou o qu) a sua varivel? Parece fcil, mas posso garantir, com
base em minha experincia pessoal de muitos anos, que poucos daro uma resposta correta a
essa indagao to simples. Alguns diro coisas como esta: "Usei trs marcas diferentes de
gessos, dois mtodos diferentes de manipulao e quatro propores diferentes de gua / p"
ou qualquer coisa semelhante, que varia conforme o campo de atividade do pesquisador.
Assim, na opinio do pesquisador do exemplo acima, estaramos diante de um experimento
com trs variveis: a marca do gesso, a tcnica de manipulao e a proporo gua / p.
Porm, na verdade, nada disso constitui a varivel do trabalho em questo. Mas bastante
comum que, quando o estaticista diz isso ao seu consulente, este arregale os olhos de espanto.

A identificao da varivel.

No entanto, a identificao da varivel deveria ser o primeiro passo na realizao de qualquer


trabalho de pesquisa e de fato , e todo pesquisador sabe perfeitamente qual essa
varivel. Todavia, a sua falta de vivncia estatstica geralmente impede que ele a identifique
como tal. Falta-lhe um roteiro lgico, um caminho bem definido, uma orientao clara, que
ele possa seguir, sabendo perfeitamente o que faz e por que faz. O planejamento estatstico de
uma pesquisa deve delinear-se quando ainda na fase de elaborao do projeto de pesquisa (ou
do plano de trabalho), pois j nesse momento o investigador deve pensar sobre qual
tratamento estatstico aplicar futuramente aos seus dados experimentais, para conseguir
resultados, tirar concluses, e obter respostas s indagaes iniciais que motivam e justificam
a realizao dos seus experimentos. Voltando pergunta inicial, bem provvel que o
consulente s entenda a pergunta de seu conselheiro estatstico quando este a reformular e
indagar: Afinal, o que foi que voc mediu (ou contou, ou pesou, ou qualquer coisa do mesmo
gnero)? Ento, considerando ainda o mesmo caso dos gessos que estamos tomando como
exemplo, o pesquisador dir categoricamente: "Eu medi a dureza dos corpos-de-prova de
gesso, construdos com cada marca de gesso, cada tcnica de manipulao e cada proporo
gua / p!".Eis a, finalmente, a verdadeira varivel do experimento: o grau de dureza dos
corpos-de-prova de gesso! A sua varivel portanto precisamente aquele elemento que

3
permite a comparao entre todas as combinaes possveis das marcas de gesso, tcnicas de
manipulao e propores de gua/p utilizadas na pesquisa.

A varivel nica e o denominador comum.

A varivel do experimento, portanto, tem necessariamente de ser nica, porque s assim


poder servir como um denominador comum no confronto entre tudo aquilo que se deseja
comparar numa pesquisa, seja ela qual for. Mas o que vem a ser um denominador comum?
Apesar de ter jurado que no falaria em Matemtica neste curso, vou responder a essa
pergunta com outra pergunta, de ordem puramente aritmtica: qual das duas fraes abaixo
representa a grandeza maior?

E agora, entre as duas novas fraes abaixo, qual seria a de maior grandeza ?

Agora sim, tomou-se muito fcil garantir que a segunda frao maior do que a primeira,
mesmo que os nmeros envolvidos no segundo exemplo sejam muito maiores que os do
primeiro e isso sem precisar fazer mais do que um simples exame visual das duas fraes.
Mas... por que seria assim? Na verdade as duas fraes do primeiro conjunto so exatamente
iguais s duas fraes do segundo conjunto. A nica diferena que, neste ltimo, as fraes
foram reduzidas ao mesmo denominador, calculando-se o seu denominador comum, uma
tarefa matemtica elementar, que aprendemos no curso primrio, ao estudarmos fraes
ordinrias. A varivel de um experimento pois o denominador comum ou seja, o termo
de comparao que permite cotejar seja l o que for que queiramos comparar. Por isso tem
de ser nica ou ento cairamos no caso do primeiro conjunto de fraes ordinrias mostrado
em nosso exemplo matemtico, em que os denominadores so diferentes.

Fatores de variao.

Muito bem, mas se, na pesquisa sobre gessos que estamos adotando como exemplo no
presente captulo, a varivel a dureza dos corpos-de-prova, o que seriam afinal as marcas de
4
gesso, as tcnicas de manipulao e as propores gua / p? evidente que tudo isso
importante, ou no seria considerado na pesquisa. Na verdade, so exatamente esses fatores
que fazem com que a varivel dureza realmente varie. So portanto fatores de variao.Os
fatores de variao, ao contrrio da varivel, podem ser mltiplos, no havendo teoricamente
um limite para o seu nmero. A experincia, porm, bem como o bom-senso que costuma
dela advir, aconselha que esse nmero no deva ser superior a trs, e a razo disso ser
analisada quando se falar sobre algo muito importante em Estatstica, que so as interaes
entre os diversos fatores de variao.

Os dois primeiros passos.

Resumindo o que foi dito at agora, podemos finalmente indicar os dois primeiros passos a
serem dados na preparao da anlise estatstica dos dados experimentais de uma pesquisa,
seja esta qual for, esteja ela ainda na fase inicial de planejamento, ou j no seu final, com
todos os experimentos realizados e todos os dados experimentais obtidos e convenientemente
anotados nos protocolos elaborados para o registro das observaes. Esses dois passos iniciais
so:

1 passo - Identificao da varivel,

2 passo - Identificao dos fatores de variao.

As repeties (ou rplicas).

Contudo, esses dois elementos varivel e fatores de variao no so os nicos que


devem ser definidos logo no incio de um experimento. H ainda outro, de capital
importncia, que muitas vezes constitui uma verdadeira dor de cabea para o pesquisador: o
nmero de repeties (ou rplicas) a ser adotado nos experimentos. Alis, preciso dizer que
uma das indagaes que os estaticistas mais ouvem de seus consulentes, tanto de
pesquisadores, como de ps-graduandos, e at mesmo dos orientadores destes, esta: qual o
nmero ideal de repeties num experimento, para tornar confiveis os resultados e sua
interpretao estatstica ? Pois bem, vamos responder com a mais absoluta certeza e segurana
a essa pergunta: no existe tal nmero ideal de repeties! Nesse caso, diro os leitores deste
texto, completamente atnitos e decepcionados, o que determinaria qual o nmero de
repeties a ser adotado num experimento? A resposta a esta reformulao da mesma
pergunta ser dada mais adiante, e no agora, a esta altura deste curso, pois na verdade ainda
5
h muita coisa importante a ser comentada, antes de chegarmos a esse detalhe. Um detalhe,
alis, importantssimo, como se ver mais frente, porque sem repeties muito provvel
que a Estatstica, tal como a conhecemos hoje, nem sequer existisse.!

2. Tipos de variveis
Variveis contnuas e discretas.

Grandezas como comprimento, rea, volume, peso, tempo, propores, porcentagens,


ngulos, valores das funes trigonomtricas, temperatura, etc., que num determinado
intervalo podem tomar quaisquer valores, sejam estes inteiros ou fracionrios, so chamadas
variveis contnuas. Mas grandezas outras, tais como a contagem de pessoas, a soma do
nmero de pontos no lanamento simultneo de trs dados, o nmero de culturas bacterianas
positivas, o nmero de respostas sim, ou de respostas no, o nmero de gols por rodada de um
campeonato de futebol, e assim por diante, no admitem valores fracionrios, e por isso so
denominadas variveis discretas, ou seja, variveis que s podem variar por unidades inteiras.
Todavia, no mesmo exemplo dos gols em partidas de futebol (por exemplo), a mdia de gols
por partida de cada equipe uma varivel contnua, porque a mdia pode tomar valores
intermedirios, fracionrios, ao passo que o nmero de gols, pura e simplesmente no admite
fragmentos de gols, que devem ser contados por unidades inteiras, sendo pois, neste caso,
uma varivel discreta. Esses tipos de variveis podem ambos ser utilizados em Estatstica,
mas o simples fato de a varivel de um experimento pertencer a um ou outro tipo j constitui
um fator de seleo para a indicao de um ou de outro grupo de testes. preciso pois definir
tambm em qual desses grupos a varivel de um experimento se encaixa.

Variveis ordenadas.

Mas os tipos de variveis no se esgotam com esses dois, que na verdade so os mais
comuns porm no os nicos. De fato, pesquisas existem em que a nica caracterstica dos
dados experimentais que poderia ser usada para classific-los o fato de eles poderem ser
ordenados, de forma crescente ou decrescente. o caso, por exemplo, de um experimento em
que se queira avaliar a intensidade dolorosa, ou a positividade de um teste para sfilis ou
qualquer outra doena, usando grupos de sinais (+) para graduar a dor ou a positividade do
teste: (++++) maior que (+++) maior que (++) maior que (+), alm do caso negativo (-).

6
Os escores (variveis subjetivas).

Um recurso muito usado nesse caso para quantificar os dados substituir os sinais por
nmeros: 4, 3, 2, 1 e 0. Esse tipo de graduao (ou de notas, ou de escores) tambm bastante
usado, quando os dados experimentais traduzem apenas uma impresso subjetiva ou a opinio
pessoal visual, por exemplo de um grupo de observadores a respeito de um fenmeno
qualquer que esteja sendo estudado. Na opinio do autor destas linhas os escores, dada a sua
natureza subjetiva, no uma varivel muito forte, mas situaes e tipos de pesquisa h em
que no h alternativa seno us-los.

Variveis nominais.

Alm disso, as variveis podem ser tambm nominais, como em experimentos que
envolvem perguntas que s admitem duas respostas: sim ou no. Tambm neste caso, os
dados nominais acabam se tornando numricos quando se consideram o nmero de respostas
sim e o de respostas no. Isso significa que, mesmo quando a pesquisa envolve dados de
natureza apenas qualitativa, esses dados tero forosamente de ser transformados em dados
quantitativos, para poderem ser analisados estatisticamente.

Dependncia ou independncia dos dados.

Outra caracterstica importante dos dados experimentais, que deve ser levada em conta, se
eles so independentes ou vinculados (dependentes), que sero comentados mais adiante, com
maiores detalhes.

O terceiro passo.

necessrio, pois, saber tambm, desde o incio da pesquisa, quais as caractersticas e qual
o tipo de varivel utilizado, porque essas informaes iro sem dvida condicionar o uso de
um ou de outro grupo de testes estatsticos, por ocasio do tratamento dos dados
experimentais, com vistas interpretao correta dos resultados da pesquisa. Este seria
portanto o terceiro passo de nosso roteiro para o planejamento estatstico:

3 passo - Identificao do tipo de varivel utilizado

7
3. As repeties
Experimento com uma nica observao.

Imaginemos que, num experimento qualquer, se fizesse apenas uma nica observao. Esse
experimento, evidente, no teria um valor numrico mdio, ou uma mdia, porque no
haveria valores que se pudessem somar, nem um nmero pelo qual a soma desses valores
pudesse ser dividido para calcular essa mdia. Enfim, em ltima instncia, a soma dos dados
(digamos assim) seria igual ao prprio valor nico, e o nmero de dados seria 1, de forma que
o valor do dado dividido por 1 seria o seu prprio valor original. Levando esse raciocnio ad
absurdum, diramos ento que o valor do dado seria exatamente igual ao valor da mdia. Isso
seria timo, poderia pensar algum menos avisado. No, no seria. Na verdade, seria pssimo,
at mesmo desastroso. Isto porque, se o valor medido estivesse errado, tudo mais estaria
tambm errado, inclusive quaisquer eventuais concluses que se pudessem tirar desse
resultado falso.

Experimento com mais de uma observao.

Todavia, se o nmero de observaes do mesmo fenmeno fosse aumentado para 2, ou 3 ou


10, ou para qualquer outro nmero maior do que 1, o pesquisador notaria um fato interessante:
as medidas apresentariam diferenas entre si, mesmo que ele repetisse sempre os mesmos
passos na execuo dos experimentos, e mesmo que usasse sempre o mesmo observador para
executar as medidas. Enfim, haveria diferenas, mesmo que ele fizesse tudo exatamente igual,
desde o comeo at o fim de sua pesquisa. Isso seria pssimo, poderia pensar aquele mesmo
algum que j fizera o comentrio do pargrafo anterior. Mas na verdade ele estaria
novamente enganado, e isso na verdade seria timo. Isto porque, mesmo que um, ou alguns,
ou mesmo todos os valores medidos estivessem errados, o valor mdio desses valores errados
estaria sempre mais prximo do valor real daquilo que estava sendo medido, do que muitas
vezes qualquer dos dados experimentais considerado isoladamente.

A mdia dos valores dos dados experimentais.

Do que foi exposto no item anterior, depreende-se que a mdia tende a aproximar os
valores errados do valor real daquilo que se mede. Isto porque a mdia uma espcie de

8
limite central, para o qual tendem naturalmente a convergir os erros de medida, considerando
que estes podem ser para maior ou para menor, em relao ao valor real daquilo que
medido. Enfim, se no houvesse erro nenhum de medida, todas as medidas efetuadas seriam
iguais mdia, pois no haveria diferenas nem para maior, nem para menor, em relao ao
valor real. por esse motivo que os matemticos chamam a mdia de esperana matemtica,
porque a mdia o valor que se esperaria obter, caso no houvesse erros e todos os valores
medidos fossem iguais.

O nmero de dados.

De tudo o que se exps acima, pode-se concluir que, quanto maior o nmero de repeties,
tanto mais o valor mdio se aproximar do valor real, o que absolutamente verdadeiro.
Porm preciso considerar que o nmero de repeties pode teoricamente estender-se desde 2
at o infinito. Contudo, um nmero infinito de observaes, ou de medidas, absolutamente
impraticvel. Alis, mesmo considerando um nmero de medidas finito porm
demasiadamente grande, ainda que fosse praticvel, no seria todavia prtico.

Amostragem, probabilidade e significncia.

Deve existir portanto um nmero de repeties que, mesmo sendo finito, e por isso mesmo
limitado, seja capaz de permitir que se possam tirar concluses vlidas a respeito de um
fenmeno qualquer que se queira estudar. A Estatstica procurou resolver esse problema pela
associao de duas coisas cujos nomes nos habituamos a ouvir a toda hora, quando lidamos
com testes estatsticos: a amostragem e a probabilidade. A significncia dos valores
calculados pelos diversos testes estatsticos que algo tambm comumente ouvido e
discutido em Estatstica em ltima anlise no mais do que a probabilidade de serem
corretas as concluses tiradas a partir de amostras de dimenses limitadas, reduzidas, retiradas
de conjuntos de dados s vezes infinitamente maiores do que a prpria amostra analisada
pelos testes.

O quarto passo.

A esta altura do planejamento experimental, poder-se-ia acrescentar mais um passo em


nosso roteiro estatstico:

4 passo - Estabelecer o nmero de repeties.

9
4. As repeties e o experimento-piloto

O nmero mais adequado de repeties.

O estabelecimento do nmero de repeties pe novamente em cena a mesma velha


pergunta: qual o nmero mais adequado de repeties? E a resposta seria ainda a mesma j
dada anteriormente: no existe tal nmero. Pelo menos no existe nenhum nmero mgico
poder-se-ia dizer mesmo cabalstico que pudesse servir indiferentemente a qualquer
experimento. O que h, na verdade, um nmero mais adequado de repeties para cada
experimento um nmero que varia de um experimento para outro, e que precisa portanto
ser calculado para cada um deles.

A variabilidade dos dados experimentais.

Mas como fazer esse clculo? Que leis regem a escolha desse nmero? A isto, sim,
possvel responder: o que rege a escolha do nmero de repeties mais adequado a um
experimento qualquer a variabilidade dos seus dados experimentais. Mas poder objetar
algum se o experimento ainda no foi realizado, como se pode conhecer o seu grau de
variao, ou avaliar a sua variabilidade? precisamente a que entram dois novos elementos
igualmente muito importantes na execuo de qualquer experimento: o experimento piloto e a
verificao preliminar da variabilidade dos dados experimentais.

O experimento piloto.

O experimento piloto aquele que se faz previamente realizao da pesquisa


propriamente dita, e visa a testar o mtodo de trabalho e os processos tcnicos envolvidos na
execuo dos experimentos. Em geral o piloto segue o mesmo plano geral de trabalho, que
orienta a investigao como um todo. Todavia, difere dele num ponto: no nmero de
repeties e o faz exatamente porque, a essa altura, o nmero mais adequado de rplicas
ainda no foi fixado de forma definitiva. No experimento piloto, a varivel a mesma j
definida, os fatores de variao so os mesmos j estabelecidos para a pesquisa, mas em geral
o nmero de repeties pequeno, para no tornar o experimento-piloto muito trabalhoso ou
muito demorado.

O nmero inicial de repeties.

10
bastante comum a escolha de 3 repeties, como um bom nmero para comear. Isto
porque o nmero 3 evita a invariabilidade do nmero 1, foge ao perigo da repetio
coincidente representado pelo nmero 2, e j apresenta alguma variao, a qual no mais das
vezes j suficiente para testar a variabilidade determinada pelos fatores de variao e pelas
prprias repeties.

A variabilidade dos dados no experimento piloto.

A verificao preliminar da variabilidade dos dados experimentais feita aps a execuo


do experimento-piloto. Para isso, faz-se uma anlise de varincia dos dados obtidos nesse
piloto, sem qualquer preocupao quanto ao tipo de distribuio dos dados, e seja l qual for o
nmero de repeties nele fixado. Realizada essa anlise de varincia preliminar, faz-se ento
o teste estatstico para determinar, especificamente para esse experimento, qual seria aquele
misterioso e to procurado nmero mais adequado de repeties.

O nmero mais adequado de repeties.

Esse teste do tipo iterativo e requer um programa de computador, pois de outra forma ele
seria muito demorado e trabalhoso. O teste chamado iterativo porque, partindo do nmero
inicial de repeties do experimento-piloto, ele calcula um novo nmero de repeties, e volta
a introduzir no teste esse nmero calculado, guisa de novo valor inicial, recalculando tudo e
achando outro nmero de repeties. Assim, sucessivamente, vai recalculando at que o
nmero de entrada do teste seja igual ao nmero de sada. Quando essa igualdade ocorre, o
teste dado por terminado, e esse ltimo nmero de repeties constitui o nmero mais
adequado de repeties para aquele experimento. O teste sugere pois que, para aquela
variao detectada pelo experimento-piloto, necessrio aquele nmero mnimo de rplicas,
para que se possam perceber diferenas estatisticamente significantes entre os fatores de
variao estudados

11
5. O experimento fatorial
Uma vez definida a varivel, estabelecidos os fatores de variao, e fixado o nmero de
repeties necessrio para possibilitar a deteco de possveis diferenas significantes entre os
fatores de variao, tem-se perfeitamente delineado todo o plano da pesquisa. A partir dessas
informaes, torna-se possvel conhecer uma srie de detalhes importantes, tanto no que
respeita ao experimento em si como anlise estatstica posterior dos dados.

O nmero total de dados do experimento.

A essa altura da pesquisa, j possvel calcular o nmero total de dados (n) a ser obtido
aps realizados todos os experimentos. Esse nmero fornecido pela multiplicao do
nmero de colunas (c), pelo de linhas (l), pelo de blocos (b), e pelo de repeties (r).
Matematicamente, poderamos represent-lo pela seguinte igualdade:

Em virtude de essa multiplicao ser um produto, ou seja, uma multiplicao de fatores,


esse tipo de experimento chamado de experimento fatorial.

E se faltar um fator de variao na equao?

A expresso matemtica acima transcrita vale sempre, mesmo que falte um ou mais dos
seus fatores. S que, quando falta qualquer dos fatores, este jamais ser igual a zero (0) mas
igual a um (1), uma vez que, se fosse igual a zero (0), o produto todo se anularia, e o nmero
total de dados seria igual a zero. Assim, quando um fator no existe, ele no existe apenas
aparentemente, porque na verdade existe sim, porm possui apenas um elemento, sendo
portanto realmente igual a um (1). Desse modo, se um experimento apresenta apenas um fator
de variao (colunas), alm das repeties (que devem existir sempre), a expresso do nmero
de dados ser fornecida pela igualdade:

que equivale a

12
uma vez que a multiplicao por um (1) no altera o produto. O mesmo ocorre, se houver
apenas dois fatores (colunas e linhas), caso em que o nmero de dados ser:

A nica alternativa que jamais poder ocorrer a existncia apenas de blocos como fator de
variao, porque, por definio, bloco um conjunto de colunas e linhas. Se estas forem
ambas iguais a um (1), a idia de bloco se confundiria com a de coluna, porque haveria ento
apenas um fator de variao. O mesmo pode-se dizer em relao a um experimento que
envolva apenas o fator de variao linhas, uma vez que neste caso seria indiferente colocar as
repeties em cada linha ou em cada coluna.

A distribuio dos dados numa tabela.

Por conveno, ou apenas por hbito, comum reunir os dados da seguinte maneira:

a) em colunas, quando h apenas um fator de variao; b) em colunas e linhas, quando h dois


fatores de variao; e c) em colunas, linhas e blocos, quando h trs fatores de variao.
O protocolo das observaes experimentais.

A determinao do nmero de fatores de variao e do nmero de repeties possibilita ao


pesquisador construir uma tabela de dados, antes mesmo que qualquer desses dados tenha
sido obtido. costume, ao se planejar uma pesquisa, elaborar o chamado protocolo das
observaes, que em ltima anlise no mais que a ficha onde so anotadas todas as
informaes que possam ter interesse na investigao, tais como identificao dos pacientes,
dos corpos-de-prova, ou dos animais de laboratrio, alm de informaes complementares
relevantes, como idade, peso, sexo, etc., informaes essas que variam muito e dependem do
tipo de pesquisa realizada. O protocolo das observaes absolutamente necessrio, porque
ali que fica registrado praticamente todo o andamento da pesquisa. Todavia, o pesquisador
pode elaborar tambm, paralela e simultaneamente, uma tabela vazia de dados, espcie de
grade, onde j est indicado previamente o lugar onde ser colocado o valor numrico
referente a cada um dos dados experimentais, medida que estes vo sendo obtidos na fase
experimental da pesquisa. Assim, quando o experimento chegar ao fim, o pesquisador ter em
mos a sua tabela geral de dados, j completa e acabada.

13
6. A tabela geral de dados

O prprio ttulo deste captulo j sugere claramente que a tabela com os dados
experimentais deva ser abrangente, nica e completa. Ou, em outras palavras, todos os dados
obtidos devem estar contidos numa tabela nica, na qual constem todos os elementos que
compem o fator de variao colocado nas colunas, todos os que compem as linhas, e todos
os que integram os blocos, alm, claro, de todas as repeties. A maneira como esses trs
fatores so distribudos (como colunas, linhas ou blocos) depende muito do espao fsico
disponvel, principalmente considerando que modernamente as tabelas so comumente
elaboradas em computador, nos quais o espao limitado, principalmente no sentido
horizontal da tela do monitor, ou seja em relao ao espao destinado s colunas. Quanto s
linhas e blocos, caso seja necessrio, podem alongar-se no sentido vertical, podendo passar
pgina seguinte, e portanto sem qualquer problema de limitao do espao. O ideal, contudo,
seria que a tabela geral de dados ocupasse apenas uma pgina, pois isso permitiria o exame
visual do conjunto de dados experimentais todos de uma s vez. Isso pode ser conseguido,
inclusive em computadores, pela reduo do tamanho dos caracteres, o que permite escrever
um nmero maior de caracteres por linha, na tela do monitor, e tambm no papel quando a
tabela impressa. Quando o nmero de colunas pequeno, os blocos podero ser colocados
lado a lado (no sentido horizontal, se o espao permitir, de modo que a tabela ter,
verticalmente, a extenso dada pelo nmero de linhas e de repeties. Se o nmero de colunas
da tabela for muito grande, ocupando uma grande extenso horizontal, inviabilizando a
colocao dos blocos lado a lado, estes podero ser colocados no sentido vertical, um
embaixo do outro. Neste caso, a extenso vertical ser dada pelo nmero de linhas
multiplicado pelo nmero de blocos e de repeties. Em suma, confeccionar tabelas , na
verdade, uma questo de prtica, uma vez que esta acaba habilitando o pesquisador a decidir
rapidamente sobre qual a melhor conformao fsica para qualquer tabela de dados que tenha
eventualmente de construir. O que foi dito acima apenas uma sugesto de como comear, a
fim de vir um dia a adquirir essa prtica. A seguir, esto transcritos alguns modelos de tabelas
de dados, identificadas estas por letras maisculas. Por exemplo, tecnicamente, no se pode
dizer que haja diferena entre as tabelas A, B, C e D.

14
A nica diferena entre as tabelas A e B reside no fato de as repeties, na tabela B, terem
sido divididas em dois grupos de cinco, dentro da mesma coluna, ao invs de um s grupo
com todas as dez repeties, como se v na tabela A. A diferena entre essas duas primeiras
tabelas (A e B) em relao s duas outras (C e D) est no fato de as repeties nestas ltimas
terem sido dispostas em linhas, e no em colunas, como nas duas primeiras. Por seu turno, a

15
diferena entre as tabelas C e D est tambm na sua disposio em dois grupos de cinco
repeties para cada linha, na tabela D, e em apenas um grupo com as dez repeties, na
tabela C. A opo por qualquer desses quatro tipos de tabelas apenas uma questo de
convenincia, tal como a disponibilidade de espao em funo do nmero de colunas ou de
linhas, ou a maior facilidade ou comodidade na introduo dos dados numricos no
computador, ou s vezes at mesmo por simples convenincia esttica. Porm, do ponto de
vista puramente tcnico, todos os quatro tipos de tabelas apresentados so aceitveis para esse
modelo matemtico de experimentos, que envolve apenas um fator de variao, esteja este
colocado em colunas ou em linhas. Todavia, por uma espcie de conveno, costume dispor
os dados em colunas, e no em linhas, quando h apenas um nico fator de variao, tal como
se fez nas tabelas A e B. Mas como ficaria uma tabela que envolvesse tanto colunas como
linhas? Imagine-se, por exemplo, um modelo experimental que envolvesse quatro
Tratamentos aplicados a dois grupos de pacientes (Controle e Tratado), com cinco repeties
(pacientes) em cada grupo. Como seria a tabela para esses dados experimentais? Poderia ser
assim:

No caso especfico da tabela acima, essa a configurao mais adequada com os


Tratamentos nas colunas e os grupos experimentais nas linhas. Isto porque, se os Tratamentos
estivessem nas linhas e os Grupos experimentais nas colunas, a tabela ficaria muito alongada
no sentido vertical, e muito estreita no sentido horizontal, tal como uma lingia grfica a
estender-se de cima para baixo ou seja, antiesttica e pouco prtica, uma vez que,
dependendo do nmero de repeties, poderia abranger mais de uma pgina de texto. Mas

16
nada probe que qualquer dos fatores de variao possa ser colocado indiferentemente nas
colunas ou nas linhas. uma simples questo de convenincia grfica. A nica exigncia
que as repeties fiquem reunidas na clula da tabela que corresponde ao cruzamento de uma
linha com uma coluna. Contudo, h ainda mais um elemento que pode complicar a elaborao
de uma tabela de dados: a existncia de blocos, ou seja, de um terceiro fator de variao.
Quando isso ocorre, cada bloco ser uma reedio do modelo para colunas e linhas
reproduzido acima, e envolver tantas novas tabelas (com colunas e linhas) quantos forem os
elementos que compem o fator de variao a que os blocos se referem. Por exemplo:
imagine-se que, alm dos Tratamentos (A, B, C e D) e dos Grupos experimentais (Controle e
Tratado), a pesquisa envolva tambm trs Tempos de observao (1, 3 e 7 dias). Como ficaria
a nova tabela de dados, nesse caso? Ainda nesse caso, o critrio que vigora apenas a
convenincia grfica, para decidir qual fator de variao ser colocado nas colunas, qual
estar nas linhas, e qual ficar nos blocos. , portanto, pura questo de bom-senso, associado
ao bom-gosto, ou ao senso esttico de cada um, os quais podem ser comentados e at
criticados, mas sem dvida jamais ensinados. Na pgina seguinte h uma sugesto para a
construo da tabela com os trs fatores de variao acima mencionados. Essa tabela
ilustrativa foi deixada deliberadamente vazia, sem nenhum dado numrico transcrito, com o
propsito nico de mostrar que uma tabela vazia de dados pode perfeitamente ser elaborada
antes mesmo que qualquer dado experimental tenha sido obtido. medida que a pesquisa vai
se desenvolvendo, os dados iro surgindo e sero anotados na tabela vazia, at preench-la
toda quando do final da pesquisa. Para elaborar a tabela vazia, basta saber e isso sempre
possvel quantos so os fatores de variao, quantos elementos integram cada um deles, e
qual o nmero de repeties estabelecido.

17
Como observao derradeira no que diz respeito s tabelas, e tomando como exemplo a
tabela transcrita acima, preciso esclarecer que se consideram como pertencentes mesma
linha todas as repeties que se referem mesmo Tratamento, incluindo-se a as repeties de
todas as colunas e de todos os blocos desse Tratamento. Da mesma forma, consideram-se
como pertencentes mesma coluna todas as repeties relativas a cada um dos Tempos,
independentemente das linhas e dos blocos a que estejam ligadas. E, por fim, pertencem
tambm ao mesmo bloco todas as repeties de cada um dos grupos (Controle e Tratado, no
caso da tabela que serve de exemplo), sem considerar as linhas e as colunas de cada grupo.
Em resumo: cada Tratamento (linha) teria, na verdade, 30 repeties; cada Tempo (coluna)
teria 40 repeties; e cada Grupo experimental (blocos Controle e Tratado) teria 60
repeties. O produto do nmero de elementos de cada fator de variao pelo nmero de
repeties correspondente d sempre o mesmo nmero, que o nmero total de dados
experimentais: 4 x 30 = 120, 3 x 40 = 120; e 2 x 60 = 120. Esse conceito de repeties em
relao aos fatores de variao importantssimo em Estatstica, pois ele que permite avaliar
o efeito exercido exclusivamente pelo fator de variao sobre o valor numrico da varivel
estudada, ou seja, sobre o valor do dado experimental, separando-o dos efeitos determinados
pelas chamadas interaes, efeitos esses que resultam da associao de cada um dos fatores de

18
variao com os demais, combinao essa que pode muitas vezes alterar o efeito produzido
por qualquer dos fatores de variao, quando considerado individualmente (ou separadamente

7. A fase ps-experimental

A esta altura de nossas consideraes, a varivel e os fatores de variao j foram


identificados, o tipo de varivel foi reconhecido, e a tabela de dados construda e preenchida
com os dados obtidos na fase experimental. E agora? O que fazer com essa tabela e com os
dados numricos nela contidos?

Pequeno retrospecto das fases iniciais

Ficou dito, em captulos anteriores, que o tratamento estatstico deve ser cogitado j nos
primrdios da pesquisa, quando ainda se est na elaborao do seu projeto inicial, ou mesmo
durante a fase de execuo do plano-piloto dos experimentos. De fato, h muita coisa que j
pode ser pensada e estudada nessas fases iniciais, em termos de tratamento estatstico dos
dados. Porm h tambm outros detalhes que somente podem ser considerados aps ter em
mos os dados numricos colhidos nos ensaios. Entre as coisas que podem ser verificadas
ainda na fase inicial da pesquisa est a vinculao, ou independncia, dos dados
experimentais, mas o conhecimento desse pormenor ainda no to relevante a essa altura do
desenvolvimento da pesquisa, ou de seu tratamento estatstico. Mas se-lo- mais adiante,
ocasio em que o assunto ser abordado novamente, tecendo-se ento sobre ele consideraes
mais elaboradas.

A distribuio dos erros experimentais

Muito mais importante, todavia, seria analisar agora a distribuio de freqncias dos dados
experimentais; ou, mais apropriadamente, estudar a maneira como os erros desses dados se
distribuem em torno da mdia. Enfim, preciso saber se a distribuio dos erros
experimentais em torno da mdia normal, ou seja, se o seu histograma de freqncias segue
a configurao geral da curva matemtica conhecida como curva normal.
Mas... podero perguntar os eventuais leitores deste texto, por que isso seria assim to
importante? A resposta : porque os primeiros testes estatsticos, talvez os mais importantes
de quantos foram desenvolvidos pelos estudiosos, tiveram por premissa que a distribuio dos
erros deveria ser normal, ou seja, que ela deveria ter uma distribuio de freqncias
semelhante da curva de Gauss, tambm chamada curva normal ou curva dos erros.

19
Figura 1. Histograma de freqncias de um conjunto de dados experimentais, sobreposto curva normal
matemtica com a mesma media e o mesmo desvio-padro.

Por que curva "normal"?

A denominao curva de Gauss explica-se porque foi esse notvel matemtico alemo
quem encontrou a sua equao matemtica. Da mesma forma, a expresso curva dos erros
tambm se justifica, porque Gauss deduziu a sua equao matemtica precisamente a partir de
estudos realizados sobre a distribuio dos erros de medida em torno da mdia, ou seja, a lei
matemtica que regia a disperso e o afastamento dos valores de medida em relao ao seu
valor mdio; ou, mais exatamente, em relao ao valor real da grandeza medida. Sim, tudo
isso compreensvel. Mas por que essa curva seria chamada normal?
Na verdade, eu no sei nem nunca li qualquer explicao racional para isso. Acredito,
porm, que essa denominao tenha algo a ver com os fenmenos naturais, tal como ocorre
com outras curvas matemticas, que traduzem fenmenos normalmente encontrados na
natureza. o caso, por exemplo, da curva chamada catenria (do latim catena = cadeia,
corrente), cuja equao expressa matematicamente a curva natural descrita por uma corrente
metlica, quando presa pelas extremidades e submetida ao do prprio peso.
Agora, caros leitores, mentalizem, por exemplo, uma ampulheta e pensem: qual seria a
equao matemtica que descreve o perfil do montculo de areia que flui dentro dela e se
deposita no seu compartimento inferior? Ou qual seria a equao matemtica capaz de
descrever o perfil do montculo que se forma, quando se despeja sobre o solo um saco de
gros de um cereal qualquer? Eu pessoalmente estou convencido de que, muito
provavelmente, seria uma curva dessa famlia de curvas conhecidas como curvas normais.
Talvez derive da a denominao normal atribuda a esse tipo de curva

9. Os valores de mdia e do desvio-padro


O que significa uma mudana no valor da mdia?

Na representao grfica da curva normal, a variao do valor da mdia, em termos


prticos, corresponde a um deslocamento da figura ao longo do eixo horizontal das
20
coordenadas cartesianas: para a esquerda, se a mdia for negativa; ou para a direita, se o seu
valor for positivo. Porm a figura apenas se desloca para um ou outro lado, sem todavia
provocar qualquer alterao na sua configurao geral.

E uma mudana no valor do desvio-padro?

Entretanto, o mesmo no ocorre quando se altera o valor do desvio-padro, ou seja, dos


pontos de inflexo da curva. De fato, mudanas no valor do desvio-padro tendem a provocar
deformaes na configurao grfica da curva normal. A esse fenmeno, d-se o nome de
curtose (palavra de origem grega, que significa curvatura ou convexidade) que, em Estatstica,
vem a ser uma espcie de medida que avalia o grau de achatamento da curva normal.

Os trs tipos de curtose.

Quando a curva normal tem desvio-padro igual a 1, tal como ocorre na curva matemtica
terica, ela chamada de mesocrtica (do grego mesos = mdio) + crtica.
Todavia, quando o desvio-padro tem valores entre 0 e -1, ou entre 0 e +1, a curva torna-se
espigada, alta e estreita, porque os dados tendem a aglomerar-se junto mdia, sendo
exatamente esse pormenor que determina o pequeno valor do desvio-padro. Quando ocorre
esse alongamento vertical no centro da curva normal, e ao mesmo tempo o seu estreitamento
no sentido horizontal, a curva dita leptocrtica, do grego (lepts = delgado, fino) + crtica.
Por seu turno, se os dados apresentarem valores muito afastados do valor da mdia, esse
detalhe faz aumentar por sua vez o valor do desvio-padro, provocando ao mesmo tempo o
alongamento horizontal da curva normal e o seu achatamento no sentido vertical. A curva
normal ento dita platicrtica, palavra igualmente derivada do grego ( platys = largo, amplo)
+ crtica.
Essas deformaes tendem a dificultar, ou mesmo a impedir, comparaes entre os efeitos
dos fatores de variao sobre a varivel estudada, de tal forma que muito comumente
preciso realizar transformaes dos dados, para tornar factvel a sua anlise estatstica.

A transformao dos dados em valores de z.

Uma dessas transformaes, chamada em valores de z, tem a propriedade de transformar


os parmetros de qualquer distribuio de dados, de tal modo a que a mdia se torne igual a
zero e o desvio-padro igual a 1 (tal como na normal matemtica), o que corresponde, em
termos grficos, a arrastar a curva ao longo do eixo horizontal, de modo a centraliz-la no
ponto x = 0 das coordenadas cartesianas. Essa transformao em valores de z se faz pela
relao: zi = (xi - m) / s, onde zi o novo valor do dado, xi o seu valor original, m a mdia
da amostra, e s o seu desvio-padro. Essa transformao particularmente til quando se
realizam testes para verificar se a distribuio dos erros experimentais normal, uma vez que,
aps subtrada a mdia geral de todos os dados amostrais, o que sobra so as diferenas entre
os dados originais (xi) e a mdia (m) ou, em outras palavras, os erros experimentais, cuja
distribuio e normalidade se deseja estudar e verificar.
Como h dados maiores e dados menores que a mdia, os novos valores sero negativos
quando os dados forem menores que a mdia, e positivos quando maiores que ela. Em
conseqncia, a soma dos dados zi positivos ser igual a soma dos dados zi negativos, o que
produz uma soma de dados igual a zero, soma essa que, dividida pelo nmero de dados (n),
leva a uma mdia tambm igual a zero: 0 / n = 0.
Por sua vez, como todas as diferenas (xi - m) so divididas pelo desvio-padro (s), quando
essa diferena (ou erro experimental) for igual ao prprio desvio-padro (s), o resultado ser
21
um valor de zi = 1, ou seja, s / s = 1, exatamente como na curva normal padro.
Em suma: a transformao dos dados em valores de z faz com que eles passem a
representar diretamente os erros experimentais, o que torna possvel o estudo de sua
distribuio em torno da mdia, possibilitando calcular a probabilidade de essa distribuio
ser normal. Isso se faz pela avaliao do grau de aderncia, ou de ajuste, entre as duas
distribuies: a experimental e a normal matemtica padro (ou distribuio terica de
Gauss).

Item especial para quem gosta de matemtica.

Em pginas anteriores, foram feitas duas assertivas, a respeito da curva normal, que so
muito importantes:

1. que a mdia o ponto onde a funo atinge o seu valor mximo, ou seja, onde a
freqncia da distribuio atinge o seu ponto mais elevado; e
2. que o desvio-padro marca o lugar onde a curva normal muda de cncava para
convexa, ou seja, onde sofre uma inflexo.

Essas assertivas no so afirmaes vazias, mas podem ser facilmente demonstradas


matematicamente.
Embora eu tenha prometido, tanto aos senhores leitores como a mim mesmo, que no
falaria em Matemtica neste texto, pus-me a pensar que pode haver um ou outro curioso que
poderia interessar-se por esses detalhes. Por isso, resolvi incluir no Apndice que h no final
deste texto, a demonstrao matemtica dessas afirmativas. Para entend-las preciso
conhecer alguma coisa de clculo diferencial.
O processo simples: para comprovar que a mdia o valor mximo da funo normal,
basta derivar a funo (derivada primeira), igualar a derivada a zero, e isolar o valor de x. O
resultado mostra que isso ocorre quando x = m, ou seja, quando x igual mdia.
Por sua vez, para comprovar que o desvio-padro marca os pontos de inflexo da curva
normal, basta por sua vez derivar novamente a prpria derivada, e igualar esta segunda
derivada tambm a zero, isolando-se o valor de x. O resultado demonstra que os pontos de
inflexo da curva ocorrem quando x = m s, ou seja, quando x igual mdia o desvio-
padro. Aos que duvidarem, convido-os a consultar a demonstrao matemtica, no captulo
aqui referido como Apndice.

O roteiro, passo a passo, at este ponto.

Retomando, porm, o nosso curso prtico de Estatstica, vamos recapitular os passos do


roteiro que vimos traando, captulo aps captulo. Esses passos, at agora, foram:

1 Passo - Identificar a varivel;


2 Passo - Identificar os fatores de variao;
3 Passo - Identificar o tipo de varivel utilizado;
4 Passo - Estabelecer o nmero de repeties;
5 Passo - Construir uma tabela vazia para os dados (ainda no obtidos);
6 Passo - Preencher essa tabela vazia com os dados j obtidos;
7 Passo - Completa a tabela, testar a normalidade da distribuio.

Qual seria o antnimo de curva normal?

22
Em geral, os testes utilizados para a finalidade de verificar a normalidade (ou no-
normalidade) da distribuio dos dados experimentais apenas esclarecem qual a probabilidade
de a distribuio testada ser normal, mas quem decide se essa probabilidade aceitvel ou no
o prprio pesquisador. Comumente, adota-se o limite de 5 por cento para a aceitao da
normalidade, mas quanto maior for essa probabilidade, tanto melhor. O que no se pode fazer
de modo algum aceitar probabilidades menores que 5 por cento, pois isso indicaria que a
diferena entre a distribuio experimental significantemente diferente da distribuio
normal padro, ao nvel de 5 por cento de probabilidade.
Observem os meus leitores que o oposto de curva normal no curva anormal, mas sim
curva no-normal, e o mesmo se pode dizer em relao distribuio normal.

Condies complementares normalidade.

Realizados os testes para julgar da normalidade (ou no-normalidade) da distribuio dos


erros amostrais, se essa normalidade for comprovada, ficaria autorizado o uso dos testes
chamados paramtricos. Ficaria sim, assim mesmo no condicional, porque h ainda uma
condio, talvez at duas ou trs, que devem ser preenchidas, antes da deciso final. Essas
condies complementares so a homogeneidade das varincias, a aditividade dos efeitos
provocados pelos fatores de variao sobre a varivel, e a independncia dos erros.
Fica pois aqui mais uma pergunta: o que fazer, se a distribuio no for normal, se no
houver homogeneidade das varincias, ou se os efeitos no forem aditivos? H duas
alternativas: 1) ou tentar uma transformao dos dados originais; ou ento 2) utilizar testes
que no levam em conta os parmetros amostrais (mdia e desvio-padro), ou seja, usar a
estatstica por isso mesmo chamada no-paramtrica

10. O erro experimental


Composio do valor numrico do dado experimental.

Embora o dado experimental parea um nmero simples, na verdade trata-se de uma


entidade bastante complexa, onde h muita coisa embutida, que preciso decompor e estudar,
a fim de entender a sua verdadeira natureza. Por exemplo, num experimento fatorial com trs
fatores de variao, podemos representar cada dado numrico pela seguinte igualdade:

Nessa expresso, Xi (ou igsimo X) cada um dos dados numricos do experimento,


(mi) a mdia geral da amostra, (alfa), (beta) e (gama) so as variaes determinadas
pelos trs fatores principais de variao, as combinaes (alfa-beta), (alfa-gama),
(beta-gama) e (alfa-beta-gama) representam as variaes provocadas pelas
interaes entre os trs fatores de variao, e finalmente epsilon a variao relativa ao erro
experimental casual.

A mdia amostral e os erros experimentais.

Essa expresso demonstra que a mdia geral est presente em todos os dados da amostra,
na qualidade de grandeza fixa, constante, ao passo que todos os demais smbolos representam
grandezas variveis. Isso quer dizer que, se no houvesse variao alguma, todas estas
grandezas variveis seriam iguais a zero e, em conseqncia, todos os dados seriam iguais
23
mdia. Desse modo, fica evidente que todas essas grandezas variveis, por representarem
diferenas em relao mdia, devem ser consideradas tambm erros experimentais.

Erros controlados.

S que as variaes determinadas pelos fatores de variao e suas interaes representam


erros introduzidos intencionalmente no experimento, porque exatamente as diferenas
detectadas nessas variaes que se deseja estudar. Por esse motivo, tais variaes intencionais
so chamadas de erros controlados e so chamados controlados porque o prprio
pesquisador quem determina quais e quantos sero os fatores de variao e quais e quantos
sero os elementos componentes de cada um dos fatores.

Erros no-controlados, ou casuais.

Todavia, alm dos erros ou variaes, propositalmente introduzidos, e portanto controlados,


existe tambm um fator de erro no-controlado, imprevisvel, que independe da vontade do
pesquisador, e que, na equao acima transcrita, est indicado pela letra grega epslon.
Esse erro casual, no-controlado, pode decorrer de uma srie de circunstncias, que
envolvem as causas mais diversas, que vo desde o fator individual, representado pela prpria
habilidade pessoal do observador, ou do tcnico que realiza as medidas, at erros prprios do
equipamento utilizado, ou de condies climticas e ambientais, entre muitas outras.
Enfim, as causas do erro no-controlado podem ter origens variadas, podendo ser de ordem
operacional, de mtodo, de arredondamento dos dados, de aproximao de alguns dos valores
envolvidos, alm de outras eventuais que, por serem imprevisveis, s vezes nem sequer so
cogitadas, a no ser pelos efeitos que provocam, mas sempre depois que j ocorreram. O erro
no-controlado , antes de tudo, inevitvel em qualquer experimento, e ocorre toda vez que se
faz uma medida, qualquer que seja a natureza desta.
Na verdade, o que se pode fazer e mais do que isso, o que se deve fazer no praticar
erros grosseiros, que estes sim so visveis e por isso mesmo podem e devem ser controlados
e, tanto quanto possvel, evitados.

Importncia do erro casual, no controlado.

No entanto, apesar de sua inevitabilidade, o erro casual, no-controlvel, tremendamente


importante em Estatstica, porque ele que serve como termo de comparao para julgar os
demais erros, ditos controlados, que so precisamente aqueles que verdadeiramente
interessam ao pesquisador, e que justificam a existncia da investigao cientfica. Esse tema
ser novamente focalizado mais adiante, quando de nossas consideraes sobre significncia
estatstica.

11. Aditividade e homogeneidade


Aditividade dos efeitos dos fatores de variao, e homogeneidade das varincias.

O termo varincia j apareceu diversas vezes neste texto. O que seria varincia, afinal de
contas? Eu poderia dizer que varincia o quadrado do desvio-padro. Contudo ressalvaria
que essa afirmativa, ainda que matematicamente correta, todavia estatisticamente incorreta.
Isto porque, na verdade, o que se calcula primeiro a varincia da amostra. S depois que se
extrai a sua raiz quadrada, para conhecer o desvio-padro, o qual, por isso mesmo, tem duplo
sinal: + ou - (s).
24
Varincia e graus de liberdade.

Tecnicamente, a varincia vem a ser a soma de todos os desvios dos dados amostrais, em
relao mdia, elevados ao quadrado, soma essa que depois dividida por (n-1), ou seja,
pelo nmero de graus de liberdade da amostra. Graus de liberdade, por sua vez, no mais
que o nmero total de dados da amostra, menos 1. Por que esses desvios so elevados ao
quadrado? E por que se divide por (n-1), e no simplesmente por n? As respostas a essas duas
perguntas parecem-me simples:

1. elevam-se os desvios ao quadrado porque, em relao mdia, muitos deles so


negativos e outros positivos, de modo que se fossem simplesmente somados, o
resultado seria zero, tal como ocorre com a mdia desses mesmos desvios. Elevando-
se cada um deles ao quadrado, porm, todos se tornam positivos, inclusive os
negativos.
2. os graus de liberdade indicam os espaos entre os dados; e so iguais a (n-1) porque os
espaos entre eles esto sempre uma unidade abaixo do nmero dos prprios dados.
Para comprovar essa afirmativa, basta contar os dedos de uma das mos e depois os
espaos existentes entre eles. O mesmo ocorre em qualquer conjunto de dados
amostrais.

Isso compreendido, percebe-se que dividir pelo nmero de graus de liberdade significa
dividir pelo nmero de espaos entre os dados, e no pelo nmero de dados. A razo de se
fazer isso em Estatstica que os estudiosos da Cincia Estatstica descobriram que essa
operao conduzia a resultados mais coerentes do que a diviso por n, pura e simplesmente.

Varincia e desvio-padro.

Finalmente, torna-se compreensvel tambm a razo da expresso desvio-padro: que a


extrao da raiz quadrada da varincia que, por ser um quadrado, representa uma grandeza
em duas dimenses transforma o quadrado dos desvios em uma grandeza unidimensional,
ou seja, em um comprimento, uma espcie de mdia geomtrica dos desvios, a qual pode ser
encarada como um desvio realmente padro. Ou, em outras palavras, um desvio mdio em
relao mdia do conjunto de dados. Quanto a prpria varincia da amostra, antes da diviso
por (n-1) seria uma grandeza representativa da variabilidade total dos dados amostrais em
relao a essa mesma mdia amostral. Aps a diviso, seria uma varincia mdia.
Uma vez conhecidos e entendidos esses conceitos bsicos, estamos finalmente aptos a
entender tambm o que sejam homogeneidade das varincias e aditividade dos efeitos
causados pelos fatores de variao sobre essas mesmas varincias. Quanto independncia
dos erros, ficar para mais adiante.

Aditividade dos efeitos dos fatores de variao.

Como j foi dito em captulos anteriores, a aplicao dos testes paramtricos exige, alm da
normalidade da distribuio dos erros amostrais, que as varincias sejam homogneas e que
os efeitos dos fatores de variao sejam aditivos; ou, em outras palavras, que sejam passveis
de serem somados uns aos outros, tal como indicam os sinais (+), presentes na expresso
matemtica transcrita no captulo anterior. Esses efeitos no devem ser, por exemplo,
multiplicativos. Sim, mas quando esses efeitos poderiam ser multiplicativos?
A resposta tambm nesse caso simples, como ademais so simples todas as respostas,
uma vez que sejam conhecidas, o que nem sempre possvel e nem sempre acontece, um fato
25
igualmente simples, que alis constitui a prpria razo de existir da pesquisa cientfica.
Os efeitos de dois ou mais fatores de variao so ditos no-aditivos quando, na associao
de um ou mais desses fatores, em vez de se somarem, esses efeitos se multiplicam, de tal
forma que o efeito resultante pode ser ampliado (quando o fator multiplicativo maior que 1),
ou reduzido (quando esse fator menor que 1). o que comumente ocorre nas chamadas
interaes entre dois ou mais fatores de variao.

Importncia da aditividade.

A aditividade talvez seja a menos rigorosa das restries que se fazem, quando do emprego
da estatstica paramtrica, porque se referem s interaes entre os fatores de variao, e no
aos prprios fatores em si mesmos. Mas no pode ser negligenciada, uma vez que a no-
aditividade pode modificar o valor do erro no-controlado, inflando-o ou reduzindo-o,
dependendo essa alternativa de suas dimenses, ou de sua significncia. Esse inconveniente
deve ter ocorrido muitas vezes no passado, quando o efeito das interaes era
sistematicamente incorporado ao erro no-controlado do experimento.
A importncia de um erro inflado ou reduzido ser comentada mais adiante, quando se
abordar o tema da significncia estatstica. Por enquanto, basta saber que os efeitos das
interaes s podem ser incorporados ao chamado erro residual (ou no-controlado), quando a
interao for estatisticamente no-significante. Caso seja significante, a sua varincia deve ser
isolada, e tratada como se fosse um fator de variao, pois se torna to relevante na anlise
estatstica quanto qualquer dos fatores de variao principais.

Homogeneidade das varincias.

O bom desempenho dos testes paramtricos exige que as varincias nele envolvidas sejam
homogneas. Isso no implica, porm, que elas devam ser idnticas, porque nada
exatamente igual em Estatstica, havendo sempre uma faixa de tolerncia em torno de
qualquer suposta igualdade. O que os testes exigem que elas no sejam discrepantes a ponto
de ultrapassarem determinados limites de tolerncia.
Para entender as razes dessa exigncia, basta imaginar o que aconteceria se algum
tentasse comparar a variao do crescimento de melancias com a variao do crescimento de
jabuticabas. As varincias nesse caso seriam heterogneas, ou seja, to diferentes que
tornariam impossvel qualquer comparao direta.
Todavia, mesmo nesse caso, aparentemente absurdo, a comparao estatstica no de todo
impossvel, bastando para isso que se encontre um denominador comum, capaz de permitir o
confronto entre esses dois tipos de crescimento to diferentes.
Por exemplo, a varivel adequada nesse caso poderia perfeitamente ser algo como a taxa de
crescimento de cada fruto em relao ao seu prprio peso, ou ao seu prprio volume, taxa essa
considerada a intervalos regulares, ao longo do perodo de tempo estabelecido para as
observaes.
Em resumo: embora as variaes (ou varincias), nos dois tipos de crescimento
considerados em nossa hiptese, pudessem ser heterogneas e desproporcionais, as variaes
das taxas de crescimento relativo poderiam ser homogneas, e portanto compatveis e
passveis de comparao.

Teste de Cochran para a homogeneidade das varincias.

Um teste muito simples e de fcil execuo, para verificar a homogeneidade das varincias,
o teste de Cochran que consiste em calcular todas as varincias envolvidas no
26
experimento e dividir a maior delas pela soma de todas. O valor resultante da diviso ento
comparado com os valores crticos de uma tabela estatstica apropriada, que leva em conta o
nmero de varincias envolvidas (k) e o nmero de graus de liberdade (*) utilizado nos
clculos, nmero esse que evidentemente deve ser o mesmo para todas, pois a tabela
construda dessa forma.
Talvez a nica dificuldade na execuo desse teste seja decidir quais varincias testar. A
experincia de muitos anos acabou me ensinando que as varincias que melhor se prestam a
essa finalidade so as que se referem interao maior envolvida no plano geral do
experimento (binrias ou ternrias, conforme o experimento fatorial tenha dois ou trs fatores
de variao). Em ltima anlise, essas varincias da interao maior que poderamos
chamar de interao de maior grau referem-se variao entre as repeties. Assim, se o
experimento tiver, digamos, 120 dados numricos, correspondentes ao produto fatorial de 4
colunas, 3 linhas, 2 blocos e 5 repeties, (4 x 3 x 2 x 5 = 120), o teste de Cochran ser
realizado com 24 varincias (k = 24), cada qual com 4 graus de liberdade (*=51, *=4). O *
a letra n, no alfabeto grego.

Interpretao do resultado do teste de Cochran.

O teste de Cochran um teste curioso porque nele de interesse que o valor calculado seja
menor do que o valor crtico da tabela, e no maior como ocorre na maioria dos testes
estatsticos, pois exatamente isso que indica que as varincias so homogneas. De fato, se o
valor calculado fosse maior, o resultado seria significante, o que negaria a hiptese de
igualdade (ou de homogeneidade) das varincias envolvidas no experimento.
Dessa forma, a essa altura de nossas consideraes, j sabemos se a distribuio dos erros
de nosso experimento ou no normal e se as varincias so ou no homogneas. Se a
distribuio for normal e as varincias homogneas, estamos autorizados a usar os testes
paramtricos.
Mas... o que fazer, na hiptese de a distribuio no ser normal, ou as varincias no serem
homogneas...? Voltamos a insistir que s h duas alternativas: ou tentamos uma
transformao dos dados, ou usamos testes no-paramtricos.
Antes disso, porm, sobrou ainda um ltimo detalhe, que at agora no foi resolvido: o
problema da independncia dos erros...

12. Dados independentes ou vinculados


Independncia, ou dependncia, dos erros.

Diz-se que h independncia dos erros, quando os erros controlados de um fator de


variao no interferem com os erros controlados de outro. De um modo geral, a dependncia
dos erros amostrais ocorre quando h algum tipo de vnculo entre os dados que compem um
e outro grupo experimental, ditos ento dependentes, ou vinculados.
o que acontece, por exemplo, em pesquisas em que se estudam os efeitos de algum tipo
de tratamento, e nos quais se usam os mesmos corpos-de-prova, os mesmos pacientes, ou os
mesmos animais de laboratrio, a fim de verificar alguma caracterstica especfica, antes e
depois do tratamento. Esses grupos experimentais so comumente chamados de grupo-
controle e grupo-tratado.
Os grupos Controle e Tratado so apenas um exemplo, porque a vinculao pode tomar as
formas mais variadas. Seja como for, a vinculao existe porque os dados, nesses casos,
podem sofrer alguma influncia individual, seja do paciente humano, seja do processo usado
na confeco dos corpos-de-prova, seja nas reaes prprias do animal de laboratrio.
27
Tais reaes individuais na verdade sempre existem, mesmo nos casos em que os erros so
independentes. A vinculao decorre, portanto, no da sua existncia pura e simplesmente,
mas do fato de essas reaes individuais poderem repercutir sensivelmente em ambos os
grupos que esto sendo estudados e comparados.

Como reconhecer se h vinculao entre os dados?

Um processo simples de constatar se existe vinculao entre os dados de um experimento


verificar se as repeties dentro de cada grupo podem ser misturadas, ou seja, se a ordem
entre elas pode ser alterada, sem que haja prejuzo para o seu inter-relacionamento. Quando
existe vinculao entre os dados, isso no pode ser feito, exatamente por causa da
correspondncia existente entre o dado de um grupo e o dado que ocupa a mesma posio no
outro grupo (ou nos outros grupos, se houver mais de um).

Importncia da vinculao entre os dados.

A existncia de vinculao entre os fatores de variao ou entre os pares de dados no


chega a ser propriamente uma restrio capaz de proscrever ou proibir a anlise estatstica.
Apenas necessrio que se saiba de antemo da existncia de uma possvel vinculao,
porque muitos testes estatsticos possuem duas verses, uma para dados independentes e outra
para dados vinculados, e preciso usar a verso correta. Alm disso, outros testes h que
foram idealizados apenas para um, ou para outro, desses dois tipos de dados experimentais, e
necessrio saber se o teste que se pretende utilizar adequado para o tipo de dados da
amostra. Estas ltimas observaes valem tanto para os testes paramtricos como para os no-
paramtricos.
Por fim, aps as consideraes dos dois ltimos captulos, podemos acrescentar mais
alguns passos ao roteiro que estamos paulatinamente construindo, ao longo destas pginas:

8 passo - Testar a homogeneidade das varincias correspondentes interao de maior


grau;

9 passo - Verificar a existncia de vinculao entre dois ou mais dos fatores de variao
envolvidos na pesquisa.

Aditividade dos efeitos dos fatores de variao.

Quanto aditividade, somente aps a realizao dos testes estatsticos indicados para o
modelo matemtico do experimento que se pode saber se ela de fato existe e sua utilidade
consiste apenas em ajudar o pesquisador a decidir se deve ou no isolar a varincia de alguma
das interaes envolvidas no experimento, ou se pode simplesmente junt-la ao erro residual,
com os respectivos graus de liberdade.

13. Transformao dos dados amostrais


Razes para a transformao dos dados.

Quando algum dos requisitos para o emprego da estatstica paramtrica normalidade da


distribuio dos erros, homogeneidade das varincias, e aditividade dos efeitos dos fatores de
variao no puder ser preenchido pelos dados da sua amostra experimental, o pesquisador
pode ainda tentar o recurso da transformao dos dados, antes de optar pela aplicao da
28
estatstica no-paramtrica. um recurso que sempre vale a pena tentar, porque a estatstica
paramtrica evidentemente mais poderosa que a no-paramtrica. De fato, esta somente foi
desenvolvida como um recurso complementar, destinado a suprir a necessidade de testes
estatsticos nos casos em que alguma restrio desaconselhava o uso da estatstica
paramtrica, ou quando a prpria natureza dos dados, muitas vezes no exatamente
numricos, vedava a aplicao desta.

As transformaes mais comumente utilizadas.

As transformaes diretas dos dados mais comumente utilizadas so: a logartmica, a


logartmica dos (dados+1), a raz quadrada dos dados , a raz quadrada dos (dados + 1, ou
mais 1/2), a raz cbica dos dados, a transformao angular, a transformao hiperblica de
primeiro grau (ou o inverso dos dados) ou hiperblica de segundo grau, a transformao
percentual, e a transformao em valores de z, j referida quando se comentaram os testes
para verificar a normalidade da distribuio dos erros amostrais.

A transformao mais indicada.

H sempre uma razo objetiva, em geral bem definida matematicamente, para se optar por
uma ou outra dessas transformaes, tudo dependendo de como ou por que a distribuio
amostral est se deformando e fugindo normalidade. S a prtica, entretanto, acaba
ensinando o pesquisador a entrever qual a transformao mais indicada. Todavia, com o
advento da informtica, essas transformaes se tornaram algo to corriqueiro e to rpido de
realizar, que o estaticista, ou o pesquisador, pode tentar todas elas em seqncia, para ver qual
a que produz o melhor resultado, gastando para isso no mais do que alguns poucos minutos
de seu precioso tempo.
Na verdade, a transformao mais indicada geralmente coincide com aquela que apresentar
a probabilidade mais elevada de a distribuio ser normal, de modo que se torna suprfluo
saber a sua justificativa matemtica. Se a transformao no for adequada, a probabilidade de
normalidade tende a piorar, em vez de melhorar.
Eu prprio elaborei um programa para computador (GMC-software, hoje em sua verso
7.3), que executa todos os testes at aqui mencionados neste texto, bem como os testes mais
importantes e mais comumente utilizados em Estatstica, e por isso posso assegurar aos meus
leitores que no estou argumentando em vo, e que sei perfeitamente do que que estou
afirmando.

Interpretao dos resultados (em dados transformados).

O nico cuidado que se deve ter, aps transformar os dados experimentais, passar a
raciocinar em termos da natureza dos novos dados, por ocasio da discusso e da
interpretao dos resultados. Por exemplo: algumas transformaes invertem os valores dos
dados, como o caso da prpria transformao inversa (ou hiperblica de primeiro grau), na
qual Xi = 1/xi, e da hiperblica de segundo grau, em que Xi = 1 / xi2.

A transformao logartmica.

No se deve esquecer portanto que, uma vez transformados os dados em logaritmos, a soma
de dados logartmicos no tem o mesmo valor que a soma de seus antilogaritmos, mas
representa o produto destes, de modo que a mdia dos logaritmos no corresponde ao
logaritmo da mdia de seus antilogaritmos. Na verdade, o antilogaritmo da mdia dos
29
logaritmos corresponde mdia geomtrica dos nados originais, e no mdia aritmtica
destes.
Por isso, no clculo das mdias, aps a transformao logartmica, no se pode esquecer de
que os logaritmos passaram a ser tratados como simples dados numricos, e no mais como
logaritmos. Para fazer a converso para os valores originais, as mdias correspondentes s
mdias dos dados logartmicos tm de ser calculadas a partir dos dados originais. A nica
coisa que mantida nesses casos a hierarquia dos dados, pois quando um dado original
maior do que outro, os seus logaritmos mantm essa mesma ordenao hierrquica, ainda que
os prprios valores numricos passem a ser diferentes.
Uma vez normalizada e homogeneizada a distribuio dos dados amostrais, por intermdio
da transformao que se comprovar mais conveniente, o pesquisador estar autorizado a
utilizar os testes paramtricos. Contudo, se mesmo tendo tentado todos os recursos
disponveis ainda assim a distribuio continua se demonstrando no-normal, ou no-
homognea, ou at mesmo no-aditiva, no h outra alternativa seno utilizar a estatstica
no-paramtrica.

14. A escolha do teste mais adequado


Testes paramtricos e no-paramtricos.

Os testes estatsticos podem ser divididos em dois grandes grupos, conforme fundamentem
ou no os seus clculos na premissa de que a distribuio de freqncias dos erros amostrais
normal, as varincias so homogneas, os efeitos dos fatores de variao so aditivos e os
erros independentes. Se tudo isso ocorrer, muito provvel que a amostra seja aceitavelmente
simtrica, ter com certeza apenas um ponto mximo, centrado no intervalo de classe onde
est a mdia da distribuio, e o seu histograma de freqncias ter um contorno que seguir
aproximadamente o desenho em forma de sino da curva normal. O cumprimento desses
requisitos condiciona pois a primeira escolha do pesquisador, uma vez que, se forem
preenchidos, ele poder utilizar a estatstica paramtrica, cujos testes so em geral mais
poderosos do que os da estatstica no-paramtrica, e conseqentemente devem ter a
preferncia do investigador, quando o seu emprego for permitido.

O que so testes paramtricos?

Os termos paramtrico e no-paramtrico referem-se mdia e ao desvio-padro, que so


os parmetros que definem as populaes que apresentam distribuio normal. Essa
observao j foi feita e repetida muitas vezes neste texto. Volto a reafirm-la, todavia,
porque tenho visto muitas vezes artigos cientficos, alm de trabalhos e teses acadmicas, em
que se usaram testes no-paramtricos, mas os resultados eram apresentados em termos de
mdia desvio-padro da distribuio, ou ento em termos de mdia erro-padro da mdia,
erro este que tambm um valor calculado em funo do desvio-padro da amostra.

Os parmetros da curva normal.

Ora, de qualquer conjunto de valores numricos pode-se calcular a mdia, porm, desvio-
padro, somente as curvas normais o possuem, uma vez que, por definio, "desvio-padro
o ponto de inflexo da curva normal" e de mais nenhuma outra. So eles em nmero de
dois e simtricos em relao mdia da distribuio. Portanto, curvas assimtricas jamais
podem ter desvio-padro porque, mesmo que tenham pontos de inflexo, como os possuem
muitas outras curvas matemticas, eles dificilmente seriam simtricos em relao mdia.
30
Enfim, mesmo que distribuies experimentais possam apresentar alguma assimetria, esta
deve manter-se dentro de certos limites, aceitveis em termos estatsticos e aceitveis
porque atribudos variao casual determinada pelos erros no-controlados de amostragem,
ou seja, variao do acaso, tpica das variveis e amostras chamadas aleatrias.

Desvio-padro e testes no-paramtricos.

Quando um pesquisador utiliza testes no-paramtricos, supe-se que a distribuio de seus


dados experimentais no seja normal, ou que ele no tenha elementos suficientes para poder
afirmar que seja. Na dvida quanto a essa informao, nada impede que ele opte pelo uso da
estatstica no-paramtrica. O que ele no pode fazer, de modo algum, argumentar em
termos de desvios ou erros padres, embora possa perfeitamente faz-lo pura e simplesmente
em termos de mdias.

Qual teste usar, sejam paramtricos ou no-paramtricos?

Qualquer que seja pois a opo do pesquisador, a essa altura de sua investigao cientfica
ele se acha diante de mais um dilema: qual, dentre os muitos testes estatsticos existentes em
ambas as categorias acima citadas, seria o mais apropriado, no caso especfico de seu
trabalho, ou do modelo matemtico de seus ensaios? Que elementos desse modelo matemtico
condicionariam a opo por um ou outro desses testes?
Em geral a resposta est contida no prprio modelo experimental de cada pesquisa. Os
detalhes adicionais que devem orientar a escolha do teste so:

a) a existncia ou no de vinculao entre dois ou mais fatores de variao;


b) o nmero de componentes da amostra, que vo ser comparados.

De fato, seja qual for o tipo de estatstica escolhida, paramtrica ou no-paramtrica, h


testes especificamente destinados a amostras em que h independncia entre os fatores de
variao, e outros para amostras em que existe vinculao ou dependncia entre eles.
Da mesma forma, o nmero de comparaes a serem realizadas pelo teste tambm
importante, porque h testes elaborados para comparar apenas duas amostras, e h outros
destinados a comparaes mltiplas, entendendo-se como mltiplas um nmero de
comparaes superior a dois.
Num experimento fatorial, por exemplo, em que h fatores colocados nas colunas, nas
linhas e nos blocos, o nmero de comparaes fornecido pela multiplicao do nmero de
colunas, pelo nmero de linhas e pelo nmero de blocos. Enfim, o produto fatorial
semelhante ao usado para calcular o nmero total de dados da amostra, s no entrando no
clculo o nmero de repeties.
Assim sendo, no caso do experimento fatorial que, a partir de alguns captulos atrs, nos
vem servindo de exemplo com 4 colunas, 3 linhas e 2 blocos o nmero de comparaes
possveis, incluindo-se nele no s os fatores de variao principais mas tambm todas as
interaes possveis entre eles, seria: 4 x 3 x 2 = 24 comparaes.
Classificao dos testes estatsticos (GMC verso 7.5): O diagrama abaixo esquematiza as
subdivises dos testes estatsticos, listando os mais comumente utilizados na prtica:

31
Alguns desses testes usam nmeros como varivel, outros usam sinais + e , outros usam
valores fixos, como 1 e 0, e outros ainda utilizam freqncias. Esses testes evidentemente
esto todos includos no grupo dos testes no-paramtricos, simplesmente porque no usam os
parmetros mdia e desvio-padro em seus clculos.

A filosofia de cada teste estatstico.

Aps a concluso destes conceitos iniciais e dos conhecimentos bsicos que se deve ter
sobre os mtodos estatsticos, sero includos neste texto alguns breves comentrios sobre
cada um dos testes listados acima. So resumos sobre o que chamei de Filosofia do Teste, e
neles procurei dar uma idia geral sobre o que tinha em mente o criador de cada um deles, e a
quais modelos matemticos eles se adaptam, bem como em quais circunstncias cada qual
poderia ser utilizado.
Mas so apenas observaes condensadas, que evidentemente os interessados podero
ampliar, pela leitura e pelo estudo mais aprofundado em compndios mais elaborados do que
este, sobre a Cincia Estatstica, que os h em grande quantidade.

Apresentao dos resultados dos testes.

Uma vez realizados os testes adequados, estes do o seu parecer, sob a forma de um valor
numrico, apresentado (conforme o teste) como valor de F (anlise de varincia), de t (teste t,
de Student), U (Mann-Whitney), Q (teste de Cochran), (letra grega qui, testes diversos, que
usam o chamado qui-quadrado), z (McNemar e Wilcoxon), H (Kruskal-Wallis), ou (letra
grega rho, utilizada nos testes de correlao, que sero focalizados mais adiante, neste texto).

No-significncia estatstica (H0).


32
Seja como for, o valor numrico calculado pelo teste deve ser confrontado com valores
crticos, que constam em tabelas apropriadas a cada teste. Essas tabelas geralmente associam
dois parmetros, que permitem localizar o valor crtico tabelado: nvel de probabilidades
(usualmente 5 % [ = 0,05], ou 1 % [ = 0,01]), e o nmero de graus de liberdade das
amostras comparadas.
Valores menores que o tabelado indicam que ele no pode ser considerado diferente do que
se obteria se as amostras comparadas fossem iguais. Enfim, estaria configurado o que se
chama de no-significncia estatstica, ou de aceitao da hiptese zero, ou de nulidade (H0).

Significncia estatstica (H1).

Porm, se o valor calculado for igual ou maior que o tabelado, aceita-se a chamada hiptese
alternativa (H1), ou seja, a hiptese de que as amostras comparadas no podem ser
consideradas iguais, pois o valor calculado supera aquele que se deveria esperar, caso fossem
iguais, lembrando sempre que a igualdade, em Estatstica, no indica uma identidade. Isso
quer dizer que pode eventualmente haver alguma diferena, mas esta no deve ultrapassar
determinados limites, dentro dos quais essa diferena decorre apenas da variao natural do
acaso, tpica da variao entre as repeties do ensaio.
No caso de o valor calculado ser maior do que o valor tabelado, diz-se que h significncia
estatstica, que pode ser ao nvel de 5 %, se o valor calculado for maior que o valor tabelado
para 5 %, porm menor que o tabelado para 1 %. Ou ao nvel de 1 %, caso o valor calculado
seja igual ou maior que o valor tabelado para 1 %.

15. Interpretao dos resultados


O que significam valor tabelado e valor calculado?

possvel que alguma dvida ainda paire no esprito de muitos daqueles que ainda esto se
iniciando nos meandros desse mundo misterioso da Estatstica: o que significam exatamente
os valores calculados pelos diversos testes, e o que quer dizer esse misterioso valor critico das
tabelas estatsticas?
Isso, porm, no nem to complicado nem to difcil de entender, mesmo que para alguns
possa parecer assim. E passo a explicar por qu.

Valor calculado, valor tabelado, e significncia.

O valor calculado, bem como os valores tabelados, resultam sempre de uma diviso por
algum valor, que tomado como denominador comum, ou termo de comparao entre as
grandezas comparadas.
Esse denominador comum, conforme o teste considerado, pode ser tanto o desvio-padro
da amostra, como a varincia dos erros no-controlados, ou mesmo um valor terico
esperado. Neste caso, o esperado refere-se ao valor que seria teoricamente encontrado, caso a
distribuio amostral seguisse religiosamente uma determinada distribuio matemtica
terica previamente conhecida, ou pelo menos prevista por clculos matemticos tericos.

Significncia no teste t.

No caso do teste t, por exemplo, o que se divide a diferena entre as


duas mdias que se deseja comparar pelo desvio padro comum s amostras a que elas se
referem. Portanto, o valor resultante dessa diviso indica quantas vezes a distncia
33
que vai de uma mdia outra contm a distncia representada pelo valor do desvio-padro: t
= (m1 - m2) / s.

Significncia na anlise de varincia.

Na anlise de varincia, como o prprio nome sugere, a diviso se d entre varincias: a


varincia dos erros controlados (s2i) pela varincia dos erros no-controlados (s2r), esta ltima
conhecida como varincia residual, ou simplesmente resduo: F = (s2i) / (s2r).

Significncia nos testes que usam o 2.

Por sua vez, nos testes que utilizam a distribuio conhecida como
distribuio do Qui-quadrado (2), o que se divide a diferena entre dois
valores o obtido (oi) e o esperado (ei), que comumente, porm no sempre, so freqncias
pelo valor teoricamente esperado para a variao casual, e portanto no-significante: 2 =
(oi - ei )2 / ei .

Significncia: observao final.

Seja qual for o teste, portanto, o resultado ser sempre o quociente de uma diviso, e o
quociente de qualquer diviso sempre traduz o quantas vezes o numerador maior (ou menor,
se for inferior a 1) do que o denominador, ou seja, quantas vezes este est contido naquele.
Assim, o resultado do teste, em ltima anlise, apenas indica a proporo entre os erros
controlado e no-controlado, embora estes erros possam receber outros nomes, dependendo
do tipo de teste estatstico considerado. Mas, no fundo, so apenas variaes do mesmo
conceito.

A hiptese nula (H0), smbolo da igualdade estatstica.

Do exposto, fcil concluir que, em Estatstica, a igualdade no est representada


propriamente pelo valor 0 (zero), mas sim pelo valor 1 (um). Esse valor 1 acontece quando o
dividendo (numerador da frao que representa a razo proporcional entre os dois erros
comparados) e o divisor (representado pelo denominador dessa mesma razo proporcional)
so exatamente iguais. De fato, a diviso de qualquer nmero por si mesmo sempre igual a
1. Ora, se o erro relativo aos fatores de variao (controlado) igual ao erro detectado entre as
repeties (no-controlado), evidente que no pode ser considerado diferente deste ltimo,
cuja natureza puramente casual.
Contudo, poder algum argumentar, e com razo: se assim, se a igualdade estatstica
ocorre quando o quociente da diviso igual a 1, o que significa a chamada Hiptese nula
(H0), que o prprio smbolo da igualdade estatstica?
que o zero da hiptese nula uma reminiscncia que nos ficou dos testes que avaliavam a
significncia das diferenas entre as mdias de duas amostras comparadas mais
especificamente, do teste t de Student. Nesse caso, o zero referia-se diferena que existiria
quando as duas mdias comparadas fossem iguais, circunstncia em que a diferena entre elas
seria 0 (zero). De fato, m1 - m2 = 0 somente quando m1 = m2 . Nesse caso, o "nula" referia-se
evidentemente hiptese de essa diferena entre as mdias ser igual a zero.
Em tempo: o smbolo H0 l-se Hzero e no H, como j tenho ouvido algumas vezes. A
hiptese de nulidade, portanto, refere-se hiptese de que essas grandezas, ou essas mdias,
sejam estatisticamente iguais, naturalmente a um certo grau de probabilidade de que essa
igualdade seja real. Por sua vez, a expresso H1 indica apenas a hiptese alternativa para H0,
34
ou seja, a hiptese de que no haja igualdade estatstica entre as grandezas confrontadas e
isso, evidentemente, tambm a um determinado grau de probabilidade de que sejam de fato
diferentes (ou no-iguais, como os estaticistas preferem dizer).

Nvel de significncia estatstica: probabilidade.

Mas disso tudo talvez ainda reste uma dvida: o que seria, afinal, nvel de significncia? O
que significaria exatamente significncia estatstica ao nvel de 5 % de probabilidade? A
expresso indica apenas que o valor calculado pelo teste (qualquer que seja este) s poderia
ser encontrado, por simples variao natural do acaso, no mximo 5 vezes em 100 amostras
aleatrias semelhantes. No caso da significncia ao nvel de 1 %, o valor encontrado pelo teste
seria ainda mais difcil de obter por mero acaso, pois seria da ordem de 1 caso em 100
amostras do mesmo tipo.

Interpretao da significncia e dos resultados dos testes.

Como j foi observado pginas atrs, quando se falou do teste de Cochran para a
homogeneidade das varincias, nem sempre o mais interessante para uma determinada
pesquisa que os testes estatsticos dem resultados significantes.
No caso especfico da homogeneidade, somente um valor no-significante seria vantajoso,
pois s assim indicaria no haver diferenas estatisticamente relevantes entre as varincias,
sendo estas, pois, homogneas, ou seja, no-discrepantes.
Mas esse no seria um caso isolado, pois h muitos trabalhos de pesquisa em que uma no-
diferena estatstica seria desejvel, e eu prprio j me vi diante de inmeros casos assim. Por
exemplo, imaginem dois mtodos, um carssimo e outro muito mais barato, para realizar um
ensaio qualquer. Nesse caso, o mais conveniente para o pesquisador seria que o teste
comparativo entre os resultados fornecidos por ambos fossem no-significantes, pois nesse
caso o pesquisador estaria autorizado a usar indiferentemente um ou outro, e por certo daria
preferncia ao mais barato, uma vez que os resultados seriam equivalentes, a um preo menor,
o que em pases como o nosso, e em muitos outros, que carecem de recursos para a
investigao cientfica, importantssimo.
Outra observao importante a que se refere ao distanciamento que muitas vezes existe
entre a significncia puramente matemtica dos resultados estatsticos e a relevncia desses
mesmo resultados em termos de aplicao prtica, seja em clnica, seja na vida prtica em
qualquer campo da atividade cientfica, ou simplesmente no dia-a-dia da atividade humana

16. Varincia e covarincia


Foi dito, em algum lugar deste texto, que, nos testes estatsticos, a varivel sempre nica,
ao passo que os fatores de variao podem ser mltiplos.
Todavia, h uma circunstncia em que tal unicidade da varivel pode no ocorrer: quando
a finalidade de um experimento precisamente confrontar duas ou mais variveis, a fim de
verificar se existe algum tipo de variao proporcional entre elas, seja esta direta ou inversa.
D-se o nome de covariao a esse tipo de variao simultnea entre duas ou mais variveis, e
de covarincia grandeza estatstica que serve para medi-la.
Por sua vez, os testes utilizados para detectar essa covarincia entre variveis
independentes envolvem duas operaes importantes:

1) uma delas quase grfica, embora utilize clculos matemticos para realiz-la. a
operao chamada regresso, que pode ser linear (ou reta), ou curvilnea;
35
2) e a outra, calculada a partir da primeira, a correlao, que tem como unidade
convencional de medida uma grandeza chamada coeficiente de correlao, em geral indicada
pela letra grega , que se l "r" (ou rho).

O coeficiente de variao uma grandeza que varia de 1 a +1, valores estes que traduzem
a correlao perfeita entre a variao de uma varivel em relao variao da outra. Por seu
turno, a ausncia completa de correlao entre as variveis confrontadas indicada pelo valor
zero do coeficiente de correlao ( = 0). Os valores positivos do coeficente de correlao (0
+1), indicam a existncia de uma relao diretamente proporcional entre as variveis,
enquanto que os valores negativos (1 0) traduzem uma relao inversamente
proporcional entre as variveis em estudo. Por sua vez, o valor numrico de traduz o grau de
correlao entre elas, sendo tanto mais significante quanto mais prximo de +1 (correlao
direta), ou de 1 (correlao inversa). Hoje em dia, por uma questo de comodidade, costuma-
se usar a letra r (erre minsculo), em lugar de , para o coeficiente de correlao.

Diferena matemtica entre varincia e covarincia.

Basicamente no existe esse tipo de diferena, mas isso s pode ser percebido pela
comparao das equaes matemticas que definem essas duas grandezas. Por isso, embora
no seja objetivo deste texto falar nos fundamentos matemticos da Estatstica, essas duas
equaes sero transcritas a seguir, apenas para frisar suas diferenas e semelhanas. Mas,
naturalmente, apenas aqueles que tenham alguma noo de lgebra e de somatrios podero
entend-las.
A equao usada para calcular a varincia de uma amostra esta:

s2x = x2 (x)2/ n (Equao 1)

Essa expresso pode ser transformada em outra eqivalente, substituindo-se o seu x2 pelo
produto x . x, , assim como o seu (*x)2 por *x . *x , escrevendo-se ento:

s2x = x . x x . x / n (Equao 2)

No caso da covarincia, a nica diferena que as variveis so duas (x e y), e no apenas


uma (x), como no caso acima. Assim, quando se introduz a segunda varivel (y), basta
substituir um dos dois x por y para se ter a equao da covarincia:

s2xy = x.y x . y / n (Equao 3)

Por sua vez, a varincia de y seria dada pela relao:

s2y = y2 (y)2 / n (Equao 4)

A regresso linear consiste em determinar qual a linha reta que passa, ao mesmo tempo, o
mais perto possvel de todos os pontos determinados no sistema cartesiano pelos pares x-y
dispo

17. Os testes de Regresso e Correlao


36
Teste de regresso: as duas retas de regresso.

Consideremos a equao matemtica da linha reta: y = a + bx. Para traar o grfico dessa
reta, colocam-se os valores de x no eixo das abscissas e y no das ordenadas do sistema de
eixos cartesianos. Todavia, possvel traar outra reta com esses mesmos parmetros a e b,
agora em funo de y, e no de x. Para isso, basta isolar o valor de x na equao acima
transcrita, que ficar assim: x = (y - a) / b. O novo grfico mostrar uma reta que, no caso da
regresso ora focalizada, poder apresentar um ngulo de inclinao diferente do da primeira
reta, conforme se explicar mais adiante.

Clculo dos parmetros a e b da reta de regresso.

Para se calcular o valor de b, basta dividir o valor da covarincia (Equao 3) pelo da


varincia da varivel que estiver no eixo das abscissas (Equaes 1 ou 4). Calculam-se, pois
dois valores para b, que podem ser identificados como bx e by .
Por sua vez, os valores de ax e ay so calculados pelas relaes: ax = my mx . bx , e
y = mx my . by , nas quais mx e my so respectivamente as mdias dos valores de x e de y.

Correlao: clculo do valor de r (ou ).

O valor de r (ou de ) basicamente a mdia geomtrica dos dois valores de b calculados


(bx e by ), sendo portanto fornecido pela expresso:

Todavia, a raiz quadrada acima indicada, embora fornea o valor numrico de r, no indica
se esse valor positivo ou negativo. A definio do sinal depende da expresso da covarincia
(Equao 3): se, nessa expresso, x.y for maior que x . y / n, o valor de r ser positivo; e,
se for menor, o r ser negativo.

O que indica o valor de r (ou de )?

O valor de r (ou de ) igual a +1 ou 1 somente ocorre quando a reta de regresso calculada


passa exatamente sobre todos os pontos disponveis. Graficamente, isso quer dizer que as duas
retas de regresso (de x em y e de y em x) se sobrepem plenamente, de modo que aparecem
no grfico como uma reta nica. Conforme o valor de r se afaste de +1 ou 1, aproximando-se
de 0 (zero), as duas retas j no mais se soprepem, aparecendo no grfico como duas retas
que se cruzam, num ngulo que se abre cada vez mais, at que, quando o valor de r igual a 0
(que indica a falta total de correlao entre as variaveis), elas se cruzam perpendicularmente
uma outra.

Exemplo de no-correlao entre variveis.

Para se ter uma idia do que isso significa, imaginemos duas equaes: y = a + bx0 e
x = (y0+ a) / b. Como qualquer nmero elevado a zero igual a 1, as mesmas equaes se
reduziriam a y = a + b e x = a / b. Fazendo a = 10 e b = 2, elas ficariam assim: y = 12 e x = 5.
Isto quer dizer que, na primeira equao, y seria igual a 12, qualquer que fosse o valor de x.
Logo, o valor de y no depende do valor de x, uma vez que x0 ser sempre igual a 1, no
influindo no valor de y. O mesmo vale para a outra equao.
37
Se essas duas equaes fossem representadas graficamente no sistema de coordenadas
cartesianas, a primeira seria uma linha reta horizontal, paralela ao eixo das abscissas,
passando pelo ponto y = 12; e a segunda seria uma reta vertical, paralela ao eixo das
ordenadas, passando pelo ponto x = 5. Essas duas retas seriam perpendiculares entre si,
cruzando-se no ponto x = 5, y = 12. Mas no haveria qualquer correlao entre elas, uma vez
que os valores de x e y de uma no teria nada a ver com os valores x e y da outra, e vice-
versa. O nico ponto comum a ambas seria o ponto de cruzamento das duas linhas.
A tangente do ngulo de inclinao da reta horizontal teria um valor igual a 0 (zero),
tangente essa que corresponde ao ngulo de 0; e a do ngulo de inclinao da reta vertical
teria um valor igual ao (infinito), que corresponde ao ngulo de 90. Isso indica que as retas
se cruzam em ngulo reto, sendo portanto perpendiculares. por isso que as retas de
regresso perpendiculares entre si representam a ausncia completa de correlao entre as
variveis x e y, tal como ocorre no exemplo acima.

Comparaes entre coeficientes de correlao.

Quando se tm mais de uma reta de regresso, possvel comparar os seus coeficientes de


regresso, para verificar estatisticamente se a relao entre as duas variveis reunidas em
pares para o traado das linhas de regresso, bem como para o clculo dos coeficientes de
correlao correspondentes, a mesma nas duas ou mais retas em estudo. O coeficiente de
correlao avalia o grau de relacionamento entre causa e efeito de um fenmeno qualquer.
Assim, a comparao entre dois coeficientes de correlao define se dois fenmenos mostram
a mesma resposta de uma das variveis (y), quando de faz variar a outra (x), ou se elas
respondem de maneira diversa, mostrando diferentes tendncias de variao, de um fenmeno
para outro.
Outro detalhe importante a respeito dos testes de regresso e correlao que os trs
parmetros calculados por eles isto , os parmetros a e b da reta de regresso, e o
coeficiente de correlao (r) podem eventualmente ser usados como variveis, quando o
espao amostral representado por um conjunto de retas, cada qual com a, b e r diferentes de
uma para outra reta.
O emprego de parmetros muitas vezes se torna absolutamente necessrio, nos casos em
que, sem esse recurso, a anlise estatstica seria totalmente impossvel.
Sei bem disso, porque eu prprio j tive necessidade de lanar mo desse artifcio tcnico
para tornar possvel anlises estatsticas aparentemente inviveis. Acabei imaginando uma
poro delas, por absoluta necessidade prtica. Ao processo que visa criao desse tipo de
varivel, pelo qual se altera a prpria natureza ntima dessas variveis, a fim de adequ-las
matematicamente ao tratamento estatstico e torn-lo vivel, batizei-o de mudana de varivel,
que ser o tema do captulo que vem a seguir.

38
Figura 2. Linha de regresso hiperblica, na qual y=1/y. O valor de r igual a 1 porque os
pares foram deliberadamente escolhidos para fornecer uma correlao direta perfeita

18. Mudana de varivel (exemplos reais)


Neste texto, j foram comentados, em captulos anteriores, as transformaes simples a que
se podem submeter os dados experimentais, visando a normalizar a distribuio dos erros
amostrais e a homogeneizar as varincias, com a finalidade de tornar possvel a aplicao da
estatstica paramtrica.
Todavia, o que, no presente captulo, chamado de mudana de varivel, so
transformaes mais profundas e mais complexas, que no tm quaisquer regras, frmulas ou
modelos fixos de transformao, como seria o caso, se a transformao fosse logartmica, raiz
quadrada, angular, ou qualquer das j comentadas anteriormente neste texto.
Na verdade, a mudana de varivel um recurso que se aplica a cada caso,
individualmente, variando conforme a natureza de cada experimento. So artifcios tcnicos
da mesma natureza dos clebres artifcios de clculo usados em Matemtica para resolver
certos problemas, os quais s valem para aquele determinado problema em pauta, ou, quando
muito, para problemas semelhantes.
Os exemplos que seguem no so hipteses, mas so todos recursos j empregados de fato
pelo autor destas pginas, para resolver problemas especficos e reais, de pesquisadores
diversos, que o procuraram em busca de auxlio.

Exemplo no.1: retas diferentes, como varivel.

Um desses artifcios j foi citado no captulo anterior, quando se comentou o emprego dos
parmetros da linha reta como variveis. J utilizei esse tipo de mudana de varivel, quando
fiz o tratamento estatstico de uma tese em que os dados experimentais eram medidas de
39
densidade ptica feitas em radiografias tomadas de um penetrmetro de alumnio apoiado
sobre o filme radiogrfico.
Esse dispositivo (penetrmetro) tem forma de escada, na qual os degraus tem espessuras
crescentes, aumentando dois milmetros em cada degrau ascendente. A imagem radiogrfica
dessa escada de alumnio uma srie de faixas com radiopacidade proporcional espessura
de cada degrau, cuja densidade ptica ento medida em aparelho adequado a essa finalidade.
A dificuldade, nesse tipo de trabalho, que uma radiografia no mostrava apenas um valor
numrico, mas vrios, cada qual correspondente densidade ptica de um degrau do
dispositivo. Parecia impossvel tratar estatisticamente os dados numricos obtidos.
O artifcio que tornou possvel a anlise estatstica envolveu algumas etapas, que passarei a
comentar, apenas para ilustrar a maneira como funcionou o raciocnio do estaticista num caso
como esse.
O primeiro passo foi realizar um teste de regresso para mltiplas curvas, a fim de
determinar qual a curva matemtica capaz de descrever a variao da densidade ptica nos
oito ou nove degraus do penetrmetro utilizado nos experimentos.
Ficou esclarecido assim que, naquele caso especfico, a curva era uma hiprbole de
primeiro ou segundo grau (j no me lembro), traduzida pela equao matemtica y = 1 / (a +
bx) (hiprbole de primeiro grau), ou ento y = 1 / (a + bx) (hiprbole de segundo grau). O
segundo passo foi realizar uma transformao hiperblica dos dados, que consistia em utilizar
o inverso do valor dos dados experimentais (1/y, no caso da hiprbole de primeiro grau, ou
ento 1/*y, no caso da hiprbole de segundo grau), e no o valor original (y).
Aps essa transformao, um novo teste de regresso mostrou que a relao entre x e y era
agora uma linha reta crescente da esquerda para a direita, o que j era matematicamente de se
esperar.
De fato, considerem a relao que traduz a transformao hiperblica de primeiro grau: y =
1/(a+bx).
Se invertermos a posio de y e (a+bx), o que resulta sem dvida uma linha reta: a+bx
(linha reta) = 1/y.
No caso da hiprbole de segundo grau, ocorre o mesmo: y = 1/(a+bx).
Invertendo-se as posies de y e (a+bx), tem-se: (a+bx) (parbola) = 1/y
Finalmente, extraindo-se a raiz quadrada de ambos os membros da equao, tem-se:

Essas operaes algbricas mostram claramente que, se for utilizado o inverso do valor do
dado, em lugar do dado original, a linha de regresso ser indubitavelmente uma reta, e no
mais uma hiprbole de primeiro grau. Da mesma forma, o uso do inverso da raiz quadrada do
dado original transforma uma hiprbole de segundo grau numa linha reta.
Mas qual seria a importncia disso no caso das radiografias? A importncia est em que se
pode mudar a varivel original (densidade ptica) e utilizar os dois parmetros (a e b) que
definem a reta de regresso de cada radiografia como duas novas variveis.
A primeira delas, o parmetro a da equao da reta, traduz a densidade ptica de fundo da
radiografia, ou seja a densidade ptica do filme na regio no interceptada pela presena do
penetrmetro. Graficamente, seria o ponto onde a reta corta o eixo das ordenadas das
coordenadas cartesianas, onde x (espessura do degrau da escada de alumnio) igual a zero. E
o parmetro b nada mais do que a tangente do ngulo de inclinao da reta, ngulo esse que
traduz radiograficamente o grau de contraste do filme exposto.
De fato, se fizermos a = 0, o grfico da reta passar pela origem das coordenadas
40
cartesianas, onde x e y so iguais a 0 (zero). Essa reta, inclinada, formar com o eixo
horizontal um ngulo , cuja tangente ser: tang = y / x. Chamando a tang de b, ter-se-ia:
b = y / x. Ou seja, a tangente do ngulo de inclinao da reta realmente o b da equao da
reta. Isolando-se o y, a equao ficaria assim: y = bx, sem o a, porque estamos considerando
que a reta passa por y = 0. Se y > 0, ento a equao ter de incluir o a, ficando assim: y = a +
bx.
Essas duas novas variveis, a e b permitiram, portanto, estudar os filmes sob dois aspectos
importantes em qualquer radiografia: a densidade ptica geral e o contraste radiogrfico dos
filmes (vencidos, no-vencidos, conservados ou no em geladeira, armazenados ou no em
estufas a 37/38 graus, para simular condies ambientais favorveis ou adversas sua
conservao.
Sem o artifcio da mudana de varivel, de densidade ptica para os parmetros a e b das
diversas retas de regresso, correspondentes a cada filme exposto, a anlise estatstica dos
resultados da pesquisa teria sido impraticvel.

Exemplo no.2: associao de variveis.

Contudo, a mudana de varivel muitas vezes pode ser utilizada tambm para diminuir o
nmero de variveis de um trabalho de pesquisa, o que se consegue quando duas ou mais
dessas variveis podem ser combinadas para dar origem a uma outra varivel, nica,
resultante dessa associao entre duas ou mais delas.
Por exemplo, imagine-se um experimento em que se desejasse saber qual, dentre uma srie
de solues solventes, seria a mais eficaz para dissolver uma determinada massa de uma
substncia qualquer. O pesquisador poderia determinar a massa (m) de cada corpo-de-prova
(varivel 1), medir o tempo (t) gasto para a dissoluo completa da massa correspondente a
cada um deles (varivel 2), e calcular a velocidade de dissoluo (v), fornecida pela quociente
massa dividida pelo seu correspondente tempo de dissoluo
v = m / t (varivel 3).
No entanto, essas trs variveis, que exigiriam testes isolados para cada uma, poderiam ser
associadas, resultando numa varivel nica a ser analisada, que combinaria os efeitos de todas
as trs.
Realmente, h na Fsica uma grandeza que associa essas trs variveis: a chamada Fora
de Impulso, definida pela expresso:F = m . v / t.
Mas o raciocnio matemtico e fsico pode ir mais alm.
De fato, partindo de trs equaes da Fsica: uma que define a
Fora (F = m . a), outra que define a velocidade de um mvel (v = a . t), e finalmente a que
define o Trabalho (T = F . e), nas quais F = fora, a = acelerao, m = massa, t = tempo, v =
velocidade, T = trabalho (ou energia despendida) e e = espao percorrido.
Podem fazer-se diversas transformaes algbricas simples: Se v = a . t, ento a = v / t; e se
a = v / t e F = m . a, ento F = m . v / t.
Contudo, m / t = v, e a equao ficaria assim F = v . v, ou F = v.
Considerando, porm a equao do trabalho (T = F . e), e tendo em mente que, no caso da
dissoluo do tecido, o espao percorrido (e) corresponde massa dissolvida (m), pode-se
fazer a substituio do espao pela massa na equao do trabalho, uma vez que, nesse caso, e
= m. Conseqentemente, T = F . m.
Substituindo agora, na equao T=Fm, o valor de F, tem-se: T =m . v.
Como Trabalho e Energia so grandezas da mesma natureza, uma vez que so avaliadas
pela mesma unidade fsica (Joule, erg), pode-se dizer indiferentemente: T=m . v, ou
E = m . v.
Finalmente, se a velocidade v fosse a velocidade da luz (c), cairamos na velha equao da
41
liberao da energia, descoberta por Einstein: E = m . c!
Portanto, a nova varivel de trabalho, calculada a partir de variveis medidas nos
experimentos, seria agora a energia (E) consumida na dissoluo do tecido da polpa bovina,
energia essa que difere de uma para outra das solues utilizadas nos experimentos.
Exemplo: um massa de uma substncia qualquer com peso = 2,33g, dissolvida pela soluo
A em 53 segundos teria uma velocidade de dissoluo 2,33 / 53 = 0,044 g / seg. A energia
despendida, ou o trabalho realizado, nessa dissoluo seria
0,044 x 2,33 = 0,0045 ergs, ou, pelo SI (MKF) 45 x 10-7 Joules.
Em termos de Fora, teramos F = m . v, ou F = 0,044, igual a 0,0019 dinas no sistema
CGS, que corresponde a 19 x 10-5 Newtons, aproximadamente, no sistema SI (MKF). Ter-se-
ia de multiplicar o resultado da operao por 9,80665, mas a diferena irrelevante para a
anlise estatstica, porque todos os dados seriam ento multiplicados pelo mesmo valor
escalar.
Uma observao importante: aps a mudana das variveis, a discusso dos resultados da
anlise estatstica ter forosamente de ser feita em termos da nova varivel.

Exemplo no.3: a varivel rea (produto de 2 variveis).

Imaginemos um trabalho de pesquisa em que se estuda a velocidade de resfriamento de


corpos-de-prova, deixados expostos ao meio ambiente, aps terem sido previamente
aquecidos a temperaturas diferentes. Para avaliar esse resfriamento, sua temperatura seria
medida de minuto em minuto, variando de um para outro corpo-de-prova.
Este tipo de pesquisa um exemplo tpico de como se pode usar reas como varivel, em
vez das duas realmente utilizadas no decorrer do trabalho experimental, variveis essas que
seriam o tempo gasto no resfriamento at a volta temperatura ambiente, e as medidas de
temperatura do corpo-de-prova minuto aps minuto.
Lanadas em grfico essas duas variveis, associadas como pares de tempo/temperatura,
nos quais o tempo seria marcado no eixo das abscissas (eixo de x), e as temperaturas nas
ordenadas (eixo de y), o resultado seria uma rea fechada, limitada por trs linhas: duas retas
(os eixos de x e y) e uma curva (curva de decrescimento da temperatura ao longo do tempo).
As reas determinadas por essas linhas podem ser usadas como a varivel do experimento,
com a vantagem de associar as duas variveis utilizadas simultaneamente, e no isoladamente.
Essa nova varivel traduziria numericamente a quantidade total de calor perdido durante todo
o tempo gasto no resfriamento dos corpo-de-prova.
No se trata de uma sugesto puramente terica. J usei pessoalmente esse recurso em um
trabalho de tese, para o qual os meus prstimos foram solicitados. No caso real, registravam-
se as temperaturas no interior de canais radiculares, aps a aplicao de irrigaes com soda
clorada, e media-se, por meio de um par termoeltrico, a queda de temperatura da soluo,
dentro do conduto, minuto a minuto, durante o tempo decorrido at que a temperatura voltasse
quela que o canal apresentava no incio do experimento.
s vezes, quando os erros experimentais relativos s reas, no apresentam distribuio
normal, torna-se necessria a transformao dos dados pela raz quadrada dos valores
numricos dos dados realmente obtidos.
Nessa transformao, o que se faz de fato encarar todas reas calculadas como se fossem
quadrados eqivalentes ou seja, com a mesma rea da figura de contorno irregular
projetada em grfico, figura essa j comentada em pargrafo anterior de tal forma que a
raiz quadrada desses quadrados transformaria uma grandeza bidimensional (rea dos
quadrados) em uma grandeza unidimensional, que seria o comprimento dos lados desses
quadrados. Esse tipo de transformao costuma tornar normal uma distribuio e erros antes
no-normal, porque tende a reduzir a amplitude da variao dos dados amostrais originais.

42
Exemplo no.4: varivel rea (mtodos estereolgicos).

Um recurso muito prtico para calcular reas, principalmente de figuras fechadas e de


contorno irregular, o uso da Estereologia, que basicamente consiste em utilizar uma grade
de pontos com dimenses conhecidas, para calcular a superfcie contida no interior de uma
linha de contorno qualquer, a partir do nmero de pontos que incidem sobre a superfcie
fechada que est sendo avaliada.
evidente que, quanto maior for a rea da figura, tanto maior ser a probabilidade de um
nmero maior de pontos da grade carem dentro dela. Na verdade, h uma proporcionalidade
matemtica entre o nmero de pontos que recaem no interior da figura e a sua rea real.
Assim, esta pode ser calculada por comparao com a superfcie total da grade de pontos
utilizada, que uma rea conhecida e representa, em termos de dimenso real, 100 % da rea
da grade de pontos, traduzidos pelo nmero total de pontos nela contidos.
A grade de pontos pode ser adaptada ocular de um microscpio, ou opcionalmente
traada em papel, projetando-se sobre este a imagem microscpica da rea que se quer medir,
por meio de uma cmara clara. Este segundo mtodo tem a vantagem de possibilitar a
contagem de pontos posteriormente, abreviando o tempo em que o pesquisador fica preso ao
microscpio, um processo muitas vezes cansativo para os olhos.
Um terceiro mtodo consiste em obter slides das reas a serem medidas (ou cpias
transparentes dessas reas), as quais podero ser aumentadas, pela projeo das transparncias
sobre um anteparo, o que permite o emprego de grades com maior nmero de pontos, dando
maior preciso avaliao das reas, e maior comodidade visual na contagem de pontos.
Os mtodos estereolgicos podem ser empregados tambm na contagem diferencial de
elementos componentes de uma estrutura qualquer, sejam eles elementos tissulares simples,
tais como clulas num processo inflamatrio ou neoplsico, sejam estruturas mais complexas,
como vasos sanguneos, trabculas sseas ou fibras colgenas, num processo de cicatrizao
de uma ferida qualquer.
Com auxlio dos mtodos estereolgicos, caso seja levada em considerao a espessura dos
cortes histolgicos, por exemplo, possvel avaliar tambm o volume das estruturas
estudadas, aparentemente a partir de imagens tomadas em duas dimenses. So portanto
mtodos extremamente teis, porque permitem ao pesquisador transformar em valores
numricos algo que basicamente de natureza qualitativa, e no quantitativa, como o caso
dos cortes histolgicos. Esse mesmo recurso estereolgico foi utilizado no artifcio tcnico
descrito a seguir.

Exemplo no.5: transformao de reas em vetores.

Alm dos quadros histolgicos, as radiografias so tambm exemplos de quadros cuja


natureza basicamente qualitativa. O autor destas linhas j teve em mos um caso em que os
resultados do trabalho de pesquisa de um ps-graduando consistiam numa srie de
radiografias da articulao temporomandibular (ATM). Quando me procurou, travamos o
seguinte dilogo:

E agora, professor, o que fao com os resultados da minha pesquisa?!, perguntou-me,


completamente desarvorado.
Examinei uma das radiografias contra a luz, e perguntei, por meu turno:
Voc se lembra de uma coisa que aprendeu no colegial (ou mesmo no cursinho para o
vestibular) chamada nmeros complexos?
No me lembro, confessou-me ele, sem saber aonde eu queria chegar.
Mas eu me lembro, repliquei, e exatamente o fato de me lembrar que vai resolver o seu
43
problema...
O que vem a ser nmero complexo, professor?
Talvez voc o conhea pelo nome de nmero imaginrio, representado por aquele i
usado em equaes de segundo grau quando, aps a aplicao da frmula de Bhaskara,
resultam razes quadradas de nmeros negativos. Por exemplo, a raiz de 4, que transcrita
como 2i. O nmero dito imaginrio porque no h raz quadrada de nmeros negativos,
uma vez que qualquer nmero positivo ou negativo, quando elevado ao quadrado produz
apenas nmeros positivos.
E como posso reconhecer um nmero complexo?
A forma geral de um nmero complexo n = a + bi, onde n um nmero complexo
qualquer, a e b so nmeros reais, e i a raiz quadrada de 1 , ou seja:

Mas o que tem isso a ver com as minhas radiografias?!


Tem tudo a ver. Se voc aplicar o teorema de Pitgoras, usando os valores de a e b, ter
a amplitude do deslocamento do cndilo de sua posio central; e se dividir b por a, ter a
tangente do ngulo em que esse deslocamento se deu. Para saber que ngulo esse, basta
consultar uma tabela da funo tangente.
E como consigo esses valores de a e b?
Precisamos criar um mtodo para obter esses valores, e nada melhor do que criar dois
vetores para represent-los.
Eu julgava estar esclarecendo o assunto, mas ele parecia cada vez mais confuso. Na
verdade, eu ainda no imaginara o mtodo, mas j estava pensando nele exatamente naquele
momento e ele me surgiu por inteiro, de um instante para o outro: bastaria criar dois
ndices estereolgicos, um horizontal e um vertical, e us-los guisa de vetores, como se
fossem um sistema vetorial com dois deslocamentos ortogonais, do qual se determinaria a
resultante, calculando-lhe o mdulo e o ngulo de inclinao correspondentes.
A maneira como isso foi feito bastante simples:
Primeiramente, selecionaram-se dois pontos de referncia anatmicos cuja posio fosse
relativamente estvel nas radiografias da ATM, ou seja, que variasse pouco, em funo de
pequenas variaes decorrentes do ngulo de incidncia dos raios-x. Os pontos de referncia
escolhidos foram a imagem do meato auditivo externo e a crista anterior da cavidade articular
da ATM.
Em seguida, por meio de um projetor comum de slides, projetava-se a imagem da
radiografia sobre uma folha de papel presa a um anteparo vertical plano, colocado sempre
mesma distncia do projetor, para que a ampliao fosse sempre a mesma em todas as
radiografias, e traava-se a lpis o contorno do cndilo, da cavidade articular e do conduto
auditivo.
Uma vez obtido o desenho ampliado da ATM (com os pontos de referncia citados nos
itens anteriores), traavam-se seis linhas retas sobre esse desenho, sendo trs verticais e trs
horizontais.
A linha bsica horizontal era uma reta que tangenciava ao mesmo tempo a crista da parede
anterior da cavidade articular da ATM e a borda inferior do meato auditivo. As outras duas
retas horizontais eram paralelas a essa linha bsica, e tangenciavam respectivamente o
contorno superior da cabea do cndilo e o contorno da cavidade articular em seu ponto mais
elevado.
A linha bsica vertical era uma perpendicular linha bsica horizontal, e passava sobre o
ponto em que esta tangenciava o contorno do cndilo. As outras retas verticais eram paralelas
44
a essa vertical bsica e passavam sobre os ponto de interseo da linha bsica horizontal com
o contorno da cavidade articular, sendo portanto um anterior e outro posterior a essa linha
vertical bsica.
Desse modo, as seis linhas assim traadas delimitavam uma rea retangular subdividida em
quadrantes, sendo dois destes superiores e dois inferiores, e ao mesmo tempo dois anteriores e
dois posteriores, conforme considerados no sentido vertical ou horizontal do desenho.
Sobre esse esboo da ATM era colocada uma grade de pontos, e contados os pontos que
incidiam em cada um dos quadrantes. A soma do nmero de pontos contidos nos dois
quadrantes superiores, dividida pela soma do nmero de pontos incidentes sobre os dois
quadrantes inferiores, fornecia o valor do vetor vertical do sistema vetorial buscado.
Da mesma forma, a soma dos pontos contidos nos dois quadrantes anteriores, dividida pela
soma dos pontos referentes aos dois quadrantes posteriores, fornecia o valor do vetor vertical
desse sistema vetorial. Esses dois valores numricos eram, em suma, o a e o b procurados para
definir o nmero complexo que caracterizava cada uma das radiografias da ATM, que eram
assim transformadas em valores nmricos, o que as tornava passveis de uma anlise
estatstica coerente, que antes parecia uma tarefa tecnicamente irrealizvel. E assim foi feito...
Uma observao interessante sobre o mtodo acima descrito que, quando o nmero de
pontos contidos nos quatro quadrantes exatamente o mesmo em todos eles, isso resulta em
dois vetores iguais a 1, que teoricamente deveria representar a posio centrada do cndilo no
interior da cavidade articular. Entretanto, o clculo do mdulo do vetor resultante revela que
essa posio, dada pela raiz quadrada de 1 + 1 (2), igual a 1,4241356, e no 1 ou 0, como
se poderia pensar. Da mesma forma, o ngulo cuja tangente igual a 1 o de 45, e no 0...
Assim, todos os deslocamentos do cndilo devero ser estudados em relao a esses valores
referenciais tericos, a fim de se avaliarem corretamente os valores reais desses desvios de
posio (extenso e angulagem).

Exemplo no.6: a probabilidade binomial como varivel.

Outro caso curioso envolvia o emprego do teste bacteolgico conhecido como BANA. A
ps-graduanda, autora do trabalho, dividia cada arcada dentria em trs regies, sendo duas
posteriores e uma anterior, o que resultava na diviso das duas arcadas em seis sextantes. De
um dente pertencente a cada um desses sextantes, colhia-se uma amostra do contedo de
bolsas periodontais ali existentes, e com esse material realizadvam-se os testes
bacteriolgicos, que poderiam dar resultados exclusivamente positivos (+) ou negativos (-).
O projeto inicial de trabalho previa a contagem e a comparao do nmero de resultados
positivos nos dois grupos estudados, que reuniam pacientes diabticos do tipo I (insulino-
dependentes) e do tipo II (no-insulino-dependentes). Tudo estaria bem, no fossem dois
detalhes, dos quais a autora do trabalho aparentemente no se dera conta ao planejar sua
pesquisa.

a) O primeiro desses detalhes dizia respeito ao fato de nem sempre os seis sextantes estarem
presentes, uma vez que muitos pacientes eram parcialmente desdentados, o que fazia variar o
nmero de sextantes, e conseqentemente o nmero de testes, por paciente. Essa
variabilidade do nmero total de testes por paciente desaconselhava a contagem pura e
simples do nmero de resultados positivos do teste BANA, uma vez que dois casos positivos
em trs testes realizados, por exemplo, no significam a mesma coisa que quatro, cinco ou
seis casos positivos obtidos em seis testes realizados.

Para resolver o problema, sugeri um artifcio estatstico que no me consta ter sido usado
jamais por algum anteriormente: adotar a probabilidade binomial de, em n testes realizados,
45
serem obtidas m respostas positivas (+); ou afirmativas, caso a varivel inicial consistisse em
respostas afirmativas (sim), ou negativas (no).
Com essa mudana de varivel, os dados numricos deixavam de ser valores discretos, que
podiam ser apenas contados, produzindo freqncias que variavam de 0 a 6, para se
transformarem em grandezas contnuas, que variavam de 0 a 1, que a variao da
probabilidade, ou de 0 a 100, se essas probabilidades fossem transformadas em probabilidades
percentuais, uma escolha que, em termos estatsticos, totalmente indiferente.
E assim foi feito, com o mais absoluto sucesso.
Para aqueles que possam algum dia ter diante de si o mesmo problema, transcrevemos
abaixo a equao utilizada para efetuar a transformao das freqncias de respostas + e - (ou
sim e no) em probabilidades de ocorrncia dessas freqncias em n nmero de casos:

onde q = nmero de respostas negativas (-), e p = nmero de respostas positivas (+).

b) O segundo detalhe acima mencionado, que entrevi logo de incio no plano de pesquisa ora
comentado, envolvia um problema talvez bastante comum entre os pesquisadores: a escolha
do grupo controle, principalmente quando, como no caso focalizado, duas condies
patolgicas esto simultaneamente presentes no mesmo paciente, e se deseja estudar uma
delas exatamente em funo da presena concomitante da outra.

Nesse caso, convm que o grupo controle no seja formado por indivduos sadios, mas sim
por pessoas portadoras de apenas uma das condies patolgicas estudadas, para que se
possam avaliar convenientemente os efeitos da outra sobre esta, que os pacientes controles
tambm apresentam. No caso da associao diabetes/doena periodontal, evidente que o
interesse maior concentra-se nesta ltima, e que aquilo que se quer verificar de que maneira
os dois tipos diferentes de diabetes poderiam influir no desenvolvimento, ou no agravamento,
da condio periodontal.
Assim, o ponto de referncia (grupo controle) seria representado por pacientes no-
diabticos, porm igualmente portadores de doena periodontal, mesmo porque j est
perfeitamente estabelecido que os pacientes diabticos tendem a desenvolver doena
periodontal, mais cedo ou mais tarde, de modo que sempre mais fcil encontrar pacientes
no-diabticos com doena periodontal, do que achar pacientes diabticos sem doena
periodontal.

Exemplo no.7: escores, uma varivel que se deve evitar (sempre que possvel).

Tenho tanta f nos escores, como varivel capaz de avaliar um fenmeno qualquer, como
tenho nas notas de avaliao como meio eficaz para julgar o desempenho de um aluno na
escola. Tanto aqueles como estas implicam um grau de subjetividade que sempre grande
demais para o gosto de um estaticista. Os estaticistas, de um modo geral, preferem tratar com
variveis que sejam mais objetivas do que uma simples opinio pessoal, a qual nunca possui a
imparcialidade fria de um instrumento de medida.
De fato, a opinio humana, por melhor que seja o avaliador, sempre mais sujeita a falhas
de interpretao do que um instrumento de medida, seja este qual for e seja qual for o seu grau
de preciso. Em termos puramente estatsticos, isso quer dizer que a variabilidade da opinio
humana tende a aumentar o valor do erro experimental, o que conduz fatalmente a uma
46
reduo na capacidade de julgamento de pequenas diferenas entre as grandezas comparadas.
Realmente, preciso ter sempre em mente que a significncia estatstica a conseqncia
direta de uma diviso de varincias; ou seja, uma frao ordinria na qual o numerador (ou o
dividendo) a varincia observada entre as grandezas comparadas, e o denominador (ou o
divisor) a varincia entre as repeties (ou seja, a varincia do erro experimental). Ora, se o
denominador da frao for demasiadamente grande, o quociente da diviso ser pequeno
demais: e se for pequeno demais, o quociente ser demasiadamente grande. Em qualquer das
alternativas, o resultado estar prejudicado, produzindo falsas no-significncias no primeiro
caso, e falsas significncias no segundo. Por isso, o erro tem de ser razovel, nem
exageradamente pequeno, nem desmesuradamente grande. Os escores tendem a produzir erros
experimentais grandes demais, no caso de avaliadores determinados aleatoriamente; e
pequenos demais, no caso dos avaliadores ditos calibrados.
Do ponto de vista estatstico, um resultado significante, no caso de erros experimentais
grandes demais, seria altamente confivel, uma vez que revelou significncia mesmo com o
tamanho do erro experimental trabalhando contra. Todavia, o mesmo no se poderia dizer
com relao aos resultados no-significantes, que poderiam caracterizar aquilo que se
convencionou chamar de falsos negativos. Neste caso, a diferena entre os grupos
comparados estaria sendo mascarada pelas diferenas muito grandes encontradas entre as
prprias repeties realizadas dentro de cada grupo. Tecnicamente, em jargo estatstico, se
diria que a variao entre grupos seria mais ou menos igual variao intra-grupo e
exatamente essa quase-igualdade que caracteriza a no-significncia estatstica.
O raciocnio expresso no pargrafo anterior vale tambm para o caso de resultados no-
significantes, em caso de erros experimentais demasiadamente pequenos. Neste caso, os
resultados seriam vlidos para a no-significncia, mas poderiam acarretar erros nos casos de
significncia (falsos positivos).
A razo basicamente a mesma j exposta no pargrafo referido: a significncia aparente
correria por conta apenas da diviso de uma varincia relativamente grande entre grupos por
uma varincia intra-grupo inadequada exatamente por ser pequena demais. Seria como querer
avaliar a variao do tamanho de melancias tomando como base a variao do tamanho de
jabuticabas. Haveria, nesse caso, incompatibilidade entre o objeto medido e a unidade de
medida utilizada por esse motivo, exatamente, que se mede tecido em metros, estrada em
quilmetros, e clula em micrometros.
Contudo, por uma questo de coerncia, devo observar que aquilo que foi dito acima traduz
tambm apenas uma opinio pessoal do autor destas linhas, com tudo que uma opinio
pessoal possa implicar, de acordo com o prprio texto em que essa opinio foi exposta. Alis,
o prprio Cristo j prevenia seus apstolos contra o perigo do julgamento humano, quando
sabiamente ensinou: "No julgueis, para no serdes julgados, pois com o julgamento com que
julgais sereis julgados, e com a medida com que medis sereis medidos" (Mateus, 7:1-2).
Apesar do risco, todavia, no posso deixar de expressar minha opinio, e estou disposto a
agentar o tranco que disso advier. Mesmo porque o ensinamento do Mestre apenas confirma
essa opinio: aquele que usa escores deve estar tambm preparado para enfentar as
conseqncias dos erros de julgamento de seus avaliadores.
O diabo (como provavelmente diria o prprio Criador) que s vezes no h como evitar
us-los, porque a natureza do experimento pode tornar incontornvel o seu emprego na
avaliao experimental... Mas, pelo amor de Deus!, se o uso de escores for inevitvel, jamais
calibrem os seus avaliadores, porque isso tornaria a coisa ainda pior!
Uma observao final sobre os escores: evitem o escore 0 (zero). Procurem comear com o
escore 1 para indicar a ausncia seja l do que for. Como a gradao uma classificao
meramente convencional, isso pode ser feito sem nenhum problema. O grau 0 no esclarece
coisa alguma, mas pode acarretar alguma dificuldade, em caso de diviso por 0, ou se houver

47
necessidade de transformao logartimica dos dados.
Aproveitando o ensejo, deve-se, tanto quanto possivel, evitar dados com valores negativos,
porque eles poderiam complicar as coisas em caso de ser necessrio extrair a raiz quadrada
desses valores negativos. Os zeros e os valores negaivos no so dificuldades incontornveis,
quando presentes, mas a sua inexistncia pode poupar tempo ao investigador, quando do
tratamento estatstico dos dados obtidos em sua pesquisa.

Exemplo no 8: uso e abuso.

Da varivel porcentagem.

O principal, e provavelmente o mais comum dos abusos e das liberdades que se tomam
com a varivel porcentagem, talvez consista em us-la para nmeros de dados inferiores a
100. De fato, esse procedimento raia pelos domnios da profecia, ou da adivinhao, uma vez
que, a partir de um nmero reduzido de dados, pretende-se extrapolar freqncias e achados,
observados em amostras reduzidas, para amostras de tamanho igual ou maior que 100,
amostras estas no existentes, e que podem no vir a apresentar as mesmas caractersticas dos
dados que j foram obtidos at aquele momento, podendo na verdade fugir completamente a
essas caractersticas, uma vez que porcentagens atuais no garantem porcentagens iguais no
futuro.
Porcentagens so portanto dados que falam de fatos passados, e no de fatos que ainda no
aconteceram. Quando se diz tantos por cento, o que se quer dizer que para cada grupo de
cem dos dados (que j se tem em mos) uma certa parte tem uma determinada caracterstica,
dentre as que se esto estudando. Nada garante que o dobro do nmero desses dados vir a
apresentar o dobro dessa freqncia.
Em caso de amostras pequenas, prefervel falar em proporo, e no em porcentagem. Por
exemplo: 6 casos em 36 estudados (6 / 36 = 0,167). A porcentagem seria essa mesma
proporo multiplicada por 100 (16,67%), mas s teria sentido se se tratasse de 60 em 360
dados, ou, na pior das hipteses, de 17 em 100 para a mesma porcentagem.

(Falta escrever) A transformao angular.

Exemplo no10: as variveis multidimensionais.

Raciocnio idntico ao apresentado no Exemplo no4 pode ser feito em relao a variveis
tridimensionais, das quais o volume o exemplo representativo mais simples. A raiz cbica
dos dados transforma essa grandeza tridimensional e uma grandeza unidimensional, que seria
o comprimento da aresta de um cubo, mesmo que o volume inicial no seja exatamente um
cubo, mas uma esfera, um elipside, ou um slido sem forma definida, mas cujo volume pode
ser medido. Qualquer que seja o slido, o valor do seu volume pode ser transformado
numericamente em um valor equivalente ao de um cubo com uma aresta de comprimento x,
aresta essa que, elevada ao cubo, reproduz o volume tanto do prprio cubo como do volume
do slido inicialmente considerado. Nesse caso, o tratamento estatstico pode ser feito
considerando as arestas dos diversos cubos de volumes equivalentes aos dos slidos originais,
independentemente da forma real destes.

(Abaixo esto os itens que faltam ainda para escrever:)

Resumos dos testes que constam no software GMC

48
Exemplo no. 9: o denominador comum nas comparaes.

Nmero suficiente de dados da amostra. Como calcular?

19. Filosofia de alguns testes estatsticos


A. Testes paramtricos, para duas amostras (independentes ou vinculadas).

1. Filosofia do teste t de Student.

Uma populao definida por dois parmetros: a mdia e o desvio-padro, que so nicos
para essa populao como um todo. Entretanto, a Estatstica no lida com populaes inteiras,
mas utiliza subconjuntos dessas populaes, aos quais chama amostras.
Como as amostras envolvem um nmero reduzido de elementos representativos da
populao da qual fazem parte, natural que a sua mdia e o seu desvio-padro difiram
alguma coisa em relao aos parmetros da populao considerada em seu todo.
Os mtodos estatsticos visam a possibilitar que se possam tirar concluses sobre os
parmetros populacionais, partindo de informaes obtidas a partir de amostras dela retiradas.
Como a mdia e o desvio-padro das amostras, mesmo pertencendo estas mesma
populao, sempre divergem alguma coisa em relao aos parmetros reais da populao,
compreensvel que, se forem traados os grficos das distribuies amostrais e da populao
original, por certo haver alguma discrepncia entre todos eles.
Como as amostras pertencem todas mesma populao, e mesmo assim h diferenas,
natural que a variao decorrente da prpria variabilidade casual da amostragem deva ser
considerada, ao se avaliar a igualdade entre os parmetros da amostra e os da populao
original, ou mesmo entre os de duas amostras entre si.
Em resumo: preciso respeitar uma certa faixa de variao, dentro da qual as amostras so
consideradas como provindas de uma mesma populao, ou como iguais entre si.
Os testes estatsticos em geral, e entre eles o teste t, visam a estabelecer precisamente os
limites alm dos quais duas amostras j no devam ser consideradas como retiradas de uma
mesma populao, e sim como pertencentes a populaes diferentes.
Quando as amostras comparadas so independentes, o teste t destina-se a verificar se
mesmo assim pertencem mesma populao, apenas com variaes casuais de amostragem.
Quando so vinculadas, visam a verificar se algum tratamento realizado teve o dom de
modificar os parmetros amostrais, fazendo nascer assim uma nova populao, com
parmetros tpicos diferentes da inicial.

B. Testes paramtricos, comparaes mltiplas.

2. Filosofia da anlise de varincia (fatores de variao independentes).

Para entender a anlise de varincia, preciso distinguir dois conceitos fundamentais: a)


varivel e b) fator de variao.
Varivel: a medida pela qual alguma coisa avaliada, tal como o peso, a altura, a rea, o
volume, o teor de alguma substncia, etc.
Fator de variao: tudo aquilo que faz a varivel realmente variar. Por exemplo, um
tratamento que faa variar o peso, a altura, o volume, o teor de glicose no sangue, etc.
A varivel sempre uma s, mas o fator de variao pode ser mltiplo. De fato, fatores
diversos podem atuar ao mesmo tempo, influindo todos sobre uma caracterstica qualquer da
amostra.
49
A filosofia do teste admite que o efeito final dos mltiplos fatores de variao que atuam ao
mesmo tempo sobre uma varivel pode ser decomposto e analisado por partes (da o termo
anlise aplicada ao teste).
Esses efeitos parciais referem-se a trs tipos de variao:

a) a variao causada pelos fatores intencionalmente introduzidos no experimento, at certo


ponto controlada pelo pesquisador;
b) a variao determinada pelas possveis interaes entre alguns ou entre todos esses fatores
experimentais controlados; e
c) a variao ocasional, no-controlada, decorrente de causas estranhas, muitas vezes
desconhecidas, que em conjunto constituem o erro experimental, presente em qualquer ensaio.

O erro experimental chamado de variao residual, ou simplesmente resduo


importantssimo, porque por ele que se mede a significncia estatstica de um experimento.
A significncia estatstica no mais do que uma comparao entre a variao experimental
controlada e a variao no-controlada (erro).
A filosofia geral do teste muito simples: ela admite que, se um fator de variao
realmente ativo num experimento, os seus efeitos aparecem e podem ser isolados, mesmo
quando diversos fatores atuam simultaneamente. A varincia final do experimento seria,
assim, uma adio de trs varincias separveis: a dos fatores principais, a de suas interaes,
e a do erro.
Na anlise de varincia com mltiplos fatores, chamados estes de critrios de variao, ou
de classificao, cada fator (ou interao) analisado separadamente, ignorando-se os demais,
considerados estes, para todos os efeitos, como simples repeties.
Por exemplo: se forem estudadas duas drogas (A e B), administradas em duas
circunstncias diferentes (C e D), ao se analisarem os efeitos das drogas A e B, o dados de C e
D so classificados apenas em relao a A ou a B. O efeito conjugado droga/circunstncia
seria analisado tambm, claro, mas como um fator secundrio denominado interao.
O nmero de fatores de variao estudados deve limitar-se a 3 no mximo, porque o
nmero de interaes possveis aumenta consideravelmente com nmeros maiores, uma vez
que a quantidade de varincias a serem analisadas dada pela equao: N = 2n - 1, onde N o
nmero de varincias, e n o nmero de fatores de variao. Um excesso de varincias
(principalmente de interaes) leva a um emaranhado de interligaes, quase sempre de difcil
interpretao. Num ensaio com 5 variveis, por exemplo, o nmero de varincias a serem
estudadas seria: 25 - 1, ou seja, 32 - 1 = 31 varincias!

3. Filosofia da anlise de varincia (fatores de variao vinculados).

Imagine-se uma pesquisa feita para comparar a dureza da dentina em cortes transversais de
razes dentais, nos teros cervical, mdio e apical, nas regies junto ao canal radicular, perto
do cemento e a meia distncia entre elas, aps tratamento das seces com diversas solues
auxiliares da instrumentao dos canais radiculares, aplicadas durante tempos diferentes.
Esse um exemplo de um experimento em que os fatores de variao esto todos
vinculados, com exceo das repeties (que seriam as diversas razes usadas para repetir o
ensaio).
A experincia mostra que, quando existe vinculao, h tambm uma certa hierarquia na
dependncia entre os fatores vinculados. Por exemplo: no caso citado, os trs teros referem-
se mesma raiz dental, as trs regies da dentina ao mesmo tero da raz, e as solues
irrigantes atuam durante tempos diferentes, porm sobre as mesmas regies de cada corte
dental. Neste caso, comeando com o mais dependente, a hierarquia da vinculao seria:
50
tempos de ao, regies da dentina e teros da raiz.
O modelo matemtico-estatstico e a forma de programao no computador (GMC
Software) exigem que os dados sejam introduzidos obedecendo a essa hierarquia. Assim, o
fator mais dependente deve ser sempre colocado nos blocos da tabela de dados, seguindo-se
as linhas e as colunas (a organizao da tabela pode ser vista no progama estatstico GMC,
onde se explica como os dados devem ser introduzidos no computador, para que a
programao funcione corretamente).
O progama estatstico GMC abrange modelos estatsticos com dois ou com trs fatores de
variao, podendo o primeiro ter um ou dois fatores vinculados, e o segundo um, dois ou trs
fatores mutuamente vinculados. Quando todos os fatores so interdependentes, o nico fator
que sempre permanece independente so as repeties, cuja variao pode ser isolada e o seu
efeito avaliado.
Organize corretamente a sua tabela de dados, de modo a introduzir os valores numricos na
ordem adequada, caso contrrio o programa fornecer resultados incorretos, uma vez que os
dados estaro misturados.

4. Filosofia da anlise de varincia (1 fator de variao com repeties).

A anlise de varincia geralmente envolve uma amostra populacional equilibrada, na qual


os grupos estudados tm um nmero igual de repeties, principalmente quando h diversos
fatores de variao (ou critrios de classificao dos dados) envolvidos.
Todavia, quando h apenas um fator de variao, ou seja, quando o conjunto de dados
consiste de vrios grupos que devem ser comparados entre si, possvel realizar uma anlise
de varincia desse conjunto de dados, mesmo que cada um dos grupos tenha um nmero
diferente de repeties, o que ocorre freqentemente.
Esses grupos poderiam ser comparados dois a dois, pelo teste t de Student, por exemplo,
mas isso s vezes envolve a realizao de um grande nmero de testes, dependendo do
nmero de grupos a serem comparados. A anlise de varincia tem a vantagem de comparar
todos os grupos com um nico teste.
Quando uma pesquisa envolve mais de um fator de variao, ainda que a anlise de
varincia no seja de todo impossvel, ela seria muito complicada. Mais prtico ser ento
usar amostras equilibradas, onde todos os grupos tenham o mesmo nmero de repeties.

Testes no-paramtricos, amostras independentes (uma s varivel, duas amostras


comparadas).

5. Filosofia do teste de Mann-Whitney.

Se duas amostras forem retiradas ao acaso de uma mesma populao, a ordenao crescente
e conjunta dos dados das duas amostras tende a mistur-los uniformemente. Isso faz com que
os dados se encaixem de maneira eqitativa, tal como se intercalam os nmeros pares e
mpares na seqncia natural dos nmeros reais.
medida em que os valores ordenados das duas amostras se separam e se afastam, a
probabilidade de elas pertencerem mesma populao vai se tornando cada vez mais remota.
Os valores de U calculados pelo teste avaliam o grau de entrelaamento dos dois conjuntos de
valores numricos confrontados.
O caso extremo ocorre quando as duas amostras j no se intercalam isto , so disjuntas
o que indica tratar-se de amostras provindas de populaes diferentes. A disjuno dos
dados traduz a significncia estatstica mxima do teste, e ocorre quando o U menor igual a
0 (zero).

51
6. Filosofia do teste da mediana (para 2 amostras).

O teste da mediana visa a verificar se duas amostras diferem em relao s suas tendncias
centrais, uma vez que a mediana e o valor que marca o centro da distribuio amostral.
Assim, o teste exige que as amostras possam ser pelo menos passveis de uma ordenao
por valores ascendentes dos dados, para que se possa calcular o valor que divide o conjunto de
dados das amostras reunidas exatamente ao meio, ou seja, com 50% dos dados acima e 50%
abaixo desse valor. Esse valor a mediana.
A filosofia do teste admite que, se duas amostras provm de uma mesma populao (isto ,
se so estatisticamente iguais), a mediana do conjunto de dados reunidos no difere
significantemente da mediana de cada uma delas considerada isoladamente.
O teste , no final, um teste de (qui-quadrado) em que as freqncias comparadas se
referem ao nmero de dados em cada uma das amostras comparadas que se encontram
acima ou abaixo da mediana comum, calculada para o conjunto das amostras reunidas.

7. Filosofia do teste do 2 (qui-quadrado), 2 x 2.

O teste do 2 (qui-quadrado) um teste que compara freqncias obtidas


experimentalmente com freqncias tericas, calculadas matematicamente para o mesmo
nmero de dados da amostra.
Os dados devem portanto ser grandezas discretas, isto , alguma coisa que possa ser
contada e reduzida a uma tabela de freqncias, tabela essa denominada tabela de
contingncia.
A tabela de contingncia formada de duas linhas e duas colunas. O grau de liberdade
dado pelo produto de (2-1) x (2-1) = 1 x 1 = 1.
O teste calcula a relao: quadrado da diferena entre as freqncias obtida e esperada em
cada uma das quatro clulas da tabela de contingncia, dividido pela freqncia esperada, e
soma esses quadrados.
O teste considerado significante quando essa soma ultrapassa determinados valores,
relacionados em tabelas apropriadas, valores esses que dependem do grau de liberdade da
amostra.
Os testes no so exatamente iguais para tabelas com apenas 1 ou mais de 1 grau de
liberdade, e por isso essas duas possibilidades so focalizadas separadamente neste programa
estatstico (para 2 x 2 ou para m x n freqncias).
Alm disso, h uma srie de restries:

A. Para 1 grau de liberdade:


a) pode ser aplicado para n maior que 40 (n = nmero total de dados);
b) para n entre 20 e 40, o teste s pode ser aplicado se todas as freqncias esperadas forem
maiores ou iguais a 5;
c) se a menor freqncia for menor que 5, ou se n for menor que 20, ser prefervel usar o
teste exato de Fisher.

B. Para mais de 1 grau de liberdade:


a) nenhuma casela pode ter valor menor que 1;
b) o nmero de caselas com valores esperados menores do que 5 no pode ultrapassar 20 %
do nmero total de caselas; e
c) se isso ocorrer, reformule a tabela (somando caselas vizinhas).

8. Filosofia do teste de igualdade entre propores.

52
Esse teste praticamente igual ao teste do (qui-quadrado), com a diferena de que as
freqncias so transformadas em propores, dividindo-se as freqncias obtidas em cada
uma de duas amostras pelo respectivo nmero total de dados dessa amostra.
A finalidade do teste verificar se duas propores podem ser consideradas iguais, quando
resultantes de amostragens com nmeros diferentes de dados. Por exemplo: ser que as
propores de 34 dados numa amostra com 147 dados, e de 167 dados em outra com 985
dados, seriam iguais? As duas propores so respectivamente 0,23129 e 0,16954. Seriam
elas estatisticamente eqivalentes?
Nesse caso, a resposta poderia ser dada tanto por este teste como por um simples teste de
. numa tabela 2 x 2.
Pode ocorrer, entretanto, que numa ou outra circunstncia no se possa usar o teste do .
Nesse caso, o teste da diferena entre duas propores poderia ser utilizado, como uma
alternativa para o teste do .
Este teste, todavia, tem tambm as suas restries, tal como as tem o prprio teste do .
Assim, como ocorre no , convm que as amostras sejam grandes, de tal modo que as
freqncias obtidas (Fn), ou os seus complementos (NFn), sejam todas maiores que 5.
O teste do tambm faz o mesmo tipo de exigncia. A nica diferena que o teste entre
propores no tem a correo de Yates.
Diante disso, toda vez em que for possvel, prefervel usar o teste do ou, se as
freqncias forem muito pequenas, o teste exato de Fisher.
Outra opo usar a distribuio de Poisson (para eventos raros). Um evento considerado
raro quando sua probabilidade de ocorrncia est prxima de 0 (zero). Praticamente,
considera-se raro o evento cuja ocorrncia de 5 vezes (ou menos) em 50 (ou mais) tentativas
(p 0,1). Isto , quando a probabilidade de 1 evento x o nmero de tentativas (n) igual a 5,
ou menor que 5 (p.n 5).

9. Filosofia do teste de Fisher.

O teste exato de Fisher testa diferenas entre dois grupos independentes (G1 e G2), em
relao a uma varivel qualquer que s admita duas alternativas como resposta: Sim/No,
Positivo/Negativo, ou +/. Isso leva construo de uma tabela de contingncia 2 x 2.
O teste basicamente um (qui-quadrado), porm o teste de Fisher particularmente
adequado para pequenas amostras (com 20 dados ou menos), caso em que o teste do estaria
contra-indicado.
Em compensao quando o nmero de dados da amostra grande, o teste de Fisher que
no deve ser usado, porque envolve o clculo de fatoriais, o que pode conduzir a nmeros
excessivamente elevados. Nesses casos, a opo deve ser pelo teste do .

Testes no-paramtricos, amostras vinculadas (uma s varivel, duas amostras


comparadas).

10. Filosofia do teste de Wilcoxon.

Uma amostra A1 submetida a um tratamento T1, e o seu efeito medido. Posteriormente,


essa mesma amostra, chamada agora de A2, submetida a um segundo tratamento T2,
medindo-se o seu efeito pela mesma varivel usada no primeiro tratamento.
Comparando-se o efeito dos dois tratamentos em cada elemento da amostra, podem ocorrer
3 alternativas:

53
a) O efeito aumentou (+);
b) O efeito diminuiu (); e
c) O efeito permaneceu o mesmo (=).

At este ponto, o teste seria idntico ao chamado teste dos sinais. A diferena porm que,
no teste de Wilcoxon, leva-se em conta a magnitude do aumento ou da diminuio, e no
apenas a direo da variao para mais ou para menos.
Assim, para cada par vinculado A1/A2, calcula-se a diferena numrica T1 T2. Essa
diferena poder ser positiva, negativa, ou igual a zero (quando no houver variao, sendo
T1 = T2).
Uma vez calculadas todas as diferenas entre os valores obtidos para cada par de dados,
essas diferenas so ordenadas pelo seu valor absoluto (sem considerar o sinal), substituindo-
se ento os valores originais pelo posto que ocupam na escala ordenada.
Feito isso, atribui-se a cada um desses novos valores dos dados o mesmo sinal que eles
tinham antes da transformao em postos.
A filosofia do teste presume que, se os tratamentos forem idnticos, a soma dos postos com
sinais positivos ser equivalente soma dos postos com sinais negativos.
O teste de Wilcoxon calcula um valor z, ao qual est associada um valor de probabilidade.
Essa probabilidade traduz o grau de possibilidade de ocorrncia desse valor de z por mero
acaso, e no por efeito dos tratamentos efetuados (T1 = T2). No caso do GMC software, o
programa j faz automaticamente o clculo da probabilidade do z obtido pelo teste, no
havendo necessidade de consultar qualquer tabela.

11. Filosofia do teste dos sinais.

Uma amostra A1 submetida a um tratamento T1, e o seu efeito medido. Posteriormente,


essa mesma amostra, chamada agora de A2, submetida a um segundo tratamento T2,
medindo-se o seu efeito pela mesma varivel usada no primeiro ratamento.
Comparando-se o efeito dos dois tratamentos em cada elemento da amostra, podem ocorrer
3 alternativas:

a) O efeito aumentou (+);


b) O efeito diminuiu (); e
c) O efeito permaneceu o mesmo (=).

Os dados sero codificados apenas como 1 ou 0, para os valores maior e menor de cada par.
O valor real do dado no afeta o teste.
Calculando-se a freqncia em cada uma das duas primeiras alternativas e desprezando-se a
terceira, em que no houve alterao, pode-se estimar se as freqncias dos sinais + e
devem ser consideradas estatisticamente diferentes ou no.
A deciso estatstica envolve o clculo binomial da probabilidade de os sinais + e terem
aquelas freqncias por mero acaso.
Quando os pares vinculados puderem ser medidos quantitativamen-te, de forma que seja
possvel estabelecer no s a hierarquia, mas tambm o quanto um membro do par maior ou
menor do que o outro, o teste mais preciso seria o de Wilcoxon, e no este.

12. Filosofia do teste de McNemar.

Uma amostra A1 submetida a um tratamento T1, e o seu efeito medido. Posteriormente,


essa mesma amostra, chamada agora de A2, submetida a um segundo tratamento T2,
54
medindo-se o seu efeito pela mesma varivel usada no primeiro tratamento.
Comparando-se o efeito dos dois tratamentos em cada elemento da amostra, podem ocorrer
4 alternativas:

a) Foi positivo em A1 e A2 : T1+ e T2+ ;


b) Foi negativo em A1 e A2 : T1 e T2 ; e
c) Foi negativo em A1 e positivo em A2 : T1 e T2+ .
d) Foi positivo em A2 e negativo em A1 : T1+ e T2

Calculando-se a freqncia em cada uma das 4 alternativas, constri-se uma tabela de


contingncia 2 x 2.
A deciso estatstica dada por um teste de * (qui-quadrado), cujo resultado dir se a
distribuio de freqncias encontrada pode ser considerada puramente casual, ou se as
diferenas de freqncia devem ser atribudas realmente ao tratamento realizado.

13. Filosofia do teste binomial.

O teste binomial particularmente til em experimentos que apenas admitem duas


alternativas como resposta, tais como certo ou errado, sim ou no, verdadeiro ou falso,
masculino ou feminino, positivo ou negativo, e assim por diante.
O teste utiliza o desenvolvimento matemtico binomial de duas freqncias relativas
complementares p e q (sendo p + q = 1) para avaliar a probabilidade de elas poderem ser
consideradas estatisticamente no-diferentes, ainda que desiguais em termos puramente
numricos.
Assim, os dados experimentais utilizados pelo teste so as freqncias relativas p e q,
referentes s duas alternativas possveis naquele determinado experimento. A freqncia
esperada para p e q, em caso de igualdade perfeita, seria para ambos.
Como, num experimento, dificilmente p igual a q, o teste avalia, em ltima anlise, at
que ponto os valores de p e q podem diferir, sem deixarem de ser estatisticamente iguais.

Testes no-paramtricos, amostras independentes (uma s varivel, comparaes


mltiplas).

14. Filosofia do teste de Kruskal-Wallis.

O teste de Kruskal-Wallis uma espcie de anlise de varincia a um critrio de variao,


para dados amostrais independentes.
Por exemplo: a superfcie de n corpos-de-prova construdos com k marcas comerciais de
gesso para modelos seria igualmente lisa?
A varivel testada, nesse caso, o grau de lisura da superfcie dos corpos-de-prova, e o
nico fator que faz essa varivel alterar os seus valores a marca comercial dos gessos.
O erro experimental dado pela variao casual determinada por diferenas eventuais
ocorridas durante a confeco dos diversos corpos-de-prova (repeties) que constituem a
amostra referente a cada um dos materiais envolvidos.
A filosofia do teste considera que, se os materiais forem todos igualmente lisos, a nica
variao ser aquela decorrente dessa variabilidade natural, que sempre existe, mesmo entre
elementos de uma mesma populao.
O teste no utiliza os valores numricos diretamente, mas sim os postos que eles ocupam
numa srie de dados ordenados por valores crescentes, srie essa que rene num s conjunto
os dados de todas as amostras que vo ser comparadas. Os dados so introduzidos amostra
55
aps amostra.
Ainda segundo a filosofia do teste, se as k amostras comparadas provierem da mesma
populao (amostras iguais), a mdia dos postos correspondentes a cada amostra ser
aproximadamente igual.
Se isso no ocorrer, as amostras pertencero provavelmente a populaes diferentes * ou
seja, sero diferentes entre si.
Embora o teste tenha sido idealizado para testar um nico fator de variao, parece vivel
utiliz-lo tambm em casos de mais de um critrio de variao, desde que se faa a anlise de
um deles de cada vez, reunindo em grupos todos os dados que tenham em comum esse fator,
considerando os demais como simples repeties.

15. Filosofia do teste da mediana (para k amostras).

O teste da mediana visa a verificar se duas ou mais (k) amostras diferem em relao s suas
tendncias centrais, uma vez que a mediana e o valor que marca o centro da distribuio
amostral.
Assim, o teste exige que as amostras possam ser pelo menos passveis de uma ordenao
por valores ascendentes dos dados, para que se possa calcular o valor que divide o conjunto de
dados das amostras reunidas exatamente ao meio, ou seja, com 50 % dos dados acima e 50 %
abaixo desse valor. Esse valor a mediana.
A filosofia do teste admite que, se duas ou mais amostras provm de uma mesma
populao (isto , se so estatisticamente iguais), a mediana do conjunto de dados reunidos
no difere significantemente da mediana de cada uma delas considerada isoladamente.
O teste , no final, um teste de (qui-quadrado) em que as freqncias comparadas se
referem ao nmero de dados em cada uma das amostras comparadas que se encontram
acima ou abaixo da mediana comum, calculada para o conjunto das amostras reunidas.

16. Filosofia do teste do (qui-quadrado), m x n.

O teste do (qui-quadrado) um teste que compara freqncias obtidas


experimentalmente com freqncias tericas, calculadas matematicamente para o mesmo
nmero de dados da amostra.
Os dados devem portanto ser grandezas discretas, isto , alguma coisa que possa ser
contada e reduzida a uma tabela de freqncias, tabela essa denominada tabela de
contingncia.
A tabela de contingncia formada de (m) linhas e (n) colunas, sendo que a menor tabela
que se pode formar seria uma tabela com 1 linha x 2 colunas, ou 2 linhas x 1 coluna.
O grau de liberdade dado pelo produto de (m-1) x (n-1), quando m e n so iguais ou
maiores do que 2; e por (m-1) ou (n-1), caso um deles (n ou m) for igual a 1.
O teste calcula a relao: quadrado da diferena entre as freqncias obtida e esperada em
cada casa da tabela de contingncia, dividido pela freqncia esperada, e soma esses
quadrados.
O teste considerado significante quando essa soma ultrapassa determinados valores,
relacionados em tabelas apropriadas, valores esses que dependem do grau de liberdade da
amostra.
Os testes no so exatamente iguais para tabelas com apenas 1 ou mais de 1 grau de
liberdade, e por isso essas duas possibilidades so focalizadas separadamente neste programa
estatstico.
Alm disso, h uma srie de restries:

56
A. Para 1 grau de liberdade:
a) pode ser aplicado para n maior que 40 (n = nmero total de dados);
b) para n entre 20 e 40, o teste s pode ser aplicado se todas as freqncias esperadas forem
maiores ou iguais a 5;
c) se a menor freqncia for menor que 5, ou se n for menor que 20, ser prefervel usar o
teste exato de Fisher.

B. Para mais de 1 grau de liberdade:


a) nenhuma casela pode ter valor menor que 1;
b) o nmero de caselas com valores esperados menores do que 5 no pode ultrapassar 20 %
do nmero total de caselas;
c) se isso ocorrer, reformule a tabela (somando caselas vizinhas).

17. Filosofia do teste de Nemenyi.

O teste de Nemenyi uma espcie de anlise de varincia no-paramtrica, para um fator


nico de variao, que faz comparaes entre vrias amostras independentes.
O fator de variao estudado colocado nas colunas, com as repeties dispostas
verticalmente, ao longo das colunas. Os dados so introduzidos no computador seguindo o
sentido vertical da tabela, repetio aps repetio, e no no sentido horizontal.
Os dados de todas as amostras so ordenados por valores crescentes, sendo os valores
originais substitudos pelo nmero de ordem ocupado por eles na srie do conjunto ordenado.
Em caso de empates, faz-se a mdia dos postos correspondentes, e se atribui esse mesmo
valor a todos os dados empatados.
Se as amostras pertencerem mesma populao isto , se forem iguais as mdias dos
seus postos sero mais ou menos iguais. A avaliao estatstica feita pela comparao dessas
mdias.

Testes no-paramtricos, amostras vinculadas (uma s varivel, comparaes mltiplas).

18. Filosofia do teste de Cochran.

Os (n) elementos de uma mesma amostra (A) so julgados segundo (k) padres ou mtodos
diferentes de avaliao (P1,P2,P3,...Pk).
Os dados experimentais devem apresentar-se como respostas do tipo (+/), (Sim/No), ou
(Positivo/Negativo).
A aplicao do teste, porm, exige que essas respostas, seja como for que se apresentem,
sejam convertidas em valores numricos 1 (um) para os Sim, Positivo ou (+), e em 0 (zero)
para os No, Negativo, ou ().
O teste procura responder a perguntas do tipo: Os resultados dos diversos mtodos de
julgamento testados seriam equivalentes?
A filosofia do teste considera que, se os diversos mtodos produzem efeitos semelhantes
sobre os elementos que compem a amostra, a distribuio dos 1 e 0 nos vrios mtodos
comparados ser aproximadamente igual (a no ser, claro, pelas variaes casuais, presentes
em qualquer experimento).
Os dados amostrais (reduzidos a 0 e 1) devem ser reunidos em uma tabela com (n) linhas e
(k) colunas.
Torna-se possvel, assim, definir se a proporo (ou freqncia) de respostas a mesma em
cada uma das (k) colunas comparadas, ou se, pelo contrrio, houve influncia sobre ela dos
mtodos ou dos padres de julgamento utilizados para avali-las.
57
O teste aplica-se a uma grande variedade de situaes, bastando para isso que os dados
possam ser reduzidos a valores 0 e 1, e possam ser reunidos em tabelas desse tipo (n x k).
O teste , no fundo, um teste de (qui-quadrado), para (k-1) graus de liberdade.
O programa j calcula automaticamente qual a probabilidade de haver igualdade entre as
amostras comparadas. Indica tambm o nvel de significncia estatstica, quando forem
detectadas diferenas entre as amostras.

19. Filosofia do teste de Friedman.

O teste de Friedman uma espcie de anlise de varincia a dois critrios de variao, para
dados amostrais vinculados.
Por exemplo: a superfcie de corpos-de-prova construdos com diversos tipos de materiais
poderia ser avaliada sucessivamente por dois ou mais mtodos diferentes.
Nesse caso, os dois critrios de variao seriam: 1) os mtodos de avaliao; e 2) os
materiais utilizados. As amostras so vinculadas porque as avaliaes se fazem na mesma
superfcie de cada corpo-de-prova.
O teste responde a este tipo de pergunta: seria idntica a avaliao da superfcie pelos
vrios mtodos, em relao aos diversos materiais? Ou ento: responderiam os materiais
igualmente aos diversos mtodos de avaliao? Ou ainda: haveria concordncia entre os
diversos mtodos em relao avaliao da superfcie dos corpos-de-prova?
A resposta do teste depende de qual dos fatores esteja colocado nas colunas de uma tabela
de dados com k colunas e n linhas.
Desse modo, a organizao da tabela de dados muito importante, uma vez que depende
dela a interpretao do resultado do teste. O fator comparado principal deve ser colocado nas
colunas, e os dados sero introduzidos no sentido das linhas da tabela.
O teste de Friedman no utiliza os dados numricos diretamente, mas sim os postos
ocupados por eles, aps a ordenao por valores ascendentes desses dados. A ordenao
numrica feita separadamente em cada uma das amostras, e no em conjunto.
A filosofia do teste considera que, se as diversas amostras provm de uma mesma
populao, isto , se elas so estatisticamente iguais (hiptese de nulidade, ou de (H0), a
distribuio dos postos nas diversas colunas ser mais ou menos eqivalente, de modo que a
soma dos postos em cada coluna ser aproximadamente igual.
A hiptese alternativa (H1) seria de que as amostras no pertenceriam mesma populao
isto , seriam diferentes e nesse caso haveria diferenas entre as somas das diversas
colunas.

Teste para mais de uma varivel (regresso e correlao).

20. Filosofia dos testes de regresso e correlao.

O teste de regresso linear e seu complemento natural, que o teste de correlao so


testes estatsticos extremamente teis porque permitem estudar o comportamento de duas (ou
mais) variveis ao mesmo tempo, buscando detectar uma possvel relao proporcional
coerente entre a variao de uma em funo da variao da outra (ou das outras, quando mais
de duas).
As variveis podem ser as mais heterogneas, ao contrrio de outros testes que, para que
duas ou mais amostras possam ser comparadas, exigem que a varivel seja nica. Assim, esse
teste de regresso e correlao pode reunir variveis to heterogneas quanto o tamanho das
melancias de uma plantao e o teor de clcio ou de potssio do adubo utilizado para fertilizar
a terra onde elas crescem.
58
O teste tambm particularmente til quando se deseja avaliar ou comparar tendncias, tais
como o comportamento da inflao ao longo do ano, ou a tendncia da queda ou do aumento
da inflao num determinado ano, em relao ao de outro ano qualquer.
A regresso linear refere-se sempre linha reta. Contudo, nem sempre a equao
matemtica que traduz um fenmeno cientfico se traduz por uma linha reta. Porm muitas
delas podem ser reduzidas a uma reta, por meio de transformaes algbricas adequadas.
Por exemplo: um determinado fenmeno natural pode ser representado por uma hiprbole,
cuja equao matemtica y = 1 / a + bx. Caso se faa a inverso dos termos (y) e (a + bx),
obter-se- uma nova expresso algbrica para a mesma igualdade:
1 / y = a + bx. Chamando y' ao termo 1 / y, tem-se: y' = a + bx, que a expresso algbrica da
linha reta. Assim, a transformao y' = 1 / y tende a retificar uma linha originalmente curva,
como o caso da hiprbole.
Essas transformaes, que tornam possvel a regresso linear de algumas curvas
comumente encontradas em pesquisa cientfica, o objeto do presente teste. A correlao
entre duas variveis expressa por r, cujo valor varia de +1 (correlao direta) a -1
(correlao inversa). O valor r = 0 indica ausncia de correlao.

59

Você também pode gostar