Você está na página 1de 2

Por dentro da estatística

O uso de métodos estatísticos vem crescendo vigorosamente em pesquisas da área médica. Com freqüência, médicos e
profissionais da Saúde são expostos a informações provenientes de análises de dados, nem sempre claras e de fácil
interpretação. Esta seção visa familiarizar pesquisadores com conceitos e termos estatísticos comumente presentes em artigos
científicos. Com ênfase na discussão conceitual em detrimento a fórmulas matemáticas, o objetivo é esclarecer algumas dúvidas
freqüentes e contribuir com o desenvolvimento do senso crítico na hora de analisar, descrever e interpretar dados.
Ângela Tavares Paes
Editora da seção

O que fazer quando a distribuição não Por que buscamos a distribuição normal? Os mé-
todos paramétricos baseiam-se na suposição de que os
é normal? dados observados na amostra são provenientes de uma
Ângela Tavares Paes* população com distribuição de forma teórica conheci-
da. A suposição de que os dados seguem uma distri-
* Doutora em Estatística do Centro de Pesquisa Clínica do Instituto Israelita de Ensino e Pesquisa
Albert Einstein – IIEPAE, São Paulo (SP), Brasil. buição normal é assumida para a maioria dos métodos
estatísticos mais utilizados na pesquisa médica, como o
Ao aplicar um teste para comparação de médias ou um teste t de Student, ANOVA, regressão linear e interva-
modelo de regressão, é necessário checar se as suposi- los de confiança. Este fato somado a resultados teóricos
ções assumidas por estes testes são razoáveis. Os méto- fundamentais (teorema do limite central) faz com que a
dos estatísticos mais conhecidos supõem que a variável distribuição normal seja a distribuição teórica mais im-
resposta (ou dependente) tem distribuição normal, po- portante em estatística.
rém, muitos usuários da estatística ignoram tal suposi- Como verificar se os dados seguem uma distribui-
ção e utilizam os testes sem se preocupar com a distri- ção normal? Em qualquer análise de dados, a etapa
buição dos dados. Por outro lado, aqueles mais cuida- inicial é fazer uma boa análise descritiva. A norma-
dosos que costumam verificar se a distribuição é ou não lidade dos dados pode ser analisada descritivamente
normal, buscam métodos alternativos nas situações em por meio de histogramas, box-plots, análise da distân-
que esta suposição não está satisfeita. cia entre média e mediana e coeficientes de assimetria
Antes de responder o que fazer quando a distribui- e curtose, que medem, respectivamente, o grau de des-
ção não é normal, é natural pensar em outras perguntas vio ou afastamento da simetria e do achatamento da
como “O que é distribuição normal?”; “Por que bus- distribuição. Além dos métodos descritivos, existem
camos a distribuição normal? e “Como verificar se os testes de hipóteses que avaliam a normalidade, como
dados seguem uma distribuição normal?”. por exemplo, os testes de Kolmogorov-Smirnov e de
O que é distribuição normal? Uma distribuição de Shapiro-Wilks. No entanto, é importante ressaltar que
probabilidades é uma função matemática usada para esses testes são extremamente rigorosos e facilmente
descrever o padrão de variação de uma variável contí- rejeitam a hipótese de normalidade. Portanto, deve-
nua. A função matemática que representa a distribuição mos ter cautela e não basear a decisão apenas nos ní-
normal envolve dois parâmetros (média e variância), a veis descritivos (valores de p) desses testes.
curva que a descreve tem forma de “sino” e sua princi- Após a análise preliminar e a constatação de que
pal propriedade é a simetria em torno da média. A cur- a distribuição normal não pode ser assumida, algu-
va normal é também conhecida como “curva de Gauss” mas alternativas podem ser adotadas. A mais comum
devido à suposição de que Gauss foi o primeiro a fazer é utilizar testes não-paramétricos, que não assumem
uso de suas propriedades para aplicações práticas. nenhuma distribuição teórica para os dados. Os testes

einstein: Educ Contin Saúde. 2009; 7(1 Pt 2): 3-4


4

não-paramétricos mais conhecidos são o Mann Whit- alternativa é a categorização (agrupamento em faixas
ney como alternativa ao teste t de Student, Wilcoxon de valores). Com a variável categorizada, testes como
como alternativa ao teste t pareado e Kruskall-Wallis o χ2 para comparar distribuições de frequências podem
como alternativa à ANOVA com um fator. Apesar de ser utilizados no lugar de comparações de médias. No
parecer uma solução relativamente simples, a grande entanto, deve-se ressaltar que qualquer categorização
desvantagem dos testes não-paramétricos é que eles implica em perda de informação, logo, a categorização
tendem a ser bem menos poderosos que os paramé- só deve ser feita se as categorias fizerem sentido e favo-
tricos. Além disso, sua aplicação torna-se mais difícil recerem a interpretação.
quando a análise é um pouco mais complexa, como Quando a transformação não é capaz de corrigir
por exemplo, comparações de médias envolvendo o problema e não faz sentido categorizar a variável,
mais de um fator. É importante observar também que uma alternativa é utilizar modelos com outras distri-
os testes paramétricos são bastante robustos, isto é, buições. Sim, existe vida além da distribuição normal
os resultados são válidos mesmo quando há pequenos e dos testes não-paramétricos. Por exemplo, para
desvios da normalidade. Por esta razão, torna-se mais dados de contagem, é comum utilizar a distribuição
atraente buscar alternativas paramétricas com maior de Poisson. Para variáveis contínuas positivas (por
poder estatístico e consequentemente com resultados exemplo, dados relacionados a medidas de tempo),
mais robustos e confiáveis. podemos utilizar uma distribuição exponencial, gama
Muitas vezes a violação da distribuição é devida ou Weibull. Apesar da teoria de modelos paramétri-
à assimetria. Isto acontece com frequência em dados cos com outras distribuições já estar consolidada há
laboratoriais como, por exemplo, contagens de célu- décadas, tais modelos ainda são pouco utilizados na
las ou dosagens de substâncias, nas quais há muita pesquisa médica.
variabilidade, mas com uma grande concentração nos Existe uma “crença” no meio médico que diz que
valores menores, próximos a zero. Nesse caso, uma para amostras pequenas devem ser utilizados testes
opção é transformar os dados em escala logarítmica. não-paramétricos. É claro que em amostras pequenas
A transformação logarítmica é a mais comum e geral- podem ser observados maiores desvios da distribuição
mente resolve os problemas de assimetria, mas exis- normal, mas devemos considerar a natureza da variável
tem outras transformações que podem ser utilizadas e analisar a distribuição de frequências dos dados ob-
dependendo da característica dos dados. Por exemplo, servados. Amostras provenientes de uma distribuição
a transformação raiz quadrada é mais usada quando a normal, não necessariamente parecem ter esta distri-
variável é uma contagem e é esperada uma distribui- buição, especialmente se a amostra é pequena. Isto não
ção de Poisson. A transformação recíproca (1/x) tem significa que sempre que a amostra é pequena, deve-se
um efeito muito mais drástico do que tomar o loga- assumir distribuição não-normal.
ritmo e pode ser útil se os dados observados têm uma Com base no que foi comentado, ficam aqui duas
distribuição extremamente assimétrica. Às vezes há sugestões para uma análise de dados adequada. Primei-
uma forte razão para utilizar uma particular transfor- ro, não avaliar a normalidade única e exclusivamente
mação, por exemplo, a raiz cúbica pode ser apropriada por testes de hipóteses. Segundo, antes de partir dire-
para dados que são volumes. A principal dificuldade tamente para os testes não-paramétricos, vale a pena
em usar transformações é a interpretação de dados tentar transformações e outras distribuições(1-3).
transformados e a volta à escala original, que não é
direta para as medidas de desvio padrão.
A distribuição normal é considerada para variáveis REFERÊNCIAS
contínuas, mas na prática ela também é assumida para
1. Altman DG. Practical statistics for medical research. Boca Raton (FL): Chapman
variáveis discretas com grande variabilidade e em amos- & Hall; 1991.
tras relativamente grandes. Para variáveis quantitativas 2. Bland JM, Altman DG. Transformations, means and confidence intervals. BMJ.
discretas com pouca variabilidade, por exemplo, escores 1996;312(7038):1079.
de instrumentos, número de erros em um teste psico- 3. Vieira S. Bioestatística: tópicos avançados. Rio de Janeiro: Campos; 2003.
métrico, número de eventos prévios, etc, uma possível Capítulo 2.

einstein: Educ Contin Saúde. 2009; 7(1 Pt 2): 3-4

Você também pode gostar