Bioestatística conceitos experimentação

Sumário
1 Definições e Conceitos em Bioestatı́stica Aplicada 1

1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Estatı́stica Médica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Dados Biométricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Os Conceitos da Bioestatı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4.1 População . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.3 Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.4 Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.5 Estimativas dos Parâmetros ou Estatı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.6 Unidade de Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.7 Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.8 Variáveis Aleatórias (v.a.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Experimentação Biométrica 7
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 O Raciocı́nio Indutivo da Biometria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Delineamentos Experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.1 Etapa de um levantamento estatı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 Aspectos Estatı́sticos dos Estudos Etiológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4.1 Estudo de Caso-Controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.2 Estudo de Coorte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.3 Ensaios Clı́nicos Aleatorizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.4 Estudos Descritivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.5 Seccionais ou Transversais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Estatı́stica Descritiva 20
3.1 Organização de Dados Estatı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1 Normas para a Apresentação Tabular de Dados . . . . . . . . . . . . . . . . . . . . . . 20
3.2 Distribuição de Freqüências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.1 Diagramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.2 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4 Medidas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4.1 Medidas de Tendência Central ou de Posição . . . . . . . . . . . . . . . . . . . . . . . 27
3.4.2 Medida de Variabilidade ou de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.5 Medidas Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5.1 Quartis, Decis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5.2 Medidas de Simetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5.3 Medidas de Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1
4 Inferência Estatı́stica 38
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2 Problemas de Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Distribuição Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.4 Distribuições de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.4.1 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.4.2 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4.3 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.5 Verificação da Adequação do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.6 Faixas de Referência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.7 Teorema do Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.8 Tamanho da Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.8.1 Método simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.8.2 Método inferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.9 Testes de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.9.1 Construção de um Teste de Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.9.2 O p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5 Análise em Tabelas 2x2 e LxC 51

5.1 Tabelas de Contingência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Teste de Independência e de Homogeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6 Comparações Entre Grupos 61

6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2 Resposta Dicotômica: Amostras Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2.1 Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2.2 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2.3 Teste z para Comparação de Proporções . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.3 Resposta Dicotômica: Amostras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.3.1 Teste de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.4 Resposta Contı́nua - Teste de Médias para Amostras Independentes . . . . . . . . . . . . . . 67
6.4.1 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.4.2 Teste z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.5 Resposta Contı́nua - Teste de Médias para Amostras Pareadas . . . . . . . . . . . . . . . . . 69
6.5.1 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.6 Testes Não-Paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.6.1 Teste U de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.6.2 Teste H de Kruskal-Wallis para k amostras . . . . . . . . . . . . . . . . . . . . . . . . 74
6.6.3 Teste de Wilcoxon (Amostras Pareadas ou dependentes) . . . . . . . . . . . . . . . . . 75
6.6.4 Teste de Friedman para k tratamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.7 Outros Testes Não-Paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.7.1 Teste de Concordância ou de Replicabilidade (Coeficiente de Kappa) . . . . . . . . . . 79
6.7.2 Teste de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
7 Análise de Variância 83
7.1 Análise de Variância para Experimentos ao Acaso . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.2 Teste Paramétrico para Comparações Múltiplas . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.2.1 Teste Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.2.2 Teste Dunnett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.3 Teste Não-Paramétrico para Comparações Múltiplas . . . . . . . . . . . . . . . . . . . . . . . 89
7.3.1 Teste Dunn-Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.4 Análise de Variância com Número Diferente de Repetições . . . . . . . . . . . . . . . . . . . . 91
7.4.1 Teste Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.4.2 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
7.4.3 Teste Dunnett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
2
8 Testes Clı́nicos 95
8.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.2 Testes Diagnósticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.2.1 Sensibilidade e Especificidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
8.2.2 Valor das Predições: VPP e VPN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.2.3 Decisões Incorretas: PFP e PFN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.2.4 Combinação de Testes Diagnósticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.2.5 Escolha entre Testes Diagnósticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.2.6 Relação entre Sensibilidade e Especificidade . . . . . . . . . . . . . . . . . . . . . . . . 104
8.2.7 Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Referências Bibliográficas 107
3
Capı́tulo 1
Definições e Conceitos em
Bioestatı́stica Aplicada
1.1 Introdução
O objetivo deste capı́tulo é ilustrar o papel que conceitos e técnicas estatı́sticas têm na formação do
estatı́stico especializado na área biométrica, na sua prática profissional e de modo especial no avanço do
conhecimento nesta área especı́fica.
Este objetivo será alcançado principalmente através da apresentação e discussão dos resultados de es-
tudos relevantes. Através destes exemplos, argumenta-se que conceitos estatı́sticos têm importante papel a
desempenhar, tanto no estudo da saúde de populações, como nos tratamentos individuais.
1.2 Estatı́stica Médica

A má utilização de dados médicos ou de outras ciências, com interpretações errôneas ou mal intencionadas,
tem produzido um grande ceticismo em relação à estatı́stica. Podemos encontrar muitos professores, clı́nicos
ou mesmo profissionais de ciências básicas, que acham que “bom senso” é suficiente para tratar desses dados,
que qualquer coisa que exija prova estatı́stica não pode ter valor prático ou que procurarão um matemático
se tiverem algum problema estatı́stico em seu trabalho.
É importante compreender, no entanto, que cada vêz que se toma a média de duas leituras de pipeta,
por exemplo, ou o número médio de dias de internação no hospital de pacientes com determinada doença,
se está usando um método estatı́stico. Do mesmo modo, usamos métodos estatı́sticos para concluir que a
pressão arterial do paciente está normal ou que um tratamento cirúrgico é melhor que outro. Deste modo,
a Estatı́stica Médica se constitui realmente nos princı́pios da Medicina Quantitativa. Muito da medicina
depende, direta ou indiretamente, de contagem ou mensuração. Isto é óbvio em pesquisa e verdadeiro
também no diagnóstico. Quando um médico, examinando um nódulo no seio de uma paciente, leva em
consideração sua idade e história familiar, logo está usando dados quantitativos, ou seja, a incidência de
tumores por idade e por famı́lia.
Convencionou-ser chamar de Bioestatı́stica o conjunto de conceitos e métodos cientı́ficos usados no trata-
mento da variabilidade nas ciências médicas e biológicas. A Bioestatı́stica fornece métodos para se tomar
decisões ótimas na presença de incerteza, estabelecendo faixas de confiança para a eficácia dos tratamen-
tos e verificando a influência de fatores de risco no aparecimento de doenças. Dentro da área biológica,
compreende-se por Biometria a ciência que estuda as medidas de seres vivos.
A ênfase crescente do papel dos métodos quantitativos na prática da medicina torna imperativo que o
estudante de medicina assim como o médico tenham algum conhecimento de estatı́stica.
O estudante aprende na escola o melhor método de diagnose e terapêutica; depois de formado dependerá
necessariamente de trabalhos apresentados em reuniões, jornais e revistas médicas, para aprender novos
métodos de terapia, assim como os progressos em diagnose e técnica cirúrgica. Portanto, deverá estar apto
a avaliar por si próprio os resultados de outros pesquisadores, deverá decidir quando uma nova técnica
ou método pode substituir os antigos. Deverá estar apto a responder à pergunta da mãe que o consulta
1
1.3 Dados Biométricos ROSSI, Robson M. 2
sobre a vacina mais recente e, com a mesma segurança, aconselhá-la em relação à vacina antipólio ou anti-
sarampo. Deverá estar apto a dar à famı́lia do paciente segurança quanto ao diagnóstico, o que pode depender
de sua capacidade de avaliar adequadamente os resultados de exames laboratoriais, como também de seu
conhecimento sobre a relação da idade, sexo e outras condições do paciente a uma determinada doença. Os
novos conhecimentos virão através do trabalho de pesquisa realizado por ele próprio ou por outros. Deve,
portanto, ser capaz de selecionar, da massa de informações, aquelas que forem válidas e que resistirem a
testes cientı́ficos rı́gidos. Deve desenvolver um ceticismo sadio em relação a tudo que lê.
Uma noção básica em planejamentos experimentais referentes à pesquisa médica, é o reconhecimento de
que os indivı́duos diferem não apenas uns dos outros, mas também em relação a si próprios, de dia para
dia ou mesmo de hora para hora. Uma certa quantidade de variação é normal, mas a questão que desafia o
médico é determinar quando uma variação especı́fica se torna patológica (referente à doença). Para isso, o
estudante deve aprender como medir a variação em indivı́duos normais e definir qual é o limite de variação
normal. Deve aprender que há algum erro aleatório presente em cada medida ou contagem feita. É altamente
improvável que duas contagens sucessivas de glóbulos, feitas na mesma amostra de sangue, sejam idênticas.
Quando, porém, uma diferença se torna maior que o erro de mensuração? Para tratar seu paciente
do melhor modo possı́vel, o médico deve saber responder à questões como essa. Para cada medida ou
determinação fornecida pelo laboratório, o médico deve conhecer a variação que é parte do próprio método,
para saber quando uma dada variação representa uma mudança real no paciente.
Sempre que novos métodos de terapia são introduzidos, é necessário saber se são realmente superiores,
isto é, mais eficientes aos velhos métodos. Será nacessário fazer-se a avaliação crı́tica do estudo experimental,
verificando principalmente se as medidas foram realizadas de modo a produzir resultados fidedignos, se o fator
em prova foi o único fator de diferença entre o grupo experimental e o grupo controle, se a diferença entre os
resultados obtidos nos dois grupos foi maior que aquela que poderia ser atribuı́da ao acaso. Apenas depois
da avaliação, através de técnicas estatı́sticas adequadas, da fidedignidade dos resultados, comparabilidade
dos grupos experiência e controle e, significância da diferença encontrada é que podemos tirar as conclusões
relativas ao novo método.
O número de falhas encontradas em publicações médicas enfatiza a necessidade de uma avaliação crı́tica
da literatura. Para ajudar o estudante a desenvolver tal atitude são necessários certos conceitos estatı́sticos
básicos e uma certa familiaridade com a terminologia mais usada.
Métodos estatı́sticos são essenciais no estudo de situações em que as variáveis de interesse estão sujeitas,
inerentemente, a flutuações aleatórias. Este é o caso da área da saúde principalmente na Medicina. Mesmo
tomando-se um grupo de pacientes homogêneos, observa-se grande variabilidade, por exemplo, no tempo de
sobrevida após um tratamento adequado. Dosagens de caracterı́sticas hematológicas flutuam não só entre
indivı́duos, como também no mesmo indivı́duo em ocasiões diferentes. Na realidade, há variações entre
diferentes pacientes para qualquer variável de interesse clı́nico. Portanto, para se estudar problemas clı́nicos,
é necessária uma metodologia capaz de tratar a variabilidade de forma adequada.
Deve-se notar, entretanto, que ao tratar um paciente, o médico se vale da experiência de eventos ante-
riores, vivenciada pessoalmente ou transmitida por outros através de livros e artigos. Assim, a Estatı́stica
pode ser vista como ferramenta de organização e validação do conhecimento médico.
1.3 Dados Biométricos

Nas áreas médica e biológica coletam-se dados de pessoas, de animais experimentais e de fenômenos
fı́sicos e quı́micos. Interessam aos pesquisadores dessas áreas dados sobre mortalidade infantil, eficiência de
medicamentos, incidência de doenças, causas de morte etc. Os dados referem-se a variáveis, classificadas
como qualitativas, ordinais e quantitativas.
O dado qualitativo está fortemente presente nas ciências da saúde. Caracterı́sticas de pessoas, raça,
doenças, etc, são freqüentemente medidas como variáveis categóricas. No entanto, mercê de sua tradição
escolástica, as ciências da saúde ainda mostram preferência pelas medidas contı́nuas de alta precisão: medir
em miligramas, milı́metros etc. Engajado no conhecimento do biólogo, o cientista da saúde tende a isentar-se
de reflexão sobre a importância das estratégias de mensuração e análise providas por outras ciências, como
a estatı́stica.
Exemplo 1.1. Com o objetivo de levantar conhecimento sobre algumas caracterı́sticas de homens com
doenças cardı́acas da clı́nica especializada de Honolulu, no Havaı́, decidiu-se pesquisar os pacientes com
idade entre 45 e 67 anos. As caracterı́sticas de interesse eram:
1.4 Os Conceitos da Bioestatı́stica ROSSI, Robson M. 3
1 – Nı́vel de instrução
2 – Peso
3 – Altura
4 - Idade
5 – Fumante
6 – Atividade fı́sica
7 – Taxa de glicose
8 – Taxa de colesterol sérico
9 – Pressão sangüı́nea sistólica.
1.4 Os Conceitos da Bioestatı́stica

A estatı́stica pode ser utilizada simplesmente para descrever conjuntos de dados, mostrando sua dis-
tribuição, média, dispersões, etc. Mas, pode ir além, pode estar presente nas diversas etapas de uma
pesquisa, desde o seu planejamento, até na interpretação de seus resultados, podendo ainda, influenciar na
condução do processo da pesquisa.
Definição: Estatı́stica é um conjunto de conceitos e métodos cientı́ficos para a coleta, a organização, a
descrição, a análise e a interpretação de dados experimentais, que permitem conclusões válidas e tomadas
de decisões razoáveis.
Classificação: Usualmente, a estatı́stica é dividida em três grandes áreas que atuam em conjunto:
Planejamentos de Experimentos e Amostragem, Estatı́stica Descritiva e, Estatı́stica Inferencial.
Amostragem e Planejamento de Experimentos: É a parte que tem por objetivo planejar a pesquisa e se
preocupa com o mecanismo da coleta de dados.
Estatı́stica Descritiva: É a parte que tem por objetivo organizar, apresentar e sintetizar dados observados
de determinada população, sem pretenções de tirar conclusões de caráter extensivo.
Estatı́stica Inferencial ou Indutiva: É a parte que, baseando-se em estudos realizados sobre os dados de
uma amostra, procura inferir, induzir ou verificar leis de comportamento da população da qual a amostra foi
retirada. A estatı́stica inferencial tem sua estrutura fundamentada na teoria matemática das probabilidades.
É, também definida como um conjunto de métodos para a tomada de decisões.
A Estatı́stica está presente em diversas áreas e em diversas abordagens. Podemos citar alguns exemplos
de suas aplicações:
1. Eleições: Anúncio prévio, em termos percentuais, de que o candidato A é o provável vencedor. (A

previsão pode ser feita após a contagem de 2% dos votos);
2. Indústria: Teste de lâmpadas “flash” para máquinas fotográficas. O fabricante deve saber com an-
tecedência se o lote fabricado pode ser colocado no mercado ou não (Ele pode estar sujeito a riscos !
O Recall é um exemplo, onde ocorre a retirada ou troca de produtos devido a uma falha em algum
estágio de fabricação não detectado pelo controle de qualidade);
3. Meteorologia: Informa que a “chance” de chuva para hoje é de 30% (utilização de métodos estatı́sticos
de previsão);
4. Mercado de Valores: Decisão na compra ou venda de ações – “Risco”;
5. Instituições Bancárias/Crédito: Análise de crédito; Seguro de Vida e/ou de automóveis;
6. IBGE/ı́ndices: Censo; Taxa de desemprego; Inflação; Custo de vida; Valor do salário mı́nimo, cesta
básica, ı́ndices de preços-INPC; Taxa de mortalidade/Natalidade; Índices de analfabetismo, etc.
7. Farmácia/Medicina: Analisar a entrada de um novo medicamento, verificando a sua eficácia. “Deve-se
tomar muito cuidado” com a tomada de decisão;
8. Pesquisas: Estudo sobre hábitos migratórios de certo animal; Estimação do tamanho populacional de
certas espécies;
9. Experimentação Agrı́cola: Estudos de uma nova variedade de semente (modificação genética) ou de

fertilizantes;
10. Telecomunicações: A utilização da Internet gera informações preciosas de clientes ; Controle de tráfego
telefônico, chamadas e consumo, forçam a utilização de modelos estatı́sticos complexos;
11. Experimentação Zootécnica: Estudo do desenvolvimento de um animal e análise de fatores que in-
fluenciam neste desenvolvimento tais como, alimentação, cativeiro e outros; Melhoramento genético;
Pesquisas com vacinas animais entre outros.
A amostragem é naturalmente usada na vida diária. Por exemplo, para verificar o tempero de um
alimento em preparação, pode-se provar (observar) uma pequena porção deste alimento. Desta forma, está
se fazendo uma amostragem, ou seja, extraindo do todo (população) uma parte (amostra), com o propósito
de avaliar (inferir) sobre a qualidade de tempero de todo o alimento.
Nas pesquisas cientı́ficas em que se quer conhecer algumas caracterı́sticas de uma população, também é
muito comum se observar apenas uma amostra de seus elementos e, a partir dos resultados dessa amostra,
obter valores aproximados, ou estimativas, para as caracterı́sticas populacionais de interesse. Este tipo de
pesquisa é usualmente chamado de levantamento por amostragem.
Num levantamento por amostragem, a seleção dos elementos que serão observados, deve ser feita sob
uma metodologia adequada, de tal forma que os resultados da amostra sejam informativos para avaliar
caracterı́sticas de toda a população.
A população pode ser formada por pessoas da famı́lia, indivı́duos de uma certa espécie, estabelecimentos
industriais, ou qualquer outro tipo de elementos, cujas variáveis que se pretende estudar sejam passı́veis de
serem mensuradas.
Os elementos de uma população diferem entre si com respeito a fatores tais como: sexo, idade, medidas
fı́sicas, cor, susceptibilidade a doença, agressividade, etc. Desta forma o padrão de comportamento no qual
o pesquisador esta interessado pode ser muito complicado pela grande variabilidade existente. Por estas
razões, muitos trabalhos nas ciências em geral tendem a ser de natureza comparativa, procurando lidar com
as variações inerentes.
1.4.1 População
É qualquer conjunto de elementos, tendo pelo menos uma variável em comum (Pode ser finita ou infinita).
1.4.2 Censo
Pesquisas utilizando todos os elementos da população.
Obs. Desvantagem quando a população é muito grande Ex.: A população brasileira estimada em novem-
bro/2004: 182.405.960 (Fonte: IBGE - http://www.ibge.gov.br/).
1.4.3 Amostra
É qualquer subconjunto da população. Pesquisas utilizando amostras da população denominam-se
pesquisas por amostragem.
1.4.4 Parâmetros
São certas caracterı́sticas populacionais especı́ficas que se deseja descrever.
1.4.5 Estimativas dos Parâmetros ou Estatı́stica

São os valores calculados a partir dos dados da amostra, com o objetivo de avaliar parâmetros descon-
hecidos, por exemplo, média amostral.
1.4.6 Unidade de Amostragem

É a unidade a ser selecionada para se chegar aos elementos da população. Pode ser os próprios elementos
da população, ou, outras unidades fáceis de serem selecionadas e que, de alguma forma, estejam associadas
aos elementos da população.
1.4.7 Variáveis
São as caracterı́sticas medidas. As variáveis apresentam variabilidade dentro da população. Podem ser
qualitativas ou quantitativas.
Variáveis Qualitativas
Quando seus valores forem expressos por atributos (não-numéricos).
• Nominal quando tem nome (ex.: Cor dos olhos, sexo, raça, consumo de álcool (sim, não), gostar de
estudar ... etc).
• Ordinal quando tem ordem (ex.: classe social, grau de instrução, consumo de álcool (pouco, médio,
muito) ... etc).
Variáveis Quantitativas
Quando seus valores podem ser descritos numericamente.
• Discreta quando seus valores resultam de contagem (ex.: número de filhos, número de reprovações,
número de copos de álcool consumidos... etc).
• Contı́nua quando seus valores resultam de medições e podem assumir qualquer valor em um intervalo
da reta (ex.: estatura, nota na prova, imc, quantidade de álcool consumido ... etc).
1.4.8 Variáveis Aleatórias (v.a.)

São provenientes de Experimentos Aleatórios (todos as possibilidades são equiprováveis, isto é, tem
a mesma chance de ocorrência). As v.as. geralmente são representadas por letras maiúsculas A, X, Y ou W,
que podem assumir qualquer um dos conjuntos de valores que lhe são atribuı́dos.
Exemplo 1.2. Em um experimento de lançar uma moeda e observar a sua face, existem duas possibil-
idades:“Cara ou Coroa“. Considerando uma v.a. discreta X: “número de caras em dois lançamentos“,
temos: ½
Cara: c
possibilidades {cc,ck,kc,kk}: → X : {0, 1, 2}.
Coroa: k
Capı́tulo 2
Experimentação Biométrica
2.1 Introdução
Na medicina como em outros campos da ciência aplicada, o efeito geral da estatı́stica é tornar um
observador mais crı́tico e mais consciente quando, por falta de informação segura, ele tem de agir com base
em impressões ou opinião. Esta é a atitude cientı́fica, e o melhor modo de começar a adquirı́-la é procurar
evidências, e “provar”. Alguns princı́pios dessa procura de evidências serão estudadas neste capı́tulo.
2.2 O Raciocı́nio Indutivo da Biometria

Quando realizamos um experimento, a observação resultante é vista não como um resultado a êsmo e
irreprodutı́vel, mas como um resultado que poderia vir a ser obtido outras vezes, sempre que o experimento
fosse repetido nas mesmas condições. De fato, a generalização é feita sob a hipótese de que o resultado
obtido é tı́pico de uma classe de experimentos similares e, se conseguı́ssemos repetir, exatemente, um experi-
mento, uma única observação constitui-se-ia em base suficiente para fazermos afirmações gerais. Na prática,
obviamente, nunca podemos garantir que dois experimentos sejam exatamente iguais em cada minúcia de
suas circunstâncias, de tal sorte que nunca podemos garantir resultados identicamente reprodutı́veis. As
observações vão, de fato, variar em maior ou menor grau - aquilo que chamamos de erro experimental estará
presente - e, em lugar de um único resultado que se repete exatamente, teremos numerosos resultados que
variam entre si, de acordo com o tamanho do erro experimental. As nossas generalizações não podem ser
absolutamente precisas: devem levar em consideração o erro experimental e conter, em si, um elemento
de incerteza. Essa incerteza é caracterı́stica do raciocı́nio indutivo, e o grande problema no raciocı́nio do
particular ao geral é levar em devida conta essa incerteza.
Em Biologia, o problema da incerteza é muito sério, pois organismos vivos e suas partes são coisas
altamente variáveis. Eles estão influenciados por uma riqueza de fatores - genéticos, ambientais e de de-
senvolvimento - de tal modo que nenhuma situação do sitema pode ser reproduzida exatamente; em geral
elas não podem ser reproduzidas nem com muita aproximação. Poucas (se é que algumas) circunstâncias
de um experimento podem ser supostas triviais em seus efeitos sobre os resultados e raramente conseguimos
identificar um ou dois fatores cujos controles reduziriam o erro experimental a proporções desprezı́veis. Efe-
tivamente, com muita freqüência o nosso problema é tentar distinguir um efeito que seja pouco maior do
que o de outros fatores que provocam a variação do sistema; devemos então enfrentar o problema: Qual
deve ser a fidedignidade da mensuração? Ou mesmo: Será o efeito observado atribuı́vel ao fator em que
estamos interessados, ou será conseqüência de alguma outra causa de variação que não pudemos reconhecer
e certamente não pudemos controlar?
2.3 Delineamentos Experimentais

Muitos trabalhos em pesquisas médicas são acometidos de vários erros devido ao procedimento na coleta
e no tratamento de dados. Um dos fenômenos mais comuns é a ocorrência de diferenças entre homens e
mulheres, entre crianças e adultos, entre as estaturas, pesos, cor dos olhos e comportamento de pessoas
7
2.3 Delineamentos Experimentais ROSSI, Robson M. 8
da mesma raça, sexo e idade, entre diferentes amostras da mesma substância quı́mica “pura”. Todas essa
diferenças são coletivamente chamadas variação e a estatı́stica pode ser descrita como ciência de tratar a
variação.
Os seres humanos são tão infinitamente variáveis interna quanto o são externamente, mas algumas
matérias básicas do curso médico, como a Anatomia, parecem não reconhecer tal fato, deixando de destacar
esse profundo sentido da variação humana. A pseudoprecisão anatômica, criando um conceito artificial do
corpo humano no inı́cio da carreira do estudante, parece que largamente partilham essa responsabilidade; e
mesmo se todos os professores enfatizassem a importância da variação, não iria ajudar muito, a não ser que
o estudante adquirisse prática em enfrentar problemas que surgem da variação - especialmente, prática na
procura de evidências e uma atitude crı́tica em face dos assuntos que lê, ouve ou discute.
2.3.1 Etapa de um levantamento estatı́stico

A. Planejamento experimental. Consiste no planejamento da pesquisa que será realizada:
Mainland, D. (1952) em Elementary medical statistics - The principles of quantitative medicine, sugere
nove questões que constituem um roteiro valioso para desenvolvimento dessa atitude:
1. Quem?...(relativa ao pesquisador)
2. Para quê?...(relativa ao objetivo da pesquisa)
3. O quê?...(refere-se a pessoas, coisas ou fatos estudados)
4. Onde?...(refere-se ao local e ambiente)
5. Quando?...(refere-se ao tempo)
6. Como?...(relativa aos métodos)
7. Quanto?...(relativa às medidas)
8. Quantos?...(relativa à enumeração)
9. Por quê?...(referente à interpretação causal)
Tomadas as devidas precauções, alguns aspectos estatı́sticos deverão ser analisados e o tipo de estudo
adequado deverá ser abordado.
Exemplo 2.1. Considere a seguinte hipótese: ”Associação entre incidência de luz solar e câncer de
mama”. Comparações regionais, na antiga União soviética, mostraram correlação negativa entre incidência
de luz solar e de câncer do seio: em locais de baixa luminosidade solar, foi encontrada alta incidência deste
tipo de neoplasia, e vice-versa. Em muitos paı́ses, semelhante associação também foi detectada. A evidência
sugere, segundo os autores, que a vitamina D possa ter papel de relevo na redução do risco de câncer de
mama, e estudos adicionais devem ser feitos para esclarecer a matéria. (GOHAM et al, 1990).
Os principais delineamentos experimentais para a realização destas pesquisas serão:
1. Quem? GOHAM et al.

2. Para quê? Verificar a associação entre a taxa de incidência de luz solar sobre indivı́duos em diferentes
lugares com luminosidades desiguais e a incidência de câncer de mama.
3. O quê? Número de mulheres com câncer de mama e incidência de luminosidade no local destas onde
habitam estas mulheres. Pelo fato de quanto maior a luminosidade maior a sı́ntese de vitamina D pela
pele, há evidências que a vitamina D possa ter elevo na redução do risco de câncer de mama.
4. Onde? Regiões diferentes que apresentam também diferentes incidências de luminosidade na antiga
União Soviética.
5. Quando? 1990.
2.3 Delineamentos Experimentais ROSSI, Robson M. 9
6. Como? (Metodologia): considerando que o câncer de mama é o que mais mata nas mulheres, porém
em relação à população de mulheres é uma doença pouco prevalente, como, por exemplo, Transtorno
Pré-Menstrual. Assim, um estudo de caso-controle em mulheres com câncer de mama já diagnosticado
exposto à luminosidade solar por um perı́odo de tempo predeterminado devendo ser razoavelmente
grande, mas não saberia dizer quanto sem revisão bibliográfica. Na entrevista retrospectiva perguntaria
as mulheres há quanto tempo residiam naquela região, e se tivessem dentro do tempo predeterminado
entrariam no estudo. Faria também um grupo controle de mulheres daquela região para comparação dos
dados. Repetindo este mesmo estudo em mulheres de diferentes regiões com diferentes luminosidades, e
comparando-se as taxas de fatores de riscos, poder-se-ia chegar a conclusão de associação e em seguida
calcular o Odds Ratio, isto é, a razão de chances.
7. Quanto? As medidas seriam o número de mulheres diagnosticadas com câncer de mama comparadas
a um número semelhantes de mulheres sem o câncer (controles) separadas após serem examinadas por
médicos. Já a luminosidade colheria as informações com as centrais de meteriológicas locais ou algum
centro de referência deste assunto para o estudo.
8. Quantos? A amostra tentaria ser a maior possı́vel para melhorar a confiabilidade dos resultados, já que
a doença é pouco prevalente. Procuraria os centros de saúdes locais (hospitais, clı́nicas especializadas,
etc) das respectivas regiões a serem estudadas. Se o número de centros for muito grande e for muito
difı́cil abordá-los, sortearia os centros para amostragem.
9. Por quê? Alguns cuidados têm que serem relevados como o vı́cio da seleção, de informação e con-
fundimento. Por exemplo, a ingestão de alimentos ricos em precursores e da própria vitamina D bem
como uso de suplementos alimentares com vitamina D (pı́lulas), poderia influenciar os resultados dos
estudos.
Observação: Outros tipos de estudos e delineamentos podem ser utilizados nesta pesquisa.
Avaliação de informações existentes. Inicialmente, deve-se realizar um levantamento bibliográfico sobre
o assunto para obter subsı́dios que podem representar valiosa colaboração para o estudo e, também, serem
aproveitados nas discussões posteriores.
B. Formulação de hipóteses. Com exceção das pesquisas meramente descritivas, todas as pesquisas
estatı́sticas comportam a formulação de hipóteses. Com base nos dados observados, a hipótese será
rejeitada ou não.
C. Verificação das hipóteses. A verificação das hipóteses será realizada no decorrer da pesquisa.
D. Delineamento da pesquisa. Compreende o estudo (planejamento) detalhado da coleta de dados, da
realização do trabalho e da análise dos dados.
Os dados podem ser retirados diretamente da fonte ou aproveitados de bancos de dados retirados por
outros indivı́duos.
Para o caso de dados retirados diretamente da fonte, existem 3 procedimentos: a observação direta, o
questionário ou interrogatório e a entrevista.
Observação: é a observação direta dos fenômenos em laboratórios ou na natureza.
Questionário: é uma seqüência de perguntas previamente preparadas. O questionário é aplicado por
meio de entrevista ou remetido pelo correio. Os valores observados podem ser complementados por ob-
servação.
Execução da pesquisa. Coleta dos dados e realização da análise estatı́stica.
Análise e apresentação dos resultados. Os dados coletados devem ser apresentados na forma de:
gráficos e/ou de tabelas. A análise dos dados deve ser realizada pelo pesquisador, com a ajuda de um
estatı́stico, aplicando os recursos estatı́sticos necessários para refutar ou não as hipóteses previamente for-
muladas.
Exemplo 2.2. Objetivo geral: conhecer o perfil dos homens portadores de doenças cardı́acas em Honolulu,
Havaı́. Para dar seqüência a esta pesquisa, é preciso especificar melhor o que se quer conhecer da população
de portadores de doenças cardı́acas, ou seja, os objetivos especı́ficos. Exemplos de alguns desses objetivos.
(a) conhecer a distribuição do grau de instrução dos portadores de doenças cardı́acas.

2.4 Aspectos Estatı́sticos dos Estudos Etiológicos ROSSI, Robson M. 10
(b) Conhecer a idade e o peso médio dos portadores de doenças cardı́acas.
(c) Conhecer os hábitos dos portadores de doenças cardı́acas.

(d) Avaliar a condição de saúde dos portadores de doenças cardı́acas.
Exemplo 2.3. Delineamento da pesquisa: um levantamento de dados a partir do levantamento das in-
formações contidas em uma amostra dos prontuários dos pacientes. Dados observados: resultados de diversos
atributos e medidas relativas aos pacientes selecionados para participarem da amostra. Esquematicamente:
População: Todos os
portadores de
doenças cardíacas de
Honolulu.
Levantamento Plano de
de dados. amostragem.
Amostra:
Parte dos
portadores
de doenças
cardíacas de
Honolulu.
Dados
observados.
Figura 2.1: Esquema 1.
Exemplo 2.4. Objetivo geral: Comparar a eficiência de dois métodos para detectar o bacilo causador de
tuberculose. Em outras palavras, quer-se avaliar se os meios utilizados são equivalentes ou se um é mais
eficiente que o outro. Delineamento da pesquisa: são formados dois grupos de pacientes com tuberculose e
amostras de saliva destes pacientes foram colocadas em duas culturas (A e B). Dados observados: a detecção
ou não do bacilo foi registrada para cada amostra, resultando em dois conjuntos, relativos a cada método.
Esquematicamente:
Meio A. Meio B.
Grupo 1 de Grupo 1 de
pacientes. pacientes.
Amostra 1 de Amostra 2 de
respostas respostas
Sim ou Não. Sim ou Não.
Figura 2.2: Esquema 2.
Este é um delineamento de pesquisa experimental, onde o pesquisador exerce controle sobre o método
utilizado.
2.4 Aspectos Estatı́sticos dos Estudos Etiológicos

O objetivo central da pesquisa etiológica (parte da medicina que trata das causas das doenças) é deter-
minar se o fato de uma pessoa contrair uma dada doença está associado com um dado fator, o qual pode ser,
por exemplo uma caracterı́stica pessoal, alguma especificidade do ambiente onde viveu ou uma experiência
pela qual passou. Discutiremos maneiras de se organizar um estudo etiológico, métodos estatı́sticos para se
determinar quais fatores estão associados com o contrair da doença e meios de se quantificar esta associação.
A pesquisa etiológica é baseada em dados coletados em pacientes convenientemente escolhidos. O
pesquisador não controla quem será exposto ou não ao fator em questão, mas tem liberdade de deter-
minar quem entrará ou não no estudo. Para que os resultados tenham validade, a pesquisa tem de ser
planejada segundo modelos bem definidos. Os principais tipos de planejamento para estudos etiológicos
receberam os nomes de estudos tipo Caso-Controle, estudos tipo Coorte, Ensaios Clı́nicos Aleatorizados,
Estudos Descritivos e Seccionais ou Tranversais.
2.4.1 Estudo de Caso-Controle

Um estudo tipo caso-controle pode ser definido como um estudo no qual a determinação da associação da
doença com um fator é baseada na observação de freqüências muito altas ou muito pequenas do fator entre
as pessoas doentes. Para isto um grupo de indivı́duos afetados pela doença em questão é comparado com
um grupo controle de indivı́duos não afetados. Como as informações são obtidas de maneira retrospectiva,
freqüentemente, este tipo de planejamento recebe o nome de Estudo Retrospectivo.
Um estudo retrospectivo começa com um grupo de indivı́duos, a serem chamados de ”casos”, que tenham
contraı́dos a doença em questão. O pesquisador escolhe como padrão de comparação, um grupo ”controle”
constituı́do de pacientes que não estão sofrendo da doença. A seguir obtem a história clı́nica de todos os
pacientes selecionados a fim de averiguar a presença ou ausência do fator de risco que está sendo estudado. A
questão é saber se o fator de risco está presente mais freqüentemente ou em nı́vel mais elevados entre os casos
do que entre os controles. Se a evidência for suficiente o pesquisador concluirá que existe uma associação
entre o fator de risco e a doença.
Idealmente, os casos devem ser todos os que ocorreram durante um perı́odo de tempo em uma população
finita. Os controles devem ser pessoas comparáveis aos casos, mas sem a doença, ou seja, pessoas que, se
desenvolvessem a doença, seriam escolhidas como casos.
Os grupos de casos e de controles podem ser formados de forma emparelhada ou de forma independente.
No primeiro esquema, para cada caso ou mais controles semelhantes são escolhidos. Já na formação de grupos
de forma independente, os controles não escolhidos de forma associada a um caso especı́fico. Preocupa-se
apenas em garantir que o grupo de casos seja, na sua totalidade, parecido com o grupo de controles.
O caso particular do emparelhamento em que há apenas um controle para cada caso é denominado
pareamento.
Os estudos de caso-controle são uma forma de pesquisa simples e eficiente, por isso muito utilizada.
Através dela, já se verificaram ou se confirmaram associações entre fatores de risco e vários tipos de câncer.
Não há dificuldades éticas para sua implementação e, portanto, os dados usados são os de seres humanos. Isto
livra o pesquisador de difı́ceis generalizações inerentes aos estudos desenvolvidos em animais. O tempo gasto
e os custos associados são relativamente pequenos, já que, normalmente, são utilizados dados preexistentes.
São particularmente adequados ao estudo de doenças raras, porque o pesquisador começa com um grupo de
pessoas que comprovadamente têm a doença.
Sua grande limitação é a suscetibilidade aos vı́cios de informação e de seleção. Outra é que obtemos
apenas informação sobre associação entre fatores e doença e não sobre causas da doença. O resultado de
tais estudos deve ser considerado um elo a mais em uma cadeia de evidências que levará ao veredito de
causalidade.
Descreveremos abaixo alguns tipos de tendenciosidade aos quais os estudos caso-controle estão sujeitos. O
leitor deve, antes de se envolver no planejamento de um tal estudo, conhecer mais profundamente a literatura
médica da área. Esta experiência é fundamental pois lhe dará conhecimento das formas especı́ficas pelas
quais estas tendenciosidades aparecem.
Embora não existindo associação entre o fator e a doença em questão, existem várias maneiras pelas quais
uma associação pode aparecer em um estudo caso-controle. Uma delas é chamada Vı́cio da Seleção. Ocorre
quando os casos ou os controles são incluidos no estudo por causa de alguma caracterı́stica que possuam e
que está relacionada com o fator de risco sendo considerado. Chamamos de Vı́cio de Informação àquele
introduzido pelos pesquisadores que, já desconfiando da associação a ser constatada, são mais cuidadosos ao
levantar a história clı́nica dos casos que dos controles. Dizemos que houve Vı́cio de Confundimento se a
associação observada é produto não do fator considerado mas de outros fatores não controlados no estudo.
O grupo controle é usualmente constituı́do de pacientes de hospitais, onde estão sendo tratados os pa-
cientes do grupo de casos. Deve-se escolher para o grupo controle pacientes de uma grande variedade de
doenças. Isto protege os resultados de uma forma de vı́cio da seleção; o estudo não detecta uma associação
porque a doença dos pacientes-controle e a doença sendo estudada estão ambas associadas com o fator de
risco. Quando existe facilidade na coleta de dados o número de pacientes do grupo controle pode ser até 4
vezes maior que o número de pacientes do grupo de casos. O método de seleção dos indivı́duos do grupo
controle é quase que inteiramente dependente das circunstâncias especı́ficas do estudo. Aqui também é fun-
damental o conhecimento da literatura médica da área, já que é usual apresentar-se uma descrição detalhada
dos controles utilizados.
Exemplo 2.5. Fatores de risco em câncer de mama.

Gomes (1992), em tese de doutorado na Faculdade de Medicina da UFMG, realizou estudo caso-controle
com o objetivo de avaliar a influência de fatores de risco no câncer de mama, utilizando dados de nosso meio.
Como “casos” foram escolhidas pacientes portadoras de câncer de mama registradas no Hospital das Clı́nicas
da UFMG, que satisfizeram os seguintes critérios de inclusão: idade na época do diagnóstico entre 25 e 75
anos, diagnóstico feito entre 1978-1987 e confirmado por exame anátomo-patológico, tumor originário do
tecido epitelial e ter sido submetida a algum tipo de cirurgia na mama.
Como “controles” foram escolhidas pacientes com idade igual à do “caso” (mais ou menos dois anos),
data de admissão ao hospital igual à data de confirmação do diagnóstico do caso (mais ou menos seis
meses) e exame clı́nico da mama sem indicação de patologias mamárias. De acordo com esses critérios,
foram selecionados, através de emparelhamento, dois controles para cada caso. O primeiro foi selecionado
no ambulatório de ginecologia e o segundo no registro geral do hospital. A análise estatı́stica, entre várias
outras conclusões, mostrou que a presença na paciente de história familiar (retrospectivamente) de câncer
de mama aumenta o risco desta patologia em 8,84 vezes.
a
EXPOSTOS
DOENTES
(GRUPOS
DE
b CASOS)
NÃO-EXPOSTOS

AMOSTRA
ANÁLISE DE
DE CASOS
DADOS POPULAÇÃO
DE CASOS
E DE AMOSTRA
CONTROLES DE

c CONTROLES
EXPOSTOS
NÃO-DOENTES
(GRUPO
DE
CONTROLES)
d NÃO-EXPOSTOS
MENSURAÇÃO FORMAÇÃO DOS GRUPOS

a, b, c, d : os quatro possíveis resultados DA EXPOSIÇÃO POR OBSERVAÇÃO
(note o caráter retrospectivo) DA EXPOSIÇÃO
Figura 2.3: Esquema de Estudo Caso-Controle.

Vantagens do Estudo de Caso-Controle
• Baixo custo relativo;

• Alto potencial analı́tico;
• Adequado para estudar doenças raras.
Desvantagens do Estudo de Caso-Controle
• Incapaz de estimar risco (reduzido poder descritivo);
• Vulnerável a inúmeros biases (seleção, etc.)

• Complexidade analı́tica.
2.4.2 Estudo de Coorte

Em contraste com um estudo retrospectivo, um estudo prospectivo avança no tempo e coloca ênfase no
fator de risco. O Estudo de Coorte é uma forma de pesquisa que visa verificar se indivı́duos, selecionados
porque foram expostos ao fator de risco, desenvolvem a doença em questão, em maior ou menor proporção
do que um grupo de indivı́duos, comparáveis, mas não expostos ao fator de risco.
Identificam-se um grupo exposto ao fator e o grupo controle, constituı́do de pessoas que não foram
expostas a ele. Os dois grupos são acompanhados por um perı́odo de tempo e as taxas de incidência da
doença calculadas. Se essas taxas são significativamente diferentes nos dois grupos, o pesquisador conclui
que há associação significativa entre a doença e o fator.
Os epidemiologistas preferem o termo “Estudo Tipo Coorte” para este tipo de estudo, entretanto “Estudo
Prospectivo” é a nomenclatura mais utilizada.
Os Estudos de Coorte possuem várias vantagens. O pesquisador tem a possibilidade de usar critérios
uniformes, tanto na identificação da presença ou não do fator de risco ao inı́cio do estudo, quanto na
verificação da ocorrência da doença nos vários exames de acompamento. Nos dois grupos a comparabilidade
pode ser verificada no inı́cio do estudo e identificadas as variáveis para as quais são necessários ajustamentos
na análise dos dados.
Em um estudo prospectivo, o pesquisador tem muito mais liberdade sobre o que medir e como medir, já
que não se restringirá ao uso de dados já coletados. Uma outra vantagem, que só poderá ser completamente
apreciada ao se estudar a metodologia de análise de dados, é que os estudos de coorte nos permitem obter
diretamente uma estimativa da magnitude do risco relativo. Isto significa que é possı́vel quantificar o risco
de desenvolver a doença comparando-se o grupo de expostos ao fator de risco com o grupo de não expostos.
Estudos de Coorte são grandes, longos e normalmente caros. Quanto mais rara a doença em questão,
maior o número de pacientes que precisam ser examinados, portanto não indicado para doenças raras.
Embora, do ponto de vista teórico, os Estudos de Coorte sejam melhores que os Estudos Caso-Controle,
estes últimos são mais comuns.
Seleção das Coortes

Grupos de pessoas são selecionadas para o Estudo de Coorte por uma variedade de razões. Apresentamos
a seguir dois exemplos:
Exemplo 2.6. Fumo e câncer de pulmão.
O clássico estudo de Doll & Hill (1964) sobre associação entre câncer no pulmão e fumo ilustra a escolha
da coorte pelo fato de o grupo possuir caracterı́sticas que facilitam a obtenção dos dados sobre a exposição
ao fator e o seguimento dos pacientes. Foram acompanhados médicos da Inglaterra desde o fim dos anos
20, um grupo fácil de contactar e no qual todas as mortes são rotineiramente bem documentadas. Estas
pesquisas iniciaram-se devido ao grande aumento da mortalidade causada por este câncer.
No primeiro estudo, publicado em 1950, compararam-se dois grupos de pacientes. O primeiro, constituı́do
de todos os casos de câncer de pulmão de um conjunto de hospitais londrinos. Assistentes sociais, especial-
mente treinadas para o estudo, entrevistaram todos os pacientes internados com diagnóstico de câncer de
pulmão, levantando sua história clı́nica e seus hábitos tabagistas. O segundo grupo, chamado de controle,
foi constituı́do por pacientes dos mesmos hospitais, sem diagnóstico de câncer, na mesma faixa etária, do
mesmo sexo e da mesma região de residência que os casos anteriores. A Tabela 2.1 mostra os resultados
obtidos. A associação é clara e forte.
Tabela 2.1: Número de fumantes e não fumantes entre pacientes do sexo masculino com diagnóstico de
câncer pulmonar e controles.
Grupo Fumantes Não-Fumantes Total
Câncer pulmonar 647 2 650
Controle 622 27 649
Total 1269 29 1299
A forma de organização deste estudo é chamada de Estudo Caso-Controle. À época, esta metodologia
era muito criticada, pois, com facilidade, podia produzir associações espúrias. Por isso, a evidência, embora
clara e forte, não foi convincente o suficiente.
Assim, os mesmos autores iniciaram um segundo estudo, cuja caracterı́stica básica é o fato de que o
acompanhamento dos pacientes foi prospectivo. Este tipo de planejamento é chamado de Estudo de Coorte.
Em outubro de 1951, os pesquisadores enviaram um questionário simples a todos os médicos da Inglaterra,
aproximadamente 60.000 indivı́duos. O questionário perguntava se o respondente já havia fumado ou não.
Em caso afirmativo, pedia informações sobre o que e quanto. Mais de dois terços dos médicos responderam
com detalhe suficiente para que seus dados pudessem ser incluı́dos no estudo.
As respostas possibilitaram aos pesquisadores classificar cada respondente como fumante ou não fumante.
A definição de não-fumante usada foi: um não fumante é uma pessoa que fumou até no máximo um cigarro
diário, em média, por um perı́odo inferior a um ano.
Através de complexo sistema de acompanhamento, observaram-se nos primeiros 10 anos, 136 mortes
associadas ao câncer pulmonar entre os médicos incluı́dos no estudo. Destas, apenas 3 eram de não-fumantes.
Para equalizar os perı́odos de acompanhamento nos vários grupos, trabalhou-se com a taxa de incidência
por 1.000 pessoas-ano de exposição. Os valores desta taxa estão na Tabela 2.2. O risco de morte por câncer
pulmonar das pessoas que fumam mais de 25 cigarros diários é quase 32 vezes maior do que o mesmo risco
para quem não fuma.
Tabela 2.2: Taxa de mortalidade por 1.000 pessoas-ano devida a câncer pulmonar (número de mortes entre
parênteses) para não fumantes e fumantes.
Não-Fumantes Cigarros diários (Fumantes)
1-14 5-24 25+
0,07(3)
0,57(22) 1,39(54) 2,27(57)
Estes dois planejamentos, estudo Caso-Controle e Estudo de Coorte, são as formas usuais de organização
da pesquisa etiológica. Muitos outros estudos como os descritos anteriormente foram feitos em populações
variadas para se verificar o possı́vel papel do fumo. Em todos, a evidência foi clara. Hoje, o papel de agente
causador do câncer de pulmão é amplamente reconhecido e justifica a militância cada vez mais organizada
contra o fumo.
Em muitos Estudos de Coorte os grupos de comparação são obtidos após o inı́cio do estudo, de acordo
com o nı́vel de exposição ao fator. As coortes do estudo de Framingham sobre doenças coranárias (Kannel
et al., 1972), foram construı́das dividindo-se o grupo acompanhado de acordo com hábitos de fumo, nı́veis
de colesterol, etc. Nestes casos não há necessidade de um grupo externo de comparação.
Exemplo 2.7. Personalidade e desenvolvimento de doença coronariana.
Um Estudo de Coorte com o objetivo de avaliar o possı́vel efeito da personalidade no risco de desenvolvi-
mento de doença coronariana foi conduzido entre 3.154 trabalhadores do sexo masculino com idade de 30 a
59 anos (Brand et al., 1976). Os indivı́duos entraram no estudo entre 1960-61 e foram acompanhados por
um perı́odo médio de 8 anos e meio. Através de entrevista no inı́cio do estudo, foram classificados em dois
tipos de personalidade, A e B, sendo os primeiros mais agressivos, competitivos e ansiosos.
Os resultados da Tabela 2.3 indicam que nas duas faixas etárias consideradas os percentuais de indivı́duos
do tipo A que desenvolveram doença coronariana são aproximadamente o dobro dos encontrados no outro
grupo.
Em outras situações, particularmente quando um grupo submetido a uma exposição pouco comum é
estudado, é importante comparar o resultado observado com aquele esperado, caso os indivı́duos não tivessem
sido submetidos ao fator de risco. Usa-se a experiência da população em geral, ao tempo em que a coorte é
formada, como padrão de comparação.
Tabela 2.3: Percentual de indivı́duos que desenvolveram doença coronariana segundo faixa etária e tipo de
personalidade.
Faixa etária Personalidade
A B
39-49 8,9 4,2
50-59 15,9 7,6
Finalmente, usa-se também como base de comparações outra coorte formada por pessoas não expostas,
parecidas nas caracterı́sticas demográficas com o grupo exposto. Por exemplo, considerando uma coorte
de radiologistas, Seltser e Sartwell (1965) usaram como padrão de comparação dados de oftalmologistas e
otorrinolaringologistas.
a
DOENTES
POPULAÇÃO
EXPOSTOS
ou
b
grupo-experimental NÃO-DOENTES

AMOSTRA
PARA ANÁLISE
ESTUDO DE
DADOS
c
DOENTES
NÃO-EXPOSTOS
ou
grupo-controle d
NÃO-DOENTES
FORMAÇÃO DOS GRUPOS
POR OBSERVAÇÃO MEDIÇÃO
DA EXPOSIÇÃO DOS EFEITOS
a, b, c, d : os quatro possíveis resultados
Figura 2.4: Esquema de Estudo Coorte.

Vantagens do Estudo de Coorte
• Produz medidas diretas de risco;

• Alto poder analı́tico;
• Facilidade de análise.
Desvantagens do Estudo de Coorte
• Estudos de Coorte são grandes, longos e normalmente caros. Quanto mais rara a doença em questão,
maior o número de pacientes que precisam ser examinados. Portanto este estudo é inadequado para
doenças de baixa freqüência;
• Vulnerável a perdas (biases).
2.4.3 Ensaios Clı́nicos Aleatorizados

O Ensaio Clı́nico Aleatorizado é um experimento médico, realizado com o objetivo de verificar, entre dois
ou mais tratamentos, qual é o mais efetivo.
São usados quando é incerto o valor de uma nova terapia ou os méritos da terapia existente estão em
disputa. É a metodologia apropriada para a comparação de tratamentos.
Após um critério de admissão ter sido definido, os pacientes são, à medida que entram no experimento,
alocados de maneira aleatória ao grupo controle, que recebe a terapêutica padrão, ou ao grupo tratamento,
que recebe a terapêutica sendo testada. Todo esforço deve ser feito para oferecer os mesmos cuidados aos
dois grupos. Terminado o experimento, técnicas estatı́sticas são usadas para se decidir se há ou não diferença
na eficácia das terapias envolvidas.
Esta é uma forma experimental de pesquisa, isto é, o pesquisador interfere deliberadamente no curso
natural dos acontecimentos, em contraposição aos estudos observacionais, em que o pesquisador se restringe
à coleta de dados, sem alterar a dinâmica do processo em consideração. Por isto está sujeita a costrangimentos
éticos, disciplinados pela convenção de Helsinque.
O conhecimento pelo paciente ou pelo médico do tratamento a ser administrado pode influir na evolução
da doença, não através de fatores estrı́nsecos, mas diretamente pelo processo de auto-sugestão. É o efeito
placebo, que traz vı́cios ao estudo clı́nico.
A única maneira de eliminar o efeito placebo nos grupos comparados é realizar, sempre que possı́vel,
experimentos cegos, nos quais o paciente ou o médico não conhece o tratamento, ou duplo-cego, no qual
ambas as parte desconhecem o tratamento. Este ideal, entretanto, nem sempre é factı́vel.
Exemplo 2.8. Tamoxifeno e câncer de mama.

Muitos avanços no tratamento do câncer de mama têm sido estabelecidos através de estudos realizados
pelo National Surgical Adjuvant Breast and Bowel Project (NSABP). Em 1985, discutia-se a necessidade de
se submeter à quimioterapia ou hormonioterapia, pacientes de bom prognóstico, logo após a cirurgia. Em
particular, havia evidências de várias origens de que o tamoxifeno poderia melhorar ainda mais o prognóstico
dessas pacientes. Naquela época, o tamoxifeno já era usado largamente no tratamento de pacientes com
câncer de mama. Diante disto, o NSABP iniciou o protocolo B-14 para determinar a eficácia do tamoxifeno
em pacientes consideradas de bom prognóstico, isto é, aquelas com tumores com receptor de estrógeno
positivo (>10 fmol ), idade inferior a 70 anos, com câncer de mama operável e linfonodos axilares negativos
ao exame histológico. Foram criados dois grupos de pacientes através de aleatorização feita dentro de estratos
definidos por idade e tamanho do tumor na análise clı́nica, tipo de cirurgia e concentração de receptor de
estrógeno. Um grupo recebeu tamoxifeno (10 mg por dia, via oral, duas vezes ao dia) e o outro, placebo,
indistinguı́vel do tamoxifeno na aparência e gosto. Além disto, o ensaio foi organizado na forma duplo-cego.
Após acompanhamento das pacientes por um perı́odo de até 4 anos, constatou-se uma diferença signi-
ficativa em termos de tempo livre de doença em favor das pacientes que receberam o tamoxifeno. No grupo
tratamento, 83% estavam livres da doença aos quatro anos após a cirurgia, enquanto que no grupo placebo
esta porcentagem era de 73%. Este estudo, publicado por Fisher et al. (1989), contribuiu decisivamente para
a adoção do tamoxifeno como quimioterapia adjuvante logo após a cirurgia em pacientes de bom prognóstico.
a
EFEITO: PRESENTE
POPULAÇÃO
EXPOSTOS
À INTERVENÇÃO
ou b
grupo-experimental EFEITO: AUSENTE

AMOSTRA
PARA ANÁLISE
ESTUDO DE
DADOS
c
EFEITO: PRESENTE
NÃO-EXPOSTOS
À INTERVENÇÃO
ou
grupo-controle d
EFEITO: AUSENTE
FORMAÇÃO DOS GRUPOS
POR ALEATORIZAÇÃO E MEDIÇÃO
APLICAÇÃO DOS TRATAMENTOS DOS EFEITOS
a, b, c, d : os quatro possíveis resultados
Figura 2.5: Esquema de um Ensaio Clı́nico Aleatorizado.
2.4.4 Estudos Descritivos

As investigações de cunho descritivo, têm o objetivo de informar sobre a distribuição de um evento, na
população, em termos quantitativos.
Elas podem ser de incidência ou de prevalência. Nelas, não há formação de grupo-controle para a
comparação dos resultados, ao menos na forma como é feita nos estudos analı́ticos - daı́ serem considerados
estudos não-controlados.
Exemplos de temas de estudos descritivos
• A incidência de infecção chagásica em habitantes rurais;

• A prevalência da hepatite B entre os voluntários à doação de sangue;
• As caracterı́sticas demográficas e socioeconômicas dos pacientes que sofrem de artrite reumatóide ou
das pessoas que fumam;
• As principais causas de óbito da população residente em um dado municı́pio;
• O estado imunitário de pré-escolares, de um municı́pio, frente à poliomielite;

• Os padrões de crescimento e desenvolvimento de crianças normais ou daquelas acometidas por uma
determinada doença;
• A variação regional na utilização de serviços de saúde.
• A tendência do coeficiente de mortalidade por tuberculose, de uma cidade, nos últimos anos.
Estudo de Caso
Trata-se de observar um ou poucos indivı́duos com uma mesma doença ou evento e, a partir de descrição
dos respectivos casos, traçar um perfil das suas principais caracterı́sticas.
Muitas revistas cientı́ficas apresentam uma seção de ”relato” ou ”apresentação de casos”, para difundir
os resultados destes estudos.
O estudo de casos é empregado para enfocar grupos especı́ficos da população ou um particular aspecto
de interesse, não devidamente investigados em pesquisas quantitativas ou que simplesmente necessitem de
suplementação de informações, com maior riqueza de detalhes.
Vantagens do Estudo de Casos
• Em geral, o estudo de caso é relativamente fácil de ser realizado e de baixo custo.

• O relato pode restringir-se a uma simples descrição ou ir mais além, de modo a sugerir explicações
sobre elementos pouco conhecidos, tais como os fatores implicados na etiologia ou no curso de uma
doença, sob vigência ou não de terapêutica.
• Em clı́nica, é possı́vel acompanhar pacientes durante anos, e mesmo décadas, chegando-se a um quadro
repleto de detalhes sobre aspectos evolutivos de uma dada condição.
• O estudo de casos constitui-se em um verdadeiro inventário do que acontece genericamente, à luz da
observação de poucos indivı́duos.
• É um enfoque qualitativo e exploratório, embora muitas facetas possam ser quantificadas. Um aspecto
positivo, convém realçar, é a possibilidade de observação intensiva de cada caso.
Desvantagens do Estudo de Casos
• Os indivı́duos observados costumam ser altamente selecionados. Às vezes, a observação restringe-se a
situações incomuns de enfermos graves, outras vezes, aos casos de evolução atı́pica, de reação inusitada
ou de resultado terapêutico inesperado; muito raramente, abrange pacientes em todas as faces de
manifestação da doença.
• A falta de indivı́duos-controle, para comparar resultados, pode fazer com que simples coincidências
sejam difı́ceis de interpretar: por exemplo, em investigação de um surto de diarréia, se os casos beberam
água de um certo poço a evidência é ainda frágil para incriminar a água do poço na etiologia da doença.
Seria conveniente saber se os sadios também beberam ou não água do mesmo poço.
Em sı́ntese, apesar das vantagens referentes à facilidade de realização e baixo custo, duas limitações
principais estão presentes no estudo de casos:
• a falta de controle - eles serviriam para contornar problemas de aferição e comparação acima men-
cionados;
• o número pequeno de indivı́duos incluı́dos para observação - o que aponta para a prudência na in-
terpretação dos resultados de estudos de casos, especialmente, na generalização, como ele tem sido
atualmente empregado na área clı́nica, é útil para levantar problemas, muitos dos quais são comple-
mentarmente investigados com o auxı́lio de outros métodos.
2.4.5 Seccionais ou Transversais

Investigações que produzem ”instantâneos” da situação de saúde de uma população ou comunidade,
com base na avaliação individual do estado de saúde de cada um dos membros do grupo, e daı́ produzindo
indicadores globais de saúde para o grupo investigado, são chamadas de estudos seccionais ou de corte-
transversal-seccional.
O Estudo Seccional também é conhecido como Estudo Transversal ou da Prevalência.
Vantagens do Estudo Seccional
• Simplicidade e baixo custo;

• Rapidez;
• Não há necessidade de seguimento das pessoas;
• Alto potencial descritivo (subsı́dio ao planejamento);
• Boa opção para descrever as caracterı́sticas dos eventos na população, para identificar casos na comu-
nidade e para detectar grupos de alto risco, aos quais pode ser oferecida atenção especial.
Desvantagens do Estudo Seccional
• Vulnerabilidade a biases ou vı́cios (especialmente de seleção);

POPULAÇÃO
AMOSTRA PARA
ESTUDO FORMAÇÃO DOS GRUPOS POR
OBSERVAÇÃO SIMULTÂNEA DE

EXPOSIÇÃO E DOENÇA
EXPOSTOS EXPOSTOS NÃO-EXPOSTOS NÃO-EXPOSTOS

E E E E
DOENTES NÃO-DOENTES DOENTES NÃO-DOENTES
a b c d
ANÁLISE DOS DADOS
Figura 2.6: Esquema de um Estudo Seccional.
• Baixo poder analı́tico (inadequado para testar hipóteses causais);

• Condições de baixa prevalência exigem amostra de grande
tamanho, logo têm dificuldades operacionais;
• Não determina risco absoluto (ou seja, a incidência);
• A associação entre exposição e doença, se detectada, refere-se à época de realização do estudo e pode
não ser a mesma da época de aparecimento da doença.
Exercı́cio 2.1. Indique qual forma de pesquisa foi utilizada nos seguintes problemas:
1. (a) ”Viagra para os diabéticos” (Revista isto é, no 1535 de 03/03/1999) - A famosa pı́lula azul pode
também ser eficaz para diabéticos que tem a função erétil comprometida. Estudos preliminares
haviam descartados a eficiência do Viagra nesses casos. Mas uma pesquisa realizada com 268
homens pela Universidade de Creighton, nos Estados Unidos, mostrou que 56 % dos pacientes
que tomaram Viagra tiveram melhoras contra 10 % dos que ingeriram placebo.
(b) Um estudo foi conduzido em um grupo de gêmeos monozigotos e dizigotos do mesmo sexo, sendo
que um gêmeo do par tinha câncer no cólon e o outro não. Todos foram de universidades do
sudoeste dos Estados Unidos durante um perı́odo de 5 anos. Informações sobre o teor de fibras
da dieta foram coletadas para cada um dos indivı́duos afim de estimar seu efeito na ocorrência do
câncer no cólon.
(c) Durante o ano de 1982, identificou-se cada criança nascida na cidade de Pelotas e procedeu-se
à revisão dos registros de nascimento com o objetivo de conhecer, entre outras variáveis, o peso
ao nascimento. As crianças eram classificadas em dois grupos (peso normal 2.300g e baixo peso
<2.300g) sendo seguidas por um ano. Ao final deste perı́odo comparou-se a mortalidade infantil
nos dois grupos.
(d) Com o objetivo de avaliar uma possı́vel associação entre uso de reserpina e câncer de mama, forma
identificadas 100 pacientes internadas por câncer de mama (casos novos) em um hospital geral
durante um perı́odo de dois anos. Estas pacientes foram entrevistadas sendo colhida a informação
quanto ao uso prévio de reserpina. Para cada caso eram entrevistados quatro controles, seleciona-
dos aleatoriamente dentro do grupo de mulheres internadas por outros diagnósticos durante o
mesmo perı́odo do caso.
(e) 300 pacientes portadores de diabetes mellitus foram alocados aleatoriamente em dois grupos, cada
um com 150. O primeiro grupo recebeu uma droga hipoglicemiante nova, enquanto os demais
permaneceram em uso de clorpropamida. Os pacientes foram acompanhados por seis meses e o
grau de controle metabólico dos pacientes nos dois grupos foi comparado através das determinações
de glicemia capilar (diárias) e da hemoglobina glicosilada (aferida a cada dois meses).
Capı́tulo 3
Estatı́stica Descritiva
3.1 Organização de Dados Estatı́sticos

3.1.1 Normas para a Apresentação Tabular de Dados
A representação tabular é uma apresentação numérica dos dados. Consiste em dispor os dados em linhas
e colunas, distribuı́das de modo ordenado, segundo algumas regras práticas adotadas pelos diversos sistemas
estatı́sticos. As regras que prevalecem no Brasil foram fixadas pelo Conselho Nacional de Estatı́stica.
Uma tabela estatı́stica compõe-se de elementos essenciais e elementos complementares.
1. Elementos essenciais
a. Tı́tulo:
É a indicação da natureza do fato estatı́stico observado, fazendo referência ao local e ao tempo
em que foi observado.
b. Cabeçalho:
São as indicações que especificam o conteúdo das colunas.
c. Coluna indicadora:
São as indicações que especificam o conteúdo das linhas.
2. Elementos complementares
a. Fonte
É a entidade responsável pelos dados contidos na tabela.
b. Nota
São informações que esclarecem critérios usados na confecção da tabela.
c. Chamada
É a informação de natureza especı́fica, que serve para complementar determinado dado usado na
confecção da tabela.
20
3.2 Distribuição de Freqüências ROSSI, Robson M. 21
Tabela 3.1: População brasileira por faixa etária.

Idades (Anos) 1980 (%) 1991 (%)
0 à 9 27.9 23.6
10 à 19 20.6 18.3
20 à 59 45.0 50.9
≥ 60 6.5 7.2
Fonte: IBGE
3.2 Distribuição de Freqüências

Geralmente após a coleta de dados, estes são apresentados de forma desorganizada e de difı́cil manip-
ulação, logo fáz-se necessário organizá-los. Para organizar os dados provenientes de uma variável qualitativa,
é usual fazer uma Tabela de freqüências.
Tabela 3.2: Total de alunos matriculados na UEM em 2002.

Sexo Freqüência
Feminino 7545
Masculino 5905
Total 13450
Fonte: UEM/2002.
Quando a variável em estudo é do tipo contı́nua e assume muitos valores distintos, o agrupamento dos
dados em classes será sempre necessário na construção das tabelas de freqüências.
Em publicações mais antigas sobre construção de tabelas de freqüências, há fórmulas para determinação
do número de classes de acordo com o número de dados. Essas fórmulas eram úteis, pois a construção
dos gráficos era muito custosa sem o auxı́lio do computador. Esse procedimento é aconselhável como uma
primeira visualização da distribuição de freqüências de uma variável. A seguir é apresentado um roteiro para
construção de distribuições de freqüência.
Exemplo 3.1. Considere uma amostra de 25 criança, das quais foram obtidas medidas de intoxicação
alimentar por uma substância desconhecida (g).
Dados brutos
0,77 0,75 0,80 0,78 0,75 0,65 1,05 1,10 0,75 0,75
0,85 0,61 0,78 0,58 0,52 0,78 1,02 0,99 0,65 0,55
0,85 0,90 0,96 0,79 0,55
Fonte: Dados hipotéticos
Os dados, como apresentados acima, são chamados brutos, pois não foram ainda submetidos a nenhum
tipo de tratamento. Inicialmente, os dados devem ser colocados em ordem crescente:
Dados em ordem crescente

0,52 0,55 0,55 0,58 0,61 0,65 0,65 0,75 0,75 0,75
0,75 0,77 0,78 0,78 0,78 0,79 0,80 0,85 0,85 0,90
0,96 0,99 1,02 1,05 1,10
Pode-se observar, agora, que das 25 observações o menor valor é xmı́n = 0, 55 e o maior é xmáx = 1, 10.
Amplitude (AT): é a diferença entre o maior e o menor valor do conjunto de dados observados.
AT = xmáx − xmı́n
3.2 Distribuição de Freqüências ROSSI, Robson M. 22
Para os dados acima: AT = 1, 10 − 0, 52 = 0, 58

Observe que esse exemplo contém um número pequeno de observações (n = 25), quando há um grande
número de dados observados o processo de ordenação é trabalhoso e a listagem final pouco representará.
Nesses casos, pode-se simplificar o processo agrupando os dados em certo número de classes, cujos limites
serão denominados limite inferior e limite superior. A quantidade de classes e a amplitude destas devem
ser obtidas observando as seguintes normas:
i) as classes devem cobrir a amplitude total;

ii) o extremo superior de uma classe é o extremo inferior da classe seguinte;
iii) cada valor observado deve enquadrar-se em apenas uma classe;
iv) o número total de classes não deve ser inferior a 5 e nem superior a 25;
O número de classes (k), pode ser obtido de uma das fórmulas seguintes:
√
i) k = n ;
ii) k = 1 + 3, 22 log n , (fórmula de Sturges).

√
Para o exemplo 2.1: k = 25 = 5 ou k = 1 + 3, 22log(25) ' 5, 50. Dividindo a amplitude total (AT ) por
k = 5 chega-se ao tamanho ou amplitude de cada uma das classes:
AT 0, 58 ∼
h= = = 0, 12
k 5
Obs.: quando os valores observados são números inteiros, os limites das classes também devem ser
AT
números inteiros. Para isso, aconselha-se escolher o número mais próximo de AT que resulte h = em
k
um número inteiro.
Agora, utilizando esse valor pode-se obter os limites inferiores e superiores das classes:
i) o limite inferior da primeira classe pode ser o menor valor da série, neste caso : 0,52.
ii) os demais limites serão obtidos somando aos limites inferiores o valor de h. Isto é,
0, 52 ` (0, 52 + h = 0, 52 + 0, 12) = 0, 64
0, 64 ` (0, 64 + h) = 0, 76
0, 76 ` (0, 76 + h) = 0, 88
0, 88 ` (0, 88 + h) = 1, 00
1, 00 ` (1, 00 + h) = 1, 12.
Lembrando que a notação (`) significa que se esta incluindo os valores iguais ao limite inferior e excluindo
os valores iguais ou superiores ao limite superior. A partir da listagem ordenada das classes, pode-se construir
os chamados quadros (ou tabelas) de freqüência ou distribuições de freqüência, que permitem uma melhor
visualização dos dados.
Freqüência: é o número de valores que aparecem no domı́nio de uma classe.
Um quadro de freqüências completo deve conter as seguintes informações:
i) xi é o ponto médio da i-ésima classe; representa a média dos pontos limites da classe;
li + Li
xi = ; li : limite inferior e Li : limite superior da classe i.
2
ii) n é o tamanho da amostra;

iv) Fi é a freqüência absoluta da i-ésima classe;
3.3 Gráficos ROSSI, Robson M. 23
Fi
v) fi é a freqüência relativa da i-ésima classe, fi = ;
n
vi) Faci é a freqüência acumulada da i-ésima classe;
Faci
vii) faci é a freqüência relativa acumulada da i-ésima classe, faci = .
n
Assim, no caso da amostra de 25 criança intoxicadas, a distribuição de freqüência pode ser da seguinte
forma:
Tabela 3.3: Distribuição do nı́vel de intoxicação.

Classes xi Fi fi Fac fac
0,52 ` 0,64 0,58 5 0,20 5 0,20
0,64 ` 0,76 0,70 6 0,24 11 0,44
0,76 ` 0,88 0,82 8 0,32 19 0,76
0,88 ` 1,00 0,94 3 0,12 22 0,88
1,00 ` 1,12 1,06 3 0,12 25 1,00
Total - 25 1 - -
Outras informações:
Nenhuma cela ( casa ) deve ficar em branco .
Hı́fen ( - ) , indica que o valor numérico é nulo.
Reticência ( ... ) , indica que não se dispõe do dado.
Interrogação ( ? ) , indica dúvida quanto a exatidão do valor numérico.
Zeros ( 0 ; 0,0 ; 0,00 ), indica valor muito pequeno em relação a unidade utilizada.
3.3 Gráficos
Os gráficos são representações pictóricas, de grande valia na compreensão e visualização dos dados.
Os principais gráficos utilizados na representação estatı́stica são:
1. Diagramas;
(a) Por Pontos;

(b) Por Linhas;
i. Poligonais;
ii. Curvas;
(c) Por Superfı́cies;
i. em Colunas;
ii. em Barras;
iii. em Histogramas;
iv. em Setores;
2. Cartogramas;
3. Estereogramas.
3.3.1 Diagramas
São representações gráficas de séries estatı́sticas por intermédio de linhas e superfı́cies. As linhas utilizadas
são as poligonais e as curvas, e as superfı́cies são retângulos, cı́rculos e quadrados. Para suas contruções
pode-se utilizar a proporcionalidade entre série de números ou do sistema retilı́nio ortogonal. Este sistema
estabelece uma correspondência biunı́voca entre os pares de números reais e os pontos de um plano. Assim,
de modo geral, num sistema retilı́neo ortogonal, um ponto P do plano está determinado pelos números reais
X e Y, tomados sobre dois eixos divididos em segmentos unitários.
Diagramas por Pontos (Diagramas de Dispersão):

É a representação gráfica dos dados de forma bruta e geral, o que pode fornecer uma idéia da variabilidade
dos dados, pontos extremos tec.
10
8
6
y
4
2
0
0 2 4 6 8
Figura 3.1: Diagrama de Dispersão de Pontos.
Diagramas por Linha Poligonal:

É a representação gráfica de uma série estatı́stica por meio de uma linha poligonal. É um dos mais impor-
tantes gráficos; representa observações feitas ao longo do tempo, em intervalos iguais ou não. Tais conjuntos
de dados constituem as chamadas séries históricas ou séries temporais. Traduzem o comportamento de um
fenômeno em certo intervalo de tempo.
6.0
5.5
5.0
y
4.5
4.0
3.5
Jan
Feb
Mar
Apr
May
Jun
Jul
Aug
Sep
Oct
Nov
Dec
Figura 3.2: Gráfico para Séries Temporais.

O polı́gono de freqüência é um gráfico que se obtém unindo por uma poligonal os pontos correspondentes
às freqüências das diversas classes, centradas nos respectivos pontos médios. Para obter as interseções do
polı́gono com o eixo, cria-se em cada extremo do histograma uma classe com freqüência nula.
Obs.: Suavizando a linha poligonal que define o polı́gono obtém-se uma curva que visualiza a tendência
de variação dos dados.
0.3
Probabilidade
0.2
0.1
0.0
−4 −3 −2 −1 0 1 2 3
Amostra
Figura 3.3: Suavização do polı́gono de freqüência.
Ogiva
A Ogiva ou Polı́gono de Freqüência Acumulada, consiste de uma linha poligonal das Fac ou das fac .
Diagramas por Linha Curva:

É a representação de uma série estatı́stica por meio de uma linha curva. Pode ser utilizada para repre-
sentar uma tendência do tipo linear.
80
60
y
40
20
0
−2 0 2 4 6
Figura 3.4: Diagrama por Linha Curva.
Diagrama por Superfı́cie em Colunas:

É a representação de uma série estatı́stica por intermédio de retângulos em posições verticais. Este tipo
de gráfico proporciona comparar grandezas.
Os valores da variável dependente, dados pela série estatı́stica ou suas diferenças, devem ser proporcionais
às áreas dos retângulos a serem traçados. Para tanto pode-se utilizar o sitema retilı́nio ortogonal marcando-
se os pontos de forma já indicada, e a partir do eixo dos x, construir retêngulos de bases iguais e que tenham
respectivamente, por meio de cada base, os valores da variável independente e os pontos marcados.
25
20
15
10
5
0
0 1 2 3 4 5 6
Figura 3.5: Gráfico em Barras Verticais.
3.3.2 Histograma
Diagrama por Superfı́cie em Histogramas:
O Histograma é um conjunto de retângulos com bases sobre um eixo dividido de acordo com os tamanhos
de classe, centrados nos pontos médios das classes e áreas proporcionais às freqüências.
20
15
Freqüência
10
5
0
−3 −2 −1 0 1 2
amostra
Figura 3.6: Histograma.
Diagrama por Superfı́cie em Setores (Pizza):

É a representação gráfica de uma série estatı́stica por intermédio de superfı́cies setoriais.
É utilizado quando se pretende comparar os valores de uma série com a sua soma total. A representação é
feita tomando como figura básica um cı́rculo que é dividido em setores. O quociente entre a soma dos valores
da série e a área do cı́rculo deve ser o mesmo que entre cada valor da variável dependente e a respectiva área
do setor representativo. Porém em virtude da proporcionalidade das áreas dos setores de um cı́rculo com
seus ângulos centrais, podem-se dividir os valores considerados na série proporcionalmente a estes ângulos.
3.4 Medidas Descritivas ROSSI, Robson M. 27
B
A
Figura 3.7: Diagrama por Superfı́cie em Setores (Pizza).
3.4 Medidas Descritivas

3.4.1 Medidas de Tendência Central ou de Posição
São medidas que objetivam representar o ponto central de equilı́brio de uma distribuição de dados. Essas
medidas representam quantitativamente os dados, sendo as mais utilizadas em análise:
Média
Representa o ponto de equilı́brio de um conjunto de dados. Seja (x1 , . . . , xn ) um conjunto de dados. A
média será dada por:
P
N
xi
i=1
µ= ( dados populacionais ), para dados não-agrupados em tabelas de freqüências.
N
P
n
xi
x = i=1 ( dados amostrais ), para dados não-agrupados em tabelas de freqüências.
n
P
k
xi Fi
i=1
x= ( dados amostrais ), quando os dados agrupados em tabelas de freqüências, com k classes.
n
Quando os dados são agrupados em intervalos de classes, xi corresponde ao ponto médio do intervalo.
Exemplo 3.2. Considere do Exemplo anterior, o conjunto de dados da amostra retirada da variável nı́vel
de intoxação, dado no inı́cio desta parte. A média será dada por:
P
25
xi
i=1 19, 53
xA = = = 0, 7812, para os dados brutos, ou
n 25
P
5
xi Fi
i=1 19, 66
xB = = = 0, 7864, para os dados agrupados (Tabela 3.3).
n 25
Observe que x̄A ' x̄B .
Propriedades da Média:
1 - A soma algébrica dos desvios tomados em relação a média é nula. Isto é,
Pk Pk
i=1 di = i=1 (xi − x) = 0 , i = 1, 2, . . . , n
X = {2, 3, 7} → x = 4,
Pk
pela propriedade: i=1 di = (2 − 4) + (3 − 4) + (7 − 4) = 0.
2 - Somando-se ou subtraindo-se uma constante k, a todos os valores de uma variável, a média do conjunto
fica aumentada ou diminuı́da dessa constante.
yi = xi ± k ⇒ y =x±k
Para k = +2, tem-se: Y = {4, 5, 9} → y = 6,

pela propriedade: y = x + 2 = 4 + 2 = 6.
3 - Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante k, a média do
conjunto fica multiplicada ou dividida por essa constante.
xi x
yi = k · xi ⇒ y =k·x e yi = ⇒ y= ; .k 6= 0.
k k
Para k = +5, tem-se Y = {10, 15, 35} → y = 20,

pela propriedade: y = 5.x = 5.4 = 20.
Vantagens e desvantagens da Média:
1 - É uma medida que, pôr uniformizar os dados, não representa bem os conjuntos que revelam tendências
extremas, uma vez que a mesma será grandemente influenciada pelos valores discrepantes.
Suponha por exemplo, que durante um ano letivo, um aluno tenha as seguintes notas em uma disciplina:
30, 35, 25, 30, 25 35, 35, 95, 90, 100.
500
Um cálculo rápido nos mostra que sua média final foi x = = 50. Como a média deve traduzir o
10
aproveitamento do aluno durante o ano e a média 50 só foi conseguida à custa das três últimas notas,
concluı́mos que 50 é um valor falho para medir o aproveitamento do aluno.
2 - A média nem sempre tem existência real, isto é, ela nem sempre faz parte do conjunto de dados
(x ∈
/ X).
3 - É a medida de posição mais conhecida e de maior emprego.
4 - É facilmente calculada.
5 - Serve para compararmos conjuntos semelhantes.
6 - Depende de todos os valores do conjunto de dados.
7 - em geral não ocupa a posição central do conjunto (ocupa a posição do centro de equilı́brio).
Moda
A Moda (Mo ) é o valor que ocorre com maior freqüência em uma série de dados. Existem séries de dados
em que nenhum valor aparece mais vezes que outros. Neste caso não apresenta moda. São séries amodais.
Em outros casos, pode aparecer dois ou mais valores de concentração. Diz-se então, que a série tem duas ou
mais modas (bimodal, trimodal ou multimodal).
X : {2, 2, 2, 2, 5, 5, 5, 6, 6, 7, 8} → Mo = 2 (unimodal).
Quando os dados se apresentam agrupados em tabelas de freqüências é necessário utilizar a expressão de

“Czuber” (a mais precisa), dada a seguir, para calcular o valor que representa a moda: ( onde i é a ordem
da classe de maior freqüência).
h(Fi − Fi−1 )
“Czuber”: Mo = li + .
(Fi − Fi−1 ) + (Fi − Fi+1 )
Outras modas:
“Pearson”: Mo = 3.Md − 2.x
e
h.Fi+1
“King”: Mo = li + .
Fi−1 + Fi+1
Exemplo 3.3. Calcular a moda de Czuber, para os dados agrupados da amostra dada na Tabela 3.3.
i = 3 (Classe de maior freqüência)
h = 0, 12
l3 = 0, 76
Fi = F3 = 8
Fi−1 = F2 = 6
Fi+1 = F4 = 3
0, 12(8 − 6)
Mo = 0, 76 + ' 0, 794
(8 − 6) + (8 − 3)
Isto significa que o nı́vel de toxicidade mais freqüênte é de 0,794 g.
Mediana
A mediana (Md ) de um conjunto de valores ordenados segundo uma ordem de grandeza, é o valor situado
de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos (é o valor
que está no meio !).
Quando o conjunto de observações tem um número ı́mpar de valores, não-agrupados em classes, então
n+1
a mediana é dada pela expressão: Md = xp , onde p = .
2
x1 x2 x3 x4 x5
→ Md = 5.
3 5 5 6 7
Quando o conjunto de observações tem um número par de valores, não-agrupados em classes, então a
xp + xp+1
mediana será, a média aritmética dos dois números que ocuparem o meio da série: Md = , onde
2
n
p= .
2
x1 x2 x3 x4 x5 x6 5+6
→ Md = = 5, 5.
3 5 5 6 7 7 2
Quando o conjunto de observações se apresenta agrupados em classes em uma tabela de freqüências,

então a mediana é dada pela expressão abaixo, onde onde i representa a classe mediana, isto é, a classe onde
n
estará presente o valor de p = .
2
h(p − Fac−1 )
Md = li +
Fi
Exemplo 3.4. Calcular a mediana para os dados agrupados da amostra da Tabela 3.3.
n = 25³ ´
n
i = 3 p = = 12, 5 está na terceira linha −→ olhar em Fac
2
h = 0, 12
Fi = 8
Fac−1 = 11 (freqüência acumulada da classe anterior)
l3 = 0, 76
0, 12(12, 5 − 11)
Md = 0, 76 + ' 0, 783
8
Isto significa que o 50% das crianças apresenta nı́vel de toxicidade acima de 0,783 g.
3.4.2 Medida de Variabilidade ou de dispersão

São medidas estatı́sticas que indicam o grau de dispersão, ou variabilidade do conjunto de observações
pesquisados, em relação a uma medida de tendência central, por exemplo, x̄.
Uma única medida não é suficiente para descrever de modo satisfatório um conjunto de observações. Por
exemplo, dois conjuntos de dados podem ter a mesma média aritmética e, no entanto, a dispersão de um
pode ser muito maior que a dispersão do outro.
As principais medidas de dispersão são: amplitude total (AT), variância (σ 2 ou s2 ), desvio-padrão (σ
ou s) e coeficiente de variação (CV).
Amplitude total
Amplitude total (AT): É a diferença entre o maior e o menor valor observado
AT = xmáx − xmı́n
Desvio absoluto médio

Desvio absoluto médio (Dm ): É a média aritmética dos valores absolutos dos desvios tomados em
relação a uma das seguintes medidas de tendência central: média ou mediana.
Desvio médio em relação à média para dados não tabulados:
P
n
|xi − x̄|
i=1
Dm =
n
Desvio médio em relação à média para dados tabulados:
P
n
|xi − x̄| Fi
i=1
Dm =
n
Variância
Variância [Var(X)]. É a medida que fornece o grau de dispersão, ou variabilidade dos valores do
conjunto de observações em torno da média. Ela é calculada somando os quadrados dos desvios em relação
à média:
Amostral Populacional
Pn
2
(xi − x̄) P
N
(xi −µ)2
2 i=1 2
D. Brutos s = σ = i=1
N
n−1  µ ¶2 
Pk
2 P
k
(xi − x̄) Fi µ ¶ k xi Fi  P
k
(xi −µ)2 Fi
1 P 2 
D. Agrupados s2 = i=1 2
ou s =  xi Fi −
i=1
 2
σ = i=1
N
n−1 n−1 i=1 n 
Desvio-padrão
Desvio-padrão [DP(X)]. Como a variância calculada a partir do quadrados dos desvios, sua unidade
é quadrada em relação à variável estudada, o que, sob o ponto de vista prático é um inconveniente. Por isso
mesmo, imaginou-se uma nova medida que tem utilidade e interpretação prática, denominada desvio padrão,
definida como a raiz quadrada da variância e representada por:
Amostral
√ Populacional
√
s = s2 σ = σ2
Propriedades da Variância e do Desvio-Padrão
1 - V ar(X) ≥ 0 =⇒ DP (X) ≥ 0.
2 - Somando-se ou subtraindo-se uma constante k, a todos os valores de uma variável, a variância e o
desvio-padrão do novo conjunto permanecem inalterados:
Y =X ±k ⇒ V ar(Y ) = V ar(X) + 0
Y =X ±k ⇒ DP (Y ) = DP (X) + 0
X: Variável Aleatória e k: constante real.

3 - Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante, k, a variância e
o desvio-padrão do novo conjunto são alterados da seguinte forma:
Y =k·X ⇒ V ar(Y ) = k 2 · V ar(X)
Y =k·X ⇒ DP (Y ) = |k| · DP (X)
e para k 6= 0,
X V ar(X)
Y = ⇒ V ar(Y ) =
k k2
X DP (X)
Y = ⇒ DP (Y ) =
k |k|
4 - Sejam X e W variáveis aleatórias independentes, a e b constantes reais, tal que Y = aX ± bW, tem-se:
Y = aX ± bW ⇒ V ar(Y ) = V ar(aX ± bW ) = a2 V ar(X) + b2 V ar(W ).
Variância Relativa
A variância relativa de uma série X é indicada por VR(X) e definida por:
s2
V R(X) = 2 (amostral)
(x̄)
Note que o coeficiente de variação, como é uma divisão de elementos de mesma unidade, é um número puro.
Portanto, pode ser expresso em percentual.
Coeficiente de variação
Coeficiente de variação (CV). É uma medida relativa da dispersão ou variabilidade dos dados:
s σ
CV(x) = (amostral) ou CV(x) = (populacional).
x̄ µ
Critérios para interpretação: Quanto menor for o coeficiente de variação (CV ≤ 25%), mais representa-
tiva dos dados será a média.
3.5 Medidas Separatrizes ROSSI, Robson M. 32
Exemplo 3.5. Calcular a variância, o desvio-padrão e o coeficiente de variação para o conjunto de dados
da amostra X: {2, 3, 5, 7}.
Sabemos que x = 4, 25 ' 4, 3, então:

Pn
2
(xi − x̄) 2 2 2 2
2 i=1 (2 − 4, 3) + (3 − 4, 3) + (5 − 4, 3) + (7 − 4, 3)
s = = ' 4, 92
√ n−1 3
s = 4, 92 ' 2, 12, assim:
2, 12
CV = ' 0, 522 (sendo CV=52,2% > 25%, há indicativo de que a média não é representativa).
4, 25
Exemplo 3.6. Calcular a variância, o desvio-padrão e o coeficiente de variação para o conjunto de dados
amostrais apresentados na tabela abaixo.
Tabela 3.4: Exemplo de Tabela de Freqüência.

xi Fi
1 2
3 4
5 2
Total 8
P
3
xi Fi
i=1 1.2 + 3.4 + 5.2
sendo x = = = 3, temos
n 8
P
k
2
(xi − x̄) Fi 2 2 2
i=1 (1 − 3) .2 + (3 − 3) .4 + (5 − 3) .2
s2 = = ' 2, 29, ou
n − 1 7
µ k ¶2 
P
µ ¶ k x i Fi 
1  P i=1 
s2 =  x2i Fi −  = s2
n − 1 i=1 n 
µ ¶" 2
#
1 (24) 16
= 88 − = ' 2, 29
8−1 8 7
√
logo, s = 2, 29 ' 1, 51, assim:
1, 51
cv = ' 0, 50 (há indicativo de que a média não é representativa).
3
3.5 Medidas Separatrizes

3.5.1 Quartis, Decis e Percentis
As medidas de posição denominadas “Separatrizes” para valores agrupados são calculadas através da
expressão:
h(p − Fac−1 )
Sk = li +
Fi
onde
SK : é a medida de posição separatriz desejada (Md : M ediana, Qk : Quartil, Dk : Decil ou Pk :
P ercentil de ordem k);
k : é a ordem da medida;
w : é o divisor;
Sk k w
Md 1 2
Q 1, 2, 3 4
D 1, 2, ...,9 10
P 1, 2, ...,99 100
p : é a posição da observação, dado por:
n.k
p=
w
Exemplo 3.7. Calcule o Q1 , Q2 , Q3 , D7 , P10 e P90 para os dados da Tabela 3.3.
Tabela 3.5: Distribuição do nı́vel de intoxicação (g) em 25 crianças.

Classes xi Fi fi Fac fac
0,52 ` 0,64 0,58 5 0,20 5 0,20
0,64 ` 0,76 0,70 6 0,24 11 0,44
0,76 ` 0,88 0,82 8 0,32 19 0,76
0,88 ` 1,00 0,94 3 0,12 22 0,88
1,00 ` 1,12 1,06 3 0,12 25 1,00
Total - 25 1 - -
Solução:
Cálculo de Q1 : {k = 1; w = 4; }
25.1
p= = 6, 25 (i = 2 : olhar em Fac )
4
h = 0, 12
Fi = F2 = 6
li = 0, 64
Fac−1 = 5
0, 12(6, 25 − 5)
Q1 = 0, 64 + = 0, 64 + 0, 025 = 0, 665
6
Obs.: O valor Q1 = 0, 665 representa o nı́vel de intoxicação que deixa 25% dos demais valores abaixo dele.
Cálculo de Q2 : {k = 2; w = 4; }
25.2
p= = 12, 5 (i = 3)
4
h = 0, 12
Fi = 8
li = 0, 76
Fac−1 = 11
0, 12(12, 5 − 11)
Q2 = 0, 76 + ' 0, 783 = Md
8
Obs.: O valor Q2 ' 0, 783 representa o o nı́vel de intoxicação que deixa 50% dos demais valores abaixo dele,
isto é, é o valor mediano.
Cálculo de Q3 : {k = 3; w = 4; }
25.3
p= = 18, 75 (i = 3)
4
h = 0, 12
Fi = 8
li = 0, 76
Fac−1 = 11
0, 12(18, 75 − 11)
Q3 = 0, 76 + ' 0, 876
8
Obs.: O valor Q3 ' 0, 876 representa o nı́vel de intoxicação que deixa 75% dos demais valores abaixo dele.
Cálculo de D7 : {k = 7; w = 10; }
25.7
p= = 17, 5 (i = 3)
10
h = 0, 12
Fi = 8
li = 0, 76
Fac−1 = 11
0, 12(17, 5 − 11)
D7 = 0, 76 + ' 0, 858
8
Obs.: O valor D7 ' 0, 858 representa o o nı́vel de intoxicação que deixa 70% dos demais valores abaixo dele.
Cálculo de P10 : {k = 10; w = 100; }
25.10
p= = 2, 5 (i = 1)
100
h = 0, 12
Fi = 5
li = 0, 52
Fac−1 = 0
0, 12(2, 5 − 0)
P10 = 0, 52 + = 0, 58
5
Obs.: O valor P10 = 0, 58 representa o o nı́vel de intoxicação que deixa 10% dos demais valores abaixo dele.
Cálculo de P90 : {k = 90; w = 100; }
25.90
p= = 22, 5 (i = 1)
100
h = 0, 12
Fi = 3
li = 1, 00
Fac−1 = 22
0, 12(22, 5 − 22)
P90 = 1 + = 1, 02
3
Obs.: O valor P90 = 1, 02 representa o o nı́vel de intoxicação que deixa 90% dos demais valores abaixo dele
ou 10% acima dele.
3.5.2 Medidas de Simetria

Tem por objetivo básico medir o quanto a distribuição de freqüências do conjunto de valores observados
se afasta da condição de simetria.
(A) Distribuição Assimétrica negativa. Quando a média é menor que a mediana que é menor que a
moda.
(B) Distribuição Simétrica. Quando a média, moda e mediana são iguais, ou muito próximas.
(C) Distribuição Assimétrica positiva. Quando a média é maior que a mediana que é maior que a
moda.
Gráfico das distribuições quanto à assimetria
Figura 3.8: (A) Assimétrica Negativa (x̄ < Md < Mo )
Figura 3.9: (B) Simétrica (x̄ = Md = Mo )
Figura 3.10: (C) Assimétrica Positiva (Mo < Md < x̄)
Uma das medidas para quantificar a assimetria de uma distribuição pode ser dada pelo primeiro coe-
ficiente de assimetria de Pearson (Ap ) :
x̄ − Mo 3 (x̄ − Md )
Ap = ou Ap =
s s
Outra é através do coeficiente quartilı́tico de Bowley (Ab ) :
Q3 + Q1 − 2Md
Ab =
Q3 − Q1
Em ambos temos:
Se A < 0 a distribuição é assimétrica negativa.
Se A = 0 a distribuição é distribuição simétrica.
Se A > 0 a distribuição é assimétrica positiva.
Exemplo 3.8. Considerando o conjunto de dados da Tabela 3.3, obter Ap .
sabemos que: x = 0, 7864; s = 0, 153 e Mo ' 0, 794, assim:
x̄ − Mo 0, 786 − 0, 794
Ap = = ' −0, 04967 (Ap < 0 : assimétrica negativa ).
s 0, 153
3.5.3 Medidas de Curtose

A curtose ou achatamento mede a concentração ou dispersão dos valores de um conjunto de valores
em relação às medidas de tendência central em uma distribuição de freqüências conhecida (a distribuição
Normal).
(A) Distribuição Leptocúrtica. Quando a distribuição apresenta uma curva de freqüência mais “fechada”
que a da distribuição Normal.
(B) Distribuição Mesocúrtica. Quando a distribuição apresenta uma curva de freqüência “idêntica” a
da distribuição Normal.
(C) Distribuição Platicúrtica. Quando a distribuição apresenta uma curva de freqüência mais “aberta”
que a da distribuição Normal.
Gráfico das distribuições quanto à curtose
Figura 3.11: Leptocúrtica
Figura 3.12: Mesocúrtica
Figura 3.13: Platicúrtica
As medidas de curtose podem ser calculadas através da expressão:
(Q3 − Q1 )
k=
2(P90 − P10 )
Obs1 : k : coeficiente de curtose
Obs2 : Q3 − Q1 é denominado Desvio Interquartilı́tico.

Relativamente à curva da distribuição Normal, temos:
Se k < 0, 263 ( leptocúrtica )
Se k = 0, 263 ( mesocúrtica )
Se k > 0, 263 ( platicúrtica )
Podemos utilizar também, o coeficiente de curtose baseado nos momentos centrados (k4 ), para dados
tabelados:
P
(xi − x̄)4 Fi
P
Fi
k4 = 4
−3
σ
Lembrando que
µP ¶2
4
¡ ¢
2 2 (xi − x̄)2 Fi
σ = σ = (populacional).
N
e µP ¶2
¡ ¢2 (xi − x̄)2 Fi
s = s2 =
4
(amostral).
n−1
Analogamente, temos:
Se k4 > 0 a distribuição é leptocúrtica
Se k4 = 0 a distribuição é mesocúrtica
Se k4 < 0 a distribuição é platicúrtica
Exemplo 3.9. Considerando o conjunto de dados da Tabela 3.3, obter k, o coeficiente de curtose interquar-
tilı́tico.
Sabemos que Q1 = 0, 665, Q3 = 0, 876, P10 = 0, 58 e P90 = 1, 02 , então:
(Q3 − Q1 ) (0, 876 − 0, 665)
k= = = 0, 2398 (k < 0, 263 : leptocúrtica).
2(P90 − P10 ) 2(1, 02 − 0, 58)
Capı́tulo 4
Inferência Estatı́stica
4.1 Introdução
Inferência Estatı́stica ou Estatı́stica indutiva é a parte da estatı́stica que utiliza métodos cientı́ficos para
fazer afirmações e tirar conclusões sobre caracterı́sticas ou parâmetros de uma população, baseando-se em
resultados de uma amostra. O próprio termo “indutiva” decorre da existência de um processo de indução, isto
é, um processo de raciocı́nio em que, partindo-se do conhecimento de uma parte, procura-se tirar conclusões
sobre a realidade no todo. O uso de informações da amostra para concluir sobre o todo faz parte da atividade
diária da maioria das pessoas. Basta observar como uma cozinheira verifica se o prato que ela está preparando
tem ou não a quantidade adequada de sal. Ou ainda, quando uma dona de casa, após experimentar um
pedaço de uma laranja numa banca de feira, decide se as compra ou não. Essas são decisões baseadas em
procedimentos amostrais.
O objetivo é procurar a conceituação formal desses princı́pios intuitivos do dia-a-dia para que possam ser
utilizados cientificamente em situações mais complexas.
É fácil perceber que um processo de inferência ou indução ( em estatı́stica) não pode ser exato. A
Inferência Estatı́stica, entretanto, irá dizer até que ponto pode-se estar errando nas inferências, e com que
probabilidade. Esse fato é fundamental para que uma inferência possa ser considerada estatı́stica, e faz parte
dos objetivos da Inferência Estatı́stica.
Em suma, a Inferência Estatı́stica busca obter resultados sobre as populações a partir das amostras,
dizendo também, qual a precisão desses resultados e com que probabilidade se pode confiar nas conclusões
obtidas. Evidentemente, a forma como as inferências serão realizadas irá depender de cada tipo de problema,
conforme será estudado posteriormente.
Segue-se que a teoria da Inferência Estatı́stica recorre intensamente a conceitos e resultados do Cálculo
de Probabilidades.
4.2 Problemas de Inferência

O objetivo da Inferência Estatı́stica é obter afirmações sobre uma dada caracterı́stica da população, na
qual se tem interesse, a partir de informações colhidas de uma amostra.
Essa caracterı́stica de interesse pode ser representada por uma variável aleatória. Se informações completa
sobre a distribuição de probabilidade da variável em estudo, fosse conhecida não haveria necessidade de
colher uma amostra. Toda afirmação desejada seria obtida através da distribuição da variável, usando-se as
propriedades estudadas anteriormente. Mas isso raramente acontece. A informação que se tem a respeito
da variável é parcial ou nada se conhece. Por exemplo, a altura dos brasileiros adultos, apresenta uma
distribuição normal, mas os parâmetros que a caracterizam (média e variância) são desconhecidos. Em
outros casos, pode-se ter uma idéia da média e variância, mas se desconhece a forma da curva. Ou ainda,
não há informações nem sobre os parâmetros, nem sobre a forma da curva. Então, o uso de uma amostra
permite ter uma idéia sobre o comportamento da variável na população.
38
4.3 Distribuição Amostral ROSSI, Robson M. 39
4.3 Distribuição Amostral

Já foi visto, que o problema da Inferência Estatı́stica é fazer uma afirmação sobre parâmetros da população
através da amostra. Suponha que uma afirmação deva ser feita sobre um parâmetro populacional (média,
variância ou qualquer outra medida). Será utilizado uma amostra aleatória simples, com reposição, de n
elementos sorteados dessa população. A decisão será baseada em uma estatı́stica calculada em função da
amostra, (X1 ,X2 ,.., Xn ).
A validade da resposta seria melhor compreendida se fosse conhecido o que acontece com a estatı́stica,
quando todas as amostras de uma população conhecida são retiradas, segundo o plano amostral adotado.
Isto é, qual a distribuição da estatı́stica quando (X1 ,X2 ,.., Xn ) assume todos os valores possı́veis. Esta
distribuição é chamada de distribuição amostral da estatı́stica e desempenha papel fundamental na teoria
de Inferência Estatı́stica. Didaticamente, tem-se o seguinte esquema:
1. Uma população X, com um certo parâmetro de interesse.

2. Todas as amostras retiradas da população, de acordo com um certo procedimento.
3. Para cada amostra, calcula-se o valor da estatı́stica.
4. Os valores da estatı́stica formam uma nova população, cuja distribuição recebe o nome de distribuição
amostral da estatı́stica.
4.4 Distribuições de Probabilidade

O objetivo da Inferência Estatı́stica é obter afirmações sobre uma dada caracterı́stica da população, na
qual se tem interesse, a partir de informações colhidas de uma amostra.
Essa caracterı́stica de interesse pode ser representada por uma variável aleatória.
Se informações completa sobre a distribuição de probabilidade da variável em estudo, fosse conhecida
não haveria necessidade de colher uma amostra. Então, toda afirmação desejada seria obtida através desta
distribuição.
Mas isso raramente acontece. A informação que se tem a respeito da variável é parcial ou nada se conhece.
Exemplos:
• a altura dos brasileiros adultos, apresenta uma distribuição Normal?

• a prevalência (proporção) de uma determinada doença infecciosa segue uma distribuição Binomial?
• o número de filhos de um casal humano segue uma distribuição de Poisson ?
• o tempo de vida de pacientes soropositivos segue uma distribuição Exponencial?
Se não há informações nem sobre os parâmetros, nem sobre a forma da curva, então, o uso de uma
amostra nos dá uma idéia sobre o comportamento da variável na população. Através de suas carac-
terı́sticas e através de testes de aderência, podemos verificar qual o modelo probabilı́stico (conhecido)
será mais adequado aos dados.
Muitas vezes isto não acontece. Nestes casos um novo modelo deverá ser produzido, ou a distribuição
é produzida através de simulação computacional.
4.4.1 Distribuição Binomial

Considere n ensaios independentes e todos com a mesma probabilidade de sucesso p.
A variável aleatória discreta que conta o número total de sucessos é denominada Binomial com parâmetros
n e p, isto é
X ∼ Bin(n; p)
onde sua função de probabilidade é dada por:
µ ¶
n x n−x
P (X = x) = p q , q = 1 − p; x = 0, 1, 2, ..., n.
x
4.4 Distribuições de Probabilidade ROSSI, Robson M. 40
Exemplo 4.1. Uma certa doença pode ser curada através de procedimentos cirúrgicos em 80% dos casos.
Dentre os que têm essa doença, sorteamos 15 pacientes que serão submetidos à cirurgia.
Fazendo alguma suposição adicional que julgar necessária. Qual a probabilidade de todos serem curados?
X ∼ Bin(15; 0, 8)
µ ¶
15
P (X = 15) = 0, 815 0, 215−15
15
' 0, 0352 ou 3, 52%.
Obs.: Se X tem uma distribuição Binomial então
média : E(X) = np
variância : V ar(X) = npq
4.4.2 Distribuição de Poisson

Uma variável X tem distribuição de Poisson com parâmetro λ > 0 se sua função de probabilidades é dada
por
e−λ λ
P (X = x) = , x = 0, 1, 2, ...
x!
com parâmetro λ sendo usualmente referido como a taxa de ocorrência. A notação utilizada será
X ∼ P o(λ).
O modelo Poisson é um modelo discreto muito utilizado em experimentos biológicos e, nesses casos, λ é
a freqüência média ou esperada de ocorrências num determinado intervalo de tempo.
Exemplo 4.2. Chegada de pacientes em um pronto socorro.
Suponha que o número de pacientes que chegam a um pronto socorro de uma pequena cidade durante a
madrugada tenha distribuição de Poisson com média 3 (λ = 3).
Calcular as probabilidades de chegadas desses pacientes:
Tabela 4.1: Distribuição de Poisson com parâmetro λ = 3.

x P(X = x) x P(X = x)
0 0,050 7 0,022
1 0,149 8 0,008
2 0,224 9 0,003
3 0,224 10 0,001
4 0,168 11 0,000
5 0,101 12 0,000
6 0,050 ≥ 13 ≈0
4.4.3 Distribuição Normal

A maioria dos fenômenos da natureza, em especial os biológicos, apresenta variações dentro de um
intervalo definido.
Se coletássemos os dados quanto ao peso de mil indivı́duos, encontrarı́amos diversos valores, dos quais
haveria pequena quantidade de baixos e altos, e grande quantidade em torno dos valores centrais.
Numa representação gráfica dos dados obtidos, encontrarı́amos uma distribuição normal, conforme figura
abaixo.
A Distribuição de Probabilidade Normal, ou Distribuição Gaussiana (curva de Gauss), se caracteriza por
reunir um grande número de valores em torno da média, que diminuem gradualmente de freqüência à medida
que se afastam dela.
4.4 Distribuições de Probabilidade ROSSI, Robson M. 41
0.3
Probabilidade
0.2
0.1
0.0
−4 −3 −2 −1 0 1 2 3
Amostra
Figura 4.1: Distribuição Normal.
A distribuição de probabilidade é dada por:

Ã !2
1 x−µ
1 −
P (X = x) = √ e 2 σ , − ∞ < x < +∞
σ 2π
X ∼ N (µ, σ)
Lê-se: O conjunto de dados X, têm distribuição Normal com média : µ e desvio-padrão : σ.
Devido a complexidade da função de probabilidade, fazemos uso da Tabela Normal-Padrão ou Normal-
Reduzida, construı́da através da transformação na variável X:
X −µ
Z= ∼ N (0, 1)
σ
Caracterı́sticas:
1. é contı́nua;
2. a curva em forma de sino, que engloba o total de freqüências ou 100%;
3. é simétrica: a média (µ) = a moda (Mo ) = a mediana (Md );
4. é unimodal;
5. o desvio-padrão é σ;
6. a curva de inflexão ocorre nos pontos x = µ ± σ;
Como já dissemos, a área subordinada à curva normal representa 100% das freqüências. Em torno da
média determinamos intervalos com utilização do desvio-padrão, conforme abaixo:
µ±σ = 68, 26%
µ ± 2σ = 95, 45%
µ ± 3σ = 99, 73%
Exemplo 4.3. Pressão sistólica em jovens saudáveis.
Suponha que a pressão arterial sistólica em pessoas jovens gozando de boa saúde tenha distribuição
N (120, 10) mmHg.
Qual é a probabilidade de se encontrar uma pessoa com pressão sistólica acima de 140 mmHg ?
X −µ 140 − 120
= Z= =2
σ 10
P (X ≥ 140) = P (Z ≥ 2) = P (Z ≤ −2) = 0, 0228 ou 2, 28%.
Isto é, 2, 28% das pessoas jovens e sadias têm pressão sistólica acima de 140 mmHg.
4.5 Verificação da Adequação do Modelo ROSSI, Robson M. 42
4.5 Verificação da Adequação do Modelo

Na prática não podemos fazer suposições arbitrárias a respeito da distribuição de probabilidade dos
dados, logo usamos de técnicas para fazer uma verificação da adequação do modelo suposto.
A verificação pode ser baseada nas caracterı́sticas do modelo, em gráficos especiais e em testes de
aderência.
Para a distribuição Normal, em especial, sabemos que:
µ±σ = 68, 26%

µ ± 2σ = 95, 45%
µ ± 3σ = 99, 73%
Grandes discrepâncias entre as freqüências relativas observadas e as probabilidades teóricas acima sitadas,
indicam uma possı́vel falta de adequação ao modelo gaussiano.
Outros critérios:
• Técnicas Gráficas: Normal-plot, Q-Q-plot e P-P-plot;

• Testes de aderência: Kolmogorov-Smirnov (K-S) [µ e σ conhecidos], Shapiro Wilks (W) e/ou Lilliefors
(L) [µ e σ desconhecidos e estimados pelos dados através de x̄ e s, respectivamente].
A hipótese de normalidade nos dados deve ser da seguinte forma:
H0 : Os dados são normalmente distribuı́dos

Ha : Os dados não são normalmente distribuı́dos
Por exemplo, para um nı́vel de significância de 5%, se p-valor < 5% então rejeitamos H0 , conseqüente-
mente os dados não são normalmente distribuı́dos.
Na prática, se for verificado que pelo menos o p-valor de um teste é significante (p < α%), a hipótese de
normalidade da distribuição deve ser rejeitada; e caso contrário se houver concordância dos testes W e L,
isto é, os dados são normalmente distribuı́dos.
4.6 Faixas de Referência

Toda medida laboratorial é analisada confrontando-se seu valor com uma faixa padrão.
Isto é tão comum que, na própria apresentação do resultado, muitos laboratórios já indicam os limites
inferiores e superiores para o valor da medida que devem servir de base ao raciocı́nio clı́nico.
• Devemos fixar, inicialmente, o nı́vel de confiança (1 − α)% ou cobertura;

• Calculamos através da amostra de pessoas supostamente saudáveis: x̄ e s.
Tabela 4.2: Faixas de Referência.

Cobertura (1 − α)% Faixa
90% x̄ ± 1, 64.s
95% x̄ ± 1, 96.s
99% x̄ ± 2, 58.s
.. ..
. .
(1 − α)% x̄ ± Z α2 .s
4.6 Faixas de Referência ROSSI, Robson M. 43
1-alfa
alfa/2 alfa/2

-Zalfa/2 +Zalfa/2
Figura 4.2: Faixa de Referência
Exemplo 4.4. Faixa de referência para identificar o Pseudomonas sp.

Um pesquisador deseja criar um padrão para identificar presença de infecção bacteriana (Pseudomonas
sp) no trato respiratório através de cultura de escarro. Para isto, coletaram-se dados de pessoas sabidamente
sadias e determinou-se o número de colônias encontradas em cada cultura. Foram encontrados os seguintes
resultados, em duas etapas amostrais distintas.
Amostra 1:
20 21 23 24 25 25 25 25 25 25
26 26 27 28 29 29 29 29 29 30
30 30 30 30 30 31 31 31 32 32
32 32 32 33 33 33 34 34 34 35
35 35 36 36 37 37 38 38 41 42
Amostra 2:
17 22 23 23 23 23 24 24 24
24 24 23 25 25 25 25 25 25
25 26 28 28 29 30 30 31 31
35 35 35 36 40 41 41 41 42
51 54 56 56 56 58 60 68 79
Observe através da Figura 4.3 o ajuste dos dados (pontos) linearizados, indicando ajuste dos dados a
distribuição Normal.
Para a Amostra 1, foram realizados os testes de normalidade e indicaram ajuste dos dados já que p-
Lilliefors >.20 e p-W = 0,8892. (Software Statistica versão 6.0).
Observe através da Figura 4.4 uma assimetria do Histograma comparado à Normal assim como a não
aderência ou desajuste dos dados (pontos) sob a reta, indicando que os dados não seguem uma distribuição
Normal.
Os testes confirmam isto: Para a Amostra 2 obtemos p-Lilliefors <0,01 e p-W < 0,000013.
Neste caso duas metodologias distintas deverão ser utilizadas para construir faixas de referência:
• Metódo de Gauss para a Amostra 1:
[x̄ ± 1, 96.s] : [30, 7 ± 1, 96.4, 9]
[21; 40] colônias. ”Adequado”
Observe que devido a normalidade temos praticamente a mesma faixa, utilizando o método dos per-
centis:
4.7 Teorema do Limite Central ROSSI, Robson M. 44
0.10
Q-QPlot
40
0.08
35
Freqüências
0.06
amostra
30
0.04
25
0.02
0.0
20
20 25 30 35 40 -2 -1 0 +1 +2
Figura 4.3: Histograma e Q-Q Plot da Amostra 1

0.05
Q-=Q Plot
70
0.04
60
0.03
Freqüências
amostra2
50
0.02
40
30
0.01
20
0.00
20 40 60 80 -2 -1 0 1 2
Figura 4.4: Histograma e Q-Q Plot da Amostra 2
• e Metódo dos Percentis para a Amostra 2, isto é, obter uma faixa de inclua, por exemplo, 95% dos
elementos, excluindo os 2,5% valores menores e os 2,5 % maiores valores
Observe que agora, se optássemos pelo método de gauss terı́amos:
[7; 63] colônias. ”Inadequado”
Um teste estatı́stico a ser usado depende do tipo de variável e do tipo de planejamento. A seguir serão
apresentados os testes mais comuns para quatro situações: variável dicotômica (amostras independentes e
pareadas) e variável contı́nua (amostras independentes e pareadas).
4.7 Teorema do Limite Central

Teorema. Para amostras aleatórias simples (X1 ,X2 ,.., Xn ), retiradas de uma população com média
µ e variância σ 2 , a distribuição amostral da média aproxima-se de uma distribuição normal com média µ e
σ2
variância , quando n→ ∞, isto é
n µ ¶
σ2
X̄ ∼ N µ; .
n
4.8 Tamanho da Amostra ROSSI, Robson M. 45
Utilizando-se deste teorema, podemos construir um Intervalo de Confiança de (1 − α)% para µ, para um
nı́vel de significância, α, fixo:
σ
IC(µ) : X̄ ± Z α2 . √ .
n
Se a população original é próxima da normal, sua convergência é rápida; já, se a distribuição da população
tem outra distribuição, essa convergência é mais demorada. Como regra prática, aceita-se que para amostras
com mais de 30 elementos a aproximação já pode ser considerada muito boa.
No caso de amostras pequenas, usa-se uma aproximação através da distribuição t − student :
s
IC(µ) : X̄ ± t(n−1; α2 ) . √ ,
n
onde s é o desvio-padrão amostral, utilizado quando não se conhece σ, o desvio-padrão populacional.

Seja uma população em que a proporção de elementos portadores de uma certa caracterı́stica é p. Assim,
a população pode ser considerada como a variável aleatória X, tal que:
½
1, se o indivı́duo possui a caracterı́stica;
X:
0, se o indivı́duo não possui a caracterı́stica p.
assim, para n suficientemente grande, pode-se considerar a distribuição amostral de p̂ do seguinte modo:
µ ¶
p.(1 − p)
p̂ ∼ N p;
n
onde a proporção de indivı́duos portadores da caracterı́stica na amostra é dada por:

Y
p̂ =
n
sendo que Y é o total de indivı́duos portadores da caracterı́stica na amostra.
Analogamente ao processo de obtenção do IC para a média, podemos obter um IC com uma confiança
de (1 − α)%, para a proporção populacional, considerando um nı́vel de significância, α, fixo:
r
p̂.(1 − p̂)
IC(p) : p̂ ± Z 2 .
α .
n
4.8 Tamanho da Amostra

O assunto pertence à Teoria da Amostragem. Pode-se, entretanto, calcular, para algumas situações
especiais, o tamanho da amostra necessário para se fazer inferências.
4.8.1 Método simples

Tamanho de uma amostra aleatória simples. Será abordado cálculo do tamanho da amostra para
amostragem aleatória simples.
A diferença entre a estatı́stica descritiva dos elementos da amostra e o verdadeiro valor do parâmetro
que se deseja estimar como o erro amostral. Para determinar o tamanho da amostra o pesquisador deve
especificar o erro amostral tolerável, ou seja, quanto ele admite errar na avaliação dos parâmetros de
interesse.
A especificação do erro amostral tolerável deve ser feita sob um enfoque probabilı́stico, pois por maior
que seja a amostra, existe sempre o risco do sorteio gerar uma amostra com caracterı́sticas bem diferentes
da população de onde ela foi extraı́da.
O calcular do tamanho mı́nimo de uma amostra aleatória simples é dado por:
Sejam:
N: tamanho (número de elementos) da população;
n: tamanho (número de elementos) da amostra;
n0 : uma primeira aproximação do tamanho da amostra, e
E0 : erro amostral tolerável.
onde
1
n0 = .
E0
Conhecendo N o tamanho da população, pode-se corrigir o cálculo:
N.n0
n= .
N + n0
Exemplo 4.5. Com objetivo de conhecer algumas caracterı́sticas dos pacientes de uma clı́nica com 35
pacientes. Suponha que seja de interesse realizar um levantamento por amostragem para avaliar diversas
caracterı́sticas da população de pacientes. Qual deve ser o tamanho mı́nimo da amostra aleatória simples,
tal que se possa admitir, com alta confiança, que os erros amostrais não ultrapassem 4% (E0 = 0,04)?
Solução: Uma primeira aproximação é dada por:
1
n0 = = 625 pacientes.
0, 042
Corrigindo, em função do tamanho N da população, tem-se:
35.625
n= ' 34.
35 + 625
Exemplo 4.6. Suponha que na clinica do Exemplo anterior a população fosse de N = 200 pacientes. Qual
deve ser o tamanho mı́nimo da amostra aleatória simples, tal que se possa admitir, com alta confiança, que
os erros amostrais não ultrapassem 4% (E0 = 0,04)?
Solução: O valor de n0 continua sendo o mesmo do exemplo anterior, pois não depende de N. Fazendo a
correção em termos do novo valor de N, tem-se:
200.625
n= ' 152.
200 + 625
Exemplo 4.7. Suponha agora que a população fosse de N = 200.000 pacientes.
Solução: Da mesma forma, o valor de n0 continua sendo o mesmo dos exemplos anteriores. E a correção
em termos do novo valor de N, é:
200.000.625
n= ' 623 pacientes.
200.000 + 625
Observe que: Para manter o mesmo erro amostral, no Exemplo ?? foi necessária uma amostra abrangendo
quase 100% da população; enquanto no Exemplo 4.6 a amostra abrange 76%; e no Exemplo 4.7 abrange
0,3% da população. É, portanto, errônea a idéia de que para uma amostra ser representativa
deva abranger uma percentagem fixa da população.
Tamanho da amostra em subgrupos da população
É muito comum termos interesse em estudar separadamente certos subgrupos da população. Nesta
situação, é preciso calcular o tamanho da amostra para cada uma destas partes. O tamanho total da
amostra vai corresponder à soma dos tamanhos das amostras de cada parte.
O tamanho total da amostra cresce bastante quando se desejam estimativas isoladas para os diversos
subgrupos da população, por isso, é comum o pesquisador não ser muito exigente na precisão das estimativas
nos subgrupos, tolerando erros amostrais maiores.
4.8.2 Método inferencial

Tamanho da amostra sem conhecimento de N : Tamanho da População.
Se o objetivo é estimar a média, ou uma proporção, pode-se usar os intervalos de confiança anteriormente
estabelecidos para obter n, o tamanho da amostra. Para isto, é preciso fixar o maior erro aceitável e o nı́vel
de confiança com que se quer trabalhar.
Sendo o tamanho máximo do erro aceitável : e (fixo), com probabilidade (1 − α) (fixo), o intervalo de
confiança de nı́vel 100(1 − α)% serão, respectivamente, para a média e para a proporção, considerando a
população infinita, tem-se:
· ¸
Z α2 .so 2 so
n= onde e = Z α2 √
e n
· ¸ · ¸
Z α2 . 2 Z α2 . 2
n= .p̂0 .(1 − p̂0 ) ou n≤
e 2e
onde p̂0 e so são estimativas da proporção e da dispersão, respectivamente, obtidos através de uma amostra
piloto.
Exemplo 4.8. Numa amostra de classificação de veteranos de um colégio com. x̄ = 2, 6 e so = 0, 3, qual
deve ser o tamanho da amostra para que tenhamos 95% de confiança em que erro da estimativa de µ não
supere 0,05?
Sol.:
· ¸2
Z α2 .so
n =
e
· ¸2
1, 96.0, 3
=
0, 05
' 139.
Exemplo 4.9. Suponha que, em uma amostra de 500 famı́lias que possuem aparelho de televisão em certa
cidade, haja 340 com televisor em cores. Se o objetivo é estimar o número de famı́lias que possuem televisor
em cores, qual o tamanho da amostra necessário para que tenhamos 95% de confiança em que o erro da
estimativa não seja superior a 0,02 ?
Sol.: Trate as 500 famı́lias como uma mostra preliminar que fornece a estimativa p̂0 = 0, 68. Então:
· ¸
Z α2 . 2
n = .p̂0 .(1 − p̂0 )
e
· ¸2
1, 96
= .0, 68.(0, 32)
0, 02
= 2.090
Tamanho da amostra com o conhecimento de N : Tamanho da População.

Para o caso em que a população é finita e pequena, onde a amostragem é sem reposição, temos as fórmulas
para o cálculo do tamanho amostral, respectivamente, para a média e para a proporção:
¡ ¢2
N. Z α2 .so
n= ¡ ¢2 ; e
(N − 1).e2 + Z α2 .so
¡ ¢2 ¡ ¢2
N.p̂0 .q̂0 . Z α2 N. Z α2
n= ¡ ¢2 ou n ≤ ¡ ¢2
p̂0 .q̂0 . Z α2 + (N − 1).e2 Z α2 + 4(N − 1).e2
Alternativamente, temos tanto para o caso em que estudamos variáveis quantitativas discretas, quanto
contı́nuas, utilizamos as fórmula descritas anteriormente, e tomamos n = n0 , e conhecendo N , o cáculo de
n, tamanho amostral poderá ser obtido através de:
n0
n= n0 .
1+
N
Exemplo 4.10. Determinado trabalho, realizado para investigar a prevalência de hansenı́ase em trabal-
hadores rurais, apresentou um valor igual a 22%. Para estimar o tamanho da amostra para novo projeto
sobre hansenı́ase, desejamos um nı́vel de confiança de 95% e erro de amostragem de 5%. Determine n, o
tamanho da amostra nescessária para uma população de tamanho N = 100.000.
4.9 Testes de Hipóteses ROSSI, Robson M. 48
Sol.:
· ¸2
Z α2 .
n0 = .p̂0 .(1 − p̂0 )
e
· ¸2
1, 96
n0 = .0, 22.(0, 78)
0, 05
n0 ' 264
logo, o tamanho da amostra corresponderá a:

n0
n = n0
1+
N
264
n =
264
1+
100.000
n = 263.
4.9 Testes de Hipóteses

Freqüentemente é necessário tomar decisões sobre parâmetros ou distribuições populacionais com base
em informações amostrais, as quais são denominadas decisões estatı́sticas. Na tomada de decisões, são
formuladas hipóteses que serão rejeitadas ou não rejeitadas. Tais hipóteses, que podem ser verdadeiras ou
não, chamam-se hipóteses estatı́sticas e, em geral, consistem de afirmações sobre os parâmetros populacionais
ou sobre as distribuições de probabilidade das populações, como por exemplo:
1. a média populacional da altura dos brasileiros é 1,65m;

2. a proporção de brasileiros com a doença X é 40% (p = 0, 40);
3. a distribuição dos pesos dos pacientes adultos do hospital X é normal.
Os processos que nos permitem decidir por rejeitar ou não rejeitar uma hipótese, ou determinar se
amostras observadas diferem significativamente dos resultados esperados são chamados Testes de Hipóteses.
O objetivo é fornecer ferramentas que nos permitam validar ou refutar uma hipótese, através de resultados
da amostra. Os Testes de Hipóteses podem ser de dois tipos:
(a) Não Paramétricos: quando formulamos hipóteses com respeito à natureza da distribuição da população.
Estes testes não dependem dos parâmetros populacionais, nem de suas respectivas estimativas. Veja o
item (3.) acima.
(b) Paramétricos: quando formulamos hipóteses com respeito ao valor de um parâmetro populacional.
Veja itens (1.) e (2.) acima.
4.9.1 Construção de um Teste de Hipótese

Inicialmente, para a construção de um teste, deve-se formular duas hipóteses a cerca da afirmação:
(a) Hipótese Nula (H0 ): é uma afirmação que diz que o parâmetro populacional é tal como especificado.
(b) Hipótese alternativa (Ha ): é uma afirmação que oferece uma alegação alternativa (isto é, o parâmetro
é diferente do valor alegado).
As hipóteses estatı́sticas para um parâmetro q, podem ser formuladas como segue:
1. Teste Bilateral: quando utilizamos ambas as “caudas” da distribuição. Teste Unilateral à Direita:
quando utilizamos a “cauda” direita da distribuição.
H0 : θ = θ0
Ha : θ 6= θ0
2. Teste Unilateral à Direita: quando utilizamos a “cauda” direita da distribuição.
H0 : θ = θ0
Ha : θ > θ0
3. Teste Unilateral à Esquerda: quando utilizamos a “cauda” esquerda da distribuição.
H0 : θ = θ0
Ha : θ < θ0
Ao se testar uma hipótese, o que se deseja verificar é, através de uma estatı́stica obtida de uma amostra,
se a hipótese pode ou não rejeitada com o nı́vel de significância pré-fixado, α. Esta conclusão é tomada com
base na Região Crı́tica (RC: cuja área corresponde a α) que é construı́da de modo que:
P (θ̂ ∈ RC|H0 éé verdadeira) = α.
RA é denominada Região de não rejeição cuja área corresponde a 1 − α.

O procedimento que será utilizado para a construção de um teste de hipótese é o que consiste em
apresentar o nı́vel descritivo ou p-valor (p-value).
1-alfa
alfa/2 alfa/2

-Zalfa/2 +Zalfa/2
Figura 4.5: Teste de Hipótese Bilateral.
A seqüência abaixo pode ser usada sistematicamente para qualquer teste de hipótese:
1. Passo 1: Definir as hipóteses H0 e Ha ;
2. Passo 2: Use a teoria estatı́stica e as informações para decidir qual a distribuição da estatı́stica
(estimador) que será utilizada no julgamento de H0 ;
3. Passo 3: Escolher o nı́vel de significância a e utilizando as informações fornecidas pela amostra para
encontrar o valor do estimador do parâmetro (estatı́stica) que está sendo testado;
4. Passo 4: Com o valor da estatı́stica observada na amostra encontrar a probabilidade (probabilidade
de significância p-valor) de ocorrer amostras com valores mais extremos do que o valor obtido.
5. Passo 5: Conclusão. Compare a probabilidade obtida, p-valor, com o valor de a. A hipótese nula será
rejeitada para aqueles nı́veis de significância cujos valores sejam maiores que a probabilidade calculada.
4.9.2 O p-valor
O procedimento de teste de hipótese descrito acima fornece informação sobre a força da evidência contra
H0 obtida a partir dos dados. Isto é, é informado se o valor observado para a estatı́stica de teste que levou à
rejeição de H0 está próxima da fronteira da RC região crı́tica (baixa evidência contra H0 ) ou se está muito
afastada da fronteira (alta evidência contra H0 ).
O p-valor é a probabilidade de ocorrência do valor particular observado para a estatı́stica de teste ou de
valores mais extremos, na direção da região crı́tica, quando a hipótese nula H0 é verdadeira. Quanto maior
for a força da evidência contra H0 , menor será o p-valor.
Capı́tulo 5
Análise em Tabelas 2x2 e LxC
Neste tópico estudaremos a relação entre duas variáveis categóricas (ou qualitativas), onde as observações
podem ser classificadas em uma das várias categorias (nı́veis ou células) mutuamente exclusivas.
O problema de mensuração do grau de associação entre dois conjuntos de escores é de caráter bem
diferente do teste da simples existência de uma associação em determinada população. Naturalmente, há
interesse em avaliar o grau de associação entre dois conjuntos de escores referentes a um grupo de indivı́duos.
Mas é talvez de muito maior interesse podermos afirmar que determinada associação observada em uma
amostra de escores indica, ou não, probabilidade de associação entre as variáveis na população da qual se
extraiu a amostra (Siegel, 1956).
5.1 Tabelas de Contingência

Segundo o dicionário Webster o termo “contingency” significa the quality or state of having a close
connection or relationship. O termo “contingency table” se refere ao fato de que as tabelas construı́das são
usadas para testar a existência de relações entre duas variáveis. Observamos que infelizmente este termo
em português não tem o mesmo significado. Segundo o Aurélio, “contingência” significa qualidade do que é
contingente, incerteza se uma coisa vai acontecer ou não e “contingente” significa que pode ou não suceder,
eventual, incerto. Logo, em estatı́stica, quando nos referimos a palavra “contingência” estamos tomando o
mesmo significado da lı́ngua inglesa.
O teste chi-quadrado (χ2 ) pode ser usado para avaliar a relação entre duas variáveis qualitativas. Este
teste é um teste não-paramétrico, que é muito útil, pois não precisa da suposição de normalidade das variáveis
para analisar o grau de associação entre as duas variáveis, porém este teste é menos poderoso que o teste
paramétrico.
Dentro deste teste devemos distinguir dois tipos de testes: o de independência e o de homogeneidade.
Vejamos quando estamos tratando de um teste de independência e quando estamos tratando com um teste
de homogeneidade, através de exemplos.
5.2 Teste de Independência e de Homogeneidade

Suponha que uma educadora quer analisar se existe relação entre a participação ativa dos pais dos
alunos nos deveres extra-escolares e o desempenho dos alunos em Matemática. Suponha que ela categoriza
o desempenho dos alunos em três grupos: baixo, médio, alto e, do mesmo modo, categoriza a participação
dos pais em dois grupos: participação ativa, participação fraca. Suponha que ela deseja trabalhar com 300
crianças.
Neste caso a educadora pode delinear sua pesquisa de duas formas:
51
5.2 Teste de Independência e de Homogeneidade ROSSI, Robson M. 52
Caso 1. Selecionar uma amostra de crianças aleatoriamente e examinar em que célula cada uma está
alocada, logo o único valor fixo será o total geral que será de 300. Mas os totais de colunas e de linhas
serão frutos da pesquisa, portanto, aleatórios, neste caso estamos frente a um teste de independência
de variáveis.
Logo a tabela de contingência será:
Tabela 5.1: Exemplo de tabela de contingência.

Participação Desempenho do aluno em Matemática Total
dos pais Baixo Médio Alto
Teste de
Ativa Aleatório =⇒ Independência
Fraca Aleatório
Total Aleatório Aleatório Aleatório 300
Porém ela pode fixar o número de alunos de acordo com seu desempenho.
Caso 2. Pegar uma amostra aleatória de tamanho 100 de cada grupo de alunos, logo os totais das
colunas serão fixos, mas os totais das linhas serão aleatórios e assim estaremos frente a um teste de
homogeneidade:
Logo a tabela de contingência será:
Tabela 5.2: Exemplo de tabela de contingência.

Participação Desempenho do aluno em Matemática Total
dos pais Baixo Médio Alto
Teste de
Ativa Aleatório =⇒ Homogeneidade
Fraca Aleatório
Total 100 (fixo) 100 (fixo) 100 (fixo) 300
Os valores totais, das colunas e das linhas, são chamados de “totais marginais”. Quando os totais
marginais variam livremente, o teste de associação é chamado de independência, e quando
um dos conjuntos, linha ou coluna é fixado pelo pesquisador então é chamado de teste de
homogeneidade. Isso vai depender do pesquisador. No exemplo da educadora, observemos que para ela é
muito mais fácil fixar o número de alunos segundo seu desempenho, do que fixar pela participação dos pais,
que, apriori será quase impossı́vel.
Teste de Independência
Apresentaremos a lógica do teste com um exemplo bastante simples.
Exemplo 5.1. Suponha que 125 crianças foram expostas a três tipos de comerciais de TV, sobre cereais
para café da manhã. Após a exposição foi solicitado a cada criança para indicar qual dos comerciais ela
gostou mais. O que se deseja saber é se a escolha do comercial está relacionado ao gênero da criança: pois
suspeita-se de que o gênero pode estar influenciando na escolha do comercial. Os dados podem ser apreciados
na Tabela 5.3.
Tabela 5.3: Número de crianças segundo tipo de comercial escolhido e gênero.

Tipo de comercial
Gênero A B C Total
Meninos 30 29 16 75
Meninas 12 33 5 50
Total 42 62 21 125
Analisando atentamente a Tabela 5.3, composta por valores absolutos, percebemos:

• a amostra está composta por mais meninos do que meninas,

• nos comerciais A e C o número de meninos é maior do que meninas, e
• no comercial B essa relação se inverte.
Contudo, essa análise fica prejudicada pela composição da amostra, que tem mais meninos do que meni-
nas. Portanto, a primeira coisa a fazer é analisar as estruturas percentuais, mostradas na Tabela 4.3, ou seja
retirar a influência da amostragem.
Tabela 5.4: Porcentagem para os valores absolutos de crianças por tipo de comercial escolhido e gênero
apresentados na tabela anterior.
Tipo de comercial
Meninos 71% 47% 76% 60%
Meninas 29% 53% 24% 40%
Total 100% 100% 100% -
Observe cuidadosamente a Tabela 5.4, onde 60% da amostra é composta por meninos. Se a preferência das
crianças pelos comerciais independe do gênero, esperarı́amos que a estrutura percentual para cada comercial
ficasse em torno de 60% para os meninos e 40% para as meninas, desvios grandes destes percentuais estariam
mostrando evidências de que existe alguma relação entre essas variáveis. Essa inspeção intuitiva, também,
pode ser feita analisando a estrutura dentro de cada gênero como mostra a Tabela 5.5.
Tabela 5.5: Porcentagem de crianças por gênero e tipo de comercial escolhido.

Tipo de comercial
Meninos 40% 39% 21% 100%
Meninas 24% 66% 10% 100%
Total 33% 50% 17% -
Analisando a Tabela 5.5 observamos que as meninas tem uma forte preferência pelo comercial B, enquanto
que os meninos se dividem entre o comercial A e B.
Assim, intuitivamente percebemos que existe interferência do gênero na preferência, agora precisamos
saber até que ponto essas diferenças se devem ao acaso, ou a existência de associação entre as duas variáveis:
X: preferência pelo comercial ( A, B e C) → qualitativa;

Y: gênero (meninos, meninas) → qualitativa.
Hipótese nula (H0 ): A preferência pelo comercial independe do gênero da criança;

Hipótese alternativa (Ha ): A preferência pelo comercial depende do gênero da criança (ou, o gênero
interfere na preferência pelo comercial);
Analogamente, temos:
Ho : independência de variáveis
H1 : dependência de variáveis
Como deveriam ser os valores a serem observados se as variáveis fossem independentes?, ou dito de outra
forma, sob a hipótese de nulidade, de independência de variáveis, como deveriam ser os valores a serem
observados? A lógica nos diz que esses valores devem estar muito próximos da estrutura percentual global.
Esses valores são chamados de valores esperados.
Cada valor esperado será calculado supondo que a estrutura percentual global se mantenha em cada
coluna:
Calculando os valores esperados, sobre a suposição de independência:

Tabela 5.6:
Valores percentuais Valores absolutos
Tipo de comercial Valores esperados
Gênero A B C Total Gênero A B C Total
e
Meninos 60% 60% 60% 60% Meninos 25 37 13 75
Meninas 40% 40% 40% 40% Meninas 17 25 8 50
Total 42 62 21 125 Total 42 62 21 125
Valor esperado menino, comercial A: 60% de 42 = 25,2

Valor esperado menino, comercial B: 60% de 62 = 37,2
...
O mesmo teria acontecido se fixarmos primeiro o comercial:
Valor esperado comercial A, menino: 33,7% de 75 = 25,2

Valor esperado comercial A, menina: 33,7% de 50 = 16,8
...
Tanto faz fixar a linha ou a coluna pois:
Tl × Tc Tc Tl
Ei = = Tl × = Tc ×
T T T
Por exemplo, calculemos o valor esperado da primeira linha e primeira coluna:
75 × 42 42 75
Ei = = 75 × = 42 × = 25, 2
125 125 125
Assim calculando os valores esperados para todas as células temos:
Tabela 5.7:
Tipo de comercial
Oi = 30 Ei = 25,2 29 37,2 16 12,6
Meninos 75
di = +4,8 -8,2 +3,4
12 16,8 33 24,8 5 8,4
Meninas 50
-4,8 +8,2 -3,4
Total 42 62 21 125
Dentro de cada célula, no canto superior esquerdo colocamos o valor observado, no canto superior direito
o valor esperado (sob a hipótese de independência) e, na parte inferior, a distância entre o observado e o
esperado. Logo, se as variáveis fossem independentes, as distâncias entre os valores observados e esperados
deveriam ser muito pequenas, caso contrário haverá indı́cios de dependência. A pergunta agora é: quando a
distância é pequena ou grande? Para isto devemos calcular o valor (χ2 ) qui-quadrado da amostra:
Pk (observado − esperado)2 Pk (O − E )2
i i
χ2amostra = =
i=1 esperado i=1 E i
que terá uma distribuição chi-quadrado com graus de liberdade igual ao produto do número de linhas menos
um vezes o número de colunas menos um, isto é:
ν : graus de liberdade
χ2amostra ∼ χ2ν ⇒
ν : (no colunas - 1)×(no linhas - 1)
Para testar as hipóteses, temos a estatı́stica teste qui-quadrado com correção de continuidade de Yates:
¡ ¢2
k |O − E | − 1
P
2 i i
χcY = 2
∼ χ2[L−1×C−1;(1−α)%] (Tabelas L × C)
i=1 Ei
No nosso exemplo sem a correção de Yates, temos:

(+4, 8)2 (−8, 2)2 (+3, 4)2 (−4, 8)2 (+8, 2)2 (−3, 4)2
χ2amostra = + + + + +
25, 2 37, 2 12, 6 16, 8 24, 8 8, 4
= 0, 914 + 1, 808 + 0, 917 + 1, 371 + 2, 711 + 1, 376
= 9, 09818 (p-valor : 0,0106)
onde v = (2 − 1) × (3 − 1) = 1 × 2 = 2
Para aceitar ou rejeitar a hipótese devemos conhecero valor de χ2calculado na tabela qui-quadrado, com
dois graus de liberdade. Para α = 5%, o valor crı́tico é 5, 991, como o valor da amostra é maior que o valor
crı́tico, logo rejeitamos a hipótese nula, concluindo que o gênero interfere na preferência pelos comerciais.
No caso de dispormos de um pacote estatı́stico, este, via de regra, calcula o p-valor, nesse caso é só
comparar esse valor com o nı́vel de significância desejado. No nosso caso o p − valor = 0, 01058, ou seja,
rejeitamos ao nı́vel de 5% mas não ao nı́vel de 1%.
Obs.: Quando as variáveis são independentes (H0 ), as freqüências observadas tendem a ficar perto das
esperadas. Neste caso, o valor de χ2 deve ser pequeno.
Limitações do teste χ2 :
1. Infelizmente, o teste qui-quadrado não permite concluir como se dá a relação, uma vêz que ele testa
apenas a hipótese geral de que as duas variáveis são independentes. Examinando a distância entre
valor observado e esperado, por exemplo, observamos que as meninas tem uma maior preferência pelo
comercial B, porém não podemos concluir nada.
2. Uma outra limitação do teste qui-quadrado é que o valor esperado das células não deve ser menor ou
igual a 5 e devido a isso torna vulnerável a estatı́stica. Nesse caso usamos outra estratégia: o teste
exato de Fisher.
Teste de Homogeneidade
Quando testamos independência de variáveis, o pesquisador só controla o tamanho total da amostra, mas
os totais para cada coluna e linha são aleatórios.
Exemplo 5.2. No caso do exemplo anterior, os pesquisadores selecionaram aleatoriamente 125 crianças,
das quais 75 eram meninos e 50 meninas. Ele não fixou o numero de meninos e o número de meninas.
Vejamos um exemplo de teste de homogeneidade. Retomemos o exemplo inicial e suponhamos que a
professora fixou o tamanho dentro de cada grupo de alunos e os resultados foram os seguintes:
Tabela 5.8: Número de alunos segundo seu desempenho em Matemática e participação dos pais nas atividades
extra-escolares.
Desempenho em Matem.
Participação
Baixo Médio Alto Total
dos pais
Ativa 5 25 70 100
Fraca 95 75 30 200
Total 100 100 100 300
H0 : p11 = p12 = p13 → igualdade de proporções

H1 : p1i 6= p1j ; para algum i 6= j → existe pelo menos uma proporção diferente
A hipótese nula esta testando que a proporção de alunos com baixo desempenho é igual a proporção de
alunos médio e igual a proporção de alunos com desempenho alto quando seus pais participam ativamente
das atividades extra-escolares, contra a hipótese alternativa que indica que existe pelo menos uma proporção
diferente.
O teste é idêntico ao teste de independência.
O Coeficiente de Contingência.
O coeficiente de contingência é uma medida do alcance da associação ou relação entre dois conjuntos de
atributos. Ele é calculado em função do valor calculado na tabela de contingência e independe de ordenação
das categorias das variáveis:
s
χ2
C= , onde n é o tamanho da amostra.
χ2 + n
Exemplo 5.3. No exemplo dos comerciais de TV, o coeficiente de contingência será:

r
9, 09818
C= = 0, 26047.
9, 09818 + 125
Para testar a significância deste coeficiente terı́amos que recorrer a tabela própria.
H0 : C=0
H1 : C 6= 0
Se o p-valor associado for menor que alfa rejeitamos H0 e concluı́mos de que existe associação entre as
variáveis, caso contrário não.
Para facilitar a interpretação, usaremos uma modificação deste coeficiente. Chamaremos de k o menor
entre l (no de linhas da tabela) e c (no de colunas da tabela), isto é:
k = min{l; c}.
O chamado coeficiente de contingência modificado (C ∗ ) é dado por:
s
∗ k.χ2
C = .
(k − 1)(χ2 + n)
O valor C ∗ sempre estará no intervalo de 0 a 1. Será 0, somente quando houver completa independência e
será 1 quando houver associação perfeita. Valores de C ∗ próximos de 1 descrevem associação forte, enquanto
que valores de C ∗ próximos de 0 indicam associação fraca. Os valores de C ∗ em torno de 50% podem ser
interpretados como associação moderada.
Exemplo 5.4. Cálculo do coeficiente de contingência para os dados do exemplo anterior.
k = min{2; 3} = 2
s
k.χ2
C∗ =
(k − 1)(χ2 + n)
s
2.(9, 09818)
=
(2 − 1)(9, 09818 + 125)
= 0, 3684 ou 36, 84%.
Este resultado indica uma fraca associação entre X: preferência pelo comercial e Y: gênero.
Exercı́cio 5.1. A freqüência da inversão F do cromossomo IIL foi estudada em populações urbanas de
Drosophila willistoni. Os exemplares foram coletados em zonas considerada de alta, média e baixa urban-
ização, na cidade de Porto Alegre ( Valente et al, 1993). Os dados foram comparados entre si e com um
grupo-controle não-urbano. Verifique ao nı́vel de 1% de significância se existem evidências de associação
entre a inversão F e a Urbanização.
Exercı́cio 5.2. Crianças hospitalizadas e alimentadas por nutrição endovenosa às vezes apresentam colestase,um
bloqueio do fluxo da bile que pode produzir cálculos biliares e outros problemas. Suponha que foi realizado um
estudo do tipo caso-controle para avaliar o efeito (α = 5%) de uma infecção grave sobre o risco de colestase
em crianças com nutrição parenteral. A Tabela abaixo mostra o resultado de um estudo feito em 113 crianças
hospitalizadas. Como o desfecho, isto é, a colestase, é uma caracterı́stica rara na população, o risco relativo
foi estimado através do Odds Ratio (Fonte: Carvalho, 1993).
Tabela 5.9: Associação entre Inversão F e Urbanização quando comparadas a um controle.

Urbanização
Inversão F Alta Intermediária Baixa Controles Total
Sim 63 421 641 223 1349
Não 475 1201 1542 658 3875
Total 538 1622 2183 881 5224
% Inversão F 12% 26% 29% 25% 26%
Tabela 5.10: Presença de colestase em crianças com nutrição endovenosa, som e sem infecção grave.
Colestase
Infecção grave Sim Não
Sim 19 61
Não 1 32
Exercı́cio 5.3. Com o objetivo de avaliar fatores de risco para o câncer intra-epitelial da cérvice uterina,
Soares (1998) estudou 43 casos com essa doença e 63 mulheres controles da população de Porto Alegre. A
Tabela 2 apresenta dados relativos à presença do alelo DQB1*03, do sistema HLA. Teste a associação entre
a doença e o fator ao nı́vel de 5%. Em caso afirmativo determine o risco de desenvolver a neoplasia e seu
respectivo IC.
Tabela 5.11: Associação entre câncer intra-epitelialda cérvice uterina e presença do alelo DQB1*03.
Presença do alelo
Câncer DQB1*03 Outro
Casos 33 10
Controles 24 39
Exercı́cio 5.4. Verificar se a freqüência dos dois tipos de cromossomos Y está relacionado com o grau de
mistura racial aparente e com a idade do touro ao nı́vel de 5%.
Tabela 5.12: Associação entre tipo de cromossomo e contaminação de raça aparente.

Tipo do cromossomo
Contaminação racial aparente Acrocêntrico Submetacêntrico
Sim 38 16
Não 13 8
Tabela 5.13: Associação entre tipo de cromossomo e idade do touro.

Tipo do cromossomo
Idade do touro Acrocêntrico Submetacêntrico
1 a 2 anos 21 17
3 anos ou + 30 7
Exercı́cio 5.5. Em um estudo genético realizado em macacos amazônicos da subespécie ”Saimiri sciureus
ustus”, Silva et al. (1993) encontraram variação nas freqüências de dois tipos de enzimas glioxalase (GLO)
em animais que vivem nas margens do rio Jamari, em Rondônia. Na Tabela 4, estão os números observados
de animais com diferentes tipos de enzimáticos, coletados nas margens esquerda e direita desse rio. Verifique
se existem evidências de associação entre as variáveis ao nı́vel de 1%.
Tabela 5.14: Associação entre tipos enzimáticos e margem do rio Jamari-Rondônia.

Margem do rio
Enzima Esquerda Direita
GLO 2 72 74
GLO 2-3 22 3
Exercı́cio 5.6. Vieira e Prolla (1979) estudaram uma amostra de 384 pacientes com problemas pulmonares,
classificando-os segundo a presença ou não de eosinófilos no escarro e o tipo de pneumopatia diagnosticada.
Existem evidências de associação entre as variáveis ao nı́vel de 5%? e a 1%? G1: asmas; G2: broncoespasmo;
G3: enfisema; G4: outras doenças.
Tabela 5.15: Presença de eosinófilos no escarro e tipo de doença pulmonar em 384 pacientes porto-alegrenses.
Grupo quanto a pneumopatia
Eosinófilos no escarro G1 G2 G3 G4
Sim 142 26 32 28
Não 55 19 41 41
Exercı́cio 5.7. O coleóptero chauliognathus flavipes pode apresentar 10 diferentes padrões para as manchas
pretas que ocorrem sobre os élitros (asas), que são amarelos. Machado e Araújo (1994) coletaram insetos
dessa espécie em várias localidades do Rio Grande do Sul, nos anos de 1989 e 1990, como mostra a Tabela
6. Teste a hipótese de igualdade de proporções entre as localidades ao nı́vel de 5% e a 1%.
Tabela 5.16: Número de indivı́duos da espécie Chauliognathus com diferentes padrões de manchas nos élitros,
coletados em três localidades do Rio Grande do Sul.
Padrão do élitros
Localidade Claro Intermediário Escuro
Porto Alegre 67 20 4
São Leopoldo 68 29 19
Caxias do Sul 26 3 6
Exercı́cio 5.8. Verifique se as localidades a seguir diferem quanto a freqüência dos diferentes grupos
sangüı́neos do sistema ABO, ao nı́vel de 5%.
Tabela 5.17: Número de indivı́duos da espécie Chauliognathus com diferentes padrões de manchas nos élitros,
coletados em três localidades do Rio Grande do Sul.
Tipo sangüı́neo
Localidade A B AB O
Cidade I 43 9 1 47
Cidade II 29 17 9 45
Exercı́cio 5.9. Um estudo foi conduzido para investigar se existe uma associação entre doença cardı́aca e
apnéia (ronco). Teste esta hipótese ao nı́vel de 5%.
Tabela 5.18: Associação entre doença cardı́aca e apnéia.

Apnéia
Doença cardı́aca não ocasionalmente quase toda noite todas as noites
Sim 24 35 21 30
Não 1355 603 192 224
Exercı́cio 5.10. Reestruture os dados para uma tabela 2x2 considerando apenas sim ou não para a apnéia,
em seguida teste a mesma hipótese ao nı́vel de 5%, determine o OR e seu respectivo IC.
Capı́tulo 6
Comparações Entre Grupos
6.1 Introdução
Às vezes, é preciso comparar duas populações. Por exemplo, imagine que um pesquisador obteve, para
um grande número de crianças, a idade em que cada uma delas começou a falar. Para verificar se meninos
e meninas aprendem a falar na mesma idade, o pesquisador terá que comparar os dados dos dois sexos.
Outras vezes, é preciso comparar condições experimentais. Por exemplo, para saber se um tratamento
tem efeito positivo, organizam-se dois grupos de unidades: um grupo recebe o tratamento em teste (é o
grupo tratado), enquanto o outro não recebe o tratamento (é o grupo controle).
O efeito do tratamento é dado pela comparação dos dois grupos.
Freqüentemente, para comparação de dois tratamentos observam-se caracterı́sticas ou mede-se o valor da
variável resposta de interesse que as caracterı́sticas importantes dos indivı́duos que integram o mesmo par
sejam tão semelhantes quanto possı́vel. O tratamento é administrado a um dos elementos do par e o outro é
mantido como controle. A vantagem do procedimento é clara. Os indivı́duos no par são semelhantes, exceto
no que se refere ao tratamento recebido. Em algumas situações o par é constituı́do do mesmo indivı́duo em
duas ocasiões diferentes (amostras dependentes).
6.2 Resposta Dicotômica: Amostras Independentes

Comparar dois grupos através do resultado observado em uma variável dicotômica é um problema comum
na pesquisa médica, aparecendo com freqüência em todos os tipos de estudos clı́nicos.
A variável de interesse é a ocorrência de um evento, como o desenvolvimento de uma doença de certo
atributo, por exemplo, albinismo. O problema de comparações das probabilidades de ocorrência do evento
ou do atributo nos dois grupos (p1 e p2 ) é formulado através das hipóteses:
½
H0 : p1 = p2 “não há diferença significativa entre os grupos”
Ha : p1 6= p2 “há diferença significativa entre os grupos”
6.2.1 Teste Qui-Quadrado

A Tabela 6.1 apresenta dados genéricos de uma situação envolvendo a comparação de dois grupos e que
a resposta de interesse é dicotôminca: a ocorrência ou não de um evento.
Tabela 6.1: Distribuição quanto à ocorrência de um evento.

Grupo Ocorrência do Evento Total
Sim Não
I a b n1 = a + b
II c d n2 = c + d
Total m1 = a + c m2 = b + d n = n1 + n2
61
6.2 Resposta Dicotômica: Amostras Independentes ROSSI, Robson M. 62
A estatı́stica teste será:

k
X (Oi − Ei )2
χ2c = ∼ χ21;(1−α)%
i=1
Ei
ou, para Tabelas 2×2:
2
n (ad − bc)
χ2c = ∼ χ21;(1−α)% (Tabelas 2 × 2)
n1 n2 m1 m2
Há restrições para aplicação do χ2 em tabelas contingência, logo a correção de Yates (1934) é necessária.
Esta correção deve ser feita quando:
• n < 40;
• 20 < n < 40 e Ei ≤ 5 para algum i;
• n > 40 e Ei ≤ 5 para algum i;
Para testar as hipóteses acima citadas temos a estatı́stica teste qui-quadrado com correção de continuidade
de Yates, temos
¡ ¢2
2 n |ad − bc| − n2
χcY = ∼ χ21;(1−α)% (Tabelas 2 × 2)
n1 n2 m 1 m 2
Exemplo 6.1. Estudo sobre a associação entre o uso corrente de contraceptivos e o infarto de miocárdio.
Shapiro et al. (1979) observaram os resultados entre pacientes com idade entre 30 e 34 anos e estes são
mostrados na Tabela 6.2.
Tabela 6.2: Distribuição de uso de contraceptivo oral segundo grupo que sofreu ou não infarto do miocárdio.
Grupo Uso recente Total
Sim Não
Casos 9 12 21
Controles 33 390 423
Total 42 402 444
Entre os casos, ou seja, entre as pacientes que tiveram um infarto do miocárdio, a proporção de uso recente
9 33
de contraceptivos é = 0, 43 e entre os controles, = 0, 08. A diferença entre estas duas proporções
21 423
(0,35) parece indicar que o uso de contraceptivos orais é mais freqüente entre os casos (infartos). Mas será
que este resultado não ocorreu por mero acaso?
A expressão χ2c = 24, 76 > 3, 84 = χ21;95% , nos indica, com alto grau de confiança (95%) afirmar que existe
associação entre o uso de contraceptivos orais e infarto do miocárdio para pacientes entre 30 e 34 anos.
6.2.2 Teste Exato de Fisher

Nos casos em que formamos uma tabela de contingência com formato 2 × 2, com pequeno número de
observações (n < 20 ou próximo) e, conseqüentemente, com freqüências observadas em cada casela muito
baixas, a literatura apresenta a utilização do teste exato de Fisher, no qual estimamos, a partir da menor
freqüência contida na tabela, a probabilidade de ocorrência deste valor e de uma freqüência menor ainda,
Pn
fazendo-se p = pi , em que n é a menor freqüência verificada na tabela.
i=0
Numa tabela de contingência 2 × 2, com os totais marginais fixos, apresentada como a Tabela 5.1, as
freqüências observadas têm distribuição hipergeométrica e a probabilidade de ocorrência i será dada por:
n1 !n2 !m1 !m2 !
pi =
a!b!c!d!n!
Exemplo 6.2. Um estudo foi realizado para verificar a existência de associação entre o tipo de tratamento
e mortalidade por AIDS. A Tabela 6.3 apresenta os dados.
Tabela 6.3: Associação entre o tipo de tratamento e mortalidade por AIDS.

Tratamento Mortalidade Total
Sim Não
A 7 5 12
B 1 9 10
Total 8 14 22
P
1
Sendo p = pi , temos
i=0
12!10!8!14!
p1 = = 0, 024.
7!5!1!9!22!
e
Tabela 6.4: Associação entre o tipo de tratamento e mortalidade por AIDS.

Tratamento Mortalidade Total
Sim Não
A 8 4 12
B 0 10 10
Total 8 14 22
assim
12!10!8!14!
p0 = = 0, 0015.
8!4!0!10!22!
O valor de p será 0, 024 + 0, 0015 = 0, 0255 (p-valor : 0,0263).
Como este p é menor que o nı́vel de significância, para α = 0, 05 a decisão correta será rejeitar H0 , isto
é, pode-se concluir que há diferença quanto à mortalidade em relação ao tipo de tratamento, sendo B mais
eficáz.
Exemplo 6.3. Suponha um grupo de dezesseis ratos, divididos em dois grupos, experimental e normal. O
grupo experimental é formado por 9 animais geneticamente modificados, por apresentarem uma disfunção
pancreática com diminuição da capacidade de produção de insulina. Imagine que, após um ano e meio em
ambiente controlado, o número de ratos vivos do grupo experimental e do normal seja o seguinte (Tabela
6.5):
Pode-se notar que aproximadamente 71% dos ratos normais ainda permaneciam vivos, enquanto a so-
brevida para o grupo experimental é de apenas 11%.
O teste exato de Fisher consiste em elaborar, com base nos totais marginais do fator discriminante da
tabela original, duas outras tabelas, que serão denominadas tabelas ou matrizes extremas, X1 e X2 . A matriz
Tabela 6.5: Estudo em ratos sobre disfunção pancreática.

Grupo Sobrevida + 1,5 ano Total
Vivos Mortos
Normal 5 2 7
Experimental 1 8 9
Total 6 10 16
extrema 1 é a matriz em que todos os animais mortos pertencem ao grupo normal (são 10 mortos, mas o
grupo normal tem 7 ratos, logo, os outros 3 que morreram pertencem ao grupo experimental) e todos que
sobraram do grupo experimental estão vivos (todos os vivos, pois sobraram 9-3 = 6 ratos). Desta forma,
resulta na Matriz X1 (Tabela 6.6):
Tabela 6.6: Matriz X 1 .

Vivos Mortos
Normal 0 7 7
Experimental 6 3 9
Total 6 10 16
A matriz extrema 2, X2 , corresponde a uma tabela com os mesmos totais marginais, mas com todos os
animais vivos no grupo normal. Então, pela matriz X2 (Tabela 6.7):
Tabela 6.7: Matriz X 2 .

Vivos Mortos
Normal 6 1 7
Experimental 0 9 9
Total 6 10 16
Observe que existe um óbito no grupo normal, pois o número de ratos do grupo normal é maior que o de
ratos que sobreviveram. Obviamente, os 9 mortos que restaram pertencem ao grupo experimental. Nenhum
rato do grupo experimental sobreviveu.
Finalmente, o valor de significância para o teste é calculado segundo a fórmula apresentada anteriormente:
Para a matriz original:
7!.9!.10!.6!
F0 : = 0, 02360
2!.5!.8!.1!.16!
Para a matriz X 1 :
7!.9!.10!.6!
FX1 : = 0, 0105
0!.7!.6!.3!.16!
Para a matriz X 2 :
7!.9!.10!.6!
FX2 : = 0, 0009
6!.1!.0!.9!.16!
Finalmente,
p = F0 + FX1 + FX2 = 0, 0236 + 0, 01505 + 0, 0009 = 0, 035 ou 3, 5%.
Ou seja, a afirmação de que a sobrevida dos ratos geneticamente alterados é menor que a dos ratos
normais envolve uma probabilidade de erro de 3,5%. Portanto, ao nı́vel de 5% de significância, rejeita-se a
hipótese de nulidade (ou seja, de que as vidas dos ratos normais e dos transgênicos são iguais).
6.3 Resposta Dicotômica: Amostras Pareadas ROSSI, Robson M. 65
6.2.3 Teste z para Comparação de Proporções

Denotamos os dois resultados possı́veis da variável dicotômica por sucesso e fracasso. Sejam p1 e p2 as
proporções de sucesso referentes aos tratamentos a serem comparados, que são estimadas por p̂1 e p̂2 , as
proporções amostrais baseadas em amostras de tamanhos n1 e n2 , respectivamente. Queremos testar as
hipóteses:
H0 : p1 = p2
Ha : p1 =
6 p2
isto é, estamos investigando a equivalência entre os dois tratamentos.

Apresentaremos uma alternativa para o teste qui-quadrado para a comparação de proporções. Trata-se
de um teste aproximado que requer amostras grandes para sua aplicação. Um critério é exigir que n1 p̂1 e
n2 p̂2 excedam o valor 5.
O teste é baseado em
p̂1 − p̂2
Zc = q ∼ N (0, 1).
p̂1 (1−p̂1 )
n1 + p̂2 (1−
n2
p̂2 )
Exemplo 6.4. Comparação de drogas contra náusea.
Com o objetivo de comparar a eficácia de dois preventivos contra náusea, dividiu-se aleatoriamente uma
amostra de 400 marinheiros em dois grupos de 200. Um grupo recebeu a pı́lula A e o outro a pı́lula B,
sendo que no primeiro grupo 152 não enjoaram durante uma tempestade e no outro grupo apenas 132. Há
indicações de que a eficácia da pı́lula A e B é a mesma?
Sol.: Sejam pA e pB as proporções de marinheiros que não enjoam, respectivamente para as pı́lulas A e
152 132
B. Temos que nA = 200, nB = 200, p̂A = 200 = 0, 76, p̂B = 200 = 0, 66, logo tem-se:
0, 76 − 0, 66
Z=q = 2, 22 (p-valor : 0,0281).
0,76(1−0,76) 0,66(1−0,66)
200 + 200
Fixando-se o nı́vel de significância em 5%, rejeita-se H0 . Portanto, pode-se concluir que as duas pı́lulas
não são igualmente efetivas. Há indicação de que a pı́lula A oferece maior proteção contra náusea comparada
à pı́lula B.
6.3 Resposta Dicotômica: Amostras Pareadas

Podemos distingüir três tipos de pareamento: auto-pareamento, pareamento natural e pareamento artifi-
cial.
O auto-pareamento ocorre quando o indivı́duo serve como seu próprio controle, como na situação em
que um indivı́duo recebe duas drogas administradas em ocasiões diferentes. Outra situação é a que um
tratamento é administrado e as variáveis de interesse são observadas antes e depois do programa. Finalmente,
a comparação de dois órgãos no mesmo indivı́duo, como braços, pernas, olhos, narinas, segundo alguma
caracterı́stica estudada também constitui um auto-pareamento.
O pareamento natural consiste em formar pares tão homogêneos quanto possı́vel, controlando os fatores
que possam interferir na resposta, sendo que o pareamento aparece de forma natural. Por exemplo, em ex-
perimentos de laboratório pode-se formar pares de cobaias selecionadas da mesma ninhada; em investigações
clı́nicas, gêmeos univitelinos são muitos usados.
No pareamento artificial escolhe-se indivı́duos com caracterı́sticas semelhantes, tais como, idade, sexo,
nı́vel sócio-econômico, estado de saúde ou, em geral, fatores que podem influenciar de maneira relevante a
variável resposta.
6.3 Resposta Dicotômica: Amostras Pareadas ROSSI, Robson M. 66
6.3.1 Teste de McNemar

O exemplo a seguir ilustra a necessidade de desenvolvimento de um teste especı́fico para a situação de
dados pareados em que a resposta é dicotômica.
Exemplo 6.5. Suponhamos que dois patologistas examinaram, separadamente, o material de 100 tumores
e os classificaram como benignos ou malignos. A questão de interesse é saber se os patologistas diferem nos
seus critérios de decisão.
Neste caso, a forma adequada de apresentação dos dados é mostrada na Tabela 6.8.
Tabela 6.8: Classificação de dois patologistas (A e B) quanto à malignidade de tumores.

Diagnóstico de B Diagnóstico de A Total
Malignos Benignos
Malignos 9 1 10
Benignos 9 81 90
Total 18 82 100
É importante observar que a unidade de análise aqui é o tumor, avaliado por dois patologistas. Embora
tenham sido feitas 200 análises, o total de tumores é, na realidade, apenas 100.
Além disto, alguns tumores serão claramente mais malignos do que outros e, portanto, a hipótese funda-
mental na construção do teste de probabilidade constante de malignidade não é razoável aqui. Isto explica
a necessidade de desenvolvimento de teste especı́fico, isto é, para dados pareados.
Os dados a serem analisados no processo de comparação podem ser resumidos no formato da Tabela 6.9.
Tabela 6.9: Apresentação de dados obtidos em uma classificação de dados pareados.

Controle Tratamento Total
Sucesso Fracasso
Sucesso a b n1
Fracasso c d n2
Total m1 m2 n
Se p1 e p2 são as probabilidades de sucesso nos grupos controle e tratamento, respectivamente, a hipótese

de interesse é:
H0 : p1 = p2
Ha : p1 =
6 p2
A Estatı́stica Teste: (B/C)

(|b − c| − 1)2
χ2M cN = ∼ χ21 .
b+c
A hipótese nula deverá ser rejeitada quando χ2M cN > χ21 .
6.4 Resposta Contı́nua - Teste de Médias para Amostras Independentes ROSSI, Robson M. 67
Exemplo 6.6. Amigdalectomia e doença de Hodgkin.

Johnson & Johnson (1972), ao analisarem retrospectivamente a história clı́nica de pacientes de doença de
Hodgkin, um tipo de câncer no tecido linfóide, não encontraram evidências que sustentassem a hipótese de
que a amigdalectomia aumenta a suscetibilidade à doença, pela remoção da ”barreira linfática” representada
pela amı́gdala. Neste estudo, usaram um planejamento do tipo caso-controle pareado. A conclusão relatada
no artigo foi feita, entretanto, com uma análise apropriada para dados provenientes de grupos independentes.
Logo após a publicação, vários autores observaram a impropriedade da análise e, utilizando as informações
do artigo, fizeram a análise correta, que é baseada nos dados da Tabela 6.10.
Tabela 6.10: Distribuição de pacientes com e sem doença de Hodgkin em um estudo caso-controle pareado
segundo à amigdalectomia.
Doença de Controle Total
Hodgkin Operados Não operados
Operados 26 15 41
Não operados 7 37 44
Total 33 52 85
O valor da estatı́stica do teste de McNemar é:

(|15 − 7| − 1)2
χ2M cN = = 2, 23 (p-valor : 0,1356).
15 + 7
Este valor dever ser comparado com 3,84 para um nı́vel de significância de 5%. Ou seja, com uma
confiança de 95% acreditamos que não há associação entre a doença de Hodgkin e a amigdalectomia. Esta
conclusão não está de acordo com trabalhos anteriores, como o de Vianna et al. (1971).
6.4 Resposta Contı́nua - Teste de Médias para Amostras Indepen-

dentes
Às vezes, é preciso comparar duas populações. Por exemplo, imagine que um pesquisador obteve, para
um grande número de crianças, a idade em que cada uma delas começou a falar. Para verificar se meninos
e meninas aprendem a falar na mesma idade, o pesquisador terá que comparar os dados dos dois sexos.
Nesta seção apresentamos a metodologia para comparar dois grupos de pacientes (por exemplo, doentes
versus não doentes) em relação a uma resposta contı́nua, por exemplo, pressão sistólica. Testa-se, neste caso,
a igualdade das médias das respostas de dois tratamentos.
Sejam µ1 e µ2 as médias da variável estudada para os dois grupos, respectivamente. As hipóteses a serem
testadas são:
H0 : µ1 = µ2
Ha : µ1 =
6 µ2
6.4.1 Teste t
Se a variável em análise tem distribuição normal ou aproximadamente normal, aplica-se o teste t para
comparar duas médias. Mas primeiro é preciso estabelecer o nı́vel de significância, α. Depois, dados os dois
grupos, 1 e 2, calculam-se:
a) as médias de cada grupo:
x̄1 : média do grupo 1

x̄2 : média do grupo 2
b) as variâncias ou os desvios-padrões de cada grupo:
s1 : desvio-padrão do grupo 1
s2 : desvio-padrão do grupo 2
6.4 Resposta Contı́nua - Teste de Médias para Amostras Independentes ROSSI, Robson M. 68
c) a variância ponderada:
(n1 − 1)s21 + (n2 − 1)s22

s2p =
n1 + n2 − 2
d) o valor da estatı́stica teste, tc , definida por:
x̄1 − x̄2
tc = s µ ¶ ∼ tn1 +n2 −2;α%
1 1
s2p +
n1 n2
O intervalo de confiança para (µ1 − µ2 ) será:

sµ ¶
1 1
(x̄1 − x̄2 ) ± tn1 +n2 −2;α% .s2p . +
n1 n2
Exemplo 6.7. Comparação entre tratamentos para dieta.

Para verificar se duas dietas para emagrecer são igualmente eficientes, um médico separou, ao acaso, um
conjunto de pacientes em dois grupos. Cada paciente seguiu a dieta designada para seu grupo. Decorrido
certo tempo, o médico obteve a perda (ou ganho) de peso, em quilogramas, de cada paciente de cada grupo.
Os dados estão apresentados na Tabela 6.11:
Tabela 6.11: Perdas de peso, em quilogramas, segundo a dieta.

1 15 19 15 12 13 16 15 - - -
2 12 8 15 13 10 12 14 11 12 13
Após alguns cálculos preliminares, temos: x̄1 = 12; x̄2 = 15; s21 = 4; s22 = 5; s2p = 4, 4, desta forma, para
α = 5%, temos t15;5% = ±2, 13, assim:
12 − 15
tc = s µ ¶ = −2, 902 ∈ Região de rejeição de H0 , logo podemos
1 1
4, 4 +
10 7
p − valor : 0, 010947
concluir que, em média, as perdas de peso de pacientes submetidos aos dois tipos de dieta são diferentes.
Em termos práticos, a perda de peso é maior quando os pacientes são submetidos à dieta 2.
6.4.2 Teste z
Um pressuposto importante para aplicar o teste t visto anteriormente é que os dois grupos comparados
tenham a mesma variabilidade, o que nem sempre acontece na prática. No caso de amostras grandes (n1 e
n2 ≥ 30) dispomos de um teste em que não é necessário qualquer suposição adicional sobre σ 21 e σ 22 , ou seja,
as varâncias podem ser iguais ou diferentes.
A estatı́stica teste usada será:
x̄1 − x̄2
Zc = s ∼ N (0, 1).
s21 s22
+
n1 n2
Exemplo 6.8. Efeito do halotano em cirurgias cardı́acas.

O halotano é uma droga bastante utilizada para induzir a anestesia geral. Trata-se de um poderoso
anestésico de inalação, não inflamável e não explosivo, com um odor relativamente agradável. Pode ser
administrado ao paciente com o mesmo equipamento usado para sua oxigenação.
Após a inalação, a substância chega aos pulmões tornando possı́vel a passagem para o estado anestésico
mais rapidamente do que seria possı́vel com drogas administradas de forma intravenosa.
6.5 Resposta Contı́nua - Teste de Médias para Amostras Pareadas ROSSI, Robson M. 69
Entretanto, os efeitos colaterais incluem a depressão do sistema respiratório e cardiovascular, sensibi-

lização a arritmias produzidas por adrenalina e eventualmente o desenvolvimento de lesão hepática. Alguns
anestesistas acreditam que esses efeitos podem causar complicações em pacientes com problemas cardı́acos
e sugerem o uso da morfina como um agente anestésico nesses pacientes devido ao seu pequeno efeito na
atividade cardı́aca.
Conahan et al. (1973) compararam esses dois agentes anestésicos em um grande número de pacientes
submetidos a uma cirurgia de rotina para reparo ou substituição da válvula cardı́aca. Para obter duas
amostras comparáveis, os pacientes foram alocados aleatoriamente a cada tipo de anestesia. Com o objetivo
de estudar o efeito desses dois tipos de anestesia, foram registradas variáveis hemodinâmicas, como pressão
sangüı́nea antes da indução anestésica, após a anestesia mas antes da incisão, e em outros perı́odos impor-
tantes durante a operação. A questão que surge é se o efeito do halotano e da morfina na pressão sangüı́nea
é o mesmo. Para comparar os dois grupos, necessitamos dos resultados apresentados na Tabela 6.12 a seguir:
Tabela 6.12: Média e desvio-padrão da pressão sangüı́nea (mmHg) segundo o tipo de anestesia.
Informações Anestesia
sobre a amostra Halotano Morfina
Média 66,9 73,2
Desvio-Padrão 12,2 14,4
n 61 61
Nas condições do problema, as hipóteses são:

½
H0 : µ1 = µ2
;
Ha : µ1 6= µ2
isto é, devemos testar a diferença entre as pressões sangüı́neas médias de indivı́duos anestesiados com halotano
ou morfina.
Como as amostras são grandes, podemos usar o teste Z, cujo valor da estatı́stica do teste é:
66, 9 − 73, 2 6, 30
Zc = r = −√ = −2, 61 (p-valor : 0,0103).
2
12, 2 14, 4 2 5, 84
+
61 61
Adotando um nı́vel de siginificância de 5%, o resultado é estatisticamente significativo, já que | − 2, 61| >
1, 96, indicando que os dois anestésicos não são equivalentes.
6.5 Resposta Contı́nua - Teste de Médias para Amostras Pareadas

6.5.1 Teste t
Para estudar o efeito de um tratamento, muitas vezes comparam-se pares de indivı́duos. Por exemplo, em
alguns estudos de psicologia comparam-se pares de gêmeos: um dos gêmeos recebe o tratamento, enquanto
o outro permanece sem o tratamento (controle).
Outras vezes, comparam-se os dois lados dos mesmos indivı́duos. Por exemplo, par estudar o efeito de um
tratamento para prevenção de cáries, o dentista pode aplicar o tratamento em um lado da arcada dentária
de cada paciente, e deixar o outro lado sem tratamento (controle).
Também são feitos experimentos em que se observam os mesmos indivı́duos duas vezes, isto é, uma vez
antes, outra vez, depois de administrar o tratamento. Por exemplo, para verificar o efeito de um tratamento
sobre pressão arterial, o médico pode obter a pressão arterial de seus pacientes, antes e depois de administrar
o tratamento.
Todos esses exemplos são de observações pareadas (pares de gêmeos, dois lados de um indivı́duo, ob-
servações no mesmo indivı́duo). Para testar o efeito de um tratamento, quando as observações são pareadas,
aplica-se o teste t.
6.5 Resposta Contı́nua - Teste de Médias para Amostras Pareadas ROSSI, Robson M. 70
Estatı́stica teste:
d¯
tc = r ∼ tn−1;α%
s2
n
onde:
d¯ : média das diferenças, di = x2 − x1 : a diferença entre as unidades de cada um dos n pares
P
n
di
d¯ = i=1
n
s2 : variância das diferenças, di .
Toda vez que o valor absoluto de tc for igual ou maior do que o valor tabelado tn−1;α% , conclui-se que o
tratamento tem efeito ao nı́vel α% estabelecido.
O intervalo de confiança para d, será dado por:
S
d¯ ± tn−1;α% . √
n
Exemplo 6.9. São dados os pesos de 9 pessoas, antes e depois da dieta para emagrecimento.
Tabela 6.13: Pesos em Kg de 9 pessoas antes e depois da dieta para emagrecimento.

Dieta
Antes Depois di
77 80 3
62 58 -4
61 61 0
80 76 -4
90 79 11
72 69 -3
86 90 4
59 51 -8
88 81 -7
Total -30
Para fazer o teste, é preciso primeiro estabelecer o nı́vel de significância. Seja α = 1%,
30
d¯ = − = −3, 33
9
s2 = 25
logo
−3, 33
tc = r = −2, 0 (p-valor : 0,080516).
25
9
Ao nı́vel de siginificância de 1% com g.l. = 8, o valor de t tabelado para t8;1% .é de 3,36. Como o valor
absoluto de tc (2,0) é menor do que o valor da tabela, concui-se que o tratamento não tem efeito significativo.
Em termos práticos, o experimento não provou que a dieta emagrece.
6.6 Testes Não-Paramétricos ROSSI, Robson M. 71
Exercı́cio 6.1. Avaliação morfoquantitativa dos neurônios mioentéricos nadh-diaforase reativos do estômago
de ratos com diabetes induzido por estreptozootocina e suplementados com ácido ascórbico (Mestrado em
Morfologia-UEM).
Este trabalho teve entre vários objetivos, verificar se existe diferença de tamanho entre as regiões glandular
e aglandular, entre as sub-regiões aglandular (A e B) e glandular (A e B) e entre o estômago como um todo;
e verificar se o diabetes afeta mais a região glandular do que a região aglandular, ou vice e versa. Parte dos
dados estão disponı́veis na Tabela (6.14) a seguir.
Tabela 6.14: Avaliação morfoquantitativa dos neurônios mioentéricos nadh-diaforase reativos do estômago
de ratos com diabetes induzido por estreptozootocina e suplementados com ácido ascórbico.
aglanB aglanA aglanTotal glanB glanA glanTotal Grupos
101,1 92,37 193,47 123,6 123,2 246,8 c
97,24 121,9 219,14 92,83 100,6 193,43 c
146,9 197,2 344,1 138,6 133,5 272,1 c
94,44 96,5 190,94 149,5 114,3 263,8 c
139,5 110,4 249,9 184,4 143,6 328 c
203,3 191,1 394,4 438,1 367,2 805,3 d
232,4 216,1 448,5 290,7 311 520,7 d
237,3 240,3 477,6 271,4 193,4 464,8 d
139,5 158,2 297,7 269,5 159,6 429,1 d
222,9 262,4 485,3 334,6 246,8 581,4 d
234,1 191,9 426 253 231,5 484,5 ds
201,9 207,3 409,2 237,7 186,6 424,3 ds
164,1 213,3 377,4 269,3 214,7 484 ds
- - - 251,1 217,1 468,2 ds
6.6 Testes Não-Paramétricos

Os testes não-paramétricos são boas opções para situações em que ocorrem violações dos pressupostos
básicos necessários para a aplicação de um teste paramétrico. Por exemplo, para testar a diferença de dois
ou mais grupos quando a distribuição subjacente é assimétrica ou dos dados foram coletados em uma escala
ordinal.
6.6.1 Teste U de Mann-Whitney

Este teste corresponde a mais uma alternativa para a comparação de duas amostras independentes,
utilizando, como os demais testes não-paramétricos, os números naturais para classificação conjunta dos
valores observados. Portanto, o posto de um valor de um conjunto de n valores corres-ponde a um número
natural que indicará a sua posição no conjunto anteriormente ordenado (posto, score ou rank ), isto é, todas
as N observações recebem uma pontuação através dos números naturais 1, 2, 3, 4, ..., n. Assim, ao menor valor
se dará o número 1, e assim sucessivamente até o valor maior, que receberá a maior pontuação. Quando
ocorre a presença de valores iguais no conjunto, considera-se um ponto médio, não afetando o posto seguinte.
Portanto, num conjunto de seis valores já ordenados {7-12-18-18-19-23} os postos serão {1-2-3,5-3,5-5-6},
respectivamente.
Quanto ao procedimento mais adequado para a aplicação do teste, baseamo-nos no cálculo de U1 e U2 ,
sendo:
n1 (n1 + 1)
U1 = n1 n2 + − T1
2
e
n1 (n1 + 1)
U2 = n1 n2 + − T2
2
onde n1 e n2 são os tamanhos das duas amostras de T1 e T2 , que correspondem as somas dos pontos (postos)
atribuı́dos aos valores das duas amostras.
Para amostras pequenas (n ≤ 20)
Uc = mı́n{U1 ; U2 }
Obtemos uma estatı́stica tabelada : UT = Uα,n1 ,n2 e concluı́mos para a rejeição de Ho se Uc ≤ UT .
Para amostras grandes (n > 20)

Neste caso o teste pode ser aplicado por aproximação normal, sendo
r
n1 n2 n1 n2 (n1 + n2 + 1)
µ(u) = e σ(u) = .
2 12
Neste caso, a expressão do teste será:
u1 − µ(u)
Z= ∼ N (0, 1).
σ(u)
Exemplo 6.10. Verificar se os dados das duas amostras apresentam diferença significativa.
Tabela 6.15: Dados hipotéticos.

Amostra A Amostra B
2,6 (9,5) 2,3 (5)
2,9 (13) 2,8 (12)
2,5 (8) 2,0 (2)
2,7 (11) 1,8 (1)
3,2 (14) 2,4 (7)
2,6 (9,5) 2,3 (5)
2,3 (5) 2,2 (3)
3,3 (15) -
T1 = 85, 0 T2 = 35, 0
Procede-se à ordenação dos valores para obtenção dos seus postos e posteriormente seu somatório.
Temos então n1 = 8, n2 = 7, T1 = 85 e T2 = 35.
O valor de U1 e de U2 , respectivamente serão:
8(8 + 1)
U1 = 8.7 + − 85 = 7
2
7(7 + 1)
U2 = 8.7 + − 35 = 49.
2
Assim
Uc = mı́n{7;49} = 7
O valor da estatı́stica tabelada será de:
UT = Uα,n1 ,n2 = U5%,8,7 ' 12
Como Uc ≤ UT rejeitamos Ho . Portanto as amostras diferem entre si ao nı́vel de 5% de significância.

Suponho n ≥ 20 O teste pode ser aplicado tanto para U1 ou U2 , pois ambos são simétricos em relação à
média 28. r
n1 n2 8.7 8.7(8 + 7 + 1)
µ(u) = = = 28 e σ(u) = = 8, 63.
2 2 12
Sendo assim:
7 − 28
Z= = −2, 43 (p-valor : 0,013986).
8, 63
Como o valor de |Z| é maior do que Zα , quando α = 5%, ou seja, o valor 1,96, rejeitamos H0 . Considera-se
que as amostras diferem entre si ao nı́vel de 5% de significância.
Exercı́cio 6.2. Diagnóstico e tratamento da Osteoporose.
Osteoporose é uma doença esquelética sistêmica caracterizada por baixa massa óssea e alteração da
micro-arquitetura, levando a um aumento da fragilidade óssea e, conseqüentemente, do risco de fratura.
A massa óssea aumenta durante a infância e principalmente adolescência, atingindo seu pico em torno
dos 25 anos na mulher e 30 a 35 anos no homem.
Após a parada do crescimento ósseo, a formação e a reabsorção ocorrem na mesma proporção, em um
processo denominado de remodelação óssea.
Com o avanço da idade cronológica, a formação óssea torna-se menor que a reabsorção, levando a uma
perda de massa óssea em torno de 1% ao ano. A quantidade de osso presente no adulto é proporcional ao
pico de massa óssea atingido.
Na osteoporose pós-menopausa (desencadeada pelo hipoestrogenismo), a reabsorção óssea se manifesta
mais precocemente nas regiões ricas em osso trabecular, levando à fratura na região distal do radio e colapso
central das vértebras dorsais e lombares.
A osteoporose é uma doença assintomática até o paciente apresentar alguma fratura. Os locais mais
comuns são vértebras, região distal do rádio e colo do fêmur. As principais complicações das fraturas são
dor crônica e deformidade óssea. Assim, com objetivo de detectar pacientes com osteoporose coletou-se uma
amostra de 30 pacientes aleatoriamente em um Hospital Universitário. De cada paciente realizou-se um
cadastro onde tinha as seguintes variáveis: idade, peso, altura, atividade fı́sica, história de fratura materna,
ingestão adequada de cálcio, raça e outras como, tabagismo, algumas doenças (hipogonadismo, sı́ndromes
disabsortivas) e drogas (corticóide) são fatores de risco que aceleram a perda óssea.
Exercı́cio 6.3. Utilize o banco de dados em anexo de nome: osteporose ex.stw e verifique se existe diferença
entre os grupos: Tabagismo e Ingestão, com relação entre as variáveis: Altura, Peso e IMC, onde
P eso
IM C = ;
Altura2
* Considere α = 5%.
6.6.2 Teste H de Kruskal-Wallis para k amostras

O teste de Kruska-Wallis foi criado como um substituto ao teste F na análise paramétrica.
Ele é utilizado para que se verifique o contraste entre k amostras independentes.
Requisitos:
• Comparação entre 3 ou mais grupos independentes;

• Dados ordinais (que possam ser ordenados);
• ni ≥ 6.
Os valores obtidos nas diversas amostras diferem entre si e portanto, será uma maneira de verificar se
estas diferenças são devidas ao acaso ou se as amostras provém de populações diferentes.
Da mesma forma que nos outros testes, serão consideradas as hipóteses nula (H0 ) e alternativa (Ha ), isto
é:
H0 : “não há diferença significativa entre os tratamentos”.

Ha : “há diferença significativa entre os tratamentos”.
Quanto à metodologia usada no teste de Kruskal-Wallis, a expressão é definida por:
12 k T2
P i
HK−W = . − 3(N + 1) tal que H ∼ χ2(k−1)
N (N + 1) i=1 ni
em que:
Ti : é a soma das ordens atribuı́das ao tratamento i;
k : corresponde ao número de tratamentos ou amostras a comparar;
ni : o número de observações em cada tratamento k e,
N : o total de observações em todos os tratamentos k.
Exemplo 6.11. Analisar o tempo de sobrevida, em meses, de pacientes atendidos na clı́nica de abdômen
do hospital X, na cidade de Cabrobó.
Tabela 6.16: Tempo de sobrevida.

Radioterapia (n1 = 7) Quimioterapia (n2 = 8) Cirurgia (n3 = 8)
17 (11) 20 (12) 32 (17)
14 (9) 5 (3) 35 (20)
4 (2) 9 (6) 26 (15)
8 (5) 13 (8) 34 (18,5)
29 (16) 34 (18,5) 21 (13)
6 (4) 2 (1) 45 (21)
15 (10) 11 (7) 50 (23)
- 22 (14) 47 (22)
T1 = 57, 0 T2 = 69, 5 T3 = 149, 5
Questões: Há diferença sifnificativa entre os tempos de sobrevivência? Qual o tratamento recomendado
baseado no tempo de sobrevida?
Independentemente do número de observações em cada grupo e utilizando os números naturais, procede-
mos à ordenação dos valores. Assim os valores acima receberiam a seguinte numeração, conforme os valores
já entre parênteses.
Então:
12 Pk T2
i
HK−W = . − 3(N + 1)
N (N + 1) i=1 ni
12 3 T2
P i
= . − 3(23 + 1)
23(23 + 1) i=1 ni
· 2 ¸
1 57 69, 52 149, 52
= . + + − 72
46 7 8 8
1
= . (3861, 7) − 72
46
= 11, 95 (p-valor : 0,0025).
Como HK−W ∼ χ2(k−1) , então H ∼ χ2(3−1) ⇒ χ22;5% = 5, 99 e χ22;1% = 9, 21, portanto, considerando que
o valor encontrado de HK−W = 11, 95 é maior do que os valores da tabela, tanto para α = 5% como para
α = 1%, concluı́mos pela rejeição de H0 e conseqüentemente, pela indicação de que o tratamento cirúrgico
se destaca dos demais, pois apresenta maiores valores aos tempos de sobrevida.
Exercı́cio 6.4. Utilize o banco de dados citado no exercı́cio anterior: osteoporose ex.stw para verificar se
existe diferença entre as Raças, considerando as variáveis: Altura, Peso e IMC, ao nı́vel de 5%.
6.6.3 Teste de Wilcoxon (Amostras Pareadas ou dependentes)

Trata-se de um teste não-paramétrico para comparar dois tratamentos quando os dados são obtidos
através do esquema de pareamento. A prova de Wilcoxon avalia a grandeza das diferenças quando
comparados postos de observações. Dada a grandeza das diferenças observadas, atribui-se maior valor para
a maior diferença encontrada, diminuindo este valor de acordo com as menores diferenças existentes.
Procedimento
1. Calcular di : diferença entre as obsevações

(2) (1)
di = xi − xi
2. Ignorar os sinais e atribuir postos
3. Calcular a soma dos postos (T+ e T− ).

4. Obter o valor da estatı́stica calculada
Tc = mı́n{|T− |; |T+ |}
5. Obter o valor da estatı́stica Tabelada (Anexo)
Tα;n
6. Concluir pela rejeição de H0 se Tc ≤ Tα;n .
Pequenas Amostras (n ≤ 25)

No confronto de dois grupos quando desejamos identificar se existe diferença significativa entre os mesmos
quanto às medidas encontradas, empregamos o teste de Wilcoxon quando a variação dos valores apresenta-se
de forma acentuada.
A aplicação deste teste pressupõe que as duas amostras sejam casualizadas e independentes, e que as
variáveis em confronto sejam contı́nuas.
A metodologia do teste consiste em se proceder à ordenação dos valores das amostras e, posteriormente,
atribuir aos mesmos seus “ranks”. Em seguinda, obtém-se os totais do ranks da amostra de menor tamanho,
consultando-se a tabela (anexo) do referido teste.
Exemplo 6.12. Foi realizado um ensaio clı́nico em que foram utilizadas duas drogas A e B. Com a droga
A foram tratados oito pacientes e com a droga B, cinco pacientes. Os nı́veis de anticorpos corresponderam
a:
Tabela 6.17: Nı́veis de anticorpos.

Tratamento
A B
7,4 (6) 9,1 (7)
12,3 (9) 0,7 (1)
11,8 (8) 19,2 (12)
16,4 (10) 2,4 (3)
1,9 (2) 17,5 (11)
3,0 (4) -
6,8 (5) -
20,4 (13) -
T1 = 57 T2 = 34
Logo, para
Tc = mı́n{57; 34} = 34
consultando-se a Tabela de Wilcoxon, verifica-se que Tα;n = T5%;5 = 0 > 34 (no Statistica o p-valor : 0,8927).
Assim, podemos afirmar que não rejeitamos H0 , ou seja, que os valores comparados, referentes às drogas A
e B, não apresentam-se com diferença siginificativa. Conclui-se, então, que os valores de nı́veis de anticorpos
em relação aos dois tipos de drogas se comportam de forma semelhante.
Grandes Amostras (n > 25)

Nos casos de grandes amostras, estas apresentam valores com distribuição normal e, portanto, a com-
paração das medidas será realizada através de determinação de um valor W ∗ .
São enunciadas naturalmente as hipóteses. H0 será rejeitada se o valor de W ∗ for maior ou igual a Zα
para um nı́vel de significância, α, pré-determinado.
Assim, para a comparação de conjuntos de medidas, provenientes de duas amostras, será necessário
utilizar a expressão de W ∗ :
n(n + 1)
Tc −
W∗ = r 4 ∼ N (0, 1)
n(n + 1)(2n + 1)
24
em que:
n : número de elementos da menor amostra;
Exemplo 6.13. Evolução do tratamento com tianeptina: Escores dos pacientes do grupo tianeptina no
primeiro e no último dia:
Tabela 6.18: Tratamento com tianeptina.

Tianeptina
Primeiro dia (m = 8) Último dia (n = 8) d Postos
24 6 -18 (-) 11,5
46 33 -13 (-) 7
26 21 -5 (-) 4,5
44 26 -18 (-) 11,5
27 10 -17 (-) 9,5
34 29 -5 (-) 4,5
33 33 0 (+) 1
25 29 +4 (+) 3
35 37 +2 (+) 2
30 15 -15 (-) 8
38 2 -36 (-) 14
38 21 -17 (-) 9,5
31 7 -24 (-) 13
27 * * *
34 * * *
32 26 -6 (-) 6
Sendo assim temos: |T− | = 99 e |T+ | = 6, então
Tc = mı́n{99; 6} = 6
De acordo com a Tabela de Wilcoxon,
Tα;n = T5%;14 = 21
Como 6 < 21, rejeitamos H0 .

Supondo n grande teremos:
14(14 + 1)
6−
W∗ = r 4 = −2, 92 (p-valor : 0,003).
14(14 + 1)(2.14 + 1)
24
Considerando que o valor de W ∗ = −2, 92 está na área de rejeição de H0 , para o valor de Z5% = ±1, 96,
rejeitamos H0 , ou seja, os valores dos dois conjuntos apresentam diferenças significativas.
6.6.4 Teste de Friedman para k tratamentos

O teste de Friedman é recomendado como um substituto do teste F, quando procede-se à
comparação de k amostras relacionadas ou dependentes cujas observações apresentam valores
com acentuadas variações e em cada tratamento são constituı́dos blocos. Na verdade, procura-se
fazer a comparação de tratamentos em que são formados blocos com a intenção de que isto resulte em um
pareamento considerável entre os diversos tratamentos.
A forma de realização do teste é análogo aos demais. Dentro de cada um do n blocos formados procede-se
à classificação das i-ésimas observações em k tratamentos, utilizando-se números naturais.
Assim, tem-se a estatı́stica teste:
12 Pk
HF r = . Ti2 − 3n(k + 1) tal que HF r ∼ χ2(k−1)
nk(k + 1) i=1
Exemplo 6.14. São prescritos quatro procedimentos técnicos para determinação de certa variável. Foram
formados cinco blocos e obtidos os seguintes valores:
Tabela 6.19: Dados de quatro procedimentos técnicos.

Tratamentos
A B C D
12 (2) 13 (3) 16 (4) 7 (1)
8 (2) 9 (3) 12 (4) 5 (1)
14 (2) 20 (3) 22 (4) 6 (1)
17 (3) 16 (2) 21 (4) 11 (1)
12 (2) 15 (3) 16 (4) 10 (1)
T1 = 11 T2 = 14 T3 = 20 T4 = 5
Substituindo-se os valores na expressão no teste, tem-se:
12 P4
HF r = . Ti2 − 3.5(4 + 1)
5.4(4 + 1) i=1
12
= . [121 + 196 + 400] − 75
100
= 14, 04 (p-valor : 0,00285).
Como HF r ∼ χ2(k−1) , então HF r ∼ χ2(4−1) ⇒ χ23;5% = 7, 82 e χ23;1% = 11, 34, portanto, considerando que
o valor encontrado de HF r = 14, 04 é maior do que os valores da tabela, tanto para α = 5% como para
α = 1%, concluı́mos pela rejeição de H0 , logo verifica-se que há diferença significativa entre as medidas dos
tratamentos. O tratamento C apresentou melhores resultados em relação aos demais grupos.
6.7 Outros Testes Não-Paramétricos ROSSI, Robson M. 79
6.7 Outros Testes Não-Paramétricos

6.7.1 Teste de Concordância ou de Replicabilidade (Coeficiente de Kappa)
O coeficiente de Kappa é utilizado para verificar a concordância entre os diagnósticos de dois especialistas.
Observe a Tabela (6.20) abaixo:
Tabela 6.20: Concordância entre o diagnóstico de dois especialistas.

Diagnóstico Diagnóstico Especialista 1 Total
Especialista 2 Presente (+) Ausente (-)
Presente (+) a (++) b (+-) n1 = a + b
Ausente (-) c (-+) d (–) n2 = c + d
Total m1 = a + c m2 = b + d n
Cálculos auxiliares:
• Proporção de concordância observada:

a+d
po =
n
• Proporção de concordância casual:
n1 .m1 + n2 .m2
pc =
n2
• Coefficiente:
po − pc
Kappa = .
1 − pc
Classificação:
Kappa Concordância
k=0 nenhuma
k < 0, 4 leve
0, 4 ≤ k < 0, 8 moderada
0, 8 ≤ k < 1 forte
k=1 perfeita
Exemplo 6.15. Em uma determinada experiência, foi avaliado o grau de lesão do tecido hepático, em 20
cobaias às quais foi administrada uma certa substância tóxica. Os resultados dos exames efetuados por dois
patologistas foram o seguinte:
Tabela 6.21: Teste Kappa para a concordância entre patologistas quanto ao grau de lesão do tecido hepático.
Cobaia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Patologista 1 + + + + + + - + + + + + + - - + - + + -
Patologista 2 + + - + + + - - + + - + + - - - - - + -
+ : presença de lesão hepática

- : ausência de lesão hepática.
Com base nesses resultados, é possı́vel construir a tabela abaixo:

Tabela 6.22: Concordância entre o diagnóstico de dois especialistas.

Diagnóstico Diagnóstico Patologista 1 Total
Patologista 2 Presente (+) Ausente (-)
Presente (+) 10 5 15
Ausente (-) 0 5 5
Total 10 10 20
Então temos:
a+d 10 + 5
po = = = 0, 75
n 20
n1 .m1 + n2 .m2 15.10 + 5.10 200
pc = 2
= 2
= = 0, 5
n 20 400
po − pc 0, 75 − 0, 5
Kappa = = = 0, 5.
1 − pc 1 − 0, 5
Conclui-se que existe uma concordância apenas moderada entre os diagnósticos dos patologistas.
6.7.2 Teste de Cochran

O teste de Cochran é utilizado quando as respostas do tratamento são do tipo ”Sucesso” ou ”Insucesso”,
”Alterado” ou ”Não alterado” e, além disso, cada unidade experimental é avaliada em relação a mais de dois
tratamentos distintos, o que caracteriza a dependência ou o pareamento das unidades amostrais.
É uma extensão da prova de McNemar para a significância de mudanças. Particularmente é aplicável
aos planejamentos do tipo “antes e depois”, em que cada indivı́duo é utilizado como seu próprio controle e
a mensuração se faz ao nı́vel de uma escala nominal ou ordinal.
A prova de Cochran para k amostras relacionadas proporciona um método para comprovar se três ou
mais conjuntos correspondentes de freqüências ou proporções diferem entre si significativamente:
Os mesmos indivı́duos são observados sob condições diferentes;
Para escores ordinais dicotomizados, atribui o escore 1 a cada “sucesso” e o escore 0 a cada “falha”;
Posiciona os dados numa tabela CxI com C colunas, que correspondem ao número k de tratamentos I
linhas, que coincidem com o número de casos em cada um dos k tratamentos;
Utiliza o somatório dos resultados correspondentes a cada grupo e os somatórios dos escores de cada
bloco;
Grupo Bloco
P
k P
n
Gj = G1 + G2 + ... + Gk Lj = L1 + L2 + ... + Ln
j=1 i=1
Pn
L2j = L21 + L22 + ... + L2n
i=1
Estatı́stica teste:  Ã !2 
P
k P
k
(k − 1)k  G2j − Gj 
j=1 j=1
Q= P
n P
n ∼ χ2k−1 ;
k Lj − L2j
i=1 i=1
Quando Q > χ2k−1 a decisão a ser tomada é de rejeição de H0.

Não se conhece exatamente o poder da prova de Cochran.
A noção de poder-eficiência não tem sentido quando se aplica a prova de Cochran a dados nominais ou
naturalmente dicotômicos, pois as provas paramétricas não se aplicam a tais dados.
Quando se utiliza a prova de Cochran em dados que não sejam nominais ou naturalmente dicotômicos,
há perda de informações.
Exemplo 6.16. Suponha que estejamos interessados em estudar a influência da atitude de um entrevistador
sobre as respostas das donas de casa a determinada pesquisa de opinião.
Poderemos treinar um entrevistador para efetuar suas entrevistas de três maneiras diferentes: entrevista
tipo 1 – demonstrando interesse, cordialidade, entusiasmo; entrevista tipo 2 – demonstrando formalismo,
reserva e cortesia; entrevista tipo 3 – demonstrando desinteresse, modo abrupto, formalismo áspero.
Tabela 6.23: Influência do pesquisador em pesquisas de opinião.

Resposta Resposta Resposta
Conjunto Li L2i
à entrevista 1 à entrevista 2 à entrevista 3
1 0 0 0 0 0
2 1 1 0 2 4
3 0 1 0 1 1
4 0 0 0 0 0
5 1 0 0 1 1
6 1 1 0 2 4
7 1 1 0 2 4
8 0 1 0 1 1
9 1 0 0 1 1
10 0 0 0 0 0
11 1 1 1 3 9
12 1 1 1 3 9
13 1 1 0 2 4
14 1 1 0 2 4
15 1 1 0 2 4
16 1 1 1 3 9
17 1 1 0 2 4
18 1 1 0 2 4
O entrevistador visitaria três grupos de 18 casas, aplicando aleatoriamente o tipo 1 de entrevista a um

grupo, o tipo 2 a outro grupo, o tipo 3 ao terceiro grupo.
Terı́amos então 3 amostras relacionadas (correspondentes) com 18 elementos cada uma (n = 18). Dese-
jamos comprovar se as diferenças fundamentais nos tipos de entrevista influenciariam o número de respostas
afirmativas (“sim”) dadas a determinada pergunta.
Etapa 1:
H0 : A probabilidade de um “sim” é a mesma para os três tipos de entrevista.
H1 : As probabilidades de um “sim” diferem conforme o tipo de entrevista.
Etapa 2: Estabelecendo o nı́vel de significância: α = 0, 01.
Etapa 3: Estabelecendo a estatı́stica de teste: Q de Cochran porque os dados se referem a mais de dois
grupos relacionados (k = 3) e se apresentam dicotomizados sob forma “sim” ou “não”.
Etapa 4: Estabelecendo os valores crı́ticos
para gl = k − 1 = 3 − 1 = 2 e nı́vel de significância = 0, 01 um valor de 9, 21.
Etapa 5: Cálculo da Estatı́stica teste:
Calculando os somatórios dos resultados correspondentes a cada grupo e o somatório dos escores de cada
bloco (Li ) temos:
G1 = 13 - no total de respostas sim para entrevista 1
após cálculos Q = 16, 7.
Etapa 6: Como Q > χ2 crı́tico (16, 7 > 9, 21), então rejeita-se H0 , ou seja, o número de respostas “sim”
difere significativamente em relação aos tipos 1, 2 e 3 de entrevista.
Figura 6.1: Gráfico para o teste de Cochran.
Exercı́cio 6.5. Comparar quatro técnicas de treinamento aplicadas a seis blocos de funcionários do setor de
marcação de luz de uma empresa cinematográfica. Cada bloco foi formado de modo que os quatro funcionários
que o constituı́am eram equivalentes em seu desempenho atual no cargo. Os resultados obtidos na escala de
avaliação de desempenho, aplicada após o treinamento, foram os que constam no quadro abaixo.
Tabela 6.24: Teste em funcionários do setor de marcação de luz de uma empresa cinematográfica.
Tratamentos
Blocos X1 Escore X2 Escore X3 Escore X4 Escore
A 7 1 9 1 10 1 6 0
B 8 1 12 1 11 1 5 0
C 6 0 7 1 8 1 4 0
D 3 0 5 0 6 0 6 0
E 9 1 10 1 8 1 2 0
F 4 0 7 1 5 0 9 1
Total - 3 - 5 - 4 - 1
Exercı́cio 6.6. Reação em cadeia da polimerase (PCR) em sangue de camundongos infectados com clones
de trypanosoma cruzi pertencentes a diferentes genótipos.
(Banco de dados: Analises Clinicas ex.stw ) O objetivo principal do trabalho foi o de investigar se existe
diferença entre os tratamentos: PCR, ELISA, HEMO e ESF de modo global (para toda a amostra), por
Genótipo: 39, 32, 20 e 19 e por Fase: Aguda ou Crônica.
Exercı́cio 6.7. Utilize o bancos de dados: Pediat ex.stw e Psi1 ex.stw, leia as informações e faça o que se
pede.
Capı́tulo 7
Análise de Variância
Às vezes é preciso comparar médias de mais de duas populações. Por exemplo, para verificar se pessoas
com diferentes nı́veis de renda, isto é, alto, médio e baixo têm, em média, o mesmo peso corporal, é preciso
comparar médias de três populações.
Outras vezes, é preciso comparar várias situações experimentais. Por exemplo, se um pesquisador separa,
ao acaso, um conjunto de pacientes em 4 grupos e administra uma droga diferente a cada grupo, terá que
comparar médias de quatro ”populações”.
Para comparar médias de mais de duas populações normais ou aproximadamente normais, aplica-se o
teste F. Neste caso convém verificar antecipadamente a normalidade dos dados.
Por exemplo, imagine que 4 amostras casuais simples, todas com cinco elementos mas cada uma prove-
niente de uma população, conduziram aos dados apresentados na Tabela 7.1.
Tabela 7.1: Dados de 4 amostras e respectivas médias.

Amostras
A B C D
11 8 5 4
8 5 7 4
5 2 3 2
8 5 3 0
8 5 7 0
x̄1 = 8 x̄2 = 5 x̄3 = 5 x̄4 = 2
Será que as diferenças das médias das amostras são suficientemente grandes para que se possa afirmar
que as médias das populações são diferentes? Para responder a esta pergunta, é preciso um teste estatı́stico.
7.1 Análise de Variância para Experimentos ao Acaso

Primeiro, é preciso estudar as causas de variação. Por que os dados variam? Uma explicação é o fato de
as amostras provirem de populações diferentes. Outra explicação é o caso, porque mesmo dados provenientes
da mesma população variam.
O teste F é feito através de uma análise de variância, que separa a variabilidade devido aos “trata-
mentos” (no exemplo, devido às amostras terem provindo de populações diferentes) da variabilidade
residual, isto é, devido ao acaso. Para aplicar o teste F é preciso fazer uma série de cálculos, que exigem
conhecimento de notação.
A Tabela 7.2, apresenta os dados de k tratamentos, cada um com r repetições (no exemplo, denominam-se
repetições os elementos da mesma amostra). A soma das r repetições de um mesmo tratamento constitui o
total desse tratamento. O total geral é dado pela soma dos k totais de tratamentos.
83
7.1 Análise de Variância para Experimentos ao Acaso ROSSI, Robson M. 84
Tabela 7.2: Notação para a análise de variância.

Tratamentos
1 2 3 ... k Total
x11 x21 x31 ... xk1
x12 x22 x32 ... xk2
. .
. .
. .
x1r x2r x3r xkr P P
Total T1 T2 T3 ... Tk T = x
No de repetições r r r ... r n = kr
Média x̄1 x̄2 x̄3 x̄k
Para fazer a análise de variância é preciso calcular as seguintes quantidades:
1. os graus de liberdade:
(a) de tratamento: k − 1
(b) de total: n − 1
(c) de resı́duo: (n − 1) − (k − 1) = n − k
2. o valor C, dado pelo total geral elevado ao quadrado e dividido pelo número de dados. O valor C é
chamado correção. P
( x)2
C=
n
3. a soma de quadrados total: X
SQT = x2 − C
3. a soma de quadrados de tratamentos:

P
T2
SQT r = −C
r
4. a soma de quadrados de resı́duos:

SQR = SQT − SQT r
5. o quadrado médio de tratamentos:

SQT r
QM T r =
k−1
6. o quadrado médio de resı́duo:
SQR
QM R =
n−k
7. o valor de F
QM T r
F =
QM R
Em seguida, é preciso comparar o valor calculado de F com o valor tado em tabela, ao nı́vel de significância
estabelecido e com (k − 1) graus de liverdade no numerador e (n − k) graus de liberdade no denominador.
Toda vez que o valor calculado de F for maior ou igual do que o da tabela conclui-se, ao nı́vel de
significância estabelecido, que as médias de tratamentos são iguais.
7.1 Análise de Variância para Experimentos ao Acaso ROSSI, Robson M. 85
Exemplo 7.1. Para os dados apresentados na Tabela 7.1, proceder uma análise de variância para verificar
se existe diferença significativa entre os tratamentos.
(a) de tratamento: k − 1 = 4 − 1 = 3
(b) de total: n − 1 = 20 − 1 = 19
(c) de resı́duo: (n − 1) − (k − 1) = n − k = 20 − 4 = 16
2. o valor C: P
( x)2 (11 + 8 + ... + 0)2
C= = = 500
n 20
3. a soma de quadrados total:
X
SQT = x2 − C = 112 + 82 + ... + 02 − 500 = 658 − 500 = 158

P 2
T 402 + 252 + 252 + 102
SQT r = −C = − 500 = 590 − 500 = 90
r 5
SQR = SQT − SQT r = 158 − 90 = 68

SQT r 90
QM T r = = = 30
k−1 3

SQR 68
QM R = = = 4, 25
n−k 16
7. o valor de F
QM T r
F = = 7, 06
QM R
As quantidades calculadas são apresentadas numa tabela de análise de variância. Veja a Tabela 7.3:
Tabela 7.3: Análise de variância dos dados da Tabela 6.1.

Causas da variação GL SQ QM F p
Tratamentos 3 90 30 7,06 0,003086
Resı́duo 16 68 4,25
Total 19 158
Ao nı́vel de significância de 5%, o valor de F tabelado, com 3 e 16 graus de liberdade (numerador e

denominador, respectivamente), é de 3,24. Como o valor obtido é maior do que 3,24, conclui-se que as
médias não são iguais, ao nı́vel de significância de 5%.
7.2 Teste Paramétrico para Comparações Múltiplas ROSSI, Robson M. 86
7.2 Teste Paramétrico para Comparações Múltiplas

7.2.1 Teste Tukey
Uma análise de variância permite estabelecer se as médias das populações em estudo são, ou não são, esta-
tisticamente iguais. No entanto, esse tipo de análise não permite detectar quais são as médias estatı́sticamente
diferentes das demais. Por exemplo, a análise de variância apresentada na Tabela 6.3 mostrou que as médias
das populações não são iguais, mas não permite concluir que é, ou quais são, as médias diferentes das demais.
O teste de Tukey permite estabelecer a diferença mı́nima significante (d.m.s), ou seja, a menor diferença
de médias de amostras que deve ser tomada como estatisticamente significante, em determinado nı́vel. Essa
diferença (d.m.s) é dada por: r
QM R
d.m.s = q.
r
onde q é um valor dado em tabela, QMR é o quadrado médio do resı́duo da análise de variância e r é o
número de repetições de cada tratamento.
Considere agora os dados da Tabela 7.1. A análise de variância apresentada na Tabela 7.3 mostra um
valor F significante ao nı́vel de 5%. Então as médias de A, B, C e D não são estatı́sticamente iguais. Mas
qual é, ou quais são, as médias diferentes entre si?
A pergunta pode ser respondida com a aplicação do teste de Tukey. Ao nı́vel de significância de 5%,
o valor de q para comparar 4 tratamentos (A,B, C e D), com 16 graus de liberdade no resı́duo, é de 4,05.
Como QMR = 4,25 e r = 5, segue-se que:
r
4, 25
d.m.s = 4, 05. = 3, 73.
5
De acordo com o teste de Tukey, duas médias são estatisticamente diferentes toda vez que o valor absoluto
da diferença entre elas for igual ou superior ao valor da d.m.s. No caso do Exemplo, o valor da d.m.s. é 3.73
e os valores absolutos das diferenças entre as médias estão apresentados a seguir. É fácil ver que a diferença
entre as médias A e D é maior do que a d.m.s. Então, ao nı́vel de 5%, a média de A é significativamente
mair do que a média de D.
Tabela 7.4: Comparações entre as médias via Tukey.

Pares de médias Valor absoluto da diferença
AeB |8 − 5| = 3
AeC |8 − 5| = 3
AeD |8 − 2| = 6
BeC |5 − 5| = 0
BeD |5 − 2| = 3
CeE |5 − 2| = 3
Exemplo 7.2. Com base nos dados apresentados na Tabela 7.5 abaixo, verifique se existe diferença estatı́stica
entre os grupos. Note que são três grupos em comparação. No grupo operado foi feita a remoção das glândulas
salivares maiores, e no grupo pseudo-operado foram executados todos os tempos cirúrgicos, mas nenhuma
glândula foi removida (Banco de dados: Tukey1 ex.stw).
Tabela 7.5: Taxa de glicose, em miligramas por 100 ml de sangue, em ratos Wistar machos de 60 dias,
segundo o grupo.
Grupo
Operado Pseudo-operado Normal
96 90 86
95 93 85
100 89 105
108 88 105
120 87 90
110,5 92,5 100
97 87,5 95
92,5 85 95
Sol.: A tabela de análise de variância resume os cálculos:
Tabela 7.6: ANOVA para a taxa de glicose.

Grupos 2 717,25 358,625 6,73 0,005509
Resı́duo 21 1118,75 53,274
Total 23 1836,00
Para aplicar o teste de Tukey ao nı́vel de significância de 5%, tem-se:
q3;21 ' 3, 57
e r
53, 247
d.m.s. = 3, 57 = 9, 21.
8
Os valores absolutos das diferenças de médias estão apresentados na Tabela (7.7).
Tabela 7.7: Comparações para as taxas médias de glicose.

Pares de médias Valor absoluto da diferença p
Operado vs pseudo |102, 375 − 89, 0| = 13, 375 0,0004
Operado vs normal |102, 375 − 95, 125| = 7, 25 0,1403
Pseudo vs normal |89, 000 − 92, 125| = 6, 125 0,2368
A taxa de glicose é, em média, maior nos operados do que nos pseudo-operados, ao nı́vel de significância
de 5.
7.2.2 Teste Dunnett

Em muitos experimentos, é comum a necessidade de se realizar múltiplas comparações, todas em relação
a um único grupo denominado “Controle”. Neste caso, o test Dunnett (1964) é apropriado.
Teremos (k − 1) comparações a serem realizadas em relação ao controle e queremos testas as seguintes
hipóteses:
H0 : µi = µc i = 1, 2, ..., k − 1
Ha : µi 6= µc c: controle
O procedimento de Dunnett é análogo ao teste t, mas modificado.
r
2.QM R
d.m.s = d.
r
onde r é o número de repetições.
Considerando um nı́vel de confiança α, rejeitamos H0 se:
s µ ¶
1 1
|x̄i − x̄c | > dα,(k−1),f . QM R. +
ni nc
onde:
dα,(k−1),f está tabelado (Tabela Dunnett) para k − 1 comarações e f : no de observações dos tratamentos
(exceto o controle);
QM R : proveniente da ANOVA (Quadrado Médio dos Resı́duos);
ni : no de observações do tratamento i;
nc : no de observações do controle;
x̄i e x̄c : médias, do tratamento e controle, respectivamente.
Exemplo 7.3. Deseja-se comparar o efeito de cinco drogas na diminuição da pressão arterial. Para isto
utilizou-se cinco grupos distintos e foram comparadas suas médias em relação a média de um grupo controle,
que recebeu placebo. Ao todo, 30 indivı́duos participaram no experimento. A Tabela abaixo apresenta os
valores referentes a diferença entre a pressão arterial no inı́cio e no fim do experimento (mmHg).
Tabela 7.8: Diminuição da pressão arterial, em milı́metros de mercúrio, segundo o tratamento.

Tratamento
A B C D E Controle
25 10 18 23 11 8
17 -2 8 29 23 -6
27 12 4 25 5 6
21 4 14 35 17 0
15 16 6 33 9 2
Após a análise de variância, tem-se:
Tabela 7.9: ANOVA para os dados de pressão arterial, em milı́metros de mercúrio, segundo o tratamento.
Grupos 5 2354,17 470,83 13,08 0,000003
Resı́duo 24 864 36
Total 29 3218,17
Como o valor de F apresentado é de 13,08 (p-valor = 0,000003) é significante ao nı́vel de 5%, é razoável
procurar um teste para comparar as médias dos tratamentos. A d.m.s. estabelecida pelo teste Dunnett
(especı́fico para este caso) será:
r r
2.QM R 2.36
d.m.s = d. = 2, 70 = 10, 25
r 5
7.3 Teste Não-Paramétrico para Comparações Múltiplas ROSSI, Robson M. 89
Obs. O valor d = 2, 70 é proveniente da Tabela Dunnett com 24 graus de liberdade.

Desta forma teremos:
Tabela 7.10: Comparações entre as médias dos dados de Pressão arterial.

A vs Controle |21 − 2| = 19 > 10, 25 0,000182
B vs Controle |8 − 2| = 6 < 10, 25 0,392329
C vs Controle |10 − 2| = 8 < 10, 25 0,162730
D vs Controle |29 − 2| = 27 > 10, 25 0,000007
E vs Controle |13 − 2| = 11 > 10, 25 0,032024
É facil observar que os tratamentos A, D e E apresentam, em média, resultados melhores que os do

controle, ao nı́vel de 5%.
7.3 Teste Não-Paramétrico para Comparações Múltiplas

7.3.1 Teste Dunn-Bonferroni
Analogamente ao processo do Teste de Tukey para comparar tratamentos através de parâmetros popu-
lacionais como a média, por exemplo, o Método de Dunn-Bonferroni pode ser utilizado para o caso Não-
Paramétrico.
Hipóteses a serem testadas:
H0 : Mi = Mj (médias)
Ha : Mi 6= Mj , para algum i 6= j.
A diferença mı́nima significativa (d.m.s.) para os contrastes (em pares):

s µ ¶
N (N + 1) 1 1
d.m.s. = Z1− 2Q
α +
12 ni nj
onde
k(k − 1)
Q= .
2
Intervalo de Confiança via Dunn-Bonferroni para os contrastes:
IC(1 − α)% = (Mi − Mj ) ± d.m.s.
Decisão: Se o número 0 não pertencer ao IC, Rejeitamos H0 .

Exemplo 7.4. Deseja-se comparar 3 Grupos, de 15 ratos (5 cada) em três tipos de incentivos distintos:
comida, água e sexo. Os resultados mostrados na Tabela 7.11, representam tempos em segundos que cada
rato precisou para sair de um labirinto de pesquisa.
Tabela 7.11: Tempo de percurso de um rato até sair do labirinto.

Grupo I (comida) 30, 33, 29, 35, 34
Grupo II (água) 28, 25, 31 27, 26
Grupo III (sexo) 23, 21, 18, 15, 20
Desejamos saber se existe evidência suficiente para afirmar, a um nı́vel de significância de 1%, que existe
diferença entre os grupos, e se houver, desejamos saber entre quais.
7.3 Teste Não-Paramétrico para Comparações Múltiplas ROSSI, Robson M. 90
Hipóteses:
H0 : não há diferença significativa entre os tratamentos.

Ha : há diferença significativa entre os tratamentos.
Sol.: Utilizando o teste de Kruskal-Wallis para k provas, temos a Tabela 7.12 com os postos das ob-
servações.
Tabela 7.12: Postos do tempo de percurso de um rato até sair do labirinto.

P
Tratamento xi Ti = xi ni x̄i
Grupo I (comida) 12 13 11 15 14 65 5 13
Grupo II (água) 9 6 10 8 7 40 5 8
Grupo III (sexo) 5 4 2 1 3 15 5 3
A estatı́stica teste:
12 Pk T2
i
HK−W = . − 3(N + 1)
N (N + 1) i=1 ni
12 3 T2
P i
= . − 3(15 + 1)
15(15 + 1) i=1 5
µ 2 ¶
65 + 402 + 152
= (0, 05). − 48
5
= 12, 5
como H ∼ χ2(k−1) ⇒ χ2(1%;2) = 7, 98, e sendo HK−W = 12, 5 > 7, 98, Rejeita-se H0 .
O passo seguinte, será o de determinar qual(is) pares de tratamentos (contrastes) ocasionaram esta
rejeição.
Cálculo do d.m.s.:
k(k − 1) 3(3 − 1)
Q= = =3
2 2
assim,
s µ ¶
15(15 + 1) 1 1
d.m.s. = Z1− 0,01 +
2.3 12 5 5
= 2, 95.(2, 83)
= 8, 35
Contrastes:
Tabela 7.13: Contrastes para os dados de tempo de percurso de um rato até sair do labirinto.
Contraste IC(1 − α)%
L̂1 = x̄1 − x̄2 = 5 5 ± 8, 35 : (−3, 38; 13, 35)
L̂2 = x̄1 − x̄3 = 10 10 ± 8, 35 : (1, 66; 18, 35)
L̂3 = x̄2 − x̄3 = 5 5 ± 8, 35 : (−3, 38; 13, 35)
Decisão: Se o número 0 não pertencer ao IC, Rejeitamos H0 .

Observando que o 0 (zero) pertence somente aos IC de L̂1 e L̂3 , podemos concluir que os tratamentos
que diferem significativamente são dados pelo contraste L̂2 : motivação pela comida e motivação sexual. Isto
é, as ratas tendem a correr mais para sair do labirinto, quando estimuladas à comida e ao sexo.
7.4 Análise de Variância com Número Diferente de Repetições ROSSI, Robson M. 91
7.4 Análise de Variância com Número Diferente de Repetições

Muitas vezes o pesquisador dispõe de diversas amostras, cada uma proveniente de uma população, mas
essas amostras não têm todas o mesmo tamanho. Mesmo assim, é possı́vel conduzir a análise de variância.
Aliás, todos os cálculos, com exceção da soma de quadrados de tratamentos, são feitos na forma já apresentada
anteriormente.
Para entender como se calcula a soma de quadrados de tratamentos quando os tratamentos não têm o
mesmo número de repetições, primeiro observe a Tabela 7.14.
Tabela 7.14: Notação para a análise de variância com diferentes repetições.

Tratamentos
1 2 3 ... k Total
x11 x21 x31 ... xk1
x12 x22 x32 ... xk2
. .
. .
. .
x1r x2r x3r xkr P P
Total T1 T2 T3 ... Tk T = x
No de repetições r1 r2 r3 ... rk n = kr
Média x̄1 x̄2 x̄3 x̄k
A soma de quadrados de tratamentos é dada pela fórmula:
T12 T2 T2
SQT r = + 2 + ... + k − C
r1 r2 rk
onde C é a correção já definida anteriormente.
É mais fácil entender a aplicação de fórmulas através de um exemplo.
Exemplo 7.5. Análise de variância para os dados da Tabela 7.15.
Tabela 7.15: Dados de 3 amostras e respectivas médias.

Amostras
A B C
15 23 19
10 16 15
13 19 21
18 18 14
15 16
13
x̄1 = 84 x̄2 = 76 x̄3 = 86
(a) de tratamento: k − 1 = 3 − 1 = 2
(b) de total: n − 1 = 15 − 1 = 14
(c) de resı́duo: (n − 1) − (k − 1) = n − k = 15 − 3 = 12
2. o valor C: P
( x)2 (15 + 10 + ... + 16)2
C= = = 4001, 67
n 15
3. a soma de quadrados total:
X
SQT = x2 − c = 152 + 102 + ... + 162 − 4001, 67 = 159, 33

P 2
T 842 762 852
SQT r = −C = + + − 4001, 67 = 63, 33
r 6 4 5
SQR = SQT − SQT r = 159, 33 − 63, 33 = 96, 00

SQT r 63, 33
QM T r = = = 31, 67
k−1 2

SQR 96
QM R = = = 8, 00
n−k 12
7. o valor de F
QM T r 31, 67
F = = = 3, 96
QM R 8, 00
Os valores calculados estão apresentados na Tabela 7.16.
Ao nı́vel de significância de 5%, com 2 e 12 g.l., o valor de F tabelado é de 3,89, menor do que 3,96,
conclui-se que as médias diferem entre si.
Os métodos de comparação de médias apresentados anteriormente também podem ser usados quando o
número de repetições por tratamento não é constante. Se ri e rj são o número de repetições dos tratamentos
em comparação, as fórmulas para a diferença mı́nima significante ficam como segue:
Tabela 7.16: Análise de variância.

Tratamentos 2 63,33 31,67 3,96 0,04784
Resı́duo 12 96 8
Total 14 159,33
7.4.1 Teste Tukey

Para comparar as médias de tratamentos duas a duas, pode-se aplicar o teste de Tukey que, neste caso, é
aproximado, porque os tratamentos têm números diferentes de repetições. A diferença mı́nima significativa
(d.m.s.) é dada pela fórmula: sµ ¶
1 1 QM R
d.m.s. = q +
ri rj 2
onde ri é o número de repetições do i-ésimo tratamento e rj é o número de repetições do j-ésimo tratamento.
No caso do Exemplo anterior com dados na Tabela 7.15, para comparar a média de A com a média de
B, tem-se: sµ ¶
1 1 8
d.m.s. = 3, 77 + = 4, 87.
6 4 2
Para comparar A com C, tem-se:
sµ ¶
1 1 8
d.m.s. = 3, 77 + = 4, 57.
6 5 2
Para comparar B com C, tem-se:

sµ ¶
1 1 8
d.m.s. = 3, 77 + = 5, 06.
4 5 2
Os valores absolutos das diferenças entre as médias estão são apresentados a seguir. Como o valor
absoluto da diferença entre A e B é maior do que a respectiva d.m.s., conclui-se que, em média, A difere de
B, ao nı́vel de significância de 5%.
Tabela 7.17: Comaparações entre médias.

AeB |14 − 19| = 5 0,0443*
AeC |14 − 17| = 3 0,2272
BeC |19 − 17| = 2 0,5589
7.4.2 Teste t
A diferença mı́nima significativa (d.m.s.) é dada pela fórmula:
s µ ¶
1 1
d.m.s. = t + QM R
ri rj
7.4.3 Teste Dunnett

A diferença mı́nima significativa (d.m.s.) é dada pela fórmula:
sµ ¶
1 1
d.m.s. = d + QM R
ri rj
Considerações
A escolha apropriada de um teste é muito flexı́vel. Se o pesquisador quer ter alta chance de rejeitar
H0 : de que as médias são iguais, pode optar pelo teste t ou pelo teste Duncan (Não apresentado neste
material-Ver Vieira, 1999). Estes dois testes têm caracterı́sticas similares, mas o teste t é mais antigo e,
talvez por isso, mais conhecido. Também é de aplicação mais fácil. Entretanto, o pesquisador também pode
optar por aplicar o teste de Tukey ou de Dunnett, com nı́vel de significância mais elevado. Estes testes
teriam, então, maior poder. Por exemplo, o teste de Tukey a 10% tem maior poder do que o teste de Tukey
a 5%.
Um pesquisador que pretende somente rejeitar a hipótese de que as médias são iguais com muita confiança,
deve optar pelo teste de Tukey ou de Dunnett, com baixo nı́vel de significância. Esta situação pode ocorrer
quando se comparam novas drogas terapêuticas com uma droga conhecida. Toda droga tem efeitos colaterais.
Então, muitas vezes só é razoável indicar uma nova droga - de efeitos colaterais desconhecidos - quando
existem indicações seguras de que essa nova droga é melhor do que a convencional.
De qualquer forma, fica aqui um alerta: todos os procedimentos para a comparações de médias têm
vantagens e desvantagens. Ainda não existe um teste definitivamente “melhor” que todos os outros.
Capı́tulo 8
Testes Clı́nicos
8.1 Introdução
Uma das experiências mais rotineiras da prática médica é a solicitação de um teste diagnóstico. Os
objetivos são vários, incluindo a triagem de paciente, o diagnóstico de doenças e o acompanhamento ou
prognóstico da evolução de um paciente. Para chegar ao diagnóstico, o médico considera várias possibilidades,
com nı́veis de certeza que variam de acordo com as informações disponı́veis.
Um dos objetivo deste capı́tulo é mostrar como se mede o nı́vel de certeza da ocorrência de um evento,
por exemplo: a presença de uma doença após a observação de um teste positivo. Consideraremos o teste
positivo quando indicar a presença da doença e negativo quando indicar a ausência.
Não existe teste perfeito, aquele que com certeza absoluta determina a presença ou ausência da doença.
Estudaremos os ı́ndices nos quais o conceito de qualidade de um teste diagnóstico é usualmente desmenbrado.
Freqüêntemente, um único teste não é suficiente, e portanto deve-se combinar dois ou mais testes. O
ideal seria que, para cada patologia, fossem determinados os testes a serem incluı́dos no processo diagnóstico
e a melhor forma de combiná-los. Apresentaremos as formas mais comuns de combinações de testes e como
medir a qualidade do teste conjunto.
8.2 Testes Diagnósticos

O bom uso de um teste diagnóstico requer, além de considerações clı́nicas, o conhecimento de medidas
que caracterizam a sua qualidade intrı́nsica: a sensibilidade, a especificidade e os parâmetros que refletem
a sua capacidade de produzir decisões clı́nicas corretas: Valor da Predição Positiva e o Valor da Predição
Negativa.
Na análise da qualidade de testes diagnósticos, interessa conhecer duas probabilidades condicionais, que
por suas importâncias, recebem nomes especiais:
95
8.2 Testes Diagnósticos ROSSI, Robson M. 96
8.2.1 Sensibilidade e Especificidade

A sensibilidade, denotada por s, é definida como a probabilidade de o teste ser positivo dado que o paciente
examinado é doente:
s = Pr(T+ |D+ )
A especificidade, denotada por e, é definida como a probabilidade de o teste ser negativo dado que o
paciente examinado não é doente:
e = Pr(T− |D− )
Os nomes são descritivos: sensibilidade mede a capacidade de reação do teste em um paciente doente
enquanto que especificidade, a reação do teste em pacientes não portadores da doença, isto é, o teste é
especı́fico para a doença em questão.
A análise da definição desses dois ı́ndices (s e e) mostra que, subjacentemente a estes conceitos, estamos
assumindo a existência de um padrão ouro (gold-standart), ou seja, um teste diagnóstico que sempre produz
resultados corretos. Além, disso assumimos que os pacientes são classificados apenas como doentes e não-
doentes não se admitindo estágios intermediários.
De acordo com a Tabela 8.1,
Tabela 8.1: Distribuição quanto à ocorrência de um evento.

Fator Total
Doença Presente Ausente
Presente a b n1 = a + b
Ausente c d n2 = c + d
Total m1 = a + c m2 = b + d n = n1 + n2
os ı́ndices s e e são estimados por:

a a
s= =
a+b n1
e
d d
e= = .
c+d n2
Exemplo 8.1. Diagnóstico de doença coronariana.
Wiener et al. compararam os resultados do teste ergométrico de tolerância a exercı́cios entre indivı́duos
com e sem doença coronariana. O teste foi considerado positivo quando se observou mais de 1 mm de
depressão ou elevação do segmento ST, por no mı́nimo 0,08 s, em comparação com os resultados obtidos
com o paciente em repouso. O diagnóstico definitivo foi feito através de angiografia (gold). A Tabela 8.2,
sintetiza os resultados encontrados.
Tabela 8.2: Resultados da avaliação da aplicação do teste ergométrico de tolerância a exercı́cios em 1465
pacientes.
Doença Teste ergométrico Total
Coronariana Positivo (T+ ) Negativo (T− )
Presente (D+ ) 815 208 1023
Ausente (D− ) 115 327 442
Total 930 535 1465
A sensibilidade e a especificidade são estimadas por:

815
s= = 0, 797
1023
e
327
e= = 0, 740.
442
O teste ergométrico tem uma sensibilidade de 79,7%, ligeiramente superior que sua especificidade (74%).
8.2.2 Valor das Predições: VPP e VPN

A sensibilidade e a especificidade, embora sendo ı́ndices ilustrativos e bons sintetizadores das qualidades
gerais de um teste, tem uma limitação séria: não ajudam a decisão da equipe médica que, recebendo um
paciente com resultado positivo do teste, precisa avaliar se o paciente está ou não doente. Não se pode
depender apenas da sensibilidade e da especificidade, pois estes ı́ndices são provenientes de uma situação
em que há certeza total sobre o diagnóstico, o que não acontece no consultório médico. Daı́ a necessidade
destes dois outros ı́ndices que refletem melhor a realidade prática. Neste momento, interessa mais conhecer
os seguintes ı́ndices denominados valor da predição positiva (VPP) e valor da predição negativa (VPN),
definidos respectivamente por:
V P P = Pr [D+ |T+ ]
e
V P N = Pr [D− |T− ] .
Em palavras, VPP é a probabilidade do paciente estar realmente doente quando o resultado do teste é
positivo e VPN, a probabilidade do paciente não estar doente quando o resultado do teste é negativo. Estes
valores são probabilidades condicionais, tal que o evento condicionante é o resultado do teste, aquele que na
prática acontece primeiro.
A maneira mais fácil de se calcular o VPP e o VPN é através das fórmulas sugeridas por Vecchio (1966).
Tabela 8.3: Probabilidade necessárias para o cálculo dos ı́ndices VPP e VPN.
População Proporção Proporção com resultado
Positivo Negativo
Doente p ps p(1 − s)
Sadia 1−p (1 − p)(1 − e) (1 − p)e
Total p + (1 − p) ps + (1 − p)(1 − e) p(1 − s) + (1 − p)e
Seja p = Pr(D+ ) a prevalência da doença na população de interesse, isto é, a proporção de pessoas
doentes, ou a probabilidade de doença pré-teste.
O valor de predição positiva é obtido dividindo-se a freqüência dos ”verdadeiros-positivos” (oriundos de
pacientes doentes), pelo total de positivos
ps
V PP = .
ps + (1 − p)(1 − e)
De forma análoga, considerando-se os ”verdadeiros-negativos” obtemos o valor da predição negativa
(1 − p)e
V PN = .
p(1 − s) + (1 − p)e
Ambas as expressões dependem do conhecimento de p, uma estimativa da prevalência da doença na

população de interesse. Estas são probabilidades de resultados corretos de diagnóstico.
Exemplo 8.2. Diagnóstico de doença coronariana (Continuação).
Para uma população cuja prevalência de doença coronariana é de 2%, os valores de predição do teste
ergométrico são:
0, 02 × 0, 797
V PP = = 5, 89%.
0, 02 × 0, 797 + (1 − 0, 02)(1 − 0, 74)
e
(1 − 0, 02) × 0, 797
V PN = = 99, 34%.
0, 02 × (1 − 0, 74) + (1 − 0, 02) × 0, 797
Portanto, o valor de predição positiva é baixo enquanto que o valor de predição negativa é bastante alto.
Se o resultado da ergometria for negativo, a chance de não haver uma doença coronária é de 99,43%.
Se, antes de qualquer informação, o paciente tinha uma chance de 2% de apresentar a doença, após o
resultado do teste negativo esta chance é de apenas 0,66% (1-0,9934).
8.2.3 Decisões Incorretas: PFP e PFN

As probabilidades
P F P = Pr [D− |T+ ] = 1 − Pr [D+ |T+ ] = 1 − V P P
e
P F N = Pr [D+ |T− ] = 1 − Pr [D− |T− ] = 1 − V P N
referem-se, respectivamente, ao ”falso-positivo” e ao ”falso-negativo”, isto é, decisões incorretas baseadas
no teste diagnóstico.
Uma dificuldade com relação à estes ı́ndices é que muitos autores admitem, implicitamente, que a
prevalência que ocorre na tabela é a mesma na população de interesse e assim usam tabelas 2 × 2 para
calcular os valores de predição. Nada justifica esta hipótese. Este procedimento se usado sistematicamente,
leva a erros sérios.
Exemplo 8.3. Teste ELISA para detecção do HIV.
Entre as várias tecnologias para detectar a presença do HIV, a primeira a se difundir no Brasil foi o
ELISA (Enzymelinked immunosorbent assay). Em 1985 esta foi simultaneamente comercializada por vários
laboratórios americanos. Alguns deles reportaram, em seus testes preliminares, sensibilidade de 95% e
especificidade de 99,8%. Os valores para os outros laboratórios são parecidos, segundo Marwick (1985).
A Tabela 8.4 apresenta os valores dos ı́ndices VPP e VPN para a implementação do teste ELISA e vários
supostos valores da prevalência.
Tabela 8.4: Valores da VPP, VPN, PFP e PFN para o teste ELISA para a detecção do HIV.
Prevalência VPP(%) VPN(%) PFP(%) PFN(%)
1/100.000 0,47 100,00 99,53 0,00
1/10.000 4,54 100,00 95,46 0,00
1/1.000 32,21 99,99 67,79 0,01
1/500 48,77 99,99 51,23 0,01
1/200 70,47 99,99 29,53 0,01
1/100 82,75 99,99 1725 0,01
1/50 90,65 99,89 9,35 0,11
Considerando-se a população total de um paı́s, a AIDS é uma doença de prevalência pequena. Os

resultados da Tabela 8.4 mostram que em um programa de uso do teste em larga escala, grande parte dos
pacientes com resultado positivo consiste na realidade de falsos-positivos; em outra palavras, o valor da
predição positiva é muito pequeno. Por outro lado, pouquı́ssimos não doentes deixarão de ser detectados e,
portanto, o valor de predição negativa é alto. Isto sugere um cuidado básico: um resultado positivo dever
ser reconfirmado através de teste baseado em tecnologia diferente do ELISA.
8.2.4 Combinação de Testes Diagnósticos

Muitas vezes, para o diagnóstico de certa doença dispomos apenas de testes com VPP ou VPN baixo
ou, se existe um bom teste, este é muito caro ou oferece grande risco e/ou desconforto ao paciente. Nestas
circunstâncias, uma opção freqüentemente usada é o uso de uma combinação de testes mais simples. A
associação de testes eleva a qualidade do diagnóstico, diminuindo o número de resultados incorretos.
Quando dois ou mais testes são usados para se chegar a um diagnóstico é preciso saber como são obtidos
os ı́ndices de qualidade do teste múltiplo, aquele composto pela agregação de dois ou mais testes individuais.
Restringiremos ao caso de apenas dois testes e as idéias apresentadas a seguir podem ser estendidas para o
caso de mais de dois testes. Alguns detalhes podem ser encontrados em Hirsh & Rielgelman (1996).
Formas de Combinação de Testes

As maneiras mais simples de se formar um teste múltiplo a partir dos resultados de dois testes são os
esquemas em paralelo e em série. No caso do teste em paralelo, se um dos dois testes é positivo o teste
conjunto também o é. No teste em série, este é considerado positivo se os dois testes individuais são positivos.
A associação de testes em série é bastante empregada, tanto em triagens como no diagnóstico individual,
sendo de grande utilidade quando a questão do custo é relevante.
Chamando os testes originais de A e B, o teste em paralelo de Tp e o em série de Ts , e usando a linguagem
de eventos temos:
Tp+ = A+ ∪ B+
e
Ts+ = A+ ∩ B+ .
As sensibilidade e especificidade de Tp e Ts são calculadas com o auxı́lio das regras de cálculo de proba-
bilidades de eventos.
Combinação em Paralelo
Nesse caso, o resultado do teste será considerado positivo, se pelo menos um dos testes apresentar
resultado positivo. É de maior utilidade em casos de urgência, quando se necessita de uma abordagem
rápida, ou por outro tipo de conveniência, como para pacientes provenientes de lugares distantes. A Tabela
8.5 apresenta de forma explı́cita o procedimento proposto.
Tabela 8.5: Resultado do teste em paralelo dependendo da classificação dos testes individuais A e B.
Teste A Teste B Teste em paralelo
- - -
- + +
+ - +
+ + +
Em analogia à expressão para obter a sensibilidade temos:
Pr[Tp+ |D+ ] = Pr[A+ ∪ B+ |D+ ]

= Pr[A+ |D+ ] + Pr[B+ |D+ ] − Pr[A+ ∩ B+ |D+ ]
ou seja, a sensibilidade do teste em paralelo (sp ) é dada por
sp = sA + sB − sA × sB .
Admitindo-se que os resultados dos dois testes são independentes, pode-se calcular a especificidade de
um teste em paralelo da seguinte forma:
Pr[Tp− |D− ] = Pr[A− ∩ B− |D− ]

= Pr[A− |D− ] × Pr[B− |D− ]
ou seja, a especificidade do teste em paralelo (ep ) é dada por
ep = eA × eB .
Portanto, facilmente calculamos a sensibilidade e a especificidade de um teste em paralelo a partir das

sensibilidades e especificidades dos testes A e B. Além disso, os parâmetros VPP e VPN são calculados da
mesma forma já vista para testes isolados, utilizando-se agora a sensibilidade e especificidade da combinação
em paralelo, e a prevalência da população de interesse.
Combinação em Série
Nesse caso, os testes são aplicados consecutivamente, sendo o segundo teste aplicado apenas se o primeiro
apresentar resultados positivo. O teste só será considerado positivo, se o resultado dos dois testes for positivo.
Esse procedimento é indicado em situações em que não há necessidade de rápido atendimento e quando o
paciente pode ser acompanhado ao longo do tempo, e se a consideração de custo é importante, seja pela
questão finaceira, pelo risco ou desconforto induzidos pelo exame. A Tabela 8.6 apresenta de forma explı́cita
o procedimento proposto.
Tabela 8.6: Resultado do teste em série dependendo da classificação dos testes individuais A e B.
Teste A Teste B Teste em série
- desnecessário -
+ - -
+ + +
Como só serão aplicados dos testes se o primeiro for positivo, o custo desse tipo de combinação é menor.
Uma discussão sobre a ordem mais indicada para a aplicação dos testes a serem combinados em série pode
ser encontrada em Soares & Parenti (1995).
Se os dois testes A e B são independentes, a sensibilidade (ss ) e a especificidade (es ) par o teste combinado
em série são obtidos sa seguinte forma:
Pr[Ts+ |D+ ] = Pr[A+ ∩ B+ |D+ ]

= Pr[A+ |D+ ] × Pr[B+ |D+ ].
Portanto,
ss = sA × sB
e
es = eA + eB − eA × eB .
Para os cálculos da sensibilidade e especificidade da associação em série e em paralelo, a independência
dos dois testes é crucial. Entretanto, não se pode garantir que isto ocorra sempre. Quando os testes não
forem independentes, não há uma forma analı́tica simples para se obter tais ı́ndices para um teste composto.
Exemplo 8.4. Diagnóstico de câncer pancreático.
Imagine um paciente idoso com dores persistentes nas costas e no abdomem e perda de peso. Na ausência
de uma explicação para estes sintomas, a possibilidade de câncer do pâncreas é freqüentemente levantada.
É comum para se verificar esta possibilidade diagnóstica, que ambos os testes de ultrasom (A) e tomografia
computadorizada (B) do pâncreas sejam solicitados. A Tabela 8.7 apresenta dados hipotéticos sobre os
ı́ndices s e e dos testes, quando utilizados separadamente e em conjuto (Griner et al., 1981).
Tabela 8.7: Sensibilidade e especificidade dos testes de ultra-som e tomografia computadorizada no di-
agnóstico do câncer de pâncreas individualmente e em conjunto.
Teste Sensibilidade (%) Especificidade (%)
A: Ultra-Som 80 60
B: Tomografia 90 90
C: A ou B positivo 98 54
D: A e B positivo 72 96
Note que os esquemas C e D correspondem respectivamente a testes em paralelo e em série. Admitindo

que os resultados dos dois testes sejam independentes e usando as expressões vistas anteriormente, temos as
seguintes sensibilidades e especificidades combinadas:
Em paralelo:
sC = 0, 8 + 0, 9 − 0, 8 × 0, 9 = 0, 98
e
eC = 0, 6 × 0, 9 = 0, 54;
Em série:
sD = 0, 8 × 0, 9 = 0, 72
eD = 0, 6 + 0, 9 − 0, 6 × 0, 9 = 0, 96.
Quando um ou outro teste é positivo, a sensibilidade combinada é maior que o mais sensı́vel dos testes,
mas a especificidade é menor.
Ao contrário, quando o critério para a positividade do teste é que tanto o ultra-som como a tomografia
sejam positivos, a especificidade combinada é maior que o mais especı́fico dos dois, mas a sensibilidade é
menor. Portanto, a sugestão seria o teste em série.
Exemplo 8.5. Sensibilidade e especificidade de testes em paralelo e em série.
Consideremos dois testes A e B com sensibilidade e especificidade apresentados na Tabela 8.7, supondo
uma prevalência de 1%, então teremos os seguintes valores: s, e, VPP e VPN.
Tabela 8.8: Sensibilidade, especificidade e valores de predição de testes individuais A e B e dos testes em
série e em paralelo considerando-se uma prevalência de 1%.
Teste s e VPP VPN
A 0,9500 0,9000 0,0876 0,9994
B 0,8000 0,9500 0,1391 0,9979
Paralelo 0,9900 0,8550 0,0645 0,9999
Série 0,7600 0,9950 0,6056 0,9976
A combinação em paralelo apresenta alta sensibilidade (0,99) mas sua especificidade é menor que a dos
testes isolados. Já a combinação em série apresenta alta especificidade (0,995) enquanto que a sensibilidade
é relativamente baixa comparada com testes isolados.
Como esperado, os valores de predição negativa são altos, tanto para os testes isolados como para as
duas formas combinadas dos testes. Entretanto, os valores de predição positiva não são altos, sendo que a
combinação em série proporcionou o melhor resultado (V P P = 0, 6056).
É importante lembrar que, na maioria das vezes, os testes usados na combinação são dependentes entre
si. Portanto, os valores acima tendem a superestimar o verdadeiro valor dos ı́ndices dos testes combinados.
Nesse caso, não é possı́vel determinar os valores dos parâmetros de qualidade conhecendo-se apenas os valores
de cada teste em separado. Torna-se necessário um trabalho de pesquisa realizado em um grupo de pacientes
nos quais são utilizados o teste padrão (gold test) e teste combinado (Di Magno et al., 1977).
8.2.5 Escolha entre Testes Diagnósticos

Idealmente, os testes utilizados devem ter alta sensibilidade e especificidade. Entretanto, na prática nem
sempre existem testes disponı́veis com caracterı́sticas ótimas. É relativamente comum a situação em que há
mais de um teste e então surge a necessidade da comparação entre eles para uma escolha mais adequada.
Em processos de escolha do ponto de corte (ponto limite para decidir se um paciente é doente ou sadio),
por exemplo, Galen & Gambino (1975) sugeriram uma medida de eficiência definida pela soma da sensibili-
dade e especificidade, isto é, o valor de referência (k :Ponto de corte) foi obtido através dos valores de s e e
que tinham a maior soma.
Suponha que dois testes diagnósticos estão disponı́veis: um com alta sensibilidade mas relativamente
baixa especificidade e o outro com alta especificidade e relativamente baixa sensibilidade. Qual seria a
melhor escolha?
Embora a avaliação de um teste não seja trivial, já que vários fatores devem ser considerados, apre-
sentaremos alguns argumentos baseados nas medidas de qualidades, que podem ajudar na escolha de um
teste diagnóstico.
O primeiro fato importante é que os valores de predição (VPP e VPN) dependem conjuntamente de s, e
e p. Soares & Parenti (1995) apresentam um estudo detalhado através de gráficos que ilustram claramente
o efeito da prevalência nos valores de predição. O exemplo a seguir ilustra numericamente este fato.
Exemplo 8.6. Diagnóstico da gonorréia.
O teste Gonosticon Dri-Drot, desenvolvido para o diagnóstico de gonorréia, tem sensibilidade de 0,80 e
especificidade de 0,95. Os valores da predição positiva e negativa são apresentados na Tabela 8.9 para quatro
populações com diferentes prevalências.
Embora o teste tenha parâmetros de qualidades razoáveis, o VPP é baixı́ssimo para populações de baixa
prevalência, tornando o exame sem utilidade nessas condições.
Para simplificar o raciocı́nio sobre a escolha de testes diagnósticos, vamos inicialmente considerar duas
situações extremas, obviamente sem interesse prático, e depois vamos estender para situações masi gerais.
Tabela 8.9: Valores de predição (VPP e VPN) do teste Gonosticon Dri-Drot para quatro prevalências (p).
População p VPP VPN
A 0,500 0,940 0,830
B 0,100 0,640 0,980
C 0,020 0,250 0,990
D 0,001 0,020 1,00
Suponhamos que p = 0, isto é, ninguém tem a doença, ou que p = 1, isto é, toda a população tem a doença
em questão. Facilmente chagamos nos valores apresentados na Tabela 8.10, para quaisquer valores de s e e.
Tabela 8.10: Valores de predição (VPP e VPN) e proporção de resultados falsos (PFP e PFN) para casos
extremos de prevalências.
p VPP PFP VPN PFN
0 0 1 1 0
1 1 0 0 1
A extensão para o caso mais geral de p pequeno (doença rara) e p grande (doença comum) pode ser feita
pela análise das expressões já estudadas variando-se as quantidades envolvidas (s, e e p), mas nos restringimos
a apresentarmos uma análise numérica. A Tabela 8.11 mostra os valores de predição para prevalências de
1% e 90%.
Tabela 8.11: Valores de predição (VPP e VPN) para alguns valores de sensibilidade e especificidade para
prevalências de 1% e 90%.
Prevalência de 1% Prevalência de 90%
s e VPP VPN VPP VPN
0,99 0,99 0,5000 0,9999 0,9989 0,9167
0,99 0,90 0,0909 0,9999 0,9889 0,9091
0,99 0,80 0,0476 0,9999 0,9780 0,8989
0,90 0,99 0,4762 0,9990 0,9988 0,5238
0,90 0,90 0,0833 0,9989 0,9878 0,5000
0,90 0,80 0,0435 0,9987 0,9759 0,4706
0,80 0,99 0,4469 0,9980 0,9986 0,3548
0,80 0,90 0,0748 0,9978 0,9863 0,3333
0,80 0,80 0,0388 0,9975 0,9730 0,3077
Quando a prevalência é baixa, o valor de predição positiva (VPP) é mais influenciado pela especificidade.
O valor de predição negativa (VPN) é pouco influenciado tanto pela sensibilidade quanto pela especificidade
e é alto, como era de se esperar.
Para a prevalência alta, o VPP é próximo de 1, independente dos valores da sensibilidade e da especifi-
cidade. Além disso, o VPN é influenciado mais pela sensibilidade do que pela especificidade.
Embora este não seja um estudo exaustivo, existem evidências para as seguintes conclusões:
1. Um teste com alta especificidade deve ser usado quando a prevalência da doença é relativamente baixa
(doença rara), mesmo que o teste tenha relativamente baixa sensibilidade.
2. Um teste com alta sensibilidade deve ser usado quando a prevalência da doença é alta (doença comum),
mesmo que o teste tenha relativamente baixa especificidade.
É comum a idéia de que se a doença é rara, um teste com alta sensibilidade dever ser usado para achar
os casos e para uma doença de alta prevalência, um teste com alta especificidade deve ser escolhido.
Esse raciocı́nio não coincide com os argumentos apresentados.
Outro tipo de simulação é apresentado nas Figuras 8.1 e 8.2 para algumas situações especı́ficas:
Prevalência
0% 10% 20% 30% 40% 50%
100%
VPP
50%
s = 99%; e = 70%
s = 95%; e = 95%
s = 70%; e = 99%
0% s = 99%; e = 99%
Figura 8.1: Valor Preditivo Positivo em Função da Prevalência
Prevalência
0% 20% 40% 60% 80% 100%
100%
VPN
50%
s = 70%; e = 99%
s = 95%; e = 95%
s = 99%; e = 70%
s = 99%; e = 99%
0%
Figura 8.2: Valor Preditivo Negativo em Função da Prevalência
Inicialmente percebe-se na Figura 8.1 que, para qualquer situação, quanto maior a prevalência da doença,
maior o valor preditivo positivo. Para um teste com sensibilidade e especificidade elevadas (s = 99% e e =
99%) o seu valor preditivo positivo será muito alto mesmo em situações de prevalência não muito elevada.
Entretanto, esta situação sofre um impacto importante ao se diminuir apenas um pouco a sensibilidade e
especificidade do teste (s = 95% e e = 95%).
Uma outra situação ocorrerá ao se modificar apenas uma das caracterı́sticas do teste. Por exemplo, ao
se diminuir a sensibilidade mantendo-se a especificidade elevada (s = 70% e e = 90%), percebe-se que prati-
camente não houve impacto nos valores preditivos positivos em função da prevalência. Entretanto, quando
essa mesma diminuição ocorre na especificidade, o impacto é bastante grande, diminuindo-se muito o valor
preditivo positivo do resultado mesmo para prevalências mais elevadas. Dessa forma, pode-se afirmar que o
valor preditivo positivo de um teste é função da prevalência da doença, da sensibilidade e fundamentalmente
da especificidade, conforme já fora observado na fórmula anterior.
Note na Figura 8.2 que, ao reduzir apenas a sensibilidade (s = 70% e e = 99%), ocorre uma drástica
redução no VPN, mostrando o grande impacto que essa medida exerce no VPN. Ao se reduzir apenas a
especificidade (s = 99% e e = 70%), o impacto no VPN é muito pequeno, menor do que quando se reduz
apenas um pouco a sensibilidade e a especificidade conjuntamente (s = 95 e e = 95%).
Note também que, para um mesmo teste diagnóstico (exceção apenas para s = 70% e e = 99%), o impacto
do aumento da prevalência na redução do VPN é muito pequeno. Esse impacto se acentua nas prevalências
muitos elevadas. Como na prática clı́nica, as doenças estudadas comumente possuem prevalências relati-
vamente baixas, o VPN irá sofrer apenas pequena variação ao se modificar a especificidade de um teste
diagnóstico e mesmo ao se modificar pouco a sensibilidade.
8.2.6 Relação entre Sensibilidade e Especificidade

O teste diagnóstico ideal seria aquele na qual a sensibilidade e a especificidade fossem 100%, ou seja, não
existiria erro em seu resultado. Entretando, na prática, isso não é possı́vel. Ao contrário, freqüentemente,
existe uma contra-balanço (trade-off ) entre essas duas propriedades de tal modo que, quando um delas
aumenta a outra diminui e vice-versa. Assim, para um teste expresso em uma escala contı́nua (glicemia, por
exemplo) é necessário determinar um ponto de corte (cut off ) entre os valores considerados normais e os
anormais. Neste caso, uma determinada propriedade do teste (por exemplo, a sensibilidade) somente pode
ser aumentada às custas da diminuição da especificidade e vice-versa.
Freqüentemente, na prática clı́nica, escolhe-se um ponto de corte onde exista o menor erro possı́vel, tanto
de falsos positivos quanto de falsos negativos (Figura 8.3).
Figura 8.3: Ponto de corte com o mı́nimo erro possı́vel
8.2.7 Curva ROC

Uma forma de expressar graficamente a relação entre a sensibilidade e a especificidade é através da con-
strução da curva ROC (receiver operating characteristic curve). Esta curva foi primariamente desenvolvida
na década de 1950 para avaliar a detecção de sinais de radar (daı́ a sua denominação), embora somente
recentemente tenha se tornado comum o seu uso na área médica.
Sua construção é feita colocando-se os valores da sensibilidade (proporção de verdadeiros
positivos) no eixo Y (ordenadas) e o complemento da especificidade (1 - e), ou seja, a proporção de fal-
sos positivos no eixo X (abscissas) para diferentes pontos de corte.
A partir dos dados apresentados na Tabela 8.12 foi construı́da a curva ROC (8.4).
Note que quanto mais próxima a curva estiver do canto superior esquerdo do gráfico, melhor será o poder
discriminatório do teste diagnóstico e quanto mais distante, até o limite da diagonal do gráfico, pior será o
seu poder de discriminar doentes e não doentes. A curva ROC pode servir como orientação para a escolha
do melhor ponto de corte de um teste diagnóstico que, em geral, se localiza no extremo da curva próximo
ao canto superior esquerdo do gráfico.
As curvas ROC, além de auxiliarem na identificação do melhor ponto de corte, são muito utilizadas para
comparar dois (ou mais) testes diagnósticos para a mesma doença. Nesse caso, o poder discriminatório do
teste, ou seja, a acurácia global, pode se mensurado através do cálculo da área sob a curva ROC; quanto
maior for a área tanto melhor será o teste diagnóstico.
Um teste diagnóstico ideal, com 100% de sensibilidade e 100% de especificidade, a área total seria igual
a 1 (um), ou seja, a “curva” seria coincidente com o lado esquerdo e o topo do gráfico. Neste caso, o teste
não possuiria erro, identificando perfeitamente todos os indivı́duos sadios e doentes (gold test).
Para um teste sem nenhuma utilidade, a “curva” seria uma linha reta em diagonal, partindo do canto
inferior esquerdo até o canto superior direito. Neste caso, o teste diagnóstico não possuiria nenhum poder
para discriminar doentes de não-doentes.
Tabela 8.12: Trade-off entre Sensibilidade e Especificidade no tratamento de Diabetes (Glicemia pós-prandial
2(h) mg/100 ml).
Glicemia pós-prandial Sensibilidade (%) Especificidade (%) 1 - Especificidade (%)
(2h) mg/100 ml
70 98,6 8,8 91,2
80 97,1 25,5 74,5
90 94,3 47,6 52,4
100 88,6 69,8 30,2
110 85,7 84,1 15,9
120 71,4 92,5 7,5
130 64,3 96,9 3,1
140 57,1 99,4 0,6
150 50,0 99,6 0,4
160 47,1 99,8 0,2
170 42,9 100,0 0
180 38,6 100,0 0
190 34,3 100,0 0
200 27,1 100,0 0
1 - Especificidade
0% 20% 40% 60% 80% 100%
100%
Sensibilidade
50%
0%
Figura 8.4: Curva ROC da Glicemia pós-prandial (2h) mg/100 ml
Exemplo 8.7. Os dados da Tabela 8.13 foram obtidos na UEM/HU - Hospital Universitário da Universidade
Estadual de Maringá, em um estudo para avaliação de equipamentos para dosagem glicêmica capilar O
objetivo do trabalho foi o de escolher o melhor equipamento entre três analisados: Glucotrend, Precision e
Advantage. Os testes foram realizados em 21 indivı́duos. O teste Colorimétrico foi ser utilizado como
Gold Standard (Teste Ouro), que classifica sem erro doentes e não-doentes.
Obs.: Valores de referência: 60 a 120 mg/dl (Consideram-se anormais os valores abaixo de 60 (hi-
poglicemia) e acima de 120 (hiperglicemia)).
Obs.:
1. *1 foram utilizadas duas fitas por falha na leitura do equipamento;

2. *2 foram utilizadas quatro fitas por falha na leitura do equipamento;
3. *3 equipamento apresentou erro.
Tabela 8.13: Resultados da avaliação de equipamentos para dosagem glicêmica capilar.

Indivı́duo Gold-Calorimétrico G-Glucotrend P-Precision A-Advantage
1 282 310 336 283
2 121 115 143 137
3 71 71 76 66
4 101 *3 85 99
5 161 *3 215 177
6 192 215 134 *2 211
7 99 97 123 134
8 105 152 156 *1 136
9 190 200 208 205
10 64 69 76 69
11 108 125 105 115
12 99 97 95 116 *1
13 107 107 109 108
14 68 75 81 64
15 81 86 94 91
16 82 84 49 *1 89
17 88 90 93 93
18 71 76 88 77
19 76 90 91 96
20 98 107 89 *1 105
21 87 86 90 96
Exercı́cio 8.1. Utilize o banco de dados referentes a Tabela 8.13 e:
1. Determine as Tabelas Cruzadas: Gold X G; Gold X P e Gold X A.
2. Determine a sensibilidade e especificidade de cada testes acima . Baseado nestes resultados qual (quais)
o(s) melhor(es) teste(s) ?
3. Determine os valores de predição positiva (VPP) e negativa (VPN) assim como o PFP e o PFN para
cada um dos testes, usando a prevalência da doença obtida através da Tabela Cruzada. Interprete-os.
4. Considerando que a prevalência para a doença em questão é de 1%, recalcule os itens anteriores.
5. Combine os testes: G x P, G x A e P x A de forma paralela e em série, considerando uma prevalência

de 1%. Qual a melhor combinação ? porquê ?
Referências Bibliográficas
[1] ARANGO, H.G.. Bioestatı́stica: Teórica e computacional. Guanabara Koogan S.A. RJ, 2001.
[2] CALLEGARI-JACQUES, S. M.. Bioestatı́stica: Princı́pios e Aplicações. Ed. Artmed. RS, 2003.
[3] CAMPOS, H.. Estatı́stica Experimetal Não-Paramétrica. 4a Ed. USP/ESALQ, 1983.

[4] CARVAJAR, S. S. R.. Elementos de Estatı́stica (com aplicações às ciências médicas e biológicas). Rio
de Janeiro: UFRJ, 1970.
[5] CASTELLANOS, R. S e MERINO, A. P.. Psicoestadistica-Contrastes Paramétricos y no Paramétricos.
Ediciones Piramide S.A., Madrid, 1989.
[6] CENTENO, A. J. Curso de Estatı́stica aplicada à Biologia. Goiânia: Ed. Universidade Federal de Goiás,
1981.
[7] CARVAJAR, S. S. R. Elementos de Estatı́stica (com aplicações às ciências médicas e biológicas). Rio
de Janeiro: UFRJ, 1970.
[8] COLLET, D..Modelling survival data in medical research. Tests in statistical science. 4a Ed. Chapman
& Hall. London, 1994.
[9] DANIEL, W. W. Bioestatistics: a foundation for analysis in the health sciences. 2 Ed. New York: John
Wiley, 1999.
[10] DOWNING, D e CLARK, J.. Estatı́stica aplicada. 2a Ed. Saraiva. SP, 2002.
[11] FORANTTINI, O. P.. Epidemiologia Geral. 1a Ed. Artes Médicas, Ltda., 1980.
[12] GAUVREAU, K. e PAGANO.. Principios de Bioestatı́stica. 2a Ed. Thonson, 2004.
[13] GUEDES, M. L. S. e GUEDES, J. S.. Bioestatı́stica - Para profissionais de saúde. 1a Ed. Ao livro
técnico S.A. RJ, 1988.
[14] MEDRONHO, R. A.. Epidemiologia. Ed. Atheneu. SP, 2003.

[15] PEREIRA, M. G.. Epidemiologia: Teoria e Prática. Ed. Guanabara & Koogan, 1995.
[16] RODRIGUES, P. C.. Bioestatı́stica. EdUFF, RJ, 2002.

[17] SIEGEL, S.. Estatı́stica não-paramétrica. 1a Ed. RJ, Editora McGraw Hill do Brasil Ltda, 1981.
[18] SOARES, J. F e BARTMAN, F. C.. Métodos estatı́sticos em medicina e biologia. 14o Colóquio Brasileiro
de Matemática. IMPA/CNPq. RJ, 1983.
[19] SOARES, J. F. e SIQUEIRA, A.L.. Introdução à estatı́stica médica. Ed. UFMG. 1999.
[20] SOKAL, R.R. Biometry: The Principles and Practice of Statistics in Biological Research. New York:
W.F. Freeman, 1995.
[21] SOUNIS, E. Bioestatı́stica. Princı́pios fundamentais, metodologia, estatı́stica, aplicação à ciências
biológicas. 2a Ed. Revisada, McGraw-Hill, 1975.
107
[22] STEEL, R.G.D. Principles and Procedures of Statistics a Biometrical Approach. 2. Ed. New York: Mc
Graw-Hill, 1980.
[23] WAYNE, W. D.. Biostatistics. A foundation for analysis in the health sciences. 7a Ed. J&S. NY, 1999.
[24] VIEIRA, S.. Introdução à Bioestatı́stica. 5a Edição Revista e Ampliada. Editora Campus,1980.
[25] VIEIRA, S.. Estatı́stica Experimental. 2a Edição. Ed Atlas S.A. SP,1999.

Bioestatística conceitos experimentação

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bioestatística conceitos experimentação

Enviado por

Direitos autorais:

Formatos disponíveis

Sumário

1 Definições e Conceitos em Bioestatı́stica Aplicada 1

5 Análise em Tabelas 2x2 e LxC 51

6 Comparações Entre Grupos 61

Referências Bibliográficas 107

1.2 Estatı́stica Médica

1.3 Dados Biométricos

1.4 Os Conceitos da Bioestatı́stica

1. Eleições: Anúncio prévio, em termos percentuais, de que o candidato A é o provável vencedor. (A

9. Experimentação Agrı́cola: Estudos de uma nova variedade de semente (modificação genética) ou de

1.4.5 Estimativas dos Parâmetros ou Estatı́stica

1.4.6 Unidade de Amostragem

1.4.8 Variáveis Aleatórias (v.a.)

2.2 O Raciocı́nio Indutivo da Biometria

2.3 Delineamentos Experimentais

2.3.1 Etapa de um levantamento estatı́stico

9. Por quê?...(referente à interpretação causal)

Os principais delineamentos experimentais para a realização destas pesquisas serão:

1. Quem? GOHAM et al.

(a) conhecer a distribuição do grau de instrução dos portadores de doenças cardı́acas.

(b) Conhecer a idade e o peso médio dos portadores de doenças cardı́acas.

(c) Conhecer os hábitos dos portadores de doenças cardı́acas.

Figura 2.1: Esquema 1.

Figura 2.2: Esquema 2.

2.4 Aspectos Estatı́sticos dos Estudos Etiológicos

2.4.1 Estudo de Caso-Controle

Exemplo 2.5. Fatores de risco em câncer de mama.

MENSURAÇÃO FORMAÇÃO DOS GRUPOS

Figura 2.3: Esquema de Estudo Caso-Controle.

Vantagens do Estudo de Caso-Controle

• Baixo custo relativo;

• Adequado para estudar doenças raras.

Desvantagens do Estudo de Caso-Controle

• Incapaz de estimar risco (reduzido poder descritivo);

• Vulnerável a inúmeros biases (seleção, etc.)

2.4.2 Estudo de Coorte

Seleção das Coortes

a, b, c, d : os quatro possíveis resultados

Figura 2.4: Esquema de Estudo Coorte.

Vantagens do Estudo de Coorte

• Produz medidas diretas de risco;

Desvantagens do Estudo de Coorte

2.4.3 Ensaios Clı́nicos Aleatorizados

Exemplo 2.8. Tamoxifeno e câncer de mama.

Figura 2.5: Esquema de um Ensaio Clı́nico Aleatorizado.

2.4.4 Estudos Descritivos

Exemplos de temas de estudos descritivos

• A incidência de infecção chagásica em habitantes rurais;

• O estado imunitário de pré-escolares, de um municı́pio, frente à poliomielite;

Vantagens do Estudo de Casos

• Em geral, o estudo de caso é relativamente fácil de ser realizado e de baixo custo.

Desvantagens do Estudo de Casos

2.4.5 Seccionais ou Transversais

Vantagens do Estudo Seccional

• Simplicidade e baixo custo;

Desvantagens do Estudo Seccional

• Vulnerabilidade a biases ou vı́cios (especialmente de seleção);

EXPOSTOS EXPOSTOS NÃO-EXPOSTOS NÃO-EXPOSTOS

ANÁLISE DOS DADOS

Figura 2.6: Esquema de um Estudo Seccional.

• Baixo poder analı́tico (inadequado para testar hipóteses causais);

3.1 Organização de Dados Estatı́sticos

Tabela 3.1: População brasileira por faixa etária.