Escolar Documentos
Profissional Documentos
Cultura Documentos
81-0394 CDD-570.182
Índices para da sistemático:
1. Bioestatística
2. Ciências da vida astsELqUiCa aplicada 570.182
Métodos estatísticos 570.182
4. Métodos estatísticos : Ciências da vida 570.182
Elza Salvatori Berquó
José Maria Pacheco de Souza
Sabina Léa Davidson Gotlieb
AA 11200000952
Bioestatística
2º Edição revista
: MEDICINA DE
ERIBEIR O PRETO DA U.S.P.
ERU,
Editora Pedagógica e Universitária Ltda.
São Paulo
ELZA SALVATORI BERQUO
7* reimpressão , 2001
ISBN 85-12-40280-6
€ E.PU. - Editora Pedagógica e Universitária Ltda., São Paulo, 1984. Todos os direitos reservados.
A reprodução desta obra, no todo ou em parte, por qualquer mcio, sem autorização expressa epor
escrito da Editora, sujeitará o infrator, nos termos da lei nº 6.895, de 17-12-1980, à penalidade
prevista nos artigos 184 c 186 do Código Penal, a saber: reclusão de um a quatro anos.
E. P.U. - Telefone (0++11) 3168-6077 - Fax. (0++11) 3078-5803
E-Mail: vendas()epu.com.br Site na Internet: http://www.cpu.com.br
Rua Joaquim Floriano, 72 - 6º andar - conjunto 65/68 - 04534-000 São Paulo - SP
Impresso no Brasil Printed in Brazil
Sumário
P to científico, Estatística e Bi
Levantamento de dados*
Asas e
de uma
variáveis qualitativas 47
vi
5. Noções sobre a teoria das probabilidades ..............,
8. Distribuição binomial
9. Distribuição normal
VII
10) Teste de hipóteses
c ão de variâncias
de k populações independ
15.1 O teste de hipóteses H, : 6 = o». A distribuição F
E EO) EO vaga gas mou vara
15.2 O teste de hipóteses para mais de duas variabilidades
populacionais .......ccciiciiiiciccctsteceses
17.1 Testeside associação: eus cn » aneis ersusns means suesecy ganas 3 281
17.2 Testes de duas proporções 286
Teste de um fici de l e de um fi
DE TESTESSÃO cs ass css cpseses ses ares cam cane pars é 299
xi
até o momento. no enfoque mais amplo e rico para se conhecer, na
intimidade, os mecanismos que governam os fenômenos do nosso universo,
Enveredando com segurança por este novo domínio, vem dando impor-
tantes contribuições para a astronomia, teorias de epidemias e estudos de
cancerolegia. Professor há muitos anos do Departamento de Estatística
Matematica da Universidade da Califórnia em Berkeley, Neyman, em
1961. passou algum tempo no Brasil, a convite da Universidade de São
Paulo. para estudar a viabilidade da criação de um Instituto de Esta-
tística: neste sentido, deve ser considerado, juntamente com Pedro Egy-
dio. o precursor da idéia de se dotar a Universidade com uma unidade
autônoma devotada à pesquisa e ao ensino da Estatística em nível de
graduação e de pós-graduação. Hoje, com seus oitenta anos de idade,
Neyman continua a ser O guardião ativo das liberdades da ciência e
dos cientistas; cidadão do mundo, sempre que em alguma parte a ciên-
e ia ou o cientista estão em perigo seus protestos não demoram a chegar
suas mãos se estendem para proteger o direito da pessoa humana.
Apresentação
x
“Capítulo 1
Pensamento científico, Estatística e
Bioestatística
1
|
ceito. Caso esta afirmação se refira a João, José e Pedro, então basta
encerrada. A
verificar se cla é verdadeira para eles e a questão estará
ciência, porém, não avançou nada ou caminhou muito pouco com este
mais gerais e sempre
tipo de veriticação. As hipóteses estatísticas são
dizem respeito a parâmetros populacionais; neste caso,O coeficiente de
correlação de uma distribuição populacional bidimensional constituída
por todos os pares de valores das variáveis X (anos de escolaridade)
e Y (escore ou nota em uma escala de preconceito).
Formulada uma hipótese estatística, o passo seguinte consiste em
testá-la. Para tanto, são elaborados planos para a coleta e análise dos.
dados que serão usados para testar a hipótese, bem como são estabe-.
lecidas regras de decisão a que obedecerá o referido teste. Em seguida,
são coletados os dados, de acordo com o delineamento prévio, e sobre
estes é realizada uma análise baseada em técnicas estatísticas adequa-
das. Finalmente, diante dos resultados encontrados, decisões são to-
madas com relação à hipótese estatística, com base nas regras de deci-
são anteriormente estabelecidas e, através de uma inferência indutiva,
aceita-se como provável a veracidade ou a falsidade da hipótese esta-
tística formulada e, consegiientemente, de sua correspondente hipótese
científica. Todo o processo descrito pode ser sumariado no seguinte en-
cadeamento lógico:
1) a partir de uma hipótese científica se deduz (inferência deduti-
va) uma hipótese estatística em termos de definições operacionais que
se refere a afirmações sobre parâmetros populacionais;
2) da hipótese estatística se deduzem (inferência dedutiva) as
consegiiências lógicas em termos do que deve ser esperado empirica-
mente com relação ao estimador do parâmetro populacional em causa;
3) regras de decisão são estabelecidas para o teste da hipótese es-
tatística;
4) um delineamentoé elaborado para fixar'as normas de coleta
dos dados empíricos, bem como as técnicas apropriadas de análise dos
resultados;
5) a coleta é efetuada, isto é, observa-se o que é observável e me-
de-se o que é mensurável;
. 6) o material empírico coletado é analisado estatisticamente,
ou
seja, valores numéricos são encontrados para os estimadores dos pa-
râmetros populacionais referidos na hipótese estatística;
, 7) de acordo com as regras de decisão estabelecidas (item 3),
induz-se (inferência indutiva), a partir dos resultados empíricos e com
base na teoria das probabilidades, a veracidade ou falsidade da hipótesê
estatística;
2
da veracidade ou falsidade da hipótese estatística, induz-se
(inferência indutiva) a veracidade científica correspondente.
3
i
|
ocasião em que começavainde-. nal
da Estatística antes de cerca de 1660. política e foram surgindo
Europa o grande impulso da aritmética
nesta direção. Por exemplo,
pendentemente. em vários paises, trabalhos
em 1662, e o livro de Hudde,
o famoso Observations, de John Graunt, com poucos anos de.
4 s. em 1671. No encerramento do século,
diferença. aparecer: am os trabalhos de Willian Petty, Political Aritmetics,
em 1690, Halley” Estimates, em 1693, Observations, por Gregory King,
em 1696.
em
Nevman* divide a história do “indeterminismo em ciência”
quatro períodos perfeitamente distinguíveis, a saber: indeterminismo
indeterminística está-
marsinal, indeterminismo estático, experimentação
marginal.
ticae indeterminismo dinâmico. Para ele o indeterminismo
compreende um período que teve início há uns dois séculos e foi mar-
cado pelos trabalhos de Laplace e Gauss sobre a teoria dos “erros de
verificados na astronomia: ao tentarem pre-
mensuração”. notadamente
dizer exatamente a posição de um corpo celeste. em um tempo t. conhe-
cidas as suas posições em tempos anteriores ti, to. ... tm. Verificaram
que esta predição estava afetada por erros de mensuração incontroláveis,
o que levou às idéias da estimação estatística por valor ou por ponto.
Esta concepção de indeterminismo não afetou, entretanto. a maneira
de considerar o objeto fundamental da investigação científica da época.
que se continuou a ver sob a ótica determinística, como. por exemplo,
as leis sobre o movimento de um determinado planeta. Daí a denomina-
ção de indeterminismo marginal em ciência.
O segundo período, isto é. do indeterminismo estático, marcou o
fim do século XIX e começo do século XX com os trabalhos de astrô-
nomos como Bruns e Charlier e dos primeiros biometristas como Galton
e Karl Pearson. É nesta época que se toma consciência da presença da
variabilidade quando se passa de um indivíduo a outro. todos satisfa-
zendo a uma definição comum. Por exemplo. a altura troncocefálica
de adultos masculinos de um grupo étnico específico varia de um indi
víduo a outro dentro do grupo. Este tipo de constatação levou automa-
ticamente à consciência da necessidade de se considerar não apenas uma
manifestação isolada de um fenômeno em estudo, mas o conjunto de
todas as suas manifestações, isto é, de uma população de valores da
variável em causa. O passo seguinte consistiu na procura de procedi-
mentos matemáticos capazes de descrever esta variabilidade, o que ex-
ndo ho psd sema se caracterizado pela busca de fórmulas
distribuições
vários (sistemas:empíricas
de d eà a
fregiiências.de ajuste; ae
Neste sentido, fim
são declássicos aOº
curvas teóricas propostos por Karl Pearson. Como
4
este período
salienta Neyman, do ponto de vista da conquista científica
ancestral” de
foi bastante modesto, a não ser pela “lei da herança
berta por Galton e Pearson.
O aparecimento no cenário científico de R. A. Fisher caracteriza o
terceiro período, o de experimentação indeterminística estática, que se
estendeu de 1920 a 1940. Trabalhando com problemas ligados à agricul-
tura, Fisher percebeu que a produção de um certa variedade de deter-
minada planta, o trigo, por exemplo, por unidade de área cultivada,
não significa a verdadeira produção desta variedade, mas apenas um
dentre os resultados possíveis de uma população (hipotética) de produ-
ções por unidade de área. Verificou também que a distribuição deste
tipo de variável é unimodal, aproximando-se daquela que Gauss já havia
encontrado para representar a distribuição dos erros de mensuração,
isto é, da distribuição normal. A característica fundamental deste pe-
ríodo “fisheriano” foi, portanto, a adoção de uma postura de indetermi-
nismo na ciência, consistente em caracterizar que a experimentação lida
com populações das quais amostras casuais São possíveis e quase sem-
pre os únicos meios disponíveis. Do ponto de vista do desenvolvimento
de técnicas estatísticas, os tados al d ivados pela experi-
mentação agrícola foram de grande alcance não só para a agfonomia,
mas também para outros domínios de investigação em outras ciências.
Ainda nestes vinte anos que precederam a Segunda Guerra
Mundial, como salienta Neyman, foram cunhados termos e desenvolvi-
dos conceitos sobre os testes de hipóteses e estimação por intervalos.
Neyman, por modéstia, não explicita em seu excelente artigo que seu
próprio nome está indelevelmente ligado a estas importantes contri-
buições, as quais, juntamente com as de Fisher sobre os delineamentos
de experimentos, devem constituir até hoje a bagagem fundamental de
todo pesquisador que pretenda viajar pelos domínios da investigação
científica. A limitação do período que se acaba de descrever consiste
essencialmente no fato de que nele os métodos propostos o foram com a
finalidade explícita de estudar uma população ou de comparar duas ou
mais populações tal como elas existem em um momento ou momentos
dados, sem levar em conta o processo evolutivo que possa estar aconte-
cendo com elas. Ou seja, a metodologia estatística não era delineada
para tomar em consideração os mecanismos de chance a que estão su-
jeitos os fenômenos, quanto a tempo e espaço.
O cenário científico do presente está marcado, segundo Neyman,
por uma visão de um indeterminismo dinâmico, “no sentido de um es-
forço para inventar mecanismos hipotéticos de chance, denominados
métodos estocásticos, que operam sobre várias entidades hipotéticas,
claramente definidas, de tal maneira que as freqiiências resultantes dos
àquelas efe-
vários resultados possíveis correspondam aproximadamente
décadas
tivamente observadas”. De fato, a preocupação nas últimas
ou
tem sido cada vez maior com relação às tentativas de construção
em quase todos os ramos do conhe-
verificação de modelos estocásticos
que em outros,
cimento cientifico, em alguns casos com mais sucesso do
dos verdadeiros me-
porem sempre buscando penetrar na intimidade
explicati dos fenô que se des l e atuam no
canismos
mundo real de cada dia.
. o
* Yule, G. U. e Kendall, M. G., An Introduc,
Charles Griffin & Company Limited, 14.2 ed., 908 The Theory of Statistics,
6
pouco desenvolvidas e imprecisas. De fato, os trabalhos de Graunt e
Petty mostram que o raciocínio de ambos era da melhor qualidade; se
o alcance de suas elucubrações, no que se refere a estudos de população,
mortalidade e tábuas de sobrevivência, foi limitado, isto se deveu prin-
cipalmente à má qualidade dos dados que manipularam. Desde o co-
meço do século XIX houve um aumento paulatino de dados oficiais,
como os quatro censos que se realizaram na Inglaterra de 1821 a 1831
e que forneceram informações razoavelmente completas das popula-
ções totais. Assim, pouco a pouco, afirmações quantitativas foram
substituindo as descrições verbais dos primeiros tempos.
“Estatística” adquiriu então um significado menos amplo e um
pouco mais preciso, isto é, “a exposição das características de um Esta-
do através de métodos numéricos”. Como assinala Kendall, torna-se
difícil dizer em que época a palavra tomou definitivamente este caráter
quantitativo, mas a transição parece ter sido lenta, mesmo após a fun-
dação da Royal Statistical Society em 1834. Os artigos no 1.º volume
do Journal, editado em 1838-39, são, em grande parte, de caráter nu-
mérico, mas a definição oficial não tem referência a método.
Após a primeira mudança no significado da Estatística, outras se
seguiram. De denominação de uma ciência, foi transferida às séries de
números sobre as quais ela operava, de tal forma que se passou a falar
em ísti médicas, ísticas vitais, ísticas marítimas, ou seja,
foi então aplicada a séries de dados numéricos que ocorriam em outras
ciências, tais como Medicina, Saúde Pública, Antropologia e Meteoro-
logia.
Desde então, muita controvérsia tem trazido a tentativa de dar à
Estatística uma definição capaz de cobrir todo o seu campo de ação.
Por exemplo, para Yule e Kendall*, “Estatísticas são dados quantitati-
vos afetados, em grande parte, por uma multiplicidade de causas. Mé-
todos estatísticos são os métodos especialmente adequados para inter-
pretar os dados quantitativos afetados por uma multiplicidade de cau-
sas. Teoria estatística é a exposição dos métodos estatísticos”. Para
R. A. Fisher **, “Estatística é o estudo das populações, das variações
e dos métodos de redução de dados”.
Uma definição abrangente é: “Estatística é um ramo do conhe-
cimento científico que consta de um conjunto de processos que tém
por objeto a observação, a classificação formal e a análise dos fenôme-
nos coletivos ou de massa (finalidade descritiva) e, por fim, investigar
n
vantamento das condições sociais c econômicas das famílias e de suas y
estrategias de reprodução.
Quando o investigador, para verificar suas hipóteses de trabalho,
utiliza-se de dados já existentes — arquivados, registrados ou publica-
dos — diz-se que está trabalhando com dados secundários] Assim, se
o investigador interessado em estudar, por exemplo, a fecundidade da
população urbana de São José dos Campos (Estado de São Paulo)
utilizar dados do Censo demográfico de 1970, da PNAD-1972 ou da
Pesquisa Nacional de Reprodução Humana — 1974, estará trabalhan-
do com dados secundários. Entretanto, se ele julgar necessária a reali-
zação de um inquérito, pelo fato de nenhuma das fontes mencionadas
conter certas informações relevantes para seu estudo, então o investi-
a m isto é, dados que são
levantados diretamente na população no momento da investigação.
12
dêem conta de todos os indivíduos da população) e mutuamente ex-
as (no sentido de que um mesmo indivíduo da população não
possa possuir simultaneamente duas categorias), têm-se as condições
mínimas necessárias para a aplicação de técnicas estatísticas adequadas.
« Costuma-se dizer nestes casos que a característica em estudo é expressa
segundo uma escala nominal) É claro, portanto, que as operações usuais
da aritmética não podem ser realizadas sobre este tipo de escala. É
importante observar que, às vezes, as categorias em uma escala nominal
são expressas por números, como seria o caso de os doentes de um
hospital estarem classificados segundo os números das enfermarias, isto
j , -.. Neste caso, estes números devem ser vistos como nú-
meros substitutos de nomes, sendo um completo absurdo pensar-se em
calcular a soma, a média, etc. desses dígitos.
O nível de mensuração seguinte consiste em, além de classificar os
indivíduos de uma população de acordo com as categorias de uma ca-
racterística, ordenar essas categorias relativamente ao grau segundo o
qual elas possuem a característica em questão.. Assim, os indivíduos de
uma população podem ser classificados, conforme a escolaridade, em:
“analfabetos, com. curso primário, com curso secundário, com curso co-
legial e com curso superior. Neste caso, as categorias da característica
“escolaridade” estão ordenadas segundo o grau de escolaridade. Outro
exemplo é dado pela classificação de famílias segundo o nível sócio-
econômico em: classe pobre, classe média e classe rica.
Costuma-se dizer, nestes casos, que a característica é medida em
letra Pelos próprios exemplos vê-se que em uma escala ordinal
valem apenas as operações de maior do que ou menor do que. Não são
válidas as operações de adição, subtração, multiplicação e divisão, pelo
fato de que a ordenação não fornece informação sobre a magnitude das
diferenças entre os elementos na escala; ou seja, admite-se que um in-
divíduo que pertença à categoria “com curso secundário” tenha mais
escolaridade do que outro indivíduo que pertença à categoria “sem
curso primário”, porém não se sabe quanto mais. Da mesma forma, e
consegiientemente, não se sabe como se comporta a diferença entre
“curso superior” e “colegial” em relação à diferença entre: “curso se:
cundário” e “curso primário”.
”
Passa-se deste tipo de escala para um nível propriamente dito de
mensuração quando, além da ordenação das categorias de uma carac-
terística, pode-se dizer quanto valem exatamente as diferenças entre
estas categorias. Pode-se dizer, por exemplo, que a diferença entre 30ºC€
e 10ºC é exatamente de 20ºC e é a mesma do que entre 90º e 70ºC,
em uma escala de temperatura. Entretanto, pelo fato de o zero, nesta
escala, não existir naturalmente e ser determinado arbitrariamente, não
13
do
se pode afirmar que 90º€ correspondem a três vezes “mais quente”
esc i
que 3090. Isto quer dizer que a temperatura está medida em
tervalar.
Sempre que seja possível fixar o ponto zero na escala de forma
não arbitrania, comono caso da idade, que é cont: partir do nas-
cimento em qualquer “e lugar, pode-se então realizar, sobre os
valores tomados por estatísticas, todas as operações aritméti s. Diz-se,
nestes casos, que se trata de uma escala de zões. Assim, um indivíduo
com 40 anos tem o dobro da idade daquele com 20 anos. Na prática,
entretanto. mesmo nos casos de escalas intervalares, sempre que seja
possivel definir uma unidade de medida poder-se-á aplicar todas as
operações aritméticas.
De uma escala de um determinado nível pode-se passar para a de
nível imediatamente anterior. O que sucede é que com isto perde-se
precisão na informação. De fato, tendo-se a informação sobre a renda
individual da população de certa comunidade (característica medida
em escala de razão), pode-se sempre expressar essa: mesma informa-
ção em termos das: categorias: renda baixa, renda média e renda alta
(característica medida em escala ordinal). A recíproca às vezes tam-
bém é tentada por investigadores, com o propósito de aplicar mode-
los quantitativos de análise.( De fato, uma característica em escala no-
minal, como é o caso do sexo, por exemplo, pode ser artificialmente
tratada atribuindo-se às duas categorias os dígitos O e 1, respectiva-
mente. É claro que os cuidados na interpretação dos resultados devem
ser extremos.
* É comum emprestar-se a denominação de variável qualitativa às
características medidas em escala nominal ou ordinal, e variável quan-
titativa referindo-se a características medidas em escala “intervalar ou
fe Tazão.JA variável quantitativa pode ser ainda contínua ou discreta,
correspondendo aos conceitos matemáticos de contínuo é discreto.
Quando a variável puder assumir qualquer valor numérico num determi-
nado intervalo de variação, ela será uma variável “contínua. Resultam
geralmente de medições, adotando-se unidádes de medida específicas:
peso, estatura, dosagem de hemoglobina no sangue, concentração de
flúor na água oferecida à população. A interpretação deste tipo de va-
riável leva à noção de valor aproximado, pois não existe um instru-
mento de medida capaz de fornecer precisão absoluta na informação.
Assim, ao se pesar um indivíduo e a balança mostrar 65,50 kg, este
valor, na verdade, é uma aproximação contida entre dois limites reais:
65,455 kg e 65,505 kg. Por outro lado, a variável quantitativa discre-
ta só poderá assumir valores pertencentes a um conjunto-enumerável; os
valores são obtidos por meio de contagem. Se a variável for número de
14 /
filhos por casal, os valores possíveis serão: O filho ou J filho ou 2
filhos ou 3 filhos... O índice CPO, utilizado em Odontologia Sanitária,
é uma yariável discreta.
Masculino 25.754
Feminino 19.300
2
Total 45.054
E === ss
Fonte: São Paulo (Estado) Secretaria de Economia e Planejamento, Departa-
mento de Estatística, 1974. .
15
Tabela 2.2 Número e percentagem de mulheres segundo a religião e uso de
métodos anticoncepcionais (MAC), distrito de São Paulo, 1966.
16
— “Os
valores reunidos passam a assumir o valor médio do inter-
“valo dede classe; portanto, quanto maior for o tamanho da classe,
maiores serão as possibilidades de distorção na análise estatís-
tica. Para tanto, devem ser feitas classes de pequena amplitude,
o que pode acarretar, porém, número grande de classes. Não
existem critérios rígidos para se estabelecer o número ideal de
classes, podendo-se sugerir 10 a 20 como um número razoável.
— As classes devem ser mutuamente exclusivas, para que não haja
dúvida na localização dos valores da variável na distribuição
(vide tabelas 4.1 e 4.5); as notações correspondentes a esta exi-
gência são exemplificadas com os valores zero e dez:
O —| 10, para significar que o intervalo compreende os valo-
res da variável maiores do que zero (excluído) e
até dez (inclusive);
O |— 10, para significar que compreende os valores da variá-
vel a partir de zero (inclusive) e até dez (exclusi-
ve);
0—1 para significar que compreende os valores da variá-
o
a)
audição errada, má locação do dado na lista de apuração. Outro ponto
a ser ressaltado é a dificuldade de controle, pois para executá-lo há
necessidade de se repetir toda a operação e, caso após o controle se
chegue a resultados diferentes, surgira a dúvida sobre qual das duas
contagens é a correta.
18
ou transformada em “picote” por um alicate
especial, produzindo um
sistema binário de codificação (picote = sim,
furo = não : picote =
masculino, furo = feminino). A separação das
fichas para a contagem
e obtenção da distribuição de fregiiências é feita
com auxílio de estiletes.
A apuração mecânica, empregada pela primeira
vez no censo dos
Estados Unidos da América em 1880, requer o
uso de equipamento
eletromeçânico que faz separação e contagem de
cartões segundo as va-
riáveis. Os cartões (figura 2.3) são perfurados, verificados
e depois se-
parados em máquinas chamadas classificadoras.
£ á Ee ROSAS SDS escassa setemsrarese à
Eua
aaa PRADOS ADERIR DAL LTNT TDT TATTOO [OERRRRRRERARERES
R
k
eira
19
Uma tabela deve ser auto-suficiente, isto é, deve ter significado pró-
prio, de modo a prescindir. quando isolada, de consultas ao texto. Para
tanto, algumas sugestões são oferecidas, servindo como orientação ge-
ral.* Assim:
20
— Chamadas, também colocadas no rodapé,
servem para escla-
recer minúcias em relação às casas,
colunas ou linhas. São nu-
meradas, - geralmente, em algarismos
arábicos (também costu-
ma-se usar letras minúsculas ou símbolos
gráficos).
ii) Nenhuma casa da tabela deve ficar em branco, apresentando
sempre um número ou sinal, a saber:
- (hífen), quando o valor numérico é nulo;
-.. (reticência), quando não se dispõe de dado;
? (ponto de interrogação), quando há dúvidas
quanto à exatidão
do valor numérico;
$ (parágrafo), quando o dado retifica informação anteriormente
publicada;
O; 0,0; 0,00 (zero), quando o valor numérico é muito
pequeno
para ser expresso pela unidade utilizada. Se os valores são expres-
sos em números decimais, acrescenta-se o mesmo número
de casas
decimais ao valor zero;
x (letra x), quando o dado for omitido a fim de evitar individua-
lização da informação.
2
Escola
Número e percentagem de insetos capturados em domicílio na março
Tabela 2.3 a Iguape,
Agricola de Iguape, São Paulo, segundo espécie e tipo de captura,
junho e setembro de 1977.
25 Apresentação gráfica
2
Alguns pontos devem ser respeitados na construção de um gráfico,
a saber:
— o tamanho deve ser adequado à sua publicação em revistas,
periódicos, cartazes ou livros;
— deve ter sempre um título;
— deve ser construído em uma escala que não desfigure os fatos
ou as relações que se deseja destacar
Os gráficos podem ser cartogramas ou diagramas; entende-se
cartograma o mapa geográfico ou topográfico em que as fregiiências
das categorias de uma variável são projetadas nas áreas específicas do
mapa, utilizando-se cores ou traçados cujos significados constam em le-
gendas anexadas às figuras (figura 2.4). Em epidemiologia, os mapas
alfinetados são de grande emprego para apreciar o aparecimento e ex-
pansão de certas moléstias.
Morbidade em 1971-1973
Coefic/100.000 habs.
DO vos ma
DO ese ns
CM ss» ++»
BEE ves» 350
Figura 2.4 Morbidade por meningite meningocócica segundo os distritos sanitá-
Fios no município de São Paulo no período de 1971 a 1973.*
ma
e Iversson, Lygia Busch, Meningite Meningocócica no Município de São Paulo no
Período 1968-1974; Aspectos Epidemiológicos, dissertação de mestrado, Faculdade
de Saúde Pública, USP, 1975.
23
i s são gráficos em que a magnitude das fregiiências é re-
presentada por certa mensuração de uma determinada figura geométrica,
Se a medida utilizada for o comprimento, tem-se o diagrama de orde-
nadas: caso se utilize a área ou superfície da figura, tem-se diagrama
de barras, histograma, setores de círculoe diagramas circulares; quan.
do se usa o volume da figura, obtém-se o estereograma. Na representa-
ção de um diagrama deve ser levada em conta a natureza da variável.
Regiões %
Norte 3,9
Nordeste 30,3
Centro-oeste 55
Sudeste 42,7
Sul 17,6
Total 100
24
população
Y%da
25
% da população
[1]
Norte Nordeste Centro-Oeste Sudeste Sul y
)
Regiões
quadrado do raio (r), isto é, C =x 1º, e desde que as áreas dos diver-
sos círculos devem ser proporcionais às magnitudes das fregiiências, isto,
é. C =a f ondea é fator de proporcionalidade, segue-se que:
o : x
af =x ?,ousea,r = V f. Se se chamar v ç dea”, tem-se
26
Norte: 39 0'= 1,970?
Nordeste: 30,30'
/ = 5,500"
Centro-oeste: V55aº = 2,35aº
Sudeste: V42,7 w = 6,53"
V1760' = 4,200"
A figura 2.7 representa esta distribuição, com q* = 0,22 cm.
Norte O
Eentros (e) (em) 1)
Nordeste
deste Sudeste
2
360º t
mes
“CE
a distribuição da tabela 2.4 será representada na figura
Assim,
2.8 por:
360º
Norte .—
100% x39% = 14º
360º
Nordeste: 100% x 30,3% = 109,1º
3600
-geste:
Centro-oeste 100% x 5,5% = 19,80
3600
Sudeste: 100% x 42,1% = 153,7º
3600
Sul: x 17,6% = 63,4º
100%
Nordeste 30,3%
Norte 3,9%
Sudeste 42,7%
28
( No caso de se ter distribuições de fregiiências a duas ou mais
variáveis qualitativas, o problema é mais complexo, pois é preciso utili-
zar O estereograma, em que, no lugar de uma reta de sustentação, tem-
se um plano; em lugar de retângulos, desenham-se paralelepípedos
e
a mensuração proporcional à frequência deixa de ser a área
da figura
geométrica para ser o respectivo volume. Com isto os gráficos
serão
construídos em perspectiva, o que dificulta a execução. fara facilitar,
o que se faz é representar as modalidades da distribuição
de uma das
variáveis, para cada um dos valores da outra variável reduz-se, assim,
a um gráfico de barras ou linear.
A distribuição apresentada na tabela 2.5 poderia ser representa-
da sob a forma das figuras 2.9 ou 2.10.
30 0 0 5 10 15 20
Médicos por 10.000 habs.
Figura 2.9 Número de médicos por 10.000 habitantes em capitais e grandes cida-
des € no restante do território de cinco países da América Latina, anos próximos
le 1970.
Fonte: Organización Pan-Americana de la Salud, Las Condiciones de Salud en
las Américas, 1969/1972 (Publ. Científica n.º 287), 1974.
9
Tabela 2.5 Número de médicos por 10.000 habitantes em capitais e grandes cida-
des e no restante do território de cinco países da América Latina, anos próximos
de 1970
30
8 =)
=
o
8S 20
s
ze o
Ss
Ezo
õ A
A
a
Argentina Bolívia Colômbia México Venezuela
Figura 2.10 Número de médicos por 10.000 habitantes em capitais e grandes cida-
des e no restante do território de cinco países da América Latina, anos próximos
de 1970.
Fonte: Organización Pan-Americana de la Salud, o ponalalanes de Salud en
las Américas, 1969/1572 (Publ. Científica n.º 287),
30
v) Diagrama linear. Foi comentado que no caso das variáveis qua-
litativas não se justapõem os retângulos nem se unem as ordenadas dos
diagramas; há, entretanto, um caso que foge à regra geral,
o das séries
históricas. Nesta eventualidade é lícito unir as extremidades das retas,
tendo-se então
o diagrama linear (figura 2.11), que conduz a uma
interpretação dinâmica do fenômeno estudado.
300
Indice de salário mínimo real
100.
º
1958 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74
Anos
Figura 2.11 Evolução do salário mínimo real em São Paulo, dezembro 1958 a
maio 1975.
Fonte: Camargo, C.P. F. et al. São Paulo 1975, Crescimento e pobreza, Edições
Loyola, São Paulo, 1976.
200:
on RnB A
Anos
Figura 2.12 Número de casos da moléstia X, na área Z, 1970/1974 (dados
hipotéticos).
31
Número de casos
200
300
200
100
0
70 n 72 73 74
Anos N.º
1970 8.000
1971 7.600
1972 7.200
1973 7.300
1974 7.000
EE
EEE ES e E
Total 37.100
32
8.000
6.000
de casos 5.000
4.000
Número
3.000
2.000
1.000
8.000
7.800
Número de casos
7.600
escala
7.400
7.200
7.000
'Ampa
tação” 4000
33
2.5.2 Representação gráfica de variável quantitativa
0|— 10 97
10 |— 20 128
20 |— 30 97
30 |— 40 92
40 |— 50 88
so |— 60 97
60 |— 70 83
Total* 682 RS
E
* Excluídos os casos com idade ignorada (123) e de pessoas com 70 o anos e
mais (44).
Divisão Na-
Fonte: Brasil (Ministério da Saúde), Registro Nacional de Tumores,
cional de Doenças Crónico-Degenerativas, Rio de Janeiro, 1978.
34
Recomenda-se este tipo de representação pela facilidade
com que per-
mite a visualização do andamento genérico das
fregiiências.
igura 2.16 mostra o polígono de fregiiências
correspond
distribuição da tabela 2.7. 4 En
-8 8E sssss83a8s8
de casos
Número
3 “Do
60 70 so
Anos
35
casos
de
Número
+ + + + + +
o 10 20 30 40 50 60 70
Anos
0— 5 15 5 3,0
si— 2 63 15 42
20 |— so 151 30 5,0
so — 65 79 15 5,3
65 |— 100 s4 35 1,5
otal 362*
36
Casos por ano de idade
Anos
04 r — — r r 1
O 510 20 30 40 gp 60 70 80 90 100
Anos
3
Outro grafico para representar variável quantitativa é o polígono
de fregiiências acumuladas; neste caso, O interesse não simplesmente
a frequência de um determinado vator ou classe de valores de uma
variável. mas sim o conhecimento da freqiiência total dos valores in.
no — 140 56 56
140 — 17.0 156 56 + 156= 212
17.0 — 20,0 59 56+ 156+59=271
20.0 — 23,0 2 56+ 156+59+2=273
230 |— 260 1 56+156+59+2+1=274
260 |— 29,0 1 56 +156+59+2+1+1=275
Total 275
Fonte: Dados ainda não publicados, cedidos por Maria Stella Levy.
acumulada
Frequência
25
sssuce a E» —— 20,3%
ÉE. dad
T T T 0%
170 200 230 260 290
as ceems
Peso em kg
156
14,3
Figura 2.20 Distribuição do número de meninas de 4 anos segundo peso, Santo
é, 1969.
Fonte: Dados ainda não publicados, cedidos por Maria Stella Levy.
38
feriores a um fixado, Para a confecção deste diagrama há necessidade
de se somar a freqiiência de cada classe às fregiências das classes que
ap b um totald inado fregiiênci. lado
que j representa o número de vezes em que a variável classificadora as-
sumiu um valor menor do que o extremo superior da classe conside-
rada. O polígono é então construído a partir dos pontos representativos
dos valores das fregiências acumuladas no eixo das ordenadas e o valor
superior de cada intervalo de classe, respectivamente, nas abscissas.
Demarcados Os pontos, estes são ligados entre si, sendo que o primeiro
é unido ao eixo das abscissas no extremo inferior da primeira classe e
o último ponto ao extremo superior da última cJasse, formando-se neste
último segmento, perpendicular ao eixo das abscissas, uma nova escala,
que poderá ser em termos de porcentagem, graduada de O a 100% (ta-
bela 2.9 e figura 2.20). » à 10 % Gio
O gráfico será utilizado nas seguintes situações:
em Conhecer a fregiência, em termos de percentagem, de valores
inferiores a um valor determinado da variável em estudo. Se
o valor for 17 kg, a partir deste ponto, no eixo das abscissas,
constrói-se uma perpendicular que vá de encontro ao polígonó
de fregiências acumuladas e daí traça-se outra perpendicular
à primeira, até encontrar o eixo das percentagens. Lê-se 80,5%
que é a fregiiência relativa (%) com que apareceram os valo-
res inferiores a 17 kg; portanto, há 80,5% das meninas de 4
anos com peso até 17 kg. Outra informação do gráfico, por
exemplo, é a de que 20,3% das meninas pesam até 14 kg.
— Conhecer o valor que define uma dada fregiiência relativa (% ).
Por exemplo, conhecer qual é o peso abaixo do qual se tem
50% da população de meninas de 4 anos (peso mediano).
Parte-se do percentual 50 na escala criada, traçando uma linha
paralela ao eixo das abscissas que vá de encontro ao polígono
de fregiiências acumuladas. Deste ponto, traça-se uma perpen-
dicular que vá de encontro ao eixo das abscissas. O ponto en-
contrado foi 15,6 kg, representando então que 50% das meni-
nas têm peso até 15,6 kg. Outro exemplo, 25% destas meninas
têm peso até 14,3 kg.
o— 1 5,49 3,96
1|— Ss 2,53 1,95
st— 10 2,94 1,27
1 |— 15 4,00 1,56
15 |— 20 9,78 2,94
20 |— 25 13,84 3,26
25|— 30 14,79 327
30 |— 35 15,00 2,82
35|— 40 16,16 3,05
0 |— 50 17,01 3,05
50 |— 60 16,35 411
60 |— 70 19,72 6,32
70 |— 100 30,61 13,20
Total 11,33 3,09
40
habs.)
10.000
(x
médios
Coeficientes
Masculino
=——— — Feminino
Anos
25 — 30 16 10
30 — 35 1,4 23
35 |-— 40 L6 11,1
40 |— 45 . 11,4 32,9
4s |— 50 20,7 53,8
50 |— 55 40,3 100,4
ss |— 60 82,5 192,5
60 |-— 65 182,5 252,0
2 >
42
o
o
EEE
habs.)
10000
(x
incidência
de
Coeficientes
Ri
porre
7
Idade
Figura 2.22 Coeficientes de incidência de câncer do pulmão (x 10.000 habitan-
tes), sexo esculino,; segundo idade, em São Paulo e Alameda (Califórnia,
E.U.A.), em 1969.
Fonte: World Health Organization, Caner incidence in five continents. vol. II
(ARC Scientific Publ. n.º 15), Lyon, 1976.
43
O
habs)
Coeficientes de incidência (x 10000
25 30 35 40 45 50 55 60 65
Idade em anos
— Alameda, EUA.
——— São Paulo.Brasil
44
e-—— o 1969
oo 1970
45
Capítulo 3
Análise descritiva de uma distribuição de
fregiiências a duas variáveis qualitativas
Fonte: Berquó, E. et. al., “Notas sobre o diagnóstico das parasitoses intestinais. 1
— Dados comparativos entre os resultados obtidos pelos métodos de 'FAUST” e
'MIFC”, Arquivos Fac. Hig. Saúde Pública, São Paulo, 12: 2, 1958.
47
ou. o que é o mesmo, se
fi. fá fo. fa
fu = fa = Co
fe fo pe fi. fo
fe. = õ' do que segue: fiz ú
e
fas f fo. fo
e
e . do que segue : bo 22 = n
1
então, nada mais natural que, diante de uma tabela de 2 x 2 observada,
verificar se as relações acima estão ou não satisfeitas. Esta verificação,
em termos descritivos, pode ser feita comparando-se a tabela de dados
observados com aquela que se teria caso houvesse independência, isto
é, na qual os valores de fj, fio, fo; € fpo fossem dados pelas relações
acima. Para o presente exemplo da tabela 3.1, a tabela de independên-
cia correspondente se constitui na tabela 3.3.
MIFC
FAUST E = ficas
+ 34,03 47,97 2
- 48,97 69,03 118
Total 83 17 200
49
nulo. pelo fato de ser nula a soma algébrica dos quatro desvios, Ist
sempre acontecera. uma vez que na tabela 3.3 os totais marginais são
os mesmos da tabela 3.1, isto é, estão fixados pelas condições de
cada problema particular, Levando isto em consideração, Karl Pears a
introduziu uma estatística para medir a referida discrepância, Tepresen-
tada por y (qui — quadrado) e definida por:
e ta?
(fa - feto) fe EN?
(ta — de)
n n
JP ==
pa a
fi. fo
(o 8 (io 8)
n n
De. e 2 o é 2
n
pl Tg Oo
fo. fi; fo. fo
n n
e = [052]
Esta estatística pode ser representada também por
E
onde O representa as fregiiências observadas (tabela 3.1), E representa
as freqiiências esperadas (tabela 3.3) e a somatória é estendida às qua-
tro parcelas correspondentes às caselas da tabela de 2 x 2
É fácil perceber que x? = zero no caso das duas variáveis em
consideração serem independentes, e x* > Ono caso de associação.
Para o exemplo das tabelas 3.1 e 3.2, o valor de x? será dado por:
— (80-34,03)2 n (2-47,97)2 | (348,97)? | (115—69,03)) |
* 34,03 47,97 48,97 69,03
— (459? | (caso (4591? | (SIT
34,03 41,97 48,97 69,03
= 62,099 + 44,053 + 43,154 + 30,613
= 179,919.
* Pearson, K., On the Theory of Contingency and Its Relation to Association and
Nornial Correlation, Draper's Company Research Memoirs, Londres, 1904.
so
Diante deste resultado, pode-se pensar que se está
mais próximo
de uma associação do que de independência entre os dois métodos
co-
prológicos considerados. Por outro
lado, desde que SO = 0,976
é
maior do que 118 0,025, pode-se pensar então em uma possível
associação positiva entre os resultados dos
que x”, pela própria definição, não possui dois métodos. Uma vez
um limite superior, pois
varia de zeroa mais infinito, seu valor, Por si só, não permite aquilatar
nem O grau nem o sinal da associação. Para ilustrar
esta limitação
de x? considerem-se as tabelas 3.4 e 3.5 (contendo
dados hipotéticos),
que apresentam a mesma situação extrema de associação
entre as va-
riáveis A e B, isto é, A; e B; estão associadas positivamente
de forma
perfeita, uma vez que a categoria A, de A só aparece na presença
da
categoria Bide B. A única diferença entre estas duas tabelas reside no
fato de que a tabela 3.5 é obtida multiplicando-se por 10 todas as
fregiências da tabela 3.4 e, no entanto, o valor de x? também passa
de 100 para 1.000.
Tabela 3.4 Dados hipotéticos, mostrando associação. perfeita positiva entre
B »
B, B, Total
A
A 60 — 60
A, — 40 40
Total 60 40 100
x = 100
B B, Bo Total
A
A, 600 — 600
A, fes 400 400
Total 600 400 1.000
x2 = 1.000
51
Por esta razão, várias tentativas foram feitas no sentido de propor
um coeficiente que fosse igual a zero no caso de independência e atin-
gisse valores bem definidos, positivos ou negativos, no caso de asso-
ciação perfeita, positiva ou negativa, respectivamente.
2 2
Uma alternativa proposta é trabalhar com E = O (phi quadra-
o =+/=+1
100
100
“Bl
A a B, B, Total
|
A; | — 60 60
A, | 40 — “0
Total 40 60 100
* = 100
Este resultado mostra que O é apenas indicador da intensidade
da associação, variando entre zero e a unidade, quando se passa de
independência para associação perfeita; contudo, não dá indicação sobre
o sinal da associação. É claro que o valor de O, acompanhado ou de
1 12
toda a tabela ou de a e de po resume toda a informação de que se
necessita, isto é, magnitude e sinal da associação. Para a tabela 3.1,
52
179,919
por exemplo, O = + “200 = + 0,948; este valor tão pró-
. s
ximo da unidade, e maisa o fato de ques
fi
= 0,976 é maior do que
f
, 2.
= 0,025, mostram que praticamente todos os exames
apresentaram re-
sultados concordantes. Na prática, entretanto,
é pouco operacional a
apresentação. de toda esta informação, principalmente
quando se tem
um número grande de tabelas 2 x 2. Por este motivo,
prefere-se um
coeficiente que sintetize ao mesmo tempo as duas
informações.
O coeficiente de associação de Yule *, definido a seguir,
satisfaz
estes requisitos:
Q = fu fo — fio fo
fu foz + fio fa
O — (40 x 60)
de E ME AD =-1
isto é, Q atinge o valor — 1 no caso de associação perfeita negativa.
É fácil verificar que, no caso de independência, Q = 0; de fato,
tem-se:
———
* Yule, G. U. e Kendal, M. G., An Introduction to the Theory of Statistics,
Charles Griffin & Co. Limited, 14.2 edição, 1950.
s3
fifa
DA fofo fifo z fo fi
q=—" e P=o
fi. fa x fo. fo g fi. £o E fo. £a
n n n n
Para a tabela 3.1, Q vale:
80x 115 —- 3x2 9.194 N
q= DE DODEI O OD = + o
80 x 115 + 3x2 9.206
Em resumo, a análise da tabela de associação 3.1 pode ser feita
através de:
é = + 179,919
o = + 0,948
QO = + 0,999
Em termos descritivos, Q contém toda a informação de que se ne-
cessita; isto é, mostra que os dois métodos concordam (sinal + de Q)
de maneira quase perfeita (magnitude de Q) O estudo completo da
associação, do ponto de vista de inferência estatística, será visto no ca-
pítulo 17, ou seja, ter-se-á oportunidade de saber se um valor encon-
trado para x poderá ou não ser pensado como tendo ocorrido por
mero acaso.
Antes de terminar esta seção, vale a pena tecer alguns comentários
sobre o xº aqui apresentado.
Em primeiro lugar, é útil saber que x? pode ser mais facilmente
calculado pela fórmula abaixo, que evita o cálculo prévio da tabela
teórica de independência, isto é, por:
54
. Sen 2, 40, x? pode ser utilizado, porém será preferível empre-
gar o x? corrigido, x, dado pela fórmula
T
Aê B, B, (êa B; are B | Tot
as |
A, fy fo a fy ... fa | fi,
A, for foo ... É; ihio fos | b.
A, fa fo ... fy Et fis | t.
. . . . . | &
. . . 5 : | a
A, fa fo ... fy sas Es | É,
Total fi fo ... ts vei Es p
É E tes,
Fisher, R. A., iara Methods for Research Workers, Hafner Publishing Co.,
New York, 10.2 'ed., 1948
ss
Quando em uma tabela de contingência de r x s subsiste a igual-
.t
G=*lqmi=12. rej=12..5) des
que os dois atributos ou variáveis A e B são independentes. Caso con-
tránio, A e B estão associados.
Para uma tabela de contingência quadrada, isto é, com r = s,a
idéia intuitiva de associação perfeita é a de que todos os n indivíduos
reriam estar concentrados na diagonal principal (associação perfeita
positiva. tabela 3.8) ou na diagonal secundária (associação perfeita ne-
gauva. tabela 3.9).
A e B, sus B, a B, Total
A, | — ... — Es fe f.
>»
Ie mo jm o
Total fi sum ts a fe in
>> DD Dot ow lOOoOoo.
Tab á -
Total
&.
f.
n
O x* proposto anteriormente
passa a ser definido, para
as tabelas
sp ft
do tipo'da 3.7, 3.8 e 3.9, por:
o (is teta
$ =
a fe£s
“Do
s
O valor da contingência quadrática neste caso é:
(193 — 135,4)? (399 — 373,2)?
= E ca BF
é 135,4 373,2
(167 — 1423)?
Sia e 15,441.
142,3
Idade ao | ê
morrer Do 28.º dia at:
Nivel | Ames
.º do
dia 4(exclusive)
ano de idade Dela 4
completos anos | Tora
ue da mãe
Secundário
ou mais 193 89 17 299
Primário
(1 e 2 anos) 399 324 101 824
Nenhum 424 529 167 1.120
> Idade ao
= morrer Do 28.º dia até
Nível
deins > e des
.º dia do 1 ano de idade
(exclusive) Decompletos
1a 4an05 | Tora
trução da mãe
s ária
ou mais 135,4 125,6 38,0 299
Primário
(1 e 2 anos) 373,2 346,1 104,7 824
Nenhum 507,4 470,3 142,3 1.120
58
Da mesma forma que no caso das tabelas de 2 x 2, também para
as tabelas de contingência há interesse em medidas descritivas e sintéti-
cas do grau da associação entre as variáveis A e B. Vários coeficientes
têm sido propostos com esta finalidade.
O coeficiente de contingência de Pearson * definido por
CS q =
se anula no caso de independência, mas não atinge o valor 1 para o
caso de associação perfeita, a não ser para um número infinito de mo-
dalidades dos atributos A e B. No caso particular de r = s = 2,
atinge o valor máximo 0,707 para o caso de associação perfeita. Para
outros valores de r = s, tem-se, no caso de associação perfeita:
r=s= 3 Valor máximo deC 0,816
0,866
VoOJaAunA
0,894
0,913
0,926
0,935
MM
0,943
10 0,949
Daqui fica claro que não tem sentido comparar o valor de C para
uma tabela de contingência de r x s com o de C' para outra tabela de
rxs,comr xresxs.
Para a tabela 3.10, C vale:
/ [75,421
E A UT
2243+75,421 2318,421
que, confrontado ao valor máximo de C, para r = s= 3(0,816),
mostra um fraco grau de associação entre nível educacional da mãe
época do óbito infantil. -
O coeficiente de contingência de Tschuprov, definido por:
é :
=>"
nV/ (1-1)
(6 —D
ou ?
To *AvE- DE. D
* Yule, G. U. e Kendal, M. G., An Introduction tot the Theory of Statistics,
Charles Griffin & Company Limited, 14.2 edição, 1950.
59
também se anula no caso de independência, mas só atinge o limite su-
perior| no caso der =s.
Para a tabela 3 10, tem-se:
15421| = + 75,421 =
T=+ >>>.
v 22483 V G-1) G-1) 2243
x 2
= + v 0,0168 = + 0,130
a dr
=” nxmin(r— 1,s-— 1)
/ x
Wo + nxmin(r— 1,s—1)
V=+ RR
2243 xmin (3 — 1,3 — 1)
75,421
= + /55000
2.243 x 2
= +'0,130
resultado igual a T.
Antes de finalizar esta seção, deve ser observado que os três soe
ficientes aqui d da ê e
portanto, a utilização dos mesmos está sujeita às mesmas Testrições
do y.
60
3.3 Medidas baseadas no conceito de melhor predição da associação
Muito embora o estudo discutido da associação, tanto
em tabelas
de 2x2 como der xs, seja feito na maioria das
vezes através das
medidas tradicionais, definidas anteriormente, existe toda
uma linha de
pensamento, devida principalmente a Goodman e Kruskal *,
baseada
no conceito de “melhor predição” da associação, que se
passará a expor.
As medidas ou coeficientes propostos dentro dessa
linha vão de-
pender do tipo da tabela de contingência considerada, isto
é, se a ta-
bela é ou não simétrica, e do nível de mensuração das duas
variáveis
qualitativas em questão, ou seja, se são nominais ou ordinais.
Uma tabela de contingência é dita assimétrica quando a politomia
correspondente a uma das variáveis precede a outra no sentido de
que
uma variável é considerada como independente e a outra como depen-
dente.
Condição do
recém-nascido
Defeituoso Normal Total
Periodo da | (By) (Bo)
gestação
(A)
Total 17 87 104
Fonte: Bradford Hill A.. Doll R., Golloway T., Hughes J. P., “Virus Disease in
Pregnancy and Congenital Defecis”, Brit. J. Prev. Soc. Med.; 12, 1, 1958.
e
Outros exemplos de tabelas assimétricas são dados pelas tabelas
3.13 e 3.14.
a 3.13 Reações dos pacientes hospitalizados e acamados, de 14 a 44 anos,
à intrusão visual no seu espaço pessoal durante o banho no leito, segundo o sexo.
R «B) Indiferente
(B)
Não-indiferente
jo-indiferent
(B,) Total
(A)
Feminino (A,) 17 40 57
Masculino (A,) 32 20 52
Total 49 60 109
onde max (f.;) representa o maior valor dentre os totais marginais f.1,
fiz, ..., f.s; max (fis) representa o maior valor dentre as fregiên-
cias da linha correspondente a A;; max (f,;) é o maior valor dentre
as fregiiências da linha correspondente a A»; e assim por diante.
r
> [max (f,)] é a soma destes valores máximos.
tel
Nestas condições, A, pode ser interpretada como a proporção de
erro que pode ser eliminada na predição do atributo B, pelo fato de
se levar em conta o conhecimento da classificação dos indivíduos se-
gundo o atríbuto A.
62
63
“LL6] “OTnNA OSS 'SENUAO OP RIRIISUIA RONDA 'JVANIO 'DONUQUOZZ-0ppS “soa
2 sonbpjoIg :auod
— Ojmog OPS w> apopipunoaj y “Hd 'D BIRD “V d'O 'BIRAO “d onbrg
PuSowg Sousuasoo)
o —
8907 9» LsE €6L o! er mos
os nt 8 8 L 6 s try); nO)
st u L € I 9 (ty) eundsa
e
e ot s s L v z (Fy) aueoneid
-OBU QJUBISDIOIA
€or tu 91 6 E s st (Ey) queoneid
jueISdOLId
L6LT s8E LOE 691 sat seI sIz Cy) eugro
, & (a) (vw)
ai e. a «ED O | son omite
moL a
ASpnadE Hot -ouão uaseasT sreuoradoo
UOL SOL
*S96I “med OBS “EISIAMNUS EP EoOd) EU OpEsn [euoldaouonus Olou O 2 OsiSIjoI E Opundos SSIYNA IE DIJAQoI
Assim, por exemplo, para a tabela 3.14, se uma mulher fosse se-
lecionada ao acaso do total de 2.068 mulheres, a chance de ela usar,
por exemplo, o meio anticoncepcional Ogino-Knauss é da ordem de
9,33% (193/2068). Será que o conhecimento da religião de uma
mulher melhora a predição quanto ao tipo de anticoncepcional usado?
Para tanto, calcula-se o valor de Ap. Tem-se:
n = 2068
max(f.;) = 468
max(f;) = 415
max(f;) = 25
max(fy) = 10
max(fy) = 15
max(f;;) = 18
s
> max(f;) = 483
El
=
= 480468 (1515 o o094
2.068 — 468 1.600
ou seja, o conhecimento prévio da religião da mulher praticamente não
melhora a predição quanto ao tipo de anticoncepcional usado, uma vez
que esta melhora é da ordem de 0,94%.
Com referência à tabela 3.13, tem-se:
n = 109
max(f.;) = 60
max(f;;) = 40
max(f,;) = 32
2
> max(fy) = 72
Fl
72 — 60 12
A =—— =| = 0,245
109 — 60 49
mostrando que o conhecimento do sexo do paciente hospitalizado e aca-
mado melhora em 24,5% a predição de sua reação
à intrusão visual
no seu espaço pessoal durante o banho no leito.
A estatística A, será indeterminada se e somente se todos
n indiví-
duos estiverem classificados na mesma modalidade de B; caso contrá-
rio, A, varia entre zero e a unidade, inclusive. à, toma o valor
zero
64
se e somente se o conhecimento de A não melhorar
de B; toma o valor 1 se e somente se em nada a predição
o conhecimento de A especificar
que o indivíduo pertence. Quando
há independência (conforme definid a anteriormente), À, será igual a
zero, mas a recíproca não é sempre verdadeira. De fato, para a tabela
3.12,
= 87 = 87 + ú
"104 — 87
e, no entanto, não há independência, como é fácil
coeficiente de Yule: ver pelo valor do
q = dtHol TS ade
Cqxst + 3x360 079
[max(h)] — max(&.)
À j=1
mu dÊ-.
n — max(f.)
r s
6s
Para a tabela 3.1, tem-se:
n = 200
max(f,.) = 118
max(f;)) = 117
max(f;) = 80
max(f;) = 115
E max(ty) = 195
ist
max(f)) = 380
max(fo) = 115
sz max(f;) = 195
FI
195 + 195 — 117 — 118 155
A
2x200— 117 — 118 165
66
n=L (De, sm z >ja Eu |
= js il
2
Mm 1 = coz:0 1193(324
! (324 ++ 529
529 + 101 + 16767)
+ 89(101 o1 +
4 + 0,6393 — 1
p = 2x0,2274
+ 0,6393 — 1º 0,2609
1 — 0,6393
7
Capítulo 4
Análise descritiva de variáveis quantitati-
vas: medidas de posição, de variabilidade,
de assimetria e de achatamento; noções
sobre correlação e regressão
Idade em
anos completos Nº Idade N.º
22 1 47 1
27 1 48 1
30 1 so 2
31 1 53 5;
34 1 56 1
35 3 s8 1
36 5 59 z
40 1 60 1
42 1 61 1
43 1 63 1
44 2 6s 3
4s 1 67 2
46 2
Total 40
69
Tabela 42 Vermes machos de A. Galli, segundo o o comprimento. |
Comprimento Comprimento |
em milimetros Nº em milímetros N.º |
2 3 25 2 |
]
3 2 26 2
14 - 21 1 |
1s - 28 8 |
16 1 29 3 ]
1 3 30 9 |
18 1 31 2 |
19 1 32 8
20 2 33 3 |
2 - 34 3 ]
2 - 35 =
3 1 36 2
24 1 |
Total 58 ;
;
Tabela EA Dosagens de iodo estável unido às proteínas séricas (PBI!27) de
ambos os sexos, com bócio, de cidades do Estado de São Paulo. |
PBI27 (ug/100ml) No
20 |— 30 Ee
30 |— 40 5
40 |— 50 28
50 |— 60 2
60 |— 70 37
7 i— 80 25
80 |— 90 u
90 |— 10,0 7
1,0 |— 11,0 5
Total 144
Fonte: Gandra, Y.R., Contribuição para o Estudo do Bócio Endêmico no Esta-
do de São Paulo, tese de cátedra, Faculdade de Higiene e Saúde Pública, USP,
1964.
70
”
a
30+
N
ê N
52
8 E!
820 q
e
É 45 N
2 N
10
"
E
5 ;
"
4 N
20 80 10,0 12
pBIt27
(u9/100 ml)
Figura 4.1 Dosagens de iodo estável unido às proteínas séricas (PBI!27) de
escolares de ambos os sexos, com bócio, de cidades do Estado de São Paulo.
n
portanto. da definição de centro da distribuição. Todavia, o centro
de um conjunto de valores não está bem definido e pode ser interpre- !
tado de várias maneiras, cada uma das quais descreve uma proprieda-
de da distribuição, que pode ser razoavelmente chamada de tendência
central
São medidas de tendência central:
média aritmética
mediana
moda
média geométrica
média harmônica
X = idade em N.º x; f,
anos completos (£)
tvalores x, de X)
2 1 22
27 1 27
30 1 30
31 1 31
3 1 34
35 3 105
36 5 180
“0 1 40
42 1 42
43 1 43
44 2 88
4s 1 45
46 2 92
47 1 47
48 1 48
50 2 100
53 3 159
56 1 56
s8 1 s8
s9 2 118
60 1 60
61 1 6
63 1 63
6s 3 195
67 2 134
Total 4, 1.878
i=
22+27+430+31+...+65+65+65467+67
40 a
E 22x1 + 27x1 + 30x1 +31x1 +34x1 +35x3+36x5+... + 6513 +67x2
40
% f x &
x £ Xo fo
Xe fe % fe
k k
Total > f=n 5 x f
Fl il
k k
3a t Du ti
il El
E Es e
n n
2 &
E!
EO
= Idade Ponto médio Número
É de
valores x, de X da classe pRsientes x f
1
22 — 30 25 2 so
30 |— 40 35 q 385
so i— s0 4s 10 450
so i— 60 55 9 495
60 i— 70 65 8 520
Total 40 1.900
74
Suponha-se que um aluno, durante um curso, tivesse obtido as
notas 7, 6 e 5, e que à primeira fosse dado um peso 2, à segunda um
peso 3 e à terceira um peso 5. Nestas condições, pode-se pensar numa
distribuição na qual, em lugar das fregiências observadas, ter-se-iam
fregiiências hipotéticas ou pesos, isto é:
ota:
valores x, de X Pesos = p; X P;
7 2 14
6 3 18
5 5 25
Total 10 57
57
A média obtida por este aluno seria: To = 5,7, a qual recebe
k k k k
> nt Dwmto)f Satf+Dchf
5. HH - = ist
E im = n n
k k
Du fi + ne Duf
=
E +c=t+c
n n
2.
Se forem multiplicados ou divididos os valores de uma variá-
Vel X por uma constante c, a média aritmética de X, X ficará multipli-
cada ou dividida por esta constante.
75
De fato, seja: y = cx
Nestas condições,
k k k
> y É a (e x) fi > x f
-aln-H LH
Sê
y = n n
H
o)
x
Como uma aplicação das duas propriedades anteriores tem-se o
chamado método rápido para o cálculo da média aritmética, ou co-
R=ty+HA
Z= 10x0,25+45=25+45=47,5
= 47 anos e 6 meses, ou 47 anos completos,
Portanto, caso ele tivesse obtido, nas cinco disciplinas, notas iguais,
este valor seria 7. Assim,
TrieTL7ET
s = 7.
4. A
soma dos desvios (diferenças) entre os valores da variá-
vel X e a sua média aritmética X é nula, isto é
k
Sw-mh=o0
FI
' De fato,
k k k
Dw-mh=)nt-St=
il El
3a Bu+» mo... + %
7,8
4.1.2 Mediana
22,5,5,5,5,7,7,5,8,8,5,
a mediana seria a nota 5 e, no entanto, só existem 2 notas menores e
4 maiores do que 5. Esta desvantagem, unida ao fato da inadequacidade
da sua expressão para o manejo matemático, faz com que, em aná-
lises estatísticas, a mediana seja menos utilizada do que a média aritmé-
tica. No entanto, casos existem nos quais o emprego da mediana faz-se
necessário; assim:
80
— Nos casos em que existem valores aberrantes, pois estes têm
sobre a mediana muito menor influência do que sobre à
média aritmética.
Se na graduatória:
24, 37, 41, 52, 63, 68, 82
81
Decis são valores que dividem o conjunto ordenado dos valores
da variável NX em 10 partes iguais, isto é, 10% das observações caem
abaixo do primeiro decil, etc.
-Percentis são valores que dividem o conjunto ordenado dos valores
de X em 100 partes iguais.
4.1.3 Moda ou norma
Dada uma distribuição de fregiiências, a moda — que se repre-
senta por M, — é o valor da variável que corresponde à frequência
máxima, isto é, é o valor mais frequente, daí o seu nome.
Conquanto o seu significado seja o mais simples possível, a moda
nem sempre existe e nem sempre é única. Quando numa distribuição
existem poucos valores da variável, muito fregiientemente não há va-
lores repetidos, com o que nenhum deles satisfaz à condição de moda.
Se os pesos (em quilos) correspondentes a 9 adultos são:
82, 65, 59, 74, 60, 67, 71 e 73,
estas 9 medidas não definem uma moda.
Por outro lado, a distribuição dos pesos de 15 adultos:
63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83
possui duas modas, a saber: Mo = 63 quilos e Mo = 71 quilos. Neste
caso a distribuição diz-se bimodal. Será unimodal no caso de apresen-
tar uma só moda e multimodal se apresentar várias modas.
Uma outra limitação ao uso da moda é a sua instabilidade de “um
conjunto de observações para outro.
É interessante notar que a moda pode ser usada como uma me-
dida de tendência central também no caso de a variável considerada ser
De fato, quando se diz que as doenças car-
de natureza qualitativa.
certo ano, isto
díacas constituíram a causa principal de mortalidade em
quer dizer que na distribuição dos óbitos, segundo a causa mortis, às
doenças cardíacas correspondeu um maior número de óbitos, isto é, a
rubrica “doenças cardíacas” é a moda da distribuição.
Em se tratando de distribuições de dados agrupados, isto é, de
classes de valores, a moda pertence à classe de maior fregiiência. Resta,
para re-
todavia, saber qual o valor da classe que deverá ser escolhido
moda, neste
presentar a moda. Relativamente simples, o cálculo da
caso, é dado por:
1
= t —
Me de ti + £
onde L é o extremo inferior da classe em que está
a moda, t é a am-
plitude , desta classe, f, c f, são, r espectivamente, as fregiências
das clas-
ses adjacentes à classe da moda,
Assim, na Tabela 4.4, a moda
está na classe 30 |—— 40, logo,
L=30
t =10
fi=2
fa = 10
e, portanto,
M = 30 + 10x
10
' =30
+ —
+ 10 6
n/ f
G = nt. nb
Aplicando logaritmos:
log O ou PE fadiga me 2 o Ve
n
k
> (log x) fi
i=t
,
n
83
A media g ica é usada princip em p envol-
vendo mudanças proporcionais. Em Demografia, para se estimar a
população de determinada localidade num ano ts, quando se supõe cres-
cimento geométrico entre dois censos, usa-se a fórmula:
t—t
p= pele)" =»
. t+t
nº
então
th+t th —t
t—t= 2 t 2
Logo,
= 1
E Dq E » e P, torna-se:
tb — t 2
&
Pyz P
p= P(S) =RVp=
=v PP,
Ou seja, P, é a média geométrica de P, e P;.
84
Assim, para uma distribuição de freglências pode-se escrever:
1 n
H = E
E
1 f
1
> | fi
ist il
n
Esta média, como a média geométrica, só é aplicada a certos tipos
de problemas.
30 60 60
A média harmônica é muito usada em Economia, na construção
dos chamados números índices.
8s
4.2 Medidas de variabilidade
ou de dispersão
Q=
Q: — Q,
2
onde Q; e Qs são o primeiro e o terceiro quartis.
> [mm — |
Elo já
n (n-1)
87
2.º) Definir a média dos quadrados das diferenças, que recebe o no-
me de diferença média quadrática:
n n
3 Sam
lo jeil
on (n-1)
Estas duas medidas são pouco usadas pelo fato de ambas envol-
verem n (n — 1) diferenças, o que mesmo para n não muito grande
equivale a um número grande de diferenças. Assim, numa distribuição
de freqiências com 10 observações diferentes, haveria 10 x 9 = 90
desvios. Além disso, a diferença média simples não é de fácil trata-
mento algébrico.
As medidas que se baseiam na diferença entre cada valor e a mé-
dia' da distribuição partem do fato de que a média aritmética é o valor
que todas as observações teriam se fossem iguais entre si. Uma vez
introduzida a noção de variabilidade, esta propriedade poderia ser ex-
pressa dizendo-se que a média aritmética é o valor que todas as obser-
vações teriam se não houvesse variabilidade. Daí resulta que o desvio
(diferença) de cada observação para a média aritmética representa o
quanto as observações variam com relação à média. Nada mais natu-
ral, portanto, que definir uma medida de variabilidade baseada nestes
desvios.
A primeira idéia foi calcular a média aritmética destes desvios, ou
seja, mais concretamente, se as observações tivessem os valores:
1,2,3,4,5
cuja média é x = 3, calcular-se-iam as diferenças, como mostrado na
tabela 4.5,
x g—
1 1-3=-2
2 2-3=-1
3 3-3- 0
4 4-3= 1
5 s-3= 2
Total sG-D=0
obtendo-se para a medida de variabilidade:
5 /
a qual indica que na distribuição acima não existe variabilidade.
É fácil ver que esta medida, que se apóia num argumento lógico,
leva a uma informação errônea sobre a variabilidade.
A explicação deste fato reside na quarta propriedade da média
aritmética, que diz que a soma de todos os desvios das observações para
a média aritmética é nula. Por esta razão, a simples média aritmética
dos desvios não pode ser usada como medida de variabilidade.
Ao se atentar para o fato de que a soma dos desvios é sempre
igual a zero, porque a cada desvio positivo corresponde um desvio igual
mas de sinal contrário (ver coluna 2, tabela 4.5), compreende-se que
a situação pode ser contornada calculando-se a média dos módulos dos
desvios. No primeiro caso ter-se-ia:
x (4 — 3) (x — 3?
1 —2 4
2 -—1 1
3 0 o
4 1 1
$ 2 4
Total 0 10
A emo «16
e a medida de variabilidade seria a = 1,2, a qual recebe o nome de
desvio médio, que, por motivos de ordem teórica, quase não é usado.
x (4 — 3) n=—
1 =2 2
2 -1 1
3 õ 0
4 -1 1
s -2 2
Total 0 6
Varância e desvio padrão
A variância (s?) será a média dos quadrados dos desvios, 2 =2
k
> (x — E) f
s=+ a = + wvariância
n
é a raiz quadrada positiva da média dos quadrados dos desvios contados
a partir da média aritmética; x,, xo, -.... x« podem ser os valores indi-
viduais da variável X ou os pontos médios das classes.
Esquematicamente:
x f m- (x — 32 (x — WD f
x f m—X GG —3?2 (q — 32 £
x £ x —R (x — D2 (x — R)2 £
x fo x —kX (x — 3)2 Gy — D2£
k k
Total n= > f za - Dt
j=i is
90
Valores
ex
(anos)
anÉ édi
6 GD &
G-B G-3S ag ci
Total 40 5.750,00
k
Sm — BD
g ==D
À — O
=D e= RO143,75 Eanos
n 40
s= VS =ãÃvy 143,75=11,99anos
k
+ vn to — (Dut)
Fl il
n = 40
k
> x & = 96000
FI
2
k
3x8) = 361000
Es
sn
+ v 40x96.000 — 3.610.000 = 11,99 anos.
“40
* O desvio padrão é uma quantidade essencialmente positiva,
3. O desvio padrão só é nulo se todos os valores da distribuição fo-
rem iguais entre si, isto é, se não houver variabilidade.
e portanto
=ts,
V== E
3500 a 0,1429
> = 14,29%
(O — Qu) / 2
M
mas, por simplicidade, é costume usar o ponto médio entre Q, e
Q; em lugar da mediana, e o coeficiente de variação quartil fica definido
por:
Q; = o,
Vo =
O; E Q,
43 Medidas de assimetria
P A P
93
Diz-se que P e P” são simétricos em relação a A se A for o ponto
médio do segmento P P, isto é, se as grandezas (P — A) e(P — A)
forem iguais e de sinais contrários.
Mo M, X
30%
8
E
8
o 20%
v
E '
2 1
E I
8 I
ê 1
10% !
I
1
I
r
1
1
1
0% ” T : , T = =
! ..
Figura 4.2 Renda mensal de 3.000 famílias do Distrito de São Paulo, 1965.
95
óbitos
2% —
de
Percantagem
T T T T T T T y
10 20 30 40 50 60 70 8o
Idade (anos completos)
M, = 65 anos
M= 61 anos
X = 60 anos
Fgira é 4.3 Óbitos por câncer do aparelho digestivo, segundo a idade, no muni-
cípio de São Paulo, 1954.
1 k
TDw- th
El
& = $
—— (1)
megas (2)
97
A fim de obter uma medida que independa das unidades de me-
dida, esta soma é dividida pela quarta potência do desvio padrão, e
tem-se:
[Mr
Qu — D'f
n
q : (u- 3)? É
4.5.1 Correlação
98
ão de Y, é o caso de não haver correlação. As figuras 4.5, 4.6 e
4.7 ilustram situações diversas de correlação entre duas , ariá-
veis. De fato, a figura 4.5, que se refere à cálculos feitos para he
pulações urbanas dos 21 Estados brasileiros e do Distrito Fed e
mostra que, se o Estado tem uma baixa esperança de vida ao ni E
tem também, em geral, uma baixa proporção da população de 14 anos
ou mais com curso primário completo. Ou seja, estas duas variáveis
estão correlacionadas no mesmo sentido, ambas, na verdade. associ.
das às condições sócio-econômicas das populações. é E
70
é.
Z o
33
é .
8 .
= e
E 50
s2 x e
vs
gó5o
sê e
”
225 40)! = quis
E .
Sã
89
aL
5
sê .
25 01 A
..
.
20 r=+ 08
30 40 E so 70 x
Esperança de vida ao nascer (em anos)
“o . .
. .
. .
. -
.
“04 .
E e
081
o
2” “o so Bo 10 X
% de mões com cuidados de pré-natal
100
Na figura 4.7 pode ser apreciada uma situação onde as duas va-
riáveis — Ego de incidência de Câncer depel rá e de próstata,
P: SA Ç
próstata
de
te
câncer
de
de incidência
hab.)
(x 100 000
Coeficiente
2 r=— 001
0 1
24 6 810121416 1820222426283 x
Coeficiente de incidência de câncer de laringe
(x 100 000 hab.)
ZQ-Dg-Dt DMyt-nzy
Fl FI
8y = = = E
BIBLIOTECA
FACULDADE DE MEDICINA DE 101
RIBEIRÃO PRETO DA U.S.P.
k k
Dat k=) nt
x il . il
aeZt La]
te J-——s
Para k pares de valores de X e Y, o procedimento para o cálculo
de s,, está ilustrado a seguir:
Vest a Valores
G-—-D G—-D o G—D(W—5)f
dx ey Sh
n & m- o n-—5 G—D
MW —9 6
pec rar
z y2y—Y G—%)
(yo — 7) £
perca pa
»
1
$
o
ko k
Total n=5& SD w-Ds
is Fl
102
A covariância neste caso tem sinal positivo.
1 a —2 2 — 4
2 6 —1 1 —1
3 5 o o o
4 4 1 —1 -1
5 3 2 —2 — 4
s=-10
— 10
Sy = o =-—2
Exemplo de não-correlação:
x Yi x — * n—y G-Dyg—)
1 3 —2 — 04 + 0,8
s=0
A covariância é nula.
Vê-se que a covariância possui um sinal que coincide com o
sentido da correlação.
103
to, tem-se nesse exemplo uma correlação positiva perfeita. Do mesmo
modo, no exemplo dado para a correlação negativa pode-se ver que
entre Y e X existe a seguinte relação linear: Y = 8 — X. Portanto,
este é um caso de correlação negativa perfeita.
Dx-Dg- 6
r= Sry = Fl o
S& 8% k k .
3a = 36. DS pf
1 Fl
k
Dunt-nzy
Fl
/d /
> x fi — ne > ya fi — ny2
Fl Fi
x k k k
n > yf — Dx f) Dx f)
o. FI 1 E
k k k
A n3, nes - Cs: Hi nº) [n> y2 ft — OS Y e
it ist FI 1
104
A fórmula para o cálculo de r, colocada sob esta última forma, tem
a vantagem de realizar menos divisões, o que melhora a aproximação
no cálculo.
Como os desvios padrão s; e s, são sempre positivos, r mantém
o sinal da covariância. Estudando-o quanto à sua magnitude, tem-se:
a) Caso de correlação perfeita positiva:
2 2
S& =28S%=
4/12345 > +2 a
34567 Sy == DD =
X v2 v2
r será sempre igual a + 1 para a correlação perfeita positiva
b) Caso de correlação perfeita negativa:
d=u8=2
x/1 -— 2
| a
aj
jo
wa
7 SW=-B1=D>DD
“0-1
” VZ VE
Para a correlação perfeita negativa o valor de r será sempre
iguala — 1.
c) Caso de não-correlação:
105
es o Spa * sobre a correlação entre o peso e à altura de
s de 7 anos, do sexo feminino, matriculados em 42 escolas da
rede municipal de ensino de São Paulo, em 1969, as variáveis antro-
pométricas Ne Y foram medidas simultaneamente para cada uma das
unidades de informação, que neste caso seriam constituídas por me-
ninas com as características acima referidas.
A sequência do cálculo da correlação entre as duas variáveis está
exemplificada na tabela 4.6. O valor obtido de r foi igual a + 0,87;
portanto, estão correlacionadas positivamente.
k
3 -DG-D b
Fl 438,80
Sy = - = = + 21,94
E 20
+ 21,94
p= SS =D =+087
Sz Sy 25,22
45.2 Regressão
perfeita
Os exemplos analisados mostram que uma correlação
relação
(positiva ou negativa) entre Xe Y só existe se houver uma
exata-
funcional perfeita, isto é, dado um valor a X, pode-se prever
mente o valor de Y. Quando isto acontece, diz-se que X e Y estão
modelo matemático, ou seja, Y = f (X).
ligados por uma função ou um
Na prática, entretanto, esta situação constitui uma abstração. O
que sucede é que, ao tentar explicar os valores tomados por Y como
decorrentes daqueles correspondentes assumidos por X, através de um
modelo matemático, o pesquisador verifica que entre o valor observado
de Y e o teórico previsto pelo modelo YT há uma diferença, isto é,
um resíduo. Isto é devido, em parte, ao fato de que dificilmente o conhe-
cimento sobre um fenômeno é tão completo a ponto de permitir a in-
clusão em um modelo de todas aquelas variáveis que podem explicar as
alterações em Y. Por outro lado, as observações feitas diretamente sobre
inves-
Y estão sujeitas a erros de mensuração. Por tudo isto, no nível da
tigação empírica, tem lugar um modelo do tipo:
YWr=1(X)+u
1N6
*(epeidepe)
107
TL6I “ASN “PoljQNA SPNES Sp opepinoe; “ojuouimIonop ap 259) “ojuaujosa4) 2 4Dj09S DpuaMaW “d “O Tinquesou :MUOA
Oz'680:1 po'cez os'aep oz sec NS =E
PTTeE Th'zo sL'epr t'sI 6L+ I opI vce
+h'szr TULE te'g9 UI T'9+ 1 £EI 9TE
+e'E sto os'p— 8T— st+ I ozI o'gz
+o'ce sto [A 8's— st+ I 91 o'gz
Pre es 9e'pt 9 ET+ I ser sz
vo'pg 68 vast v6 LI+ I rEI TLT
v'p 68 vL'E uz LI+ 1 vet ULT
vOLT 1 tis Ts TI+ 1 LT 997
+90 A! s80— 80— TI+ I ri 99
voo sto 90'0+ vo so+ I ti o'9z
voo 60'0 or'o+ vo €o+ I ti 8'st
+8'p 60'0 99'0— cc €'0— I +zl Tsu
+rI 60 veto— TI L'o— I ELI s'yz
+90 180 t'o so— 60— 1 NI 9'pz
v8L Iy'8 ts st— 6— I 6LL 9
vet sul o€'EL g€— se— I si o
+8'09 I8'91 sete 8L— Vy— I vIL vIZ
voou I891 ser so1— Vp— 1 u vz
sue tos 9WOLI + 9IT— tvol— z HI voz
FA Sexto) HAM 4-4 Ya) Y 4 x
E * (wo) emiy (3%) od
*(ogôejosioo É Jogo eIed ojnojgo ap erougnbas uIoo) 6961 “ojneg ogs 9)
(sejoosa zy) ouisuo op jediorunm ºPol EU sopenoLem “ourmuios oxos op “sour 4 op E iujõas ep
a 2 oa ' Er Po
O modelo estatístico mais simples é aquele que expressa Y como
função linear de X. isto é, dados n pares de valores (xy, e
(us Yr). admite-se que:
w=a+Bx+u
fi=a+ by
onde $, é um estimador de yT e a e b são estimadores,* respectiva-
mente, de a e B.
do-se por e; o desvio entre um valor observado y, e um
valor pec fr, isto é, e = yy — 9 a e b são determinados de tal
n
maneira que seja mínima a quantidade: x e2, ou seja, a e b são
=1
os valores que minimizam a soma de quadrados:
n n
DSw-Mr=5m- (+ by)P&
Ei il
a=y-—bz
n n
DSG -Dya-D E > xt — ny
1 i=l
b= =
n n
3 — *)2 £ > xif, — nã
108
Com isto, os valores de 9, podem ser calculados pela reta ajustada.
4
, Di
Yi
Fda =0+ a fx, +u. +
O gui = ui
n
Gy -—? &
= 1
Day - ps
it
Neste ponto reside uma das diferenças entre a correlação e a re-
gressão, pois para o coeficiente de correlação existe simetria, isto é,
a entre X e Y é a mesma que entre Y e X.
Lembrando-se a definição de r, pode-se escrever:
r=4E
Sy
Za -nº&
i=l variação “explicada” pela regressão ajustada
= n o variação total
Din — nº 6
i=l
E n
/ Sw - 4)?
isl
y
De fato, esta quantidade compara a variação dos valores de Y em
torno da reta ajustada Y com o valor médio de Y, fornecendo uma
medida relativa do ajuste. Este ajuste será tanto melhor quanto menor
for o valor do coeficiente de variação CV.
Exemplo
No estudo de Cain e Belk* que se refere à quantidade de assi-
milação de glucose injetada por via intravenosa em pacientes hospitali-
zados (tabela 4.7), caso se pretendesse ajustar uma reta, ter-se-ia a
seguinte seguência**.
Tabela 4.7 Quantidade de glucose injetada (via endovenosa) (X) e glucose retida
(Y) em gramas por quilo de peso por hora, em 18 pacientes hospitalizados.
m
20 e
A =0,0462+0,8041 x;
Glicose retirada (g/kg)
0,04 T T T T
0.0 0,4 0,8 1,2 36 20 24
> uy—nRy
b= E < 22,0588 — 18x1, ,
8 x 1,0364 x 0,8796 = 0,8041
n 26,3606 — 18 x 1,03642
3x -nz
Fl
a=y-bz
a = 0,8796 — 0,8041 x 1,0364 = 0,0462
donde,
fi = 0,0462 + 0,8041 x,
112
n3
: . y Te!
eesorzee = (1450) S rrogtar81 == ! 4 $ 909E'9T ==, ;X &
o89pE om
6LTS'E sá s'€ a É
€goL'1 ' oLtE'
orxeé
ObRE'T
968TT 9ELO'T, es ã
8.80% sproizX ré á
guri
9.641 vIgTI:' £osL'I 4
cost
SER tel É 97691E
98sL'0 '
poci
+01 par
91801 9spE'L
Se90
pesa : 69LTT
' Tzo90 É
9915'0 90LH'0 ISO
us
ogst'o oosT'oj Izov'o
pa
' 8607'0 i
TETO 1hg0'0 E
zevo'o ILvo'o DO
spzo'o LETO'O oo
Es00'0 ts00'0 €s00'0a
Hx
:A o 1
A x
“Lp “joqe ep sopep so ted ejos eun op ojsnfe( o eied sossed Sp DJqoi
Capítulo 5
Noções sobre a teoria das probabilidades
116
Aliás, não parece mesmo possível dar uma definição precisa do
que se entende por “acaso”, título pomposo,
para a palavra “ignorância”. Assim sendo, deixa-se de parte esta
ques-
tão, substituindo-a pela mais proveitosa de dar alguns exemplos de
grandes e importantes grupos de experimentos casuais.
Nesta ordem de
idéias, começa-se por dizer que, segundo as teorias biológicas moder-
nas, o fenômeno da hereditariedade mostra, em importantes aspectos,
uma marcante analogia com os jogos de azar. As combinações que
se
dão no processo de fertilização parecem ser reguladas por um meca-
nismo relativamente semelhante ao que preside o lançamento de uma
moeda. Como no caso da moeda, variações extremamente diminutas na
posição inicial e no movimento dos gametas podem produzir grandes
diferenças nas propriedades dos descendentes; em conformidade com
isto, encontra-se, por exemplo, com relação. ao sexo dos descendentes,
a mesma impossibilidade da predição e as mesmas “flutuações casuais”
do caso da moeda.
Também no campo antropométrico e econômico encontram-se fe-
nômenos, como a altura de animais ou o preço de mercadorias, em que
a situação parece ser em muito análoga à dos exemplos precedentes;
as leis que governam estes fenômenos não são, num ou noutro caso,
suficientemente conhecidas, e mesmo que fossem conhecidas em exten-
são maior do que a atual, a estrutura de cada caso é tão complicada que
uma predição da manifestação individual apareceria ainda praticamente
impossível; consegiientemente, as observações mostram, nestes casos, a
mesma espécie de irregularidade casual.
Finalmente, é fato cediço que, a despeito de todas as precauções
tomadas por um observador a fim de tornar tão uniformes quanto
possíveis as condições relevantes externas durante uma série de medidas
de uma constante física, as sucessivas mensurações originam, em geral,
resultados distintos. Este fenômeno é comumente adjudicado a um com-
plexo de pequenos fatores perturbadores, de natureza mais ou menos
indeterminada, que atuam num ou noutro sentido e que combinam os
seus efeitos em um certo “erro” total afetando cada medida particular:
O montante deste erro flutua de uma observação a outra de um modo
errático que torna impossível predizer o resultado de uma dada medida.
Considerações semelhantes aplicam-se ao caso de flutuações de quali-
dade de produtos manufaturados; pequenas e incontroláveis variações
no processo de produção e na qualidade das matérias-primas combinam
seus efeitos e produzem flutuações no resultado final.
Porém, seja qual for o mecanismo explicativo — pequenas varia-
ções no estado inicial, o caráter complexo das leis que governam os fe-
nômenos ou a ação incontrolável de pequenos fatores perturbadores —,
o que importa na individualização dos fenômenos casuais é o caráter
97
errático das flutuações encontradas em seqiiências de resultados obtidos
essencialmente sob as mesmas condições, e consequentemente a impos-
sibilidade de predição exata de suas manifestações individuais.
118
a) o conjunto que não possui elementos (que é º conjunto dos
elementos que satisfazem P), isto é, o conjunto das crianças menores
de cinco anos que fizeram o serviço militar, que se chama de conjunto
vazio e indica-se por O; . .
b) o próprio conjunto S (que é o conjunto que não satisfaz à
propriedade P).
Um conjunto A está contido em um conjunto B, ou, equivalente-
mente, um conjunto B contém um conjunto A, ou ainda, A é um sub-
conjunto de B, se todos os elementos de A pertencerem a B.
Em símbolos:
ACB
Seja:
A = conjunto dos nascimentos do sexo masculino, ocorridos em
certa localidade num determinado ano;
B = conjunto dos nascimentos de cor branca ocorridos na mes-
ma localidade no mesmo ano.
n9
Nestas condições:
A U B = conjunto dos nascimentos masculinos ou brancos,
ocorridos naquela localidade naquele ano.
N B = conjunto dos nascimentos masculinos e brancos,
A
ocorridos naquela localidade naquele ano.
Se dois conjuntos A e B forem tais que A N B = O, então
A e B são chamados conjuntos disjuntos.
que auxiliam
A figura 5.1 mostra os chamados diagramas de Venn
no entendimento de operações sobre conjuntos.
120
o (eo MMF, MEM, FMM
MFF, FFM, FMF, FFF |
Suponha-se um experimento que consistisse em medir
à altura de
um indivíduo e que esta altura pudesse variar desde 0,5 até
2 metros.
Chamando-se de X a altura de um indivíduo, o conjunto de todos os re-
sultados possíveis do experimento seria o conjunto de todos os valores
do intervalo de 0,5 a 2 metros, isto é,
S = (Valores de X, para 0,5 < x < 2)
O conjunto S de todos os resultados possíveis de um experimento
será denominado espaço amostral do experimento.
5.3 Eventos
São eventos:
i) “Obter duas curas.” De fato, isto leva ao subconjunto de S
tcc, cce, ctc)
ii) “Obter quatro curas.” De fato, isto leva ao conjunto vazio que
é um subconjunto de S. Este evento é denominado evento impossível.
iii) “Obter qualquer número de curas.” De fato, isto leva ao pró-
prio conjunto S. Este evento é chamado o evento certo.
32 34 44 43 S- A-À
que é um subconjunto de S.
= 11 12 13 14 a
B= (31 32 33 34 S- dg: BD
41 42 43 44
5.5 Probabilidade
para cada evento E
Diz-se que S é um espaço probabilístico se,
propriedades:
em S, existir um núm-ro P(E) com as seguintes
1. P(E) 20
2. P(S) = 1
(E, N E) = 0,
3. Se E, e Es são dois eventos em S, com
então P(E; U E») = P(Ej) + P(E:)
123
Qualquer função P(E) satisfazendo as propriedades acima, defini-
da sobre eventos E de S. é chamada probabilidade do evento E.
Estes axiomas são suficientes se S contiver um número finito de
elementos. Caso contrário, algumas extensões tornam-se necessárias, mas.
pelo fato de pressuporem conhecimento da teoria da medida, deixarão
de ser apresentadas neste livro.
Dos três axiomas acima referidos podem-se deduzir alguns teore-
mas, que são apresentados a seguir.
Teorema 1:
“Se E, c Es, então, P(E;) < P(E,).”
Teorema 2:
P(E) <1
124
Teorema 3:
“P(E) = 1 — P(E)”
De fato,
P(S) = P(E U E)
Mas, desde que
ENE=o0
então, pelo 3.º axioma, tem-se:
P(E U E) = P(E) + P(E)
isto é,
P(S) = P(E) + P(E)
portanto:
P(E) = 1 — P(E)
Teorema 4:
“P(O) = 0º
Teorema 5:
então:
k
n=PE), i=1,2,..
satisfaz aos três axiomas.
1
4
Analogamente, há situações em que ou as opried: fsi
objetos
capazes
em estudo ou a maneira como o Gipetiano E realiado e
de propor uma escolha para os valores de 1, 13, ad og The
Assim, se o espaço amostral finito S contém n
eve: tares,
e se E é um evento em S, contendo m (m < n)
e E
E» -..,
para i » Emj, ambos
(com Evariando
= E deU EU... U Ee En E =0
1 a m), se o sistema físico em consi-
deração for tal que se possa admitir simetria no sentido de que
n=n=... =p =—
e, portanto,
1 1 21
PB) = PE) +PEB) = +76 3
= 2
Ou seja, neste caso, n = 6em
até certo ponto, a pressuposição
É importante observar que se, é aceitável (o que aliás
de os casos possíveis serem igualmente prováveis
domínio dos jogos de azar, onde
explica a razão de sua formulação) no
s são, a priori, perfeita mente concebíveis, O mesmo não
os resultado
referido domínio. Muito trabalho foi
acontece quando se se afasta do
ar estas dificuldades e introduzir
então devotado a tentativas de sobrepuj
de Laplace.
modificações na definição clássica
127
Uma maneira empírica de se conseguir uma aproximação ao valor
da probabilidade de um evento E consiste em realizar um experimento
n vezes e considerar a frequência relativa de ocorrência do evemto E,
isto é, se o evento E ocorrer m vezes entre as n realizações do expe-
rimento, considerar a razão m/n como o valor aproximado de P(E).
A despeito do comportamento irregular dos resultados individuais, já se
viu que os resultados médios de longa segiiência de experimentos casuais
apresentam uma regularidade marcante que se denomina de “estabilidade
das frequências relativas em longas sequências de experimento ou regula-
ridade. estatística”
Ou seja, à medida que n cresce, tendendo a infi-
nito, esta frequência relativa = deverá tender a P(E). Portanto, =n
poderá ser considerada uma medida empírica de P(E), satisfazendo,
como é fácil verificar, aos três axiomas básicos já formulados. Esta in-
terpretação é conhecida como interpretação fregiiencial da probabili-
dade.
EUEU... UE =S
é dita uma partição
do espaço amostral S.
A
Nestas O
condições, pode-sese | demonstrar que os eventos (E; N F;)5
também constituem uma partição do espaço amostral S.
A probabilidade P(E, N F),parai = 1,...,mej=1,2,...,
n, é denominada probabilidade conjunta dos eventos E, e F,.
Jenm=E
Ea
128
De fato:
n
VJenm=ENGRUEU...VE)=ENS=E
FI
Analogamente,
m
U (E N Bj) = F;
FI
Portanto, pelo teorema 6, segue que
a n
2dJEnmo=En E PE)
FI a
mM m
PdJ)entmo) => PEN E) = PE
Fl FI
tem-se
P(E9 . P(BIE;) = P(E) . P(F9,
o que implica
P(FIE) = P(F)
isto é. independência entre É e E, significa que a probabilidade de ocor-
rência de F, não depende da ocorrência ou não de E;.
S6.1 Fórmula
de Bayes
cg
* Vecchio, cerThomas J., - “Predicti
Popalátio “Predictive Value of a Single Diagnostic Test i
o do ce he New England Journal of Medicine, 274 (21): LULA a
131
Capítulo 6
Amostragem *
* aa
elaboração deste capítulo foi baseada nos trabalhos de Eunice Pinho de Castro
e
Curso de Amostragem. Departamento de Epidemiologia da Faculdade de Saúde
Pública. impressão de 1964 (mimeografado). loções de
tulo 5. in Bioestaiística, por Elza Berquó. do então Departamento de Estatística
Aplicada da Faculdade de Saúde Pública, impressão de 1969 (mimeografado).
133
squisa científica. Tais itens serão co-
principios de metodologia de pesqui
mentados. com linguagem mais dirigid a a levantamentos objetivando es-
timar parâmetros de populações reais de le seres
se humanos; tais comentá-
situação em que se requeira
rios. todavia, são aplicáveis a qualquer
ajustes, basicamente de forma
amostragem, bastando para isso pequenos
e não de conteúdo.
por amostragem são:
As principais etapas de um levantamento
clareza, a fim de evitar
i) Explicitação dos objetivos com bastante
devendo ficar bem
dúvidas posteriores ou mesmo esquecimentos,
definida qual a unidade elementar (elemento) ou unidade de
análise a ser trabalhada.
134
vi) Escolha da unidade amostral, que ida como a menor
parte distinta e identificável pd
a ra as de
meração e sorteio da amostra. . em
Uma unidade amostral pode ser o ij
(criança, cobaia, cidade, trecho de Po RE pj ir mi bm
tos (classe de escola, ninhada, estado, conjunto de trechos continuados
de estrada). As unidades amostrais devem cobrir toda a população e
não podem apresentar transvariação, ou seja, um elemento de estudo
não pode pertencer ao mesmo tempo a mais de uma unidade amostral
A relação, lista ou mapa contendo todas as unidades amostrais dá-se o
nome de sistema de referência ou fundamentos da pesquisa.
6.2 Tipos
de amostragem
é probabilística quando cada unidade amostral na
Aamostragem
população tem uma probabilidade conhecida e diferente de zero de per-
De outra forma, é dita não-pr:
a amostragem
tencer à amostra.
lística.
população de dez
Admita-se, por exemplo. que seja definida deumaalunos, desejando-se
grupos escolares. cada qual com certo número escolares; se o pesquisa-
de tamanho igual a cinco grupos
uma amostra A,B.C, 1),
dor decidiu simplesmente escolher os grupos escolares É possível, no entanto (e
ter-se-ia uma amostragem não-probabilística.
o número de alunos de
mesmo desejável). que o investigador obtenha obtenção das cinco escolas,
cada grupo escolar e faça um sorteio para proporcionalmente
cada escola tendo uma probabilidad e de ser sorteada
a, ilustrada
ao seu número de alunos; será uma amostragem probabilística serão dis-
pela tabela 6.1. Os processos de amostragem probabilístic
cutidos no item 6.3.
135
m probabilística.
Tabela 6.1 Exemplo de possibilidades de uma amostrage
Unidade amostral n.º
Grupo Escolar Número de Alunos Probabilidade
AA Cm 2/50 Ê
B 200 2/50 2
c 400 4/50 3
D 300 3/50 4
E 1.000 10/50 5
E 1.000 10/50 6
G 700 7/50 7
H 400 4/50 8
1 200 2/50 9
600 6/50 10
J
Tu so 0 1 0
Ê
136
igual probabilidade de pertencer a ela. Seja uma população composta
de N unidades amostrais, da qual se deseja uma amostra de tamanho
n; as unidades amostrais são numeradas em segúência 1, 2, ..., Ne,
entre estes N números, sorteiam-se n, cujas unidades amostrais corres-
pondentes constituirão a amostra; antes do sorteio, cada unidade tem a
n
probabilidade = de pertencer à amostra.
de pertencer à amostra.
Se, durante o sorteio, unidades amostrais já sorteadas puderem ser
novantente sorteadas, sendo representadas uma, duas ou mais vezes na
amostra, ter-se-á a chamada amostragem casual simples com reposição.
Em geral, dá-se preferência ao tipo de amostragem casual simples
sem reposição, principalmente quando se trata de populações com re-
duzido número de unidades amostrais.
137
pulação total. Trata-se da situação denominada amostragem casual sim-
ples estratificada com partilha proporcional, ou simplesmente amostra-
gem com partilha proporcional.
Se uma população é composta de h estratos, definindo-se:
N = tamanho da população
N, = tamanho de cada estrato populacional
n = tamanho total da amostra
m = tamanho da amostra do estrato h,
nos Nº ||
tem-se a partilha proporcional se
No
ou seja, se o tamanho nm, da amostra do estrato h, for |
Na a
=n.—=N.—
me NO “ON
Isto é, para se obter o tamanho da amostra em cada estrato ou
subpopulação basta sa o tamanho total da amostra n pelo
1 N, = 50 m= 4 0,1
2 N, = 150 nm =12 03
3 N; = 300 ns = 0,6
Co a o ua ta IM
Total N = 500 n =40 Relação
n
— = 0,08
N
138
A amostra ny do primeiro estrato foi calculada como m = 40x Ea se
5 00
amostra n; do segundo estrato, » como n, o = 40 40x-—
150
500 * ? amostra do
i+ (n-1D)k.
Para uma população de tamanho N = 32, numerad. a segiiencial-
mente de 1 a 32, e amostra de tamanho n = 8, tem-se k =4.
O início casual i deve ser sorteado entre 1, 2, 3 e 4; admita-se
que tenha sido i = 3
A amostra fica constituída das unidades amostrais de número (ou
ordei m):
33 +4=73+8=11;3+ 12=ãh15;
3+16=19;3+20=23;3+24=27,;3+28=31.
Pode ser visto que o mesmo resultado seria obtido somando-se
sucessivamente o intervalo de amostragem k = 4 a cada número obtido
imediatamente antes:
33 +4=7;7+4=11,11+4=15,15+4=ãh19;
19+4=23;23+4=27,277+4=31.
Para k não-inteiro, o processo é semelhante, com a necessidade de
se considerar as casas decimais de forma cumulativa, mas desprezan-
do-as para definir o número de cada unidade sorteada.
Assim, se N = 32en = 7, ter-se-á k = 4,5714.
28,6871, isto é, 28
- Ao se optar pelo processo sistemático, deve-se
verificar se a ordenação das unidades amostrais não ter o cuidado de
cidade, com certa característica se repetindo apresenta periodi-
fato poderia possibilitar uma má representatiemvidade
intervalos iguais; este
da
outro lado, se na população houver estratos é estes forem amostra. Por
amostragem sistemática ordenados, a
conduzirá, automaticamente, a uma
porcional. partilha pro-
.
A amostragem sistemática é muito útil quando
se trata de amos-
trar uma população que vai se completando
portanto, em um certo momento ainda não temao longo do tempo e que,
todos os seus elementos
140
ou unidades amostrais. Por exempl
sobre os óbitos registrados duitáfito E e mo fazer um estudo
a apr, po-
de-se esperar que termine o ano para começar
se se tiver uma boa estimativa do número total de óbit eng ni
ser registrados naquele ano, pode-se calcular o valor de À sab us
manho desejado da amostra e iniciar o sorteio na amostra
ri
a partir do primeiro mês do ano, dando prosseguimento ea ent ã
obtenção da amostra. A a vantagem desta estratégia é economia
pesquisa pode começar imediatamente. le tetem-
po, no sentido de que
Outra vantagem neste tipo de estudo reside no f:
ele envolve perguntas às: famílias dos falecidos, ter ca ne
ano termine pode espaçar demasiado as datas do óbito e da entrevista.
introduzindo no estudo vícios devidos a problemas de memória. ,
Um processo de amostragem
E ora
, ns
pode gerar várias possíveis amostras,
das quais somente uma é utilizada. Cada uma destas possíveis amostras
142
torno da média das possíveis amostras, maior a precisão. Em geral, au-
mentando-se O tamanho da amostra, aumenta-se a precisão. As estimati-
vas obtidas por meio de amostragem sem reposição são mais precisas
do que as obtidas com reposição.
6.5 Vício
Vício
ara
++ +arara HHuu +4 4+
DE,
Estimativas das
várias possíveis
amostras
143
1) unidades não encontradas;
responder;
m) o entrevistado não sabe
incapacitado para responder;
ud o entrevistado é fisicamente
se recusa inflexivelmente a responder;
IV) o entrevistado
tempo
fica ausente durante todo o
V) a pessoa a ser entrevistada
para o trabalho de campo.
disponível
da população que não responde
Quando as características da parte fato
responde, não haverá vício pelo
não diferem daquelas da parte que
Entretanto, com as verifica-
de alguma parte da amostra não responder.
constatado que as unidades da parte
ções que tém sido feitas, tem sido respondem.
diferem daquelas que
da população que não respondem
das unidades que respon-
Quando há diferença entre as características
de a amostra apresentar casos
dem e das que não respondem, o fato
vício.
de ausência de resposta introduzirá
os quais ten-
Há vários modos de remediar a ausência de resposta,
causado. São eles:
tam eliminar ou pelo menos diminuir o vício por ela
repasses (com ou sem técnica melhorada)
substituição
i .
Repasses
Uma técnica padronizada consiste em estabelecer o número de re-
passes ou retornos que devem ser feitos às unidades que não forneceram
respostas, antes de abandi a unidade selecionada pela “impossibili
dade de estabelecer contato”. Nestes repasses usa-se a mesma técnica
ou uma técnica melhorada de obtenção dos dados. Quando não é possí-
vel aplicar o repasse a todas as unidades não respondentes, aplica-se a
uma subamostra desta parte que não respondeu.
Reposição
Consiste em acrescentar, aos endereços do atual levantamento, en-
dereços de casos de ausência de resposta de levantamento ou levanta-
de antes anteriores. porém recentes, nos quais o processo
ge oi Ih: sses end: são ch A, A,
dedo reposição e são utilizados
suas levaria : Pp par. a repor
po! os as ênci de respo sta
casos de ausência s
Substituição
Consiste em substituir os casos de não-resposta, em geral por vizi-
nhos, ou por nova amostra de tamanho igual ao número de ausências
de resposta. Entretanto, em geral é um engano supor que com isto se
está eliminando ou diminuindo o vício, pois as novas unidades que
respondem assemelham-se mais às unidades originais que já responde-
ram do que àquelas que não respondem.
149
Grupo experimental Grupo controle
Animais inicialmente Animais inicialmente
doentes € doentes e
raras o não-tratados (—X)
pa 1
| 2 | 2
| e lyx . Y-x
pe :
ES n
de animais cura-
onde yx € Y-x representam, respectivamente, O número
controle).
dos no grupo tratado (experimental) e no grupo não-tratado(
x : : Yx
é, e
A comparação estatística das proporções de curas, isto
—T: Fêmeas
onde yxt» Yx-m» Y-xt € Y-x-r representam, respectivamente, os números
de machos tratados e curados, de fêmeas tratadas é curadas, de ma-
chos não-tratados e curados e de fêmeas não-tratadas e curadas. A
- ua Yxr =:
comparação estatística de 72 OM E dará indicações sobre a efi-
/ n,
cácia ou não do tratamento X para os machos; analogamente, para
po POr sua vez, a comparação ais
n72 om E
as fêmeas, > compara-se BT 0/2”
] 74 Considerações finais
CR
Capítulo 8
Distribuição binomial
81 A distribuição
Introduzidas as noções fundamentais sobre a teoria das probabili-
dades, pode-se passar às chamadas distribuições de probabilidades.
Neste capítulo será estudada a distribuição binomial.
Para sua construção, será considerado um experimento E, consis-
tente em jogar um certo número de moedas e em especificar quais os
eventos possíveis de acontecer, quanto ao aparecimento de cara ou
coroa, bem como o valor das probabilidades associadas a estes eventos.
Admita-se que no lançamento de uma moeda só haja dois eventos
possíveis, mutuamente exclusivos: sair cara (evento K), sair coroa
even-
(evento C). Admita-se, ainda, que a probabilidade de se obter o
1 de o evento
to cara seja Es = 0,5, o que implica a probabilidade
156
As probabilidades dos outros valores de X podem ser calculadas
de forma análoga. A tabela 8.2 apresenta os resultados do experi-
mento E, de forma completa. A notação usada e a disposição dos
símbolos têm por finalidade permitir uma fácil memorização. Permi-
tem, também generalizar a formulação para um experimento E de tama-
nho qualquer, sem restrições quanto à simetria das probabilidades dos
eventos mutuamente exclusivos.
X. Evento P(X = x)
0 OK e 4€ 0,0625 = 1X 0,5º x 0,54! = Ipºaqt
1 IK e 3€ 0,2500 = 4 X 0,51 x 0,53 = 4plq?
2 2K e 2C 03750 = 6 x 0,52 x 0,52? = 6p2q?
3 3K e IC 0,2500 = 4 X 0,583 x 0,51! = 4p3q!
4 4K e 0C 0,0625 = 1 X 0,5! x 0,50 = Iptq”
Total 1
n = número de moedas = 4
p = probabilidade de K = P(K) =
q = 1-p = probabilidade de C = P(C
x
1, por convenção.
' esa
individuais toma-
quepa =(2)- combinações de n
x!(n—s)! x
157
Assim, na tabela 8.2 tem-se:
gás 4 é 1x2x3x4
014 1x1x2x3x4
qe 4 E 1x2x3x4
113! 1x1x2x3
e 4! 1x2x3x4
242! 1x2x1x2
resulta-
Generalizando: Seja E um experimento com apenas dois
e exclusivos; seja
dos possíveis, S (sucesso) e F (fracasso), mutuament
q = I-pa probabilidade de
p a probabilidade de ocorrência de Se
repetido n vezes de forma
ocorrência de F; se o experimento E for
valores p e q, a
independente, em cada vez mantendo-se os mesmos
Forma generalizada da distribuição binomial.
Tabela 8.3
0 o! po q
on!
1 a pl
U(n—1)! e q
2 a qu
2U(n—2)!
é ————— ds as ms
xt(n— x)! q
n nto E
n! 0!
esq Rua O a Saes
Metas.
n 1
Total = o
RR A, Maitaoo É =
158
probabilidade da variável aleatória discreta X = número x de vezes
que S pode ocorrer é obtida através da seguinte expressão:
n!
P(X
( = x) =>".
a nDo! P p'q”, i
4 » que caracteriza a distri-
B (4;0,5).
Tabela 8.5 Cálculo do desvio padrão da distribuição binomial
Total 1 1,00
8.23 Assimetria
n = =4"?
VTpq
É fácil verificar, que ); = O para p=q=s isto é, a distribui-
É pis 9 valor den. A tabela 8.6 ilustra este
+ B(10/0,5), B(15;0,5) e B(20;0,5) são todas
Ponha e
simétricas.
-U sa-se o 'fsímbolo q e não s por tratar-se
de um resultado teórico.
160
Para q > presulta py; > 0e, portanto, a distribuição será assi-
métrica à direita. Para q < p resulta PJ; < Oe a distribuição será
assimétrica à esquerda.
Vale notar que nestes dois últimos casos a distribuição poderá ser
considerada simétrica se, respectivamente, np > 5 ou nq > 5.
A distribuição será:
mesocúrtica se y» = 3, isto é, se pq = 1/6
leptocúrtica se y2 > 3, isto é, se pq < 1/6
platicúrtica se y» < 3, isto é, se pq > 1/6
8.3 Tabelas
As probabilidades individuais dos valores de X da distribuição bi-
nomial, bem como a sua soma acumulada, encontram-se tabeladas, o
que muito facilita o manuseio da distribuição *
t61
84 Distribuição
da variável proporção de sucessos
Há ocasiões em que se torna mais interessante ou conveniente tra-
.
2X que variai de O a 1, ou com a va
balhar com a variável aleatória 7,
filivdi E 100)% — proporção de sucessos —, que varia de 0% a
100%.
i ili
pode facilitar bastante a represen! tação 1grá-
dessa variável
o enunciado
ficada inibição quando n é muito grande e também
de certos problemas.
a variável seja
É claro que as probabilidades são as mesmas, quer
n é fixo para
X, x quer seja xn quer seja (É 100)%, uma vez que
cada situação.
respectivamente por:
média = p
desvio padrão = VA
so-
2.2 — A probabilidade de que no máximo 60% de prematuros é
(ou uma proporção mínima de 40% não sobrevivam)
brevivam
dada por:
X 100 ou 40% ou 50% ou
P( % = 0% ou 10% ou 20% ou 30%
n
60%) = 0,121 = 12,1%
— ão média esperada de sobreviventes é (p 100)%
= a = =
80% de prematuros, com um desvio padrão de
= (0,80 x 100)%
164
2.º) Para cada um dos n indivíduos observados, a probabilida-
de individual de sucesso é a mesma:
P(X=0)gy = L,t=(2
0 To ig) (0,4)? 2 (0,6) o
ego = dad
P(X=1) To * 10 + ytatof?
To x 1 (2) (0,4)! 1 (0,6) (0,67
=
P(X=2) .s
= o do6/2(2) (0,4)º (6,0) 2
(5) (8) 4 3. 12
PX=0) =" =x =
É A Ago
PX=D=" “10"9 “109 90
2
(4
px=?mi qu NESO
alo) q O6 O 5 30o
Rioed) (10 10*o9 90
2
Como se vê, esta soma é igual à unidade, isto é, trata-se de uma
distribuição de probabilidades.
Genericamente, se na urna houvesse N; bolas brancas e N. = N
— N, bolas pretas, a probabilidade de em uma amostra de tamanho n,
sem reposição, se ter X=x bolas brancas seria dada por:
P(X=x)=
E G=H
(5) parax = 0,1,...,Ni
n
166
2. Demonstra-se também que para p fixo, à medida '
i i i ? »
para a distribui que n cresce in-
definidamente, a binomial converge
p normal, como
ribuição
será visto no próximo capítulo.
3. Finalmente, se p for função
E de n, , à medilida :
9% p = 0,001
n = 100
Probabilidade em %
a3
Probabilidade em %
Probabilidade em %
Probabilidade em %
x
121314 15161718
º 5 67891
167
mar
se
5o
44 15 16 17 18 19 20 21 22 23 24 25 26 27.28 2930 X
Tia
RU
a»
e
1m
Capítulo 9
Distribuição normal
9.1 A distribuição
A distribuição normal foi primeiramente encontrada em 1733, por
De Moivre, em conexão com sua discussão da forma limitante da dis-
tribuição binomial tratada no capítulo anterior.
j Ao que parece, a descoberta de De Moivre passou desapercebida,
e só muito mais tarde a distribuição normal foi redescoberta por Gauss,
em 1812. Gauss e Laplace trataram a função normal em conexão com
seu trabalho sobre a teoria dos erros de observação. Laplace estabele-
ceu pela primeira vez, embora de maneira incompleta, o teorema do li-
mite central (que será visto adiante neste capítulo) e fez um grande
número de importantes aplicações da distribuição normal a várias ques-
tões na teoria de probabilidades.
Sob a influência dos grandes trabalhos de Gauss e Laplace, foi
tido como um axioma, por um tempo mais ou menos longo, que todas
as distribuições estatísticas se aproximariam da normal como uma forma
ideal limitante se se pudesse dispor de um número muito grande de
observações suficientemente precisas. O desvio de qualquer variável
aleatória de sua média era olhado como um “erro”, sujeito à lei dos
erros, expressa pela distribuição normal.
Conquanto este ponto de vista fosse realmente exagerado e tivesse
sido consideravelmente modificado, é inegável que em um grande nú-
mero de importantes aplicações práticas encontram-se distribuições que
são ao menos aproximadamente normais.
É o caso, por exemplo, da variável antropométrica — peso ao
nascer — que or zada com o objetivo de introduzir a distribuição
normal.
A tabela 9.1 contém os pesos de recém-nascidos, com intervalos
de classe de 400 gramas. A Eu 9.1 é º histograma correspondente,
sobre o qual se desenhou o respectivo polígono de fe E de
se esperar que com um número muito maior de recém-nascit los, e tra-
balhando-se com intervalos de classe cada vez menores, à linha poli-
173
gonal se aproxime mais e mais de uma linha contínua e a representa-
ção gráfica da distribuição de pesos se aproxime da curva que aparece
na figura 9.2. Esta curva em forma de sino nada mais é do que a re-
presentação gráfica da função matemática dada por:
(x—m)?
1 20?
eg
=——5= +
Na (1)
x = constante numérica = 3,1416
e = constante numérica = 2,718
m = constante paramétrica, representa a média aritmética da
distribuição
“ = constante paramétrica, representa o desvio padrão da dis-
tribuição
x = variável aleatória que é representada no eixo das abscissas
f(x)= ordenada correspondente a cada valor de x.
gramas o Percentagem
tee em Ne x acumulada
E 5.700
10 |— 6. 99,9
To 96 WO ————
Média aritmética x 3447 g
Desvio padrão s 633 &
ADEa A
174
500 900 1.30 1.700 2100 2500 2900 2300 3700 4100 4500 4900 5300 5.700 6100 6500 Gramas
1 — o campo de variação
de x é de — o a + o;
17s
4 too)
T ——>
m=34479 X (peso em gramas)
1
(m-0), —>— | nto;
1
[m º 55 [ ov2re
176
i'
1
1
i
I
1
1
'
l
I
1
1
I
I
1
1'
t
1
———»—— + 1
Do m-2580 m-1960 m-0 m = média
1m
x
a ais
Zz- N(O;1)
ou seja
MI
(2) f(z) -—+— e
v2z
Exemplos
de como usar a tabela 9.4
178
45,25%
da média é 0,5. Já se viu que da média até 1,80 m se encontra
da população, ou, o que é o mesmo, a área vale 0,4525. Basta, portanto,
calcular a área complementar, fazendo-se, simplesmente, 0.5 — 0,4525
= 0,0475. Isto significa que a percentagem de indivíduos com altura
1,80 m ou mais é 4,75%. ou, em outras palavras, a probabilidade de
um indivíduo, tomado ao acaso da população considerada, ter altura
igual ou maior do que 1,80 m vale 0,0475.
“
11 04525
1
LA
1
!! E
m= 165 1,80 E
o = 0,09
m=0 167 z
s=1
| z=D[———
1,54 — 1,65
0,09
=
— 011
0,09
= — 1,22.
que
Aqui deve-se notar que o valor de z é negativo, o que significa
com
se está trabalhando na metade esquerda da curva normal, ou seja,
do que a média. O cálculo das áreas, porém, não
valores menores
apresenta dificuldades, pois, como a curva é simétrica, as áreas a serem
calculadas do lado esquerdo têm correspondência exata à direita. Assim,
trabalha-se na tabela com o valor positivo de Z.
Em correspondência ao valor z = 1,22 encontra-se 0,3888, que é
a área da região B da figura 9.5. Subtraindo este valor de 0,5 encontra-
se 0,5 — 0,3888 = 0,1112 ou 11,12%, que é a área procurada.
ea
BIBLIOTECA no
FACULDADE Ve MEDICINA DE
RE MCSEPa SD OR
Portanto, a probabilidade de se obter um indivíduo de altura 1,54 m
ou menos é 11,12%.
93 p-======—E..—
1.65
0,09
z=1,22 m=0
c=1
m=0 1,22=2z =
c=1
181
8g
os
“3
z=-—108 m 0 z
1
Hy
182
Pode-se comparar este resultado com a tabela 9.1 e vê-se uma
aproximação muito boa, pois 5,83% da população de recém-nascidos
pesam menos que 2.500 g.
9.3. Distribuição amostral de médias
Seja uma população de fichas numeradas segundo uma distribuição
normal po média m = 500 e desvio padrão o = 100; X — N(500;
100). A partir desta população são tomadas 156 amostras casuais de
tamanho n = 10, com o cuidado de Tepor cada amostra antes da toma-
da da amostra seguinte. Em cada uma é calculada a média aritmética
x e a distribuição observada destas médias amostrais encontra-se na
tabela 9.2,
Calculando-se a média aritmética e o desvio padrão desta distri-
buição de fregiiências, encontra-se, respectivamente:
k
at Dm fi
= EF - 8480 gy s=-/E
Fl 36
k 156 x É
f 2h
Fl
FI
Tabela 9.2 Valores de X em 156 amostras casuais de tamanho n = 10 tomadas
de uma população N (500: 100).
Percentagem de
Valores de X Nénero. de fnsóetrão Percentagem
to)
8
184
respectivamente devem-se ao fato de se terem tomado apenas 156 amos-
tras de tamanho 10 e não todas as amostras possíveis. A aproximação
melhora quando se tomam mais amostras ou aumenta-se n.
É importante observar que quando não se pode supor, como no
teorema anterior, que a população tem distribuição normal, utiliza-se
o chamado teorema do limite central.
“Se de uma população com média m e desvio padrão o, ambos
finitos, se tomam todas as possíveis amostras casuais de tamanho n e,
em cada uma delas, se determina a média x, então a distribuição amos-
tral de X se aproxima da distribuição normal com média m e desvio
padrão
n
à medida que n for grande.”
Exemplos
3.1 — Seja X: N(1,65;0,09). A distribuição amostral de mé-
= 0,
dias baseadas em amostras de tamanho 81 será X — N(1,65; =) =
V 81
N (1,65;0,01). Este conhecimento permite calcular a probabilidade de
se encontrar uma média amostral que tenha valores entre 1,65 m e
1,80 m. ,
O raciocínio é o mesmo utilizado no exemplo 1.1, fazendo-se as
devidas modificações por se tratar, agora, de uma distribuição de mé-
dias amostrais X e não mais de valores individuais x.
X — ms x-m
Z=E———— =—>——
O.
18>
Lo
a tabela 9.4 da normal reduzida, tem-se
— 3.240 — 3.450 — — 210 = 1.
210 210
z =—1 corresponde a uma área interna de 0,3413. Portanto, deve-
se fazer 0.5 — 0,3413 = 0,1587, ou seja, 15,87% das amostras têm
média X 3.240 gramas ou menos.
3.3 — A distribuição da variável discreta CPO = “número de
dentes cariados por criança, na idade de 10 anos, residente em São
Paulo”. não tem distribuição normal.* Ao se trabalhar com amostras
de grupos de indivíduos, à medida que o tamanho da amostra n
aumenta, é de se supor que a distribuição da variável aleatória CPO =
“número médio de dentes cariados por pessoa”, tenda à distribuição
normal
cro Nº % Percentagem
. acumulada
0 12 545 545
1 10 455 10,00
2 14 6,36 16:36
3 29 13,19 29,55
4 7 34,09 3,
5 16 7,21 70,91
6 29 13,19 84,10
7 14 6,36 90,46
8 8 3,64 94,10
9 4 1,82 95,92
10 3 1,36 97,28
nu 2 0,91 98,19
2 2 0,91 99,10
B -— 99,10
14 = 99,10
15 1 0,45 99,55
16 1 0,45 100,
Total 220 100,00
. x-m
z= o
é claro que, se em correspondência a um valor de x se pudesse calcu-
lar o de z e se projetasse neste papel, o gráfico resultante seria uma
linha reta. Aproveitando-se desta idéia, construiu-se o segundo eixo das
ordenadas indicado por %, isto é, das probabilidades acumuladas da
curva normal reduzida, isto é, com média igual a zero e desvio padrão
igual a um, da seguinte maneira: para cada valor de z no eixo de Z,
coloca-se em correspondência no eixo de % a probabilidade de se
obter, na curva normal, um valor menor do que aquele. Por exemplo,
para z = 0, corresponde % = 50% na tabela da curva normal;
para z = 0,5, a probabilidade de se obter na curva normal valores
menores do que 0,5 vale 70%, e assim sucessivamente. Portanto, a
187
%, a probabili
cada valor no eixo dosX corresponde um no eixo de
dade de valores menores do que aquele fixado z. Isto explica por a
que
a escala sobre o eixo de % não é aritmética.
Depois destas considerações, é claro que quando se projeta no ei
de X os valores da variável em estudo e nos de % as freqiiências
acumuladas em percentagens, se a distribuição de X for normal ou os
ximadamente normal, o gráfico correspondente será aproximadamente
uma linha reta.
As figuras 9.10 e 9.11 completam o exemplo, projetando sobre
um papel de curva normal uma distribuição sabidamente não normal
aquela da tabela 9.3,-da variável aleatória CPO e a distribuição de
pesos da tabela 9.1 que já se viu ser bastante aproximada da normal.
2%
Papel de curva normal
Verificação da normalidade da
Fi
-— N 9.9(500;32).
figura
189
.* Papel ce turva noctmai
a,
PSA
Valcres de x
|
Pigura 9.10 Verificação ds não-normalidade
da distribuição da tabela 9.3, onde
CPO — Nº (4,412,53).
2% Papel de curva normar
192
Capítulo 10
Teste de hipóteses
H: Ex > E
ou
Ho : Ex = 50%
H : Ex > 50%
Verdade
Ho H,
Decisão
Erro É de segunda
Bl À pede, ou=
do tipo II = Aceitar Ho (1
H Não há erro
jeitar H,) quando H, é falsa
(H, é verdadeira).
194
10.2 O teste de hipóteses
Feitas estas considerações, suponha-se que o laboratório estabele-
ce, antes da realização do experimento, conduzido com a finalidade de
testar H, contra H;, que aceitará a nova droga N como superior à
padrão P somente se N, quando aplicada ao grupo de pacientes, apre-
sentar um resultado “difícil” de ser obtido se a sua eficiência fosse de
apenas 509%, isto é, fosse apenas um resultado “pouco provável” para
uma droga de eficiência de 50%.
Para efeito de ilustração, “pouco provável” pode sgr pensado co-
mo associado a resultados cuja probabilidade de ocorrência, quando cal-
culada a partir do valor 50%, fosse de 0,05 ou menos. Nestas condi-
ções, o laboratório estará decidido a rejeitar H, toda vez que ocorrerem
resultados que se afastem da eficiência especificada em H, na direção
de H,, de tal maneira que a sua probabilidade de ocorrência, sob Ho,
ou de resultados ainda mais afastados, fosse de 0,05 ou menos. Isto,
em outras palavras, significa que o laboratório estaria disposto a errar
em 5% dos casos, rejeitando H, quando H, fosse verdadeira, isto é,
fixaria a = 0.05 ou 5%, em porcentagem.
O laboratório conduz o experimento em uma amostra de 10 pa-
cientes. e a droga N cura 9 pacientes, isto é, Ex = 90%. Nas condi-
ções acima, este resultado leva a aceitar ou a rejeitar H? A fim de
se responder a esta pergunta, é preciso calcular a probabilidade de se
obter 9 ou 10 curados numa amostra de 10 pacientes se a droga N
fosse tão eficiente quanto a droga P, isto é, saber com que probabilida-
de a droga padrão, que é 50% eficiente, curaria 9 ou 10 indivíduos
numa amostra de 10.
De um ponto de vista abstrato, é o mesmo que verificar qual a
probabilidade de obter 9 ou 10 caras no lançamento de dez moedas,
utilizando-se, portanto, a distribuição binomial. Como pode ser visto
na tabela 10.1, esta probabilidade é igual a 1,075% (= 0,01075).
155
Tabeia 10.7 Distribuição binomial para p = 0,50 e n = 10.
JAM
»
ew
>o
*
11,719
Região de [ à = 5,40% ( 4 95
(=5%) das) 1,075%
vo
1
Total 100,00
196
gião de aceitação de Ho. Automaticamente também fica definida a região
de rejeição.
3.º) Tomada de amostra de tamanho n e observação de X.
4.º) Comparação do resultado com a região de aceitação. Se
o
x observado corresponder a um dos valores de X da região de aceitação,
aceita-se Ho; caso contrário, rejeita-se Ho.
Assim, o valor observado 7 levaria, como anteriormente, à aceita-
ção de H,, como mostra a tabela 10.1.
Se Ho for falsa, de acordo com o exposto anteriormente, estar-se-á
cometendo um erro da segunda espécie, cuja probabilidade de acontecer,
antes de realizado o experimento, é B. A tabela 10.2 apresenta o valor
de se H; especificasse o valor 60% para Ew, isto é,
H, : Ex = 60%;
o 0,010
1 0,157
Região de 2 1,062
de He 5
á 146 | 271% = 6
20,066
é 25,082
7 21,499
cosRegião
de Ho
de
E
10
ua0,605
100
197
Deve-se observar que, para a e n fixos, o valor de À, isto é, a pro-
habilidade de aceitar Ho quando Hg é falsa, diminui à medida que E
se afasta de S0%.
Ex Bem % I-Bem %
Es Bem % I- Bem %
198
A comparação das tabelas 10.3 e 10.4 mostra que os valores de
B na tabela 10.4 são maiores do que os seus correspondentes na tabela
10.3. Em outras palavras, num teste de hipótese, para n fixo, 8 aumen-
ta à medida que a diminui.
Outro ponto que merece especial atenção
é aquele salientado na
tabela 10.5, ou seja, para valores fixados de a e de E, (em H;) o
poder do teste aumenta à medida que o tamanho da amostra cresce.
Valor de a mais
n próximo de 5% Bem z Eres F
10 55 83,3 16,7
15 59 78,3 21,7
20 57 75,0 250
25 54 16 21,4
30 49 70,9 29,1
35 45 69,4 30,6
40 4,0 68,3 31,7
199
B = Probabilidade de bicaudal
! aceitar H, quando H, é — — — monucaudal
B = Probabilidade de
aceitar H, quando H, é
verdadeira
0,50 0,65 Ex
Figura 102 Curvas características operacionais para diferentes n.
203
pesquisador à fixação, muitas vezes arbitrária, de um valor para sua
requisitos.
probabilidade, que satisfaça a determinados
de p, pode-se
Feitas estas considerações a respeito da natureza
passar à apresentação do problema inicialmente proposto, através de
de situações em que ele surge. ,
alguns exemplos
Assim, suponh que um pesquisador esteja essado em veri-
ficar o papel do cloranfenicol na terapêutica da febre titóide, expresso
pela percentagem de curas. À primeira vista, o experimento a realizar
tratamento
deveria incluir dois grupos de pacientes, um recebendo o
seria anotado o valor
e outro não; no grupo recebendo O cloranfenicol
p; de curas e no grupo sem tratamento O valor ps, para a devida com-
da
paração. Entretanto, as evidências de ordem laboratorial em favor
eficiência do antibiótico em causa tornariam este tipo de planejamento
absolutamente antiético, pois, ao privar o paciente do recurso terapêuti-
co. ele estaria consciente da possibilidade de assim reduzir as suas pro-
babilidades de cura. Esta é uma situação em que a escolha de uma
probabilidade a posteriori, baseada em resultados prévios, para a cura
sem o novo medicamento, digamos p, acaba por se impor. Isto ocorre
ainda que se reconheçam todas as debilidades que resultam da compa-
ração dos resultados agora obtidos com os que foram fornecidos pela
experiência prévia, diante da impossibilidade prática de reprodução
fiel de todas as circunstâncias que rodearam esses casos. Naturalmente,
o pesquisador procurará reduzir ao mínimo a possibilidade de que o
grupo experimental difira sensivelmente do conjunto de casos previa-
mente considerados para o estabelecimento da probabilidade de cura
sem o remédio, conjunto esse que precisa ser suficientemente numeroso,
em face do que já foi antes discutido.
Um exemplo de probabilidade a priori poderia ser dado com o
caso de um pesquisador que desejasse verificar se todos os nascimentos
de gêmeos resultam da fertilização de dois ovos distintos, isto é, se
todos estes gêmeos são do tipo dizigótico. Se isto for verdade, ele po-
derá esperar que, entre o total de pares de gêmeos, uma proporção
igual a 1/2 apresente indivíduos de sexos diferentes, isto é, p = 1/2.
A observação da sucessão de nascimentos gêmeos, na população em
que se está estudando o fenômeno, permitirá a apreciação da proporção
com que, entre eles, se verificam pares com sexos diferentes, possibili-
tando a confirmação ou não do valor a priori proposto para Pp.
H:p <p
No tratamento da leucemia, os medicamentos são muito agressivos,
podendo ter efeitos colaterais indesejáveis. Assim, além de se procurar
na
drogas cada vez mais eficientes, há também interesse em drogas de
eficiência semelhante às já em uso, mas com menor grau de efeitos
adversos.
Suponha-se que as drogas usuais para leucemia provoquem efeitos
colaterais em 60% dos pacientes, ou seja, p = 0,60. Um laboratório
consegue eliminar de certo medicamento um radical acetil e com isto
supõe estar diante de uma nova droga com o mesmo poder de cura mas
com menor atividade indesejável. O laboratório espera, portanto, que a
proporção Pn de indivíduos com efeitos adversos (fracassos) tratados
com a nova droga seja menor do que a proporção p.
Está-se diante de uma situação em que o valor p foi escolhido
a posteriori, e o teste de hipóteses a ser conduzido é da forma
Ho :P =P
H:P <p
ou, substituindo p pelo seu valor conhecido p = 0,60,
Ho: Pr = 0,60
H,: Pa < 0,60
205
Os parâmetros são n = 20 e p = 0,60, sendo a variável obser-
vada X = número de pacientes com efeito adverso, ou seja, número
de fracassos.
A tabela 11.1 apresenta a distribuição de probabilidades de uma
B(20:0.00) e as regiões que correspondem à rejeição e à aceitação
de H. Note-se que neste caso quanto menor O valor de x maior
a compatibilidade com a hipótese Hi; a determinação do maior valor
de x que pertence à região de rejeição de Hç é feita ao se somarem as
probabilidades a partir de x = O até se alcançar o valor mais próximo
do nivel de significância proposto a = 15%.
Ainda na tabela 11.1 têm-se os valores de 8 (e automaticamente
o valor do poder do teste), a partir das distribuições de probabilidades
que correspondem a algumas possibilidades de Hj : pr < O
Exemplos
1 — Para as mesmas condições acima, se o nível de significância
fosse exatamente 2,1%, ter-se-iam as seguintes situações no-
vas:
i) região de rejeição de H;: x = 0oulou20u30ou4
ou 5 ou 6 ou 7;
ii) poder do teste para p, = 0,50 : 13,2%
Pa = 0,40: 41,5%
Pa = 0,30 : 77,3%
2 — O número . médio esperado, m, de pacientes com efeitos
adversos depende do verdadeiro valor p, da droga. Para
pi = 0,60, m = 12;
Pr = 0,50, m = 10;
Pn 0,40, m = 8;e
Pp = 0,30,m = 6.
15%
ou calcula-se
9 -— 12
=>DD— = - 1,36
a 22
e compara-se com
z = — 1,04
crítico
Xorítico — 9,712
ou calcula-se
10 — 12
dq = === = 0,91
2a
e compara-se com E ctio = — 1,04.
210
11.4 Correção para continuidade
6
1 1
85 95 105 11,5 125 135 14,5 155 165
75
Se H:P =P
H:P>P,
º vnpq
Neste caso,
sez >z jeita-: H
Zrítico * Teleita-se
Se H:p =p
1: Po <P
212
o valor de Zo corrigido será:
Ge
É
gp dão de
1
a de
Zoo = o q
npq
Neste caso,
sez < Zz
crítico
» Tejeita-se H,
esez > 2 anão » aceita-se Ho.
Capítulo 12
12.1.1 O teste E: mp =m
H:mp <m
Suponha-se que um pesquisador estivesse interessado
em investigar
se uma certa doença reduz a taxa de albumina no sangue, isto
é, se
os portadores desta doença têm, em média, taxa de albumina menor
do que a taxa média dos indivíduos sãos. Em indivíduos sãos as taxas
de albumina se distribuem segundo uma curva aproximadamente nor-
mal, com média m = 4,0 g/100 cc e desvio padrão o = 0,6 g/100
cc. Se for admitido que as taxas dos doentes também se distribuem se-
gundo uma curva normal (ou aproximadamente normal) com a mesma
variabilidade da distribuição dos sãos, então, chamando-se de my a taxa
média da população de enfermos, o pesquisador quer, em última análise,
testar as hipóteses:
H:me =m
H,:me<m,ou
H :mp = 4,0
Hr: me < 40
O investigador aceita rejeitar H,, quando Ho for verdadeira, em até
5% das vezes, isto é, se a população de doentes tiver a mesma taxa
média dos sãos, ele está disposto, em apenas 5% das vezes, à dizer que
os doentes têm taxa média inferior à dos sãos. Ou seja, ele escolheu
&= 0,05.
se preocupe
Por outro lado, suponha-se que o pesquisador não
em concluir peste que H, é verdadeira quando a taxa sa
que 40, mas ad aa o
da população de enfermos for menor do quer
taxa for igual a 3,7, ele
que 3,7 g/100 cc. No entanto, se esta Em
detectá-la com 90% de probabilidade. outras palavras, o pesqui-
215
4,0 quando
sador está disposto a dizer que a taxa média dos doentes é
das vezes, isto é,
na realidade ela é igual a 3,7, em apenas 10%
cc.
B = 10% das vezes, isto é, B = 0,10 se me = 3,7 g/100
Com estas informações, a primeira pergunta do investigador é:
quantos pacientes devo considerar para a feitura do teste de H, contra
H,, isto é, que tamanho deve ter a amostra? A fim de responder a
esta pergunta, serão usadas as curvas características operacionais (OC),
introduzidas no capítulo 8. As figuras 12.4, 12.5, 12.6 e 12.7 repre-
sentam as OC para os testes de uma média, onde 12.4 e 12.5 referem-
se a testes bicaudais para a de 0,05 e 0,01, respectivamnte. As figuras
12.6 e 12.7 são para testes monocaudais com a de 0,05 e 0,01, res-
pectivamente. A diferença entre estas curvas € aquelas apresentadas no
capítulo 10 reside no fato de que, agora, O eixo das abscissas refere-se
aos valores de
jm
— me |
d od DE 4
onde d pode ser interpretado como quantos desvios padrão se deseja
detectar entre a média da população estudada e a média da população
de referência.
Desde que o teste em apreço é monocaudal e «a = 0,05, será usada
a figura 12.6. Para tanto, calcula-se d:
a = 40 — 37 03 + os
0,6 06
Em correspondência a d = 0,5 no eixo das abscissas, e 5 = 0,10
no eixo das ordenadas, tem-se n = 34. Ou seja, o número mínimo
de pacientes para a realização do teste de H, contra H,, nas condições
fixadas, é 34.
216
0,6
E" dão 57 Portanto, se H, for verdadeira,
: a variável aleatória Xe
x
cas 0,6
será in média 4,0 e erro padrão VJ e a variável reduzida
ê quase BoE
cen PEA uz mo NO(0;1)
51).
V34
3,8 — — 0,20
zZ% = 40 MM. 2,0
0,10 0,10
217
Isto é. o pesquisador conclui que a taxa média de albumina dos doentes
é menor do que a dos indivíduos sãos.
d= im —E mel
12.1.2 Cálculo
de n sem uso das OC
( Ez + E
n=
d?
218
No problema da taxa de albumina, o teste era monocaudal, à =
5%, B = 10% ed = 0,5. Portanto, z, = 1,64 e zp= 1,28.
219
Rortico = (Es 07) +m
v 10
maior do que 55,
mostra que o valor % = 58 não é significantemente s, de que a
O que permite levar à conclusão, em termos populacionai
média my é igual a m.
12.2.1 O estimador s
222
1222 A distribuição t; tabelas e curvas OC
curva +
Dc ai
Figura 12.2 Comparação entre as distribuições normal e t.
a infinitos graus à h-
Note-se que, para a linha correspondente normal.
berdade, os valores de t são os mesmos da distribuição
t, ao contrário da
É importante frisar que a tabela da distribuição
distribuição normal, tabela as áreas somadas das duas caudas. Assim,
Ro es
para um teste monocaudal ao nível dea, O t crítico
teste bicaudal, a
deve ser procurado na coluna de p = 2a. Para um
coluna a ser usada é a dep =.
223
As figuras 12.8, 12.9, 12.10 e 12.11 são
as curvas ca Facterísticas
operacionais (OC) para determinação do tamanho
da amostra
de teste t. Como o desvio padrão o é desconhecid
o, d não é pri
mente “calculavel”, mas o princípio para sua determinaçã
o é o Eni
isto e, d é a quantidade de desvios padrão contida
entre as duas médio”
12.23 OtestetH,:mp=m
H:mp<m
v 36
Este valor deve ser comparado com o t crítico para n-1 = 35
graus de liberdade e p = 2a = 10%. Como a tabela não apresenta
valores para este número de graus de liberdade, toma-se a linha corres-
pondente a g = 40. Tem-se, então, t =— 1,684. Como t, > t
crítico crítico
a hipótese H, é aceita.
Exemplos *
1 — Um valor médio aceitável para nível de vitamina A sérica é
30 mg/100 ml de sangue. Uma investigadora estudou, entre outras ob-
servações, se a taxa média de vitamina A sérica entre migrantes em
224
trânsito
menor dopelaque Central de Triagem e Encaminhamento de São Paulo era
a aceitável, em mulheres de 15
fosse igual ao nível aceitável, a investigadora a 19 anos. Se esta taxa
que não era, no máximo com 5% de
estava disposta a dizer
probabilidade. Se a taxa estivesse
afastada 0,4 o para menos, seria importante detectar esta diferença
probabilidade igual ou maior do com
que 90%. Foi pressuposta distribuição
normal para a variável X = nível
individual de vitamina A em mg/ml
de sangue, não sendo conhecida
sua variabilidade. O teste de hipótese
foi assim conduzido:
a) Ho: me = 30 mg/ml
H, : me < 30 mg/ml
= 0,05; 1-f (poder do teste) = 0,90
B = 0,10;d = 0,4;n = 67
&-m 251-30
c) Foi calculado t, = =-—-3,24
s 12,4
vn v.67
Este valor foi comparado com o t crítico para n-1 = 66 graus
de liberdade, que limita 5% de probabilidades à sua esquerda; t crítico
= -1,67.
72.76 -—75
= = — 0,53
34,9
(6
727% 75 = 4/100 ml
226
a) As hipóteses foram
Ho : mp = 0,20 mg/m:
c) Calculando-se t;, =
0,214 — 0,20
gel = 1,107
0,040
v 10
à = 10%, que
eSto
1,383. ser comparado com o t crítico para 9g.1.e
o 1 » 3
Figura 12.5 Curvas OC para diferentes valores de n para o teste normal bicaudal
e para um nível de significância a=os
Grubls, F. E. and Weaver, Cc. L.
fronte e fig. 124 — 12.11: Ferris, C. D,
“Ope: racteristics for the: Common Statistical Tests of Significance”.
In air of Mathematical Statistics, v. 17 (1946), pp. 178-197.
228
É
ã
8
$
B = Probabil
Figura 12.6 Curvas OC para diferentes valores de n para o teste normal mono-
caudal e para um nível de significância q = 0,05.
de de aceitar H,
B = Proba
- 100 — 0,50 o
É
E
5
E
$£
g
E
zg
ã
06 08 10 1214 16 18 20 22 24 26 28 30 32
O 02 04
d
ê: j le
de n para o téste de tbicaudal
Figura 12.9 Curvas OC par a diferentes valores
a = 0,01.
para um nível de ae nificância
“2n
B = Probabilidade de aceitar H,
ás; 5
4
l
w Ny
o? 0,2
m =m - me desvio padrão O = a + na
”
o; G2
da seja R—-R-N(Mm-—my +)
Este teorema faz o teste da diferença de duas médias recair no
este de uma média, utilizando-se então a variável reduzida
mm — mo |
Fixados
a ep e d=
NV o2+ o
= — 249
234
P,
p
ms
a =14
q =20
> DD» ——
m=m-m, Hu o)
o= 19 + zo?
40 Eau
H,
Ho
a
m-m=0-02-09
5 m-M=0 4-& m-m=o0+
02
— 2,49
T
— 2,58
131.3 porém
Os desvios padrão das populações são desconhecidos,
supostamente iguais
jr Ty mB
[OL
DD n>
& — &) o GG — =) .
fee (144) ai
ee td
O estimador proposto para o é:
= m-Ds2+(m-—1)s?
m>-l+n-—1 =
Q— Dsi+(m— Ds
1 +tm-—-2
Fixados a, 8e d, onded = im
—— — 2!
me | Im
LM
Tm — é
1+ 6 20 com
trado um valor de n: demonstra-se que os tamanhos das amostras de-
n+1
vem ser n; =n lo = 2
Tem-se, então,
59 — 6,8
ess Dea
(23 x 1,32) + (23x 1,7) 1
24 +24 -2 124; 24
- 0,9 09 206
a . 0,190 Il
(E sbre ) x 0,083 /
46
237
O valor —2.064 é maior do que o valor crítico —2,704 de t
para aproximadamente 46 graus de liberdade. é à = 0,01; assim, a
hipótese H, é aceita. A figura 13.2 ilustra o procedimento.
T T
(GH — Ro
t =
si2 2
Dn Do
238
= (8) (E) — 2, segundo Welch.*
mM E
+
m+1 n+1
Exemplos
1 — Em sua tese de doutoramento,
Andrade +* Procurou verifi-
car, entre outros fatos, se a dosagem média de lipídi. os em tecido pla-
centário de ratas no 21.º dia de prenhez era maior do que em rat:
20.º dia. No experimento foram usadas vinte
rats, metade das quis
foi sorteada para sacrifício no 20.º dia de prenhez, enquanto a oia
metade foi sacrificada no 21.º dia, para os devidos exames. O pesqui-
sador estabeleceu um nível de significância de 5%, para uma diferença
em desvios padrão a ser detectada de d = 0,6; a variabilidade, supos-
tamente igual nas duas populações, era desconhecida, devendo ser esti-
mada nas amostras.
mg/100g
ii) as dosagens de lipídios nas vinte ratas foram, em
de tecido placentário:
20.0 dia — 721,43 71429 72127 71667 11724
725,81 729,41 722,22 717,24
734,38
Xo = 722,60 Sw = 422123 So = 6,5017
Sera Different
a
751,32 — 722,60
= =
Pe x 110,2211) + (9 x 42,2723) ( 1 1
10 + 10 —2 10 + 10 )
H, H,
Ma — mo = ma —my=20d 2872 *e
7,345
o A
0 1,734 tag.
240
2 — Em trabalho de livre-docência, Yunes * desejou testar, entre
outras, a hipótese de que recém-nascidos de peso normal
(> 2.500 g)
têm perímetro cefálico em média maior do que recém-nascidos de baixo
peso (< 2.500 g), à um nível de 10% de significância. Foram obser-
vadas 301 crianças de menos de 2.500 g e 220 de 2.500 g ou mais e O
perímetro cefálico medido em cm, não sendo conhecidas as variabilida-
des populacionais, admitindo-se, inclusive, poderem ser diferentes.
Nas amostras, O autor encontrou
Rxopeso 3053em So E 54756 crê
Epeso norma * 2388 em ema T 21025 cm?
A estatística t, foi calculada, resultando
33,88 — 30,53 3,35
Ga e 20
0,1666
/ 5,4756 is 2,1025
301 220
241
quantidade n de uma das amostras, apesar de ser possível a ol
de um numero maior do que n para à outra amostra; nesta situação o
pesquisador estará interessado em saber qual o tamanho da amostra
maior que pode compensar a amostra menor, a fim de manter o mesmo
vakr de 5. para dea especificados anteriormente. Isto é possível
através da relação
n Mm Ns
Costa E
2 mn + m
Sen = 20, ideal seria n, = 20e mn: = 20. Se for possível obter
apenas 16 indivíduos para n; (Mm = 16), então n, deverá ser 27 indiví-
duos, pois
» 16. ms e, então,
2 16 + m
160
=— = 27.
nd
ii) a quantidade d para uso das curvas OC, no teste com desvios
padrão conhecidos, é definida como
ma — me |
Vo+ 07
d=
d
jm
= E — me ,
d= pm — mo]
20
So conhecião, * v2 = à (o gesconhecido) Ed
242
= Áro contecião, 2 sia:
5 =d
ou À q gesconhecido,
ora de fr dido
um e de 4 =
teste usando distribuição L-será d=08x
Pgnadiça É
deto
aumen peso
popula-
Com isto as duas populações de pesos passam a uma só
de D. Se a distribuição de
São de aumentos de ES So é, de valores normal, pode-se demons-
pesos puder ser considerada aproximadamente normal, com média
trar que a distribuição de D é aproximadamente
Mo = m, — m, e desvio padrão
243
q= Vo +0;3 — 204
padrão = ==.
vn
Ou seja, a variável reduzida
D — mo
z= Tg
vn
um.
será normal com média zero e desvio padrão igual a
Em termos da nova variável, as hipóteses H, e H, tornam-se:
H.o:m = 0
Ho:m >0
as quais. agora, dizem respeito apenas a um média populacional. Re-
cai-se. portanto, no caso do teste de uma média populacional, analisa-
do no capítulo 12. Como, em geral, 0; e O; são desconhecidos, Op será
também desconhecido e precisará ser estimado por
k =
> -— DJ f
i=1
Rir d
com o que z será substituído por
D-m
t= Eu sp
*p
vn
a qual, sob a veracidade de H,, terá distribuição t de “Student”, com
(n — 1) graus de liberdade.
Admita-se que o pesquisador fixasse a em 5% e que desejasse,
detectar. com 90% de probabilidade, um aumento relativo de peso de
O.Ro isto é. 5 = 10% para d = 0,8. Indo com estes valores à figura
[2 1 encontra-se n = 15.
244
Suponha-se que o pesquisador tenha tomado 15 adultos e reali-
zado o experimento, encontrando os dados da tabela 13.1.
Rai 54 ss 4
2 61 6s 4
3 50 52 2
4 74 3 4
5 80 82 2
5 62 60 3
7 58 s8 0
8 55 56 1
9 49 53 4
10 63 8 0
" 67 68 1
1 70 72 2
13 7 72 1
14 75 79 4
15 66 72 6
Então,
— 26
D = E = 1,73 kg
s = 212 kg
Substituindo estes valores, tem-se:
1,73
tb = = 3,16
2,12
vas -
Indo à tabela de t para a = 0,05 e 14 graus de liberdade, encon-
tra-se o valor 1,761. Desde que t > 1,761, rejeita-se Ho, isto é, a
dieta empregada, aumenta, em média, o peso dos indivíduos.
Exemplo
Em tese de livre-docência, Raia * testou a hipótese de a possibili-
dade da quantidade de proteínas totais no plasma, depois de operação
de descompressão portal seletiva em portadores de esquistossomose man-
sônica, ser diferente da quantidade antes da operação; foi escolhido um
nível de 5% de significância, com uma amostra de 17 pacientes. As
suas hipóteses foram:
245
-— m =
: - antes º
H Mjepois m antes Mepois
E epois
= m ante 0
Bar Mago Dantes
247
onde
E = constante paramétrica = número de graus de liberdade
> 0
e = constante numérica = 2,718
T = função gama, já definida anteriormente.
Exemplos
248
11,494
ss = 0,0016 (mg/m?)”
Nestas condições:
tm 60 8X 008 S ogos,
o 0,000625
(n— 1) a alor críti
Uma vez que 01 tem distribuição x; e o valor crítico
para a = 10% é 14,684, então, como 23,04 é maior do que 14,684,
à hipótese H, é rejeitada.
249
OSC Otstt DOG JUS SC VILIO UU VO LO O O aa
GEISE I9bTE OEEBT LLSbL SLOTT B9L6L BOLLI PLSSI OSTMI s
LTOVE N6ETE OEELT Lh9ET BEST 6€681 BT69I Ly8B'pl S9StEL 8
TIGTE GIEOE 9EE9T GILTL EOLOT PILBI ISI9L STbl GLBT Lt
uosp gsg'u seB'Be E9S'SE SOLTE bT6L DEEST TOLIT OTB6] TOULI GLESI GOMEL B6NTI| VT
ozots PlE'bh 99STY TS9LE T8EPE SL9OE ULIBT LEEPT LOBO OP68L ELH9L NISPI LOST] PESIL| ST
6LNIS 086 — OLT'OY SIPE 96I'EE ESSGT 96OLT LEEET Eb66] T9OBI 6S9SI BPBEL TÓGIL 9SBOL| dT
siL'sy BE9Tp 896'8€ TLI'SE LOO'TE 6Tb'Bt BIOT LEETL IZO61 LBILI SPB'PI I60EL EGTIL 96NOL] EL
aos 68Tob — 6S9LE PesiEr EIBÍOE TOELT G6EGPT LEEIT TONBL PIE9L IhO'PI BEETI OONOL TyS'6 uv
L6L'9p Toc EME'9E IL9TE SING ILIOT SBT LECOT T8ILI Shb'SI ObTEL I6STI SI66 | L68'8 KR
ste'sp 99SLE OTO'SE OIyIE TIpBL SEO'ST SLLTT LEE6I 999 BLSPI Emil Isso! LET 098 o
T61'9€ LB9'CE PhIOE 4OTILT 006 ET 689IT BEEBI TSESL SILEL IS9TI LINOL L9S'8 EE9'L 6
soB'pg 9rE'TE 69B'Bt 686ST O9LTT 10907 BEELI Obb'bl LSBTI S9BO1 O6E6 9O6L SIOL 81
60PEE S660€ L8SLT 69LPT SINIT NIS'61 BEE9L TESEL TOOTI SBO0L TLIB SST'L 8op'9 u
000'T€ cE9'6T 96T'9T TYS'ET sobr BIM'BI BECSI peotl TSNIT ZIE6 T96L vIS9 TIBS 91
8LS'0€ 6sT'Bt 966'Pt LOE'TT WE'6l TUELT GEEPI III LOCOL Losig INTL S86s [44 st
TpI'6z ELB'9T se9Et OIT ISI8I TU] GECEL IZHOL L9b6 O6LIL ILS'9 89E'S 099'%p +
Be9LT Lost TETT TIB6I S8691 GLS] OPETI 966 PESB THOL TO8S S9L'p LoW'p a!
LIT'9T pSO'pz QTO It 6pS'BI TIBSI NOPI ObEIIL PEO'6 LOBIL POES OTUS BLr'y ILS'E t
sui INT SL9'61 SLULI TE9PI G68TI IPEOL ShI'B 6869 8Ls's SLS'p — 609'€ eso'E H
6oT'ET I9TIZ LOE'B1 L86S1 Tr'cl IBLTIL ThE'6 LTL 6LIO so8p — Op6'E 6s0'€ 8sst ot
99917 6961 61691 4B9bT TU] 9901 cpE's c6E9 OBE'S B9r'y sTEE Test 880T 6
060'07 89181 LOS'ST T9EEI OO TT peso phEiL LTS'S vOSP O6hE fELT TEOT 9p9'T 8
sLy'81 Ta9'91 L90'p1 LIO'TI €OB'6 csc'g 9pE'9 IL9p TUBE CeBIT L9NT O P9ST 6EUI l
tis! €EO'ST Testi sy9or ess'g TETL BbE's siste OLOE vOTT segt ver uso 9
980's1 8eE'cl ULOIT 9ETI6 68TiL 490'9 IsEp — O00!€ ebeT OI9T AM! tsLio +ss'o s
Ler 899'TI 884'6 6LL'L 6865 8L8p — LSEE Set 6b9T 4901 TIL'O evo L6T'o +
svETI LEB'6 SIB'L 15T'9 top s99€ 99ET pepil soo't vesio — TSEO s8ro SINO f
oIT'6 vi8'L 166'5 su9'p 6IT'E sort 98ET EILO 9ph'o tz io coTO pOPOO Tozo'o t
seg'g tvs WB 90LT vo vLo'I ssPo BPI'O TH BSIOIO E6EO0O BTNO'O LSIsO'O 1
to'o vo so oro oco os'o 0L'0 o8'o 060 s6'0 86'0 660 |g É
>
uwn vid | Y Op seojua
250
Oprpsogi sop CO SUN
Pp antas Sp wo d opupiiqugosd
“XONMQuIa 1ºp1 vpoqui
ya “Joustaq 2100]
omed 's Jasnaa Jouonioa, remos à Pupo “ontojota meto esmbras P pind soon FoJaGP "A TRA
LiE'TI szroo! sec 96 TES'06 LTs's8 suL6L vEE' (69
T6L'601 NTO RO ost'ss 80€! €8 ILS'LL
BST'LOI 9T9'56 S96'58 Pev'sl
9IL'+OL LITEO sL9'E8 9LT'EL
I8€'18 0€9'9L STNIL TEL SECI9 Levis ger 8» Ler
991'TO1 To8'06 ESG'98
oss'pg Tao! 6L L6€1"PL TL689 cr s9 sec! ss Iyg%os esp'op 669! 6€
6LE'88 L6L'8p 969'ph
0s6's8 10T'T8
SI8'6L ss6'9p LEGTP
EIStER
TULL 96h79 Lisp egrIp
69018 Igter EEP'GE LEv'9E 9pT IE
IZO'sL zes'6o tur'so ter'oo LT8'9s SECIS 607'9p
9I9'BL
PELI9L EI9TL sos'L9 L9N' (e PoT'Bs EUL rs seco» ELE'py LIZ AA 689'LE +oL VE LOL'6T
ILI'S9 E66' ss ozpicr
0E8'T9!
18h09
SSL'9E LST'PE S9L'0€ dhI'BT EBE'ST
907'99 tos pal'ss 9sp'6p tera secTy
9Ep09 6SL'SS 69tLr s9T'py SEE'6E Teve SpE'TE 150'67 60s'9T segieT
1699 EPELT
svoith LES'0E
TIG'6E SEL'BT EP9'ST
S6L'LE 8EG'9T TSGEL
LBv'os ses'uy 99p'BE S99'sE 9EETE ELELT 8hI'sT ILUTT tLooz EBL'LI
Levo aep'es v6l'9p
Capítulo 15
Comparação de variâncias de
k populações independentes
H:0o =02
253
si? so? a : É
quociente F, = E ; (ou RE que indicará se os dois desvios padrão
são dif s ou não (costur colocar no numera-
dor a maior variância). O valor observado da variável F, deve se
comparado com o valor crítico obtido em tabelas referentes à chamada
distnbuição F, que é caracterizada pelos números de graus de liberdade
a i ss
(g) do numerador (n,—1) e do denominador (n2—1); ou seja, +
so?
- F
(nm — 1, ng —1).
Isto porque, se se tomar duas variáveis aleatórias independentes,
cada uma delas com distribuição x?, dividir-se cada uma delas pelos
graus de liberdade respectivos e depois se efetuar o quociente, tem-se
uma nova variável, com tal distribuição F.
Ou seja,
MD Eisê. Es
(m-—1) . X 2 (m=1) + (n=1
(m—1) E
onde
tr 8 o FF? (gta) ?
denominador > O
Tr = função gama, já definida.
0= 28 (gta?)
(Bi +82) ara >4
V gs (m—2)7 (gam4)| PIB 2 É
254
Cate?) V 8 (go —4) :
e coeficiente de assimetria = » B&:>6.
(8-6) V Bi FB 2
As tabelas respectivas são as de números 15.1-1,15.2,15.3
15.2, 15.3 ,15.
15.5 e 15.6; os valores de F que aparecem
no corpo das bed a
aqueles que limitam à sua direita áreas de 0,1%, 0,5%, 1%, 2,5%
5% e 10% respectivamente, para g, e g, graus de liberdade. | ;
Suponha-se, então, que se queira comparar a variabilidad
i
em determinado treinamento para salto horizontal, entre Sc Ea
sexo masculino e feminino da região Norte do Brasil *. Estabelecidas
as hipóteses, admita-se um nível de significância a = 5% e amostras n
= 16 atletas masculinos e no = 13 atletas femininos. Efetuados os
exercícios, que são medidos em metros, obtém-se s;2 = 1,83 m? para
1,83
os homens e s;? = 0,25 m? para as mulheres. Obtém-se F =
0,25
= 7,32; como o teste é bicaudal, o valor crítico deve ser procurado
na tabela 15.4 para > no cruzamento correspondente à coluna de
CR
V
M. M. e Mol
vei P. R: . Graniz,Graniz, Congress Kiss,inM. A.
abro
Dados dede E Barbanti, V.;FieldOliveira,
** Dados Tests, XXI World of Sports Medicine,
JEBS 76. Track and
Brasília, 1978.
255
15.2. O teste de hipóteses para mais de duas variabilidades
populacionais
a
FI
para o a escolhido, na tabela apropriada (15.7 ou 15.8), para k po-
pulações e g = n—1 graus de liberdade. Se C, > € o rejeita-se H,,
critic
pois pelo menos aquela variância 0;? é maior do que as outras:
Com o fim de ilustrar a aplicação do teste descrito, sejam três po-
pulações cujas médias serão comparadas através de análise de va-
riância **. A fim de verificar a condição de homocedasticidade (varia-
bilidades iguais) a um nível de 5% de significância, as variâncias amos-
trais são calculadas e se obtém s;? = 2,07 g?,s2 = 7,12 gºes? =
3,25 gº, cada amostra sendo composta de 10 indivíduos. Calculando-
se C,. obtém-se:
= 7,12 7,12
ia 207 + 7,12 + 3,25 12,44 áitaa.
Na tabela 15.7, para 5% de significância, k = 3 ece = 9 graus
de liberdade, tem-se C. = 0,6167. Como 0,5723 é menor do
rítico
que 0.6167, a hipótese H, é aceita, ou seja, as três variabilidades são
estatisticamente iguais, podendo-se, então, prosseguir com a análise de
variância.
256
15.2.2 Amostras de tamanhos diferentes
Esta situa
situação
é a mais comum naa prática, e
, a c ompar: ã
variâncias é feita através do teste de hipóteses idealizado
ano
o rn Sul, Sudeste,
o jam sendo treinados
deseje saber se, para valores de “salto sobre banco”,
as variabilidades
dos resultados são semelhantes.** Propõe-se, assim, o teste
Ho = 0? = 0 =0P = o;
H, : pelo menos um o? é diferente
estabelecendo-se um nível de significância de 1%.
Os atletas submetem-se aos treinos
a e os resultados são os seguin-
tes, em metros quadrados e metros lineares:
resultados
Região n g s
& = k-1
im x = logaritmo natural de x* .
= tamanho da amostra da população i
rosa
-. = soma dos n;
= número de amostras
Exemplos
Ns Yunes **, em sua tese de livre-docência, desejava testar a hi-
pótese de que o perímetro cefálico médio de recém-nascidos de peso
normal era maior do que o de recém-nascidos de baixo peso. A fim de
decidir por qual dos testes t o autor deveria optar, foi testada, pre-
258
viamente, a hipótese de 301
igualdade de desvios padrão, a um
crianças de baixo peso na
ní
5% de significância. As
variância amostral s;? = 5,48 cm, enquanto as 220 crianças de
peso normal apresentavam uma variância amostral sº = 2,10 , cm? 5
asim, 5,48
E = 210 = 2,610; este valor deve ser comparado
com
F(300,219) crítico para 2,5% . Como a tabela não apresenta esta possi-
bilidade, a comparação pode ser feita com o valor F( <,x ). ou mesmo
F(120,120), que são, respectivamente, 1 e 1,43, rejeitando-se H, em
ambas as situações. Desta forma, o autor foi levado a usar o teste t para
diferenças entre duas médias populacionais com desvios padrão desco-
nhecidos e diferentes.
2 — Em dissertação de mestrado, Rosa* necessitava comparar
três programas educacionais de escovação, incluindo o grupo-controle,
através da média do índice gengival. Prévia à análise de variância re-
querida, foi construído e efetuado o teste de homocedasticidade, ao
nível de 1%. As hipóteses foram
Ho) = 02 =ãa?
H, : há pelo menos um o? diferente.
Os tamanhos das amostras eram 43, 43 e 35, indicando o teste
de Bartlett. As variâncias amostrais obtidas foram s? = 0,121;
ss? = 0,0225; s;? = 0,0289, conduzindo ao seguinte resultado.
2,4358
= = 0,020642
118
M =[118 x (—3,8804)) — [[42 x (—4,4145)] +[42 x (—3,7942)]+
+ [34 x (—3,5439)]) = — 457,8872 + 465,2580 = 7,3708
A = Sa
1
ge dg À es a = 0,011426
6 | 42 42 34 118
assse
6 98 TE sit TEL oprE
asa
SLT UM 0% ee BEE asE
Tl 66 SIE OE gre GSE x
SET ME QE LE us 99% s
LGT vie TE spe 6s€ pre
SUE ME sec Esc age 28 n
E
se TE gre EE BLE To
ge ut Bs vie see cor =
Me vs OE 9 o» siy E
“
ist age vc 66E pp rr a
LE VEL OU sy OEr syy x
SEL or Sir cer apr op a
Mr cr 6» vp OL» gp a
Mo ur vp Op s6r OrS
or uy vor or's sTs ws e
Ler vis OS Lys E9% gls a
vs 6 95 €6% 609 su a
os 9 sE9 259 q99 são a
7) ves vol
“MOTO SP IBN 08d 9 MONO SMOLRA 17 ejagay
&
“MEPUQUIRO “Siad “AMIN O TE cSPNLL ERINOmOrA “ASfuTH “O “H ? SORMAG SH '1 TOA “TUDpTIOIS 40/ FIO PyLISMOIG 2 Opemposdon s
|
mos mm o
|
a
mo Mo sr a E: ME UE ME UE WE ur og -
E
MTO om ui oÉ uix o:
ui
o
io me
sá
ne
E
me
t ),
dm
I9E
que
mw
see a
:
Et so
1
[ê
EO SE mr or or ar or or re ace ae ag ut
GARRAS
so ui MST e qr cg 10% str re
,
[É
é st let mp e [É
“ D “
et e vt ut wi vw. 19€ or ue se E
sr or s
EA voc srr er | &
O mr qr uz um uu om sr ue ee q ec o op
DE O ui ui uz we x or ue oe sue are Sor Ser se n
ss ”z ut | E
CU: Ux wise
e se
so
se
sie
sue
ve
ser
ee
se
or
ore
ue
IgE
sé
voe
10%
mr
ay
tr
de,
19%
soy “
oo ut ur we Ut mé ze ot E sr 6 0% 0 Ly, dy n
x
uz eo INE re ice ore ese gue es voo ap ver o gy e
ua ss one ore ore ore osE Bye 98 co» vt, ser nr gr EXA s
st ox me Ter we I9E
Ne UE SC me soc pre
19g€
ELE
se
TE
LG
Op
sr
Lxr
sr
dep
cer
Up
sr
op
au
16
us.
Kg ua
MT UM E PSC O GE SME LOP sor mr qo ig Sp LOS LES
vm. sse are ue aee 96% sr str e, or ur ser eos ss ass
sre sue use us Ly ur ur or rop er ver sos sTs srs ss
oc. 10» ur er cer er
oO mr so sp Lp
es,
98
uv
sos
16%
pos
ss
us
os
vos
ses
gos
Ts
sas
aus
Oo
ws
29
s se ser Lev us us us us 99 ses Les o 0€9 vso 89 |
es os we us ts eus ess 9 9 ws vs 9 eso ErL LL |
ses 909 so 69 ora 0s'9 199 189 OL ITL PEL os'L A s6L cs
so SIL TEL tL EsL s9L SUL L6L srs ses 158 ess 688 9V'6 6
e 006 T'6 W6 96 16 656 186 eo sTor 6E01 Lsor 6L01 1 9
vii su orzi est 991 sui 061 srer secr 291 Luc 96€I ot Is'et vérI
TEL LG IS6 LG 6861 COM LNOL voz OLOL L607 II seiz cr Le gpa
erir ser sizr ret Li ui
S66! S661 S661 S66L S661 S66L
eu
W66L
soey
V66L
6ctr
W6G
69Ep
W66
ese
W66L
err
VO6L
er
WE
ver
EG
6Esy
E66L
SST SET ESTST BHIST MOST ObóT SEBPT OLMT ir WIZ I6OML SUGET SILE LEPET 9506
= ou o o or n o st u o 6 8 t 9 5
“SO 9P IRMA OE 4 2P SONS SAJOTEA ES] DJqUL
a ;
UAINOWOIG “AopuvH" "O 'H 2 VON "SH LIOA “SUDJINSDIS 40f S2IQDL DYMIZMOIg SP Oprnpolday
“Ssoad “AFUN) SW) VE FONSNAL
4 9P JOPRUIWOUS OP & JOPRISMNU OP SPupIDQy OP SUB SO “ojuouvansadsos *umussados E8 o 18 apuo
“SBPuQuIVO
1 E voz BIT TEL ISTO vt os me ele Sp
1º 981 sé 67 DETO Ly 997 67 96 ape SG 6LP
Lo to TIL SET OST E tm SGT TUE SE Ely 86%
to Ol 6 uz 997 O8T 66% TUE 6TE eme IEP BIS
to GET LT oLT MET 86% Le OE LHE tr IS% ES
cet MT ot em LT od ore cce os€ vor psp ams
SET WT TST SET 067º tO€ eme SEE ESE Lo» Usp sys
BET LMT O SST BrT EST 90€ te GEE SE Tp Op Gps
wi OT Bs 99% IST 96% OE Ce qe 6 dr pop eso
SPT PET TT OL SBT 667 EI te ore ME a sp Ss
or BT 99% plz 68 OE LHE see ONE LE ur uv 19%
VSTO TT OT LT C6% LM TE Ipe PoE ILE 7» LP 995
et U9T SLT CMT 867 TIE STE spe GRE LE ter q US
Pot UT OM SBT EO LINE IE€ ISE poe IgE Lv Lp BL
OT BUT OT DOT 60! EE LEE 9SE OLE LHE e» vor Ses
EA to TEL OM src OE erE ee UE v6E osp OS €6S
vêr Tt OE OE EUE LEE IS€ WE PRE OP e» 605 109
6 co SOC ONE ICE PE SE BYE ele GE Op up BIS US
E E BNE 9TE IME SE GMC BLE eme top Op uv es ES
eve co GUE LET TSE LE OE 68€ or bp TEM e us 99
ue co EPE ISEC OE ONE voc cor Pr err rp vs 9 ISO
€ to GRE OPC TRE GOL Op 61 oc» rp Top WS ds OL
E co BLUE GRE OP Op OEh GEP osp pop Tap ws s6s €69
Co POE TOM OP sUr Oh dep EMP vir cp LOS es 9 MTL
Po Str CEP pr 98 Wr sap dé ss OS GS ss s59 SSL
ro SP CLP BP 96 INS SUS SES Ls Ss 8 wo 669 tos
so OS SUS SE Z5S UNS 186 165 co Bio LES OL 6 98
165º 665 109 919 TES LS T99 TL9 vo 669 GIL sa svB SS6
MIL CUL MEL OfL 96 Tl Lol B6L os ST8 Ly sus BL6 TO!
Go 6 LG 656 TU6 686 SOOL SINO 6TOL SOL LOL sem SOT LTC
SEC VEL G6E 2OP OUPL LEMI SSL 99 Ol B6L IZSI eós1 6991 0081
IPT OST ON GU LM SOLT CULT SELL GRIT LL I6LE Ut PG TO
LV66 LV66 966 Sr66 EP66 2P66 OP66 666 | LEGO DEG6 CEGO sT66 L66 0066
LMtO NOT SELO GO LSD 9019 9509 TOS TH NTOS 6585
- ou o o oc nr o s u o 6 8º L 9 5 r € t da!
ES RRR CR
“AI OP TOU OR dd 0P PONHO BMOINA S51 magos
“,
262
ORPLQUIVO “BSS “ATUM SM) IM SOSISNA] MAISON “AopunH O “H 9 VOAM “8 “A 'LIOA nDpNNDIS 40 FoNGDL PyNIMUOIg SP OprNpOsÍTM
263
set I Mto ER DN SOZ INT GU Gu UE À
us || ou
e A! TRL pel SOT 9t qUL OE 68 ELE sus
sta vol 907 LIT Luz EL WE 1% pec sis | o
ogt ee LOm BIT 6UT GET SPT EST cre WE ws | o
ver tor ore dev ar IST LST so su 65% “ss | 0€
961 foz NT UT erz est 68% LM ess | 6
set sor EXT VET srt sst INT 69% 195 | 8
ot tom SET EL Lht Let 69% eos | LL
co so BIT GET ht 68% s9% LT Ss |
so ui OCT IPT ISTO A9T ET ST eos | st
sor SIT CET url ps voz OLZ az us | ve
voz it Biz SET Uri LST U9T ELT IEL sus | €
BOT MT Izz sez OST O OLL 9LT vet eus |
ue sz sue wi EST pot LT OB 187 tes | 1
DK ez PT LST BOT UT vBT 67 85 |
ore cer IST To um um se 967 us | 6
set se OST U9T UT LBT 6% TO€ 86s | 81
ter vz TT UM TRL q6% 86% 90 voo | LL
ser Is Bt 6LT GR 66% SOE TIE o | 9
9h 6st LT BT 967 90E TIC QUE o | st
sse use vez so SO SKE ZE 6uE ose 99€ oe9 | vt
99% Blz 56% SOE SKE SUE IEE GEE OE LLE wo | e
eu 167 LE BE SUE LEE pre TSE LE GE ss9 |
vet 90'€ EUE EEE EPE ESEC GSE 99€ sec vor us |
PIE UE WE TSE TE UE BE SE Lv vip v69 | Ot
see sme IS€ LE UE LE 96 Op Or te» ap mL | 6
A dp OP Ob OEP DEP Eb so» ur 1s. | 8
or sur tE% LP LSb LP OLP TP 06h ts és L08 | L
06» 96h TOS Ls LS LES Ops qSs 095 us 665 188 | 9
Lo TO 89 EE EMO 59 299 899 9L9 869 SIL es TOOL | S
18 98 Ihg 98 998 sLg veis 068 868 Os 9E6 sor que |
OGEl Séc G6EL 4OPI LNPLO SUBI DEPLO ThPL Lobi pstpI ELI B8bI vO91 PPiLI| E
OS'6E GN6E BOL LPGE PGE OP6E ShGE EMGE IDE OD6E GE6E LEIGE EEE OE6E o0'6€ Is'8E] Z
sioL POL OO! 9001 I00 TL66 IE66 Gh6 LOL6 DR EE L9S6 TBM6 ILE6 SIT6 N668 TP S66L ELM 1
3
eo o 09 o o€ vm o st u ot 6 8 L 9 5 , £ t r
ss 3
“96S'T OP IPAJU OU «OP SONHO SMOJVA HST DAQUI
wnse=a
ter est sua vet 107 ot Wi os ot
ext 194 EB Tot 60 ut ti 897 Lot
A Est or EU or ut st ut LT srE
si rs E z BIT SET MET spt ver trt
eo 68 so UT RETO ut Est tt te
os st 061 oz mto ser ent ss es eee
ua ue 161 ti Tt 9ET ser as s6t ver
ur es EeL Ez TETO LET 97 dst 96t SEE
se om sé1 sit uz Gt Lt 65% es Ler
um un 961 att vET ot 6h 09% 667 6rE
eo sur ser uz sz 1 ore
181 81 oz ut mz voe te TE
ve set Et oz pr 99% sor me
181 E set tr 6 Bor LE LrE
061 sé1 su sz Ist ut orE 6rE
€61 8e1 ret srt est vez ente use
L61 oz vz ist Bs uz ore sgE
tz ser ss 9 18 ot 6sE
m: Ne uz 6sT 997 s8T vt ex
uz 91 sz voz uz 06 eve ese
sa ur est ou a 96% ver pie
st ot 097 ut EST co RE IRE
mz sz sa SBT 67 nt eve mt
su sur sex 10% UE Out ss ag
eso ur 167 ue MNE UE €é€ we or
su sr ao mc sue umc ave are UE Sep
1 1o€ sue me ONE BE GU MRE Lp hp
ue ore Ls ELE 6LE LE Le ur ser ver
ore vue oo» sty Nr ar ser er Le PIS
or er 89 ur, se» só» sos eus ws es
es 165 voo so” 919 so 34 ss res
a es ve ses 68 POR 106 TO BUG 556
ee eve tre LEG SEG EE6L 0E'61 st6 t6t 0061
ces TU ser ee Bo OMI TOM SWZ USIT S'661
o o or o u o 6 8 e 2 s , ç t vinda
“a ——— "865 90 ja 08 q SP VOS MORRA (51 pagos
SPHQUIRO “ENSAA CATIA OQ) TO SOJA UypNSWOIG
“Aajue “O TH O VOtIVAA (8H PT OM “remppmoas 10f toNgOL PqiIoMONA SP OprmpoNdaM
o a Ru . À 91
sm mr ma PELO MOTO OE o
E ao 661 CUT SET or
si SEL om 991 Per s o: ei st o
so
MT tw
os m
em ua E OT OT q wi o
un E SOT MT att órz o
aa 1 a out E zo aos s
e
So es 1 st um E TO tos n
o ORI ami or OET ist ua
em 18 E sor To st x
e os er es so Wi est s
Su cast am mo SBN I6I ore cr est n
st es a 68 tel ut PET sst e
is e 19 E 061 té K SET OST u
sa SA] ent Tél s61 PIO RT
Vi em sm BL P6L 961 OT STT O
SET
MET ss
Ust
x
Tt
SL est om IST 967 61 erro um or st
E cet a6l 00 OT tt tri a
Sto ur sa 961 007 OT TI ET mt or
Ur ser sa 661 tor 90 vil UT Ore us
E vw 907 Go Wo NT orar
om em gm sor orz z 1X Gt use qr
Sei SEL 061 ox mz z 9$t LT
061 961 SIT 6tt z É 197 at
007 tz NT str 99% RT
so nº tt UT to us
sur mt ser ur 18 tor
ter der ot sz vw ur
eme st use LON out
tl br 067 7 ste opE
te drE uv é ur ar
sue sue oce toe ver sor Ur Gp er
vs sus us Eus vs LES ES Grs gps
sro Lr6 Ih6 606 SEG Sto Pó 96 006
909 LT 09 6109 9865 VOLS ERSS OSS os6p
o or o o o nr o st u o 6 8 uk 9 s r £ z
au,
“SOU SP IBAJU OU 4 9P SOMIO SMOJPA O'S] vjqui
%oa=a
o o E) 0 o 0 o 0 o o 0 0 0 0| &
EBO00 OZIOO S9IOO BIZOO 990 GLTOO TETO TIEOO LEEOIO ILEOIO 61b00 s6Poo TENOO 86600 | OT
L9100 PEZOO DILOO LIPOO Lób00 OTSOO TSSOO E8SOO £T900 TB90O S9LOO S6800 IEITO LELIO| 09
os too LvEoio zopoio S6S0O EILOO SPLOO OSLOO LTOSO L8800 89600 T8ONO 6STIO ILSTIO OLETIO| Ob
tetOO LSPOO 0900 ILLOO 1Z600 85600 ZOONO I9ONO LEIIO LETIO LLEIO E6SIO OB6IO 67670 | 0€
LIPOO L9SOO EPLOO ZP600 ELLIO O9LIO 9IZIO 9BTIO PLEIO EóPIO 9S9IO LOGIO PSETIO PEPEO| PT
DOSON SL90IO 6L80)0 BONO EOEIIO LSEIO TTbliO OSHO TO9LIO SELIO IZ6IO sOZTO SOLTO Fosco] OZ
L990'0 68800 PhITO 6ZPNO ILIIO SELIO SIBIO LIGIO PEOZO S6ITO 61bZO 8SLTO ELO 60LH0| SI
EEROO DONO EObIO LELIO OTTO S60TO LBITO 66ZTO GELO PZ9TIO OBBTO PITEO PZ6LO OIbSO| TI
O0ON'O BOFIO SS9NO ZEOTO ESETO GEMTO IPSTO 999TO ETBTO 6TOLO TIEEO EELEO OSbhio OZO90 | OI
UTDO 9prO OZBIO GTTTO BOSTO 6S9TO BILTO IO6TO L9OEO 98TEO PBSEO LTObO sLLHO s8e90 | 6
OSTIO DIVIO TTTO TIPTO GUTO TOTO EPOLO SBIEO TIEEO SOSEO OL6EO LLEPIO LSISO 86L90| 8
|
EERIO ALITO OSLTO PSIEO GSTEO PBEEO SESE'O ITLEO PL6EO LOEHO OO8PO ZI9SO ILTL'O
6TIO 19190 89820
OB6L0 PBIDIO LhbriO cosvO Izeso
we
L99LO GITO TINTO SEIEO B9SEO TRICO LISEO
EISTO II0EO SP9LO BIIPO IbZhO LSEHO PISPO ESLHO S9OSO IbbS'O IS6SO SEB9O TIPSO|
O00TO |
OOSTO EGO OTLEO 99EPO PRRPO LIOSO SLISO S9ESO BOSSO SÓBSO L8T9O IPO 61900
CCO IEOPO BPLPO 9IPSO STONO L9I9O FEESO OES9O ILL9O ILOLIO LSPLIO LL6LO 60L80 £
00050 EIRSO TO99O IDELO ORBLO OIOBO GSIRO TEERO PESS'O TLLSO LSO6'0 TOE60 OSL6O SS660 | T
vpupoitulis op 45 PP |oaju O nuud *UNIYIOD PP 9189 O VVd SOM saJojrA, Es di $
“LP6I
267
“JIOA MON “SU “ÁUNÁUIOO NOO8 IH-MBLDI CSICARO CSAjDUy [DONSPDIS JO ONbjupõoL 'SHICAR “AA “IN SURQUOSIA “O :21404
iG rá cosa gcaça cs
o o o 0 0 0 o o o o o o
E8OOO STIOO BLIOO ZPZOO TOLO 9IEOU PELOO LSEOIO LBEOIO GZH00 6800 s8s00 es100 st 9 oz
L9N0O SPTOO PrEOO 19PO0 LISO POS0O STO 89900 TTLOO 96LOO TOV6O G9ONO ILEIO IsITO| 09
ST0'% Foo EOSOO 89900 9IBOO ESBOO BOBO LS60)0 EEOIO SELIO IBTIO BOSITO SIGIO Op67o| Op
geo der00 8$90'0 L9BOO PSOIO MONO LSINO TETIO LTEIO PSHIO SESIO ELGIO TIPTO TE9EO| O€
LIPOO S6s00 OIB00 O9ONO ESTIO SEEIO SOPIO S6PIO BO9NO GSLIO UL6I'O S6ZTO IL8TIO Lezr'o| 4z
00500 60400 09600 BPZIO TOSIO L9SIO 9P9IO BPLICO LLBICO BbOTO BETTO PSITIO LOTE 66LP0| OT
L9900 PE60O ISTIO ZI9NIO BIGIO ZOOTO POLITO BTTTO BETO EOSTIO TEBTIO LIEEO 690P0 LeLSO| SI
EES0O LSINO SESIO 9610 OZETO 6IPTO SESTIO OBITO I98TO G60LO STPLO 6I6LO ISLHO gTs9O| TI
00010 9LEIO TISIO LOTTO POLTO LISTO SP6TO GOLO SOLTO TLSLO PE6LO 69PPO gSESO SLILO| OL
MINO IZSIO TOGO PISTO OS6TO L9OEO LOZEO BLECO TOLO OLSCO ISTHO OIsHO LISO prsL'O| 6
OSTIO OOLIO PIZTO 6LLTO BPTEO ELEEO TTSEO POLEO TE6LO Giro LToro cocso tsISO spoLo| 8
6TrIO 6T6IO POPTO SOIEO 9I9EO ISLEO IIGEO SOIPO Lhth'O 6S9P0 OBOSO S89SO Pp990 9LEZO| L
L99VO 6TTTO BSBTO 6TSEO PROMO GLrho Iobr'o sogro 99840 S6Is'o SE9S'O BST9O BITLO gza80| 9
O00T'O HPITO Istr'O POOPO LO9PO PS8h'O LEOSO GSTS'O ESSO SLBSO 6TL9O LS690 SELO 6L760| S
DOSTIO ISTEO LSOMO PB8PO ESSO TOLSO L68SO 6TINO OIP9O I9LIHO TITLO PISLO Eh9SO 9,960] +
fEEEO OLEO ESISO 65090 EPL9O TI6N0 LOILO SrELO 9O9LO LE6LO SEcgO IEB8O ETP60 EE660| E
000S'0 79090 L9OLIO 6h6L'O GESSO PLOSO LT88O SB680 TLIGO ELE6O 9ES6O P6L6O 05660 66660] Z
oo Ph 9€ 91 o1 6 8 L 9 s t E t 1
erUponUSIS OP %I OP J2AU O tIRd “ULIYDOD PP 9JSaj O EILd SODIII SSIOJBA SS] DJIGPI
Capítulo 16
Comparação de médias de k populações
independentes — Análise de variância a
um critério de classificação
do,
é Ra ni Rs My;
pode-se escrever:
3Ft
ni;
x =——
, paai = 1,2,...k
n;
270
m h;
> (uy = Bs s Gy — W)2; anal
ja j=1
Tu — 8); xo -=*%)
ja
o — &.)?
1
k Ni
> > (xy — &)?
el el
que se representará por Q» e se denominará variação dentro das amos-
tras, ou simplesmente variação dentro (convencionalmente variação
dentro de tratamentos):
ni
2 Xj — &.)?
Em
Imagine-se, agora, as
n=m+tn+... +n +... + m observações
como formando
um conjunto único, isto é, uma amostra global de tamanho n:
X1 X pm X aee Xa
Xp Xo cu. Xp 0. Xy
Xs ... Xj ce Xj
* . .
. E é
. * .
X, In, e Mn, eee x, ho,
mn
Nestas condições, pode-se definir a média geral do coní
observações como: ' BID 8
k Mj
3 Xy
. E Do
cobsisasiidinisino
z..
E fácil verificar que esta média geral nada mais é do que a média
ponderada das médias amostrais X,., Xv, -.. Xv, , tendo os tamanhos
das amostras n;, Ny, ..., Ny respectivamente, como os pesos na pon-
deração, ou seja:
k
> mk
tel
£. =
n
A variabilidade das n observações da amostra global em torno de
sua média geral X.. será dada pela soma de quadrados:
k ed
> Dm -—R.)
ic sei
] que se representará por Q e se denominará variação total
k nj
0=5 > (ay — 3.)
FI
k
Q=Pm(m x.)
il
272
Portanto, O = O + Q,
k nó k
us Dmú-EP=Taua-zy 4
sto Sa í=1
k M
+ õ, aq = E)?
ie] =
1 k
St» mm — m)?
k
mm
E is
onde m = E
Q O
Portanto, nada mais natural do que o confronto de EI com —
- n-k
para a realização do teste de H, contra H,.
aEi será o? +
1 k
2 mn (m — m)?
.
epara
Q;
ni será 02;
k
3 mn (m — m)?
i=l
1 +
o? (k-1)
0:41
O./n-k
274
vã veraci: dade de
Ho,
: tem distrib
Istribu
ui ição F com k-
fiber dade. Nestas condiç le nk graus de
ões, o teste de H, contra
H consiste em calcu-
jar o valor observado de
J Q,/k-1
Q,/n-k
e compará-lo ao valor crítico de F para
dade, ao nível a fixado. Se F, (GK-1) e (n-k) graus de liber-
> E auático Tejeita-se H,.
SeF, <F
aceita-se Ho. crítico
O fato do teste de H, contra H, se basear na comparaçã
quociente, entre duas variânci o, por
as que represen
da variância total, justifica o nome de análise tam uma decomposição
de variância, apesar de
as hipóteses se referirem a médias.
Entre trata- k 4 Ch q q
mentos k—1 Q = 2 n (&,—R..)2 Quk— TT
tratamentos n—k Q =
HãEl jj=1
Eú
k ni
Total > (ag. significante?
n-1 0 0=5
>. il j=l
Md
275
Exemplos
Ho: m = me = nm ER:
H, : pelo menos uma média é diferente.
Cada sexo foi estudado separadamente, estabelecendo-se o nível
de significância a = 5%. No sexo masculino foram os seguintes os ta-
manhos das amostras : m = 22, n» = 26 en; = 18, que somam n
= 66. Os valores individuais do índice gengival observado (x;) e as
médias de cada grupo amostral são apresentados na tabela 16.1, en-
quanto que a tabela 16.2 é o quadro com os resultados finais da res-
pectiva análise de variância.
276
Tabela 16.2 Análise de variância referente aos dados da tabela 16.1.
—————— = E E,
Fonte de Graus de Somas de alndos ” FR
jação liberdade juad E auOs 'o Observado
ia —
Entre trata-
CO Std médico (6265: 5%)
mentos 0,0909 0,0455 1,1788
Dentro dos
tratamentos 63 2,4312 0,0386 (= 3,90)
%. = 0,2729
Fonte:
ic ]
Rosa, » Antoni io Galvãoã Fortuna, Efeitos
i do
Te Tempo de Escovação Supervi-
deuade por Professores sobre as Condições Gengivais de Escolares com EE Anos
€ Idade, dissertação de mestrado, Faculdade de Saúde Pública da USP, 1978.
271
Tabela 16.4 Análise de variância referente aos dados da tabela 16.3.
204 —
184
164
4.
número de crianças
5
N
00 01 02 03 04 05 06 07 08 09 10
o
Índice gengival
278
lização da análise de variância, Técnicas estatísticas adequa nt i
tem a avaliação prévia do ajuste entre dados Pinça
buições” teóricas, para a aceitação ou não desta pressuposi istri-
posição, como
mencionado no capítulo 9.
Para a discussão sobre em que os desvios
em Telação à normal
de e a não-homocedasticidade podem afetar a análise de ida-
variância (a
figura 16.2 sugere esta situação) deve ser consultada
bibliografia espe-
cífica *.
º Em EN
crianças
de
número
00 01 02 03 04 05 06 07 08 09 10
Índice gengival
: the t Tests”,D
au, C., Bulletin,
“The Effects of Assumptions Underlying
Psychological
alo
LVII: of 49-62,
Violations
1960.
2719
Capítulo 17
Testes de hipóteses em tabelas de
2x2ederxs
281
Região de
3,841
rejeição de Ho
282
Ho : há
óbitoindependência entre nívelde de5 inst; O da mãe e idade
de crianças menores « do
: há associação entre nível de instruçã ei a
Br de crianças menores de 5 anos da mãe e idade do óbito
Fixando-se em 1% o valor dea, a tabela da distribuicã de
correspondência a (3-1) (3-1) = 4 graus de liberdade, fome Po bar au
crítico de 13,277. Na figura 17.2 está assinalada a região de rejeição
de Ho. Uma vez queo valor Observado de y para a tabela 3.10 foi
igual a 75,421, ele caiu na região de rejeição
1%, há associação entre O nível de
instruçãode daHo. mãe
Logo,e aao nível &de
idade
óbito das crianças menores: de 5 anos.
Hx?
13,277 Região de
rejeição de Ho
Figura 17.2 Distribuição y2 para 4 graus de liberdade.
Tipo de Total
união
Civil e religiosa
Só civil
Só religiosa ou livre
Total 2.583
* Note-se que está satisfeita a condição proposta por Lewantin (ver capítulo 3)-
84
Em situações como esta, em que se pretende localizar a significân-
cia encontrada, procede-se de acordo com Cochran *. Em primeiro lugar,
extrai-se da tabela original os tipos de união que apresentam propor-
ões de aborto provocado mais próximas (só civil e só religiosa
ou
livre) e calcula-se, para a nova tabela, o valor de x, a fim de testar
as mesmas hipóteses anteriores. Tem-se assim a tabela 17.2. Calcu-
bela 17.2 Distribuição das mulheres com e sem
do de união marital, São Paulo, 1965. aborto provocado, segundo o
Aborto provocado
Só civil
Só religiosa ou livre
Total
Tabela 17.3 Distribuição das mulheres com ou sem aborto provocado, segundo o
tipo de união marital, São Paulo, 1965.
Aborto provocado
Tipo de
união
Civil e religiosa
. civil ou
Teligiosa ou livre
1
Total
/ 1 -
pd el À - Analogamente, p, é binomial com média 7, e des-
a
286
No caso particular de n; = n,,a distribuição amostral de (ps
será simétrica em torno de (7 — 7,). Sen; ;e n,, à simetria po
ser suposta se estiverem satisfeitas simultaneamente as condições:
nr >5 m(l-7)>5
n7 >s5, n(l
-—- 7) >5
fm (1-—m) + no (1 — 75)
Ty Do
Z= Pi — Pp:
Z > Za,
ou
WS = Zaj,
onde z,, / é o valor crítico na distribuição normal em correspondência
aq/, '*
Para um teste monocaudal, do tipo
H:m =7
H:m>7» |
rejeita-se Ho se
% > 2a
No caso do teste monocaudal:
Ho :m=7ns
H:m <m
rejeita-se Ho se
Z <-— Za
Exemplo |
288
nascido foi examinado
e classificado como normal
feito físico.
TA ou com algum d
Utilizando-se este exemplo
para ilustra: A r º proced e
m= proporção de Tecém-nasc
lação (hipotética) idos com defeitos
de gestantes com rubéol físicos na popu-
de gravidez; a até o 3.º mês
Ho :m =7%
Ho:m > ma
= 1414 = 0,28
"Es
3
PS =2 = 006
Nestas condições, tem-se, sob a veracidade de Ho:
(0,28
w=—————— — 0,06)A
= 3,03
Sta + 3) (36 + 51)
50 x 54 x 104
se p: > P-
Caso p; < ps, então
x + 0,5
Pe
x — 0,5
Pe =
O prosseguimento do teste de hipóteses se dá substituindo-se na
última expressão de z, p; e p: pelos seus respectivos valores corrigidos
e usando-se a distribuição normal N (0;1) para a realização do teste.
Condição do
pesido ec sã com Eacfeitca dem defeitos Total
da gestação
É 5 n=9
As prisma
ã 7 m=0
Depois do 3.º mês
6 12 18=n, + 8
ps
Suponha-se agora que, em lugar dos resultados apresentados, tives-
sem sido observados, para o mesmo tipo de estudo, os dados da tabela
17.4. Como se vê, agora as amostras são bem menores do que as an-
teriores e n; + n: = 18,0 que não permite mais usar a distribuição
normal para a feitura do teste de hipóteses que era a distribuição apro-
ximada de (p; — p=). Lança-se mão, por isso, do teste exato de Fisher
(já mencionado no capítulo 3). Este teste consiste em calcular a pro-
290
babilidade de se obter
uma tabela como a 17.4
ou outras disposições
ainda mais discrepantes (fixado
s os totais marginais) no sentido da
hipótese H, e compará-la com
O valor de a pré-fixado. Em outras
vras, calcula-se a probabilidad pala-
e de se obter
91 9! 6! 12
Pa zs 7
91 9! 6 121
PM sas
Pp = 9191 61 12
181 61 31 01 9!
ou, genericamente,
(Pp — Pa)?
Mp + np) Im (1 —p) + mo (1 — po)]
m no (Mm + no)
="
= = 41,0% cm g = = -—— = 41,5%
E É Es 200
Como se vê, estes valores são praticamente iguais entre si, O que
era de se esperar, uma vez que para a tabela acima o coeficiente de
associação de Yule foi igual a + 0,999, mostrando associação quase
perfeita positiva entre os dois métodos.
No entanto, a recíproca não é verdadeira, ou seja, pode-se ter
valores muito próximos, e até iguais, para estas proporções de positivos,
« haver independência entre os dois métodos.
292
O caso
' como o que
: se apresenta e: juematic; ,
divíduos, ilustra esta situação: e amente para doze in-
Resultado pelo
Indivíduo n.º
Cc
z
&
5mn
| +A+++
+rrLILILi+++
BESvodanawn
PEDIA
MIFC
E = Total
FAUST
E 3 3 6
> 3 3 6
Total 6 6 12
ta tu tt,
Feitas estas considerações, sejam respectivamente 71€ y2 as verda-
deiras proporções de sucesso nas populações Pe Ps, não-independen-
dentes. Fixado um nível de significância de à, o teste de hipótese
de Ho: n = ys contra Hiiy =* y2
poderá ser feito através da estatística
(a — 2) — (un —y)
Vo +03 —2 po 0
Vo +o — 2Py nO
a expressão:
fu
& Bs Ea
n
e demonstrou que a estatístia ç
U = (g — go)? :
&+g = 22 —Mn
n
tem distribuição x? com 1 grau de liberdade. Logo, o teste de H
contra H; é realizado comparando-se o valor observado de U:, Uz, com
o valor crítico correspondente de yº para 1 grau de liberdade e um nível
de significânciaa. Se U; > Daio? rejeita-se Ho, aceita-se Ho, em caso
contrário.
a nica estes resultados ao exemplo proposto. tem-se, para
a= 5%:
é McNemar, Q.. “Note on the sampling error of the difference between correlated
proportions of percentages”. Psychometrika, 12: 153-157, 1947.
294
a pg (0,410 — 0,415)2 a
0,410 + 0,415 — 2x 040 — 020
200
Ho: dd = 5
HP :ô * d
fi + fo
=
fo — tu?
fu
ty)? , que tem distribuição xº com 1 grau de
fio o fo:
liberdade.
Pode-se demonstrar que esta expressão é igual àquela dada por U..
Exemplo
Rocha e Silva et al.,* para testar as hipóteses, ao nível de 5%
de significância,
H, : preferência alimentar do T. sordida por sangue de ave =
preferência alimentar por sangue di
Sangue
Sangue de humano + - Total
ave
+ 12 23 35 (30,17%)
— 20 61 81
32 84 116
Total (27,59%)
* Capturados na cama.
Fonte: Rocha e Silva, Eduardo Olavo, er al., op. cit.
* Rocha e Silva, Eduardo Olavo da: Souza, José Maria Pacheco de; Andrade,
José Carlos Rehder; Mello, Cássio José de; Ferreira, Octávio Alves. rt
Alimertar (Entre Sangue Humano e ave) dos Triatoma sordida Encontrados Em
Casas Habitadas da Região Norte do Estado de São Paulo, Brasile, Ros Saúde
Públ.. 11: 258-69; 1977.
296
Chamando-se y, à proporção de triatomíneos que têm preferência
Ho :ô = 69,
= D-D 23 — z
9 gy9
23+ 20 43
Capítulo 18
Teste de um coeficiente de correlação e
de um coeficiente de regressão
contra
H:P *<0
18.2 Teste
de regressão
Da-Dy-DA
il
Da - nt
is
300
Em decorrência » a de 1,2 e 3 4 pode .
medida na variável aleatória Y tem distribua enunciada: o erro de
E
zero e desvio padrão o. ção normal com média
Isto posto, pode-se demonstrar que as estatísticas
b-sB a-a
SE: e
Sb Sa
n n
SGD? — 43 Gu-m2]/(n-2)
is is
n
x Gu—R)?
FI
es. a é é ê : .
um estimador do desvio padrão da variável aleatória a, dado por:
io
1 zº É o E .
“= o +=== ==— 20 -=9)2 — >, (3)?
z G— 3? il Fl
1 n=2
na curva
— ta, n-2 € ta/2, n-2, obtidos
prai com valores críticos O teste é bicaudal.
liberdade, uma vez que
Para (n — 2) graus de
301
iii ati
- <-ta/gn-
b-3
ou o > ta/a, n-2, rejeita-se Ho.
Exemplo
302
Para testara, tem-se:
; a = 0,0462
= / | 1, J0s6t | [4875978 — ,6466x 7026767] | o6ss
S 18 * 7,026767 16 o
. a-a
A expressão toma o valor
a-a 00462
Sa 0,0658 = 0,7021, levando à decisão estatística de
303
Capítulo 19
Estimação de parâmetros populacionais —
Por ponto e por intervalos de confiança
a , EK?
da variância populacional o? é a variância amostral sº =
= 2a
—)2 % 4
. Para indicar que se está diante
:
de um esti-.
ous? n-1 o
mador, usa-se
o símbolo A . Tem-se: m = XxX
õ=s
d=r.
305
E desejável que o estimador de um parâmetro tenha certas proprie-
dades que permitam avaliar se o estimador é um bom substituto do
parâmetro que se pretende estimar. Estas propriedades estão ligadas ao
fato de" os estimadores serem variáveis aleatórias. Em geral, deve-se
preferir estimadores não-viciados. consistentes, de melhor eficiência e
suficientes.
A discussão dos conceitos referentes às três últimas propriedades
está além do escopo deste livro. Será apresentado apenas o conceito de
estimador não-viciado.
Considere-se o fato de estimar a média populacional m, de uma
população P, através do seu estimador à = X, calculado em uma
amostra de tamanho n, originando a estimativa X. A partir da popu-
lação P. todavia. é possível obter um conjunto de amostras, cada qual
originando determinado X; na prática, somente uma amostra é tomada
e somente um X é usado em lugar de m, não sendo possível afirmar
que X seja igual a m. A teoria estatística permite, porém, afirmar que.
se fosse calculada a média aritmética de todos os possíveis X obtidos
de todas as possíveis amostras de tamanho n daquela população P. o
valor obtido seria justamente m. Ou seja, a média aritmética dos x é m,
o que caracteriza O estimador X como não-viciado, o conceito de vício
já tendo sido exposto no capítulo 6, Amostragem.
Genericamente, diz-se que um estimador Y é não-viciado quando
a média aritmética de todos os possíveis valores numéricos v, estimados
nas amostras de tamanho n, teoricamente obteníveis da população P,
é igual ao parâmetro V. Já se viu que a média aritmética amostral X
: a EG -— 3
tem esta propriedade. O estimador 6º = njE S e=
lg -—s
não-vici
éÉ não-viciado. enquanto dºs =s2,, = 7 é viciado. De fato,
é o* e no segundo
caso é
306
grau de confiança de que contenha o verdadeiro parâmetro
desconhe-
cido. A tal intervalo denomina-se intervalo de confiança.
O grau de confiança 100 (1 — a)% que se quer depositar na
mativa feita através de um intervalo vai depender de
esti-
cada caso parti-
cular e pode ser 80%, 90%, 95%, 99%, etc. Se o grau
de confiança,
também chamado coeficiente de confiança, for de, por exemplo, 95%,
O intervalo diz-se de confiança de 95%. Os intervalos de confiança
“podem ser bicaudais ou monocaudais.
nm-n= <i<n+ta-&
“Va vn
seja 95%, isto é, tal que
is o
jus et<m e +27 —) o = 95%
(D) P(m am “ms)
= Eo =
<z<m+ 1,96 A ) =ta 95%,
(2) P(m 1,96 Ta Va
conter
m é de 95%.
Entretanto, quando tomada uma amostra de tamanho n é calcu-
lado o valor de X = % e substituído na (4), deixa de ter sentido
falar em probabilidade de o intervalo resultante conter m, porque o
intervalo
á %
x —-196-LH>
1% + 1,96
6) b 6 ? va
deixou de ser agora uma variável aleatória. De fato, X%, ce Vn são
múmeros conhecidos e o intervalo por eles determinado ou contém
ou não contém o parâmetro m. Diz-se, então, que a confiança que se
deposita nesse intervalo é de 95%, porque antes da tomada da amostra
de tamanho n a ele estava associada uma probabilidade de 95% de
que contivesse m. Por esta razão, a (5) chama-se intervalo de confiança
de 95% para a média populacional.
o o
(Go — 1,96—-—
vã? e
é ão + 1,96
va
—=)
E 8 e
M x -— tafo,ni va > E + ta/an-l , a
onde toy, » n-1 é o valor na distribuição t
para n-l graus de liberdade
que tem à sua direita 5 da área total.
Ae E Blog a
ea
n = 4x2, q xo?
Exemplo
” Zay, Hp + op,
Exemplo
Em dissertação de mestrado, Amador * estimou por intervalo com
95% de confiança, em mulheres que fregientam ambulatório
de gine-
cologia e de clínica médica de dois hospitais de São Paulo,
qual a ver-
dadeira proporção que tem informação sobre a técnica de
auto-exame
310
da mama. Da amostra de tamanho n = 893 mulheres entrevistadas,
221 (x) responderam afirmativamente, o que resulta em p', = 24,75%
(0,2475) de mulheres informadas. O intervalo de confiança
é cons-
truído a seguir:
0,2192 | | 0,2758
21,92% | | 27,58 %
xo. , ;
Com valores de maiores do que 0,5, usa-se a abscissa superior
e as paralelas devem cruzar o eixo das ordenadas à direita.
3H
2 2
o st = A
(Ro —Ro2) Zap Eh + I2
a [a À
,
e (m— Ds + ( P/1,a
(Ko —%oz) — taya, mtm-2 m Tens mm + nz r )
(m—)s2+ (ne-1)s2
Pe E
(1 a
(Roo) +t Gn +n9-2 m+tn-—2 non
contém, com (1 — a) de confiança, a verdadeira diferença (m, — mo).
Para desvios padrão desconhecidos e supostamente diferentes, tem-
se o intervalo:
s;2 =
Go—Roa)—tap1E f—=. + ar +
| EPn no
Dr DT — 2 graus de liberdade
( sf sy?
ma o
+
m+1 nm+il
312 j
Exemplo
E
as132-12260) + 1.738 É 9 aiç 2 o9 23/10 1
Ea 1 +5)
10 +10-2 to 10
TO BIBLIOTECA | 313
FACULDADE DE MEDICINA DE
aritmética Do dos D é a estimativa por ponto da diferença das médias
m, ce ms € O respectivo intervalo de confiança fica construído da se-
guinte forma:
Sp
Do - taí, nm va IDo + tap nd VE.
Exemplo
Ribeiro et al.,* em estudo comparativo de efeitos broncoespasmo-
lítico e colaterais entre dois medicamentos (HD e teofilina), mediram
a Capacidade Vital Forçada (C. V. F.) em ml, no primeiro dia de tra-
tamento. antes e duas horas após a administração da droga a ser testa-
dada a 15 pacientes distribuídos aleatoriamente. Foram obtidos os se-
guintes resultados:
* Ribeiro. Herval Pina: Nogueira. Diogo Pupo: Haebisch, Horst; Koga, Rosa
Kiyoka: Souza. José Maria Pacheco de. “Estudo Comparativo dos Efeitos Bron-
coespasmolíico e Colaterais entre 0 7 — 3 — [2 — (3,5 — Dihidroxifenil)
— 2 — Hidrox-Etil-amino Propilj) — Teofilina. D — 1959 e a Teofilina Com-
primidos” - trabalho não publicado, 1976
314
314,03 314,03
— 231,33 — 2977. VT | [-— | |— - 231,33 + 2,977. 21405
— 231,33 — 241,38 || = 231,33 4 241,38
— 42741 ml || 10,05 ml
Exemplo
315
19.26 Intervalo de confiança para o coeficiente de correlação
p=12
1l+r
» que tem distribuição normal, com média
1 = f
my = a
1+P
=P e desvio padrão oy= RE
1
» para n grande.
(+ Ter 4
Av = ia LDt
1+r
VIRA -
316
po Iltçvln=3
logo: [+
2x 1,96
1- 087 VID=3
=1-0>>Se VW 3 2, 01799 = 0,820]:
T+ 0,87
2 Za,
L=>r e
1+ —— JAF = 1 + 0,179= 1,1799
V20-3
L+r
=| — 0,0269 = 09731
" - 2
º az
pa LDLn-3 =| + 00269 = 1,0269
| rt
Portanto.
= 2 Za,
| - 1l-— vyn-3
Tem-se:
n 18
b 0,8041
pa
Sp 0,0544
t = 2,921;
% 82
qFERE! a g qq 8
8sesss8senrce o Ss
on8
o o
SSsocoGscSsoS
— o tamanho da amostra n
Os números que aparecem sobre as curves indicam
ajx
0,50
SBssscsssssIsAgAgaEaS
048
0,44
042
320
Valores de p
:TTTTIRTIS3
Seaqonauaqmnançoagaszgnaagass 5SEFIFSTSS
335
Valores de r
Os números que aparecem sobre as curvas indicam o tamanho
da amostra n
322
Capítulo 20
Análise segiiencial
323
vações sobre o qual estará baseando sua decisão já não poderá mais
ser encarado como um valor fixado previamente. Pelo contrário, quan-
do decidir coletar observações adicionais, fa-lo-á na dependência dos
resultados daquelas até então coligidas, porém não de forma sistemá-
tica. mas sim, algumas vezes, em função de meras impressões, e outras,
em termos de testes de significância
Demonstra-se (Armitage *, 1954) que, assim procedendo, a pro-
babilidade de rejeitar erroneamente a hipótese de nulidade é maior do
quea. De fato, o exemplo que se segue ilustra bem esta afirmativa.
Suponha-se que um investigador, com o fito de pôr em prova a hipó-
tese H, de que a proporção de curas p, atingida por certo método
terapêutico, seja igual a um valor dado p; = 50%, contra a alterna-
tiva H,: p = po a um nível de significância a = 10%, tomasse 10
pacientes e. após havê-los submetido ao mencionado tratamento e ob-
servado o número x de curas, adotasse a seguinte regra de compor-
tamento:
1º — sex < 20ux > 8, ele rejeitaria H, (onde os valores 2 e 8
são determinados por « = 10% numa binomial para N, = 10
e po = 50%, pois numa tal binomial a probabilidade de se
obter 2 ou menos 8 ou mais sucessos é igual a
2x 0,0546875 = 0,1093750);
2º — sex = 5, ele aceitaria Ho;
3º — sex = 30u40ou 6 ou 7, ele tomaria nova amostra de mais
N. = 10 pacientes e os submeteria ao mesmo tratamento.
Agora, baseado no número de curas dentre os 20 pacientes, ele
rejeitaria H, se este número fosse menor do que ou igual a 6 ou
maior do que ou igual a 14 (onde 6 e 14 são determinados a
partir de uma binomial com N = N, + No = 20e p, = 50%,
tal que a probabilidade de se obter 6 ou menos ou 14 ou mais
sucessos é aproximadamente igual a 10%)
Nestas condições, pode-se mostrar que o pesquisador não estará
trabalhando a um nível a = 10%, e sim maior. De fato, segundo o
critério adotado, ele rejeitaria H,:
a) se na primeira amostra obtivesse x < 20ux > 8;
b) se na primeira amostra obtivesse x = 3 ou 4 ou 6 ou 7e
na totalidade dos 20 pacientes obtivesse x < 6 oux > 14.
324
A probabilidade correspondente a a) foi fixada
em 0,1093750.
Aquela correspondente a b) é dada por 0,063114.
Portanto, o nível de
significância no qual o pesquisador estaria na realidade
trabalhando
seria igual a
o = 0,1093750 + 0,063114 = 0,1724899 = 17,2489% *
Desde que a decisão de parar ou prosseguir seja condicionada
aos
resultados das observações já coligidas, tem-se o que se
denomina
um proced: quencial. Ent , atitude Th à do exem-
plo apresentado é. algumas vezes, adotada sem que o pesquisador
for-
mule explicitamente as suas regras de parada ou prosseguimento; não
é possível, então, o cômputo do verdadeiro valor de « e, o que
é mais
grave, o pesquisador pode, erroneamente, acreditar que ele seja aquele
inicialmente fixado.
326
nário) de pacientes submetidos ao tratamento, pode assumir apenas
um de dois valores possíveis (p, e p,) e a hipótese nula estabelece que
p = Poe a alternativa que p = p,, Na maioria das aplicações, hipó-
teses assim tão simples não acontecem especificando valores
únicos de
p, mas conjuntos de possíveis valores, como, por exemplo,
H, : p < po
contra H, : p > Po- Todavia, como será visto mais tarde, as soluções
destes problemas mais complexos repousam na solução do problema
mais simples, ou seja, pôr em prova Hy : P = po contra a alternativa
H,:p =p
Num teste seqiiencial da razão de probabilidades, a escolha
entre
as três decisões possíveis, em cada etapa, é baseada na relação por
quociente de duas probabilidades: a probabilidade de que as
observa-
ções até então coletadas tivessem ocorrido se H, fosse verdadeira
e a
probabilidade de que as mesmas observações tivessem ocorrido se H;
fosse verdadeira. Seja, numa etapa qualquer, P, a probabilidade de
ue a amostra obtida tivesse ocorrido, se Ho fosse verdadeira, e P,
a probabilidade de que a mesma amostra tivesse ocorrido, se H, fosse
verdadeira. Se P; for menor do que P,, isto é, (P;/P5) < 1, a amos-
tra é mais provável sob a pressuposição da veracidade de Ho, isto é.
a verificação da desigualdade (P;/Po) < 1 deve ser encarada como
um indício para aceitar Ho. Naturalmente, a força deste indício cresce
à medida que P;/Pq decresce no intervalo 0—1. Pois bem, toda a
idéia de Wald reside em encontrar um subintervalo 0-B, onde a força
do indício seja tal, que a margem de erro resultante da aceitação de Ho,
quando H, é verdadeira, seja 8. Analogamente, a verificação de P, maior
do que Po, isto é, (P;/Po) > 1, é indício favorável à rejeição de Ho,
cuja força cresce à medida que P,/P, cresce no intervalo 1 — x, e a
idéia de Wald consiste em encontrar um subintervalo A — sc, onde a
força do indício seja tal que a margem de erro resultante da rejeição
de Ho, quando Hg é verdadeira, sejaa.
Resumindo, no teste segiencial da razão de probabilidades, dois
números Ae B(A > 1eB< 1) são escolhidos e, em cada etapa
do experimento, computa-se P,/Po:
se (P;/P)) > A, o experimento termina pela rejeição de Ho;
se(P;/P,) < B, o experimento termina pela aceitação de Ho;
se B< (P;/Po) < A, o experimento é continuado e colhe-se nova
observação.
A=78
1-B Es
es B
327
obtém-se um teste sequencial cuja probabilidade de um erro de pri.
meira espécie é praticamente igual a a e a probabilidade de um erro
de segunda espécie é praticamente igual a p.
No presente exemplo, é fácil calcular Po e P, em cada etapa, uma
vez que a resposta de cada paciente ao tratamento é obtida indepen-
dentemente. Suponha-se que os primeiros m pacientes, depois de trata-
dos, apresentassem sm curas e (m — Sm) não-curas. Desde que, sob a
veracidade de Ho, a probabilidade de uma cura é po e a de uma não-
cura é (1 — po), tem-se, para a probabilidade da amostra observada,
quando H, é verdadeira:
m — Sm
DRp=p(-po)
Analogamente, desde que a probabilidade de uma cura, quando H, é
verdadeira, é p; e a de uma não-cura é (1 — p:), então a probabili-
dade da amostra observada vale:
Sm m — Sm
BD P =p (O —p)
Sm m — Sm
Pp (1 —p) 1-sB
Q PP =—>—————— >
Sm m — Sm a
Po (1 — po)
Sm m —
Pp (1 —p) “a
9 Prp=————
> cb
Sm m — 1 -a
Po (1 — po) Sa
328
onde U, V e W são calculados a partir dea, B, po € P1, como segue:
(7) Ui = ass
(8) V = —dom
Pi
1 -a
(10) Rm =U+(m-s)V
AD An=W+(m-—s)V
329
Rm Am
Sm À Rejeição y
| Set // Continuação
| // da experiência
| / É
|
| /
| /
|
| x Aceitação de H,
|
A
v
m — sm
0
330
cia deste tipo de erro será tanto meno| r quanto menor for a magnitude
da diferença. Usualmente, é possível para o investigador formar tal
juízo a respeito de um limite e que, se a diferença
p — po for menor
do que e, ele possa Tesignar-se a deixar de
orque o benefício decorrente do novo descobrir que Pp >
tratamento é, neste caso, emos
siadamente pequeno para ter significação prática. Os valores compre-
endidos entre po e Po + E = p; constituem a chamada zona
de indi-
ferença.
Entretanto, se (p — po) > €, o pesquisador ra
jari
boas possibilidades de poder optar od HA = ea serem Ra
erro de segunda
erro já anteriormente apontado, o chamado
cuja probabilidade
um valor fixado, B. de ocorrência ele desejará que seja menor do que
Depois de considerar os vários aspectos do problema e
as conse-
qiiências de cada um dos possíveis erros, o pesquisador especifica as
três quantidades mencionadas, a saber:
1) um limite p; de tal magnitude que, se P > Po mas p < py,
ele não vê inconveniente na aceitação errônea de Ho;
2) a ináxima probabilidade permissível a de dizer que p > Po,
quando na realidade, p < po;
3) a máxima probabilidade permissível p de dizer que p < Po,
quando, na realidade, p > pi.
w-—-a(W-—U)
42) fo =
po (1— po) V
se Ho for verdadeira, e por:
U+B(W-—U)
19) | =—>———————
se H, for verdadeira.
Exemplo
* Consulta feita pelo Dr. Victório Barbosa, assessor das Operações de Epldemio-
logia do Serviço de Profilaxia da Malária do Estado de ao Padio. 195
332
lhor a preparação da lâmina, mais fácil o diagnóstico. O Laboratóri
distinguia quatro categorias de lâminas, a saber: muito boas, boas, mé-
dias e ruins, €, conquanto esperasse manter baixa a proporção de ruins,
era difícil garantir que isto sempre acontecesse. Por esta razão, que-
riam estar seguros de que um técnico fosse capaz de conseguir pelo
menos 90% de diagnósticos corretos, mesmo quando 25% das lâminas
fossem de má categoria, sabendo também que havia 25% de cada uma
das demais categorias. Nestas condições, a proporção total de diagnós-
ticos corretos de lâminas positivas, p, torna-se uma média ponderada:
Ho :p <p = 90%
contra a alternativa:
H,:p > p = 90%
334
das mais simples, indicando a conveniência de
um Planejamento que
permitisse uma redução do tamanho de cada estrato.
&
901 Ê
Bo
E ul =
8 o
5”
e
$
o
o “mo
E 607 £
égs Ê
o
5ê 40
E
1
JF 30+
203-
10%
0 - r t r r
5 10 15 20 25 M-Sa
Ho : Pp < 90%
H, :p > 90%
336
O número médio esperado de observações necessário para atingir
uma decisão é dado por:
wW —-a(W- U)
4
go — (1 — q) Vº
-.V-BW-Uu)
nm =
= 0—q)v
se H; for verdadeira, onde U”, V” e Wº são obtidos a partir
de U, V e
W, respectivamente, substituindo-se nestas p por q = 1 — Pp.
sendo
q =1—-p, e gq =1— po
337
No caso de o pesquisador verificar que na idade de três meses
existem SOS de imunes, ele concluirá que esse é o momento oportuno
para proceder à vacinação. Entretanto, se esse percentual já for menor
do que SOS, O investigador sera levado a acreditar que o momento
oportuno esta situado em uma tase mais precoce da vida da criança:
maior do que 50%
se ele encontrar um percentual
ao contrino,
admira que ainda se pode deixar para uma fase mais tardia a realização
da pratica imunizante.
Seja p a proporção de imunes encontrada na amostra de crianças
consistirá em fixar
de três meses de idade. O procedimento sequencial
primeiramente as quantidades:
log 1——
-— po lo A. Po
l-p é =P
Do > = O
P2
a log Pi
e Po
log LO Ps fog
de By
— 2
P2
dg log Pº
Pi
338
1 Pa 1 a
og — og ——
Bia, EI-A
——————————— > —— em
P:
log — log Pe
Po Ps:
1-— B
log
%
U,
1
log Pr
Po
1-—-
p
log g —=p+
Pa
log
Po
k
B1
o8 1l-—- q
log
log
log
log
m
I
'v19
log —
=Ba
Wim A
, tos DP
Po
em coletar observações, uma de
O processo seqiiencial consiste
bem como o de
cada vez, e, em etapas, contar o número de sucessos,
fracassos, até então verificados. Colhida justamente a m-ésima obser-
vação,
se sa < U + (m — Sm) Vi
341
by: “NR?
LXXXVII
Índice de tabelas para consulta
1
Distribuição binomial para p = e diferentes valores de n ..
343