Você está na página 1de 91

BIOESTATSTICA: UMA

INICIAO COM EXEMPLOS


EM SADE
(edio revisada)

BENEDITO GALVO BENZE

SO CARLOS

ABRIL

2010

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

SUMRIO
Prefcio

04

Captulo 1 A Bioestatstica como Metodologia Cientfica


1.1 Introduo
1.2 Estudos Descritivos ou Comparativos e Observacionais ou
Experimentais
1.3 Objetivos, as Variveis e os Dados
1.4 Populao e Amostra
1.5 As Escalas de Medida, Tipos de Variveis e a Variao Aleatria
1.6 Os instrumentos de Coleta de Dados

05
06
08
08
10
12

Captulo 2
2.1
2.2
2.3
2.4
2.5
2.6
2,7

Alguns Procedimentos Amostrais


Introduo
O Sistema de Referncia e os Mecanismos de Sorteio da Amostra
Amostra Aleatria Simples
Amostra Aleatria Sistemtica
Amostra Aleatria Estratificada
Amostra Aleatria por Conglomerados
Consideraes Adicionais

14
14
15
16
17
20
21

Captulo 3
3.1
3.2
3.3

Resumo e Anlise Grfica de Dados


Introduo
Tabelas Resumo
Tcnicas Grficas de Anlise Descritiva
3.3.1 ODiagrama Circular
3.3.2 O Diagrama de Barras
3.3.3.O Histograma
3.3.4 O Esquema de Ramos e Folhas
3.3.5 O Diagrama de Pontos
3.3.6 O Grfico de Tendncia

22
23
25
25
26
29
30
31
32

Anlise Numrica Unidimensional


Introduo
As Medidas de Centralidade (ou de Posio)
As Medidas de Variabilidade
4.3.1 A Varincia
4.3.2 O Desvio Padro
4.4 Medida de Assimetria
4.5 Escores Padronizados
4.6 O Coeficiente de Variao

34
34
38
38
40
40
41
43

Captulo 4
4.1
4.2
4.3

Captulo 5
5.1
5.2
5.3
5.4

Separatrizes e o Diagrama Esquemtico


Introduo
Os Quartis
Outras Separatrizes
O Desenho Esquemtico
2

45
45
46
47

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Captulo 6
6.1
6.2
6.3
6.4
6.5
6.6

Anlise Bidimensional Conjunta


Introduo
Dependncia entre Duas Variveis Quantitativas
Duas Variveis Qualitativas
Noes de Probabilidade
Qualidade de Testes Diagnsticos
Associao entre Duas Variveis Qualitativas

51
51
54
55
56
58

Captulo 7
7.1
7.2
7.3

Distribuies Contnuas de Probabilidade


Introduo
A Distribuio Normal
Clculo de Probabilidades na Distribuio Normal

61
62
63

Captulo 8 Intervalos de Confiana


8.1 Introduo
8.2 Intervalos de Confiana para a Mdia Populacional
8.3 Intervalos de Confiana para a Proporo Populacional
Captulo 9
9.1
9.2
9.3
9.4
9.5
9.6

Noes Gerais Sobre Testes de Hipteses


Introduo
O Raciocnio Bsico de um Teste de Hipteses
Testes Unilaterais
Testes Bilaterais
O Poder do Teste
Alguns testes de hipteses especficos
9.6.1 Comparao das mdias de dois grupos dependentes
9.7 Comparao das mdias de dois grupos independentes
9.8 Comparao de duas propores em amostras independentes
9.9 Intervalos de confiana para diferenas de parmetros
9.10 Anlise de varincia
9.11 Outras aplicaes dos testes de hipteses

Referncias Bibliograficas

66
66
72

75
75
79
80
80
80
80
83
86
88
88
89
90

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

PREFCIO

Este texto uma reviso da primeira edio que redigi em 2008, como contedo
bsico de Bioestatstica, inserido no mdulo de Epidemiologia, do curso de
especializao de Sade da Famlia da Universidade Central Paulista (UNICEP). A
primeira verso foi elaborada com o objetivo de servir como base de reviso ou de
iniciao aos mtodos introdutrios de Bioestatstica, principalmente para profissionais
da rea de Sade. Portanto, procurei, durante o seu desenvolvimento, apresentar os
conceitos e mtodos minimamente necessrios, seguindo a mesma seqncia do
desenvolvimento de pesquisas nessa rea. Isto , o planejamento da pesquisa, a coleta de
dados, a anlise grfica e numrica desses dados e a inferncia estatstica. Na redao,
procurei usar a linguagem menos tcnica possvel, com a introduo gradativa da
terminologia necessria e com a maioria dos exemplos reais na rea de Sade, nos quais
tive alguma participao. Dessa forma, o material iniciado com uma abordagem geral
sobre o papel da Estatstica no planejamento de pesquisas em Sade e os principais
mtodos cientficos de coleta de informaes, nessa e em outras reas. Em seguida so
apresentadas as ferramentas iniciais de visualizao e anlise de dados e, finalmente,
so introduzidos o raciocnio empregado na estimao de parmetros e testes de
hipteses. Na apresentao dos tpicos julgados menos familiares para profissionais da
rea de sade, como os intervalos de confiana e teste de hipteses, tive a preocupao
de uma descrio mais detalhada do raciocnio empregado e interpretaes, com o uso
exaustivo de ilustraes grficas. Com este material, no tenho a pretenso de habilitar
o profissional de Sade na anlise estatstica de dados. Mas, sim, fornecer-lhe algumas
ferramentas simples e teis que o possam auxiliar no seu trabalho, despertando-o para
alguns cuidados no levantamento e tratamento de informaes e, talvez, motiv-lo para
a procura de mais conhecimento sobre Bioestatstica.

O autor.

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

CAPTULO I
A BIOESTATSTICA COMO METODOLOGIA CIENTFICA
1.1 Introduo
A Bioestatstica pode ser definida como a disciplina em que so abordados os
mtodos estatsticos relacionados com: o planejamento, a coleta, a anlise e a
interpretao de dados biolgicos e da sade.
at possvel realizar e interpretar algumas pesquisas, particularmente na rea de
Sade Pblica, sem apelar para recursos estatsticos mais sofisticados, a no ser a
construo de determinadas tabelas e grficos simplificados e de algumas medidas
resumo de fcil determinao e compreenso como, por exemplo, a incidncia ou a
prevalncia de doenas. Entretanto, uma maior familiarizao com o raciocnio e os
mtodos estatsticos de planejamento, coleta e anlise de dados pode proporcionar ao
profissional da rea de sade o diferencial para o melhor exerccio da sua atividade.
Ao contrrio do que muitos imaginam, o trabalho estatstico no deve comear pela
simples anlise dos dados, mas sim muito antes, durante a fase de planejamento da
pesquisa. Conhecimentos da metodologia estatstica j devem ser empregados em
decises como: o qu, por qu, quem, como, quando, onde e quanto observar ou
medir. Os resultados de qualquer anlise estatstica em sade, bem como em outras
reas, dependem muito da qualidade e quantidade das informaes obtidas e da validade
e confiabilidade dos mtodos e meios utilizados na coleta e tratamento dos dados
informativos.
muito comum um pesquisador descobrir que muito esforo, tempo e recursos
despendidos em sua pesquisa acabaram sendo inteis, ao procurar a ajuda de um
estatstico s na fase final da anlise dos seus dados. Falhas no planejamento podem ter
ignorado a necessidade de coleta de dados importantes, quando, por outro lado, outras
informaes sem nenhum vnculo com o problema em estudo, podem ter sido
inutilmente obtidas.
A falta de critrios e de padronizao nos mtodos de alocao e de
observao/medio pode ter impedido a comparao dos resultados em estratos dentro
do prprio estudo e/ou com outros estudos semelhantes. A quantidade insuficiente e as
inconsistncias dos dados podem ter inviabilizado a aplicao de tcnicas adequadas de
anlise estatstica. Traando um paralelo com a rea de sade, essa situao pode ser
comparvel a de uma pessoa sem conhecimento de medicina que, frente a um agravo
em sua sade, resolve se automedicar, s tomando conscincia da gravidade do seu ato
ao procurar ajuda de um profissional mdico.
O planejamento a especificao detalhada dos procedimentos, a serem cumpridos
pelo pesquisador, dentro dos objetivos propostos (isto , dentro do que se pretende
atingir) na pesquisa.
claro que a metodologia estatstica no substitui o conhecimento especfico que
cada profissional de sade deve ter em seu prprio campo de atuao, mas um
5

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

planejamento e anlise estatstica bem feitos podem evitar crticas sobre a adequao do
estudo, facilitar a comunicao dos resultados, permitir a ampliao do conhecimento
cientfico sobre o assunto em questo e at provocar mudanas na prtica de
atendimento nessa rea.

1.2 Estudos: descritivos ou comparativos e observacionais ou experimentais.


Em pesquisas na rea de sade, os dados provm de estudos descritivos ou de
estudos comparativos. Nos primeiros, conforme a prpria terminologia sugere, o
interesse de simplesmente descrever os fatos, sem a preocupao de realizar
comparaes02. Isso ocorre, por exemplo, nos chamados estudos de casos ou srie de
casos (que consiste, por exemplo, na cuidadosa e minuciosa descrio do diagnstico e
evoluo de uma doena em um ou pequeno nmero de pacientes02) e nos estudos
institucionais (em que os dados so coletados por instituies pblicas, como o
Instituto Brasileiro de Geografia e Estatstica (IBGE) ou Sistema nico de Sade
(SUS), por exemplo, ou privadas, como o Instituto Brasileiro de Opinio Pblica e
Estatstica (IBOPE). Os estudos comparativos, por sua vez, recaem em um dos dois
seguintes tipos: os observacionais ou os experimentais.
Nos estudos observacionais03, a partir da identificao de um problema pela
observao, formula-se uma (ou mais) hiptese(s) que o explique. Essas hipteses
devem ser afirmaes do pesquisador sugerindo respostas simples s questes em
estudo. Com base na evidncia dos dados, elas sero corroboradas ou refutadas,
mediante estudos, realizados em condies naturais (isto , sem o controle do
pesquisador). Por exemplo06, uma hiptese poderia ser: A eficincia de uma
determinada vacina a mesma em populaes consideradas comparveis, exceto pela
presena ou ausncia da vacinao. A palavra comparveis aqui refere-se
similaridade dos indivduos com relao composio das populaes.
Os resultados de um trabalho de pesquisa observacional sero consolidados e
incorporados ao conhecimento cientfico somente depois de comprovados em um
nmero razoavelmente grande de repeties do estudo, sob condies naturais similares.
So exemplos de estudos observacionais, na rea de sade, os chamados surveys
(ou enquetes) transversais, muito utilizados em pesquisas psicossociais, bem como as
investigaes retrospectivas de fatores considerados de risco para a sade, constitudas
pelos chamados estudos caso-controle, ou prospectivas, constitudas pelos estudos de
coorte.
Nos estudos experimentais, tambm, parte-se de um problema identificado pela
observao e formula-se uma hiptese para explicar esse fato. Mas, ao invs das
previses a serem comprovadas em condies naturais, so impostas condies a serem
controladas experimentalmente durante a pesquisa. Isto , para a obteno dos dados,
pode-se planejar e executar um experimento em condies mantidas sob controle,
muitas vezes mais abrangentes do que as encontradas nas situaes naturais. Com isso
procura-se maximizar a confiana na validade emprica dos resultados04.
Geralmente, a quantidade de dados gerados em um estudo experimental muito
menor que a dos estudos observacionais, mas, devido ao controle da pesquisa, eles so
6

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

melhor estruturados, permitindo a aplicao de anlises estatsticas apropriadas. Podese, ento, decidir com uma margem de erro conhecida, a validade ou no da hiptese
previamente formulada05.
Os ensaios clnicos e ensaios biolgicos, muito utilizados em pesquisas na rea
de sade, so estudos experimentais. Por exemplo, a bioequivalncia entre os chamados
remdios genricos e os seus congneres no genricos estabelecida via planejamento,
execuo e anlise de ensaios clnicos.
Nos ensaios clnicos so constitudos dois ou mais grupos de indivduos semelhantes
em todos os aspectos considerados relevantes para o problema abordado (isto , as
condies so controladas para tornar os grupos comparveis), menos nos tipos de
tratamentos recebidos por cada grupo. Ento, as possveis diferenas nas respostas
apresentadas pelos indivduos de grupos distintos so atribudas s diferenas de
tratamentos. Pode-se constituir, inclusive um grupo controle com um pseudo
tratamento, para considerar o chamado efeito placebo, ou mesmo constitu-lo sem
qualquer simulao de tratamento.
A atribuio dos indivduos aos grupos deve ser feita de forma aleatria
(casualizao), o que tambm contribui para a comparabilidade dos grupos.
Recomenda-se que os participantes no consigam distinguir o seu tratamento dos outros
ou que o prprio pesquisador no saiba a que tratamento esteja alocado cada sujeito
(experimento cego) ou, ainda, que ambos, pesquisador e sujeito, no identifiquem o
tratamento (duplamente cego).
Na figura 1.1, a seguir apresentado um esquema de comparao de trs grupos, com os
tratamentos T1, T2 e T3 contendo a mesma quantidade q de indivduos em cada grupo
(grupos balanceados), onde Ii,j representa o j-simo indivduo dentro do i-simo
tratamento.
T1

T2

T3

I1,1

I1,2

I1,3

I2,1

I2,2

I2,3

I3,1

I3,2

I3,3

Iq,1

Iq,2

Iq,3

Figura 1.1 Representao de um estudo experimental para a comparao de trs


tratamentos (ou grupos).

Em 1976, foi realizado nos Estados Unidos da Amrica, um estudo experimental


(ensaio clnico) com o objetivo de verificar a eficcia de uma abordagem cirrgica mais
conservadora do que a mastectomia radical em pacientes com cncer de mama. Neste
estudo uma quantidade, excepcionalmente grande, de 2.163 pacientes, nos estgios I e II
da doena, foi aleatoriamente alocada a um dos trs tratamentos: mastectomia total
(MT); tumorectomia (Tc); e tumorectomia mais radioterapia (Tc+RTx). A incluso da
7

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

radioterapia nas pacientes que se submeteram tumorectomia aumentou


significativamente o tempo de sobrevida das pacientes, inclusive com relao
mastectomia total02.

1.3 Os objetivos, as variveis e os dados


Os objetivos de qualquer pesquisa devem ser formulados de forma bastante clara,
pois as demais etapas deste trabalho baseiam-se neles01. Por exemplo, o objetivo geral
de uma pesquisa observacional poderia ser: Conhecer o perfil dos moradores de uma
rea de abrangncia de uma Unidade de Sade da Famlia de So Carlos, visando o
planejamento e implementao de programas prioritrios de atendimento voltados para
essa populao.
A indicao das caractersticas (isto , das variveis) que devem ser observadas ou
medidas (isto , fornecer os dados) em uma pesquisa , geralmente, apresentada na
listagem dos objetivos especficos. Para o exemplo anterior, alguns dos objetivos
especficos poderiam ser, no necessariamente nessa ordem:
1) Determinar as condies socioeconmicas e culturais dos seus moradores;
2) Levantar as condies de educao, segurana, moradia e saneamento nessa
rea;
3) Conhecer as condies de ocupao profissional das pessoas em idade
produtiva, nessa rea;
4) Especificar a distribuio dessa populao por etnia, gnero e faixas etrias;
5) Determinar as regies de origem e/ou procedncia dessa populao e
6) Levantar as principais ocorrncias de agravos sade nessa populao.

As variveis a serem explicadas em um estudo observacional so denominadas


variveis dependentes (ou variveis respostas, no caso de estudos experimentais). As
variveis independentes (ou covariveis, para os estudos experimentais) so aquelas em
que se pode, com alguma autonomia, escolher valores para explicar o comportamento
da varivel dependente.
Por exemplo, em uma pesquisa sobre a avaliao da qualidade dos servios
prestados por uma unidade de sade da famlia, a varivel grau de satisfao dos
usurios com os servios prestados pela unidade dependente e o nvel de
escolaridade dos usurios uma varivel independente, pois o grau de satisfao com
os servios pode mudar dependendo do nvel de escolaridade (baixo, mdio ou alto) do
usurio.

1.4 Populao e amostra


Um dos primeiros passos no planejamento de uma pesquisa em sade definir a
populao, onde se tem interesse em obter as informaes. O termo populao aqui
usado no sentido da totalidade dos elementos que se desejaria estudar, constituindo as
unidades de anlise08.

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Para os estudos observacionais na rea de sade, eles podem ser, por exemplo,
pessoas, domiclios, unidades de atendimento, hospitais, medicamentos, equipamentos
ou qualquer outra coisa relacionada a esse tipo de atividade.
A definio da populao deve ser cuidadosamente especificada, no espao (rea ou
territrio) e no tempo (poca), de acordo com os objetivos da pesquisa. Uma maneira de
fazer isso comear definindo a populao ideal (populao alvo), at chegar-se
populao acessvel, levando-se em conta as restries de ordem prtica08, que
geralmente impedem a abordagem direta da populao inicial.
Definida a populao, deve-se tratar do delineamento da amostra. Isto , quanto
(qual tamanho da amostra) e como (qual mtodo usar para) selecionar, dentre os
elementos da populao, aqueles a serem realmente estudados (observados ou medidos).
Se essa escolha for feita por um mecanismo de sorteio (isto , aleatrio), cada elemento
da populao ter uma chance conhecida e diferente de zero de ser includo na amostra
aleatria. Com isso, alm de se evitar o vis de seleo (escolha inconsciente pelo
pesquisador de alguns indivduos), pode-se lanar mo da teoria estatstica para escolher
os estimadores, que so os meios empregados para transformar os dados amostrais nos
valores (estimativas) atribudos(as) aos parmetros populacionais (que so medidasresumo que caracterizam a populao) de interesse.
Na rea de Sade, o termo parmetro comumente empregado para se referir ao
que aqui chamado de varivel ou caracterstica de interesse 02. Em Bioestatstica, a
palavra parmetro tem outro significado.
Por exemplo, desejando-se estimar a durao mdia (que considerada um
parmetro, em Bioestatstica) de uma determinada afeco aguda (uma doena
infecciosa) em uma certa populao, pode-se usar o estimador dado pela mdia
aritmtica das duraes da doena (determinadas conforme os critrios de incio e fim
da afeco em cada indivduo) em uma amostra aleatria de n indivduos retirados dessa
populao. Essa mdia artitmtica o estimador mdia amostral simples. Ento,
calculado esse estimador em uma especfica amostra aleatria, obtm-se um valor que
uma estimativa da durao mdia populacional da afeco.
Dependendo do procedimento de seleo das unidades amostrais e dos parmetros a
serem estimados, pode-se determinar tecnicamente o tamanho da amostra para calcular
as correspondentes estimativas, dentro de um erro mximo admitido, com uma certa
confiabilidade fixada, levando-se em conta o tamanho da populao e a variabilidade
dos dados. Para entender os detalhes sobre isso, torna-se necessrio a assimilao de
algum conhecimento terico de probabilidade e estatstica.
Algumas vezes, a amostra composta por um mtodo subjetivo (isto , sem sorteio).
o caso, por exemplo, do uso de voluntrios, em estudos experimentais, onde,
conforme j foi comentado, os sujeitos so, no mximo sorteados para os tratamentos.
Outras vezes, como pode acontecer nos estudos observacionais, os elementos so
escolhidos propositalmente, na tentativa de, no mximo, refletir na amostra a
representatividade das caractersticas que ocorrem na populao. Nestes casos, fica
prejudicada a utilizao de toda a estrutura estatstica terica para assegurar a validade
da inferncia para toda a populao, dos resultados observados na amostra. Entretanto,
9

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

as repeties do mesmo estudo em outras amostras permite a agregao de resultados, o


acmulo de conhecimento e a sua posterior generalizao. Este procedimento
conhecido em cincia como meta anlise02.
Existe uma variedade de procedimentos amostrais, aleatrios, que podem ser usados
isoladamente ou combinados, dependendo do problema em questo. Os mais bsicos
sero abordados adiante.

1.5 As escalas de medida, tipos de variveis e a variao aleatria


A qualidade dos dados de uma pesquisa tambm depende de uma escala de medida
que apresente alta validade e fidedignidade07. Enquanto a primeira dessas propriedades
significa a capacidade da escala medir realmente a caracterstica para a qual foi
elaborada, a segunda a capacidade de produzir os mesmos dados mediante a
reaplicao da escala na mesma amostra.
Existem procedimentos estatsticos
apropriados para a comprovao dessas propriedades09, mas, em geral, utiliza-se o
senso comum.
As escalas de medio so classificadas em quatro nveis de mensurao, de acordo
com a sua ordem de complexidade:
1) nominais (quando a nica relao especificada entre os dados que sejam iguais
ou diferentes). Por exemplo, para a varivel tipos de doenas diagnosticadas em
usurios de um servio de sade, pode-se ter as categorias: diarricas, anmicas,
hipertensivas, isqumicas, crebrovasculares, broncorespiratrias, etc;
2) ordinais (quando indicam as posies relativas dos dados, mas no especificam
as suas magnitudes). Por exemplo, para a varivel nvel pressrico em pessoas, podese adotar a classificao: normotenso, hipertenso leve, hipertenso moderado, hipertenso
grave;
3) intervalares (quando as diferenas entre os dados so claramente determinadas,
mas no possuem um zero natural que expresse a ausncia da caracterstica de
interesse). Por exemplo: para a varivel temperatura, pode-se afirmar que a diferena
entre 70C e 35C de 35C, mas no que 70C duas vezes mais quente que 35C, pois
o zero aqui determinado arbitrariamente; e
4) da razo (quando existe o zero natural e tambm possvel realizar, com os
dados obtidos, operaes aritmticas de razes e quocientes). Por exemplo: para a
varivel idade de pessoas, o zero estabelecido naturalmente no momento de
nascimento. Portanto, uma pessoa com 60 anos tem o triplo da idade de outra com 20
anos.
As escalas nominal e ordinal so claramente qualitativas (expressam qualidades) e
as correspondentes variveis so denominadas de variveis qualitativas (ou
categricas). As variveis qualitativas podem ser, ento:
- Nominais, (por exemplo, tipo sangneo, etnia, sexo, etc.) ou

10

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

- Ordinais, (por exemplo, no estadiamento de cncer de mama, em: I, II, III e IV,
no se pode afirmar que o estgio IV duas vezes pior do que o II e nem que a
diferena entre o I e II equivalente quela entre III e IV) 02. Outro exemplo a
condio de um doente com relao a seu estado classificado em: estvel, grave, crtico
e irreversvel.
As escalas 3) e 4) so quantitativas (quantificam, medem), dando origem s
variveis quantitativas que, por sua vez, podem ser classificadas em discretas ou
contnuas.
Uma varivel quantitativa discreta quando os valores diferem entre si por
quantidades fixas. Nenhum valor intermedirio possvel e geralmente expressam
contagens. Por exemplo: o nmero de pessoas na famlia, o nmero de batimentos
cardacos por minuto e o nmero de bactrias em um volume de urina 02.
Uma varivel contnua quando os seus possveis valores no so contveis. Por
mais prximos que sejam dois valores, sempre possvel haver um valor intermedirio.
Usualmente essas variveis so medidas por dispositivos tais como: paqumetros,
cronmetros, aparelhos de presso, balanas, etc. Na prtica, costuma-se anotar os
valores com uma preciso menor do que a registrada pelo aparelho, o que corresponde a
uma certa discretizao dos dados. Por exemplo, se um cronmetro registra o tempo
de reao de um indivduo a um determinado estmulo como 6 minutos e 57 segundos,
isso poderia ter sido aproximado para 7 minutos.
Comumente, as escalas quantitativas so mais informativas que as qualitativas, mas
a opo do pesquisador pelo tipo de mensurao a ser adotada em cada varivel
depender dos objetivos da pesquisa e da viabilidade na aplicao do mtodo de
observao ou medio05.
Uma varivel medida ou observada em um indivduo deve gerar um e apenas um
resultado05. Para as variveis fsicas (como as relacionadas com: dados
antropomtricos, presso sangnea e informaes hematolgicas, por exemplo)
dificilmente ocorrem dificuldades com relao a esse aspecto. Entretanto, para algumas
variveis sociais podem ocorrer problemas, pela inexistncia de padres j consolidados
de avaliao. o caso da varivel grau de satisfao com os servios prestados por
uma unidade de atendimento sade, onde os procedimentos de avaliao devem ser
padronizados antes do inicio da coleta de dados, adotando-se, por exemplo, uma escala
quantitativa de zero a dez ou uma escala qualitativa do tipo: insatisfeito, indiferente,
satisfeito. Outros exemplos so02: intensidade da dor, dispnia (falta de ar) e
estado geral do paciente.
Em qualquer nvel de medio, a obteno de dados, de alguma varivel de interesse
em uma pesquisa, constitui um processo sujeito atuao de fontes intrnsecas de
variao, incontrolveis pelo pesquisador. Mesmo quando se tomam todos os cuidados
no sentido de tentar reproduzir do mesmo modo, inclusive no mesmo indivduo, uma
determinada medio, quer seja em estudos observacionais como nos experimentais,
ocorrem variaes aleatrias para mais ou para menos, em relao ao valor real,
produzindo alguma incerteza no processo de medio. Para a descrio dessa incerteza,
recorre-se aos modelos probabilsticos, que so a base terica da inferncia estatstica.

11

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

A variao aleatria s no detectada quando, por um erro de planejamento ou


falta dele, adota-se uma escala de mensurao muito grosseira. Um exemplo, um tanto
exagerado, seria a deciso de medir o peso de recm nascidos, aproximando os
resultados obtidos para quilos e, portanto, desprezando-se as fraes de peso.
Ainda na fase de planejamento das pesquisas, pelo menos para as variveis
principais, as magnitudes das correspondentes variaes aleatrias devem ser
aproximadamente previstas de alguma forma. Pois, isso pode ser necessrio para, por
exemplo, determinar o nmero de indivduos da populao a serem selecionados
(tamanho da amostra) para estudo. Depois de coletados os dados, pode-se, com base
neles, estimar as magnitudes reais dessas variaes e us-las na anlise estatstica.

1.6 Os instrumentos de coleta de dados


Particularmente em estudos experimentais, os instrumentos de coleta de dados so,
em geral, dispositivos de medio, os quais devem, antes do incio da tomada das
medidas, serem avaliados e mantidos calibrados. Com isso, consegue-se evitar ou
minimizar os chamados erros sistemticos de medida, provocados por defeitos ou
desvios de regulagens, muito comuns nestes aparelhos.
Em estudos observacionais, as medies, nos elementos amostrais, de algumas das
caractersticas de interesse, podem tambm necessitar da utilizao de dispositivos
como os j citados anteriormente. Mas, em geral, so empregados questionrios ou
roteiros ou as duas coisas juntas. A construo destes questionrios um processo
tpico de tentativa-erro, at a obteno de uma verso definitiva.
Basicamente, a confeco do questionrio consiste na transformao dos objetivos
especficos da pesquisa em perguntas, onde uma ou mais delas referem-se a cada
caracterstica a ser observada ou medida. O principal esforo deve ser centrado na
seqncia, quantidade e tipos de questes, procurando-se desse modo manter o interesse
do respondente.
Por exemplo, um questionrio de um inqurito epidemiolgico pode conter
perguntas visando informaes sobre variveis como: idade do sujeito, tamanho da
famlia, renda familiar, estado civil e condio de emprego.
Nem sempre para cada pergunta corresponder uma nica varivel. Dependendo do
grau de detalhe desejado para as informaes, pode-se associar mais de uma varivel a
uma mesma pergunta ou mais de uma pergunta para obter as informaes de uma
varivel.
Por exemplo, para uma pergunta que indagasse o respondente (um mdico de um
servio de sade, por exemplo) sobre os tipos de doenas diagnosticadas por ele
durante um certo perodo de tempo, pode-se associar as variveis qualitativas: diabetes
mellitus (sim, no); anemias (sim, no); bronquite (sim, no); hipertenso (sim, no),
etc. Com isso obtm-se, alm do nmero de doenas diagnosticadas, tambm a
distribuio delas. Por outro lado, para se obter o valor da varivel ndice de massa

12

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

corporal de um indivduo (IMC), deve-se medir as duas variveis altura e peso,


peso
pois IMC =
.
(altura ) 2
As perguntas devem ser suficientemente claras para os indivduos a que se destinam,
cuidando-se para que elas no induzam as respostas. Tambm, durante a elaborao do
questionrio, deve-se levar em conta a futura anlise estatstica dos dados. O tamanho
da amostra deve ser muito maior do que a quantidade de variveis a serem medidas ou
observadas.

13

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

CAPTULO 2
ALGUNS PROCEDIMENTOS AMOSTRAIS
2.1 Introduo
Na maioria dos problemas em sade, e mesmo em outras reas de conhecimento,
torna-se impraticvel obter informaes sobre toda a populao de interesse. Assim,
trabalha-se com o que possvel ou acessvel, isto , com uma amostra de elementos
dessa populao, dentro da maior confiabilidade possvel.
A coleta das unidades populacionais para compor a amostra no pode ser feita de
maneira desordenada ou sem critrios. Ela deve ser metdica a tal ponto que dois
pesquisadores distintos, realizando o mesmo tipo de estudo, possam selecionar duas
amostras, no mnimo, com caractersticas semelhantes, caso adotem o mesmo
procedimento (ou delineamento amostral), na mesma populao. Para isso, as regras a
serem seguidas nessa escolha devem ser objetivas, com as unidades amostrais sendo
retiradas da populao, de preferncia, mediante mecanismos de sorteio. Isso o que se
chama de amostras aleatrias (ou probabilsticas).
Algumas vezes, nos estudos experimentais, pelas caractersticas das unidades de
estudo, no se pode sorte-las. o caso, por exemplo, de substncias lquidas
depositadas em algum reservatrio, constituindo a populao daquele produto. Nestas
situaes, aps uma ao de homogeneizao do lquido, as retiradas de pequenas
pores (unidades amostrais), para serem examinadas separadamente, podem ser
realizadas a esmo. Essa amostra de pores no aleatria, mas funciona
aproximadamente como tal.

2.2 O sistema de referncia e os mecanismos de sorteio da amostra


Para o sorteio da amostra aleatria, deve-se estabelecer um sistema de referncia,
numerando-se as unidades (ou elementos) populacionais de 1 a N (tamanho da
populao. Ento, a cada elemento da populao se associa um nico nmero desse
sistema de referncia, de modo que, quando um desses nmeros for sorteado por algum
dispositivo de sorteio , o elemento populacional correspondente ser atribudo
amostra.
O sorteio dos nmeros do sistema de referncia pode ser realizado por um gerador
de nmeros aleatrios, disponveis em calculadoras cientficas ou em softwares
computacionais. Os nmeros aleatrios so inadequadamente referidos por muitos
autores como nmeros randmicos. Os valores dos nmeros aleatrios gerados por um
desses mecanismos de sorteio so identificados no sistema de referncia e os seus
elementos populacionais correspondentes passam a ser considerados as unidades
amostrais.
Os principais procedimentos amostrais aleatrios (ou probabilsticos) so:
a) Amostra Aleatria Simples (AAS),
14

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

b) Amostra Aleatria Sistemtica (AAT),


c) Amostra Aleatria Estratificada (AAE) e
d) Amostra Aleatria por Conglomerados (AAC).
Na a sua descrio ser mantida a notao:
N=tamanho da populao,

n=tamanho da amostra.

As propores do tipo
f =

n
,
N

(2.1)

so chamadas de fraes amostrais.

2.3 Amostra aleatria simples (AAS)


um procedimento bsico utilizado, inclusive, nos demais mtodos probabilsticos
de amostragem. usado quando nada se sabe sobre a estrutura da populao, a no ser o
seu tamanho e o local onde esto situados todos os elementos da populao.
Uma AAS consiste da seleo de um grupo de n unidades populacionais para
compor a amostra (as unidades amostrais) de tal modo que todo possvel conjunto de
tamanho n, que possa ser formado com os elementos da populao, tenha a mesma
chance de ser selecionado como amostra.
Exemplo 2.1 Para retirar uma AAS de n=6 pessoas das N=60, inscritas no
Programa de Hipertenso de um servio de sade, pode-se considerar o seguinte sistema
de referncia: 1, 2, 3,..., 9, 10, 11, 12,..., 58, 59, 60, correspondente ordem dos
pronturios desses pacientes no arquivo da instituio.

01

02

03

04 05

Figura 2.1 Representao do arquivo dos pronturios de pacientes hipertensos.


Usando um dos mecanismos de sorteio j citados, poderiam ter sido sorteados os
seguintes nmeros do sistema de referncia:
Tabela 1 Sorteio de uma amostra aleatria simples.
Ordem de sorteio

Nmeros sorteados

43 40 10 60 09 05

Pacientes

B
15

6.

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Assim, os indivduos sorteados na populao, foram, pela ordem do sistema de


referncia: o quinto (paciente A), o nono (paciente E), o dcimo (paciente G), o
quadragsimo (paciente Z), o quadragsimo terceiro (paciente B) e o sexagsimo
(paciente N).

2.4 Amostra aleatria sistemtica


Mesmo sendo simples, o procedimento AAS exige algum trabalho do pesquisador
na realizao do sorteio e na identificao das unidades sorteadas na populao.
Considerando o sistema de referncia com N elementos e desejando-se retirar uma
amostra de n elementos, pode-se proceder de uma forma mais sistemtica, da seguinte
maneira:
1) Determina-se o perodo do intervalo sistemtico de amostragem, definido por:
N
(2.2)
=k,
n
2) Sorteia-se um dos k primeiros valores do sistema de referncia, para
corresponder ao primeiro nmero sorteado,
A partir da, seleciona-se sistematicamente, seguindo a ordem do sistema de
referncia, os elementos dos prximos intervalos amostrais, obtidos somando-se k ao
elemento sorteado no intervalo anterior, at ser atingido o tamanho desejado para a
amostra. Com isso, percorre-se todo o sistema de referncia.

A aleatoriedade na amostragem sistemtica s vlida se a disposio dos


indivduos no sistema de referncia puder ser considerada aleatria. Muitas vezes, essa
suposio razovel. Por exemplo, para a populao de pessoas que se apresentam para
as consultas ambulatoriais em uma unidade de atendimento sade. Neste caso, podese selecionar uma amostra aleatria sistemtica para um estudo mais detalhado,
separando-se, por exemplo, uma a cada 10 pessoas atendidas pela unidade de sade.
Exemplo 2.2 No exemplo anterior, para obter uma amostra aleatria sistemtica de
n=6 pessoas no arquivo de pronturios do Programa de Hipertenso do servio de
sade, tem-se:
N 60
=
= 10 = k .
n
6
Considerando como primeiro intervalo de amostragem a seqncia: 1, 2, 3, 4, 5, 6,
7, 8, 9, 10 (sistema de referncia), sorteia-se o primeiro nmero para corresponder
primeira unidade amostral (incio casual). Se 8 for o primeiro valor sorteado, os
prximos valores sero ento 8+10=18; 18+10=28; 28+10=38; 38+10=48; 48+10=58.
De um modo geral, os valores sorteados por este procedimento podem ser expressos
por:
(2.3)
v = vo + ik , onde : i = 0,1,2,..., n e vo incio casual
16

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Portanto, por este esquema seriam sorteados: o oitavo, o dcimo oitavo, o vigsimo
oitavo, o trigsimo oitavo, o quadragsimo oitavo e o qinquagsimo oitavo pronturios
do arquivo de pacientes hipertensos.
A amostragem sistemtica tem sido comumente aplicada em inquritos
epidemiolgicos urbanos, por exemplo, para selecionar domiclios, e em conseqncia
famlias. Neste caso, no necessria a especificao do nmero total N da populao
de domiclios.
Basta estabelecer a distncia D do percurso a ser pesquisado e, com base no
tamanho da amostra requerida, especificar a distncia d dos intervalos sistemticos.
Ento, escolhe-se aleatoriamente um ponto inicial P (primeiro domiclio a ser
pesquisado), no necessariamente situado no primeiro intervalo de amostragem,
determinando-se em seguida os demais pontos P+id, i=1,2,...,n-1. Se o processo no foi
iniciado no primeiro intervalo, ento no final da distncia D continua-se o percurso,
partindo-se do incio dessa distncia at atingir novamente o ponto P. Isso ilustrado na
figura 2.2, a seguir, para D=3000 m e d= 500 m.
Domiclio
inicial

o
0

o
500

1000 P 1500

o
2000

o
2500

3000 metros

Figura 2.2 Representao de uma amostragem sistemtica ao longo de um trajeto.


Quando os resultados da varivel em estudo for sazonal, o uso de amostragem
sistemtica pode ser inadequado, pois os intervalos sistemticos podem coincidir com o
perodo dessa sazonalidade. Por exemplo, algumas doenas tm a tendncia de incidir
em determinadas pocas do ano, pois dependem das condies climticas.

2.5 Amostra Aleatria Estratificada


N2
N3
N1

n2

N5

sorteio

N4
N6

n5
n3

n1

n4

n6
Amostra estratificada de tamanho n
com estratos de tamanhos ni

Populao de tamanho N,
com estratos de tamanhos Ni

Figura 2.3 Representao esquemtica de uma amostragem estratificada.


17

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Quando a populao heterognea em relao principal caracterstica que se


deseja estudar, pode-se dividi-la em sub-populaes mais homogneas, mutuamente
exclusivas (chamadas estratos). Isso pode ser feito com base no pr-reconhecimento de
uma outra varivel (auxiliar) que esteja fortemente vinculada (s) varivel(eis) de
interesse.
Exemplo 2.3 Em um levantamento amostral, para estimar o nmero mdio de
cries dentrias em uma populao de escolas de primeiro grau, deve-se lembrar que a
distribuio do nmero de cries diferente quando se considera a idade e o sexo das
crianas. Nesse caso, torna-se recomendvel a estratificao dessa populao segundo
essas duas caractersticas, antes de coletar a amostra. Uma sugesto seria subdividir a
populao de crianas nos seguintes estratos E1={crianas do sexo feminino, com
idades entre 6 e 8 anos), E2={crianas do sexo masculino, com idades entre 6 e 8
anos}, E3={crianas do sexo feminino, com idades entre 9 e 10 anos) e E3={crianas
do sexo masculino, com idades entre 9 e 10 anos}.
Um outro exemplo importante que: qualquer levantamento de informaes sobre a
varivel estado nutricional de crianas menores de 5 anos deve ser realizado por
amostragem estratificada, levando-se em conta a varivel auxiliar grau de
escolaridade da me . Pois, j est consolidado o conhecimento da influncia da
segunda sobre a primeira varivel.
Ento, os estratos so constitudos com base na informao de uma varivel auxiliar
de modo que a heterogeneidade entre eles, com relao a essa varivel, seja a maior
possvel, mas dentro deles haja a maior homogeneidade possvel.
Se a populao for subdividida em E estratos, a amostra aleatria estratificada de
tamanho n ser a composio de E Amostras Aleatrias Simples de tamanhos ne,
e=1,2,...,E, conduzidas independentemente dentro de cada estrato. Ento, nestas
condies:
E

n = n1 + n2 + ... + n E = ne .

(2.4)

e =1

Se as quantidades de elementos em cada estrato forem indicadas por


N e , e = 1,2,..., E , ento
E

N = N 1 + N 2 + ... + N E = N e ,

(2.5)

e =1

e as propores populacionais dos elementos contidos em cada estrato ser representada


por:
N
We = e ,
e = 1,2,..., E ,
(2.6)
N
E

em que

W
e =1

= 1.

As correspondentes fraes amostrais em cada estrato so dadas por:


n
f e = e , e = 1,2,..., E ,
Ne
18

(2.7)

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

com, a frao amostral global dada por:


f =

E
n n1 + n2 + ... + n E
=
= fe .
N
N
e =1

(2.8)

Exemplo 2.4 Supondo que, no exemplo anterior, a populao total fosse constituda
de N=3100 crianas, com N1=1200 crianas, N2=900 crianas, N3=700 e N4=300, ento
as correspondentes propores populacionais so:
W1 =

700
300
1200
900
= 0,3871; W2 =
= 0,2903; W3 =
= 0,2258; W4 =
= 0,0968 .
3100
3100
3100
3100

A forma de alocao dos ne elementos de cada estrato da populao, para compor a


amostra, depende das informaes que se deseja obter na pesquisa e do conhecimento
sobre a estrutura populacional.
Dois dos principais tipos de alocao so:
- Alocao Uniforme o tamanho global n da amostra dividido igualmente pelo
nmero E de estratos, obtendo-se:
n
(2.9)
ne =
, e = 1,2,..., E ,
E
Exemplo 2.5 Para conduzir um estudo das condies de sade de N=1297 famlias
de baixa renda de um municpio, residentes em trs reas urbanas, onde se desconhece
a distribuio das famlias pelas reas, poderia ser decidido por uma amostra
estratificada de 129 famlias, alocando-se aleatoriamente 43 famlias de cada rea.
- Alocao Proporcional as quantidades ne so determinadas mantendo-se a
frao global de amostragem em cada estrato. Isto :
n
ne
n
=
ne = N e .
Ne N
N

(2.10)

Exemplo 2.6 No exemplo 2.4, se tivesse sido decidido por uma frao amostral
global f =0,05 (seleo de cinco a cada cem crianas) , o tamanho da amostra seria de
155 crianas. Ento, pela alocao uniforme, seriam tomadas 155 4 = 52 crianas de cada
estrato e pela alocao proporcional:

n1 = (0,05)(1200) = 60; n2 = (0,05)(900) = 45;


n3 = (0,05)( 700) = 35; n4 = (0,05)(300) = 15 .
Existe um outro tipo de alocao (Alocao tima de Neyman ) que, alm dos
tamanhos Ne dos estratos, tambm considera a variabilidade com que ocorrem os
valores da caracterstica sob estudo na populao. Pela sua maior complexidade, ele no
ser tratado aqui, mas os detalhes podem ser encontrados em qualquer livro bsico de
amostragem como, por exemplo, SILVA, N.N.11.
19

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Espera-se que a preciso das estimativas obtidas via amostras aleatrias


estratificadas seja maior do que as obtidas pelos mtodos anteriores, quando as amostras
tm o mesmo tamanho. Para isso, essencial a escolha eficaz da varivel auxiliar de
estratificao e a capacidade do pesquisador no delineamento dos estratos. Deve-se
tambm ressaltar que durante a anlise de dados obtidos, via amostra estratificada, no
se pode ignorar as ponderaes adequadas a serem aplicadas a cada medida/observao,
conforme o estrato de onde elas provm.

2.6 Amostra Aleatria por Conglomerados


empregada quando a populao for composta por A agrupamentos de elementos
com pouca homogeneidade dentro deles e grande homogeneidade entre eles, com
relao aos valores apresentados pela(s) principal(ais) varivel(eis) de interesse na
pesquisa. Neste caso, selecionada uma amostra aleatria simples de a desses
agrupamentos (chamados conglomerados) e todos os seus elementos so analisados. Os
conglomerados so considerados as unidades amostrais (ou unidades primrias) e os
seus elementos so as unidades elementares de anlise (ou unidades secundrias).
Nessa situao, a frao amostral dada por:
a
.
fc =
A

(2.11)

Embora menos preciso que os mtodos anteriores, este procedimento muito usado
na rea de sade pela sua maior praticidade e economia. Isto , menor complexidade dos
sistemas de referncia, maior facilidade de acesso s unidades amostrais, reduo de
custos no transporte, dirias e retornos dos entrevistadores, etc.
Quanto maior a heterogeneidade (correlao intra-classe) dentro dos
conglomerados, melhor ser o desempenho deste procedimento com relao preciso
das estimativas10.
Por outro lado, a anlise dos dados obtidos via amostragem por conglomerados
muito mais sofisticada que nos procedimentos anteriores. Da mesma forma, como j foi
comentado para amostragem estratificada, durante a anlise, tambm, deve-se levar em
conta ponderaes relacionadas forma como as observaes foram obtidas. Para
aumentar a preciso do processo, costuma-se realizar a escolha dos elementos amostrais
em duas ou mais etapas (procedimentos multi-etapas), o que aumenta ainda mais a
complexidade da anlise dos dados.

Exemplo 2.7 Em uma pesquisa para investigar o gasto com sade dos moradores de
uma grande cidade, as famlias poderiam ser consideradas como as unidades
elementares. Mas, praticamente impossvel dispor de um sistema de referncia com a
listagem de todas as famlias. Pode-se, ento, associar famlias com domiclios e
empregar amostragem por conglomerados, constitudos pelos chamados Setores
Censitrios (reas bem delimitadas pelo IBGE, com aproximadamente 250 domiclios
cada). Em uma primeira etapa, sorteia-se um certo nmero de setores censitrios por
meio de uma AAS e, em uma segunda etapa, dentro dos setores sorteados, sorteia-se por
20

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

AAS uma quantidade de domiclios para compor a amostra final de famlias a serem
entrevistadas.
2.7 Consideraes adicionais
muito comum, em estudos observacionais com o emprego de levantamentos
amostrais, a ocorrncia das chamadas no respostas10. Isto , as pessoas podem se
recusar a responder total ou parcialmente as perguntas que lhe so formuladas ou ento
elas no so encontradas ou localizadas. Outros problemas comumente encontrados so
os chamados erros de cobertura (elementos no registrados no sistema de referncia) e
de elegibilidade (elementos sorteados, mas com perfil inadequado para a pesquisa).
Esses problemas so tratados com bastante detalhe por Kish, L10.
Por exemplo, nem todos as pessoas hipertensas so cobertas pelo Programa de
Hipertenso de um servio de atendimento e em um domiclio sorteado para uma
pesquisa podem no ser encontradas pessoas dentro da faixa etria requerida pelo
experimento.
Para minimizar esse problema, deve-se: procurar meios de estimular as respostas;
prever retornos aos domiclios em que o respondente no tenha sido encontrado;
detalhar o mais possvel as informaes do sistema de referncia e, ainda na fase de
planejamento, procurar corrigir o tamanho da amostra adicionando nela um nmero de
elementos com base em registros histricos de percentuais de no respostas em
pesquisas semelhantes.
Por exemplo, se o tamanho desejado de amostra de n=300 indivduos e presumese, com base em experincias anteriores, que as taxas de respostas, de cobertura e de
elegibilidade sejam, respectivamente, 85% , 95% e 90%, ento, pode-se realizar a
seguinte correo no tamanho da amostra:
C=(0,85)(0,95)(0,90)=0,7268,
nC = n/C = 300/0,7268 = 413,
ou seja, devem ser sorteados 413 indivduos para se conseguir aproximadamente os 300
desejados inicialmente.
Em estudos observacionais envolvendo pessoas, qualquer que seja o procedimento
amostral adotado, deve-se, realizar um estudo piloto (amostra piloto ou pr-amostra),
na prpria populao ou em uma populao semelhante de interesse. Pode-se, ento,
testar o procedimento amostral planejado, treinar e testar os entrevistadores, testar os
instrumentos de coleta de dados, avaliar o tempo gasto em cada entrevista e mesmo
obter informaes necessrias para definir o tamanho definitivo da amostra.

21

2010

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

CAPTULO 3
RESUMO E ANLISE GRFICA DE DADOS
3.1 Introduo
Toda anlise estatstica facilitada, mediante a utilizao de programas estatsticos
apropriados, se as informaes (dados brutos), obtidas via levantamento amostral, ou
no, estiverem convenientemente organizadas em uma planilha, geralmente, do tipo:

Tabela 3.1 Representao do banco de dados de uma pesquisa.


variveis
elementos
E1
E2
E3
.

Ei
.

EL-1
EL

V1

V2

V3

... Vj ...

VC-1

m1,1
m2,1
m3,1

m1,2
m2,2
m3,2

m1,3
m2,3
m3,3

... m1,j ...


... m2,j ...
... m3,j ...

m1,C-1 m1C
m2,C-1 m2,C
m3,C-1 m3,C

mi,1

mi,2

mi,3

...

...

... mi,j ...


...

...

mL-1,1 mL-1,2 mL-1,3 ... mL-1,j ...


mL,1 mL,2 mL,3 ... mL,j ...

VC

mi,C-1

m3,C

mL-1,C-1 mL-1,C
mL,C-1 mL,C

Nessa tabela, as medies mi,j de cada elemento Ei em todas as variveis Vj , so


dispostas nas linhas i=1,2,...,L , enquanto os dados de cada varivel Vj para todos os
elementos Ei so apresentados nas colunas j=1,2,...,C , da tabela.
Junto com o banco de dados, deve-se organizar um dicionrio das variveis,
explicando resumidamente o que significam, as unidades de medida adotadas e, quando
for o caso, a codificao utilizada para representar numericamente ou literalmente os
resultados observados.
Por exemplo, para a varivel sexo do indivduo os resultados observados feminino
e masculino podem ser representados, respectivamente por F e M ou 1 e 2.
Existem vrios softwares especficos para a anlise estatstica de dados, em geral.
Entre eles, os mais conhecidos so: o Minitab, o Statistica o SPSS e o SAS. Com a
conhecida planilha Excel pode-se construir grficos e calcular algumas estatsticas.
Especificamente, para a anlise de dados epidemiolgicos, tem-se o programa Epi-Info,
de livre utilizao, disponibilizado pela Organizao Mundial de Sade, e, para dados
biolgicos, dispe-se do programa, tambm de livre acesso, Bio-Estat.
Um passo importante a anlise da consistncia dos dados que deve, inclusive ser
realizada ainda durante a fase de coleta. medida que as informaes forem chegando,
pode-se identificar as falhas e corrig-las, evitando que se espalhem para as observaes
ainda no realizadas.
22

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Basicamente, na anlise de consistncia, procura-se erros de registro e digitao,


valores perdidos (missing), identificao de valores muito fora dos padres
considerados razoveis para a varivel, bem como a deteco de cdigos ou valores
muito presentes ou muito ausentes no banco de dados e desvios dos padres esperados
de simetria nas distribuies dos dados. Quanto possvel, as informaes devem ser
cruzadas com outras produzidas por pesquisas similares anteriores ou com dados
institucionais j publicados.
Uma anlise descritiva muito bem conduzida, com a exaustiva utilizao de
recursos grficos, auxilia o estudo da consistncia e constitui uma etapa importante
para j evidenciar alguns resultados e direcionar as aes posteriores. Trata-se de uma
anlise exploratria, global ou estratificada, dos dados, visando a ordenao, o resumo,
via tabelas, e a determinao de: centralidades, variabilidades, associaes,
agrupamentos, valores atpicos e at comparaes.
Por exemplo, neste momento que se verifica a validade ou no das condies
tericas necessrias para a aplicao das tcnicas estatsticas previstas no planejamento
e, quando necessrio, procura-se procedimentos alternativos de anlise dos dados.

3.2 Tabelas Resumo


O banco de dados uma tabela onde as medies/observaes de todas as variveis
e para todos os elementos esto registradas conjuntamente. O resumo dessas
informaes pode ser feito sistematicamente, com a construo de tabelas individuais
(tabelas unidimensionais), tabelas bidimensionais, para o cruzamento de duas variveis
e at multidimensionais, para o cruzamento de mais de duas variveis. Neste texto s
sero apresentados exemplos com as tabelas uni e bidimensionais.
Basicamente, as tabelas unidimensionais so construdas, dispondo-se os distintos
valores ou categorias observadas para a varivel, de uma maneira ordenada quando
possvel (isto , se as variveis forem qualitativas ordinais ou quantitativas), com as
contagens absolutas ou relativas dessas ocorrncias. Nas variveis quantitativas
contnuas comum ocorrer muitos valores distintos, ento, para o resumo desse tipo de
dados, torna-se necessrio agrupar os seus valores ordenados em categorias de valores
(ou intervalos de classe).
considerada agora a seguinte notao: para os K valores (ou categorias) distintos
observados no conjunto de dados, tem-se:
Dk : k-simo valor (ou categoria) distinto(a) do conjunto de dados, k=1,2,...,K;
nk : freqncia absoluta (ou contagem) do k-simo valor (ou categoria) distinto(a) do
conjunto de dados, k=1,2,...,K;
fk : freqncia relativa (ou proporo) do k-simo valor (ou categoria) distinto(a),
em relao ao tamanho n do conjunto de dados, k=1,2,...,K, isto :
n
fk = k ,
(3.1)
n
em que so satisfeitas as condies:
23

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE


K

n = nk

k =1

k =1

= 1;

2010

(3.2)

e
%k : porcentagem do k-simo valor (ou categoria) distinto(a) do conjunto de
dados, k=1,2,...,K; onde
% k = fk x 100.
(3.3)
Pode-se, ento, organizar a tabela 3.2 (de distribuio de freqncias), que resume o
conjunto de dados.
Tabela 3.2 Distribuio de freqncias de uma varivel.
Dk
D1
D2
D3
...
DK-1
DK
Soma:

nk
n1
n2
n3
...
nK-1
nK
n

fk
f1
f2
f3
...
fK
fK
1

(%)k
%1
%2
%3

%K
%K

100%

Para dados quantitativos contnuos, os valores Dk so substitudo por subintervalos


contguos Ik, que juntos abrangem toda a amplitude de variao dos dados,
representando as quantidades de valores consecutivos da varivel em questo, que
estejam contidos neles. Nessa situao, os nk representam as contagens desses valores
dentro de cada subintervalo e fk e (%)k, as respectivas freqncias relativas e
porcentagens.
A amplitude de variao (AV) para uma varivel definida como sendo a diferena
entre os valores Mximo (M) e mnimo (m) observados, isto :
AV = M m.

(3.4)

Exemplo 3.1 Com base na hiptese de que, principalmente em mulheres, A


obesidade e o envelhecimento aumenta a incidncia de quedas como causas de
morbidade e mortalidade, Oliveira e Okada12, alunas do curso de Fisioterapia da
UFSCar, desenvolveram um trabalho de iniciao cientfica para avaliar as alteraes de
equilbrio em indivduos do sexo feminino, com idade igual ou superior a 40 anos.
Foram ento constitudos dois grupos experimentais: o de mulheres obesas (IMC > 30
kg/m) e o de no obesas, com 38 e 49 voluntrias, respectivamente. Para os sujeitos do
grupo obeso (SUJ.), os dados de idades (IDD), em anos completos, e os ndices de
massa corporal (IMC), so apresentados na tabela 3.2, a seguir.
Para a varivel IMC, tem-se:
AVIMC = 44,43 31,46 = 12,97.
Portanto, a amplitude de variao mede aqui aproximadamente 13,0 kg/h2. Segundo
algum critrio, poder-se-ia adotar os seis subintervalos justapostos e mutuamente
exclusivos (incluindo o extremo inferior (smbolo [ ) e no incluindo o extremo superior
24

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

(smbolo ) ): I1=[28,5; 31,5) , I2=[31,5; 34,5) , I3=[34,5 ; 37,5) , I4=[37,5 ; 40,5) ,


I5=[40,5 ; 43,5) e I6=[43,5 ; 46,5), para representarem os (n1=10, n2=12, n3=8, n4=5,
n5=2, n6=1) valores consecutivos de IMC contidos neles.
Tabela 3.3 Dados de idade e ndice de massa corporal em um grupo de sujeitos
experimentais.
SUJ.
IDD:
IMC:

1
2
3
4
65
66
61
74
44.43 32.93 32.38 30.12

5
58
34.79

6
63
34.55

7
72
30.85

8
60
34.01

9
10
61
67
34.87 33.45

11
66
30.12

SUJ.
IDD:
IMC:

12
13
14
15
65
50
64
52
38.87 33.72 35.21 38.58

16
58
32.08

17
64
31.05

18
61
32.59

19
55
31.96

20
66
40.82

21
59
37.73

22
58
37.21

SUJ.
IDD:
IMC:

23
24
25
26
57
72
56
66
31.73 38.09 40.57 30.99

27
54
37.42

28
79
32.66

29
79
31.08

30
69
37.42

31
76
31.99

32
57
30.14

33
61
30.58

SUJ.
IDD:
IMC:

34
35
36
37
62
60
65
53
35.69 39.93 33.24 31.46

38
58
30.48

3.3 Tcnicas grficas de anlise descritiva


Os grficos e diagramas facilitam a visualizao da informao, evidenciando os
aspectos principais e, para variveis quantitativas, sugerindo os modelos de distribuio
das variveis na populao estudada. Todos os programas computacionais citados
anteriormente possuem mdulos de construo dos principais grficos e diagramas
estatsticos.
Os procedimentos grficos mais utilizados como: diagramas de pontos, diagramas
circulares, grficos de linhas ou de barras, histogramas, grficos de tendncias e
desenhos esquemticos (box-plot) sero apresentados e interpretados aqui, com base
em exemplos da rea de sade.

3.3.1

O diagrama circular

Para variveis qualitativas, nominais ou ordinais, pode-se construir a tabela 3.2,


considerando os Dk como as distintas categorias. Representa-se, ento, graficamente as
porcentagens de dados em cada categoria pelas reas de setores desenhados no interior
de um crculo. Para fazer isso, considera-se que a rea total do crculo represente o
conjunto global dos dados (100%), enquanto as reas dos setores representem as fraes
parciais ( porcentagens) desses dados em cada categoria.
Para entender como isso pode ser feito, pode-se empregar, por exemplo, a regra de
trs simples:
1

360

fk

x
25

x o = 360 0 x f k .

(3.5)

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

e usar um transferidor (medidor de ngulos) para determinar os setores no crculo. Os


softwares estatsticos contm programas que executam esse procedimento.

Exemplo 3.2 Em uma amostra de 60 pronturios do antigo Ncleo de Ateno e


Pesquisa em Sade da Universidade Federal de So Carlos (NAPES-UFSCar),
relacionados com os atendimentos de 1994 e 199513, foi observada a distribuio dos
diagnsticos/queixas (D/Q) expostos na tabela 3.4.

Como no existe uma ordenao natural para a varivel Diagnsticos/Queixas (pois


ela qualitativa nominal), o grfico recomendado para representar essa distribuio o
diagrama circular, dado pela figura 3.1.

Tabela 3.4 Diagnsticos/Queixas em uma amostra de pronturios do NAPES.


D/Q
nk
fk
(%)k
Afeto Emocionais (AE)
8
0,1333
13,33
Leses Cerebrais (LC)
11
0,1833
18,33
Dores na Coluna (DC)
4
0,0667
6,67
Crnico Degenerativas (CD)
6
0,1000
10,00
Depresso (DP)
11
0,1833
18,33
Deficincia Visual (DV)
7
0,1167
11,67
Leses por Causas Violentas (LV)
5
0,0833
8,33
Txico Dependncias (DT)
3
0,0500
5,00
Outras (O)
5
0,0833
8,33
60
1,0000
100,00

O
8.3%

AE
13.3%

LV
8.3%
CD
10.0%

LC
18.3%

DC
6.7%

DV
11.7%

DP
18.3%
DT
5.0%

Figura 3.1 Diagnsticos/Queixas em uma amostra de pronturios do NAPES.

3.3.2

O diagrama de barras

Entretanto, pela alta quantidade de distintas categorias da varivel D/Q, no exemplo


anterior, sugere-se a construo de um grfico de barras.
26

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Essa representao grfica de dados consiste no traado de um eixo horizontal (ou


vertical) onde so assinalados os pontos correspondentes aos valores (ou categorias) da
varivel em questo. Nesses pontos so desenhadas barras verticais (ou horizontais), de
mesma largura, com alturas (ou comprimentos) iguais s freqncias absolutas, ou
relativas, ou porcentagens, do valor (categoria), que o ponto representa.

Exemplo 3.3 Usando os mesmos dados do exemplo anterior, pode-se construir o


diagrama de barras da figura 3.2.
20

PORCENTAGEM

15

10

AE

CD

DC

DP

DT
D/Q

DV

LC

LV

Figura 3.2 Diagnsticos/Queixas em uma amostra de pronturios do NAPES.


Observa-se, ento, nas figuras 3.1 e 3.2, que os atendimentos mais freqentes foram,
pela ordem, relacionados s seqelas de leses cerebrais, problemas de depresso,
problemas de natureza afeto-emocionais e doenas crnico degenerativas.
Comparando, pelo grfico de barras, os grupos masculino e feminino, com relao
varivel D/Q, tem-se:
Tabela 3.5 Diagnsticos/Queixas dos atendimentos do NAPES, por sexo.
fk
(%)k nk
fk
(%)k
D/Q
nk
Afeto Emocionais (AE)
6
0,1621 16,21
2 0,0870
8,70
Leses Cerebrais (LC)
4
0,1081 10,81
7 0,3043 30,43
Dores na Coluna (DC)
4
0,1081 10,81
0 0,0000
0
Crnico Degenerativas (CD)
4
0,1081 10,71
2 0,0870
8,70
Depresso (DP)
10 0,2703 27,03
1 0,0435
4,35
Deficincia Visual (DV)
4
0,1081 10,81
3 0,1304 13,04
Leses por Causas Violentas (LV) 2
0,0541
5,41
3 0,1304 13,04
Txico Dependncias
(DT)
0
0,0000
0,00
3 0,1304 13,04
Outras
(O)
3
0,0811
8,11
2 0.0870
8,70
37 1,0000 100,00
23 1,0000 100,00

27

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

18
16
14
PORCENTAGEM

12
10
8
6
4
2
0

SEX
D/Q-SEX

E MA S
M
AE

C
EM S
F MA
CD

E MA S
M
DC

C
EM S
F MA
DP

E MA S
M
DT

C
EM S
F MA
DV

E MA S
M

C
EM S
F MA

LC

LV

E MA S
M

Figura3.3 Diagnsticos/Queixas em uma amostra do NAPES, conforme o sexo.


Os atendimentos de doenas emocionais foram maiores nas mulheres, enquanto que
nos homens foram as leses cerebrais.
Alternativamente, poderia ser usada a seguinte estrutura:
20

SEX
FEM
MA SC

PORCENTAGEM

15

10

0
D/Q-SEX

AE

CD

DC

DP

DT

DV

LC

LV

Figura 3.4 Diagnsticos/Queixas em uma amostra do NAPES, conforme o sexo.

Exemplo 3.4 Na mesma amostra do exemplo anterior, tambm foi investigado o


nvel scio econmico das pessoas, obtendo-se o diagrama de barras a seguir:
40

PORCENTAGEM

30

20

10

ND

MB
B
NIVEL SCIO ECONMICO

MB

Figura 3.5 Distribuio dos usurios do NAPES, pelo nvel socioeconmico.

28

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

no qual ND significa nvel scio econmico no declarado; MB, muito baixo; B, baixo
e MB, mdio baixo.

3.3.3

O histograma

Quando a diversidade de valores e a quantidade de dados para uma varivel


quantitativa forem muito grandes, pode-se empregar esse tipo de representao.
Sob um eixo horizontal, considera-se a escala de medida das observaes e agrupase os dados em subintervalos, na forma como j foi comentado no exemplo 3.1.
Representando esses subintervalos sobre o eixo, delineia-se retngulos (barras)
justapostos(as), com os lados menores (larguras) coincidentes com os correspondentes
subintervalos e com os comprimentos (alturas) iguais s correspondentes freqncias
absolutas, ou relativas, ou porcentagens, se os retngulos tiverem a mesma largura
(amplitude da classe).
Para o emprego de retngulos de diferentes larguras k , as alturas hk so
determinadas impondo-se que as freqncias relativas sejam iguais s reas dos
retngulos, isto : f k = hk x k .
Assim:

fk
,
k
que so chamadas de densidades de freqncias.
hk =

(3.6)

Com as alturas calculadas assim, e por 3.2, a soma das reas dos retngulos torna-se
igual a 1, permitindo, quando o tamanho n da amostra for suficientemente grande, a
interpretao das reas sob o histograma como probabilidades (graus de certeza) da
ocorrncia de valores nos intervalos determinados sob o eixo, por essas reas.
A quantidade e a amplitude k dos subintervalos Ik dependem da quantidade e
espalhamento dos dados. Quando maior a quantidade de dados, maior a quantidade de
subintervalos e quando maior a concentrao deles, menor a amplitude. Essa tarefa
automaticamente executada com o uso dos softwares estatsticos.
O tamanho da amostra pode ser, inclusive, considerado como um ndice de
credibilidade da ocorrncia de um evento relacionado com o assunto pesquisado.
Quanto maior a amostra, maior ser essa credibilidade.
Por exemplo, se, no levantamento do exemplo 3.2, a amostra fosse de 600
pronturios, ao invs de 60, ento o pesquisador ficaria mais seguro para afirmar que a
ocorrncia no NAPES-UFSCar, no perodo 1994-1995, de casos com leses cerebrais,
ocorreria aproximadamente com probabilidade 0,18.

Exemplo 3.5 Para as variveis do exemplo 3.1, pode-se construir as tabelas 3.6, e
3.7 de distribuio de freqncias:

29

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Tabela 3.6 Distribuio de freqncias da IDD.


Categoria
nk
fk
%k
45
51
1
0,0263
2,63
51
57
5
0,1316
13,16
57
63
14
0,3684
36,84
63
69
11
0,2895
28,95
69
75
4
0,1053
10,53
75
81
3
0,0789
7,89
38
1,0000
100,00
Tabela 3.7 Distribuio de freqncias do IMC.
Categoria
nk
fk
%k
28,5
31,5 10
0,2632
26,32
31,5
34,5 12
0,3158
31,58
34,5
37,5 08
0,2105
21,05
37,5
40,5 5
0,1316
13,16
40,5
43,5 2
0,0526
5,26
43,5
46,5 1
0,0263
2,63
38
1,0000
100,00

Os correspondentes histogramas so apresentados na figura 3.6.


35

40

30
25
PORCENTAGEM

PORCENTAGEM

30

20

20
15
10

10

5
0

48

54

60

66

72

78

IDADE

30

33

36

39

42

45

IMC

Figura 3.6 Histogramas da idade e do ndice de massa corporal de uma amostra


de sujeitos.

Observa-se, pelo histograma esquerda que a distribuio da idade


aproximadamente simtrica (o que indica controle experimental dessa varivel),
enquanto o histograma direita mostra uma distribuio assimtrica dos ndices de
massa corporal (a freqncia de sujeitos diminui com o aumento da massa corporal),
como era de se esperar aqui.

3.3.4

O esquema de ramos e folhas

Para variveis quantitativas e at qualitativas ordinais, pode-se organizar o conjunto


de dados segundo esse esquema, que pode ressaltar alguns aspectos interessantes. Para
cada varivel e conjunto de dados, os critrios de construo podem mudar. Para a
varivel idade do exemplo anterior tem-se o seguinte:

30

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Exemplo 3.6
1
3
5
8
13
19
19
17
12
7
6
6
4
3
2

5
5
5
5
5
6
6
6
6
6
7
7
7
7
7

0
23
45
677
88889
001111
23
44555
66667
9
22
4
6
99

Figura 3.7 Esquema de Ramos e Folhas para a idade dos sujeitos do exemplo 3.1.
Os primeiros dgitos dos valores das idades so representados sempre antes do trao
(tronco). Depois do trao so representadas em cada linha (ramos) os segundos dgitos
das idades (folhas), conforme as suas ocorrncias. Por exemplo: na primeira linha est a
idade 50 anos, na segunda esto as idades 52 e 53 anos, na terceira, 54 e 55. O critrio
adotado aqui para a incluso dos dados nas linhas foi considerar a variao de 2 em 2
valores do segundo dgito. Por exemplo, na primeira linha so considerados somente as
idades com os segundos dgitos 0 e 1, na segunda, 2 e 3, na terceira 4 e 5, na quarta 6 e
7, na quinta 8 e 9, na sexta 0 e 1, na oitava 2 e 3, e assim por diante. Na primeira coluna
so contados cumulativamente as quantidade de valores em cada linha, partindo-se dos
extremos para o centro. O objetivo disso determinar a centralidade do conjunto de
dados.
Observa-se que os aspecto da distribuio de dados da varivel idade, produzido
pelo diagrama de ramos e folhas semelhante ao dado pelo histograma.
A maioria dos softwares estatsticos incluem programas para realizar, alm dos
anteriores, tambm esse procedimento.
3.3.5

O diagrama de pontos

Quando a diversidade de valores e a quantidade de dados para uma varivel


quantitativa no forem muito grandes, pode-se construir, para sua representao grfica,
um diagrama de pontos.
Trata-se de, sob um eixo horizontal, considerar a escala de medida das observaes
e represent-las como pontos acima deste eixo, nas posies correspondentes aos seus
valores. Duas ou mais observaes com o mesmo valor so empilhadas sobre o eixo,
na mesma posio.
Um ou mais pontos que se apresentem muito separados da principal massa de
dados so considerados valores atpicos (pontos atpicos) que podem ser o resultado de
erros de mensurao ou digitao ou ento tratar-se de algum indivduo para o qual o
pesquisador deve dispensar maior ateno.
31

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Exemplo 3.6 Como havia sido planejado, no exemplo anterior, observa-se, pelos
diagramas de pontos dados na figura 3.5, que a distribuio dos valores de IMC das
voluntrias no obesas posiciona-se bem abaixo da correspondente s obesas, sem a
ocorrncia de pontos comuns. Isso indica que os grupos a serem comparados
apresentaram-se bem constitudos com relao sua principal caracterstica (fator
tratamento), que foi a definio adotada de obesidade e no obesidade.

NO-OBESAS
OBESAS
17.5

21.0

24.5

28.0

31.5
IMC

35.0

38.5

42.0

Figura 3.8 Disperso dos conjuntos de dados de IMC nos grupos de no obesas e
obesas.

No primeiro conjunto de pontos observa-se maiores freqncias para os maiores


valores, indicando assimetria esquerda na distribuio de dados. No segundo, as
maiores freqncias so para os menores valores (assimetria direita). Tambm, o
espalhamento (variabilidade) dos dados maior no segundo grupo, agravado pela
presena de um possvel ponto superior atpico.
Outras representaes grficas importantes, como o desenho esquemtico, por
exemplo, sero apresentadas medida que forem sendo introduzidos os conceitos
necessrios.

3.3.6

O grfico de tendncia

Juntamente com o diagrama circular e de barras, o grfico de tendncia a mais


conhecida representao grfica.
Exemplo 3.7 No trabalho do exemplo 3.2, foram calculados os dados porcentuais
(veja tabela 3.8) da procura mensal por atendimento no NAPES-UFSCar, durante os
doze meses em 1994 e 1995.
Tabela 3.8 Porcentagens de procura mensal pelo atendimento do NAPES.
JAN FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ
94 0
0
13
13
7
16
13
13
6
13
0
6
95 8
14
7
4
4
4
10
14
14
4
7
10

32

100
100

2010

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE


18

Variable
94
95

16

PORCENTAGEM

14
12
10
8
6
4
2
0
JAN

FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ
MS

Figura 3.9 Procura mensal pelos atendimentos no NAPES-UFSCar.


Observa-se que houve uma tendncia de aumento na procura por atendimento nos
meses do meio do ano, com um maior deslocamento para o final do ano em 1995 (linha
tracejada).

33

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

CAPTULO 4
ANLISE NUMRICA UNIDIMENSIONAL

4.1 Introduo
Alm da sntese visual de um conjunto de dados, deve-se determinar algumas
medidas resumo numricas que os represente bem e permitam as comparaes com
outros conjuntos de dados em pesquisas semelhantes. Entre elas, esto as medidas de
centralidade, as de variabilidade e as separatrizes (ou quantis).
Neste captulo, os conceitos sero introduzidos supondo-se que os dados tenham
sido coletados pelo procedimento de amostra aleatria simples.

4.2 As medidas de centralidade (ou de posio)


Para conjuntos de dados com distribuio simtrica, uma boa medida de
centralidade a sua mdia aritmtica.
A mdia aritmtica (Mex) de um conjunto de valores x1, x2, x3,... , xn-1, xn, de uma
varivel X, definida pela sua soma, dividida pela quantidade n desses valores, isto :
x1 + x 2 + x3 + ... + x n 1 n
Me x =
= xi .
n
n i =1

(4.1)

Quando n representa o tamanho da amostra que forneceu os dados, Mex chamada


mdia amostral e representada por x . Esta notao, mais simples que a anterior, ser
mais usada daqui em diante.
Exemplo 4.1 Pela simetria apresentada, a centralidade do conjunto das idades do
exemplo 3.1 bem determinada pela sua mdia aritmtica:
Me x =

65 + 66 + 61 + ... + 58 1
=
2389 = 62.9 anos .
38
38

40

PORCENTAGENS

30

20

10

48

54

60

66

72

78
IDADE

mdia

Figura 4.1 Centralidade da distribuio de idades.

34

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Conforme, pode-se observar na figura 4.1, a mdia o centro de massa do


conjunto de dados.
Mas, se as idades fossem, por exemplo, 33, 64, 67, 68, 69, 73 e 74, a mdia seria 64
anos e, conforme se observa, ela estaria deslocada para fora da massa principal de
dados (64, 67, 68, 69, 73 e 74), na direo do valor discrepante 33. Desses sete valores,
cinco esto acima da mdia. A mdia tem essa desvantagem, de ser influenciada por
valores atpicos.
Para melhor refletir os conjuntos de dados, em distribuies assimtricas, a medida
de centralidade deve, ento, ser definida de modo a neutralizar esse efeito.
Dispondo os valores em ordem crescente, pode-se ir eliminando os extremos, at se
chegar ao centro do conjunto, adotando-o como medida da centralidade. Por exemplo,
ilustrando esse procedimento no conjunto de dados em questo, tem-se:
33 , 64 , 67 , 68 , 69 , 73 , 74 ,
com o valor 68 sendo uma melhor medida de centralidade, no sentido j comentado
aqui.
Essa medida chamada de mediana (Md), pois divide o conjunto ordenado de
dados pela metade.

dados ordenados
50%

50%

M
Md

Figura 4.2 Representao esquemtica da mediana, em um conjunto de dados com


valor mnimo m e valor mximo M e assimetria direita.

Como a quantidade de valores no exemplo em discusso mpar, foi possvel


encontrar um valor central pertencente ao conjunto de dados. Mas isso no acontece
quando a quantidade par. Por exemplo,
33 , 64 , 67 , 68 , 69 , 73.
Neste caso, o centro no constitui um valor do conjunto de dados. Ento, por
conveno, adota-se como mediana, nessas situaes, a mdia aritmtica dos seus dois
ltimos valores centrais.
Me =

67 + 68
= 67,5 .
2

35

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Quando a quantidade n de dados for muito grande, pode-se determinar a mediana,


procurando-se primeiro a sua posio no conjunto ordenado de dados, que dada por:
Pos Md = (

n +1
) sima ,
2

(4.2)

Em seguida, determina-se o valor alocado nessa posio.


Por exemplo: para os conjuntos acima com 7 e 6 valores, tem-se:
Pos Md1 =

7 +1
= 4a ,
2

33 , 64 , 67 , 68 , 69 , 73 , 74
4.
e
Pos Md 2 =

33 ,

64 ,

6 +1
= 3,5 a
2

67 ,

68

, 69 , 73

67,5
entre a 3. e a 4 posies.

Quando as distribuies so simtricas a mdia e a mediana tm valores


coincidentes.
Exemplo 4.2 Para o conjunto de dados do exemplo 4.1, a mediana pode ser
determinada exatamente, recorrendo-se ao diagrama de ramos e folhas da figura 6.3.

50%

50%

1
3
5
8
13
19
19
17
12
7
6
6
4
3
2

5
5
5
5
5
6
6
6
6
6
7
7
7
7
7

0
23
45
677
88889
001111
23
44555
66667
9
22
4
6
99

Figura 4.3 Determinao da mediana em um conjunto de dados usando o


esquema de ramos e folhas.

36

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

A primeira coluna do esquema de ramos e folhas corresponde ao procedimento de


eliminao dos extremos at chegar-se ao centro do conjunto de dados ordenados,
conforme indicado pela seta na figura. Como a quantidade de valores aqui par, o
centro do conjunto ordenado constitudo pelos dois ltimos extremos 61 e 63.
Portanto, a mediana das idades dada por:
Me =

61 + 63
= 62.
2

Assim, neste conjunto, a mdia e a mediana so aproximadamente iguais.


Pode-se tambm determinar a mediana aproximadamente, usando o seguinte
procedimento grfico, para os dados do exemplo 4.1: no prprio histograma, acumulase as porcentagens de dados nos subintervalos, a partir do subintervalo inicial, at
atingir 50% dos dados. O subintervalo em que isso acontecer conter a mediana, como
ilustrado a seguir, na figura 4.4:
% s acumuladas
2,63
15,79
2,63
13,16
36,84

45

51

52,63
28,95

x
63

57

10,53

69

7,89

75

81

Md
34,21
(esse valor a % no segmento (Md-57,00), determinado por (50,00-15,79)

Figura 4.4 Determinao aproximada da mediana por um mtodo grfico.


Lembrando, da geometria plana, que a razo entre os comprimentos de segmentos,
determinados em um subintervalo do histograma sobre o eixo, igual a razo entre as
reas correspondentes (aqui representadas pelas porcentagens) que eles determinam
dentro retngulo do histograma neste subintervalo, tem-se:
Md 57 34,21
34,21
=
Md = 57 +
(63 57)
63 57 36,84
36,84
Realizando os clculos na expresso direita, obtm-se que: Md 62,5717 .
Portanto, tem-se um valor aproximadamente igual ao obtido quando foram
considerados todos os dados originais do problema.
Apesar de comumente no ser muito citada nos relatrios tcnicos e na imprensa
comum, a mediana constitui uma alternativa a ser considerada para a descrio de
centralidades de dados.
A mdia e a mediana so medidas de centralidade apropriadas para dados
quantitativos. Para dados qualitativos ordinais a mediana at poderia ser utilizada para
37

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

caracterizar a distribuio dos valores. Mas, para os dados qualitativos nominais ou


ordinais e, s vezes, quantitativos, costuma-se usar outra medida chamada moda .
Conforme o prprio nome sugere, a moda o valor (ou valores) mais frequente(s)
no conjunto de dados. Diferentemente da mdia e mediana, pode haver mais de uma
moda em um conjunto de dados. So as chamadas distribuies bimodais, trimodais,
etc., dependendo da ocorrncia de duas modas, trs modas, e assim por diante.
Exemplo 4.3 No exemplo 3.2, as modas para o conjunto de dados da varivel D/Q
so Leses Cerebrais e Depresso, que ocorreram com a maior freqncia observada
(ou seja 11 vezes).
Se um pesquisador tivesse interesse somente em verificar a ocorrncia de, por
exemplo, Leses Cerebrais ou no, ento D/Q se reduziria a uma varivel dicotmica
(isto , aquela em que somente h a possibilidade de duas categorias de respostas).
Neste caso, costuma-se codificar a ocorrncia da categoria de interesse pelo dgito
1 (um) e a no ocorrncia (ocorrncia de outros Diagsticos/Queixas) por 0 (zero). A
medida de centralidade usada em situaes anlogas a essa a proporo (que em
amostras referida como proporo amostral) que nada mais do que a mdia
aritmtica dos valores 0 e 1, ocorridos no conjunto de dados.

4.3 As medidas de variabilidade (ou de disperso)


S a medida de centralidade no suficiente para caracterizar a distribuio de uma
varivel. Outras informaes so importantes, como, por exemplo, a medida da
variabilidade (disperso ou oscilao ou heterogeneidade) dos seus valores. Em dois
conjuntos de dados com a mesma mdia, a representao deles por essa medida de
centralidade mais confivel naquele com a menor variabilidade.
Existem vrias formas de se medir a variabilidade de um conjunto de dados
qualitativos ou quantitativos. Uma possibilidade simples para os dados quantitativos a
amplitude de variao (j definida anteriormente), se os dados apresentarem-se
uniformemente espalhados. Mas, a mais comumente usada e a varincia, da qual se
obtm diretamente o chamado desvio padro.

4.3.1. A varincia
A diferena de uma medida xi em relao mdia x , do conjunto de dados de onde
ela provm, isto o desvio ( xi x ) , muita utilizada em Estatstica.
Em um primeiro momento, fica-se tentado a medir a variabilidade de todo o
conjunto de dados, usando a mdia desses desvios. Mas, como alguns valores do
conjunto de dados so maiores que a sua mdia e outros so menores, essas diferenas
se alternaro entre valores positivos e negativos e a sua soma tender a se anular,
inviabilizando essa idia. Uma forma de contornar este problema considerar os
desvios quadrticos ( xi x ) 2 e adotar a mdia deles como medida de variabilidade. Isto
:
38

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

s x2 =

1 n
( xi x ) 2 .

n i =1

2010

(4.3)

Essa medida a varincia do conjunto de dados. A potncia quadrtica na notao


da varincia ( s x2 ) usada para ressaltar que a unidade dessa medida de disperso
quadrtica, relativamente unidade dos dados. Portanto, os valores da varincia so
sempre positivos e quanto maior a varincia, maior a variabilidade do conjunto de
dados.
Quando o tamanho da amostra no for suficientemente grande (isto n<30, por
exemplo), substitui-se, na expresso (4.3) o valor n por (n-1). Pois, pode-se mostrar que,
com isso, as varincias amostrais s x2 se aproximaro mais do verdadeiro valor da
varincia populacional (que indicada por x2 , onde a letra grega minscula
sigma). A varincia definida assim:

s x2 =

1 n
( xi x ) 2

n 1 i =1

(4.4)

justamente a que est programada nos softwares especficos para clculos em anlises
estatsticas.
Mediante o manuseio algbrico, a expresso (4.4) pode ser transformada em uma
outra equivalente, que facilita os clculos manuais e produz menos erros de
aproximao02:
n
1
(4.5)
s x2 =
{[ ( xi ) 2 ] n( x ) 2 } .
n 1 i =1
Exemplo 4.4 Para o conjunto de idades a i , (em anos): 33, 64, 67, 68, 69, 73 e 74,
os clculos da varincia so ilustrados na tabela 4.1.
Tabela 4.1 Clculo da varincia de um conjunto de dados.
ai

Somas
Mdias

33
64
67
68
69
73
74
448,0 anos
64,0

(ai a ) 2

(33 64) 2 = (31 ) 2 = 961


(64 64) 2 = ( 0 ) 2 = 0
(67 64) 2 = ( + 3 ) 2 = 9
(68 64) 2 = ( + 4 ) 2 = 16
(69 64) 2 = ( + 5 ) 2 = 25
(73 64) 2 = ( + 9 ) 2 = 81
(74 64) 2 = (+ 10 ) 2 = 100
1192,0 anos2
170,3 anos2 ( = s a2 , pela expresso 4.3)
ou 198,7 anos2 ( = s a2 , pela expresso 4.4)

39

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

A varincia das idades do exemplo 3.1, calculada pela expresso 4.4 (50,60 anos2),
aproximadamente quatro vezes menor que 198,7 anos2. Portanto aquele conjunto de
idades menos varivel que este.

4.3.2. O desvio padro


Extraindo-se a raiz quadrada de (4.4), obtm-se uma medida de disperso expressa
na unidade de medida original dos dados, chamada desvio padro. Isto :

sx =

1 n
( xi x ) 2

n 1 i =1

(4.6)

No smbolo s x ressalta-se, agora, que a unidade usada no quadrtica.


Por exemplo, no exemplo 4.4, o desvio padro, calculado por (4.4) , para o
conjunto considerado de idades: s a = 198,7 = 14,1 anos, contra 7,11 anos no conjunto
do exemplo 3.1.
A palavra padro aqui usada no sentido da utilizao de s x como unidade para
medir as distncias ( xi x ) , ( x Mo) , ou outras, conforme ser visto adiante nos
chamados: escores padronizados e medidas de assimetria.
Para a maioria das variveis, em situaes normais, raramente ocorrem grandes
desvios em relao mdia, como, por exemplo, desvios maiores do que 3s x e menores
do que - 3s x 16.
Empiricamente, tem-se observado que, para distribuies simtricas,
aproximadamente, 68% dos dados ocorrem no intervalo ( x s x ; x + s x ) ; 95%,
ocorrem em ( x 2 s x ; x + 2 s x ) e quase todas em ( x 3s x ; x + 3s x ) 02. Na literatura
cientfica comum se referir simultaneamente mdia e ao desvio padro usando a
notao x s x , como no exemplo 3.1, em que se pode escrever 62,9 7,11 .

4.4 Medida da Assimetria

Usando as medidas de centralidade j apresentadas, pode-se determinar as


assimetrias ou simetrias das distribuies dos dados. Para isso, deve-se lembrar que, a
mdia apresenta a tendncia de se deslocar na direo de pontos atpicos, em
distribuies assimtricas; a mediana ocupa a posio do ponto que divide o conjunto
ordenado dos dados em duas partes iguais (50% de um lado e 50% do outro); e a moda
se posiciona no ponto em que a curva, representando a distribuio dos dados, mais
alta.

40

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

MeMd Mo

Me Md Mo

2010

Mo Md Me

Figura 4.5 As medidas de centralidade e a forma das distribuies dos dados.


Por exemplo, para uma varivel X, se a razo (medida de assimetria de Pearson)
A=

Me Mo
sx

(4.7)

for:
- negativa, a assimetria esquerda ou negativa,
- positiva, a assimetria direita ou positiva.
Se essa diferena for (aproximadamente) nula, a distribuio simtrica.

Exemplo 4.5 Para os dados de idade I do exemplo 4.1, tem-se: Me=62,9 e a moda
pode ser determinada pelo ponto mdio da classe com maior densidade (freqncia) de
dados que o intervalo [57,00 ; 63,00).
.
Assim,

AI =

Me I Mo I 60,0 62,9
=
= 0,4079 < 0 ,
7,11
sI

portanto, prximo de zero, indicando simetria na distribuio dos dados de idade.

4.5 Escores Padronizados


So os valores determinados quando realizada a seguinte transformao nos dados:
z=

xx
,
sx

(4.8)

(varivel padronizada). Qualquer que seja a varivel X, pode-se mostrar que a sua
varivel padronizada sempre ter mdia zero e varincia 1 (conseqentemente, tambm
desvio padro 1). Para os valores xi , i=1,2,...,n, da varivel X, os correspondentes
valores zi representam as medidas de ( xi x ) , tomando-se como unidade os desvios
padro s x .
Os escores padronizados podem ser usados, inclusive, para comparaes relativas
(s mdias e aos desvios padro) de dois ou mais conjuntos de dados. No estudo da
41

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

associao entre duas variveis quantitativas, eles so empregados para isolar os


possveis efeitos de variabilidades distintas nos dois conjuntos de dados.

Exemplo 4.6 (hipottico) Na tabela 4.2 so apresentados os valores de dosagem


fixados para a varivel independente X (concentrao do princpio ativo, em mcg) e os
valores obtidos, para essas dosagens, pela varivel dependente Y (tempo de resposta ao
medicamento,em minutos).
Tabela 4.2 Um exemplo de padronizao de variveis.

Somas
Mdias
Desv. Padr.

xi

yi

zx

10
20
30
40
50
150
30

10
50
30
90
70
250
50

-1,26491
-0,63246
0,00000
0,63246
1,26491
0
0

-1,26491
0,00000
-0,63246
1,26491
0,63246
0
0

1,0

1,0

15,8114

31,6228

zy

Dos clculos ilustrados na prpria tabela, tem-se, ento que as duas variveis, com
mdias e variabilidades diferentes (pois as respectivas mdias so 30 e 50 e as
varincias so 15,8114 e 31,6228), quando padronizadas ficam com a mesma mdia
zero e o mesmo desvio padro 1 (os valores aproximados obtidos para a varivel Y
devem-se s aproximaes nos clculos).

Exemplo 4.7 Para o conjunto de idades 33, 64, 67, 68, 69, 73 e 74, o primeiro valor
(33 anos) e o stimo valor (74 anos) esto, respectivamente, a -2,2 e 0,7 desvios padro
da mdia das idades do conjunto, pois:

x1 x 33 64
=
= 2,1986 e
14,1
sx
x x 74 64
=
= +0,7092 .
z7 = 7
14,1
sx
z1 =

Para o dcimo terceiro valor de idade do conjunto de dados do exemplo 3.1 (que
tambm 74 anos), tem-se:

z13 =

x13 x 74,0 62,9


=
= +1,5612 .
7,11
sx

Portanto, este valor de idade est a aproximadamente 1,6 desvios padro da mdia
daquele conjunto.

42

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Exemplo 4.8 (hipottico) Na segunda coluna da tabela 4.3, a seguir, so


apresentados os pesos em kg de 9 recm-nascidos e na terceira coluna, o peso das
respectivas mes, tomados antes do parto. Nas quarta e quinta colunas so calculados os
correspondentes valores quadrticos, respectivamente.
Para os pesos dos recm-nascidos, tem-se que a varincia dada por:
1
s x2 =
{[88,2500] (9)(3,1222) 2 } = 0,0644 kg 2
9 1
e o desvio padro
s x = 0,0644 = 0,2539 kg .
Tabela 4.3 Clculo dos desvios padro dos pesos de recm-nascidos e de suas mes
i
1
2
3
4
5
6
7
8
9
Total

x
2,7
2,9
3,0
3,0
3,1
3,2
3.3
3,4
3,5
28,1

x2
y2
7,29 3564,09
8,41 3588,01
9,00 3600,00
9,00 3600,00
9,61 3612,01
10,24 3624,04
10,89 3636,09
11,56 3648,16
12,25 3660,25
88,25 32532,70

y
59,7
59,9
60,0
60,0
60,1
60,2
60,3
60,4
60,5
541,1

Analogamente, para os pesos das mes, tem-se (confirme esses resultados):

s y2 = 0,0644 kg 2

s y = 0,2539 kg .

Assim, por esse procedimento, a variabilidade dos dois conjuntos de dados


numericamente a mesma.

4.6 O coeficiente de variao


Um exame mais profundo dos resultados do exemplo anterior leva seguinte
interpretao: devido menor magnitude dos valores dos pesos dos recm-nascidos, o
desvio padro 0,2539 representa maior variabilidade para os pesos dos bebs do que
para o peso das suas mes.
Pode-se definir uma medida de variabilidade que j leve em conta isso. o caso do
coeficiente de variao;
s
CV x = x .
(4.9)
x
Nota-se que uma medida adimensional da variabilidade, relativa mdia (que
representa a magnitude) dos dados e que pode ser expressa em porcentagem, por:
43

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

CV x% = (

sx
100) % .
x

2010

(4.10)

Entre as vantagens do coeficiente de variao ressalta-se que:


- como um nmero sem unidade de medida, permite a comparao das variabilidades
de duas variveis quantitativas medindo caractersticas diferentes;
- permite ao pesquisador classificar a homogeneidade dos seus dados em nveis como
baixa, alta ou baixa, mdia, alta.
Por exemplo, para algumas reas de conhecimento, um coeficiente de variao
menor do que 0,20 (ou 20%) indica pequena variabilidade (razovel homogeneidade)
dos dados.
Por exemplo, no exemplo anterior, tem-se que os coeficientes de variao dos pesos
dos bebs (b) :
0,2539
CVb =
= 0,0813 (ou 8,13%)
3,1222
e o dos pesos das gestantes (g) :
CV g =

0,2539
= 0,0042 (ou 0,42%),
60,1222

o que confirma a interpretao feita antes.

44

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

CAPTULO 5
SEPARATRIZES E O DIAGRAMA ESQUEMTICO

5.1 Introduo
Para obter maiores detalhes sobre a distribuio de valores de um conjunto de dados
pode-se subdividi-la em partes. Uma maneira de fazer isso determinar os chamados
quantis ou separatrizes que so, na realidade, extenses da idia usada na mediana.

5.2 Os quartis
Enquanto a mediana (Md) subdivide o conjunto ordenado de dados em 2 partes
contendo as mesmas porcentagens de valores (50% e 50% cada), os quartis ( Q1, Q2,
Q3 ) subdividem-no em 4 partes iguais, com 25% dos dados cada.

25%

25%
Q1

25%
Q2Md

25%
Q3

Figura 5.1 Representao dos quartis em uma distribuio assimtrica.


Assim, o primeiro quartil o valor que supera 25% dos dados ordenados, o
segundo quartil supera 50% e o terceiro quartil supera 75%. A determinao das
posies dos quartis anloga a da mediana, isto , determina-se as posies por meio
dos procedimentos:
n +1
(5.1)
PosQ1 = (
) sima ,
4
PosQ2 = 2(

n +1
n +1
) sima = (
) sima ,
4
2

(5.2)

PosQ3 = 3(

n +1
) sima .
4

(5.3)

e identifica-se, no conjunto ordenado de dados, os valores situados nessas posies.

Exemplo 5.1 Para o conjunto de 38 dados de idade apresentados a seguir, na


sequencia ordenada, as posies do primeiro, segundo e terceiro quartis so dadas por:

45

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

38 + 1
) sima = 9,75 a ,
4
38 + 1
PosQ2 = 2 (
) sima = 19,5 a e
4
38 + 1
PosQ3 = 3 (
) sima = 29,25 a .
4

PosQ2 = (

Os valores do conjunto ordenado de dados e algumas posies importantes para


a localizao dos quarts so:
1

9 10

19

50 52 53 54 55 56 57 57 58 58 58 58 59 60

60

61

61

61

61

63 63 64 64 64 65 65 65 66 66 70 71 72 72

73

74

76

79

80.

20

29 30

Ou seja, o primeiro quartil est no intervalo entre o nono e dcimo valores do


conjunto ordenado de dados, sendo constitudo precisamente pelo nono valor mais 0,75
(trs quartos) do comprimento do intervalo [58 58] (de comprimento nulo), o segundo
quartil (isto , a mediana) dado pela mdia aritmtica do dcimo nono e vigsimo
valores e o terceiro quartil est entre o vigsimo nono e trigsimo valores, sendo
constitudo pelo vigsimo nono valor mais 0,25 (um quarto) do comprimento do
intervalo [70-66]. Assim:
Q1=58+(0,75)(58-58)= 58,

Q2=(61+62)/2=62 e

Q3=66+(0,25)(70-66)= 67.

Alm da mediana, os demais quartis podem ser determinados aproximadamente a


partir da tabela de distribuio de freqncias por subintervalos (ou pelos
correspondentes histogramas) usando-se o procedimento j apresentado no exemplo 4.2.

5.3 Outras separatrizes


O conjunto ordenado de dados pode ser subdividido em 10 partes com quantidades
porcentuais iguais de dados (10%), dando origem aos nove decs ( D1, D2, D3, ..., D9 ).
As posies dos decis so determinadas de modo anlogo ao que foi feito para os
quartis. De um modo geral,
n +1
(5.4)
PosDk = k (
) sima, k = 1,2,3,...,9.
10
Da mesma forma, pode-se definir os percentis (P1, P2, P3,..., P99), cujas posies so
determinadas por:
n +1
(5.5)
Pos Pk = k (
) sima, k = 1,2,3,...,99.
100
Existem outras formas de se determinar os quants que so apresentadas na
bibliografia especializada de Estatstica.

46

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

As determinaes dessas separatrizes so importantes para poder-se, por exemplo,


determinar, na rea de sade, as chamadas faixas de referncia. Os mdicos, analisam
muitos dos exames de laboratrio de seus pacientes confrontando os resultados com
essas faixas. Ao paciente que apresentar o valor do seu exame fora da correspondente
faixa, exige-se maior ateno do profissional de sade que pode solicitar outras
avaliaes clnicas. Por exemplo, um resultado sobre a taxa de hemoglobina pode levar
ao diagnstico de anemia.
Basicamente, essas faixas so determinadas em experimentos clnicos, envolvendo
grandes amostras de pessoas, comprovadamente sadias, com relao ao aspecto
abordado. So ento registradas as diferentes medidas, que ocorrem naturalmente,
conforme as flutuaes naturais, observadas devido s caractersticas intrnsecas de cada
indivduo. Assim constituda uma distribuio de dados em que, via escolha dos decis
ou percentis apropriados, so originadas as faixas de referncia que so seguidas pelos
mdicos.

5.4 O desenho esquemtico


Os quartis so usados para a construo de uma interessante representao grfica
da distribuio do conjunto de dados, chamada desenho esquemtico (ou box-plot).
Alm da indicao do formato da distribuio, ela apresenta os valores mnimo e
mximo e os quartis, ressaltando os valores atpicos e dando uma noo da variabilidade
dos dados.
Para a sua construo segue-se as seguintes etapas:
1) Os dados so dispostos em ordem crescente, identificando-se os valores mnimo
(m) e mximo (M) e, portanto, a amplitude de variao;
2) So determinados os quartis Q1, Q2 (ou Md), Q3 ;
3) Desenha-se um retngulo (horizontal ou vertical) em que o menor lado inferior e
o menor lado superior representam, respectivamente, o primeiro e terceiro
quartis (Q1 e Q3 ) . Por exemplo:
Q1

Q3

Essa caixa representa os 50% de dados ordenados centrais do conjunto.


4) No interior dela, representada a mediana Md (ou Q2) por um segmento,
paralelo aos lados menores, de mesmo comprimento destes e na posio
correspondente ao seu valor numrico, relativamente aos outros quartis. Por
exemplo:

Q1Md

47

Q3

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Ento, na primeira parte da caixa esto 25% dos dados ordenados centrais e na
segunda os outros 25%.
5) calculada a amplitude interquartlica, que mede a distncia entre o primeiro e
terceiro quartis:
(5.6)
Q = Q3 Q1 .
6) Marcam-se, na escala de medida dos dados, dois pontos: um anterior ao primeiro
quartil, cuja posio determinada pela expresso I= Q1 1,5( Q ) e o outro,
posterior ao terceiro quartil, com posio dada por S= Q3 + 1,5( Q ) . Por
exemplo:

Q/2

Q/2

7) Compara-se, ento, o valor mnimo m com I. Se m for menor do que I, ele


representado por um pequeno crculo (o) antes de I, na direo do segmento
pontilhado e do ponto correspondente ao valor m na escala de valores
representada sobre um eixo paralelo ao retngulo. Depois compara-se o prximo
valor maior do que m , procedendo da mesma forma anterior e assim por diante
at ser encontrado um valor maior do que I. Este , ento, representado pelo
inicio de um segmento contnuo que se prolonga at a posio do primeiro
quartil. Da mesma forma verifica-se, do outro lado, se o maior valor M maior
do que S. Se for, ele representado, na direo do correspondente segmento
pontilhado, pelo pequeno crculo (o). Depois, compara-se o prximo maior
valor e assim por diante, representando-os da mesma forma, at ser encontrado
um valor que seja menor do que S, quando, ento, traa-se um segmento
contnuo, a partir desse ponto, at o terceiro quartil. Os segmentos contnuos,
dos dois lados, representam os dados que esto includos dentro das
distncias,1,5(Q), tomadas a partir dos quartis mpares, na direo
correspondente ao meio dos lados menores do retngulo. Os smbolos o
representam os pontos atpicos da distribuio, pois normalmente os pontos
deveriam estar todos dentro do intervalo [I ; S].
Por exemplo, o box plot de um conjunto de dados poderia assumir a seguinte
configurao:

o
I

Q/2

Q/2

Figura 5.2 Representao da construo de um desenho esquemtico.


48

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

O desenho esquemtico da figura 5.2 representa uma distribuio assimtrica (curva


pontilhada), que apresenta trs pontos atpicos direita (crculos depois do segmento
contnuo direita).
Com essa representao, fica mais fcil a comparao grfica de dois ou mais
grupos de dados de mesma natureza, inclusive com economia de espao no texto. Os
principais softwares estatsticos dispem em seus mdulos grficos programas que
constroem automaticamente essas figuras.
Exemplo 5.2 Em um trabalho, desenvolvido por Porto e Catai14, para o estudo de
fatores de risco de doenas cardio-vasculares, em fumantes atendidos pela Unidade de
Sade e Ensino da Universidade Federal de So Carlos (USE-UFSCar), em 2007,
observou-se que, na amostra coletada de sujeitos, as distribuies das mdias
individuais (pois as medidas foram tomadas mais de uma vez) de Presso Arterial
Diastlica (PMAD) e Sstlica (PMAS) foram as representadas pelos desenhos
esquemticos da figura 5.3.
180

110

100

160

90
PMAS

PMAD

140

120

80

70

60

100

50

(E1)

(D1)

180

110
100

160

PMAD

PMAS

90
140

120

80
70
60

100

50
FEM

MASC

FEM

SEXO

MASC
SEXO

(E2)
(D2)
Figura 5.3 Representao das distribuies de PMAS para a amostra geral (figura E1) e
PMAD (figura D1) e para os estratos feminino (figura E2) e masculino (figura D2).
As estatsticas mais importantes, relacionadas com a amostra so apresentadas
na tabela 5.1 a seguir.
Conforme indicam, respectivamente, os valores do primeiro quartil e terceiro
quarts, 25% da amostra geral foi constituda de pessoas com PMAS menores que 110
mmHg e 25% com PMAS maiores que 126,7 mmHg. Analogamente, 25% das PMAD
foram menores do que 70 mmHg e 25%, maiores do que 80 mmHg.
49

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Os sujeitos do estrato masculino apresentaram, em mdia e medianamente, maiores


valores para PMAS e PMAD e pelo valor de Q3 de PMAS, 25% desses sujeitos
apresentaram valores alterados (isto , maiores ou iguais a 130 mmHg). Menos de 25%
apresentaram valores alterados (isto , maiores ou iguais a 85 mmHg) para PMAD. Na
amostra ocorreram, no mximo, casos de hipertenso moderada (isto valores de
PMAS entre 160 e 179 e PMAD entre 100 mmHg e 109 mmHg).

Tabela 5.1 Descrio das variveis PMAS e PMAD na amostra geral (G) e nos estratos
feminino (F) e masculino (M).
n n*
PMAS G 262 12
F 143
5
M 119
7
PMAD G 262 12
F 143
5
M 119 7

Me
DP CV m
Q1
Md
119.2 14.2 11.9 88.3 110.0 120.0
115.3 12.8 11.1 88.3 105.0 115.0
123.9 14.4 11.6 100.0 115.0 120.0
76.6
74.3
79.5

9.1 11.9 55.0


8.3 11.2 55.0
9.2 11.6 60.0

70.0
70.0
73.3

77.5
72.5
80.0

Q3
M
Q
126.7 175.0 16.7
122.5 160.0 17.5
130.0 175.0 15.0
80.0 110.0 10.0
80.0 100.0 10.0
82.5 110.0 9.2

n* indica a quantidade de no respostas ou medies perdidas

Os desenhos esquemticos esquerda, na figura 5.3, indicam que a distribuio da


varivel PMAS assimtrica direita (isto , as caudas inferiores correspondentes aos
25% menores valores de presses mdias sistlicas so menores do que as superiores,
correspondentes aos 25% maiores valores). Pelos grficos, direita, observa-se que a
distribuio da varivel PMAD apresentam assimetrias mais acentuadas que as de
PMAS, com a maior presena de pontos atpicos superiores (muito provavelmente,
originados pelos indivduos hipertensos). As variabildades de PMAD (veja as
amplitudes interquartlicas e de variao) tambm forem maiores do que as de PMAS.
Como era de se esperar, os valores medianos de PMAS foram menores do que o de
PMAD.

50

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

CAPTULO 6
ANLISE BIDIMENSIONAL CONJUNTA

6.1 Introduo
At aqui, no desenvolvimento desse texto, no houve a preocupao em analisar
conjuntamente as variveis. Mas, muito comum o interesse na rea de Sade, bem
como em outras reas, na anlise conjunta de duas ou mais variveis. Por exemplo, a
possvel associao (ou dependncia) entre duas delas. Isto , saber se, quando os
valores de uma delas aumentam, tambm aumentaro os valores da outra, ou se, quando
aumentam os da primeira, diminuiro os da segunda. O conhecimento disso pode ajudar
o pesquisador a fazer previses sobre uma determinada caracterstica, mais complicada
de ser observada/medida, com base no comportamento de outra que esteja relacionada
estatisticamente primeira, mas cujos valores sejam mais fceis de serem obtidos.
Por exemplo a escolaridade e o nvel de renda so variveis que esto relacionadas
(quanto maior o grau de escolaridade maior o nvel de renda). Tambm, o conhecimento
sobre a exposio a fatores de risco para as doenas, pode ajudar a preveni-las. Por
exemplo, o hbito de fumar (intensidade de tabagismo) e a expectativa de vida.
Quando as variveis so quantitativas, e existe tal relacionamento, elas so referidas,
em Estatstica, como variveis correlacionadas (ou positivamente, quando os valores
de uma crescem com o crescimento dos valores da outra, ou negativamente, quando
decrescem com o aumento dos valores da outra). Uma varivel pode, estar
correlacionada a mais de uma outra varivel. Em estatstica, existem mtodos para
verificar e quantificar a intensidade dessas correlaes e tambm construir modelos para
as previses de uma em funo da(s) outra(s).
Deve-se tomar muito cuidado na interpretao de uma correlao estatstica. Nem
sempre a correlao um fenmeno de causa e efeito. Ela, s vezes, pode estar
associada atuao de um terceiro fator influente nas duas variveis estudadas, mas que
isoladas no apresentariam tal resultado. Um exemplo, absurdo, para reforar esse
comentrio a possvel correlao positiva entre as variveis: volume de venda de
agasalhos contra o frio e nmero de atendimentos em servios de sade por
problemas respiratrios. No se pode concluir que os agasalhos sejam a causa do
problema respiratrio e sim o inverno (baixas temperaturas) atuando no crescimento das
duas variveis.

6.2 Dependncia entre duas variveis quantitativas


Para a verificao da dependncia entre duas variveis quantitativas X e Y, onde,
para cada indivduo i da amostra estudada, so realizadas as medies xi e yi, dessas
variveis, pode-se utilizar um procedimento grfico simples, chamado grfico de
disperso.
Em um sistema cartesiano, com os eixos representado as escala de medies das
variveis, so representados os pontos correspondentes aos pares ordenados (xi ,yi).
51

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Observa-se ento, se o aspecto da nuvem de pontos sugere algum relacionamento


(linear, quadrtico, exponencial, etc...), ou no, entre X e Y. Na figura 6.1, so
apresentadas duas possveis configuraes hipotticas entre as duas variveis.
Para determinar a intensidade da correlao linear entre duas variveis
quantitativas X e Y, pode-se utilizar o coeficiente de correlao linear (de Pearson),
que dado pela expresso, envolvendo as suas correspondentes variveis padronizadas,
rX ,Y =

1 n ( xi x ) ( y i y )
.

n 1 i =1 s x
sy

CORRELAO LINEAR

(6.1)
NO CORRELACIONADA

2.5

2.0

2.0

VARIVEL Y

VARIVEL

1.5

1.5

1.0

1.0

0.5
0.5

0.0
0.0

0.5

1.0
VARIVEL X

1.5

2.0

0.50

0.75

1.00
VARIVEL

1.25

1.50

Figura 6.1 Diagramas de variveis com correlao linear (grfico esquerda) e no


correlacionadas (grfico direita).

( xi x )
( y y)
e zy = i
so usadas aqui, em (6.1),
sx
sy
porque tm a mesma variabilidade (isto , ambas tm desvio padro 1). Com isso,
elimina-se os possveis efeitos da maior variabilidade em uma dessas variveis originais
na medio da associao entre elas. O coeficiente (6.1) baseado na mdia dos
produtos dos escores padronizados, onde a troca de n por (n-1) tem a mesma
justificativa que foi usada na definio da varincia.
As variveis padronizadas z x =

O coeficiente de correlao de Pearson varia entre -1 e +1, inclusive. Quanto mais


prximo de +1 estiver o seu valor, maior ser a correlao positiva (isto , medida que
X cresce, Y tambm cresce) e quanto mais prximo de -1, maior ser a correlao
negativa (isto , medida que X cresce, Y decresce e vice-versa). Quando os valores de
rX ,Y forem prximos de zero, conclui-se que a variao de Y no depende da variao
de X (isto , X e Y so no correlacionadas).
Note-se que, para o caso mais extremo de dependncia linear y i = xi , temse y = x e s y = s x , que substitudos em (6.1), d rX ,Y =1. Isto :
rX ,Y =

s2
1 n ( xi x ) ( y i y )
1 n ( xi x ) ( xi x ) 1 1 n
=(
= 2(
)
) ( xi x ) 2 = x2

n 1 i =1 s x
sy
n 1 i =1 s x
sx
s x n 1 i =1
sx

Do mesmo modo, pode-se mostrar que, quando y i = xi , tem-se rX ,Y = 1 .


A idia que levou ao estabelecimento da expresso (6.1) foi a seguinte (leia a frase
sem considerar as palavras e desigualdades entre parnteses, relendo-a depois com a
substituio das palavras e desigualdades imediatamente antes pelas dos parnteses)03:
52

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

- se, para grandes (pequenos) valores de X, isto , para xi > x (para xi < x )
corresponder grandes (pequenos) valores de Y, isto , ocorrer yi > y ( yi < y ), ento os
valores dos produtos ( xi x )( y i y ) sero grandes e positivos e, conseqentemente, o
valor da expresso (6.1) ser grande e positivo.
- se, para grandes (ou pequenos) valores de X corresponder pequenos (ou grandes)
valores de Y, ento os produtos sero grandes em valor absoluto, mas tero sinal
negativo e, conseqentemente, o valor de (6.1) ser grande em valor absoluto, mas
negativo.

A expresso (6.1) pode ser, por manuseio algbrico, transformada em:

S x, y

rX ,Y =

S xx S yy

(6.2)

em que:
n

S xy = ( xi y i ) n( x )( y ) ,
i =1

(6.3)

S xx = ( xi2 ) n( x ) 2 ,
i =1

S yy = ( y i2 ) n( y ) 2 .
i =1

(6.4)

(6.5)

A expresso (6.2) mais fcil de operacionalizar e diminui os erros de


arredondamento.
Uma sugesto, para a classificao da intensidade dos valores numricos do
coeficiente de correlao de Pearson em baixa (nula), moderada e alta, o critrio
apresentado na figura (6.2), a seguir.

-1

+1

NU LA

MODERADA

ALTA
Figura 6.2 Um critrio de avaliao da intensidade da correlao linear.

53

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Exemplo 6.1 No exemplo 4.6, foram consideradas as variveis X:concentrao do


princpio ativo, em mcg e Y:tempo de resposta ao medicamento, em min, em que se
obteve:
Tabela 6.1 Clculo do coeficiente de correlao de X e Y.
xi
zx
yi
xi2 y i2
zy
( z x z y ) ( xi . y i )

Somas
Mdias
D. P.

10
10
20
50
30
30
40
90
50
70
150
250
30
50
5,8114 31,6228

-1,26491 -1,26491
-0,63246
0
0
-0,63246
0,63246 1,26491
1,26491 0,63246

1,0

1,6
0
0
0,8
0,8
3,2

100
1000
900
3600
3500
9100

100
400
900
1600
2500
5500

100
2500
900
8100
4900
16500

1,0

Usando os dados do centro da tabela 6.1, tem-se:


rX ,Y =

1 n ( xi x ) ( y i y )
1
(3,2) = 0,8 .
=

5 1
n 1 i =1 s x
sy

Portanto, existe um forte relacionamento entre concentrao do princpio ativo e


tempo de resposta ao medicamento.

Alternativamente, usando os dados do lado direito da tabela 6.1:


n

S xy = ( xi y i ) n( x )( y ) = (9100) 5(30)(50) = 1600


i =1

S xx = ( xi2 ) n( x ) 2 = (5500) 5(30) 2 = 1000


i =1

S yy = ( y i2 ) n( y ) 2 = (16500) 5(50) 2 = 4000


i =1

rX ,Y =

S x, y
S xx S yy

1600
(1000)(4000)

1600
= 0,8 .
2000

6.3 Duas variveis qualitativas


Da mesma forma como foi comentado para variveis quantitativas, comum o
interesse no cruzamento dos dados de duas variveis qualitativas (ou categricas).
Exemplo 6.2 Em uma pesquisa poder-se-ia ter coletado uma amostra aleatria de
1600 indivduos, para obter, entre outras, as informaes de gnero do respondente e
utilizao dos servios de uma unidade de sade. As informaes poderiam ter sido
resumidas em uma tabela como a 6.2:

54

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Tabela 6.2 Distribuio conjunta dos dados das variveis gnero e utilizao de um
servio de sade.
Utilizao
Gnero
FEMININO
(F)
MASCULINO (M)
TOTAL

SIM
(S)
173
92
265

NO
(N)
727
608
1335

TOTAL
900
700
1600

No corpo central dessa tabela esto registradas as freqncias absolutas de todos


os possveis resultados conjuntos de gnero e utilizao. Por exemplo, 92 indivduos so
do sexo masculino e utilizam o servio.
Tabelas com a estrutura semelhante da (6.2) so chamadas de tabelas de
contingncia e podem ser usadas para a anlise da associao entre as variveis gnero
e utilizao.
So, inclusive, teis para uma rpida introduo aos conceitos de probabilidade,
como ser feito agora.

6.4 Noes de probabilidade


Quando as amostras so aleatrias e suficientemente grandes a freqncia relativa
da ocorrncia de um resultado (ou evento), em qualquer estudo, pode ser considerada
como a probabilidade da ocorrncia desse resultado (ou evento).
Exemplo 6.3 No exemplo anterior, a probabilidade conjunta de um indivduo,
pertencente populao de onde foi retirada a amostra, ser do gnero masculino e
utilizar o servio de sade ( M S ) e a probabilidade marginal de um indivduo utilizar
o servio, so dadas, respectivamente, pelas freqncia relativas:
f M ,S =

fS =

n( M S )
92
=
= 0,0575 P[ M S ] ,
1600
n

n( S ) 265
=
= 0,1656 P[ S ] .
1600
n

Isto , de um modo geral, define-se a probabilidade de um evento E por:


P[ E ] =

n( E )
,
n()

(6.6)

em que (letra grega maiscula mega) representa o conjunto de todos os possveis


resultados (espao amostral) do experimento. No exemplo acima a contagem de todos
esses resultados dada por n() = n = 1600 resultados (indivduos) no experimento.
As probabilidades dos demais resultados so apresentadas na tabela 6.3, a seguir.

55

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Tabela 6.3 Distribuies conjunta e marginais de probabilidades relacionadas s


variveis gnero e utilizao de um servio de sade.

Utilizao

SIM
Gnero
(S)
FEMININO (F) 0,1081
MASCULINO (M) 0,0575
TOTAL
0,1656

NO TOTAL
(N)
0,4544 0,5625
0,3800 0,4375
0,8344
1

A soma das probabilidades conjuntas e a soma das probabilidades marginais deve


sempre ser igual a 1. Alm disso, a soma das probabilidades conjuntas em uma linha (ou
em uma coluna) igual probabilidade marginal naquela linha (ou coluna).
As probabilidades determinadas at aqui foram incondicionais, isto , no foram
condicionadas ocorrncia de nenhum evento. Portanto, calculadas em relao ao
espao amostral.
Na maior parte das vezes, deseja-se avaliar a probabilidade, sabendo-se que um
determinado evento j tenha ocorrido. Por exemplo, a probabilidade de um indivduo
usar o servio de sade, se ele do sexo masculino, pode ser determinada s em funo
dos n(M) =700 indivduos masculinos, ou em funo de todos os n = n() = 1600 . Isto
:
n( S M )
92
92 1600
P[ S M ] ,
n()
P[ S | M ] =
=
=
=
(
)
700
n
M
700
P[ M ]
1600
n()

Os extremos dessa expresso estabelecem que a definio da probabilidade


condicional do evento A, dado a ocorrncia do evento B :
P[ A | B] =

P[ A B]
, para P[ B ] 0 .
P[ B]

(6.7)

Intuitivamente, tem-se que dois eventos so independentes se a ocorrncia de um


no influenciar a ocorrncia do outro. Por exemplo, para dois eventos A e B isso pode
ser estabelecido por:
(6.8)
P[ A | B] = P[ A] ou P[ B | A] = P[ B ] .
Uma das aplicaes importantes desses conceitos de probabilidade a avaliao de
testes diagnsticos, como ser descrito agora.

6.5 Qualidade de testes diagnsticos


Alm das consideraes clnicas, deve-se considerar as medidas que caracterizam a
qualidade intrnseca de um teste diagnstico, como a sensibilidade e a especificidade do
teste, bem como o valor preditivo positivo e o valor preditivo negativo, refletindo a
capacidade do profissional de sade produzir decises corretas.

56

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Usando conceitos de probabilidade, como os j expostos, pode-se estabelecer estes


quatro parmetros de qualidade de um teste diagnstico02.
Uma probabilidade condicional nessa anlise a sensibilidade, que mede a
capacidade de reao do teste em um paciente com a doena em questo, definida por:

S = P[T+ | D+ ] ,

(6.9)

onde T+.e D+, indicam, respectivamente: teste positivo e portador da doena.


Outra probabilidade condicional a especificidade, que mede a no reao do
teste em pacientes no portadores da doena, isto , o teste especfico para a doena
em questo. Ela definida por:

E = P[T | D ] .

(6.10)

onde T-.e D-, indicam, respectivamente: teste negativo e no portador da doena.


Nas definies da sensibilidade e especificidade assume-se que exista um padro
ouro de diagnstico e no se admite estgios intermedirios da doena, isto , os
pacientes so classificados somente em doentes e no doentes.
Um teste deve ter altas sensibilidade e especificidade, o que nem sempre ocorre na
prtica. muito comum situaes em que existem mais de um teste a serem
comparados para a escolha do mais adequado.
Se estiverem disponveis dois testes tais que, um apresente alta sensibilidade e baixa
especificidade e outro a situao inversa, a escolha deve, entre outros fatores, basear-se
em outras medidas de qualidade do teste, como os: valores preditivos positivo e
negativo.
O valor preditivo positivo a probabilidade do paciente estar doente, dado que o
teste tenha sido positivo, isto :

VPP = P[ D+ | T+ ] .

(6.11)

O valor preditivo negativo a probabilidade do paciente no estar doente, dado que


o teste tenha sido negativo, isto :

VPN = P[ D | T ] .

(6.12)

Observa-se que os eventos condicionantes em (6.11 e 6.12) so o que acontece


primeiro na prtica.
Exemplo 6.4 Wierner et al. (1979) avaliaram o teste ergomtrico de tolerncia a
exerccios entre indivduos com e sem a doena coronariana. O teste foi considerado
positivo quando se observou mais de 1 mm de depresso ou elevao do segmento 5T,
por no mnimo 0,08 s, em comparao com os resultados obtidos com o paciente em

57

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

repouso. O diagnstico definitivo foi realizado por angiografia (padro ouro). Os


resultados obtidos so apresentados na tabela 6.4.

Tabela 6.4 Avaliao do Teste Ergomtrico.


Teste
T+
T
Doena coronariana
Total
D+
815
208
1023
D
115
327
442
Total
930
535
1465

Tem-se que:
S=

815
= 0,797 ,
1023

E=

327
= 0,740 .
442

Ento, a sensibilidade do teste ergomtrico ligeiramente superior a sua especificidade.


VPP =

815
= 0,8763 ,
930

VPN =

327
= 0,6112 .
535

Se o resultado do teste ergomtrico positivo, a chance de haver doena coronariana


alta (0,8763). Se o resultado negativo, a chance de no haver moderada (0,6112) .

6.6 Associao entre duas variveis qualitativas


A expresso (6.8) pode ser estabelecida em termos de duas variveis (aleatrias), ao
se definir os eventos como:

A=[X=xi] , significando a varivel X assumir um resultado especfico xi,


B=[Y=yj] , significando a varivel Y assumir um resultado especfico yj .

Assim se duas variveis X e Y so independentes, quaisquer que sejam os seus


valores xi e yj, respectivamente :
P[ X = xi | Y = y j ] = P[ X = xi ] ou

P[Y = y j | X = xi ] = P[Y = y j ] .

(6.13)

Para duas variveis qualitativas ou categorizadas X e Y independentes, tem-se de


(6,8) e adotando-se a notao [ X = xi ] [Y = y j ] = ( X = xi ; Y = y j ), que :
P[ X = xi | Y = y j ] = P[ X = xi ]

n( X = xi ; Y = y j )
n(Y = y j )

n( X = xi )
.
n ( )

Assim, as freqncias absolutas conjuntas esperadas ei , j , no caso de independncia


das variveis X e Y, so dadas por:

58

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

ei , j
n( y j )

n( xi ) n( y j )
n( xi )
.
ei , j =
n
n

2010

(6.14)

Exemplo 6.5 Para os dados do exemplo 6.3, a freqncia absoluta esperada no caso
de no associao (independncia) entre gnero masculino e resposta afirmativa com
relao utilizao do servio de sade dada, mediante aplicao de 6.11, por:

e2,1 =

n( x 2 )n( y1 ) (700)(265)
=
= 115,9375 116 ,
n
1600

que muito diferente do valor efetivamente observado o2,1 = 92 .


As demais freqncias so apresentadas na tabela 6.4, a seguir (valores entre
parnteses) e comparadas com os valores efetivamente observados (sem parnteses). .

Tabela 6.5 Comparao entre os valores esperados ei,j no caso de no associao entre
gnero e utilizao de um servio de sade, e os valores observados oi,j.
Utilizao
Gnero
FEMININO
(F)
MASCULINO (M)
TOTAL

SIM
(S)
173 (149)
92 (116)
265

NO TOTAL
(N)
727 (751) 900
608 (584) 700
1335
1600

Se os desvios (oi , j ei , j ) entre os valores efetivamente observados e os valores


esperados, no caso de no associao, forem grandes, conclui-se pela no associao
entre as variveis estudadas. Mas para determinar a intensidade da associao (ou no)
deve-se usar um ndice.
Uma idia considerar a soma dos desvios, mas como eles se alternaro em valores
positivos e negativos, a soma pode se anular, alm disso, a avaliao do tamanho do
desvio depende da magnitude das freqncias. Para prevenir isso, considera-se a soma
dos desvios quadrticos, relativos aos valores esperados.
Isto :

2
( L 1)( C 1)

( o i , j ei , j ) 2

i, j

ei , j

(6.15)

Onde L(nmero de linhas da tabela de contingncia) e C (nmero de colunas)


representam as quantidades de distintos valores (categorias) das variveis X e Y,
respectivamente, o smbolo L21,C 1 (letra grega qui) denominado de estatstica quiquadrado com (L-1)(C-1) graus de liberdade e a soma se estende a todos os (i,j) valores
da tabela de contingncia.
.

59

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

s vezes, para simplificar a notao s ser usado, daqui em diante, o smbolo

2 para a estatstica qui-quadrado.


No possvel quantificar a intensidade da associao dispondo somente dos
valores qui-quadrado, pois essa estatstica varia a partir de zero, sem limite superior de
referncia. Mas pode-se utiliz-lo no chamado teste qui-quadrado de associao ou, em
funo dessa estatstica, definir uma medida de associao que varie em um intervalo
limitado. Por exemplo, o coeficiente de associao definido por;
C=

2
2 +n

(6.16)

m 1
] , onde m o menor valor
m
entre o nmero de linhas e colunas da tabela de contingncia. Quanto maior for o valor
m 1
, maior a associao entre as variveis estudadas.
de C, em direo ao limite
m

que assume valores no negativos no intervalo [0 ;

Exemplo 6.6 No exemplo anterior, tem-se:

(221)( 21) =

(173 149) 2 (727 751) 2 (92 116) 2 (608 584) 2


,
+
+
+
149
751
116
584

12 = 3,8658 + 0,7670 + 4,9655 + 0,9863 = 10,5846 ,


C=

10,5846
= 0,0811
10,5846 + 1600

2 1
= 0,7071 .
2

Ento, segundo o valor desse coeficiente, a associao entre gnero e utilizao do


servio de sade muito fraca.

60

2010

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

CAPTULO 7
DISTRIBUIES CONTNUAS DE PROBABILIDADE
7.1 Introduo
Depois de selecionada uma amostra, so obtidos os dados de uma varivel
quantitativa contnua (dados de medio, por exemplo). Com base na distribuio de
freqncias construdo o correspondente histograma (modelo emprico). Umas das
principais finalidades do histograma sugerir o tipo de modelo terico (curva) que mais
se ajuste a esses dados e que representar toda a populao de possveis valores da
varivel sob estudo.
O procedimento comparar o esboo da curva sugerida pelo histograma, com as
curvas tericas (densidades) de modelos estatsticos j conhecidos. Existem testes
estatsticos especficos para fazer isso (os chamados testes de ajustamento). Eles,
basicamente, comparam as distncias entre os pontos da curva emprica, determinada
pelo delineamento superior do histograma, com os correspondentes pontos na curva
terica, escolhida pelo pesquisador para verificar a sua adequao aos dados. Se no
houver rejeio do teste, considera-se que os dados seguem o modelo proposto e, a
partir da, ele e seus parmetros (mdia, referida como populacional, desvio padro
populacional , etc, estimados com base nos dados da amostra) so usados como
referncia na tomada de decises clnicas.

40

40

30

30

PORCENTAGENS

PORCENTAGENS

Por exemplo, para uma determinada varivel em questo, pode-se usar a curva
terica para estabelecer as faixas de referncia j comentadas anteriormente. Isto ,
segundo uma probabilidade fixada (interpretada como rea sob a curva), encontra-se os
percentis que delimitem um intervalo dentro do qual as medidas dessa varivel, em
novos indivduos, possam ser consideradas normais. Essa situao ilustrada na
figura 7.1, para a varivel idade do exemplo 4.1.

20

10

20

10

48

54

60

66

72

78

48

54

60

66

72

IDADE

78
IDADE

a
Curva sugerida pelo

rea A
Limites do intervalo

(percentis)
Modelo terico (curva simtrica)

Modelo emprico (histograma)

Figura 7.1 Ilustrao do procedimento de determinao do modelo mais adequado


aos dados.
61

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

A probabilidade da idade de um indivduo da populao de interesse assumir um


valor no intervalo [a , b] dada por:
P[a<I<b]=rea A sob a curva, entre os limites a e b do intervalo.

7.2 A distribuio normal


A distribuio normal (ou Gaussiana) foi inicialmente proposta como modelo
terico para descrever erros de medio, pois se acreditava que ela representasse o
comportamento natural de qualquer tipo de erro experimental, da o adjetivo normal.
Quando a distribuio dos erros no se adequasse a uma curva normal, conclua-se
(s vezes equivocadamente) que a coleta dos dados no havia sido conduzida de forma
apropriada. Esse modelo continua sendo de fundamental importncia na cincia.

x- x

x+ x

Figura 7.2 Representao de uma distribuio normal com mdia x e desvio padro
x, para uma varivel contnua X.
A distribuio normal contnua, isto , a varivel que ela representa deve assumir
qualquer valor dentro de um intervalo previamente definido. A sua curva tem a forma
de um sino, com caudas simtricas em relao mdia populacional x (em que a
letra grega minscula m). Existem dois pontos nos quais a curva muda a concavidade
(chamados pontos de inflexo) que so ( x- x) e ( x+ x), em que x ( a letra grega
minscula sigma) o desvio padro (populacional). Quanto maior o valor de x, mais
espalhada (maior disperso) na base e mais baixa ser a figura e, quanto menor for,
tambm menor ser a disperso e maior a altura em torno da mdia x.
Na distribuio normal, devido sua simetria, a mdia, mediana e moda coincidem.
Tambm, como j foi comentado para distribuies simtricas:
- 68% da rea total sob a curva est entre ( x- x) e ( x+ x),
- 95% da rea total sob a curva est entre ( x-2 x) e ( x+2 x), e
- 97,7 % da rea total sob a curva est entre ( x-3 x) e ( x+3 x).
Isso pode ser usado para uma primeira conjectura de normalidade a um determinado
conjunto de dados contnuos, mas existem testes estatsticos implantados nos softwares
especializados para realizar, com maior confiabilidade essa tarefa. A notao utilizada
para indicar que uma varivel X normalmente distribuda a seguinte:
X ~ N( x ; x2 ),
(7.1)
em que x2 representa a varincia populacional da varivel X.
62

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Exemplo 7.1 No exemplo 3.1, o histograma dos dados est sugerindo um modelo
de curva simtrica e a media (Me =62,9), mediana (Md=62) e moda (Mo =60,
determinada pelo valor mdio da classe de maior freqncia no histograma) no diferem
significativamente. Ento, pode-se concluir pela normalidade com mdia 62,9 63 e
desvio padro 7,11 7 (I ~ N(63 ; (7)2). Assim, a probabilidade de ocorrer uma idade
no intervalo 63 7 de aproximadamente 0,68 (ou de 68 %).
7.3 Clculo de probabilidades na distribuio normal
Conforme j foi comentado antes, as probabilidades da ocorrncia de intervalos de
valores so aqui interpretadas como reas sob a curva, entre os extremos desses
intervalos. Em distribuies contnuas, como essa, a probabilidade de um valor
especfico (um ponto) , a rigor, zero, pois um ponto pode ser considerado como um
intervalo em que os extremos coincidem e, portanto a rea correspondente sob a curva
nula. Assim, no clculo de probabilidades, no se deve preocupar com a incluso ou no
da igualdade nos extremos de intervalos do tipo a<X<b.
Por exemplo, sorteado um indivduo da populao que forneceu a amostra de idades
na figura 7.1, a probabilidade dele ter uma idade no intervalo 30<I<70 a mesma que a
probabilidade no intervalo 30 I 70 .
Para cada valor da mdia e do desvio padro, tem-se uma curva normal diferente e o
clculo das reas (probabilidades) para uma dessas curvas no trivial, s sendo
possvel com a utilizao de ferramentas matemticas apropriadas. Ento, para facilitar
essa tarefa, usa-se uma curva normal padro (isto uma distribuio normal com
mdia zero e varincia 1, N(0,1)), cujas probabilidades j so tabeladas e para a qual
podem ser transformadas todas as demais distribuies normais (usando-se a
transformao Z = X X ).
X

Independentemente da mdia X ou do desvio padro X , qualquer clculo de


probabilidade em distribuies normais pode ser transferido para essa distribuio
padro. Esse procedimento ilustrado na prxima figura.

x- x

x+ x

-1

+1

z
X ~ N( x ; x2 )

Z ~ N(0 ;1)
Z=

X X

Figura 7.3 Transformao de qualquer distribuio normal para a normal padro.

63

2010

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

A rea total sob as duas curvas 1 (quantidade total de probabilidade). Para o


clculo de probabilidade na curva original, a transformao determina na curva normal
padro uma rea equivalente, conforme ilustrado pela figura 7.4.

a 63 b

za 0 zb

X ~ N( x ; x2 )

Z ~ N(0 ;1)
Z=

X X

Figura 7.4 Transformao da rea na curva original em uma rea equivalente na


curva normal padro.
A probabilidade de interesse , ento, dada por:

P[a X b] = P[

a X

x X

za

b X

].

(7.2)

zb

Por exemplo, para calcular a probabilidade P[30 I 70] no exemplo 3.1, tem-se:

P[50 I 73] = P[

50 63 i I 73 63

] = P[1,86 Z 1,43] .
7
7
I

O resultado pode ser determinado consultando uma tabela da distribuio normal


padro, com a tabela de faixa central ilustrada na figura 7.5.
l-se aqui a segunda decimal do escore z
0

zc
0,0
0,1
0,2
...
1,1
1,2

,3997
P[0<Z<1,43]

1,4
1,5

zc

,4236
P[0<Z<1,86]

......

1,8

,4686

. ......

l-se aqui a parte inteira e a primeira decimal do escore z

64

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Figura 7.5 Tabela de faixa central para distribuio normal padro.


Como a curva normal padro simtrica em relao sua mdia zero, determina-se
as probabilidades envolvendo os escores negativos simplesmente considerando o escore
simtrico positivo (o que corresponde a rebater a curva esquerda sobre a curva
direita), isto :
P[-zc<Z<0]=P[0< Z<zc].
(7.3)
Assim,

P[50 I 73] = [1,86 Z 1,43] = P[-1,86 < Z < 0] + P[0 < Z < 1,43]
= P[0 < Z < 1,86] + P[0 < Z < 1,43] = 0,4686 + 0,4236 = 0,8922 .
Uma pergunta a ser feita aqui : qual a idade mnima que cobre 90% das pessoas
dessa populao?
Para respond-la deve-se notar que (veja figura 7.6):

N(63,49)

N(0 ;1)

im 63

zm

0,40 + 0,50

0,40 + 0,50

0,90

0,90

Figura 7.6 Transformao da rea na curva original em uma rea equivalente na


curva normal padro.

I I

im I

im 63
] = 0,90
7
I
I
= P[im < Z < 0] + P[0 < Z < +] = 0,40 + 0,50 = 0,90 ,

P[ I > im ] = P[

>

] = P[ Z >

P[im < Z < 0] = P[0 < Z < im ] = 0,40 .

em que:

Ento, procura-se no corpo da tabela representada na figura 7.5 o valor de


probabilidade mais prximo de 0,40 (que 0,3997) e, na mesma linha da tabela onde
est esse valor, identifica-se a parte inteira (1) e a primeira decimal (2) e, na coluna, a
segunda decimal (8), do escore padro zc=1,28 = zm.
Neste caso, tem-se:

zm =

im 63
i 63
1,28 = m
im = 54,04 54 anos .
7
7

65

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

CAPTULO 8
INTERVALOS DE CONFIANA

8.1 Introduo
Sorteada uma amostra de uma populao, onde se tenha interesse no estudo de uma
varivel quantitativa X, uma estimativa pontual x da mdia populacional x , por
exemplo, ser dada pela mdia amostral x , se o procedimento amostral for AAS. Isto ,
sob esse procedimento amostral, infere-se para a populao a mdia aritmtica do
valores obtidos na amostra.
x=?
x
AAS

amostra de tamanho n

populao de tamanho N

Figura 8.1 Representao esquemtica de um procedimento de estimao pontual.


Mas, o ideal , alm dessa estimativa pontual, que se tenha uma idia da sua
preciso, dentro de uma certa confiabilidade. Isso pode ser feito por meio dos chamados
intervalos de confiana.

8.2 Intervalos de confiana para a mdia populacional


Na prtica, para estimar algum parmetro como a mdia, por exemplo, s retirada
uma amostra de n elementos da populao de tamanho N. Mas, antes de faz-lo, pode-se
imaginar a quantidade de todas as possveis amostras de tamanho n, nessa populao
que so candidatas ao sorteio, cada uma com a sua estimativa xi . Se a amostra for
AAS, como o caso aqui, o nmero dessas possibilidades dado pela combinao de N
elementos da populao, tomados n a n.
Escolhida uma amostra i, certamente xi x , embora se espere que essa
diferena no seja muito grande. Uma representao simplista desse raciocnio dada
na parte inferior da figura 8.2.
As estimativas intervalares de x so, ento, da forma:
[ xi d ; xi d ] ,
66

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

onde d uma medida de preciso que pode ser estabelecida do modo como ser visto
adiante.
Observa-se que os dois primeiros intervalos contem a verdadeira mdia x,mas o
terceiro no. Portanto, desejvel que, com alta probabilidade, acontea uma situao
semelhante s duas primeiras.
Ao se sortear uma dessas amostras, tambm estar sendo sorteada uma estimativa x
e, conforme o Teorema Central do Limite (importante resultado terico da inferncia
estatstica)15, o modelo com o qual isso ocorre , para amostras suficientemente grandes,
a distribuio normal com mdia x = x (isto , com mdia igual mdia dos dados)
e varincia x2 = x (ou seja, a varincia dos dados, dividida pelo tamanho da
2

amostra). Portanto, com desvio padro x = x2 =

x
n

).

Quando os dados j so normais, a amostra no precisa ser to grande para a


validade desse teorema. Graficamente,

N ( x ;

x1 xk 1 x x 2

x2
n

x k ... x3
x

d
d

d
d

d
d

Figura 8.2 Representao esquemtica das estimativas intervalares da mdia de


uma populao.
Como a variabilidade dos dados na populao (que dada pela varincia x2 )
constante, quanto maior o tamanho da amostra, menor ser a variabilidade das mdias
amostrais x neste modelo. Portanto, para uma mesma confiabilidade (por exemplo, de
95%) de x estar no entorno d da mdia verdadeira x, maior ser a chance de x ser
sorteada mais prxima de x (veja figura 8.3).

67

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

n2 e
n1 e

2010

x2
n2

2
x

n1
x
d2

d2

0,95

d1

d1
0,95
n1<n2

Figura 8.3 Efeito do tamanho de amostra na distribuio das mdias amostrais.

Uma pergunta neste momento : como determinar d?


Estabelecida a confiabilidade (de 95%, por exemplo), d ser a distncia mxima no
entorno de x, que determinada sob o eixo de x pela rea central sob a curva da
distribuio de amostral N ( x ; x ) (por exemplo, pela rea de 0,95).
2

O procedimento explicado com a ajuda da figura 8.4, a seguir.


N ( x ;

x2
)
n
N (0 ;1)

0,4750

0.95
x

xI d

0,475

zI

zS

d xS
z=

xi x

xi x

P[ x x x S ] = 0,4750

P[0 z z S ] = 0,475

Figura 8.4 Determinao do comprimento 2d do intervalo de confiana.

O resultado pode ser determinado consultando uma tabela da distribuio normal


padro, como a tabela de faixa central ilustrada na figura 8.5.

68

2010

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

zc
...
1,7
1,8
1,9.
2,0
2,1
...

zc

0,4750
P[0 z 1,96] = 0,4750

Figura 8.5 Determinao do comprimento d de um intervalo de confiana para a mdia,


para uma confiabilidade de 95%.
Do raciocnio desenvolvido nas figuras 8.4 e 8.5, tem-se que:
zS =

xS x

1,96 =

d = (1,96)

.
n

Nestas condies, o intervalo de 95% de confiana para a mdia populacional x


dado por:
IC[ x ; 95%] = [ x d

; x + d ] = [ x (1,96)

ou
IC[ x ; 95%] = [ x (1,96)

O termo
EP(x) =

x
n

x
n

; x (1,96)

x
n

].

(8.1)

chamado de erro padro da mdia, quantifica a variabilidade da mdia amostral e o


escore z (que aqui 1,96) representa a confiana (de 95%) do intervalo.
De um modo geral, para uma confiana (1 )100% , e supondo-se o desvio padro
x conhecido, o intervalo de confiana para a mdia populacional x dado por:

,
(8.2)
IC[ x ; (1 )100%] = [ x z x ]
2
n

69

2010

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

em que z o quantil na distribuio normal padro que deixa uma rea de


2

na sua

cauda direita.
Mas, geralmente, no se conhece o desvio padro, ento, para amostras grandes
( n 30 ), pode-se substitu-lo pela sua estimativa x = sx , conforme o que j foi visto
na unidade 3.

Exemplo 8.1 Para a amostra de n=251 indivduos fumantes, de ambos os sexos


(com nF=138 mulheres (F) e nM =112 homens (M)), do exemplo 5.2, que tiveram as
suas presses arteriais medidas na pesquisa, foram obtidas, respectivamente, as
estimativas das mdias populacionais da presso arterial sistlica (a), xaF = 115,3 , e
diastlica (b), xbF = 74,3 , no grupo feminino e no grupo masculino, xaM = 123,9 e
xbM = 79,5 . Bem como, as correspondentes estimativas do erro padro: saF = 12,8 ,
sbF = 8,3 e saM = 14,4 , sbM = 9,2 . Para a determinao dos intervalos de confiana, 95%,
das correspondentes mdias populacionais de presso arterial, pode-se construir a tabela
abaixo e aplicar a expresso 8.2, substituindo z por 1,96 e x por s x , isto :
2

IC[ x ; (1 )100%] = [ x (1,96)

sx
n

].

(8.3)

Tabela 8.1 Estatsticas para a determinao do intervalo de confiana para a mdia


bg
ag
SEXO ng
xbg
xag
sag
sbg
ng
ng
F
138
115,3 74,3 12,8 8,3
1,0896 0,705
M
112
123,9 79,5 14,4 9,2
1,3607 0,8693

IC[ aF ; 95%] = [ x aF (1,96)

s aF
nF

] = [115,3 (1,96)

12,8
138

] = 115,3 (1,96)(1,09)

= [113,16 ; 117,44 ]
IC[ aM ; 95%] = [ x aM (1,96)

s aM
nM

] = [123,9 (1,96)

14,4
112

] = 123,9 (1,96)(1,36)

= [110,49 ; 126,57 ]

IC[ bF ; 95%] = [ xbF (1,96)

sbF
nF

] = [74,3 (1,96)

8,3
138

] = [74,3 (1,96)(0,71)
= [72,91 ; 75,69 ]

70

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

IC[ bM ; 95%] = [ xbM (1,96)

sbM
nM

] = [79,5 (1,96)

9,2

2010

] = [79,5 (1,96)(0,87]

112

= [77,79 ; 81,21]

Observa-se que os intervalos de confiana para os fumantes masculinos foram


maiores que os dos fumantes femininos por causa da maior variabilidade nas presses
arteriais masculinas e pelo menor tamanho de amostra.
A interpretao dos intervalos de confiana , por exemplo, para a presso arterial
sistlica feminina, a seguinte:
Antes de observar a amostra de indivduos fumantes do sexo feminino na
populao estudada, se fossem retiradas um grande nmero de amostras, todas de
tamanho 138, dessa populao; 95% delas gerariam intervalos de estimao, para a
mdia populacional pesquisada de presso arterial sistlica, aF , que conteriam essa
mdia populacional. Ento, pela alta probabilidade assumida (0,95) acredita-se que o
intervalo [113,16 ; 117,44 ] , fornecido pela amostra selecionada, seja um dos desses
intervalos.
Para pequenas amostras, o procedimento mais adequado calcular o intervalo de
confiana dado pela expresso:
s
(8.4)
IC[ x ; (1 )100%] = [ x t ,n 1 x ] ,
2
n
onde t ,n 1 o quantil determinado em uma distribuio contnua, tambm simtrica,
2

com formato semelhante ao da normal, mas com as caudas um pouco mais altas ,
chamada de distribuio de Student, com n-1 graus de liberdade . O v alo r tem a
mesma interpretao dada na curva normal. Os percentis t ,n 1 podem ser encontrados
2

em uma tabela apropriada, conforme e ilustrado na figura 8.6.


Exemplo 8.2 Um psiclogo, interessado no tempo t (em minutos) que crianas da
pr-escola pblica se mantem concentradas em uma determinada atividade, realiza um
experimento com uma amostra aleatria simples de 9 crianas das pr-escolas pblicas
de um municpio. Os dados coletados so:
4,9 ; 7,0 ; 8,1 ; 4,5 ; 5,6 ; 6,8 ; 7,2 ; 5,7 ; 6,2 .
Um intervalo de confiana 95%, para a mdia populacional do tempo de concentrao
dessas crianas, dado pela expresso (8.4), com o quantil t ,n 1 correspondente, sendo
2

determinado conforme ilustrao na figura 8.6.


Assim, tem-se que: a estimativa pontual do tempo mdio de ateno nessa
populao :
1 9
1
t = t i = [4,9 + 7, ,0 + ... + 6,2] = 6,2 min .
9 i =1
9
A variabilidade desse tempo de ateno na populao estimada por:

71

2010

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

st2 =

1 9
1
(t i t ) = [(4,9 6,2) 2 + (7, ,0 6,2) 2 + ... + (6,2 6,2) 2 ] = 1,35 min .2

9 1 i =1
8

st = 1,35 = 1,16 min .


A correspondente estimativa intervalar com 95% de confiana , ento, dada por:
s
1,16
IC[ t ; (1 )100%] = [ t t 0, 025,8 ) t ] = [6,2 (3,306)
], e
n
9
IC[ t ; 95%] = [6,2 1,16] = [5,04 ; 7,36] .
A interpretao desse intervalo de confiana semelhante feita no exemplo
anterior.
Tabela da distribuio t de Student
1-

GL
...
7
8
9
...

0,1

0,05

0,025

0,01

t,n-1
0,005

2,306
observa-se que t0, 025,9 1 =2,306

18
19
20
21
...
Figura 8.6 Determinao de um percentil na distribuio t de Student

8.3 Intervalos de confiana para a proporo populacional


Como a proporo amostral, no caso de amostras aleatrias simples, uma mdia
amostral de valores de uma varivel atributo (dicotmica), em que os cdigos: 0 (indica
a no ocorrncia do evento de interesse) e 1 (indica a ocorrncia), ento toda a
discusso para a estimativa da mdia populacional vlida para a proporo
populacional. As nicas diferenas so que, como a varivel s assume dois valores
distintos, o tamanho da amostra para a validade do teorema central do limite tem que
ser muito maior e a estimativa da varincia populacional tambm muda.
Um modo simples de determinar essa varincia fazer o seguinte: pode-se escrever
a mdia aritmtica dos n valores xi, i=1,2,...,n, de um conjunto de dado em funo das
freqncias absolutas nk dos seus distintos valores xk, k=1,2,..,K, e em funo das
correspondentes freqncias relativas fk . Isto :
x=

K
K
nk
1 n
1 K
x
n
x
x
f k xk .
=
=
(
)
=
i n

k
x
n i =1
k =1
k =1 n
k =1

72

(8.5)

2010

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

Se as freqncias relativas dos cdigos 0 e 1, na amostra, forem, respectivamente,


p e q = (1 p ) ento a mdia amostral dos dados atributos ser, segundo os extremos
da expresso (8.5), dada por:
1

x A = f A x A = (0). p + 1. p = p .
k =0

Pelo mesmo raciocnio, interpretando a varincia amostral como a mdia dos


desvios quadrticos dos valores da varivel observados na amostra, em relao sua
mdia (veja expresso 4.1), pode-se escrever a varincia amostral, para uma amostra de
valores quantitativos xi, em funo das freqncias relativas dos valores distintos do
conjunto de dados, isto :
K
1 n
(8.6)
s x2 = ( x x) ) 2 = f k (x k x ) 2 .
n i =1
k =1
No caso de variveis atributo, tem-se:
1
1 1
s A2 = ( xi x ) 2 = p A (x k p ) 2 = (0 p ) 2 q + (1 p ) 2 p = p 2 q + (q ) 2 p
n i =0
A= 0
= p q ( p + q ) = p q ,

s A2 = p (1 p )

Isto ,

sA =

(8.7)

p (1 p ) .

(8.8)

Assim, o intervalo de confiana para a proporo populacional pode ser


estabelecido, substituindo-se na expresso (8.4), a mdia populacional

x pela
proporo populacional A, (: letra grega pi), a mdia amostral x pela proporo
amostral do evento de interesse p e o desvio padro s x por s A . Isto :

IC[ A ; (1 )100%] = [ p t ,n 1
2

p (1 p )
].
n

(8.9)

Para amostras aleatrias suficientemente grandes, substitui-se o percentil t , n 1 pelo


2

percentil normal padro z e procede-se da maneira j aqui exposta para a mdia.


2

Exemplo 8.3 Se a amostra de pronturios (de tamanho 60) do exemplo 3.2 pudesse
ser considerada aleatria simples, a estimativa pontual da proporo de atendimentos no
NAPES, no perodo 1994-1995, relacionados aos problemas de depresso seria
p D = 0,18 .
Neste caso, a variabilidade populacional seria estimada por:
s A2 = p (1 p ) = (0,18)(0,82) 0,15
e a correspondente estimativa intervalar, com 95% de confiana, seria dada por:
73

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

IC[ D ; 95%] = [ p ( z 0, 05 )0,90)

2010

p (1 p )
(0,18)(0,82)
] = [0,18 (1,64)
],
n
60
= [0,18 0,08] = [0,10 ; 0,26].

A interpretao deste intervalo anloga a feita no exemplo (8.1).


Na comparao de dois grupos, podem ser usados intervalos de confiana,
estabelecidos para a diferena de mdias ou de propores17. Tambm, pode-se faz-lo
para a varincia e outros parmetros como, por exemplo, o risco relativo de se contrair
uma doena.

74

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

CAPTULO 9
NOES GERAIS SOBRE TESTES DE HIPTESES

9.1 Introduo
Enquanto, na estimao pontual e intervalar, tem-se como objetivo estimar algum
parmetro populacional (como mdias ou propores ou taxas), agora o objetivo aqui
decidir se uma determinada afirmao verdadeira, assumindo-se um certo risco de
erro.
Por exemplo:
- s 5% dos atendimentos do NAPES, no perodo 1994 e 1995 eram de txico
dependentes;
- o tempo mdio gasto na execuo de um determinado procedimento mdico em
um servio de sade, de 30 minutos;
- a satisfao dos usurios de trs postos de sade com relao aos servios
prestados a mesma, etc.
Enquanto nas duas primeiras afirmaes so especificados os valores dos
parmetros ( =0,05 e =30 min.), na ltima no.

9.2 Raciocnio bsico de um teste de hipteses


A idia bsica de um teste de hipteses 17:
Decidir se a diferena entre o valor alegado de um parmetro populacional e o
valor determinado via amostra pode ser razoavelmente atribudo variabilidade
amostral ou se demasiadamente grande para isso.

Exemplo 9.1 O coordenador de uma unidade de atendimento de sade poderia ter


afirmado que no mais de 5% dos usurios est descontente com o atendimento.
Um incrdulo encontra 7% de descontentes em uma amostra aleatria de 120
usurios. A diferena de 2% ou no demasiadamente grande?
Isso pode ser decidido mediante a aplicao de um teste de hipteses, dentro de uma
certa margem de erro. A apresentao da terminologia, notao, conceitos e do
raciocnio bsico empregado em um teste de hipteses ser feita em etapas, com base
75

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

em um exemplo hipottico, envolvendo afirmaes sobre o parmetro proporo


populacional17 .
1.Etapa. Formula-se duas hipteses, com respeito ao que alegado: a hiptese
nula, (Ho), sugerindo que a afirmao alegada verdadeira e a hiptese alternativa (H1)
que sugere que a afirmao alegada seja falsa.
Cabe ao acusador (o incrdulo) o nus da prova. Portanto, a afirmao do
acusador colocada como hiptese alternativa e, salvo a ocorrncia de forte evidncia
experimental, supe-se a princpio que a afirmao em Ho verdadeira.
Por exemplo: no exemplo anterior, relacionado com a qualidade dos servios da
unidade de atendimento, pode-se fazer:
Ho: =0,05

H1: >0,05,

onde a proporo populacional alegada de insatisfeitos com os servios, na


populao de usurios da unidade de atendimento.
2. Etapa. estabelecida a estatstica amostral e a distribuio que descreve a sua
variabilidade, de amostra para amostra (variao amostral). No exemplo, em
exposio, a estatstica amostral a proporo amostral p de usurios descontentes.
Como o tamanho da amostra relativamente grande (>30), ento pelo teorema
central do limite e por analogia com (8.8), a distribuio amostral das propores
p pode ser considerada normal, com mdia p = e desvio padro:

p =

isto ,
p ~ N( ;

(1 )
n

(9.1)

(1 )

(9.2)
),
n
(lembrando que nessa notao convencionado representar a varincia 2 , e no o
desvio padro ).
Considerar que a distribuio amostral de p seja:
N(0,05 ;

0,05(1 0,05)
) = N (0,05; (0,02) 2 )
n

equivale, a princpio, em considerar verdadeira a afirmao do coordenador. Assim, a


proporo amostral p 1 = 0,07 , obtida pelo incrdulo na amostra de n=120 usurios
considerada como tendo sido sorteada segundo essa distribuio. A figura 9.1 ilustra
esse raciocnio.
O teste consiste em verificar, mediante algum critrio, se p 1 = 0,07 no est
suficientemente longe do centro = 0,05 para ser razoavelmente atribuda
populao N(0,05 ; (0,02)2).
76

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Aceitar Ho: =0,05, implica em acreditar que a discrepncia de 2% seja mais


provavelmente devida variao casual na amostra. Rejeit-la, significa julg-la
demasiadamente grande para poder ser atribuda somente ao acaso.
N(0,05;(0,02)2)

sob Ho tem-se

= 0,05

p 1 = 0,07

Grande ? ou No?

Figura 9.1 Distribuio amostral das propores p para grandes amostras.

A estatstica amostral (estatstica de teste) natural aqui a medida dessa


discrepncia em nmero de desvios padro. Por exemplo, supondo que seja verdadeira a
afirmao do coordenador, ocorreria a situao ilustrada na figura 9.2.
A estatstica amostral :

z=

0,07 0,05
p1
=
= 1,0(valor da estatstica amostral )
0,02
(1 )
n
0,5

N(0,05;(0,02)2)

N(0,1)
0,1587
0,3413

0,05 0,07

1,0

essa rea chamada p-valor

Figura 9.2 Avaliao da discrepncia ( p1 ) .

Observa-se que a discrepncia de 2% est a um desvio padro acima do valor


esperado (sob a hiptese de 0,05 ser a verdadeira proporo populacional de
insatisfeitos com o servio de sade). Alm disso, a probabilidade de uma discrepncia
ser superior a 2%, em uma amostra de 120 usurios, extrada de uma populao com
proporo de 5% de insatisfeitos de aproximadamente 16% (o que no pode ser
considerado pequeno). Isso sugere que a diferena possa ser atribuda ao acaso. Mas,
esse critrio subjetivo, exigindo-se um mtodo mais sistemtico de deciso.
A questo : qual a linha divisria na distribuio amostral entre o que se pode
considerar objetivamente variao aleatria e variao significativa? O ponto
determinado por essa linha chamado valor crtico.
77

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Os valores crticos so estabelecidos conforme o risco (probabilidade) que se


assume em rejeitar a hiptese Ho dado que ela seja verdadeira (esse o chamado erro
tipo I). A probabilidade de rejeitar a hiptese nula, quando ela verdadeira, indicada
por:
P[Re jeitar H o | H o verdadeira] = ,

(9.3)

chamada de nvel de significncia do teste. Na figura 9.3, a seguir, so ilustrados


graficamente esses conceitos.

p
Rejeio de aceitao de Ho

valor crtico

regio de rejeio de Ho

Figura 9.3 Valor crtico e regies de rejeio e aceitao da hiptese nula.

3.Etapa. escolhido um nvel de significncia aceitvel. Se for escolhido o nvel


de significncia = 0,05 (5%), ento no se rejeita Ho, pois, procurando no corpo da
tabela normal padro o valor mais prximo de 0,4500, obtm-se o valor crtico 1,64
que maior do que o valor da estatstica amostral 1,0 (veja figura 9.2) . Ou seja, o valor
da estatstica amostral situa-se dentro da regio de no rejeio da hiptese nula.

0,05

0,05 0,07
0,08

0
no rejeio

1,0 1,64

rejeio

O ponto crtico aqui o percentil que deixa uma rea sua direita de 0,05
O correspondente valor na distribuio amostral dado por:

1,64 =

p 0.05 0.5
p 0.05 = 0,05 + (1,64)(0,02) = 0,0828 0,08
0,02

Figura 9.2 O nvel de significncia e a determinao do ponto crtico.

Ento no se rejeita, ao nvel de 5% de significncia a afirmao do coordenador do


servio de sade.

78

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Os nveis de significncia geralmente adotados so 1% ou 5%. Compara-se, ento,


com um desses nveis (por exemplo o de 5%), a rea direita (chamada p-valor) ,
determinada a partir do valor da estatstica amostral. Se essa rea for menor do que o
nvel de significncia adotado (de 5%, por exemplo), significa que o valor crtico estar
dentro da regio de rejeio e, portanto, rejeita-se Ho. Caso contrrio, no se rejeita
(como ocorreu no exemplo apresentado).
Raciocnio semelhante pode ser empregado para o caso em que o parmetro
populacional seja a mdia, bem como outros3.

9.3 Testes unilaterais


A hiptese alternativa estabelecida no exemplo apresentado na seco anterior
apresenta o sinal > apontando para a cauda utilizada na distribuio amostral, isto :
Ho: > o. .
Mas, pode-se ter situaes em que o sinal seja o contrrio e, consequentemente, a
cauda utilizada ser esquerda, mas o raciocnio de deciso o mesmo.
Exemplo 9.2 Se, houvesse um escore de avaliao do servio de sade do exemplo
anterior, calculado com base nas respostas a um questionrio, o coordenador poderia ter
afirmado que no mnimo 90% dos usurios atribuem uma pontuao acima de um certo
valor de referncia. Ento o incrdulo sortearia uma amostra de usurios, aplicaria o
questionrio, obteria as pontuaes, contaria a quantidade de elementos amostrais que
superariam o valor de referncia e testaria as hipteses:
Ho: =0,90

H1: ,<0,90.

Nesse caso, a regio de rejeio da hiptese nula ficar na cauda esquerda, a partir
de um valor crtico, determinado segundo um nvel de significncia estabelecido.
Quando a regio de rejeio est localizada somente em um lado da distribuio
amostral, o teste dito unilateral.
De um modo geral, para um parmetro (letra grega teta), como, por exemplo, uma
proporo populacional, uma mdia populacional, etc, para o qual se alega um valor o,
tem-se os testes unilaterais representados pelas duas curvas na figura a seguir:
Ho: = o

Ho: = o

H1: > o

H1: < o

o
c
Aceitar Ho

Rejeitar Ho

o
Rejeitar Ho

Aceitar Ho

Figura 9.4 Representao dos testes unilaterais.


79

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

9.4 Testes bilaterais


Pode-se ter situaes em que a regio de rejeio divide-se nas duas caudas da
distribuio amostral. So os chamados testes bilaterais, conforme ilustrado na figura
9.5.

Ho: = o
H1: o

o
Rejeitar Ho Aceitar Ho Rejeitar Ho

+
c

Figura 9.5 Representao dos testes bilaterais

9.5 Poder de um teste


Aceitar Ho, quando ela falsa o que se denomina de erro tipo II. Dada a sua
probabilidade:
P[ Aceitar H o | H o falsa ] = ,

(9.4)

define-se como o poder do teste, a probabilidade de rejeitar Ho , quando ela falsa, que
em smbolos representada por:
1 = P[Re jeitar H o | H o falsa ] .

(9.5)

O poder do teste deve ser considerado no clculo de tamanho de amostras no


planejamento de experimentos, o que no ser abordado aqui.

9.6 Alguns testes de hipteses especficos


9.6.1 Comparao das mdias de dois grupos dependentes

comum a situao em que se deseja verificar se est ocorrendo uma diferena


significativa nas mdias de duas populaes, com relao a uma determinada varivel X
contnua. Por exemplo, se existe diferena entre o tempo mdio necessrio para a
realizao de um determinado procedimento pelo mesmo profissional de sade,
mediante dois mtodos diferentes.

80

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Ento, pode-se realizar um experimento aleatrio, tomando-se uma amostra


aleatria de profissionais nas mesmas condies iniciais. Depois de treinados, eles
podem realizar o procedimento pelos dois mtodos, cada um deles em uma ordem
sorteada pelo pesquisador, tendo os seus tempos de execuo cronometrados e
organizados, conforme a tabela a seguir.

Tabela 9.1 Grupos experimentais de comparao de dois mtodos para a realizao


de um procedimento: amostras dependentes
Indivduos
Grupo 1-Tempos sob o Proced. 1:
Grupo 2-Tempos sob o Proced. 2:

I1
x1,1
x1,2

I2
x2,1
x2,2

I3
x3,1
x3,2

...
...
...

In-1 In
xn-1,1 xn,1
xn-1,2 xn,2

Esses dados podem ser emparelhados, por exemplo, em:


d i = xi ,1 xi , 2

, i = 1,2,3,..., n 1, n ,

(9.6)

e calculadas a mdia e desvio padro amostrais:


d =

1 n
di
n i =1

1 n
(d i d ) 2 ,

n 1 i =1

sd =

(9.7)

para testar as hipteses:


H o : d = 0

H1 : d > 0 ,

contra

onde d = 1 2 , sendo 1 e 2 , respectivamente, as mdias populacionais dos


tempos de execuo do procedimento pelos mtodos 1 e 2.
Como o desvio padro estimado com base na amostra, se os dados
d i , i = 1,2,3,..., n 1, n , no satisfizerem a distribuio normal, ou se a amostra no for
suficientemente grande ( n > 30 , por exemplo), deve-se, ento, calcular a estatstica de
teste td , dada pela expresso (9.8), que satisfaz a distribuio t de Student com n-1
graus de liberdade):
td =

d d d 0
d
=
=
sd
sd
sd
n

(9.8)

Nota-se que essa estatstica mede a distncia (em desvios padro) entre a mdia
amostral d , das diferenas, e a mdia populacional 0, das diferenas, sob a hiptese
Ho .
Se, para um nvel de significncia fixado (5% ou 1%), o p-valor menor do que
(p< ), rejeita-se a hiptese H o , caso contrrio, no se rejeita H o .
81

2010

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

0,05
0,01

tn-1
td
p ( maior ou menor que ?)

Figura 9.6 Distribuio amostral da estatstica td e a regra de deciso para o teste


unilateral direita.
Raciocnios anlogos podem ser usados para os testes de:
H o : d = 0
H o : d = 0

ii)
iii)

H1 : d < 0 e
H1 : d 0 .

contra
contra

Por exemplo, para o teste bilateral iii), o nvel de significncia subdividido

igualmente em
numa cauda e
na outra da distribuio amostral.
2

A estatstica de teste td pode cair mais para um lado ou mais para o outro da
distribuio amostral. Nesse caso, o p-valor passa a ser o dobro da rea ( direita ou
esquerda), determinada sob a distribuio amostral, pela estatstica de teste (conforme a
sua posio na cauda direita ou esquerda). A regra de deciso anloga ao j exposto
anteriormente.
0.025

0.025

0,005

td

td

0,005
tn-1

p/2 ( maior ou menor que ?)

p/2 ( maior ou menor que ?)

Figura 9.7 Distribuio amostral da estatstica td e regra de deciso para o teste bilateral.

Em sntese, tem-se as seguintes regras de deciso: rejeita-se H 0 , ao nvel de


significncia , para:
i) se t d > t ,
ii) se t d < t e
(9.9)
iii) se | t d |> t ,
2

onde t (ou t ) o valor crtico, que deixa uma rea de (ou ) na cauda direita da
2
2

curva da distribuio t com n-1 graus de liberdade e encontrado mediante consulta a


tabelas apropriadas.
82

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

Os softwares estatsticos calculam e apresentam o p-valor, o qual pode ser tambm


usado para se decidir sobre a rejeio ou no da hiptese nula.
Por exemplo, rejeita-se a hiptese nula: para o teste i) e ii) se p < e para o teste
p
iii) se < .
2 2

9.7 Comparao das mdias de dois grupos independentes


Se no existir vnculos entre duas populaes 1 e 2, de onde so sorteadas duas
amostras, ento essas amostras so ditas independentes. Antes de sorte-las, as mdias
X 1 e X 2 (a letra maiscula aqui est indicando os estimadores das mdias nas
populaes 1 e 2 respectivamente) so variveis independentes e, portanto, por uma
propriedade da varincia:

Var[ X 1 X 2 ] = Var[ X 1 ] + Var[ X 2 ] .

(9.10)

Se as variabilidades nas populaes de onde so retiradas as amostras so


respectivamente 12 e 22 e supondo amostras suficientemente grandes de tamanhos n1
e n1 para a validade do teorema central do limite, tem-se, por (9.10):

Var[ X 1 X 2 ] =

12
n1

22
n2

(9.11)

Nessas condies, pode-se testar as hipteses:


i ) H 0 : 1 2 = 0
ii ) H 0 : 1 2 = 0
iii ) H 0 : 1 2 = 0

contra
contra
contra

H 1 : 1 2 > 0
H 1 : 1 2 < 0 .
H 1 : 1 2 0

A) Quando 12 e 22 so desconhecidas (o que quase sempre ocorre na prtica),


mas consideradas distintas, com estimativas s12 e s22 , calculadas com base nos dados,
juntamente com x1 e x2 , pode-se, para amostras pequenas, usar a estatstica de teste:
sob Ho
( x x 2 ) ( 1 2 ) ( x1 x 2 )
td = 1
=
s12 s 22
s12 s 22
+
+
n1 n2
n1 n 2

(9.12)

O valor crtico, a ser comparado ao valor observado t d dessa estatstica de teste


corrigido com relao ao nmero de graus de liberdade da distribuio tv (mtodo de
Aspin-Welch) por:

83

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

s12 s 22 2
+ )
n1 n 2
v=
s 22 2
s12 2
( )
( )
n2
n1
+
(n1 + 1) (n2 + 1)

2010

(9.13)

mantendo-se as mesmas regras de deciso (9.9), mas usando a distribuio t com v


graus de liberdade.
Para amostras suficientemente grandes, a estatstica de teste adotada :

zd =

( x1 x 2 )

,
(9.14)
s12 s 22
+
n1 n2
cujo valor observado deve ser comparado com os valores crticos consultados na tabela
da distribuio normal padro. As regras de deciso so, ento:
i) se z d > z ,
ii) se z d < z .
iii) se | z d |> z ,

(9.15)

onde z (ou z ) o valor crtico, que deixa uma rea de (ou ) na cauda direita da

curva da distribuio normal padro e encontrado mediante consulta tabela normal


padronizada.

B) Nesta mesma situao, considerando as varincias desconhecidas, mas iguais,


pode-se usar a estatstica de teste:
( x1 x 2 )

t d* =
sp

onde:

s 2p =

1
1
( + )
n1 n2

(n1 1) s12 + (n2 1) s 22


,
n1 + n2 2

(9.16)

(9.17)

e as mesmas regras de deciso (9.9), mas usando a distribuio t n 1 +n2 2 .


D) Quando 12 e 22 so conhecidas, usa-se a estatstica de teste:
( x1 x 2 )
zd =

12
n1

84

22
n2

(9.18)

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

para testar as hipteses i), ii) e iii), com as regras de deciso (9.15).
Exemplo 9.3 (fictcio) Para a comprovar a hiptese, ao nvel de 5% de significncia,
de que de um novo tipo de analgsico B mais eficiente que o analgsico tradicional A,
para uma determinada cefalia, poder-se-ia sortear uma amostra de, por exemplo, 90
sujeitos portadores desta cefalia para usarem o analgsico A e outra amostra
independente de 100 sujeitos para usarem o analgsico B. Aps a ingesto do
analgsico por cada sujeito experimental seria, ento, registrado o tempo, em minutos,
at o desaparecimento completo da dor. Este procedimento poderia ser realizado, por
exemplo, 5 vezes para cada sujeito, e tomada a mdia desses tempos para representar a
resposta de cada indivduo ao analgsico usado. Em seguida poderiam ser determinadas,
para cada amostra: a mdia, varincia e desvio padro desses dados, conforme os
resultados da tabela a seguir.
Tabela 9.2 Descrio dos tempos de execuo nas amostras A e B
analgsico amostra
A
90
B
100

mdia
19,3
18,9

varincia
1,3
1,9

desv padro
1,14
1,38

Como as amostras so grandes e as varincias populacionais desconhecidas, ento,


para testar as hipteses:
i) H 0 : A B = 0

H1 : A B > 0 ,

contra

tem-se a estatstica de teste e o correspondente valor observado:

zd =

( x A xB )
s A2 s B2
+
n A nB

19,3 18,9
1,3 1,9
+
90 100

= 2,1872 2,19

Consultando a tabela da distribuio normal padro, tem-se que:


z = z 0, 05 = 1,64 < 2,19 = z d .
Alternativamente, tem-se o p-valor:
p = 0,5000 - 0,48574 = 0,0143 < 0,0500 = .

Portanto, rejeita-se a hiptese de que as mdias dos tempos de efeito dos dois
analgsicos sejam iguais. O analgsico B apresenta mdia menor de tempos at o
desaparecimento da dor.
Se fosse realizado o teste bilateral:

iii ) H 0 : A B = 0

H1 : A B 0 ,

contra

Ento:

z = z 0, 025 = 1,96 < 2,19 = z d

85

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

p
= 0,5000 - 0,48574 = 0,0143 < 0,0250 = ,
2
2

e a concluso seria a mesma.


Refaa o exemplo, considerando as demais situaes descritas em A) e B).

9.8 Comparao de duas propores em amostras independentes


Agora, tem-se variveis do tipo Bernoulli (isto , aquelas que s apresentam dois
possveis resultados: 1, quando ocorre um evento de interesse ou sucesso, com
probabilidade p e 0, quando ocorre um evento diferente daquele de interesse ou
fracasso, com probabilidade (1-p). So ento consideradas duas variveis X 1 e X 2 ,
nessas condies, com propores populacionais (probabilidades) de sucesso p1 e p 2

estimadas via amostras de tamanhos suficientemente grandes n1 e n2 , por p1 e p 2 e


com varincias estimadas, respectivamente, por:

p1 (1 p1 )
p (1 p 2 )
e 2
.
n1
n2
Quando n1 p1 > 5 e n2 p 2 > 5 , pode-se usar um teste aproximado de comparao das
propores, considerando cada uma das hipteses:
i ' ) H 0 : p1 p 2 = 0
ii ' ) H 0 : p1 p 2 = 0
iii ' ) H 0 : p1 p 2 = 0

contra
contra
contra

H 1 : p1 p 2 > 0
H 1 : p1 p 2 < 0 .
H 1 : p1 p 2 0

A) De maneira anloga ao que foi feito para as mdias, quando as varincias


populacionais so consideradas distintas, a estatstica de teste dada por:
zd =

( p 1 p 2 )
p 1 (1 p 1 ) p 2 (1 p 2 )
+
n1
n2

(9.19)

e as regras de deciso so as mesmas que (9.15).


B) Tambm aqui pode-se combinar as varincias, como no caso B) das mdias.
Para isso, estima-se a proporo combinada de sucessos nas duas amostras por:

p =

m1 + m2
,
n1 + n2

(9.20)

onde m1 e m2 so as quantidades de sucessos nas amostras 1 e 2, respectivamente.


Nestas condies, a estatstica de teste dada por:

86

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

( p 1 p 2 )

z d* =

1
1
p (1 p )( + )
n1 n2

2010

(9.21)

com as regras de deciso (9.15).


C) Para amostras pequenas, usa-se o chamado teste exato de Fisher, que no ser
tratado aqui.

Exemplo 9.4 Na verificao da eficcia de dois tratamentos A e B para um


determinado tipo de cncer poderia ter sido realizado um experimento em que: a
proporo de insucessos em uma amostra aleatria de 200 sujeitos submetidos ao
tratamento A foi de p A = 0,71 e em uma outra amostra aleatria de 200 sujeitos
submetidos ao tratamento B foi de p A = 0,67 .

Para testar as hipteses, ao nvel de 1% de significncia:


i) H 0 : p A p B = 0

contra

H1 : p A pB > 0

tem-se a estatstica de teste e o correspondente valor observado:

zd =

( p A p B )
p A (1 p A ) p B (1 p B )
+
nA
nB

0,71 0,67
0,71(1 0,71) 0,67(1 0,67)
+
200
200

= 0,8657 0,87.

Consultando a tabela da distribuio normal padro, tem-se que:


z = z 0, 01 = 2,33 > 0,87 = z d .

Alternativamente, o p-valor :
p = 0,5000 - 0,30785 = 0,1922 > 0,01 = .

Portanto, no se rejeitaria a hiptese de que as propores de insucessos nos dois


tratamentos so iguais.
Pelo p-valor, nota-se que a hiptese nula no seria rejeitada at o nvel de 19 % de
significncia.

Refaa o exemplo, considerando as demais situaes descritas em A) e B).

87

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

9.9 Intervalos de confiana para diferenas de parmetros


Na situao A) de desconhecimento das varincias 12 e 22 , mas com amostras
suficientemente grandes, o intervalo 100(1 )% de confiana para a diferena de
mdias 1 2 dado por:

IC[ 1 2 ; 100(1 )%] = ( x1 x 2 ) z .


onde

z o quantil que determina uma rea de


2

s1 s 2
+
,
n1 n2

(9.22)

na cauda direita da distribuio

normal padro.
Tambm podem ser estabelecidos intervalos de confiana para diferenas de
mdias, anlogos a esse, para as situaes de amostras pequenas e de igualdade de
varincias apresentadas em A) e B), bem como para diferenas de propores.
A interpretao desses intervalos de confiana a mesma j apresentada no captulo
8. Ele pode ser usado, inclusive, para testar a hiptese iii), ao nvel de 100( )% de
significncia.
Construa e interprete os intervalos de confiana correspondentes aos exemplos 9.3. e
9.4.
9. 10 Anlise de varincia

Nesta unidade foram abordados os mtodos estatsticos de comparao de dois


grupos.
Para a comparao de mais de dois grupos existe um mtodo estatstico chamado
Anlise de Varincia. Trata-se de um teste da hiptese nula de igualdade dos grupos,
contra a hiptese alternativa de pelo menos dois grupos diferirem em relao s suas
mdias.
A estatstica de teste construda como uma razo entre a variabilidade entre os
grupos (numerador) e a variabilidade dentro dos grupos (denominador). A distribuio
amostral dessa razo chamada distribuio F de Snedecor com v1 graus de liberdade
no numerador e v 2 graus de liberdade no denominador. Para haver diferena
significativa entre os grupos, a variabilidade entre eles tem que ser significativamente
maior que a variabilidade dentro deles. A regra de deciso para rejeitar ou no a
hiptese de nulidade anloga s dos testes de comparao de duas amostras. Procurase em tabelas apropriadas da distribuio F (encontradas na bibliografia de Estatstica)
os valores crticos que delimitam as regies de rejeio ou no da hiptese nula.
Todos softwares estatsticos especializados e at alguns softwares no
especializados realizam essa anlise de varincia, fornecendo, inclusive, o p-valor, o
que facilita a tomada de decises.
88

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

9.11 Outras aplicaes dos testes de hipteses


Existem testes de hipteses especficos para, outras finalidades. Por exemplo o teste
qui-quadrado para testar a independncia entre duas variveis categricas. Neste, testase a hiptese nula de independncia entre as variveis contra a hiptese alternativa de
no independncia. A estatstica de teste dada expresso (6.15) (estatstica L21,C 1 com
com (L-1)x(C-1) graus de liberdade) que tem como distribuio amostral a chamada
distribuio qui-quadrado.
A regra de deciso para rejeitar ou no a hiptese de nulidade anloga s dos testes
anteriores. Procura-se, para o nvel de significncia adotado e correspondentes graus de
liberdade, na tabela da distribuio qui-quadrado (encontrada na bibliografia) os valores
crticos que delimitam as regies de rejeio ou no da hiptese nula.

89

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

REFERNCIAS BIBLIOGRFICAS

01 BARBETTA, P.A. Estatstica Aplicada s Cincias Sociais. Florianpolis/SC:


Editora da UFSC, 1994.
02 BENZE, B.G. et al. Metodologia Cientfica e Estatstica. In: NUNES SOBRINHO,
F. de P. NAUJORKS, M,I. Pesquisa em Educao Especial: o desafio da
qualificao. Bauru/SP: EDUSC, 2001. P.31-45.
03 BUSSAB, O.; MORETTIN, P.A. Estatstica Bsica. So Paulo/SP: Atual Editora
Ltda., 1987.
04 FORATTINI, O.P.E. Ecologia, Epidemiologia e Sociedade. So Paulo/SP:EDUSP,
1992.
05 HEATH, O.V.S. A Estatstica na Pesquisa Cientfica. So Paulo/SP:EDUSP, 1981.
06 KALTON, G. Introduction to Survey Sampling. Series: Quantitative Applications in
the Social Sciences. New York/USA:Sage Publications Inc, 1983.
07 KERLINGER, E.N. Metodologia de Pesquisa em Cincias Sociais. So
Paulo/SP:EDUSP, 1980
08 KISH, L. Survey Samplang . New York/USA: John Wiley & Sons, Inc 1965.
09 LUZ, O. de J.D. da Perfil dos Usurios Adultos do NAPES no Perodo 1994-1995.
So Carlos/SP: Relatrio apresentado como trabalho na disciplina
Bioestatstica, UFSCar, 1996.
10 MOOD, A.M.; GRAYBILL, F.A.; BOES, D.C. Introduction to the Theory of
Statistics. New York/USA: McGraw-Hill Kogarusha, Ltd, 1974.
11 OKADA, V.; OLIVEIRA, C. Anlise Comparativa do Equilbrio em mulheres
Idosas, Obesas e No Obesas. So Carlos/SP:Trabalho de Iniciao Cientfica
desenvolvida no Depto de Educao Fsica e Motricidade Humana- UFSCar,
2007.
12 PORTO, P. ; CATAI, M.A. Anlise dos Fatores de Risco para Doena Cardio
Vascular em Fumantes Atendidos na USE-UFSCar. So Carlos/SP: Relatrio
de Anlise Estatstica, 2008.
13 SELLTIZ, C. Mtodos de pesquisa nas relaes sociais. So Paulo/SP: Herder,
1967.
14 SILVA N.N. da Amostragem Probabilstica: um curso introdutrio. So Paulo/SP:
EDUSP, 1998.

90

BIOESTATSTICA: UMA INICIAO COM EXEMPLOS EM SADE - BENEDITO GALVO BENZE

2010

15 SOARES, J.F.; BARTMANN, F.C. Introduo aos Mtodos Estatsticos em


Oncologia . Belo Horizonte/MG: Sociedade Brasileira de Oncologia Clnica,
1985.
16 SOARES, J.E.e SIQUEIRA, A.L. Introduo Estatstica Mdica. Belo
Horizonte/MG: UFMG,1999.
17 STEVENSON W.J. Estatstica Aplicada Administrao. So Paulo/SP: Harper &
Row do Brasil, 1981.
18 WERKEMA, M.C.C. Avaliao da qualidade de medidas. Belo Horizonte/MG:
Fundao Christiano Ottoni. Sries Ferramentas da Qualidade. Vol. 13, 1996.

91

Você também pode gostar