Escolar Documentos
Profissional Documentos
Cultura Documentos
SO CARLOS
ABRIL
2010
2010
SUMRIO
Prefcio
04
05
06
08
08
10
12
Captulo 2
2.1
2.2
2.3
2.4
2.5
2.6
2,7
14
14
15
16
17
20
21
Captulo 3
3.1
3.2
3.3
22
23
25
25
26
29
30
31
32
34
34
38
38
40
40
41
43
Captulo 4
4.1
4.2
4.3
Captulo 5
5.1
5.2
5.3
5.4
45
45
46
47
2010
Captulo 6
6.1
6.2
6.3
6.4
6.5
6.6
51
51
54
55
56
58
Captulo 7
7.1
7.2
7.3
61
62
63
Referncias Bibliograficas
66
66
72
75
75
79
80
80
80
80
83
86
88
88
89
90
2010
PREFCIO
Este texto uma reviso da primeira edio que redigi em 2008, como contedo
bsico de Bioestatstica, inserido no mdulo de Epidemiologia, do curso de
especializao de Sade da Famlia da Universidade Central Paulista (UNICEP). A
primeira verso foi elaborada com o objetivo de servir como base de reviso ou de
iniciao aos mtodos introdutrios de Bioestatstica, principalmente para profissionais
da rea de Sade. Portanto, procurei, durante o seu desenvolvimento, apresentar os
conceitos e mtodos minimamente necessrios, seguindo a mesma seqncia do
desenvolvimento de pesquisas nessa rea. Isto , o planejamento da pesquisa, a coleta de
dados, a anlise grfica e numrica desses dados e a inferncia estatstica. Na redao,
procurei usar a linguagem menos tcnica possvel, com a introduo gradativa da
terminologia necessria e com a maioria dos exemplos reais na rea de Sade, nos quais
tive alguma participao. Dessa forma, o material iniciado com uma abordagem geral
sobre o papel da Estatstica no planejamento de pesquisas em Sade e os principais
mtodos cientficos de coleta de informaes, nessa e em outras reas. Em seguida so
apresentadas as ferramentas iniciais de visualizao e anlise de dados e, finalmente,
so introduzidos o raciocnio empregado na estimao de parmetros e testes de
hipteses. Na apresentao dos tpicos julgados menos familiares para profissionais da
rea de sade, como os intervalos de confiana e teste de hipteses, tive a preocupao
de uma descrio mais detalhada do raciocnio empregado e interpretaes, com o uso
exaustivo de ilustraes grficas. Com este material, no tenho a pretenso de habilitar
o profissional de Sade na anlise estatstica de dados. Mas, sim, fornecer-lhe algumas
ferramentas simples e teis que o possam auxiliar no seu trabalho, despertando-o para
alguns cuidados no levantamento e tratamento de informaes e, talvez, motiv-lo para
a procura de mais conhecimento sobre Bioestatstica.
O autor.
2010
CAPTULO I
A BIOESTATSTICA COMO METODOLOGIA CIENTFICA
1.1 Introduo
A Bioestatstica pode ser definida como a disciplina em que so abordados os
mtodos estatsticos relacionados com: o planejamento, a coleta, a anlise e a
interpretao de dados biolgicos e da sade.
at possvel realizar e interpretar algumas pesquisas, particularmente na rea de
Sade Pblica, sem apelar para recursos estatsticos mais sofisticados, a no ser a
construo de determinadas tabelas e grficos simplificados e de algumas medidas
resumo de fcil determinao e compreenso como, por exemplo, a incidncia ou a
prevalncia de doenas. Entretanto, uma maior familiarizao com o raciocnio e os
mtodos estatsticos de planejamento, coleta e anlise de dados pode proporcionar ao
profissional da rea de sade o diferencial para o melhor exerccio da sua atividade.
Ao contrrio do que muitos imaginam, o trabalho estatstico no deve comear pela
simples anlise dos dados, mas sim muito antes, durante a fase de planejamento da
pesquisa. Conhecimentos da metodologia estatstica j devem ser empregados em
decises como: o qu, por qu, quem, como, quando, onde e quanto observar ou
medir. Os resultados de qualquer anlise estatstica em sade, bem como em outras
reas, dependem muito da qualidade e quantidade das informaes obtidas e da validade
e confiabilidade dos mtodos e meios utilizados na coleta e tratamento dos dados
informativos.
muito comum um pesquisador descobrir que muito esforo, tempo e recursos
despendidos em sua pesquisa acabaram sendo inteis, ao procurar a ajuda de um
estatstico s na fase final da anlise dos seus dados. Falhas no planejamento podem ter
ignorado a necessidade de coleta de dados importantes, quando, por outro lado, outras
informaes sem nenhum vnculo com o problema em estudo, podem ter sido
inutilmente obtidas.
A falta de critrios e de padronizao nos mtodos de alocao e de
observao/medio pode ter impedido a comparao dos resultados em estratos dentro
do prprio estudo e/ou com outros estudos semelhantes. A quantidade insuficiente e as
inconsistncias dos dados podem ter inviabilizado a aplicao de tcnicas adequadas de
anlise estatstica. Traando um paralelo com a rea de sade, essa situao pode ser
comparvel a de uma pessoa sem conhecimento de medicina que, frente a um agravo
em sua sade, resolve se automedicar, s tomando conscincia da gravidade do seu ato
ao procurar ajuda de um profissional mdico.
O planejamento a especificao detalhada dos procedimentos, a serem cumpridos
pelo pesquisador, dentro dos objetivos propostos (isto , dentro do que se pretende
atingir) na pesquisa.
claro que a metodologia estatstica no substitui o conhecimento especfico que
cada profissional de sade deve ter em seu prprio campo de atuao, mas um
5
2010
planejamento e anlise estatstica bem feitos podem evitar crticas sobre a adequao do
estudo, facilitar a comunicao dos resultados, permitir a ampliao do conhecimento
cientfico sobre o assunto em questo e at provocar mudanas na prtica de
atendimento nessa rea.
2010
melhor estruturados, permitindo a aplicao de anlises estatsticas apropriadas. Podese, ento, decidir com uma margem de erro conhecida, a validade ou no da hiptese
previamente formulada05.
Os ensaios clnicos e ensaios biolgicos, muito utilizados em pesquisas na rea
de sade, so estudos experimentais. Por exemplo, a bioequivalncia entre os chamados
remdios genricos e os seus congneres no genricos estabelecida via planejamento,
execuo e anlise de ensaios clnicos.
Nos ensaios clnicos so constitudos dois ou mais grupos de indivduos semelhantes
em todos os aspectos considerados relevantes para o problema abordado (isto , as
condies so controladas para tornar os grupos comparveis), menos nos tipos de
tratamentos recebidos por cada grupo. Ento, as possveis diferenas nas respostas
apresentadas pelos indivduos de grupos distintos so atribudas s diferenas de
tratamentos. Pode-se constituir, inclusive um grupo controle com um pseudo
tratamento, para considerar o chamado efeito placebo, ou mesmo constitu-lo sem
qualquer simulao de tratamento.
A atribuio dos indivduos aos grupos deve ser feita de forma aleatria
(casualizao), o que tambm contribui para a comparabilidade dos grupos.
Recomenda-se que os participantes no consigam distinguir o seu tratamento dos outros
ou que o prprio pesquisador no saiba a que tratamento esteja alocado cada sujeito
(experimento cego) ou, ainda, que ambos, pesquisador e sujeito, no identifiquem o
tratamento (duplamente cego).
Na figura 1.1, a seguir apresentado um esquema de comparao de trs grupos, com os
tratamentos T1, T2 e T3 contendo a mesma quantidade q de indivduos em cada grupo
(grupos balanceados), onde Ii,j representa o j-simo indivduo dentro do i-simo
tratamento.
T1
T2
T3
I1,1
I1,2
I1,3
I2,1
I2,2
I2,3
I3,1
I3,2
I3,3
Iq,1
Iq,2
Iq,3
2010
2010
Para os estudos observacionais na rea de sade, eles podem ser, por exemplo,
pessoas, domiclios, unidades de atendimento, hospitais, medicamentos, equipamentos
ou qualquer outra coisa relacionada a esse tipo de atividade.
A definio da populao deve ser cuidadosamente especificada, no espao (rea ou
territrio) e no tempo (poca), de acordo com os objetivos da pesquisa. Uma maneira de
fazer isso comear definindo a populao ideal (populao alvo), at chegar-se
populao acessvel, levando-se em conta as restries de ordem prtica08, que
geralmente impedem a abordagem direta da populao inicial.
Definida a populao, deve-se tratar do delineamento da amostra. Isto , quanto
(qual tamanho da amostra) e como (qual mtodo usar para) selecionar, dentre os
elementos da populao, aqueles a serem realmente estudados (observados ou medidos).
Se essa escolha for feita por um mecanismo de sorteio (isto , aleatrio), cada elemento
da populao ter uma chance conhecida e diferente de zero de ser includo na amostra
aleatria. Com isso, alm de se evitar o vis de seleo (escolha inconsciente pelo
pesquisador de alguns indivduos), pode-se lanar mo da teoria estatstica para escolher
os estimadores, que so os meios empregados para transformar os dados amostrais nos
valores (estimativas) atribudos(as) aos parmetros populacionais (que so medidasresumo que caracterizam a populao) de interesse.
Na rea de Sade, o termo parmetro comumente empregado para se referir ao
que aqui chamado de varivel ou caracterstica de interesse 02. Em Bioestatstica, a
palavra parmetro tem outro significado.
Por exemplo, desejando-se estimar a durao mdia (que considerada um
parmetro, em Bioestatstica) de uma determinada afeco aguda (uma doena
infecciosa) em uma certa populao, pode-se usar o estimador dado pela mdia
aritmtica das duraes da doena (determinadas conforme os critrios de incio e fim
da afeco em cada indivduo) em uma amostra aleatria de n indivduos retirados dessa
populao. Essa mdia artitmtica o estimador mdia amostral simples. Ento,
calculado esse estimador em uma especfica amostra aleatria, obtm-se um valor que
uma estimativa da durao mdia populacional da afeco.
Dependendo do procedimento de seleo das unidades amostrais e dos parmetros a
serem estimados, pode-se determinar tecnicamente o tamanho da amostra para calcular
as correspondentes estimativas, dentro de um erro mximo admitido, com uma certa
confiabilidade fixada, levando-se em conta o tamanho da populao e a variabilidade
dos dados. Para entender os detalhes sobre isso, torna-se necessrio a assimilao de
algum conhecimento terico de probabilidade e estatstica.
Algumas vezes, a amostra composta por um mtodo subjetivo (isto , sem sorteio).
o caso, por exemplo, do uso de voluntrios, em estudos experimentais, onde,
conforme j foi comentado, os sujeitos so, no mximo sorteados para os tratamentos.
Outras vezes, como pode acontecer nos estudos observacionais, os elementos so
escolhidos propositalmente, na tentativa de, no mximo, refletir na amostra a
representatividade das caractersticas que ocorrem na populao. Nestes casos, fica
prejudicada a utilizao de toda a estrutura estatstica terica para assegurar a validade
da inferncia para toda a populao, dos resultados observados na amostra. Entretanto,
9
2010
10
2010
- Ordinais, (por exemplo, no estadiamento de cncer de mama, em: I, II, III e IV,
no se pode afirmar que o estgio IV duas vezes pior do que o II e nem que a
diferena entre o I e II equivalente quela entre III e IV) 02. Outro exemplo a
condio de um doente com relao a seu estado classificado em: estvel, grave, crtico
e irreversvel.
As escalas 3) e 4) so quantitativas (quantificam, medem), dando origem s
variveis quantitativas que, por sua vez, podem ser classificadas em discretas ou
contnuas.
Uma varivel quantitativa discreta quando os valores diferem entre si por
quantidades fixas. Nenhum valor intermedirio possvel e geralmente expressam
contagens. Por exemplo: o nmero de pessoas na famlia, o nmero de batimentos
cardacos por minuto e o nmero de bactrias em um volume de urina 02.
Uma varivel contnua quando os seus possveis valores no so contveis. Por
mais prximos que sejam dois valores, sempre possvel haver um valor intermedirio.
Usualmente essas variveis so medidas por dispositivos tais como: paqumetros,
cronmetros, aparelhos de presso, balanas, etc. Na prtica, costuma-se anotar os
valores com uma preciso menor do que a registrada pelo aparelho, o que corresponde a
uma certa discretizao dos dados. Por exemplo, se um cronmetro registra o tempo
de reao de um indivduo a um determinado estmulo como 6 minutos e 57 segundos,
isso poderia ter sido aproximado para 7 minutos.
Comumente, as escalas quantitativas so mais informativas que as qualitativas, mas
a opo do pesquisador pelo tipo de mensurao a ser adotada em cada varivel
depender dos objetivos da pesquisa e da viabilidade na aplicao do mtodo de
observao ou medio05.
Uma varivel medida ou observada em um indivduo deve gerar um e apenas um
resultado05. Para as variveis fsicas (como as relacionadas com: dados
antropomtricos, presso sangnea e informaes hematolgicas, por exemplo)
dificilmente ocorrem dificuldades com relao a esse aspecto. Entretanto, para algumas
variveis sociais podem ocorrer problemas, pela inexistncia de padres j consolidados
de avaliao. o caso da varivel grau de satisfao com os servios prestados por
uma unidade de atendimento sade, onde os procedimentos de avaliao devem ser
padronizados antes do inicio da coleta de dados, adotando-se, por exemplo, uma escala
quantitativa de zero a dez ou uma escala qualitativa do tipo: insatisfeito, indiferente,
satisfeito. Outros exemplos so02: intensidade da dor, dispnia (falta de ar) e
estado geral do paciente.
Em qualquer nvel de medio, a obteno de dados, de alguma varivel de interesse
em uma pesquisa, constitui um processo sujeito atuao de fontes intrnsecas de
variao, incontrolveis pelo pesquisador. Mesmo quando se tomam todos os cuidados
no sentido de tentar reproduzir do mesmo modo, inclusive no mesmo indivduo, uma
determinada medio, quer seja em estudos observacionais como nos experimentais,
ocorrem variaes aleatrias para mais ou para menos, em relao ao valor real,
produzindo alguma incerteza no processo de medio. Para a descrio dessa incerteza,
recorre-se aos modelos probabilsticos, que so a base terica da inferncia estatstica.
11
2010
12
2010
13
2010
CAPTULO 2
ALGUNS PROCEDIMENTOS AMOSTRAIS
2.1 Introduo
Na maioria dos problemas em sade, e mesmo em outras reas de conhecimento,
torna-se impraticvel obter informaes sobre toda a populao de interesse. Assim,
trabalha-se com o que possvel ou acessvel, isto , com uma amostra de elementos
dessa populao, dentro da maior confiabilidade possvel.
A coleta das unidades populacionais para compor a amostra no pode ser feita de
maneira desordenada ou sem critrios. Ela deve ser metdica a tal ponto que dois
pesquisadores distintos, realizando o mesmo tipo de estudo, possam selecionar duas
amostras, no mnimo, com caractersticas semelhantes, caso adotem o mesmo
procedimento (ou delineamento amostral), na mesma populao. Para isso, as regras a
serem seguidas nessa escolha devem ser objetivas, com as unidades amostrais sendo
retiradas da populao, de preferncia, mediante mecanismos de sorteio. Isso o que se
chama de amostras aleatrias (ou probabilsticas).
Algumas vezes, nos estudos experimentais, pelas caractersticas das unidades de
estudo, no se pode sorte-las. o caso, por exemplo, de substncias lquidas
depositadas em algum reservatrio, constituindo a populao daquele produto. Nestas
situaes, aps uma ao de homogeneizao do lquido, as retiradas de pequenas
pores (unidades amostrais), para serem examinadas separadamente, podem ser
realizadas a esmo. Essa amostra de pores no aleatria, mas funciona
aproximadamente como tal.
2010
n=tamanho da amostra.
As propores do tipo
f =
n
,
N
(2.1)
01
02
03
04 05
Nmeros sorteados
43 40 10 60 09 05
Pacientes
B
15
6.
2010
2010
Portanto, por este esquema seriam sorteados: o oitavo, o dcimo oitavo, o vigsimo
oitavo, o trigsimo oitavo, o quadragsimo oitavo e o qinquagsimo oitavo pronturios
do arquivo de pacientes hipertensos.
A amostragem sistemtica tem sido comumente aplicada em inquritos
epidemiolgicos urbanos, por exemplo, para selecionar domiclios, e em conseqncia
famlias. Neste caso, no necessria a especificao do nmero total N da populao
de domiclios.
Basta estabelecer a distncia D do percurso a ser pesquisado e, com base no
tamanho da amostra requerida, especificar a distncia d dos intervalos sistemticos.
Ento, escolhe-se aleatoriamente um ponto inicial P (primeiro domiclio a ser
pesquisado), no necessariamente situado no primeiro intervalo de amostragem,
determinando-se em seguida os demais pontos P+id, i=1,2,...,n-1. Se o processo no foi
iniciado no primeiro intervalo, ento no final da distncia D continua-se o percurso,
partindo-se do incio dessa distncia at atingir novamente o ponto P. Isso ilustrado na
figura 2.2, a seguir, para D=3000 m e d= 500 m.
Domiclio
inicial
o
0
o
500
1000 P 1500
o
2000
o
2500
3000 metros
n2
N5
sorteio
N4
N6
n5
n3
n1
n4
n6
Amostra estratificada de tamanho n
com estratos de tamanhos ni
Populao de tamanho N,
com estratos de tamanhos Ni
2010
n = n1 + n2 + ... + n E = ne .
(2.4)
e =1
N = N 1 + N 2 + ... + N E = N e ,
(2.5)
e =1
em que
W
e =1
= 1.
(2.7)
2010
E
n n1 + n2 + ... + n E
=
= fe .
N
N
e =1
(2.8)
Exemplo 2.4 Supondo que, no exemplo anterior, a populao total fosse constituda
de N=3100 crianas, com N1=1200 crianas, N2=900 crianas, N3=700 e N4=300, ento
as correspondentes propores populacionais so:
W1 =
700
300
1200
900
= 0,3871; W2 =
= 0,2903; W3 =
= 0,2258; W4 =
= 0,0968 .
3100
3100
3100
3100
(2.10)
Exemplo 2.6 No exemplo 2.4, se tivesse sido decidido por uma frao amostral
global f =0,05 (seleo de cinco a cada cem crianas) , o tamanho da amostra seria de
155 crianas. Ento, pela alocao uniforme, seriam tomadas 155 4 = 52 crianas de cada
estrato e pela alocao proporcional:
2010
(2.11)
Embora menos preciso que os mtodos anteriores, este procedimento muito usado
na rea de sade pela sua maior praticidade e economia. Isto , menor complexidade dos
sistemas de referncia, maior facilidade de acesso s unidades amostrais, reduo de
custos no transporte, dirias e retornos dos entrevistadores, etc.
Quanto maior a heterogeneidade (correlao intra-classe) dentro dos
conglomerados, melhor ser o desempenho deste procedimento com relao preciso
das estimativas10.
Por outro lado, a anlise dos dados obtidos via amostragem por conglomerados
muito mais sofisticada que nos procedimentos anteriores. Da mesma forma, como j foi
comentado para amostragem estratificada, durante a anlise, tambm, deve-se levar em
conta ponderaes relacionadas forma como as observaes foram obtidas. Para
aumentar a preciso do processo, costuma-se realizar a escolha dos elementos amostrais
em duas ou mais etapas (procedimentos multi-etapas), o que aumenta ainda mais a
complexidade da anlise dos dados.
Exemplo 2.7 Em uma pesquisa para investigar o gasto com sade dos moradores de
uma grande cidade, as famlias poderiam ser consideradas como as unidades
elementares. Mas, praticamente impossvel dispor de um sistema de referncia com a
listagem de todas as famlias. Pode-se, ento, associar famlias com domiclios e
empregar amostragem por conglomerados, constitudos pelos chamados Setores
Censitrios (reas bem delimitadas pelo IBGE, com aproximadamente 250 domiclios
cada). Em uma primeira etapa, sorteia-se um certo nmero de setores censitrios por
meio de uma AAS e, em uma segunda etapa, dentro dos setores sorteados, sorteia-se por
20
2010
AAS uma quantidade de domiclios para compor a amostra final de famlias a serem
entrevistadas.
2.7 Consideraes adicionais
muito comum, em estudos observacionais com o emprego de levantamentos
amostrais, a ocorrncia das chamadas no respostas10. Isto , as pessoas podem se
recusar a responder total ou parcialmente as perguntas que lhe so formuladas ou ento
elas no so encontradas ou localizadas. Outros problemas comumente encontrados so
os chamados erros de cobertura (elementos no registrados no sistema de referncia) e
de elegibilidade (elementos sorteados, mas com perfil inadequado para a pesquisa).
Esses problemas so tratados com bastante detalhe por Kish, L10.
Por exemplo, nem todos as pessoas hipertensas so cobertas pelo Programa de
Hipertenso de um servio de atendimento e em um domiclio sorteado para uma
pesquisa podem no ser encontradas pessoas dentro da faixa etria requerida pelo
experimento.
Para minimizar esse problema, deve-se: procurar meios de estimular as respostas;
prever retornos aos domiclios em que o respondente no tenha sido encontrado;
detalhar o mais possvel as informaes do sistema de referncia e, ainda na fase de
planejamento, procurar corrigir o tamanho da amostra adicionando nela um nmero de
elementos com base em registros histricos de percentuais de no respostas em
pesquisas semelhantes.
Por exemplo, se o tamanho desejado de amostra de n=300 indivduos e presumese, com base em experincias anteriores, que as taxas de respostas, de cobertura e de
elegibilidade sejam, respectivamente, 85% , 95% e 90%, ento, pode-se realizar a
seguinte correo no tamanho da amostra:
C=(0,85)(0,95)(0,90)=0,7268,
nC = n/C = 300/0,7268 = 413,
ou seja, devem ser sorteados 413 indivduos para se conseguir aproximadamente os 300
desejados inicialmente.
Em estudos observacionais envolvendo pessoas, qualquer que seja o procedimento
amostral adotado, deve-se, realizar um estudo piloto (amostra piloto ou pr-amostra),
na prpria populao ou em uma populao semelhante de interesse. Pode-se, ento,
testar o procedimento amostral planejado, treinar e testar os entrevistadores, testar os
instrumentos de coleta de dados, avaliar o tempo gasto em cada entrevista e mesmo
obter informaes necessrias para definir o tamanho definitivo da amostra.
21
2010
CAPTULO 3
RESUMO E ANLISE GRFICA DE DADOS
3.1 Introduo
Toda anlise estatstica facilitada, mediante a utilizao de programas estatsticos
apropriados, se as informaes (dados brutos), obtidas via levantamento amostral, ou
no, estiverem convenientemente organizadas em uma planilha, geralmente, do tipo:
Ei
.
EL-1
EL
V1
V2
V3
... Vj ...
VC-1
m1,1
m2,1
m3,1
m1,2
m2,2
m3,2
m1,3
m2,3
m3,3
m1,C-1 m1C
m2,C-1 m2,C
m3,C-1 m3,C
mi,1
mi,2
mi,3
...
...
...
VC
mi,C-1
m3,C
mL-1,C-1 mL-1,C
mL,C-1 mL,C
2010
n = nk
k =1
k =1
= 1;
2010
(3.2)
e
%k : porcentagem do k-simo valor (ou categoria) distinto(a) do conjunto de
dados, k=1,2,...,K; onde
% k = fk x 100.
(3.3)
Pode-se, ento, organizar a tabela 3.2 (de distribuio de freqncias), que resume o
conjunto de dados.
Tabela 3.2 Distribuio de freqncias de uma varivel.
Dk
D1
D2
D3
...
DK-1
DK
Soma:
nk
n1
n2
n3
...
nK-1
nK
n
fk
f1
f2
f3
...
fK
fK
1
(%)k
%1
%2
%3
%K
%K
100%
(3.4)
2010
1
2
3
4
65
66
61
74
44.43 32.93 32.38 30.12
5
58
34.79
6
63
34.55
7
72
30.85
8
60
34.01
9
10
61
67
34.87 33.45
11
66
30.12
SUJ.
IDD:
IMC:
12
13
14
15
65
50
64
52
38.87 33.72 35.21 38.58
16
58
32.08
17
64
31.05
18
61
32.59
19
55
31.96
20
66
40.82
21
59
37.73
22
58
37.21
SUJ.
IDD:
IMC:
23
24
25
26
57
72
56
66
31.73 38.09 40.57 30.99
27
54
37.42
28
79
32.66
29
79
31.08
30
69
37.42
31
76
31.99
32
57
30.14
33
61
30.58
SUJ.
IDD:
IMC:
34
35
36
37
62
60
65
53
35.69 39.93 33.24 31.46
38
58
30.48
3.3.1
O diagrama circular
360
fk
x
25
x o = 360 0 x f k .
(3.5)
2010
O
8.3%
AE
13.3%
LV
8.3%
CD
10.0%
LC
18.3%
DC
6.7%
DV
11.7%
DP
18.3%
DT
5.0%
3.3.2
O diagrama de barras
2010
PORCENTAGEM
15
10
AE
CD
DC
DP
DT
D/Q
DV
LC
LV
27
2010
18
16
14
PORCENTAGEM
12
10
8
6
4
2
0
SEX
D/Q-SEX
E MA S
M
AE
C
EM S
F MA
CD
E MA S
M
DC
C
EM S
F MA
DP
E MA S
M
DT
C
EM S
F MA
DV
E MA S
M
C
EM S
F MA
LC
LV
E MA S
M
SEX
FEM
MA SC
PORCENTAGEM
15
10
0
D/Q-SEX
AE
CD
DC
DP
DT
DV
LC
LV
PORCENTAGEM
30
20
10
ND
MB
B
NIVEL SCIO ECONMICO
MB
28
2010
no qual ND significa nvel scio econmico no declarado; MB, muito baixo; B, baixo
e MB, mdio baixo.
3.3.3
O histograma
fk
,
k
que so chamadas de densidades de freqncias.
hk =
(3.6)
Com as alturas calculadas assim, e por 3.2, a soma das reas dos retngulos torna-se
igual a 1, permitindo, quando o tamanho n da amostra for suficientemente grande, a
interpretao das reas sob o histograma como probabilidades (graus de certeza) da
ocorrncia de valores nos intervalos determinados sob o eixo, por essas reas.
A quantidade e a amplitude k dos subintervalos Ik dependem da quantidade e
espalhamento dos dados. Quando maior a quantidade de dados, maior a quantidade de
subintervalos e quando maior a concentrao deles, menor a amplitude. Essa tarefa
automaticamente executada com o uso dos softwares estatsticos.
O tamanho da amostra pode ser, inclusive, considerado como um ndice de
credibilidade da ocorrncia de um evento relacionado com o assunto pesquisado.
Quanto maior a amostra, maior ser essa credibilidade.
Por exemplo, se, no levantamento do exemplo 3.2, a amostra fosse de 600
pronturios, ao invs de 60, ento o pesquisador ficaria mais seguro para afirmar que a
ocorrncia no NAPES-UFSCar, no perodo 1994-1995, de casos com leses cerebrais,
ocorreria aproximadamente com probabilidade 0,18.
Exemplo 3.5 Para as variveis do exemplo 3.1, pode-se construir as tabelas 3.6, e
3.7 de distribuio de freqncias:
29
2010
40
30
25
PORCENTAGEM
PORCENTAGEM
30
20
20
15
10
10
5
0
48
54
60
66
72
78
IDADE
30
33
36
39
42
45
IMC
3.3.4
30
2010
Exemplo 3.6
1
3
5
8
13
19
19
17
12
7
6
6
4
3
2
5
5
5
5
5
6
6
6
6
6
7
7
7
7
7
0
23
45
677
88889
001111
23
44555
66667
9
22
4
6
99
Figura 3.7 Esquema de Ramos e Folhas para a idade dos sujeitos do exemplo 3.1.
Os primeiros dgitos dos valores das idades so representados sempre antes do trao
(tronco). Depois do trao so representadas em cada linha (ramos) os segundos dgitos
das idades (folhas), conforme as suas ocorrncias. Por exemplo: na primeira linha est a
idade 50 anos, na segunda esto as idades 52 e 53 anos, na terceira, 54 e 55. O critrio
adotado aqui para a incluso dos dados nas linhas foi considerar a variao de 2 em 2
valores do segundo dgito. Por exemplo, na primeira linha so considerados somente as
idades com os segundos dgitos 0 e 1, na segunda, 2 e 3, na terceira 4 e 5, na quarta 6 e
7, na quinta 8 e 9, na sexta 0 e 1, na oitava 2 e 3, e assim por diante. Na primeira coluna
so contados cumulativamente as quantidade de valores em cada linha, partindo-se dos
extremos para o centro. O objetivo disso determinar a centralidade do conjunto de
dados.
Observa-se que os aspecto da distribuio de dados da varivel idade, produzido
pelo diagrama de ramos e folhas semelhante ao dado pelo histograma.
A maioria dos softwares estatsticos incluem programas para realizar, alm dos
anteriores, tambm esse procedimento.
3.3.5
O diagrama de pontos
2010
Exemplo 3.6 Como havia sido planejado, no exemplo anterior, observa-se, pelos
diagramas de pontos dados na figura 3.5, que a distribuio dos valores de IMC das
voluntrias no obesas posiciona-se bem abaixo da correspondente s obesas, sem a
ocorrncia de pontos comuns. Isso indica que os grupos a serem comparados
apresentaram-se bem constitudos com relao sua principal caracterstica (fator
tratamento), que foi a definio adotada de obesidade e no obesidade.
NO-OBESAS
OBESAS
17.5
21.0
24.5
28.0
31.5
IMC
35.0
38.5
42.0
Figura 3.8 Disperso dos conjuntos de dados de IMC nos grupos de no obesas e
obesas.
3.3.6
O grfico de tendncia
32
100
100
2010
Variable
94
95
16
PORCENTAGEM
14
12
10
8
6
4
2
0
JAN
FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ
MS
33
2010
CAPTULO 4
ANLISE NUMRICA UNIDIMENSIONAL
4.1 Introduo
Alm da sntese visual de um conjunto de dados, deve-se determinar algumas
medidas resumo numricas que os represente bem e permitam as comparaes com
outros conjuntos de dados em pesquisas semelhantes. Entre elas, esto as medidas de
centralidade, as de variabilidade e as separatrizes (ou quantis).
Neste captulo, os conceitos sero introduzidos supondo-se que os dados tenham
sido coletados pelo procedimento de amostra aleatria simples.
(4.1)
65 + 66 + 61 + ... + 58 1
=
2389 = 62.9 anos .
38
38
40
PORCENTAGENS
30
20
10
48
54
60
66
72
78
IDADE
mdia
34
2010
dados ordenados
50%
50%
M
Md
67 + 68
= 67,5 .
2
35
2010
n +1
) sima ,
2
(4.2)
7 +1
= 4a ,
2
33 , 64 , 67 , 68 , 69 , 73 , 74
4.
e
Pos Md 2 =
33 ,
64 ,
6 +1
= 3,5 a
2
67 ,
68
, 69 , 73
67,5
entre a 3. e a 4 posies.
50%
50%
1
3
5
8
13
19
19
17
12
7
6
6
4
3
2
5
5
5
5
5
6
6
6
6
6
7
7
7
7
7
0
23
45
677
88889
001111
23
44555
66667
9
22
4
6
99
36
2010
61 + 63
= 62.
2
45
51
52,63
28,95
x
63
57
10,53
69
7,89
75
81
Md
34,21
(esse valor a % no segmento (Md-57,00), determinado por (50,00-15,79)
2010
4.3.1. A varincia
A diferena de uma medida xi em relao mdia x , do conjunto de dados de onde
ela provm, isto o desvio ( xi x ) , muita utilizada em Estatstica.
Em um primeiro momento, fica-se tentado a medir a variabilidade de todo o
conjunto de dados, usando a mdia desses desvios. Mas, como alguns valores do
conjunto de dados so maiores que a sua mdia e outros so menores, essas diferenas
se alternaro entre valores positivos e negativos e a sua soma tender a se anular,
inviabilizando essa idia. Uma forma de contornar este problema considerar os
desvios quadrticos ( xi x ) 2 e adotar a mdia deles como medida de variabilidade. Isto
:
38
s x2 =
1 n
( xi x ) 2 .
n i =1
2010
(4.3)
s x2 =
1 n
( xi x ) 2
n 1 i =1
(4.4)
justamente a que est programada nos softwares especficos para clculos em anlises
estatsticas.
Mediante o manuseio algbrico, a expresso (4.4) pode ser transformada em uma
outra equivalente, que facilita os clculos manuais e produz menos erros de
aproximao02:
n
1
(4.5)
s x2 =
{[ ( xi ) 2 ] n( x ) 2 } .
n 1 i =1
Exemplo 4.4 Para o conjunto de idades a i , (em anos): 33, 64, 67, 68, 69, 73 e 74,
os clculos da varincia so ilustrados na tabela 4.1.
Tabela 4.1 Clculo da varincia de um conjunto de dados.
ai
Somas
Mdias
33
64
67
68
69
73
74
448,0 anos
64,0
(ai a ) 2
39
2010
A varincia das idades do exemplo 3.1, calculada pela expresso 4.4 (50,60 anos2),
aproximadamente quatro vezes menor que 198,7 anos2. Portanto aquele conjunto de
idades menos varivel que este.
sx =
1 n
( xi x ) 2
n 1 i =1
(4.6)
40
MeMd Mo
Me Md Mo
2010
Mo Md Me
Me Mo
sx
(4.7)
for:
- negativa, a assimetria esquerda ou negativa,
- positiva, a assimetria direita ou positiva.
Se essa diferena for (aproximadamente) nula, a distribuio simtrica.
Exemplo 4.5 Para os dados de idade I do exemplo 4.1, tem-se: Me=62,9 e a moda
pode ser determinada pelo ponto mdio da classe com maior densidade (freqncia) de
dados que o intervalo [57,00 ; 63,00).
.
Assim,
AI =
Me I Mo I 60,0 62,9
=
= 0,4079 < 0 ,
7,11
sI
xx
,
sx
(4.8)
(varivel padronizada). Qualquer que seja a varivel X, pode-se mostrar que a sua
varivel padronizada sempre ter mdia zero e varincia 1 (conseqentemente, tambm
desvio padro 1). Para os valores xi , i=1,2,...,n, da varivel X, os correspondentes
valores zi representam as medidas de ( xi x ) , tomando-se como unidade os desvios
padro s x .
Os escores padronizados podem ser usados, inclusive, para comparaes relativas
(s mdias e aos desvios padro) de dois ou mais conjuntos de dados. No estudo da
41
2010
Somas
Mdias
Desv. Padr.
xi
yi
zx
10
20
30
40
50
150
30
10
50
30
90
70
250
50
-1,26491
-0,63246
0,00000
0,63246
1,26491
0
0
-1,26491
0,00000
-0,63246
1,26491
0,63246
0
0
1,0
1,0
15,8114
31,6228
zy
Dos clculos ilustrados na prpria tabela, tem-se, ento que as duas variveis, com
mdias e variabilidades diferentes (pois as respectivas mdias so 30 e 50 e as
varincias so 15,8114 e 31,6228), quando padronizadas ficam com a mesma mdia
zero e o mesmo desvio padro 1 (os valores aproximados obtidos para a varivel Y
devem-se s aproximaes nos clculos).
Exemplo 4.7 Para o conjunto de idades 33, 64, 67, 68, 69, 73 e 74, o primeiro valor
(33 anos) e o stimo valor (74 anos) esto, respectivamente, a -2,2 e 0,7 desvios padro
da mdia das idades do conjunto, pois:
x1 x 33 64
=
= 2,1986 e
14,1
sx
x x 74 64
=
= +0,7092 .
z7 = 7
14,1
sx
z1 =
Para o dcimo terceiro valor de idade do conjunto de dados do exemplo 3.1 (que
tambm 74 anos), tem-se:
z13 =
Portanto, este valor de idade est a aproximadamente 1,6 desvios padro da mdia
daquele conjunto.
42
2010
x
2,7
2,9
3,0
3,0
3,1
3,2
3.3
3,4
3,5
28,1
x2
y2
7,29 3564,09
8,41 3588,01
9,00 3600,00
9,00 3600,00
9,61 3612,01
10,24 3624,04
10,89 3636,09
11,56 3648,16
12,25 3660,25
88,25 32532,70
y
59,7
59,9
60,0
60,0
60,1
60,2
60,3
60,4
60,5
541,1
s y2 = 0,0644 kg 2
s y = 0,2539 kg .
CV x% = (
sx
100) % .
x
2010
(4.10)
0,2539
= 0,0042 (ou 0,42%),
60,1222
44
2010
CAPTULO 5
SEPARATRIZES E O DIAGRAMA ESQUEMTICO
5.1 Introduo
Para obter maiores detalhes sobre a distribuio de valores de um conjunto de dados
pode-se subdividi-la em partes. Uma maneira de fazer isso determinar os chamados
quantis ou separatrizes que so, na realidade, extenses da idia usada na mediana.
5.2 Os quartis
Enquanto a mediana (Md) subdivide o conjunto ordenado de dados em 2 partes
contendo as mesmas porcentagens de valores (50% e 50% cada), os quartis ( Q1, Q2,
Q3 ) subdividem-no em 4 partes iguais, com 25% dos dados cada.
25%
25%
Q1
25%
Q2Md
25%
Q3
n +1
n +1
) sima = (
) sima ,
4
2
(5.2)
PosQ3 = 3(
n +1
) sima .
4
(5.3)
45
2010
38 + 1
) sima = 9,75 a ,
4
38 + 1
PosQ2 = 2 (
) sima = 19,5 a e
4
38 + 1
PosQ3 = 3 (
) sima = 29,25 a .
4
PosQ2 = (
9 10
19
50 52 53 54 55 56 57 57 58 58 58 58 59 60
60
61
61
61
61
63 63 64 64 64 65 65 65 66 66 70 71 72 72
73
74
76
79
80.
20
29 30
Q2=(61+62)/2=62 e
Q3=66+(0,25)(70-66)= 67.
46
2010
Q3
Q1Md
47
Q3
2010
Ento, na primeira parte da caixa esto 25% dos dados ordenados centrais e na
segunda os outros 25%.
5) calculada a amplitude interquartlica, que mede a distncia entre o primeiro e
terceiro quartis:
(5.6)
Q = Q3 Q1 .
6) Marcam-se, na escala de medida dos dados, dois pontos: um anterior ao primeiro
quartil, cuja posio determinada pela expresso I= Q1 1,5( Q ) e o outro,
posterior ao terceiro quartil, com posio dada por S= Q3 + 1,5( Q ) . Por
exemplo:
Q/2
Q/2
o
I
Q/2
Q/2
2010
110
100
160
90
PMAS
PMAD
140
120
80
70
60
100
50
(E1)
(D1)
180
110
100
160
PMAD
PMAS
90
140
120
80
70
60
100
50
FEM
MASC
FEM
SEXO
MASC
SEXO
(E2)
(D2)
Figura 5.3 Representao das distribuies de PMAS para a amostra geral (figura E1) e
PMAD (figura D1) e para os estratos feminino (figura E2) e masculino (figura D2).
As estatsticas mais importantes, relacionadas com a amostra so apresentadas
na tabela 5.1 a seguir.
Conforme indicam, respectivamente, os valores do primeiro quartil e terceiro
quarts, 25% da amostra geral foi constituda de pessoas com PMAS menores que 110
mmHg e 25% com PMAS maiores que 126,7 mmHg. Analogamente, 25% das PMAD
foram menores do que 70 mmHg e 25%, maiores do que 80 mmHg.
49
2010
Tabela 5.1 Descrio das variveis PMAS e PMAD na amostra geral (G) e nos estratos
feminino (F) e masculino (M).
n n*
PMAS G 262 12
F 143
5
M 119
7
PMAD G 262 12
F 143
5
M 119 7
Me
DP CV m
Q1
Md
119.2 14.2 11.9 88.3 110.0 120.0
115.3 12.8 11.1 88.3 105.0 115.0
123.9 14.4 11.6 100.0 115.0 120.0
76.6
74.3
79.5
70.0
70.0
73.3
77.5
72.5
80.0
Q3
M
Q
126.7 175.0 16.7
122.5 160.0 17.5
130.0 175.0 15.0
80.0 110.0 10.0
80.0 100.0 10.0
82.5 110.0 9.2
50
2010
CAPTULO 6
ANLISE BIDIMENSIONAL CONJUNTA
6.1 Introduo
At aqui, no desenvolvimento desse texto, no houve a preocupao em analisar
conjuntamente as variveis. Mas, muito comum o interesse na rea de Sade, bem
como em outras reas, na anlise conjunta de duas ou mais variveis. Por exemplo, a
possvel associao (ou dependncia) entre duas delas. Isto , saber se, quando os
valores de uma delas aumentam, tambm aumentaro os valores da outra, ou se, quando
aumentam os da primeira, diminuiro os da segunda. O conhecimento disso pode ajudar
o pesquisador a fazer previses sobre uma determinada caracterstica, mais complicada
de ser observada/medida, com base no comportamento de outra que esteja relacionada
estatisticamente primeira, mas cujos valores sejam mais fceis de serem obtidos.
Por exemplo a escolaridade e o nvel de renda so variveis que esto relacionadas
(quanto maior o grau de escolaridade maior o nvel de renda). Tambm, o conhecimento
sobre a exposio a fatores de risco para as doenas, pode ajudar a preveni-las. Por
exemplo, o hbito de fumar (intensidade de tabagismo) e a expectativa de vida.
Quando as variveis so quantitativas, e existe tal relacionamento, elas so referidas,
em Estatstica, como variveis correlacionadas (ou positivamente, quando os valores
de uma crescem com o crescimento dos valores da outra, ou negativamente, quando
decrescem com o aumento dos valores da outra). Uma varivel pode, estar
correlacionada a mais de uma outra varivel. Em estatstica, existem mtodos para
verificar e quantificar a intensidade dessas correlaes e tambm construir modelos para
as previses de uma em funo da(s) outra(s).
Deve-se tomar muito cuidado na interpretao de uma correlao estatstica. Nem
sempre a correlao um fenmeno de causa e efeito. Ela, s vezes, pode estar
associada atuao de um terceiro fator influente nas duas variveis estudadas, mas que
isoladas no apresentariam tal resultado. Um exemplo, absurdo, para reforar esse
comentrio a possvel correlao positiva entre as variveis: volume de venda de
agasalhos contra o frio e nmero de atendimentos em servios de sade por
problemas respiratrios. No se pode concluir que os agasalhos sejam a causa do
problema respiratrio e sim o inverno (baixas temperaturas) atuando no crescimento das
duas variveis.
2010
1 n ( xi x ) ( y i y )
.
n 1 i =1 s x
sy
CORRELAO LINEAR
(6.1)
NO CORRELACIONADA
2.5
2.0
2.0
VARIVEL Y
VARIVEL
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
0.5
1.0
VARIVEL X
1.5
2.0
0.50
0.75
1.00
VARIVEL
1.25
1.50
( xi x )
( y y)
e zy = i
so usadas aqui, em (6.1),
sx
sy
porque tm a mesma variabilidade (isto , ambas tm desvio padro 1). Com isso,
elimina-se os possveis efeitos da maior variabilidade em uma dessas variveis originais
na medio da associao entre elas. O coeficiente (6.1) baseado na mdia dos
produtos dos escores padronizados, onde a troca de n por (n-1) tem a mesma
justificativa que foi usada na definio da varincia.
As variveis padronizadas z x =
s2
1 n ( xi x ) ( y i y )
1 n ( xi x ) ( xi x ) 1 1 n
=(
= 2(
)
) ( xi x ) 2 = x2
n 1 i =1 s x
sy
n 1 i =1 s x
sx
s x n 1 i =1
sx
2010
- se, para grandes (pequenos) valores de X, isto , para xi > x (para xi < x )
corresponder grandes (pequenos) valores de Y, isto , ocorrer yi > y ( yi < y ), ento os
valores dos produtos ( xi x )( y i y ) sero grandes e positivos e, conseqentemente, o
valor da expresso (6.1) ser grande e positivo.
- se, para grandes (ou pequenos) valores de X corresponder pequenos (ou grandes)
valores de Y, ento os produtos sero grandes em valor absoluto, mas tero sinal
negativo e, conseqentemente, o valor de (6.1) ser grande em valor absoluto, mas
negativo.
S x, y
rX ,Y =
S xx S yy
(6.2)
em que:
n
S xy = ( xi y i ) n( x )( y ) ,
i =1
(6.3)
S xx = ( xi2 ) n( x ) 2 ,
i =1
S yy = ( y i2 ) n( y ) 2 .
i =1
(6.4)
(6.5)
-1
+1
NU LA
MODERADA
ALTA
Figura 6.2 Um critrio de avaliao da intensidade da correlao linear.
53
2010
Somas
Mdias
D. P.
10
10
20
50
30
30
40
90
50
70
150
250
30
50
5,8114 31,6228
-1,26491 -1,26491
-0,63246
0
0
-0,63246
0,63246 1,26491
1,26491 0,63246
1,0
1,6
0
0
0,8
0,8
3,2
100
1000
900
3600
3500
9100
100
400
900
1600
2500
5500
100
2500
900
8100
4900
16500
1,0
1 n ( xi x ) ( y i y )
1
(3,2) = 0,8 .
=
5 1
n 1 i =1 s x
sy
rX ,Y =
S x, y
S xx S yy
1600
(1000)(4000)
1600
= 0,8 .
2000
54
2010
Tabela 6.2 Distribuio conjunta dos dados das variveis gnero e utilizao de um
servio de sade.
Utilizao
Gnero
FEMININO
(F)
MASCULINO (M)
TOTAL
SIM
(S)
173
92
265
NO
(N)
727
608
1335
TOTAL
900
700
1600
fS =
n( M S )
92
=
= 0,0575 P[ M S ] ,
1600
n
n( S ) 265
=
= 0,1656 P[ S ] .
1600
n
n( E )
,
n()
(6.6)
55
2010
Utilizao
SIM
Gnero
(S)
FEMININO (F) 0,1081
MASCULINO (M) 0,0575
TOTAL
0,1656
NO TOTAL
(N)
0,4544 0,5625
0,3800 0,4375
0,8344
1
P[ A B]
, para P[ B ] 0 .
P[ B]
(6.7)
56
2010
S = P[T+ | D+ ] ,
(6.9)
E = P[T | D ] .
(6.10)
VPP = P[ D+ | T+ ] .
(6.11)
VPN = P[ D | T ] .
(6.12)
57
2010
Tem-se que:
S=
815
= 0,797 ,
1023
E=
327
= 0,740 .
442
815
= 0,8763 ,
930
VPN =
327
= 0,6112 .
535
P[Y = y j | X = xi ] = P[Y = y j ] .
(6.13)
n( X = xi ; Y = y j )
n(Y = y j )
n( X = xi )
.
n ( )
58
ei , j
n( y j )
n( xi ) n( y j )
n( xi )
.
ei , j =
n
n
2010
(6.14)
Exemplo 6.5 Para os dados do exemplo 6.3, a freqncia absoluta esperada no caso
de no associao (independncia) entre gnero masculino e resposta afirmativa com
relao utilizao do servio de sade dada, mediante aplicao de 6.11, por:
e2,1 =
n( x 2 )n( y1 ) (700)(265)
=
= 115,9375 116 ,
n
1600
Tabela 6.5 Comparao entre os valores esperados ei,j no caso de no associao entre
gnero e utilizao de um servio de sade, e os valores observados oi,j.
Utilizao
Gnero
FEMININO
(F)
MASCULINO (M)
TOTAL
SIM
(S)
173 (149)
92 (116)
265
NO TOTAL
(N)
727 (751) 900
608 (584) 700
1335
1600
2
( L 1)( C 1)
( o i , j ei , j ) 2
i, j
ei , j
(6.15)
59
2010
2
2 +n
(6.16)
m 1
] , onde m o menor valor
m
entre o nmero de linhas e colunas da tabela de contingncia. Quanto maior for o valor
m 1
, maior a associao entre as variveis estudadas.
de C, em direo ao limite
m
(221)( 21) =
10,5846
= 0,0811
10,5846 + 1600
2 1
= 0,7071 .
2
60
2010
CAPTULO 7
DISTRIBUIES CONTNUAS DE PROBABILIDADE
7.1 Introduo
Depois de selecionada uma amostra, so obtidos os dados de uma varivel
quantitativa contnua (dados de medio, por exemplo). Com base na distribuio de
freqncias construdo o correspondente histograma (modelo emprico). Umas das
principais finalidades do histograma sugerir o tipo de modelo terico (curva) que mais
se ajuste a esses dados e que representar toda a populao de possveis valores da
varivel sob estudo.
O procedimento comparar o esboo da curva sugerida pelo histograma, com as
curvas tericas (densidades) de modelos estatsticos j conhecidos. Existem testes
estatsticos especficos para fazer isso (os chamados testes de ajustamento). Eles,
basicamente, comparam as distncias entre os pontos da curva emprica, determinada
pelo delineamento superior do histograma, com os correspondentes pontos na curva
terica, escolhida pelo pesquisador para verificar a sua adequao aos dados. Se no
houver rejeio do teste, considera-se que os dados seguem o modelo proposto e, a
partir da, ele e seus parmetros (mdia, referida como populacional, desvio padro
populacional , etc, estimados com base nos dados da amostra) so usados como
referncia na tomada de decises clnicas.
40
40
30
30
PORCENTAGENS
PORCENTAGENS
Por exemplo, para uma determinada varivel em questo, pode-se usar a curva
terica para estabelecer as faixas de referncia j comentadas anteriormente. Isto ,
segundo uma probabilidade fixada (interpretada como rea sob a curva), encontra-se os
percentis que delimitem um intervalo dentro do qual as medidas dessa varivel, em
novos indivduos, possam ser consideradas normais. Essa situao ilustrada na
figura 7.1, para a varivel idade do exemplo 4.1.
20
10
20
10
48
54
60
66
72
78
48
54
60
66
72
IDADE
78
IDADE
a
Curva sugerida pelo
rea A
Limites do intervalo
(percentis)
Modelo terico (curva simtrica)
2010
x- x
x+ x
Figura 7.2 Representao de uma distribuio normal com mdia x e desvio padro
x, para uma varivel contnua X.
A distribuio normal contnua, isto , a varivel que ela representa deve assumir
qualquer valor dentro de um intervalo previamente definido. A sua curva tem a forma
de um sino, com caudas simtricas em relao mdia populacional x (em que a
letra grega minscula m). Existem dois pontos nos quais a curva muda a concavidade
(chamados pontos de inflexo) que so ( x- x) e ( x+ x), em que x ( a letra grega
minscula sigma) o desvio padro (populacional). Quanto maior o valor de x, mais
espalhada (maior disperso) na base e mais baixa ser a figura e, quanto menor for,
tambm menor ser a disperso e maior a altura em torno da mdia x.
Na distribuio normal, devido sua simetria, a mdia, mediana e moda coincidem.
Tambm, como j foi comentado para distribuies simtricas:
- 68% da rea total sob a curva est entre ( x- x) e ( x+ x),
- 95% da rea total sob a curva est entre ( x-2 x) e ( x+2 x), e
- 97,7 % da rea total sob a curva est entre ( x-3 x) e ( x+3 x).
Isso pode ser usado para uma primeira conjectura de normalidade a um determinado
conjunto de dados contnuos, mas existem testes estatsticos implantados nos softwares
especializados para realizar, com maior confiabilidade essa tarefa. A notao utilizada
para indicar que uma varivel X normalmente distribuda a seguinte:
X ~ N( x ; x2 ),
(7.1)
em que x2 representa a varincia populacional da varivel X.
62
2010
Exemplo 7.1 No exemplo 3.1, o histograma dos dados est sugerindo um modelo
de curva simtrica e a media (Me =62,9), mediana (Md=62) e moda (Mo =60,
determinada pelo valor mdio da classe de maior freqncia no histograma) no diferem
significativamente. Ento, pode-se concluir pela normalidade com mdia 62,9 63 e
desvio padro 7,11 7 (I ~ N(63 ; (7)2). Assim, a probabilidade de ocorrer uma idade
no intervalo 63 7 de aproximadamente 0,68 (ou de 68 %).
7.3 Clculo de probabilidades na distribuio normal
Conforme j foi comentado antes, as probabilidades da ocorrncia de intervalos de
valores so aqui interpretadas como reas sob a curva, entre os extremos desses
intervalos. Em distribuies contnuas, como essa, a probabilidade de um valor
especfico (um ponto) , a rigor, zero, pois um ponto pode ser considerado como um
intervalo em que os extremos coincidem e, portanto a rea correspondente sob a curva
nula. Assim, no clculo de probabilidades, no se deve preocupar com a incluso ou no
da igualdade nos extremos de intervalos do tipo a<X<b.
Por exemplo, sorteado um indivduo da populao que forneceu a amostra de idades
na figura 7.1, a probabilidade dele ter uma idade no intervalo 30<I<70 a mesma que a
probabilidade no intervalo 30 I 70 .
Para cada valor da mdia e do desvio padro, tem-se uma curva normal diferente e o
clculo das reas (probabilidades) para uma dessas curvas no trivial, s sendo
possvel com a utilizao de ferramentas matemticas apropriadas. Ento, para facilitar
essa tarefa, usa-se uma curva normal padro (isto uma distribuio normal com
mdia zero e varincia 1, N(0,1)), cujas probabilidades j so tabeladas e para a qual
podem ser transformadas todas as demais distribuies normais (usando-se a
transformao Z = X X ).
X
x- x
x+ x
-1
+1
z
X ~ N( x ; x2 )
Z ~ N(0 ;1)
Z=
X X
63
2010
a 63 b
za 0 zb
X ~ N( x ; x2 )
Z ~ N(0 ;1)
Z=
X X
P[a X b] = P[
a X
x X
za
b X
].
(7.2)
zb
Por exemplo, para calcular a probabilidade P[30 I 70] no exemplo 3.1, tem-se:
P[50 I 73] = P[
50 63 i I 73 63
] = P[1,86 Z 1,43] .
7
7
I
zc
0,0
0,1
0,2
...
1,1
1,2
,3997
P[0<Z<1,43]
1,4
1,5
zc
,4236
P[0<Z<1,86]
......
1,8
,4686
. ......
64
2010
P[50 I 73] = [1,86 Z 1,43] = P[-1,86 < Z < 0] + P[0 < Z < 1,43]
= P[0 < Z < 1,86] + P[0 < Z < 1,43] = 0,4686 + 0,4236 = 0,8922 .
Uma pergunta a ser feita aqui : qual a idade mnima que cobre 90% das pessoas
dessa populao?
Para respond-la deve-se notar que (veja figura 7.6):
N(63,49)
N(0 ;1)
im 63
zm
0,40 + 0,50
0,40 + 0,50
0,90
0,90
I I
im I
im 63
] = 0,90
7
I
I
= P[im < Z < 0] + P[0 < Z < +] = 0,40 + 0,50 = 0,90 ,
P[ I > im ] = P[
>
] = P[ Z >
em que:
zm =
im 63
i 63
1,28 = m
im = 54,04 54 anos .
7
7
65
2010
CAPTULO 8
INTERVALOS DE CONFIANA
8.1 Introduo
Sorteada uma amostra de uma populao, onde se tenha interesse no estudo de uma
varivel quantitativa X, uma estimativa pontual x da mdia populacional x , por
exemplo, ser dada pela mdia amostral x , se o procedimento amostral for AAS. Isto ,
sob esse procedimento amostral, infere-se para a populao a mdia aritmtica do
valores obtidos na amostra.
x=?
x
AAS
amostra de tamanho n
populao de tamanho N
2010
onde d uma medida de preciso que pode ser estabelecida do modo como ser visto
adiante.
Observa-se que os dois primeiros intervalos contem a verdadeira mdia x,mas o
terceiro no. Portanto, desejvel que, com alta probabilidade, acontea uma situao
semelhante s duas primeiras.
Ao se sortear uma dessas amostras, tambm estar sendo sorteada uma estimativa x
e, conforme o Teorema Central do Limite (importante resultado terico da inferncia
estatstica)15, o modelo com o qual isso ocorre , para amostras suficientemente grandes,
a distribuio normal com mdia x = x (isto , com mdia igual mdia dos dados)
e varincia x2 = x (ou seja, a varincia dos dados, dividida pelo tamanho da
2
x
n
).
N ( x ;
x1 xk 1 x x 2
x2
n
x k ... x3
x
d
d
d
d
d
d
67
n2 e
n1 e
2010
x2
n2
2
x
n1
x
d2
d2
0,95
d1
d1
0,95
n1<n2
x2
)
n
N (0 ;1)
0,4750
0.95
x
xI d
0,475
zI
zS
d xS
z=
xi x
xi x
P[ x x x S ] = 0,4750
P[0 z z S ] = 0,475
68
2010
zc
...
1,7
1,8
1,9.
2,0
2,1
...
zc
0,4750
P[0 z 1,96] = 0,4750
xS x
1,96 =
d = (1,96)
.
n
; x + d ] = [ x (1,96)
ou
IC[ x ; 95%] = [ x (1,96)
O termo
EP(x) =
x
n
x
n
; x (1,96)
x
n
].
(8.1)
,
(8.2)
IC[ x ; (1 )100%] = [ x z x ]
2
n
69
2010
na sua
cauda direita.
Mas, geralmente, no se conhece o desvio padro, ento, para amostras grandes
( n 30 ), pode-se substitu-lo pela sua estimativa x = sx , conforme o que j foi visto
na unidade 3.
sx
n
].
(8.3)
s aF
nF
] = [115,3 (1,96)
12,8
138
] = 115,3 (1,96)(1,09)
= [113,16 ; 117,44 ]
IC[ aM ; 95%] = [ x aM (1,96)
s aM
nM
] = [123,9 (1,96)
14,4
112
] = 123,9 (1,96)(1,36)
= [110,49 ; 126,57 ]
sbF
nF
] = [74,3 (1,96)
8,3
138
] = [74,3 (1,96)(0,71)
= [72,91 ; 75,69 ]
70
sbM
nM
] = [79,5 (1,96)
9,2
2010
] = [79,5 (1,96)(0,87]
112
= [77,79 ; 81,21]
com formato semelhante ao da normal, mas com as caudas um pouco mais altas ,
chamada de distribuio de Student, com n-1 graus de liberdade . O v alo r tem a
mesma interpretao dada na curva normal. Os percentis t ,n 1 podem ser encontrados
2
71
2010
st2 =
1 9
1
(t i t ) = [(4,9 6,2) 2 + (7, ,0 6,2) 2 + ... + (6,2 6,2) 2 ] = 1,35 min .2
9 1 i =1
8
GL
...
7
8
9
...
0,1
0,05
0,025
0,01
t,n-1
0,005
2,306
observa-se que t0, 025,9 1 =2,306
18
19
20
21
...
Figura 8.6 Determinao de um percentil na distribuio t de Student
K
K
nk
1 n
1 K
x
n
x
x
f k xk .
=
=
(
)
=
i n
k
x
n i =1
k =1
k =1 n
k =1
72
(8.5)
2010
x A = f A x A = (0). p + 1. p = p .
k =0
s A2 = p (1 p )
Isto ,
sA =
(8.7)
p (1 p ) .
(8.8)
x pela
proporo populacional A, (: letra grega pi), a mdia amostral x pela proporo
amostral do evento de interesse p e o desvio padro s x por s A . Isto :
IC[ A ; (1 )100%] = [ p t ,n 1
2
p (1 p )
].
n
(8.9)
Exemplo 8.3 Se a amostra de pronturios (de tamanho 60) do exemplo 3.2 pudesse
ser considerada aleatria simples, a estimativa pontual da proporo de atendimentos no
NAPES, no perodo 1994-1995, relacionados aos problemas de depresso seria
p D = 0,18 .
Neste caso, a variabilidade populacional seria estimada por:
s A2 = p (1 p ) = (0,18)(0,82) 0,15
e a correspondente estimativa intervalar, com 95% de confiana, seria dada por:
73
2010
p (1 p )
(0,18)(0,82)
] = [0,18 (1,64)
],
n
60
= [0,18 0,08] = [0,10 ; 0,26].
74
2010
CAPTULO 9
NOES GERAIS SOBRE TESTES DE HIPTESES
9.1 Introduo
Enquanto, na estimao pontual e intervalar, tem-se como objetivo estimar algum
parmetro populacional (como mdias ou propores ou taxas), agora o objetivo aqui
decidir se uma determinada afirmao verdadeira, assumindo-se um certo risco de
erro.
Por exemplo:
- s 5% dos atendimentos do NAPES, no perodo 1994 e 1995 eram de txico
dependentes;
- o tempo mdio gasto na execuo de um determinado procedimento mdico em
um servio de sade, de 30 minutos;
- a satisfao dos usurios de trs postos de sade com relao aos servios
prestados a mesma, etc.
Enquanto nas duas primeiras afirmaes so especificados os valores dos
parmetros ( =0,05 e =30 min.), na ltima no.
2010
H1: >0,05,
p =
isto ,
p ~ N( ;
(1 )
n
(9.1)
(1 )
(9.2)
),
n
(lembrando que nessa notao convencionado representar a varincia 2 , e no o
desvio padro ).
Considerar que a distribuio amostral de p seja:
N(0,05 ;
0,05(1 0,05)
) = N (0,05; (0,02) 2 )
n
2010
sob Ho tem-se
= 0,05
p 1 = 0,07
Grande ? ou No?
z=
0,07 0,05
p1
=
= 1,0(valor da estatstica amostral )
0,02
(1 )
n
0,5
N(0,05;(0,02)2)
N(0,1)
0,1587
0,3413
0,05 0,07
1,0
2010
(9.3)
p
Rejeio de aceitao de Ho
valor crtico
regio de rejeio de Ho
0,05
0,05 0,07
0,08
0
no rejeio
1,0 1,64
rejeio
O ponto crtico aqui o percentil que deixa uma rea sua direita de 0,05
O correspondente valor na distribuio amostral dado por:
1,64 =
p 0.05 0.5
p 0.05 = 0,05 + (1,64)(0,02) = 0,0828 0,08
0,02
78
2010
H1: ,<0,90.
Nesse caso, a regio de rejeio da hiptese nula ficar na cauda esquerda, a partir
de um valor crtico, determinado segundo um nvel de significncia estabelecido.
Quando a regio de rejeio est localizada somente em um lado da distribuio
amostral, o teste dito unilateral.
De um modo geral, para um parmetro (letra grega teta), como, por exemplo, uma
proporo populacional, uma mdia populacional, etc, para o qual se alega um valor o,
tem-se os testes unilaterais representados pelas duas curvas na figura a seguir:
Ho: = o
Ho: = o
H1: > o
H1: < o
o
c
Aceitar Ho
Rejeitar Ho
o
Rejeitar Ho
Aceitar Ho
2010
Ho: = o
H1: o
o
Rejeitar Ho Aceitar Ho Rejeitar Ho
+
c
(9.4)
define-se como o poder do teste, a probabilidade de rejeitar Ho , quando ela falsa, que
em smbolos representada por:
1 = P[Re jeitar H o | H o falsa ] .
(9.5)
80
2010
I1
x1,1
x1,2
I2
x2,1
x2,2
I3
x3,1
x3,2
...
...
...
In-1 In
xn-1,1 xn,1
xn-1,2 xn,2
, i = 1,2,3,..., n 1, n ,
(9.6)
1 n
di
n i =1
1 n
(d i d ) 2 ,
n 1 i =1
sd =
(9.7)
H1 : d > 0 ,
contra
d d d 0
d
=
=
sd
sd
sd
n
(9.8)
Nota-se que essa estatstica mede a distncia (em desvios padro) entre a mdia
amostral d , das diferenas, e a mdia populacional 0, das diferenas, sob a hiptese
Ho .
Se, para um nvel de significncia fixado (5% ou 1%), o p-valor menor do que
(p< ), rejeita-se a hiptese H o , caso contrrio, no se rejeita H o .
81
2010
0,05
0,01
tn-1
td
p ( maior ou menor que ?)
ii)
iii)
H1 : d < 0 e
H1 : d 0 .
contra
contra
igualmente em
numa cauda e
na outra da distribuio amostral.
2
A estatstica de teste td pode cair mais para um lado ou mais para o outro da
distribuio amostral. Nesse caso, o p-valor passa a ser o dobro da rea ( direita ou
esquerda), determinada sob a distribuio amostral, pela estatstica de teste (conforme a
sua posio na cauda direita ou esquerda). A regra de deciso anloga ao j exposto
anteriormente.
0.025
0.025
0,005
td
td
0,005
tn-1
Figura 9.7 Distribuio amostral da estatstica td e regra de deciso para o teste bilateral.
onde t (ou t ) o valor crtico, que deixa uma rea de (ou ) na cauda direita da
2
2
2010
(9.10)
Var[ X 1 X 2 ] =
12
n1
22
n2
(9.11)
contra
contra
contra
H 1 : 1 2 > 0
H 1 : 1 2 < 0 .
H 1 : 1 2 0
(9.12)
83
s12 s 22 2
+ )
n1 n 2
v=
s 22 2
s12 2
( )
( )
n2
n1
+
(n1 + 1) (n2 + 1)
2010
(9.13)
zd =
( x1 x 2 )
,
(9.14)
s12 s 22
+
n1 n2
cujo valor observado deve ser comparado com os valores crticos consultados na tabela
da distribuio normal padro. As regras de deciso so, ento:
i) se z d > z ,
ii) se z d < z .
iii) se | z d |> z ,
(9.15)
onde z (ou z ) o valor crtico, que deixa uma rea de (ou ) na cauda direita da
t d* =
sp
onde:
s 2p =
1
1
( + )
n1 n2
(9.16)
(9.17)
12
n1
84
22
n2
(9.18)
2010
para testar as hipteses i), ii) e iii), com as regras de deciso (9.15).
Exemplo 9.3 (fictcio) Para a comprovar a hiptese, ao nvel de 5% de significncia,
de que de um novo tipo de analgsico B mais eficiente que o analgsico tradicional A,
para uma determinada cefalia, poder-se-ia sortear uma amostra de, por exemplo, 90
sujeitos portadores desta cefalia para usarem o analgsico A e outra amostra
independente de 100 sujeitos para usarem o analgsico B. Aps a ingesto do
analgsico por cada sujeito experimental seria, ento, registrado o tempo, em minutos,
at o desaparecimento completo da dor. Este procedimento poderia ser realizado, por
exemplo, 5 vezes para cada sujeito, e tomada a mdia desses tempos para representar a
resposta de cada indivduo ao analgsico usado. Em seguida poderiam ser determinadas,
para cada amostra: a mdia, varincia e desvio padro desses dados, conforme os
resultados da tabela a seguir.
Tabela 9.2 Descrio dos tempos de execuo nas amostras A e B
analgsico amostra
A
90
B
100
mdia
19,3
18,9
varincia
1,3
1,9
desv padro
1,14
1,38
H1 : A B > 0 ,
contra
zd =
( x A xB )
s A2 s B2
+
n A nB
19,3 18,9
1,3 1,9
+
90 100
= 2,1872 2,19
Portanto, rejeita-se a hiptese de que as mdias dos tempos de efeito dos dois
analgsicos sejam iguais. O analgsico B apresenta mdia menor de tempos at o
desaparecimento da dor.
Se fosse realizado o teste bilateral:
iii ) H 0 : A B = 0
H1 : A B 0 ,
contra
Ento:
85
2010
p
= 0,5000 - 0,48574 = 0,0143 < 0,0250 = ,
2
2
p1 (1 p1 )
p (1 p 2 )
e 2
.
n1
n2
Quando n1 p1 > 5 e n2 p 2 > 5 , pode-se usar um teste aproximado de comparao das
propores, considerando cada uma das hipteses:
i ' ) H 0 : p1 p 2 = 0
ii ' ) H 0 : p1 p 2 = 0
iii ' ) H 0 : p1 p 2 = 0
contra
contra
contra
H 1 : p1 p 2 > 0
H 1 : p1 p 2 < 0 .
H 1 : p1 p 2 0
( p 1 p 2 )
p 1 (1 p 1 ) p 2 (1 p 2 )
+
n1
n2
(9.19)
p =
m1 + m2
,
n1 + n2
(9.20)
86
( p 1 p 2 )
z d* =
1
1
p (1 p )( + )
n1 n2
2010
(9.21)
contra
H1 : p A pB > 0
zd =
( p A p B )
p A (1 p A ) p B (1 p B )
+
nA
nB
0,71 0,67
0,71(1 0,71) 0,67(1 0,67)
+
200
200
= 0,8657 0,87.
Alternativamente, o p-valor :
p = 0,5000 - 0,30785 = 0,1922 > 0,01 = .
87
2010
s1 s 2
+
,
n1 n2
(9.22)
normal padro.
Tambm podem ser estabelecidos intervalos de confiana para diferenas de
mdias, anlogos a esse, para as situaes de amostras pequenas e de igualdade de
varincias apresentadas em A) e B), bem como para diferenas de propores.
A interpretao desses intervalos de confiana a mesma j apresentada no captulo
8. Ele pode ser usado, inclusive, para testar a hiptese iii), ao nvel de 100( )% de
significncia.
Construa e interprete os intervalos de confiana correspondentes aos exemplos 9.3. e
9.4.
9. 10 Anlise de varincia
2010
89
2010
REFERNCIAS BIBLIOGRFICAS
90
2010
91