Você está na página 1de 8

CAPÍTULO 6: Estimativas do intervalo de confiança

PÁGINAS 102-105, 119

6.1 INTRODUÇÃO À ESTIMATIVA


Existem dois tipos de estimativas que podem ser realizadas para qualquer parâmetro de
população: uma estimativa pontual e uma estimativa do intervalo de confiança. Uma estimativa
pontual de um parâmetro de população é uma estimativa de valor único desse parâmetro. Uma
estimativa do intervalo de confiança (IC) é um intervalo de valores de um parâmetro de
população com um nível de confiança atribuído (por exemplo, 95% de confiança de que o
intervalo contenha um parâmetro desconhecido). O nível de confiança é semelhante a uma
probabilidade. O IC inicia com a estimativa pontual e cresce para o que chamamos de margem
de erro. A margem de erro incorpora o nível de confiança (por exemplo, 90% ou 95%, que é
escolhido pelo pesquisador) e a variabilidade da amostragem ou o erro padrão da estimativa
pontual.

O IC é um intervalo de valores que é provável de cobrir o parâmetro real da população; sua forma
geral é estimativa pontual ± margem de erro. A estimativa pontual é determinada primeiro. As
estimativas pontuais para a média e a proporção da população são a média e a proporção da
amostra, respectivamente. São nossas melhores estimativas de valor único de parâmetros de
população desconhecidos. Como vimos no Capítulo 5, a média da amostra é um avaliador
imparcial da média da população. O mesmo vale para a proporção da amostra em relação à
estimativa da proporção da população. Assim, o ponto de saída, ou a estimativa pontual, do IC
da média da população é a média da amostra, e a estimativa pontual da proporção da população
é a proporção da amostra.

Em seguida, um nível de confiança é selecionado para refletir a probabilidade de que o IC


contenha o parâmetro real e desconhecido. Geralmente, os níveis de confiança de 90%, 95% e
99% são escolhidos, embora teoricamente qualquer nível de confiança entre 0% e 100% possa
ser selecionado.

Imagine que queremos gerar uma estimativa de IC de uma média de população desconhecida.
Mais uma vez, a forma do IC é a estimativa pontual ± margem de erro ou �
X ± margem de erro.
Suponha que selecionamos um nível de confiança de 95%. Isso significa que há uma
probabilidade de 95% de que o IC contenha a média da população real. Assim,

� − margem de erro < μ < X


P(X � + margem de erro) = 0,95.

No Capítulo 5, introduzimos o Teorema central do limite que determina que, para amostras
grandes, a distribuição das médias da amostra é aproximadamente normal com uma média de
𝜎𝜎
𝜇𝜇X� = 𝜇𝜇 e um desvio padrão de 𝜎𝜎X� = . Usamos o Teorema central do limite para
√𝑛𝑛
desenvolver a margem de erro.

Para a distribuição normal padrão, o seguinte é uma afirmação verdadeira: P(−1,96 < z < 1,96)
= 0,95, ou seja, há uma chance de 95% de que uma variável normal padrão (z) caia entre -1,96
� −𝜇𝜇
X
e 1,96. O Teorema central do limite determina que, para amostras maiores, 𝑧𝑧 = 𝜎𝜎 . Se
� 𝑛𝑛

� −µ
X
fizermos essa substituição, a seguinte afirmação será verdadeira: P �−1,96 𝜎𝜎 < 1,96� = 0,95.
� 𝑛𝑛

Usando álgebra, podemos reformular essa desigualdade de forma que a média (µ) seja o meio
termo. As etapas estão descritas a seguir:


X−µ
P �−1,96 𝜎𝜎 < 1,96� = 0,95
� 𝑛𝑛

𝜎𝜎 𝜎𝜎
P �−1,96 <�
X − µ < 1,96 � = 0,95
√𝑛𝑛 √𝑛𝑛
𝜎𝜎 𝜎𝜎
� − 1,96
P �−X � + 1,96
< −µ < −X � = 0,95
√𝑛𝑛 √𝑛𝑛
𝜎𝜎 𝜎𝜎
� − 1,96
P �−X � + 1,96
<µ<X � = 0,95
√𝑛𝑛 √𝑛𝑛
O IC de 95% da média da população é o intervalo na última afirmação de probabilidade e é
X ± 1,96 𝜎𝜎� . A margem de erro é 𝜎𝜎� é o erro padrão (ou o desvio padrão
fornecido por: �
√𝑛𝑛 √𝑛𝑛
da estimativa pontual, �
X). A forma geral de um IC pode ser reescrita da seguinte forma:

estimativa pontual ± SE (estimativa pontual),

em que z é o valor da distribuição normal padrão que reflete o nível de confiança selecionado
(por exemplo, para um nível de confiança de 95%, z = 1,96). A Tabela 1B no Apêndice contém
os valores z de níveis de confiança populares, como 90%, 95% e 99%. Na Tabela 1B, vemos
que para 90%, z = 1,645; para 95%, z = 1,96; e para 99%, z = 2,576. Níveis mais altos de
confiança têm valores z maiores, o que converte para margens de erro maiores e ICs maiores.
Por exemplo, para ter 99% de confiança de que um IC contém um parâmetro real
desconhecido, precisamos de um intervalo maior. Em muitas aplicações, um nível de confiança
de 95% é usado. Este é um valor geralmente aceito, mas não recomendado.

Na prática, muitas vezes não sabemos o valor do desvio padrão da população (σ). Se o tamanho
da amostra for grande (n > 30), então o desvio padrão da amostra (s) pode ser usado para estimar
o desvio padrão da população. Observe que a derivação anterior foi baseada no Teorema central
do limite, que requer um tamanho de amostra maior. Há casos em que o tamanho da amostra
não é suficientemente grande (p. ex., n < 30), portanto, o resultado geral do Teorema central do
limite não se aplica. Nesse caso, não podemos usar a distribuição normal padrão (z) no intervalo
de confiança. Em vez disso, usamos outra distribuição de probabilidade, chamada de distribuição
t, que é mais adequada para amostras pequenas.

A distribuição t é outro modelo de probabilidade para uma variável contínua. A distribuição t é


semelhante à distribuição normal padrão, mas toma uma forma levemente diferente, dependendo
do tamanho exato da amostra. Especificamente, os valores t dos ICs são maiores para amostras
menores, resultando em margens de erro maiores (ou seja, há mais imprecisão com amostras
pequenas). Os valores t dos ICs são apresentados na Tabela 2 do Apêndice. Os valores t foram
indexados por níveis de liberdade (df) na Tabela 2, que foi definido como n - 1. A Tabela 6-2 é
um extrato da Tabela 2, que mostra os valores t de pequenas amostras que cobrem tamanhos
de 5 a 10 (assim, os níveis de liberdade variam entre 4 e 9, pois df = n − 1).

TABELA 6–2 t Valores dos intervalos de


confiança
Nível de confiança
df 80% 90% 95% 98% 99%
4 1,533 2,132 2,776 3,747 4,604
5 1,476 2,015 2,571 3,365 4,032
6 1,440 1,943 2,447 3,143 3,707
7 1,415 1,895 2,365 2,998 3,499
8 1,397 1,860 2,306 2,896 3,355
9 1,383 1,833 2,262 2,821 3,250

Diretrizes específicas para usar a distribuição normal padrão (z) ou distribuição t são fornecidas
nas seções subsequentes, conforme analisamos as fórmulas de IC para aplicações específicas.
É importante observar que o uso adequado da distribuição t pressupõe que o resultado de
interesse seja aproximadamente distribuído normalmente.

Antes de fornecer fórmulas específicas, primeiro discutiremos a interpretação de ICs em geral.


Imagine que queremos estimar uma média de população usando um nível de confiança de 95%.
Se pegarmos 100 amostras diferentes (na prática, utilizaremos apenas uma) e para cada amostra
computarmos um IC de 95%, em teoria, 95 de 100 ICs terão o valor médio real (μ). Isso resulta
que, 5 das 100 ICs não incluirão o valor médio real. Na prática, selecionamos uma amostra
aleatória e geramos um IC. Esse intervalo pode ou não conter a média real; o intervalo observado
pode superestimar μ ou subestimar μ. O IC de 95% é o intervalo provável do parâmetro real e
desconhecido. É importante observar que um IC não reflete a variabilidade no parâmetro
desconhecido, mas, em vez disso, fornece um intervalo de valores que, provavelmente, incluirão
o parâmetro desconhecido.

6.2 INTERVALOS DE CONFIANÇA PARA UMA AMOSTRA, RESULTADO


CONTÍNUO
Queremos estimar a média de uma variável de resultado contínuo em uma única população. Por
exemplo, queremos estimar a pressão arterial sistólica média, o índice de massa corporal (IMC),
o nível total de colesterol ou a contagem de glóbulos brancos em uma única população.
Selecionamos uma amostra e computamos as estatísticas descritivas dos dados da amostra
usando as técnicas descritas no Capítulo 4. Especificamente, computamos o tamanho da
�), e o desvio padrão da amostra (s). As fórmulas dos ICs da
amostra (n), a média da amostra (X
média da população dependem do tamanho da amostra e são fornecidas na Tabela 6-3.
TABELA 6–3 Intervalo de confiança para μ
𝑠𝑠
𝑛𝑛 ≥ 30 �
X ± 𝑧𝑧 (Encontre 𝑧𝑧 na Tabela 1B)
√𝑛𝑛
𝑛𝑛 < 30 𝑠𝑠 (Encontre 𝑡𝑡 Tabela 2, 𝑑𝑑𝑑𝑑

X ± 𝑡𝑡
√𝑛𝑛 = n − 1)

Exemplo 6.1. No Capítulo 4, apresentamos dados sobre n = 3.539 participantes que


compareceram ao sétimo exame do Framingham Offspring Study. As estatísticas descritivas das
variáveis medidas na amostra são apresentadas na Tabela 6-4 (essas e outras estatísticas foram
apresentadas na Tabela 4-20). Os números de participantes (n) que forneceram informações
sobre cada características são mostrados na segunda coluna da Tabela 6–4.

TABELA 6–4 Resumo das Estatísticas de


participantes que compareceram ao sétimo exame
do Framingham Offspring Study (n = 3.539)

n �) Desvio padrão (s)


Média(𝐗𝐗
Pressão arterial 3534 127,3 19,0
sistólica
Pressão arterial 3532 74,0 9,9
diastólica
Colesterol sérico 3310 200,3 36,8
total
38,7
Peso (libras) 3506 174,4 3,749
Altura (pol.) 3326 65,957
Índice de massa 3326 28,15 5,32
corporal (IMC)

Queremos gerar um IC de 95% da pressão arterial sistólica usando os dados coletados no


Framingham Offspring Study. Como o tamanho da amostra é grande, usamos a seguinte fórmula,

𝑠𝑠
� ± 𝑧𝑧
X .
√𝑛𝑛
O valor z de confiança de 95% é z = 1,96. Substituindo as estatísticas da amostra e o valor z de
confiança de 95%, temos

19,0
127,3 ± 1,96 .
√3534
Fazendo as computações, temos
127,3 ± 0,63.
Somando e subtraindo a margem de erro, temos (126,7, 127,9). Uma estimativa pontual da
pressão arterial sistólica média real na população é de 127,3 e temos 95% de confiança de que
a média real fique entre 126,7 e 127,9. A margem de erro é muito pequena aqui por causa do
tamanho grande da amostra.

Um IC de 90% de IMC é fornecido abaixo. Observe que z = 1,645 para refletir o nível de confiança
de 90%:

5,32
28,15 ± 1,645 ,
√3326

28,15 ± 0,152,

(28,00, 28,30).

emos 90% de confiança de que o IMC médio real na população fique entre 28,00 e 28,30. Mais
uma vez, o IC é muito preciso ou restrito por causa do tamanho grande da amostra.

Exemplo 6.2. No Capítulo 4, também apresentamos dados sobre uma subamostra de n = 10


participantes que compareceram ao sétimo exame do Framingham Offspring Study. As
estatísticas descritivas das variáveis medidas na subamostra são apresentadas na Tabela 6-5
(essas e outras estatísticas foram apresentadas na Tabela 4-18).

TABELA 6–5 Resumo das Estatísticas de


n = 10 participantes que compareceram ao
sétimo exame do Framingham Offspring
Study

n �) Desvio padrão (s)


Média(𝐗𝐗
Pressão arterial 10 121,2 11,1
sistólica
Pressão arterial 10 71,3 7,2
diastólica
Colesterol sérico 10 202,3 37,7
total
Peso (libras) 10 176,0 33,0
Altura (pol.) 10 67,175 4,205
Índice de massa 10 27,26 3,10
corporal (IMC)

Suponha que computamos um IC de 95% para a pressão arterial sistólica real usando os dados
da subamostra. Como o tamanho da amostra é pequeno, agora precisamos usar a fórmula de IC
que envolva t em vez de z,

𝑠𝑠
� ± 𝑡𝑡
X
√𝑛𝑛
Primeiro, precisamos determinar o valor t correto da Tabela 2. Para fazer isso, precisamos df =
n – 1 = 10 – 1 = 9. O valor t de 95% de confiança com df = 9 é t = 2,262. Substituindo as
estatísticas da amostra e o valor t de confiança de 95%, temos

11,1
121,2 ± 2,262 .
√10
Fazendo as computações, temos

121,2 ± 7,94.

Somando e subtraindo a margem de erro, temos (113,3, 129,1). Com base nessa amostra de
tamanho n = 10, nossa melhor estimativa da pressão arterial sistólica média real na população é
121,2. Com base nessa amostra, temos 95% de confiança de que a pressão arterial sistólica
média na população fica entre 113,3 e 129,1. Observe que a margem de erro é maior aqui
principalmente por causa do tamanho menor da amostra.

Usando a subamostra, agora computamos um IC de 90% para o IMC médio. Como o tamanho
da amostra é pequeno, novamente precisamos determinar um valor adequado a partir da
distribuição t. Para 90% de confiança com df = 9, t = 1,833.

3,10
27,26 ± 1,833 ,
√10

27,26 ± 1,80,

(25,46, 29,06).

Temos 90% de confiança de que o IMC médio real na população fique entre 25,46 e 29,06.
Novamente, por causa do tamanho pequeno da amostra, o IC é menos preciso.
CAPÍTULO 7: Teste de hipóteses
PÁGINAS 163-164

7.10 RESUMO
Testes de hipóteses envolvem várias etapas, incluindo a especificação da hipótese nula e da
hipótese alternativa ou de pesquisa, a seleção e a computação de uma estatística de teste
adequada, a definição de uma regra de decisão e a conclusão. Existem muitos detalhes a serem
considerados no teste de hipóteses. O primeiro é determinar o teste apropriado. Discutimos que
os testesz, t, χ2 e F são usados para diferentes aplicações. O teste adequado depende da
distribuição da variável do resultado (contínua, dicotômica, categórica ou ordinal), do número de
grupos de comparação (um, dois ou mais de dois), e se os grupos de comparação são
independentes ou dependentes. A Tabela 7–50 resume os diferentes testes de hipóteses
discutidos aqui.

TABELA 7–50 Resumo das fórmulas importantes para testes de hipóteses


Variável de resultado, Número de grupos: hipóteses nula Estatística de teste*

Resultado contínuo, uma amostra: H0: µ = µ0 � − 𝜇𝜇0


X
𝑧𝑧 =
𝑠𝑠⁄√𝑛𝑛
�1 − X
X �2
Resultado contínuo, duas amostras independentes: 𝑧𝑧 =
H 0: µ 1 = µ 2 S𝑝𝑝 �1⁄𝑛𝑛1 + 1⁄𝑛𝑛2

Resultado contínuo, duas amostras correspondentes: �


X 𝑑𝑑 − 𝜇𝜇𝑑𝑑
𝑧𝑧 =
H 0: µ d = 0 𝑆𝑆𝑑𝑑 ⁄√𝑛𝑛
2
Resultado contínuo, mais de duas amostras �𝑗𝑗 − �
∑ 𝑛𝑛𝑗𝑗 �X X� �(𝑘𝑘 − 1)
independentes: H0: µ1 = µ2 = … = µk F= 2
ΣΣ �X − �
X𝑗𝑗 � �(N − k)
𝑝𝑝̂ − 𝑝𝑝0
Resultado dicotômico, uma amostra: H0: p = p0 𝑧𝑧 =
�𝑝𝑝0 (1 − 𝑝𝑝0 )
𝑛𝑛
Resultado dicotômico, duas amostras 𝑝𝑝̂1 − 𝑝𝑝̂2
independentes: H0: p1 = p2, RD = 0, RR = 1, OR = 1 𝑧𝑧 =
𝑝𝑝̂ (1 − 𝑝𝑝̂ )(1⁄𝑛𝑛1 + 1⁄𝑛𝑛2 )

Resultado categórico ou ordinal, uma amostra:H0: p1 (Ο − Ε)2


= p10, p2 = p20, …, pk = pk0 𝑥𝑥 2 = � , 𝑑𝑑𝑑𝑑 = 𝑘𝑘 − 1
E

Resultado categórico ou ordinal, duas ou mais (Ο − Ε)2


𝑥𝑥 2 = � , 𝑑𝑑𝑑𝑑 = (𝑟𝑟 − 1)(𝑐𝑐 − 1
amostras independentes: H0: Resultados e grupos E
são independentes
*Consulte as Tabelas 7–4, 7–11 e 7–14 para ver fórmulas alternativas que são apropriadas para amostras pequenas.
Uma vez que o tipo de teste for determinado, os detalhes do teste deverão ser especificados.
Mais especificamente, a hipótese nula e de pesquisa devem ser claramente definidas. A hipótese
nula sempre reflete a situação "sem alteração" ou "sem diferença". A hipótese alternativa ou de
pesquisa reflete a convicção do pesquisador. O pesquisador deve formular uma hipótese de que
um parâmetro (por exemplo, uma média, uma proporção, diferença em médias ou diferença em
proporções) aumentará, diminuirá ou será diferente em condições específicas (às vezes, as
condições são diferentes condições experimentais e outras vezes, as condições são definidas
pelos atributos dos participantes). Uma vez que as hipóteses são especificadas, os dados são
coletados e resumidos. Em seguida, o teste apropriado é conduzido de acordo com uma
abordagem de cinco etapas. Se o teste resultar na rejeição da hipótese nula, um valor p-
aproximado será computado para resumir a significância estatística dos resultados. Quando os
testes de hipóteses são conduzidos usando pacotes de computação estatísticas, valores p
exatos são computados. Como as tabelas estatísticas contidas neste livro didático são limitadas,
apenas aproximamos os valores p. Se o teste não rejeitar a hipótese nula, uma conclusão mais
fraca será realizada.

No teste de hipóteses, existem dois tipos de erros que podem ser cometidos. Um erro de Tipo I
ocorre quando um teste rejeita incorretamente uma hipótese nula. Isso é chamado de resultado
falso positivo e a probabilidade de sua ocorrência ser igual no nível de significância, a. O
pesquisador escolhe o nível de significância e escolha intencionalmente um valor pequeno, como
α = 0,05, para controlar a probabilidade de cometer um erro de Tipo I. Um erro de Tipo I ocorre
quando um teste não rejeita a hipótese nula quando, na realidade, ela é falsa. A probabilidade
de sua ocorrência é igual a b. Infelizmente, o pesquisador não conseguirá especificar β, pois
depende de vários fatores, incluindo o tamanho da amostra (amostras menores têm β maiores),
o nível de significância e a diferença no parâmetro sob as hipóteses nulas e alternativas. (Para
obter mais detalhes, consulte D’Agostino, Sullivan e Beiser.5)

Em vários exemplos, notamos a relação entre intervalos de confiança e testes de hipóteses.


Embora as abordagens sejam ligeiramente diferentes, elas estão claramente relacionadas. É
possível chegar à conclusão sobre a significância estatística pela análise do intervalo de
confiança. Por exemplo, se um intervalo de confiança de 95% não contiver o valor nulo do
parâmetro de interesse (por exemplo, 0 ao analisar uma diferença em médias ou diferença de
risco, 1 ao analisar riscos relativos ou razão de possibilidades), então concluímos que um teste
bilateral das hipóteses é significativo em α = 0,05. É importante observar que a correspondência
entre um intervalo de confiança e um teste de hipóteses se relaciona a um teste bilateral, e que
o nível de confiança corresponde a um nível bilateral específico de significância (por exemplo,
95% a α = 0,05, 90% para α = 0,10, e assim por diante). A significância exata do teste, o valor p,
pode ser determinado somente pelo uso da abordagem de teste de hipótese.

Sullivan, L. M. (2018). Essentials of biostatistics in public health. (Componentes básicos da bioestatística


em saúde pública.) Burlington, Massachusetts: Jones & Bartlett Learning.

Você também pode gostar