Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Introdução à
Análise de Dados
1
As origens da estatística
Fins administrativos
As origens da estatística
Ao longo do séc. XVIII e XIX, a estatística
sofreu um desenvolvimento importante.
2
As origens da estatística
No passado, poder-se-ia assumir que
a Estatística era a ciência do
processamento de dados. Hoje é
mais provável que um estatístico
considere que o objeto da Estatística
é a tomada de decisões num
contexto de incerteza
Estatística
Estatística é a ciência que se ocupa da
obtenção de informação, seu tratamento
inicial, com a finalidade de, através de
resultados probabilísticos adequados,
inferir de uma amostra para a população,
e eventualmente mesmo prever a
evolução futura de um fenómeno.
3
Duas Fases da Estatística
Estatística Descritiva: descrever e estudar uma
amostra
Estatística Indutiva (inferencial): a partir de
uma amostra inferir sobre as características de
uma população
amostragem
4
Amostra Aleatória
Note que usamos letras minúsculas
pois estamos a definir concretizações
(observações) de variáveis aleatórias
Variância amostral:
2
n i 1
S2 1
n
(Xi X )
5
x
População e Amostra
Qual a importância na recolha da
amostra?
6
Dados
O objetivo da maioria dos estudos é
reunir dados para obter informações
sobre uma determinada área de
investigação.
Os dados englobam observações de
uma ou mais variáveis.
Qualquer quantidade ou qualidade
que varie denomina-se variável.
Dados
Obtêm-se dados a partir de uma amostra
que representa uma população
7
Dados
Dados categóricos (Qualitativos)
Dados nominais – as categorias não estão
ordenadas, possuem simplesmente nomes
Ex: Grupo sanguíneo; estado civil; sexo
Dados
Dados numéricos (Quantitativos)
8
Classificação dos Dados
VARIÁVEL
Categórica
Numérica
(qualitativa) (quantitativa)
9
Ferramentas de Estatística Descritiva
Cálculo numérico de medidas amostrais.
Medidas amostrais
Tendência ou localização central:
média (mean),
mediana (median),
moda (mode),
média aparada (trimmed mean).
10
Medidas amostrais
Localização relativa:
Mínimo (minimum),
Máximo (maximum),
Quantil (quantile),
Quartil (quartile),
Percentil (percentile).
Medidas amostrais
Dispersão:
amplitude (range),
distância inter-quartil (inter-quartile range),
variância (variance),
desvio padrão (standard deviation),
coeficiente de variação (coefficient of
variation),
11
Medidas amostrais
Assimetria:
Coeficiente de assimetria (skweness).
Tabelas de frequências
Tabelas que resumem a informação
contida na amostra, ordenando os seus
valores e agrupando-os em classes (de
valores repetidos ou de valores
distribuídos por intervalos).
12
Gráficos
Gráficos de frequências
Histogramas
Caixas de bigodes ou diagramas de
extremos e quartis (boxplots)
Diagramas de caule-e-folhas (stem and
leaf)
Diagramas de dispersão (scatterplot)
13
Tabela de frequências
Exemplo de uma tabela produzida pelo SPSS:
Durante um ano contabilizou-se diariamente o n.º de golfinhos
presos nas redes dos pescadores das águas açorianas.
Cumulative
Frequency Percent Valid Percent Percent
Valid 0 37 14,4 14,4 14,4
1 45 17,5 17,5 31,9
2 84 32,7 32,7 64,6
3 52 20,2 20,2 84,8
4 23 8,9 8,9 93,8
5 11 4,3 4,3 98,1
6 2 ,8 ,8 98,8
8 1 ,4 ,4 99,2
9 1 ,4 ,4 99,6
13 1 ,4 ,4 100,0
Total 257 100,0 100,0
Tabela de frequências
Exemplo de uma tabela produzida pelo SPSS:
Durante um ano contabilizou-se diariamente o n.º de golfinhos
presos nas redes dos pescadores das águas açorianas.
nº de golfinhos presos num dia
Cumulative
Frequency Percent Valid Percent Percent
Valid 0 37 14,4 14,4 14,4
1 45 17,5 17,5 31,9
2 84 32,7 32,7 64,6
3 52 20,2 20,2 84,8
4 23 8,9 8,9 93,8
5 11 4,3 4,3 98,1
6 2 ,8 ,8 98,8
8 1 ,4 ,4 99,2
9 1 ,4 ,4 99,6
13 1 ,4 ,4 100,0
Total 257 100,0 100,0
14
Medidas amostrais
Tendência ou localização central:
média (mean),
mediana (median),
moda (mode),
média aparada (trimmed mean).
x x ... xn x x i
i
x 1 2 i 1
n n n
Se os dados estiverem agrupados (k valores distintos)
x f x f ... x f
* * * x *
i i f
x *
f
i i
x 1 1 2 2 n n
i 1
n n n
onde fi designa a frequência absoluta de xi* (ou a frequência absoluta
da classe com marca xi* no caso de dados agrupados em classes)
15
Medidas de localização central: Média
A média pode ser pensada como o centro de
massa dos valores das observações, ie, o ponto
de equilibrio após dispormos as observações
sobre uma régua.
16
Medidas de localização central: Média aparada
Uma média aparada não é mais do que uma
“mistura” entre os conceitos de média e mediana
por forma a combinar as qualidades de ambas.
Uma média aparada é uma média que é calculada
excluindo uma certa proporção de observações
em cada extremo da amostra.
Moda
17
Medidas de localização central: Moda
Medidas amostrais
Localização relativa:
Mínimo (minimum),
Máximo (maximum),
Quantil (quantile),
Quartil (quartile),
Percentil (percentile).
18
Medidas de localização relativa: Mínimo e Máximo
19
Medidas de localização relativa: Quantis e Percentis
Quantil de ordem p (0≤ p ≤ 1)– é um
valor, xp, que divide a amostra em duas
partes, tal que à esquerda de xp está a
proporção p da amostra e à direita a
proporção 1-p.
Percentil de ordem p (p vai de 1 a 100) -
é o mesmo que um quantil mas em que a
proporção é dada em percentagem.
Medidas amostrais
Dispersão:
amplitude (range),
distância inter-quartil (inter-quartile range),
variância (variance),
desvio padrão (standard deviation),
coeficiente de variação (coefficient of
variation),
20
Medidas de dispersão: Amplitude
A amplitude de uma amostra é a diferença
entre o máximo e o mínimo.
Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.3 a
amplitude é 2.3 - 1.2 = 1.1 .
21
Medidas de dispersão: variância
A variância é a média dos quadrados dos desvios
das observações em relação à média da amostra.
22
Medidas de dispersão: coeficiente de variação
O Coeficiente de variação é a razão entre o
desvio padrão e a média, v = s / x.
23
Medidas amostrais: assimetria
Uma distribuição possui assimetria positiva
(alternativamente negativa) quando existe uma
concentração de valores na zona de valores mais
reduzidos (alternativamente elevados) da
amostra.
Assimetria positiva:
moda média
mediana
24
Medidas amostrais: assimetria
Assimetria negativa: média < mediana < moda
Gráficos
Gráficos de frequências
Histogramas
Caixas de bigodes ou diagramas de
extremos e quartis (boxplots)
Diagramas de caule-e-folhas (stem and
leaf)
Diagramas de dispersão (scatterplot)
25
Histogramas
O histograma é um gráfico que reflecte a forma
da distribuição de frequências da amostra.
Também procura reflectir a estrutura (forma) da
população de onde foi retirada a amostra.
Histogramas
A apresentação do histograma depende
muito do número de classes considerado.
Um número muito grande de classes
produz um histograma com demasiada
irregularidade, enquanto um histograma
com um número demasiado reduzido de
classes oculta a forma da distribuição
(perde-se demasiada informação).
26
Histogramas
Poucas classes Muitas classes
Gráficos de frequências
Gráficos de frequências são gráficos de barras
que traduzem graficamente o conteúdo da tabela
de frequências. Os mais habituais são os gráficos
de frequências absolutas ou relativas, mas
também podemos construir gráficos de
frequências absolutas ou relativas acumuladas.
27
Gráficos de frequências
Chama-se função de distribuição empírica à
função cuja imagem gráfica é o gráfico de
frequências relativas acumuladas.
Exemplo:
100%
75%
Percent
50%
25%
0%
0 1 2 3
Caixas de bigodes
Pode ser encarada como a representação gráfica
de algumas medidas de localização:
mediana
Q1 Q3 outliers e extremos
28
Caixas de bigodes
Mínimo da amostra Máximo da amostra
mas não menos de mas não mais de
Q1-1.5(Q3-Q1) Q3+1.5(Q3-Q1)
Caixa de bigodes
Algumas caixas têm os bigodes até ao
mínimo e máximo e não têm
representados outliers.
As caixas de bigodes dão informação
sobre
A localização central: mediana
Outras localizações: 1º e 3º quartis e mínimo e
máximo.
Dispersão: amplitude e distância inter-quartil
Assimetria: posição relativa da mediana na
caixa,
comprimento dos bigodes.
29
Caixas de bigodes
30
Sumário
Introdução ao SPSS
Objectivos
31
A importância do SPSS nas Ciências
Sociais
A possibilidade de realizar cálculos estatísticos complexos
e visualizar os seus resultados em poucos segundos, pode
tornar-se perigoso, na medida em que podemos aplicar
procedimentos estatísticos que desconhecemos, não
sabendo como se efectuam ou para que servem.
Introdução ao SPSS
32
Introdução ao SPSS
I. Lógica de funcionamento e manipulação do
programa
B. C.
Preparação Operações
dos dados estatísticas
A. Dados
Unidade 2: SPSS
Introdução ao SPSS
I. Lógica de funcionamento e manipulação do
programa
A. Dados
Introdução dos dados e
B. C. definição das variáveis
Operações Resultados
B. Operações
Preparação dos dados
Transformação dos dados
C. Resultados
A. Dados
33
Lógica de funcionamento e manipulação
do programa
Editor de célula
N.º Célula
de activa
linha
Nome
da
variável
34
As janelas do SPSS
Há seis tipos de janelas nos SPSS:
Dados
1. Data View
2. Variable View
Operações
3. Syntax Editor
Resultados
4. Output Navigator
6. Chart Editor
35
As janelas do SPSS - Dados
2. Variable View – Permite proceder à definição das variáveis (nome, tipo,
casas decimais, modalidades de resposta,…).
36
As janelas do SPSS- Resultados
4. Output Navigator – Onde são apresentados todos os resultados
estatísticos, tabelas, gráficos. Abre automaticamente, sempre que um
determinado procedimento gera resultados.
37
As janelas do SPSS- Resultados
6. Chart Editor – Permite editar e modificar gráficos. Podem alterar-se as
cores, seleccionar tipos e tamanhos de letras, trocar os eixos vertical
com horizontal, fazer rotações, etc.
38
Construção da matriz de dados
Processo de codificação e introdução de dados
39
Construção da matriz de dados
Processo de introdução de dados
40
Construção da matriz de dados
A. Importação de um ficheiro de dados (do Excel)
2. Se forem escolhidas as seguintes opções de abertura:
41
Construção da matriz de dados
B. Introdução dos dados no SPSS
42
Construção da matriz de dados
B. Introdução dos dados no SPSS
Definição de variáveis
O SPSS permite definir as seguintes características de uma
variável:
a) O nome da variável
b) O tipo da variável
c) Descrição da variável e dos seus valores
d) Códigos especiais para valores em falta
e) Escalas de medida
43
Construção da matriz de dados
B. Introdução dos dados no SPSS
Definição de variáveis
O SPSS permite definir as seguintes características de uma
variável:
a) O nome da variável
b) O tipo da variável
c) Descrição da variável e dos seus valores
d) Códigos especiais para valores em falta
e) Escalas de medida
44
Construção da matriz de dados
B. Introdução dos dados no SPSS
Definição de variáveis
O SPSS permite definir as seguintes características de uma
variável:
O nome da variável
O tipo da variável
Descrição da variável e dos seus valores
Códigos especiais para valores em falta
Escalas de Medida
45
Construção da matriz de dados
Alterações das opções de ambiente
As opções escolhidas
permitem visualizar os
nomes das variáveis
por ordem alfabética,
nas listas de variáveis
das caixas de diálogo.
Inferência Estatística
inferir certas características
da população
n indivíduos da população
ex: sortear n pixels de uma imagem
(com ou sem reposição)
amostra n realizações de uma v.a. X
ex: medir a reflectância de um
objecto n vezes
distribuição conhecida/desconhecida
e/ou parâmetros desconhecidos
a amostra constitui um conjunto de n
v.a. X1, X2, ..., Xn independentes e
identicamente distribuídas com
distribuição FX
Amostra Aleatória
46
Amostra Aleatória
Note que usamos letras minúsculas
pois estamos a definir concretizações
(observações) de variáveis aleatórias
Experiências aleatórias
Uma experiência aleatória trata-se de um
processo que conduz à obtenção de um resultado
individual (ou elementar) com as seguintes
características:
47
Experiências aleatórias
Acontecimento: Qualquer colecção de
resultados de uma experiência.
Variáveis aleatórias
Uma variável aleatória é uma variável que assume
um valor numérico determinado pelo resultado de
uma experiência aleatória.
Exemplos:
O número de objectos defeituosos numa amostra de
20 de uma grande encomenda;
O número de clientes que chegam a uma loja numa
hora;
O número de erros detectados nas contas de uma
empresa num ano.
48
Variáveis aleatórias
Uma variável aleatória diz-se contínua quando
assume qualquer valor num dado intervalo.
Exemplos:
O rendimento anual de uma família;
A quantidade de petróleo importado num país num
ano;
O tempo entre a instalacão de um computador novo
e a sua falha;
A altura de um indivíduo.
Probabilidade
P - denota a probabilidade.
A, B, e C - denota acontecimentos
específicos.
49
Cálculo de probabilidades: conceito
clássico
Suponha que uma experiência é composta por n
acontecimentos elementares distintos, em que
cada um tem a mesma chance de ocorrer. Se o
acontecimento A pode ocorrer em k desses n
acontecimentos elementares, então
k nº de casos favoráveis a A
P(A) = =
n nº de acontecimentos elementares distintos
Probabilidade
Qual a
probabilidade do
objecto
seleccionado ser
quadrado ou ser
vermelho?
8
P (Quadrado Vermelho)
9
50
Cálculo de probabilidades: conceito
frequencista
Realize (ou observe) uma experiência um
grande nº de vezes, e conte o nº de vezes
em que ocorreu o acontecimento A.
Baseado nestes resultados, P(A) é
estimada por
nº de vezes que A ocorreu
P(A) =
nº de experiências realizadas
51
Estabilização das frequências
relativas
52
Valores das probabilidades
A probabilidade de um acontecimento
impossível é 0 (zero).
A probabilidade de um acontecimento
certo é 1.
Distribuições de probabilidades
As Distribuições de Probabilidade
descrevem o que provavelmente
acontecerá em vez de o que realmente
aconteceu.
53
Variáveis aleatórias
Uma variável aleatória é uma variável
(usualmente representada por X) que toma um
certo valor numérico, determinado pelo acaso, de
cada vez que a experiência é realizada. A variável
aleatória associa números aos acontecimentos do
espaço dos possíveis.
Uma distribuição de probabilidade permite
calcular a probabilidade correspondente a cada
valor ou conjunto de valores da variável
aleatória.
54
Variáveis discretas
Ficam completamente definidas por
qualquer uma das seguintes funções:
Função de distribuição
F(x)=P(X ≤ x)
Variáveis discretas
A função massa de probabilidade (ou
função probabilidade), P(x), de uma
variável aleatória discreta expressa a
probabilidade que X tome o valor x,
como função de x. Ou seja,
55
Variáveis discretas
Gráfico da função massa de probabilidade para
um lançamento de um dado
P(x)
1/6
1 2 3 4 5 6 x
Variáveis discretas
Seja X uma v.a. discreta com função
massa de probabilidade, P(x). Então,
P(x) 0 para qualquer valor de x;
A soma das probabilidades individuais é
igual a 1; ou seja,
P (x) 1
x
56
Variáveis discretas
A função de distribuição cumulativa,
F(x0), de uma variável aleatória X
expressa a probabilidade que X não
exceda o valor de x0, como função de
x0. Ou seja,
F ( x0 ) P ( X x0 )
Variáveis discretas
Seja X uma v.a. discreta com função
massa de probabilidade P(x) e função
de distribuição cumulativa F(x0).
Então pode ser mostrado que
F (x0 ) P(X )
x x0
57
Variáveis discretas
População Amostra
58
Variáveis contínuas
Variáveis contínuas
Ficam completamente definidas por
qualquer uma das seguintes funções:
59
Variáveis contínuas
Função de distribuição
F(x)=P(X ≤ x), para todo o x real.
60
Função densidade de probabilidade,
f.d.p.
P ( x1 X x2 ) f ( x)dx
x1
61
Variáveis contínuas
População Amostra
62
Propriedades da média e da variância
Sejam X e Y duas Sejam X e Y duas
variáveis aleatórias e variáveis aleatórias
a uma constante real. independentes e a
uma constante real.
E[a] = a Var[a] = 0
E[aX] = aE[X]
Var[aX] = a2Var[X]
E[X+Y] = E[X] + E[Y]
Var[X+Y]=
=Var[X]+Var[Y]
63
Parâmetros de variáveis contínuas e
discretas
Podemos definir outros parâmetros de
distribuições (contínuas ou discretas). Por
exemplo:
A moda de uma distribuição é o valor que
maximiza a função f(x).
A mediana de uma distribuição (quantil de
ordem 0.5) é o valor que divide ao meio a
probabilidade. F(mediana)=1/2. (Nota:
nas distribuições discretas esta divisão
pode não ser exacta.)
64
Distribuições contínuas no SPSS
O SPSS tem disponíveis várias funções
relacionadas com distribuições contínuas
conhecidas, todas no menu Transform /
Compute.
A função densidade de probabilidade, f(x), está
disponível através da expressão Pdf.xxx(x,?...)
disponível na opção PDF & Noncentral PDF da
janela Function Group.
A função de distribuição, F(x), está disponível
através da expressão Cdf.xxx(x,?...) disponível
na opção CDF & Noncentral CDF da janela
Function Group.
65
Distribuição Normal ou Gaussiana
A distribuição Normal ou Gaussiana é muito utilizada em
análises estatísticas. É uma distribuição simétrica em torno
da sua média e em forma de sino. Depende de dois
parâmetros que são a média e a variância da distribuição.
X ~ N(μ, σ2) significa que X tem distribuição Normal com média μ e
variância σ2.
66
Densidades Normais
N(0,0.5)
N(0,1)
N(0,1.5)
67
Normal Standard
Habitualmente utiliza-se:
a letra Z para representar uma Normal
Standard.
A designação Φ(z) para representar F(z).
A designação zp para representar o quantil de
ordem p.
Atenção que os quantis têm diferentes
representações de autor para autor. Muitos
utilizam zp para representar o quantil de ordem
1-p, ou ainda (1-p)/2.
z0.95
68
Normal Standard – quantis de ordem
0.025 e 0.975
z0.025 e z0.975
Cálculo de probabilidades da
Normal
Para calcular probabilidades associadas a
uma distribuição Normal qualquer,
podemos recorrer às tabelas ou a software
ou a máquinas de calcular.
No SPSS as funções associadas à
distribuição Normal são:
Cdf.Normal(x,μ,σ) para a função de distribuição
no ponto x, F(x);
Idf.Normal(p,μ,σ) para o quantil de ordem p,
xp.
69
Cálculo de probabilidades da Normal:
Normalização
Para recorrer às tabelas é necessário normalizar
a variável antes de calcular uma probabilidade
(ou um quantil).
Se X ~ N(μ,σ2) então Z = (X- μ) / σ ~ N(0,1).
X 5 7 5
P ( X 7) P P Z 1 (1) 0,8413
2 2
70
Propriedades da Normal
Se adicionarmos uma constante b a uma
variável Normal X ~ N(μ,σ2), obtemos uma
nova variável Normal:
Y=X+b ~ N(μ+b, σ2).
Propriedades da Normal
A soma de variáveis aleatórias Normais é ainda
Normal com média igual à soma das médias. Se
as variáveis forem independentes a variância é
igual à soma das variâncias.
Em particular a média X de n variáveis Normais
independentes e com a mesma distribuição é
ainda Normal
X ~ N , 2 /n
71
Distribuição t (de Student)
A distribuição t (de Student) é uma família
de distribuições indexada por um
parâmetro, que representa o número de
graus de liberdade (g.l.). Quando X tem
distribuição t com n graus de liberdade
escreve-se X ~ tn.
72
Propriedades da distribuição t
A distribuição t de Student varia de acordo com a
dimensão da amostra que vai determinar o número de
graus de liberdade.
A curva da distribuição t de Student tem a mesma forma
em sino da distribuição Normal, mas reflecte a maior
variabilidade (com curvas mais alargadas) que é de
esperar em amostras pequenas.
A distribuição t de Student tem valor médio zero (tal como
a distribuição Normal standard).
O desvio padrão da distribuição t de Student varia de
acordo com o tamanho da amostra e é maior do que 1 (o
que não acontece com a distribuição Normal standard,
onde σ = 1).
Quanto maior a dimensão da amostra, mais a distribuição t
de Student se aproxima da distribuição Normal.
Distribuição t
Se X1, X2, … , Xn representa uma amostra aleatória com
distribuição Normal, N(μ,σ2), a seguinte variável tem distribuição
Normal standard
X
~ N (0,1)
/ n
e substituindo σ por S passamos a ter uma distribuição t com n-1
graus de liberdade.
X
~ t n 1
S/ n
73
Distribuição t
Para obter probabilidades e quantis da
distribuição t podemos recorrer a software
ou a tabelas.
As tabelas fornecem habitualmente
quantis da distribuição.
No SPSS as funções associadas à
distribuição t com n graus de liberdade
são:
Cdf.t(x,n) para a função de distribuição no
ponto x, F(x);
Idf.t(p,n) para o quantil de ordem p, tp, n.
X ~ F ( x) X ~ N , 2 / n
apr .
74
Teorema do Limite Central
Se tivermos n variáveis aleatórias X1,X2…,Xn
independentes e com a mesma distribuição de
média μ e variância σ2,então quando n cresce
para infinito,
X
N (0,1)
dist
/ n
ou equivalentemente
X i n
N (0,1)
dist
n
Variância amostral:
2
n i 1
S2 1
n
(Xi X )
75
Estimação de Parâmetros
População Amostra
pontual (estatísticas)
Estimação
por intervalo (intervalos de confiança)
Estimação Pontual
76
Intervalo de Confiança
Um intervalo de confiança para um parâmetro ,
a um grau de confiança 1-,
é um intervalo aleatório (Linf, Lsup) tal que:
77
IC para com variância desconhecida
Se o valor de 2 é desconhecido substituir por uma estimativa
Estimadores pontuais para o desvio padrão :
desvio padrão amostral não-corrigido desvio padrão amostral corrigido
n
1 1 n
S
n
(X
i 1
i X) 2
Sc ( X i X )2
n 1 i 1
X Sc S
X q.q. com n 30 Z ~ N (0,1) IC1 ( ) X z1 2 , X z1 2 c
Sc n a n n
S S
IC95% ( ) X t0.9750, 24 , X t0.9750, 24
n n 95%
4 4 2,5% 2,5%
12,7 2,06 , 12,7 2,06
25 25
12,7 1,648, 12,7 1,648
- -t 0 t +
78
Determinando t1-/2, n-1 - quantil de ordem 1-/2 de uma
distribuição t-Student com n-1 graus de liberdade
Tabela 8. Student s t-Distribution
Por definição de quantil de ordem 1-/2:
z = z 1 - /2 F(z) = P(Z < z) =1 - /2
Para grau de confiança 95% nível de significância =0.05
F(z) = P(Z < z) = 1- (0.05/ 2) = 0.975 F(z) = 0.9750
Para n=25 24 graus de liberdade
Determinar t0.9750, 24 usando Tabela 8:
t0.9750, 24 = 2.06
0,04 0,04
IC99% ( ) 1,2 2,86 , 1,2 2,86
20 20
1,2 2,86 0,044721, 1,2 2,86 0,044721 IC99% ( ) 1.0721, 1.3279
79
IC para com variância desconhecida
Exemplo: População qualquer, amostra grande
Ingressos dos emigrantes hispânicos em EU segundo censo de 1980
Origem Nº Rendimento Desvio
pessoas Médio Padrão IC para a grau de confiança 95%
amostra Amostral
S S
cubanos 3895 $16 368 $3 069 IC 95 % ( ) X 1 . 96 , X 1 . 96
n n
mexicanos 5729 $13 342 $9 414
porto- 5908 $12 587 $8 647
riquenhos
3069
cubanos: erro padrão 49.17 IC95% ( ) 16368 1.96 49.17
3985
IC ( 16272, 16464 )
9414
mexicanos:erro padrão 124.41 IC95% ( ) 13342 1.96 124.41
5729
IC ( 13098, 13586 )
8647
porto-riq.: erro padrão 112.5 IC95% ( ) 12587 1.96 112.5
5908
IC ( 12367, 12807 )
80
Intervalo de Confiança para Proporção
Considere que uma urna contêm bolas vermelhas e azuis e que n bolas são
escolhidas ao acaso (com reposição), definindo-se
X como o número de bolas vermelhas entre as n seleccionadas
n
X Yi , Yi ~ Bernoulli sendo p = P(Xi = 1), X ~ Binomial (n,p)
i 1 a probabilidade de se seleccionar um bola vermelha
Se p- desconhecido, um estimador pontual para p é a proporção amostral:
X
pˆ p (1 p )
n pˆ ~ N ( p, ) (se n é grande, pelo TLC)
a n N (0,1)
centrando e reduzindo:
1
X
p
pˆ p n
Z p(1 p ) n
p(1 p) n ~ N (0, 1)
a
2 2
- -z 0 z +
z /2 z1 - /2
I.C. para Z com grau de confiança 1- quantil de ordem /2 quantil de ordem 1-/2
P( z Z z) 1 P ( pˆ z pˆ (1 pˆ ) n , pˆ z pˆ (1 pˆ ) n ) 1
pˆ (1 pˆ ) pˆ (1 pˆ )
IC (1 ) ( p ) pˆ z1 2 , pˆ z1 2
n n
81
IC para uma proporção
Exemplo: Proporção de acessos a páginas de Internet nacionais
Em 100 acessos a páginas de internet escolhidos ao acaso 30 são as páginas
nacionais. Determine um IC a 95% para a proporção de acessos a páginas nacionais
X - número de acessos á páginas de internet nacionais X ~ Binomial( 100 ,p )
p – proporção de acessos a páginas nacionais (em geral) p – desconhecido
Usando esta amostra determinamos um IC aproximado para p a 95%:
IC(1 ) ( p) pˆ z1 2 S p , pˆ z1 2 S p com pˆ X e Sp
pˆ (1 pˆ )
n n
1º. Determinar z1-/2 para =0,05 z0,9750=1,96
IC(95%) ( p ) pˆ z0.9750 S p , pˆ z0.9750 S p IC( 95%) ( p ) pˆ 1,96 S p , pˆ 1,96 S p
^eS
2º. Determinar as estimativas p p
X 30 pˆ (1 pˆ ) 0,3 0,7
pˆ 0. 3 Sp 0,04582
n 100 n 100
3º. Substituir na fórmula:
IC( 95%) ( p ) 0,3 1,96 0,04582, 0,3 1,96 0,04582
IC95% ( p ) 0.2102, 0.3898
0,3 0,089818, 0,3 0,089818
82
83
84
85
86
87
88
𝑝 −(𝑝 − 𝑣𝑎𝑙𝑢𝑒
𝑣𝑎𝑙𝑢𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙)
𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙
unilateral
O SPSS, em alguns casos (como nos testes à média),
só fornece o p-value bilateral.
Regra para a conversão:
tobs<0 tobs>0
89
90
91
92
93
94
95