Você está na página 1de 95

Métodos de Investigação em Comunicação

ANÁLISE DE DADOS QUANTITATIVOS


1. Introdução à Análise de Dados
2. Noções de Estatística Descritiva
3. Intervalo de Confiança para Proporções
e Médias
4. Testes de hipóteses para Proporções e Médias

5. Associação entre Variáveis

Métodos de Investigação em Comunicação

1. Introdução à
Análise de Dados

1
As origens da estatística

 Há indícios de que 3000 anos a.C. Já se


faziam censos nas civilizações antigas.

 Imperador César Augusto lançou um édito


para ser recenseada toda a terra ...

 Fins administrativos

As origens da estatística
 Ao longo do séc. XVIII e XIX, a estatística
sofreu um desenvolvimento importante.

 Baseada no método indutivo, a estatística


deixa de ser uma mera técnica de
contagem ou simples relacionamento de
fenómenos, permitindo a elaboração de leis
de comportamento, possibilitando o
estabelecimento de previsões,
transformando-se assim numa ferramenta
científica ao serviço dos diferentes ramos
do saber .

2
As origens da estatística
No passado, poder-se-ia assumir que
a Estatística era a ciência do
processamento de dados. Hoje é
mais provável que um estatístico
considere que o objeto da Estatística
é a tomada de decisões num
contexto de incerteza

Estatística
Estatística é a ciência que se ocupa da
obtenção de informação, seu tratamento
inicial, com a finalidade de, através de
resultados probabilísticos adequados,
inferir de uma amostra para a população,
e eventualmente mesmo prever a
evolução futura de um fenómeno.

Por outras palavras, é um instrumento de


leitura da informação e da sua
transformação em Conhecimento.

3
Duas Fases da Estatística
 Estatística Descritiva: descrever e estudar uma
amostra
 Estatística Indutiva (inferencial): a partir de
uma amostra inferir sobre as características de
uma população

População vs. Amostra


Podemos inferir (deduzir) determinadas características de uma
população se extraímos uma amostra representativa desta

População: coleção de unidades Amostra: Conjunto de dados


recolhidos a partir de um
individuais (pessoas ou resultados subconjunto da população, que
experimentais) com uma ou mais se estuda com o objetivo de
características comuns, que se tirar conclusões para a
pretendem estudar. população de onde foi recolhida

amostragem

4
Amostra Aleatória
Note que usamos letras minúsculas
pois estamos a definir concretizações
(observações) de variáveis aleatórias

Note que usamos letras maiúsculas,


pois estamos a definir variáveis
aleatórias e medidas em função dessas
variáveis

Parâmetro vs. Estatística


 Parâmetro – Medida usada para descrever a
distribuição da população
 a média μ e o desvio padrão σ2 são parâmetros de uma
distribuição Normal - N(μ,σ2)
 a probabilidade de sucesso p é um parâmetro da
distribuição Binomial - B(n,p)

 Estatística – Função de uma amostra aleatória


que não depende de parâmetros desconhecidos
 Média amostral:
n  i 1
n
X  1 Xi

Variância amostral:
2

n  i 1
S2  1
n
 (Xi  X )

 Amplitude da amostra: R  X n :n  X 1:n

5
x

Estatísticas ou medidas amostrais


 Estatística ou medida amostral: uma
medida numérica que descreve alguma
característica de uma amostra. É
habitualmente representada por letras latinas.
Por exemplo: x (média), s (desvio padrão), r (coeficiente
de correlação)

 Parâmetro: uma medida numérica que descreve


alguma característica de uma população. É
habitualmente representado por letras gregas.
Por exemplo: μ (média), σ (desvio padrão), ρ (coeficiente
de correlação)

População e Amostra
 Qual a importância na recolha da
amostra?

 A amostra deve ser tão representativa quanto


possível da população que se pretende
estudar, uma vez que vai ser a partir do
estudo da amostra, que vamos tirar conclusões
para a população.

6
Dados
O objetivo da maioria dos estudos é
reunir dados para obter informações
sobre uma determinada área de
investigação.
 Os dados englobam observações de
uma ou mais variáveis.
 Qualquer quantidade ou qualidade
que varie denomina-se variável.

Idade, sexo altura, peso,


estado civil ....

Dados
 Obtêm-se dados a partir de uma amostra
que representa uma população

 Os dados podem assumir muitas formas


diferentes.

 É necessário saber-se qual a forma que


cada variável assume antes de se poder
tomar uma decisão relativamente ao uso
dos métodos estatísticos mais
apropriados.

7
Dados
 Dados categóricos (Qualitativos)
 Dados nominais – as categorias não estão
ordenadas, possuem simplesmente nomes
 Ex: Grupo sanguíneo; estado civil; sexo

 Dados ordinais – as categorias estão


ordenadas de alguma forma
 Ex: Grau de dor (grave, moderada,
ligeira, nenhuma)

 Dados numéricos (Quantitativos)

Dados
 Dados numéricos (Quantitativos)

 Dados discretos – surgem quando a


variável apenas pode assumir valores
numéricos inteiros.
 Ex: N.º de acontecimentos

 Dados contínuos – Ocorrem quando


não existe limitação dos valores que a
variável pode assumir.
 Ex Peso, altura, temperatura

8
Classificação dos Dados

VARIÁVEL

Categórica
Numérica
(qualitativa) (quantitativa)

Nominal Ordinal Discreta Contínua

Estatística descritiva vs inferencial


 Estatística Descritiva: conjunto de
métodos estatísticos que visam sumariar e
descrever os atributos mais proeminentes
aos dados.

 Estatística Inferencial: conjunto de


métodos estatísticos que visam
caracterizar (ou inferir sobre) uma
população a partir de uma parte dela (a
amostra).

9
Ferramentas de Estatística Descritiva
 Cálculo numérico de medidas amostrais.

 Resumo e descrição global dos dados


através da construção de tabelas e de
gráficos.

 Análise e interpretação dos resultados


obtidos.

Medidas amostrais
 Tendência ou localização central:
 média (mean),
 mediana (median),
 moda (mode),
 média aparada (trimmed mean).

10
Medidas amostrais
 Localização relativa:
 Mínimo (minimum),
 Máximo (maximum),
 Quantil (quantile),
 Quartil (quartile),
 Percentil (percentile).

Medidas amostrais
 Dispersão:
 amplitude (range),
 distância inter-quartil (inter-quartile range),
 variância (variance),
 desvio padrão (standard deviation),
 coeficiente de variação (coefficient of
variation),

11
Medidas amostrais
 Assimetria:
 Coeficiente de assimetria (skweness).

Tabelas de frequências
 Tabelas que resumem a informação
contida na amostra, ordenando os seus
valores e agrupando-os em classes (de
valores repetidos ou de valores
distribuídos por intervalos).

12
Gráficos
 Gráficos de frequências
 Histogramas
 Caixas de bigodes ou diagramas de
extremos e quartis (boxplots)
 Diagramas de caule-e-folhas (stem and
leaf)
 Diagramas de dispersão (scatterplot)

Ordenação e tabela de frequências


 Tipos de frequências:
 Frequência absoluta
 Frequência relativa
 Frequência absoluta acumulada
 Frequência relativa acumulada
 Uma tabela de frequências é uma tabela
onde figuram os valores de pelo menos
um destes tipos de frequências.

13
Tabela de frequências
 Exemplo de uma tabela produzida pelo SPSS:
Durante um ano contabilizou-se diariamente o n.º de golfinhos
presos nas redes dos pescadores das águas açorianas.

Cumulative
Frequency Percent Valid Percent Percent
Valid 0 37 14,4 14,4 14,4
1 45 17,5 17,5 31,9
2 84 32,7 32,7 64,6
3 52 20,2 20,2 84,8
4 23 8,9 8,9 93,8
5 11 4,3 4,3 98,1
6 2 ,8 ,8 98,8
8 1 ,4 ,4 99,2
9 1 ,4 ,4 99,6
13 1 ,4 ,4 100,0
Total 257 100,0 100,0

Tabela de frequências
 Exemplo de uma tabela produzida pelo SPSS:
Durante um ano contabilizou-se diariamente o n.º de golfinhos
presos nas redes dos pescadores das águas açorianas.
nº de golfinhos presos num dia

Cumulative
Frequency Percent Valid Percent Percent
Valid 0 37 14,4 14,4 14,4
1 45 17,5 17,5 31,9
2 84 32,7 32,7 64,6
3 52 20,2 20,2 84,8
4 23 8,9 8,9 93,8
5 11 4,3 4,3 98,1
6 2 ,8 ,8 98,8
8 1 ,4 ,4 99,2
9 1 ,4 ,4 99,6
13 1 ,4 ,4 100,0
Total 257 100,0 100,0

14
Medidas amostrais
 Tendência ou localização central:
 média (mean),
 mediana (median),
 moda (mode),
 média aparada (trimmed mean).

Medidas de localização central: Média


 Média: Numa amostra de n observações, x1, x2, …, xn
n

x  x  ...  xn x x i
i
x 1 2   i 1
n n n
Se os dados estiverem agrupados (k valores distintos)

x f  x f  ...  x f
* * * x *
i i f
x *
f
i i
x 1 1 2 2 n n
 i 1

n n n
onde fi designa a frequência absoluta de xi* (ou a frequência absoluta
da classe com marca xi* no caso de dados agrupados em classes)

15
Medidas de localização central: Média
 A média pode ser pensada como o centro de
massa dos valores das observações, ie, o ponto
de equilibrio após dispormos as observações
sobre uma régua.

Pontos afastados ou erros nas observações


podem afastar a média do grosso das
observações.

Medidas de localização central: Mediana


 A mediana á a observação central, depois de
ordenada a amostra.
Se a amostra tiver dimensão ímpar, coincide com a
observação central. Exemplo:
Na amostra 1.2; 1.7; 2.1; 2.2; 2.4 a mediana é 2.1 .
Se a amostra tiver dimensão par, a mediana toma o
valor da média das duas observações mais centrais.
Exemplo:
Na amostra 0.3; 0.7; 0.9; 1.1 a mediana é 0.8 .
 A mediana é mais robusta que a média a erros ou
a observações afastadas.

16
Medidas de localização central: Média aparada
 Uma média aparada não é mais do que uma
“mistura” entre os conceitos de média e mediana
por forma a combinar as qualidades de ambas.
 Uma média aparada é uma média que é calculada
excluindo uma certa proporção de observações
em cada extremo da amostra.

Medidas de localização central: Moda


 A moda é o valor mais frequente de uma
amostra.
 Ao contrário do que acontece com a mediana e a
média, uma amostra pode possuir mais do que
uma moda.

Moda

17
Medidas de localização central: Moda

 A moda é a única medida de localização central


que pode ser utilizada para dados numa escala
nominal.
 A moda pode não ter significado, especialmente
em dados de natureza contínua ou em dados
discretos com poucas observações repetidas!
 Quando os dados estão agrupados em classes
podemos falar da classe modal, ou seja, da classe
com maior frequência.

Medidas amostrais
 Localização relativa:
 Mínimo (minimum),
 Máximo (maximum),
 Quantil (quantile),
 Quartil (quartile),
 Percentil (percentile).

18
Medidas de localização relativa: Mínimo e Máximo

 Mínimo – é o valor mais reduzido da


amostra
 Máximo – é o valor mais elevado da
amostra

Medidas de localização relativa: Quartis


 Quartis – são os valores (Q1, Q2 e Q3) que
dividem a amostra, depois de ordenada,
em quatro partes iguais (ou o mais iguais
possível). Q2 coincide com a mediana.

19
Medidas de localização relativa: Quantis e Percentis
 Quantil de ordem p (0≤ p ≤ 1)– é um
valor, xp, que divide a amostra em duas
partes, tal que à esquerda de xp está a
proporção p da amostra e à direita a
proporção 1-p.
 Percentil de ordem p (p vai de 1 a 100) -
é o mesmo que um quantil mas em que a
proporção é dada em percentagem.

Medidas amostrais
 Dispersão:
 amplitude (range),
 distância inter-quartil (inter-quartile range),
 variância (variance),
 desvio padrão (standard deviation),
 coeficiente de variação (coefficient of
variation),

20
Medidas de dispersão: Amplitude
 A amplitude de uma amostra é a diferença
entre o máximo e o mínimo.
Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.3 a
amplitude é 2.3 - 1.2 = 1.1 .

Medidas de dispersão: Distância inter-quartil

 Distância inter-quartil – é a diferença


entre o 3º e o 1º quartis, Q3 - Q1.

 No intervalo que vai de Q1 a Q3


encontram-se 50% das observações (as
mais centrais).

21
Medidas de dispersão: variância
 A variância é a média dos quadrados dos desvios
das observações em relação à média da amostra.

 Habitualmente considera-se uma versão corrigida


da variância

Medidas de dispersão: desvio padrão


 A variância não vem representada na mesma unidade
das observações. Se tomarmos a raiz quadrada da
variância obtemos o desvio padrão que também é uma
medida de dispersão e vem na mesma unidade das
observações.

 Nos programas de estatística e nas máquinas de calcular


o que aparece são as versões corrigidas da variância e
do desvio padrão.
 O desvio padrão e a variância podem ser fortemente
afectados por erros ou observações muito afastadas.

22
Medidas de dispersão: coeficiente de variação
 O Coeficiente de variação é a razão entre o
desvio padrão e a média, v = s / x.

 Trata-se de uma medida relativa de dispersão e


por isso não tem unidades.

 CV>1 – Dispersão dos dados elevada

Medidas amostrais: assimetria


 Coeficiente de assimetria – é uma medida que assume o
valor zero quando a distribuição de frequências da
amostra é completamente simétrica e assume valores
diferentes de zero (positivos ou negativos) quando a
distribuição não é simétrica.

 Atenção que numa amostra é quase impossível observar


simetria pura. Por isso o coeficiente de assimetria
assume valores quase sempre diferentes de zero. Para
termos uma ideia se a assimetria é relevante devemos
comparar o valor do coeficiente com o erro associado.
Se o coeficiente não exceder 2 ou 3 vezes o erro, o seu
valor não será muito relevante, especialmente quando
queremos extrapolar para a população.

23
Medidas amostrais: assimetria
 Uma distribuição possui assimetria positiva
(alternativamente negativa) quando existe uma
concentração de valores na zona de valores mais
reduzidos (alternativamente elevados) da
amostra.

Assimetria positiva Quase simetria Assimetria negativa


Coef.ass. >0 Coef.ass. ~ 0 Coef.ass. <0

Medidas amostrais: assimetria


 A assimetria também pode ser avaliada
comparando os valores da média, mediana e
moda (desde que esta última faça sentido).

Assimetria positiva:

moda < mediana < média

moda média
mediana

24
Medidas amostrais: assimetria
Assimetria negativa: média < mediana < moda

Simetria pura: média = mediana = moda

Simetria aproximada: média ~ mediana ~ moda

Gráficos
 Gráficos de frequências
 Histogramas
 Caixas de bigodes ou diagramas de
extremos e quartis (boxplots)
 Diagramas de caule-e-folhas (stem and
leaf)
 Diagramas de dispersão (scatterplot)

25
Histogramas
 O histograma é um gráfico que reflecte a forma
da distribuição de frequências da amostra.
Também procura reflectir a estrutura (forma) da
população de onde foi retirada a amostra.

 Para construir um histograma é necessário


primeiro repartir os dados por classes e depois
calcular as respectivas frequências. O histograma
é um gráfico de frequências construído a partir
desta tabela de frequências (por classes). Os
histogramas são particularmente úteis para
variáveis contínuas ou variáveis com poucos
valores repetidos.

Histogramas
 A apresentação do histograma depende
muito do número de classes considerado.
Um número muito grande de classes
produz um histograma com demasiada
irregularidade, enquanto um histograma
com um número demasiado reduzido de
classes oculta a forma da distribuição
(perde-se demasiada informação).

26
Histogramas
Poucas classes Muitas classes

Gráficos de frequências
 Gráficos de frequências são gráficos de barras
que traduzem graficamente o conteúdo da tabela
de frequências. Os mais habituais são os gráficos
de frequências absolutas ou relativas, mas
também podemos construir gráficos de
frequências absolutas ou relativas acumuladas.

 Os gráficos de frequências (não acumuladas) são


apropriados para dados qualitativos ou numéricos
discretos (ou que se comportam como tal).
Quando as frequências absolutas são reduzidas e
a gama de valores da amostra é dispersa os
gráficos de frequências tornam-se pouco
interessantes (muito irregulares).

27
Gráficos de frequências
 Chama-se função de distribuição empírica à
função cuja imagem gráfica é o gráfico de
frequências relativas acumuladas.

Exemplo:
100%

75%
Percent

50%

25%

0%
0 1 2 3

Caixas de bigodes
 Pode ser encarada como a representação gráfica
de algumas medidas de localização:
mediana
Q1 Q3 outliers e extremos

28
Caixas de bigodes
Mínimo da amostra Máximo da amostra
mas não menos de mas não mais de
Q1-1.5(Q3-Q1) Q3+1.5(Q3-Q1)

Caixa de bigodes
 Algumas caixas têm os bigodes até ao
mínimo e máximo e não têm
representados outliers.
 As caixas de bigodes dão informação
sobre
 A localização central: mediana
 Outras localizações: 1º e 3º quartis e mínimo e
máximo.
 Dispersão: amplitude e distância inter-quartil
 Assimetria: posição relativa da mediana na
caixa,
comprimento dos bigodes.

29
Caixas de bigodes

Assimetria positiva Simetria Assimetria negativa

Caixa de bigodes comparativas


 As caixas de bigodes também são úteis
para comparar várias amostras num
mesmo gráfico, caixas de bigodes
comparativas.

30
Sumário
Introdução ao SPSS
 Objectivos

1. A importância do SPSS para as Ciências Sociais

2. Lógica de funcionamento e manipulação do programa


2.1 As janelas do SPSS
2.2 Construção da matriz de dados
- Importação de um ficheiro de dados do Excel
- Processo de codificação e introdução de dados

A importância do SPSS nas Ciências


Sociais
 O SPSS (Statistical Package for Social Sciences) é uma
ferramenta informática que permite realizar análise
estatística de dados no domínio das Ciências Sociais.
 Frequentemente lidamos com tabelas de grandes
dimensões resultantes das observações efectuadas,
tornando-se a interpretação dos seus valores uma tarefa
impraticável sem o recurso a técnicas de análise de dados
que sumarizem a informação de partida.

 O SPSS é um programa informático que permite sintetizar


os dados recolhidos (através de questionário ou
entrevista), o que torna possível trabalhar com conjuntos
de dados muito vastos.

31
A importância do SPSS nas Ciências
Sociais
 A possibilidade de realizar cálculos estatísticos complexos
e visualizar os seus resultados em poucos segundos, pode
tornar-se perigoso, na medida em que podemos aplicar
procedimentos estatísticos que desconhecemos, não
sabendo como se efectuam ou para que servem.

 O SPSS é um programa informático que não distingue o


tipo de variáveis que utilizamos (nós é que o definimos),
nem o tipo de cálculos que com elas podemos efectuar.
Estes dependem do tipo de variáveis que estamos a
trabalhar.

Introdução ao SPSS

I. Lógica de funcionamento e manipulação do


programa

II. Manipulação e tratamento de dados


- reconhecimento de dados
- modificação/recodificação dos dados

III. Cálculos estatísticos

32
Introdução ao SPSS
I. Lógica de funcionamento e manipulação do
programa

B. C.
Preparação Operações
dos dados estatísticas

A. Dados

Unidade 2: SPSS

Introdução ao SPSS
I. Lógica de funcionamento e manipulação do
programa

A. Dados
 Introdução dos dados e
B. C. definição das variáveis
Operações Resultados
B. Operações
 Preparação dos dados
 Transformação dos dados
C. Resultados
A. Dados

33
Lógica de funcionamento e manipulação
do programa
Editor de célula

N.º Célula
de activa
linha

Nome
da
variável

Lógica de funcionamento e manipulação


do programa
 Introdução de dados
Há que considerar o seguinte:
 Os dados são sempre introduzidos na célula que é
apresentada com um rebordo mais forte (célula activa).
 O nome da variável e o numero da linha da célula activa
(endereço) são apresentados no canto superior esquerdo da
janela Data View.
 O valor da célula activa aparece no campo editor de célula.
 Os valores introduzidos só são registados quando se
pressiona ENTER, ou quando se selecciona outra célula.
 Para introduzir dados não numéricos, deve alterar-se o tipo
de variável previamente.

34
As janelas do SPSS
Há seis tipos de janelas nos SPSS:
 Dados
1. Data View

2. Variable View
 Operações
3. Syntax Editor
 Resultados
4. Output Navigator

5. Pivot Table Editor

6. Chart Editor

As janelas do SPSS - Dados


1. Data View – Permite introduzir os dados e visualizá-los.

35
As janelas do SPSS - Dados
2. Variable View – Permite proceder à definição das variáveis (nome, tipo,
casas decimais, modalidades de resposta,…).

As janelas do SPSS- Operações


3. Syntax Editor – Todos os comandos do SPSS podem ser emitidos a
partir da janela de Syntax.

36
As janelas do SPSS- Resultados
4. Output Navigator – Onde são apresentados todos os resultados
estatísticos, tabelas, gráficos. Abre automaticamente, sempre que um
determinado procedimento gera resultados.

As janelas do SPSS- Resultados


5. Pivot Table Editor – Permite editar e modificar tabelas. Pode editar-se o
texto, trocar os dados de linhas com colunas, adicionar cor, criar
tabelas multidimensionais, etc.

37
As janelas do SPSS- Resultados
6. Chart Editor – Permite editar e modificar gráficos. Podem alterar-se as
cores, seleccionar tipos e tamanhos de letras, trocar os eixos vertical
com horizontal, fazer rotações, etc.

2.2 Construção da matriz de dados


- Importação de um ficheiro de dados do Excel
- Processo de codificação e introdução de dados

38
Construção da matriz de dados
Processo de codificação e introdução de dados

Terminada a recolha de dados (por via de questionário ou


entrevistas,…), seguem-se as fases de codificação e
validação da informação obtida, com vista à introdução
numa matriz de dados.

A codificação dos dados recolhidos é feita em função do tipo de


questões do questionário.
As categorias de resposta das perguntas fechadas estão definidas
à partida.
As perguntas abertas são codificadas posteriormente, em função
da sua pertinência sociológica, frequência, semelhança, etc.

Construção da matriz de dados


 Processo de codificação e introdução de dados
Exemplo:
P1- Que idade tem? ___
p2- Qual é o seu estado civil? ____
1. Solteiro
2. Casado
3. Divorciado
4. Viúvo
p3- Qual a sua profissão? ______

Depois da informação codificada e validada, passa-se à


construção da matriz de dados. Esta pode ser feita
directamente dentro do programa informático SPSS, ou
por exemplo dentro do Excel ou de outras aplicações.

39
Construção da matriz de dados
Processo de introdução de dados

A. Importação dos dados (Excel; …)

B. Introdução dos dados directamente no SPSS

Construção da matriz de dados


A. Importação de ficheiros de dados (do Excel)
1. Quando queremos trabalhar no SPSS com um ficheiro que
criámos no Excel temos de proceder à sua importação.
Considere a folha de cálculo seguinte, criada no Excel:

40
Construção da matriz de dados
A. Importação de um ficheiro de dados (do Excel)
2. Se forem escolhidas as seguintes opções de abertura:

Construção da matriz de dados


A. Importação de um ficheiro de dados (do Excel)
3. Obtém-se a seguinte folha de dados no SPSS:

41
Construção da matriz de dados
B. Introdução dos dados no SPSS

1º passo: definição das características das variáveis

Construção da matriz de dados


B. Introdução dos dados no SPSS
Definição de variáveis
 O SPSS permite definir as seguintes características de uma
variável:
a) O nome da variável
b) O tipo da variável
c) Descrição da variável e dos seus valores
d) Códigos especiais para valores em falta
e) Escalas de medida

Escreve-se directamente nas células da


coluna Name. O nome das variáveis tem no
máximo 8 caracteres. Deve começar por uma
letra e pode ser seguido de letras, números,
ou caracteres @, #, _ ou $.

42
Construção da matriz de dados
B. Introdução dos dados no SPSS
Definição de variáveis
 O SPSS permite definir as seguintes características de uma
variável:
a) O nome da variável
b) O tipo da variável
c) Descrição da variável e dos seus valores
d) Códigos especiais para valores em falta
e) Escalas de medida

Premindo o botão Type na janela


Variable View, acede-se à janela
de definição do tipo de variável.

Construção da matriz de dados


B. Introdução dos dados no SPSS
Definição de variáveis
 O SPSS permite definir as seguintes características de uma
variável:
a) O nome da variável
b) O tipo da variável
c) Descrição da variável e dos seus valores
d) Códigos especiais para valores em falta
e) Escalas de medida

Para a descrição da variável, escreve-


se directamente nas células da coluna
Label o rótulo da variável.

43
Construção da matriz de dados
B. Introdução dos dados no SPSS
Definição de variáveis
 O SPSS permite definir as seguintes características de uma
variável:
a) O nome da variável
b) O tipo da variável
c) Descrição da variável e dos seus valores
d) Códigos especiais para valores em falta
e) Escalas de medida

Para a descrição dos seus


valores, premir o botão Values
na janela Variable View, a
partir do qual se acede à janela
de definição dos valores ou seja
das categorias.

Construção da matriz de dados


B. Introdução dos dados no SPSS
Definição de variáveis
 O SPSS permite definir as seguintes características de uma
variável:
a) O nome da variável
b) O tipo da variável
c) Descrição da variável e dos seus valores
d) Códigos especiais para valores em falta
e) Escalas de Medida

Premindo o botão Missing na


janela de definição de variáveis,
acede-se à janela de definição
de valores em falta.

44
Construção da matriz de dados
B. Introdução dos dados no SPSS
Definição de variáveis
 O SPSS permite definir as seguintes características de uma
variável:
 O nome da variável
 O tipo da variável
 Descrição da variável e dos seus valores
 Códigos especiais para valores em falta
 Escalas de Medida

Premindo o botão Measure na janela


de definição de variáveis, acede-se
à janela de definição das escalas de
medida.

Construção da matriz de dados


Alterações das opções de ambiente

Para alterar as opções do


ambiente de trabalho do
SPSS, escolher na barra
de menus:

Podem ser alteradas as opções de visualização dos


diversos tipos de janelas, assim como opções que
respeitam ao formato do tipo das variáveis.

45
Construção da matriz de dados
Alterações das opções de ambiente

As opções escolhidas
permitem visualizar os
nomes das variáveis
por ordem alfabética,
nas listas de variáveis
das caixas de diálogo.

Inferência Estatística
inferir certas características
da população

n indivíduos da população
ex: sortear n pixels de uma imagem
(com ou sem reposição)
amostra n realizações de uma v.a. X
ex: medir a reflectância de um
objecto n vezes

distribuição conhecida/desconhecida
e/ou parâmetros desconhecidos

a amostra constitui um conjunto de n
v.a. X1, X2, ..., Xn independentes e
identicamente distribuídas com
distribuição FX


Amostra Aleatória

46
Amostra Aleatória
Note que usamos letras minúsculas
pois estamos a definir concretizações
(observações) de variáveis aleatórias

Note que usamos letras maiúsculas,


pois estamos a definir variáveis
aleatórias e medidas em função dessas
variáveis

Experiências aleatórias
 Uma experiência aleatória trata-se de um
processo que conduz à obtenção de um resultado
individual (ou elementar) com as seguintes
características:

 Pode repetir-se um grande número de vezes nas


mesmas circunstâncias e de forma independente;

 Não há conhecimento suficiente para prever


exactamente o resultado individual cada vez que se
repete;

 Os resultados individuais apresentam uma


regularidade estatística quando considerado um
grande número de realizações.

47
Experiências aleatórias
 Acontecimento: Qualquer colecção de
resultados de uma experiência.

 Acontecimento elementar: Um resultado


que não pode ser simplificado ou reduzido.

 Espaço de resultados – Ω: Constituído por


todos os acontecimentos elementares.

Variáveis aleatórias
 Uma variável aleatória é uma variável que assume
um valor numérico determinado pelo resultado de
uma experiência aleatória.

 Uma variável aleatória diz-se discreta quando assume


um número determinado de valores contáveis.

 Exemplos:
 O número de objectos defeituosos numa amostra de
20 de uma grande encomenda;
 O número de clientes que chegam a uma loja numa
hora;
 O número de erros detectados nas contas de uma
empresa num ano.

48
Variáveis aleatórias
 Uma variável aleatória diz-se contínua quando
assume qualquer valor num dado intervalo.
 Exemplos:
 O rendimento anual de uma família;
 A quantidade de petróleo importado num país num
ano;
 O tempo entre a instalacão de um computador novo
e a sua falha;
 A altura de um indivíduo.

Probabilidade
 P - denota a probabilidade.

 A, B, e C - denota acontecimentos
específicos.

 P (A) - denota a probabilidade de ocorrer


o acontecimento A.

49
Cálculo de probabilidades: conceito
clássico
 Suponha que uma experiência é composta por n
acontecimentos elementares distintos, em que
cada um tem a mesma chance de ocorrer. Se o
acontecimento A pode ocorrer em k desses n
acontecimentos elementares, então

k nº de casos favoráveis a A
P(A) = =
n nº de acontecimentos elementares distintos

Probabilidade
Qual a
probabilidade do
objecto
seleccionado ser
quadrado ou ser
vermelho?

8
P (Quadrado  Vermelho) 
9

50
Cálculo de probabilidades: conceito
frequencista
Realize (ou observe) uma experiência um
grande nº de vezes, e conte o nº de vezes
em que ocorreu o acontecimento A.
Baseado nestes resultados, P(A) é
estimada por
nº de vezes que A ocorreu
P(A) =
nº de experiências realizadas

Lei dos grandes números


 Quando uma experiência é repetida um
grande nº de vezes, o valor da frequência
relativa de um acontecimento tende a se
aproximar do valor da verdadeira
probabilidade.

51
Estabilização das frequências
relativas

Experiência como forma de verificação da Lei


dos Grandes Números: lançar algumas vezes
a moeda ao ar e calcular a frequência relativa
em percentagem; aumentar o número de
lançamentos e constatar a tendência da
frequência relativa em se aproximar de 0.5 (à
medida que o número de lançamentos sobe).

Estabilização das frequências


relativas

52
Valores das probabilidades
 A probabilidade de um acontecimento
impossível é 0 (zero).

 A probabilidade de um acontecimento
certo é 1.

 0 ≤ P(A) ≤ 1 para qualquer


acontecimento A.

Distribuições de probabilidades
 As Distribuições de Probabilidade
descrevem o que provavelmente
acontecerá em vez de o que realmente
aconteceu.

 Dito de outra maneira, as distribuições de


probabilidades descrevem as populações e
a Estatística Descritiva descreve as
amostras observadas.

53
Variáveis aleatórias
 Uma variável aleatória é uma variável
(usualmente representada por X) que toma um
certo valor numérico, determinado pelo acaso, de
cada vez que a experiência é realizada. A variável
aleatória associa números aos acontecimentos do
espaço dos possíveis.
 Uma distribuição de probabilidade permite
calcular a probabilidade correspondente a cada
valor ou conjunto de valores da variável
aleatória.

Variáveis discretas e contínuas


 Uma variável aleatória discreta toma um
n.º finito ou infinito numerável de valores.

 Uma variável aleatória contínua toma um


n.º infinito não numerável de valores, os
quais podem ser associados com medidas
numa escala contínua.

54
Variáveis discretas
 Ficam completamente definidas por
qualquer uma das seguintes funções:

 Função (massa) de probabilidade


f(x)=P(X=x)

 Função de distribuição
F(x)=P(X ≤ x)

Variáveis discretas
A função massa de probabilidade (ou
função probabilidade), P(x), de uma
variável aleatória discreta expressa a
probabilidade que X tome o valor x,
como função de x. Ou seja,

P ( x )  P ( X  x ), para todos os valores de x.

55
Variáveis discretas
Gráfico da função massa de probabilidade para
um lançamento de um dado
P(x)

1/6

1 2 3 4 5 6 x

Variáveis discretas
 Seja X uma v.a. discreta com função
massa de probabilidade, P(x). Então,
 P(x)  0 para qualquer valor de x;
 A soma das probabilidades individuais é
igual a 1; ou seja,

 P (x)  1
x

 onde a notação indica a soma de


todos os valores possíveis de x.

56
Variáveis discretas
A função de distribuição cumulativa,
F(x0), de uma variável aleatória X
expressa a probabilidade que X não
exceda o valor de x0, como função de
x0. Ou seja,

F ( x0 )  P ( X  x0 )

onde a função é avaliada em todos os


valores x0

Variáveis discretas
Seja X uma v.a. discreta com função
massa de probabilidade P(x) e função
de distribuição cumulativa F(x0).
Então pode ser mostrado que

F (x0 )  P(X )
x  x0

onde a notação indica que a soma é


sobre todos os valores possíveis de x
que são menores ou iguais a x0.

57
Variáveis discretas

População Amostra

f(x) Frequência relativa

F(x) Frequência relativa


acumulada

Parâmetros de uma variável discreta


 O valor médio de uma variável aleatória X
é também designado por valor esperado e
representado por E[X]
E[X] = μ = Σ[x . f(x)]
 A variância de uma variável aleatória X é
também representada por Var[X]
Var[X] = σ2 = Σ [(x – μ)2 . f(x)]

58
Variáveis contínuas

 Uma variável aleatória contínua toma um


n.º infinito não numerável de valores
(intervalos de números reais), os quais
podem ser associados com medidas numa
escala contínua.

Variáveis contínuas
 Ficam completamente definidas por
qualquer uma das seguintes funções:

 Função densidade de probabilidade


f(x) definida para todo o x em que a
variável está definida.

Notar que f(x) não representa P(X=x).


Numa variável contínua P(X=x)=0 para todo
o x.

59
Variáveis contínuas
 Função de distribuição
F(x)=P(X ≤ x), para todo o x real.

Notar que F(x) representa a probabilidade


acumulada até x.

Função densidade de probabilidade,


f.d.p.
 O gráfico da f.d.p.(ou curva da
densidade) é um gráfico que traduz a
distribuição de probabilidade de uma
variável contínua.
 Todos os pontos sob a curva têm de ter
uma ordenada maior ou igual a zero.
 A área total sob a curva tem de ser
unitária.
 As probabilidades obtêm-se a partir de
áreas sob partes da curva.

60
Função densidade de probabilidade,
f.d.p.

Probabilidade num intervalo


x2

P ( x1  X  x2 )   f ( x)dx
x1

Relação com a função de


distribuição, F(x).
x
F ( x)   f ( x)dx


Cálculo de probabilidades em variáveis


contínuas
 P(X ≤ a) = F(a)
 P(a ≤ X ≤ b) = F(b) – F(a)
 P(X > a) = 1- F(a)
 P(X = a) = 0, para todo o valor de a.

 Atenção: em variáveis contínuas


 P(X ≤ a) = P(X < a);
 P(a≤X≤b) = P(a<X≤ b) = P(a≤X<b) = P(a<X<b)
 P(X > a) = P(X ≥ a)

61
Variáveis contínuas
População Amostra

Probabilidade de Frequência relativa


uma classe de uma classe
(intervalo de (intervalo de
valores) valores)

F(x) Frequência relativa


acumulada

Parâmetros de uma variável contínua


 O valor médio de uma variável aleatória X
é também designado por valor esperado e
representado por E[X]
E[X] = μ

 A variância de uma variável aleatória X é


também representada por Var[X]
Var[X] = σ2

62
Propriedades da média e da variância
 Sejam X e Y duas  Sejam X e Y duas
variáveis aleatórias e variáveis aleatórias
a uma constante real. independentes e a
uma constante real.

 E[a] = a  Var[a] = 0

 E[aX] = aE[X]
 Var[aX] = a2Var[X]
 E[X+Y] = E[X] + E[Y]
 Var[X+Y]=
=Var[X]+Var[Y]

Parâmetros de uma variável contínua


 Quantil: o quantil de ordem p é o valor xp
que acumula à sua esquerda probabilidade
p. Dito de outra forma, é o valor xp tal que
F(xp)=p.

63
Parâmetros de variáveis contínuas e
discretas
 Podemos definir outros parâmetros de
distribuições (contínuas ou discretas). Por
exemplo:
 A moda de uma distribuição é o valor que
maximiza a função f(x).
 A mediana de uma distribuição (quantil de
ordem 0.5) é o valor que divide ao meio a
probabilidade. F(mediana)=1/2. (Nota:
nas distribuições discretas esta divisão
pode não ser exacta.)

Parâmetros de variáveis contínuas e


discretas
 Se tivermos n variáveis aleatórias
X1,X2…,Xn independentes e com a mesma
distribuição de média μ e variância
σ2,então observa-se sempre que:
E[X] = μ
Var[X]= σ2 / n
Isto significa que a média de um conjunto
de variáveis é igual à média de cada uma
delas e a variância vem reduzida de um
factor 1/n.

64
Distribuições contínuas no SPSS
 O SPSS tem disponíveis várias funções
relacionadas com distribuições contínuas
conhecidas, todas no menu Transform /
Compute.
 A função densidade de probabilidade, f(x), está
disponível através da expressão Pdf.xxx(x,?...)
disponível na opção PDF & Noncentral PDF da
janela Function Group.
 A função de distribuição, F(x), está disponível
através da expressão Cdf.xxx(x,?...) disponível
na opção CDF & Noncentral CDF da janela
Function Group.

Distribuições contínuas no SPSS


 Os quantis estão disponíveis através da
expressão Idf.xxx(p,?...) disponível na opção
Inverse DF da janela Function Group.
 A geração de valores aleatórios extraídos de
populações com determinada distribuição está
disponível através da expressão RV.xxx(?...)
disponível na opção Random Numbers da
janela Function Group.

65
Distribuição Normal ou Gaussiana
A distribuição Normal ou Gaussiana é muito utilizada em
análises estatísticas. É uma distribuição simétrica em torno
da sua média e em forma de sino. Depende de dois
parâmetros que são a média e a variância da distribuição.
X ~ N(μ, σ2) significa que X tem distribuição Normal com média μ e
variância σ2.

Curva de densidade da Normal

66
Densidades Normais

N(0,0.5)

N(0,1)
N(0,1.5)

Normal standard ou padrão


 Quando μ = 0 e σ = 1 temos a distribuição
Normal standard (também se diz Normal
padrão ou Normal centrada e reduzida).
Os valores da função de distribuição, F(x),
e os valores de certos quantis mais
utilizados encontram-se tabelados.

67
Normal Standard
 Habitualmente utiliza-se:
 a letra Z para representar uma Normal
Standard.
 A designação Φ(z) para representar F(z).
 A designação zp para representar o quantil de
ordem p.
 Atenção que os quantis têm diferentes
representações de autor para autor. Muitos
utilizam zp para representar o quantil de ordem
1-p, ou ainda (1-p)/2.

Normal Standard – quantil de ordem


0.95

z0.95

68
Normal Standard – quantis de ordem
0.025 e 0.975

z0.025 e z0.975

Cálculo de probabilidades da
Normal
 Para calcular probabilidades associadas a
uma distribuição Normal qualquer,
podemos recorrer às tabelas ou a software
ou a máquinas de calcular.
 No SPSS as funções associadas à
distribuição Normal são:
 Cdf.Normal(x,μ,σ) para a função de distribuição
no ponto x, F(x);
 Idf.Normal(p,μ,σ) para o quantil de ordem p,
xp.

69
Cálculo de probabilidades da Normal:
Normalização
 Para recorrer às tabelas é necessário normalizar
a variável antes de calcular uma probabilidade
(ou um quantil).
 Se X ~ N(μ,σ2) então Z = (X- μ) / σ ~ N(0,1).

Cálculo de probabilidades da Normal:


Normalização

 Por exemplo, se X tem distribuição N(5,4) e


queremos calcular P(X≤7):

 X 5 7 5
P ( X  7)  P     P Z  1  (1)  0,8413
 2 2 

70
Propriedades da Normal
 Se adicionarmos uma constante b a uma
variável Normal X ~ N(μ,σ2), obtemos uma
nova variável Normal:
Y=X+b ~ N(μ+b, σ2).

 Se multiplicarmos uma variável Normal


por uma constante a obtemos uma nova
variável Normal, Y=aX ~ N(aμ,a2σ2).

Propriedades da Normal
 A soma de variáveis aleatórias Normais é ainda
Normal com média igual à soma das médias. Se
as variáveis forem independentes a variância é
igual à soma das variâncias.
 Em particular a média X de n variáveis Normais
independentes e com a mesma distribuição é
ainda Normal


X ~ N , 2 /n 

71
Distribuição t (de Student)
 A distribuição t (de Student) é uma família
de distribuições indexada por um
parâmetro, que representa o número de
graus de liberdade (g.l.). Quando X tem
distribuição t com n graus de liberdade
escreve-se X ~ tn.

Distribuição t (de Student): curvas de


densidade

72
Propriedades da distribuição t
 A distribuição t de Student varia de acordo com a
dimensão da amostra que vai determinar o número de
graus de liberdade.
 A curva da distribuição t de Student tem a mesma forma
em sino da distribuição Normal, mas reflecte a maior
variabilidade (com curvas mais alargadas) que é de
esperar em amostras pequenas.
 A distribuição t de Student tem valor médio zero (tal como
a distribuição Normal standard).
 O desvio padrão da distribuição t de Student varia de
acordo com o tamanho da amostra e é maior do que 1 (o
que não acontece com a distribuição Normal standard,
onde σ = 1).
 Quanto maior a dimensão da amostra, mais a distribuição t
de Student se aproxima da distribuição Normal.

Distribuição t
 Se X1, X2, … , Xn representa uma amostra aleatória com
distribuição Normal, N(μ,σ2), a seguinte variável tem distribuição
Normal standard
X 
~ N (0,1)
/ n
e substituindo σ por S passamos a ter uma distribuição t com n-1
graus de liberdade.

X 
~ t n 1
S/ n

73
Distribuição t
 Para obter probabilidades e quantis da
distribuição t podemos recorrer a software
ou a tabelas.
 As tabelas fornecem habitualmente
quantis da distribuição.
 No SPSS as funções associadas à
distribuição t com n graus de liberdade
são:
 Cdf.t(x,n) para a função de distribuição no
ponto x, F(x);
 Idf.t(p,n) para o quantil de ordem p, tp, n.

Teorema do Limite Central


 Vimos anteriormente que a média de uma
conjunto de variáveis aleatórias Normais, é ainda
Normal:

X ~ N ( , )  X ~ N  ,  2 / n 
 O Teorema do Limite Central permite dizer que a
média de um conjunto de variáveis aleatórias
com uma qualquer distribuição é
aproximadamente Normal (cada vez mais Normal
à medida que o nº de variáveis aumenta)


X ~ F ( x)  X ~ N  ,  2 / n
apr .

74
Teorema do Limite Central
 Se tivermos n variáveis aleatórias X1,X2…,Xn
independentes e com a mesma distribuição de
média μ e variância σ2,então quando n cresce
para infinito,
X 
 N (0,1)
dist

/ n

ou equivalentemente

X i  n
 N (0,1)
dist

n

Parâmetro vs. Estatística


 Parâmetro – Medida usada para descrever a
distribuição da população
 a média μ e o desvio padrão σ2 são parâmetros de uma
distribuição Normal - N(μ,σ2)
 a probabilidade de sucesso p é um parâmetro da
distribuição Binomial - B(n,p)

 Estatística – Função de uma amostra aleatória


que não depende de parâmetros desconhecidos
 Média amostral:
n  i 1
n
X  1 Xi

Variância amostral:
2

n  i 1
S2  1
n
 (Xi  X )

 Amplitude da amostra: R  X n :n  X 1:n

75
Estimação de Parâmetros
População Amostra

Distribuição da População Distribuição Amostral


estimar
Parâmetros Estatísticas
(valor fixo) (função da amostra)

pontual (estatísticas)
Estimação
por intervalo (intervalos de confiança)

Estatística: é a v.a. que estima (pontualmente) um


parâmetro (populacional). Ás vezes é chamada
simplesmente de estimador.
Estimativa: é o valor do estimador obtido para uma
amostra específica

Estimação Pontual

76
Intervalo de Confiança
Um intervalo de confiança para um parâmetro ,
a um grau de confiança 1-,
é um intervalo aleatório (Linf, Lsup) tal que:

P(Linf <  < Lsup) = 1- ,   (0,1)

onde  deve ser um valor muito reduzido por


forma a temos confianças elevadas

Valores usuais para o grau de confiança: 95%, 99% e 90%

Intervalo de Confiança (IC)


I. IC para a média  com variância desconhecida
 Caso 1: população Normal
 Caso 2: população qualquer (n>>30)
aproximada pela Normal
II. IC para uma proporção

77
IC para  com variância desconhecida
Se o valor de 2 é desconhecido  substituir por uma estimativa
Estimadores pontuais para o desvio padrão  :
desvio padrão amostral não-corrigido desvio padrão amostral corrigido
n
 1  1 n
 S 
n
 (X
i 1
i X) 2
  Sc   ( X i  X )2
n  1 i 1

Se 2 desconhecida podemos distinguir dois casos:


Caso1. população Normal  usar distr.t de Student
X 
X ~ N ( , 2 )  T  ~ t n 1 
Sc n  S S 
IC1 (  )   X  t1 2 , n 1 c , X  t1 2 , n 1 c 
 n n
Caso2. q.q. distribuição aproximada pela Normal, amostras grandes
 usar distribuição Normal padronizada

X   Sc S 
X q.q. com n  30  Z  ~ N (0,1)  IC1 (  )   X  z1 2 , X  z1 2 c 
Sc n a  n n

IC para  com variância desconhecida


Caso 1: População Normal
Exemplo:
Uma v.a. qualquer tem uma distribuição Normal com média  e variância 2
desconhecidas. Retira-se uma amostra de 25 valores e calcula-se a média amostral e
variância amostral . Construa um IC de 95% para  supondo que X  12,7 e S2 = 16
Distribuição t de Student com
24 graus de liberdade
 S S  t24
IC(1 ) (  )   X  t1 2 , n 1 , X  t1 2, n1 
 n n

 S S 
IC95% (  )   X  t0.9750, 24 , X  t0.9750, 24 
 n n 95%
 4 4  2,5% 2,5%
 12,7  2,06 , 12,7  2,06 
 25 25 
 12,7  1,648, 12,7  1,648
- -t 0 t +

IC95% (  )  11.052, 13.648 ? 24 = 2,06


t0,9750,

78
Determinando t1-/2, n-1 - quantil de ordem 1-/2 de uma
distribuição t-Student com n-1 graus de liberdade
Tabela 8. Student s t-Distribution
Por definição de quantil de ordem 1-/2:
z = z 1 - /2  F(z) = P(Z < z) =1 - /2
Para grau de confiança 95%  nível de significância =0.05
F(z) = P(Z < z) = 1- (0.05/ 2) = 0.975  F(z) = 0.9750
Para n=25  24 graus de liberdade
Determinar t0.9750, 24 usando Tabela 8:

t0.9750, 24 = 2.06

IC para  com variância desconhecida


Caso 1: População Normal
Uma amostra aleatória de 20 cigarros foi analisada para estimar a quantidade de
nicotina por cigarro, observando-se a média de 1,2 mg e variância amostral corrigida
de 0.04. Pressupondo que as observações têm distribuição Normal, determine um IC
para o valor médio da quantidade de nicotina por cigarro, grau de confiança de 99%
Usando esta amostra determinamos um IC aproximado para  a 99%:
Para grau de confiança 99%:
 S S  (1-) x 100% = 99%  (1-) =0.99  =0.01
IC(1 ) (  )   X  t1 2, n1 c , X  t1 2,n 1 c  Por definição de quantil de ordem 1-/2:
 n n F(z) = P(Z < z) = 1- (0.01/ 2) = 0,995  F(z) = 0.995
Para n=20  19 graus de liberdade
 S S 
IC99% (  )   X  t0,995,19 C , X  t0,995,19 C 
 n n
Determinar t0.995, 19 usando Tabela 8
t0.995, 19 = 2.86

 0,04 0,04 
IC99% (  )  1,2  2,86 , 1,2  2,86 
 20 20 
 1,2  2,86  0,044721, 1,2  2,86  0,044721 IC99% (  )  1.0721, 1.3279

79
IC para  com variância desconhecida
Exemplo: População qualquer, amostra grande
Ingressos dos emigrantes hispânicos em EU segundo censo de 1980
Origem Nº Rendimento Desvio
pessoas Médio Padrão IC para  a grau de confiança 95%
amostra Amostral
 S S 
cubanos 3895 $16 368 $3 069 IC 95 % (  )   X  1 . 96 , X  1 . 96 
 n n
mexicanos 5729 $13 342 $9 414
porto- 5908 $12 587 $8 647
riquenhos

3069
 cubanos: erro padrão   49.17 IC95% (  )  16368  1.96  49.17
3985
IC  ( 16272, 16464 )
9414
 mexicanos:erro padrão   124.41 IC95% (  )  13342  1.96 124.41
5729
IC ( 13098, 13586 )
8647
 porto-riq.: erro padrão   112.5 IC95% (  )  12587  1.96  112.5
5908
IC  ( 12367, 12807 )

IC para  com variância desconhecida


Exemplo: População qualquer, amostra grande

80
Intervalo de Confiança para Proporção
Considere que uma urna contêm bolas vermelhas e azuis e que n bolas são
escolhidas ao acaso (com reposição), definindo-se
X como o número de bolas vermelhas entre as n seleccionadas
n
X   Yi , Yi ~ Bernoulli sendo p = P(Xi = 1), X ~ Binomial (n,p)
i 1 a probabilidade de se seleccionar um bola vermelha
Se p- desconhecido, um estimador pontual para p é a proporção amostral:
X
pˆ  p (1  p )
n pˆ ~ N ( p, ) (se n é grande, pelo TLC)
a n N (0,1)

centrando e reduzindo:
1
X
p  
pˆ  p n
Z p(1  p ) n

p(1  p) n ~ N (0, 1)
a
2 2

- -z 0 z +
z /2 z1 - /2
I.C. para Z com grau de confiança 1- quantil de ordem /2 quantil de ordem 1-/2

P( z  Z  z)  1   P ( pˆ  z pˆ (1  pˆ ) n , pˆ  z pˆ (1  pˆ ) n )  1  

Intervalo de Confiança para Proporção


Seja pˆ  X a proporção de indivíduos com uma certa característica de
n
interesse numa amostra aleatória de dimensão n, e p a proporção de
indivíduos com essa característica na população.

Um intervalo de confiança aproximado para p, a um grau de confiança


1-, é dado por:

 pˆ (1  pˆ ) pˆ (1  pˆ ) 
IC (1  ) ( p )   pˆ  z1   2 , pˆ  z1  2


 n n 

81
IC para uma proporção
Exemplo: Proporção de acessos a páginas de Internet nacionais
Em 100 acessos a páginas de internet escolhidos ao acaso 30 são as páginas
nacionais. Determine um IC a 95% para a proporção de acessos a páginas nacionais
X - número de acessos á páginas de internet nacionais X ~ Binomial( 100 ,p )
p – proporção de acessos a páginas nacionais (em geral) p – desconhecido
Usando esta amostra determinamos um IC aproximado para p a 95%:
 
IC(1 ) ( p)  pˆ  z1 2 S p , pˆ  z1 2 S p com pˆ  X e Sp 
pˆ (1  pˆ )
n n
1º. Determinar z1-/2 para =0,05 z0,9750=1,96
IC(95%) ( p )   pˆ  z0.9750 S p , pˆ  z0.9750 S p  IC( 95%) ( p )   pˆ  1,96  S p , pˆ  1,96  S p 
^eS
2º. Determinar as estimativas p p

X 30 pˆ (1  pˆ ) 0,3  0,7
pˆ    0. 3 Sp    0,04582
n 100 n 100
3º. Substituir na fórmula:
IC( 95%) ( p )  0,3  1,96  0,04582, 0,3  1,96  0,04582
IC95% ( p )  0.2102, 0.3898
 0,3  0,089818, 0,3  0,089818

82
83
84
85
86
87
88
𝑝 −(𝑝 − 𝑣𝑎𝑙𝑢𝑒
𝑣𝑎𝑙𝑢𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙)
𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙

Converter p-value bilateral em


1−
2 2

unilateral
O SPSS, em alguns casos (como nos testes à média),
só fornece o p-value bilateral.
Regra para a conversão:

tobs<0 tobs>0

𝑝 − 𝑣𝑎𝑙𝑢𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 (𝑝 − 𝑣𝑎𝑙𝑢𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙)


1−
TUE ( H1: < ) 2 2
(𝑝 − 𝑣𝑎𝑙𝑢𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙) 𝑝 − 𝑣𝑎𝑙𝑢𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙
1−
TUD ( H1: > ) 2 2

89
90
91
92
93
94
95

Você também pode gostar