Você está na página 1de 186

ESTATÍSTICA E ANÁLISE DADOS

COM RECURSO AO SPSS


Ministério da Agricultura e Desenvolvimento rural
Formador: Peregrino Costa
Junho/Julho de 2017.
Objectivos:
• Gerais:
 Adquirir, aprofundar e desenvolver os conhecimentos e competências dos
participantes relativamente à recolha, tratamento e análise de dados estatísticos.
• Específicos:
No final da acção, os formandos deverão ser capazes de:
• Desenvolver conhecimentos sobre as noções de estatística, correlação linear e
regressão linear;
• Desenvolver o conhecimento de um conjunto de métodos que suportam o processo
de recolha de dados, com o foco principal na recolha de dados efectuada através de
inquéritos por questionário;
• Dominar os métodos de inquéritos com enfase particular em amostragem
probabilística;
• Utilizar o SPSS no tratamento de dados recolhidos, quer administrativamente, quer
por inquérito.
PROGRAMA

Conteúdos Programáticos:

• Noções de estatística
• Metodologia de Inquéritos
• Amostragem
1. Noções de Estatística
Objectivos
Desenvolver conhecimentos sobre noções de estatística descritiva e inferência
estatística, correlação simples e regressão linear.

Conteúdo da Formação:
1. Objectivos da estatística; 2. Tipos de variáveis; 3. População e amostra;

4. Campos de aplicação; 5. Representações gráficas; 6. Medidas de:


tendência central, dispersão e associação;

7. Principais distribuições; 8. Testes de hipóteses; 9. Correlação linear


simples;

10. Regressão linear; 11. Introdução ao SPSS.


2. Metodologia de Inquéritos
Objectivos:
• Conhecimento de um conjunto de metodologias que suportam os
processos de recolha de dados, com principal destaque para a recolha de
dados realizada através de inquéritos baseados em questionário;
• É abordado o planeamento do inquérito, a problemática relacionada com a
definição das populações alvo e com a constituição de bases de sondagem,
analisados métodos para prevenção e tratamento dos principais erros não
amostrais, discutidos os métodos e modos de recolha de dados incluindo
os dados administrativos e a gestão de trabalho de campo e estudadas
formas de desenho e implementação de questionários, bem como de
outros instrumentos de recolha de dados;
• No final desta componente os formandos deverão ser capazes de conceber
uma metodologia que suporte a recolha de dados através de inquirição.
2. Metodologia de Inquéritos
Conteúdo da Formação:

1. Planeamento de uma pesquisa


2. A recolha da informação
2.1 As entrevistas
2.2 Métodos de recolha da informação
3. A construção de um Questionário
3.1 O estudo preliminar
3.2 A elaboração do questionário
3. Amostragem
Objectivos:
• Esta componente tem por objectivo proporcionar conhecimentos sobre métodos
de sondagem, sendo dado particular destaque para a amostragem probabilística;
• São abordados os principais desenhos amostrais: sondagem aleatória simples,
sondagem estratificada, sondagem por conglomerados e sondagem em várias
etapas;
• São abordados os processos de selecção com probabilidades iguais e desiguais,
com particular destaque para a selecção com probabilidades proporcionais à
dimensão;
• É igualmente efectuada uma introdução à estimação de rácios e estimação em
domínios bem como ao uso de informação auxiliar. Com esta abordagem os
formandos deverão ser capazes de desenhar uma amostra adequada a um
qualquer problema de recolha de dados, dimensionar a amostra, escolher os
estimadores adequados e produzir medidas de precisão da estimação.
3. Amostragem
Conteúdo:

1. Introdução à Amostragem;

2. Amostragem não aleatória (Intencional, Bola de neve, por Quotas,


Por conveniência e Itinerários Aleatórios);

3. Amostragem aleatória (Aleatória Simples, Sistemática, Estratificada,


Por Clusters, Multi-Etapas, Multi-Fásica).
1. Noções de Estatística
1. Objectivos da estatística

ESTATÍSTICA
“Ciência que dispõe de processos apropriados para recolher,
organizar, descrever, apresentar, classificar e interpretar conjuntos de
dados"

A Estatística divide-se em dois grandes grupos: A Estatística Descritiva


e Inferência Estatística ou Estatística Dedutiva
1.Noções de Estatística
1 Objectivos da estatística
Estatística Descritiva
Parte da Estatística que se relaciona com a organização, apresentação, descrição e
resumo dos dados. Fornece técnicas para extrair informação de dados, nem sempre
completas, pois dão informação útil sobre o problema em estudo, não realçando,
no entanto, certos aspectos importantes. Pode concluir-se que a estatística
descritiva contribui para a obtenção de uma melhor compreensão de certas
situações representadas pelos dados disponíveis.

Estatística Inferencial
Parte da Estatística que procura estabelecer conclusões para a população com base no
conhecimento parcial da mesma.
1.Noções de Estatística
2 Tipos de variáveis

VARIÁVEL

 Característica de interesse que é medida em cada elemento da amostra ou


população.

Ela varia de uma observação para outra e podem ter valores numéricos ou não
numéricos.
Discreta
Característica que é medida e assume valores
finitos ou infinitos contáveis (valores inteiros).
Quantitativa Exemplos: número de irmãos, número de
Característica que pode filhos.
ser medida em escala Contínua
quantitativa. Característica que é medida e assume valores
numa escala contínua (que podem
Numérica representar-se na recta real). Exemplos: peso
(balança), altura (régua), idade.

Qualitativa (categórica) Nominal


Característica que não é Não existe uma ordenação entre as categorias.
quantitativa e representa Exemplos: cor dos olhos, sexo.
uma classificação dos
Variável indivíduos
Ordinal
Existe uma ordenação entre as categorias.
Exemplos: escolaridade (4ª, 5ª, 6ª, 7ª classe),
fases de uma doença (inicial, intermediário,
terminal).
Não Conjunto de
Numérica caracteres
1.Noções de Estatística
2 Tipos de variáveis
• Observações:
Uma variável pode ser recolhida na forma qualitativa e ser transformada em
quantitativa.
Uma variável representada por números nem sempre é quantitativa.
As variáveis categóricas não representam quantidades mas sim categorias.
Quando as variáveis são codificadas os valores apenas representam categorias.
Estes valores não têm significado quantitativo.
Se as categorias da variável têm uma ordem, ela chama-se variável categórica
ordinal; se as categorias não têm ordem a variável diz-se nominal.
Há variáveis que, por necessidade ou conveniência do estudo, são categorizadas.
Exemplo: Idade é uma variável contínua. Mas se se tiver um indivíduo com 26,7
anos, na sua forma categorizada (grupos etários) esse indivíduo passará a pertencer
à categoria (grupo etário) de [25 a 30 anos].
1.Noções de Estatística
3. População e amostra
UNIDADES ESTATÍSTICAS
Os elementos que compõem a população-alvo e a amostra

BASE DE SONDAGEM
Constituída por uma lista que identifica as unidades de amostragem

AMOSTRAGEM
Parte da estatística onde se estudam os métodos de selecção de
amostras e como extrapolar os seus resultados para a população
1.Noções de Estatística
3. População e amostra
- AMOSTRA, um subconjunto de indivíduos da população-alvo

- AMOSTRA REPRESENTATIVA, uma amostra


seleccionada de forma que as informações recolhidas
possam ser estendidas ao conjunto da população, com
uma precisão julgada adequada

- POPULAÇÃO-ALVO OU ESTUDADA, um conjunto de


elementos distintos que possuem pelo menos
uma característica em comum

- VARIÁVEL ALEATÓRIA, uma característica comum a todos os elementos da amostra


1.Noções de Estatística
4. Campos de aplicação
É aplicada nas mais diversas áreas (campos) de intervenção humana:
• Agricultura
• Estudos sócio-demográficos
• Saúde
• Economia e Finanças
• Estudos de opinião
• Controlo de qualidade
• Ambiente
• Etc., etc..
1.Noções de Estatística
5. Representações gráficas
• Tem como objectivo principal a visualização de características da
variável em estudo na amostra, ou seja de estatísticas amostrais, de
forma simples e de fácil aquisição mental.

1. Diagrama de extremos e quartis: Existem algumas variações quanto


à quantidade de estatísticas representadas neste tipo de gráfico, mas
em geral todos incluem a mediana, o 1º (Q1) e o 3º (Q3) quartis, os
valores mínimos e máximos e eventuais outliers e extremos.
1.Noções de Estatística
5. Representações gráficas
1.Noções de Estatística
5. Representações gráficas
2. Histograma de frequências:
as observações da variável
contínua em estudo são
organizadas em classes
(de amplitudes variáveis ou fixas)
no eixo das abcissas e a frequência
(relativa ou absoluta) de cada uma
dessas classes na amostra é representada
no eixo das ordenadas.
1.Noções de Estatística
5. Representações gráficas
Se a variável medida for do tipo discreto, devem utilizar-se gráficos de
barras.
1.Noções de Estatística
5. Representações gráficas
3. Gráficos circulares: Costuma ser utilizado para representar
informação em termos percentuais, em particular para variáveis
nominais.
1.Noções de Estatística
5. Representações gráficas
4. Gráfico de caule e folha (Stem-and-Leaf): Reúnem informação dos
histogramas mantendo o valor de cada observação. A primeira coluna
apresenta as frequências de cada uma das classes. O Stem indica o
dígito das dezenas e a Leaf indica o dígito das unidades de cada uma
das observações.
1.Noções de Estatística
5. Representações gráficas
5. Diagrama de dispersão: São utilizados para ilustrar a relação entre
duas variáveis quantitativas. Nestes tipos de gráficos as observações de
cada uma das variáveis são representadas como pares ordenados
𝑋𝑖 , 𝑌𝑖 .
1.Noções de Estatística
6. Medidas
Depois de constituídas as amostras, de acordo com as práticas
correctas da teoria de amostragem, torna-se necessário caracterizá-las.
São utilizadas as medidas de tendência central (que procuram
caracterizar o valor da variável em estudo que ocorre com mais
frequência), medidas de dispersão (que estuda a dispersão das
observações em torno das estatísticas de tendência central), medidas
da forma (que a forma da distribuição dos elementos das amostras) e
as medidas de associação (que caracterizam a intensidade e a direcção
da variação comum entre variáveis no caso de amostras com mais de
um variável,
1.Noções de Estatística
6.1. Medidas de tendência central
Dentre as várias medidas de tendência central, as mais utilizadas são:
- Média amostral (aritmética):
𝑛
1
𝑥= 𝑥𝑖
𝑛
𝑖=1
onde 𝑛 é a dimensão da amostra e 𝑥𝑖 𝑖 = 1, 2, … , 𝑛 representa cada
um dos valores da variável 𝑋.
Exemplo: Determinar a média da seguinte amostra: 3, 14, 5, 6, 10
𝑛
1 1 38
𝑛 = 5; 𝑥 = 𝑥𝑖 = × 3+14+5+6+10 = = 7,6
𝑛 5 5
𝑖=1
1.Noções de Estatística
6.1. Medidas de tendência central

- Média ponderada
𝑛
1
𝑥= 𝑥𝑖 𝐹𝑖
𝑁
𝑖=1
onde 𝑁 é a dimensão da amostra e 𝑥𝑖 𝑖 = 1, 2, … , 𝑛 representa cada
um dos valores da variável 𝑋, 𝐹𝑖 representa a frequência absoluta.
1.Noções de Estatística
6.1. Medidas de tendência central
- Média ponderada: Exemplo: Cálculo da média segundo o seguinte quadro
de dados: 𝒙 𝑭 𝒙 ×𝑭
𝒊 𝒊 𝒊 𝒊
770 4 3080
790 43 33970
810 118 95580
830 168 139440
850 117 99450
870 39 33930
890 11 9790
Total 500 415240
𝑛
1 1
𝑥= 𝑥𝑖 × 𝐹𝑖 = × 415240 = 830,48
𝑁 500
𝑖=1
1.Noções de Estatística
6.1. Medidas de tendência central
- Mediana 𝑥 ou 𝑀𝑒
É o valor de 𝑋𝑖 tal que, depois de ordenadas por ordem crescente todas
as observações da variável 𝑋, 50% das observações sejam superiores
ou iguais e 50% sejam inferiores ou iguais à mediana.
Calcula-se por:
𝑋𝑛 + 𝑋𝑛+1
2 2
, 𝑠𝑒 𝑛 𝑝𝑎𝑟
𝑥= 2
𝑋𝑛+1
2
, 𝑠𝑒 𝑛 í𝑚𝑝𝑎𝑟
2
1.Noções de Estatística
6.1. Medidas de tendência central
1. Com os dados 2, 5, 3, 1, 6 calcular a mediana?
Ordena-se por ordem crescente: 1, 2, 3, 5, 6. O valor 𝑥𝑖 = 3 coloca 50%
dos dados à direita e 50% à esquerda, daí que é a 𝑥 = 3. Mas se for
2, 3, 5, 6 já teremos dificuldades de encontrar o tal valor 𝑥𝑖 coloca 50%
dos dados à direita e 50% à esquerda. Por isso temos que calcular

𝑋𝑛 + 𝑋𝑛+1
2 2 3+5
= =4
2 2
Sabendo que: 𝑋𝑛 = 3 e 𝑋𝑛+1 = 5
2 2
1.Noções de Estatística
6.1. Medidas de tendência central
2. Com os dados do quadro seguinte calcular a mediana.
Classes Frequências A mediana é o valor a que corresponde
absolutas 𝑁 500
acumuladas a frequência acumulada = = 250
2 2
760-780 4
780-800 47 e que se verifica pertencer à classe
800-820 165 820-840 (classe mediana), pois até 820
820-840 333
840-860 450 há 165 observações e até 840 há 333
860-880 489
880-900 500 observações. Assim, a mediana será
840+820
o ponto da classe, ou seja: = 830.
2
1.Noções de Estatística
6.1. Medidas de tendência central
- Moda (é a media de tendência central menos usada)
• Para dados não classificados a moda é o valor mais frequente.
• Para dados classificados a classe modal é que tem frequência mais
elevada.
- Costuma utilizar-se a seguinte fórmula:
𝑓 ∗∗
𝑚𝑜𝑑 = 𝑙 + ∗ ∗∗
×ℎ
𝑓 +𝑓
onde 𝑙- limite inferior da classe modal, 𝑓 ∗ - frequência da classe
anterior à modal, 𝑓 ∗∗ - frequência da classe posterior à modal e ℎ-
amplitude da classe.
1.Noções de Estatística
6.1. Medidas de tendência central
Calcular a moda?
Classes Frequências Frequências 𝑓∗∗
absolutas relativas 𝑚𝑜𝑑 = 𝑙 + ×ℎ
𝑓∗ +𝑓∗∗
117
760-780 4 0,008 = 820 + × 20 = 829,96
780-800 43 0,086 118+117
800-820 118 0,236
820-840 168 0,336
840-860 117 0,234
860-880 39 0,078
880-900 11 0,022
Total 500 1,000
1.Noções de Estatística
6.2. Medidas de dispersão
Quando se analisam as colecções de dados também se utilizam a
dispersão à par da média e mediana. Esta medida serve para analisar o
comportamento da colecção, tomando como referência uma medida
fixa que, deve ser o valor escolhido para localizar a distribuição.
Normalmente usa-se a média como medida fixa e ela é tomada para
referenciar a dispersão das observações. Perante tal hipótese a
dispersão deve sintetizar o comportamento do conjunto dos desvios
em relação à média, isto é, 𝑥𝑖 − 𝑥 , 𝑖 = 1, 2, … , 𝑁; havendo pouca
dispersão os desvios são globalmente pequenos; havendo muita
dispersão os desvios são globalmente grandes. Como a soma dos
desvios é zero, toma-se os desvios elevados ao quadrado para perder o
sinal e não haver compensação entre valores e negativos.
1.Noções de Estatística
6.2. Medidas de dispersão
- Variância e desvio padrão para os dados não classificados:
• Variância:
1. Para amostras consideradas não pequenas
𝑁
2
1
𝑠 = 𝑥𝑖 − 𝑥 2
𝑁
𝑖=1
2. Para amostras consideradas pequenas (variância corrigida)
𝑁
2
1
𝑠 = 𝑥𝑖 − 𝑥 2
𝑁−1
𝑖=1
1.Noções de Estatística
6.2. Medidas de dispersão
- Variância e desvio padrão para os dados não classificados:
• Desvio-padrão:
1. Para amostras consideradas não pequenas
𝑁
1 2
𝑠= 𝑥𝑖 − 𝑥
𝑁
𝑖=1

2. Para amostras consideradas pequenas (variância corrigida)


𝑁
1 2
𝑠= 𝑥𝑖 − 𝑥
𝑁−1
𝑖=1
1.Noções de Estatística
6.2. Medidas de dispersão
Cálculo da variância e do desvio-padrão

𝑥=48,72
𝑥𝑖 2
𝑥𝑖 − 𝑥
1 𝑁
44,8 12,82 𝑠2 = 𝑖=1 𝑥𝑖 − 𝑥 2
𝑁−1
53,5 26,21
32,8 242,74 911,81
34,3 198,25 = = 113,98
8
46,8 2,50
49,2 0,68 1 𝑁 2
53,8 29,38 𝑠= 𝑖=1 𝑥𝑖 − 𝑥
𝑁−1
66,5 328,33
56,8 70,90
= 113,98 = 10,68
1.Noções de Estatística
6.2. Medidas de dispersão
- Variância e desvio padrão para os dados classificados:
• Variância:
1. Para amostras consideradas não pequenas
𝑁
2
1
𝑠 = 𝐹𝑖 𝑥𝑖 − 𝑥 2
𝑁
𝑖=1
2. Para amostras consideradas pequenas (variância corrigida)
𝑁
2
1
𝑠 = 𝐹𝑖 𝑥𝑖 − 𝑥 2
𝑁−1
𝑖=1
1.Noções de Estatística
6.2. Medidas de dispersão
• Variância e desvio padrão para os dados classificados:
- Desvio padrão
1. Para amostras consideradas não pequenas
𝑁
1 2
𝑠= 𝐹𝑖 𝑥𝑖 − 𝑥
𝑁
𝑖=1

2. Para amostras consideradas pequenas (variância corrigida)


𝑁
1 2
𝑠= 𝐹𝑖 𝑥𝑖 − 𝑥
𝑁−1
𝑖=1
1.Noções de Estatística
6.2. Medidas de dispersão
• Cálculo da variância e do desvio-padrão
2 1 𝑁 2
Classes Frequências Ponto Produtos 𝑠 = 𝐹 𝑥
𝑖=1 𝑖 𝑖 − 𝑥
absolutas médio 𝐹𝑖 𝑥𝑖 − 𝑥 2
𝑁
279200
= = 558,17
760-780 4 770 14400 500
780-800 43 790 68800
800-820 118 810 47200
820-840 168 830 0 1 𝑁
𝑠= 2
840-860 117 850 46800
𝑁 𝑖=1 𝐹𝑖 𝑥𝑖 − 𝑥
860-880 39 870 62400
880-900 11 890 39600
= 558,17 = 23,63
Total 500 279200
1.Noções de Estatística
6.3. Medidas de forma
A assimetria e o achatamento caracterizam a forma da distribuição dos elementos
da população na amostra em torno da média, por isso são designados por
“medidas de forma”. A assimetria de uma distribuição pode ser caracterizada pelo
enviesamento (skewness) que essa distribuição apresenta relativamente à média.
Existem vários coeficientes para medir a assimetria, mas geralmente é calculado a
partir do 3º momento em torno da média: 𝑛
3
1
𝑀 = 𝑋𝑖 − 𝑋 3
𝑛
𝑖=1
O coeficiente de assimetria calculado pelo SPSS, e que deve ser utilizado sempre
que se trabalha com amostras é:
𝑛2 𝑀 3
𝑔1 =
𝑛 − 1 𝑛 − 2 𝑆3
onde 𝑆 é o desvio-padrão amostral.
1.Noções de Estatística
6.3. Medidas de forma
O 4º momento em torno da média serve para avaliar se a distribuição é
mais ou menos achatada
𝑛
4
1
𝑀 = 𝑋𝑖 − 𝑋 4
𝑛
𝑖=1
O coeficiente de achatamento ou kurtose utilizado com mais
frequência é (Guimarães & Cabral, 1997):
𝑛2 𝑛 + 1 𝑀 4 𝑛−1 2
𝑔2 = 4
−3×
𝑛−1 𝑛−2 𝑛−3 𝑆 𝑛−2 𝑛−3
1.Noções de Estatística
6.4. Medidas de associação
• Coeficiente de correlação de Pearson
Mede a intensidade e a direcção da associação do tipo linear entre duas
variáveis quantitativas. É calculada através da variância comum, isto é, da
Covariância (𝐶𝑜𝑣 𝑋1 , 𝑋2 ) entre duas variáveis 𝑋1 e 𝑋2 que é dada por:
𝑛
1
𝐶𝑜𝑣 𝑋1 , 𝑋2 = 𝑋1𝑖 − 𝑋1 2 𝑋2 − 𝑋2 2
𝑛
𝑖=1

𝑛 2 2
𝑖=1 𝑋1𝑖 − 𝑋1 𝑋2 − 𝑋2
𝜌𝑋1 ,𝑋2 =
𝑛 2 𝑛 2
𝑖=1 𝑋1𝑖 − 𝑋1 𝑖=1 𝑋2 − 𝑋2
1.Noções de Estatística
7. Principais distribuições
Com as amostras constituídas (com recurso às técnicas de amostragem) e a
sua caracterização (com recurso à estatística descritiva) o passo seguinte
consiste em fazer inferir acerca dos valores dos parâmetros da população,
onde foram obtidas as amostras e ou validar as hipóteses acerca desses
parâmetros.

O processo descrito chama-se Inferência Estatística que subdivide-se em 1)


teoria da estimação, que tem como objectivo estimar os parâmetros da
população teórica a partir das estimativas amostrais e 2) teoria da decisão
que tem como objectivo fundamentar a decisão e esta está intimamente
ligada a testes de hipóteses relacionados com os parâmetros da população.
1.Noções de Estatística
7. Principais distribuições
O processo de inferência estatística, exige uma função Matemática que
dá a probabilidade do valor de cada observação da amostra na
população, a chamada função densidade de probabilidade, que seja
conhecida, isto é, que a distribuição amostral possa ser estimada.

Existem várias distribuições e veremos apenas:


- Distribuição Normal
- Distribuição do X -Quadrado
- Distribuição T –Student
consideradas com maior uso.
1.Noções de Estatística
7. Principais distribuições
• Distribuição Normal

Curva da Densidade (ou da função densidade de probabilidade é o gráfico da


distribuição de probabilidade de uma variável aleatória contínua).
1.Noções de Estatística
7. Principais distribuições
•Distribuição Normal

Definições
1. A área total sob a curva é igual a 1.
2. Todo o ponto sob a curva deve ter uma ordenada de valor igual ou superior a zero.
Distribuição Normal Standard :
a distribuição Normal tem média 0 e desvio padrão 1.
1.Noções de Estatística
7. Principais distribuições
•Distribuição Normal
1.Noções de Estatística
7. Principais distribuições
• Distribuição Normal
1.Noções de Estatística
7. Principais distribuições

• Distribuição do X -Quadrado

1. A distribuição Qui-quadrado
não é simétrica, ao contrário do
que sucede com as distribuições
Normal e t de Student.
1.Noções de Estatística
7. Principais distribuições

• Distribuição do X -Quadrado
Distribuição Qui-quadrado
para g.l.= 10 e g.l.= 20

À medida que o nº de graus


de liberdade aumenta,
a distribuição torna-se mais simétrica.
1.Noções de Estatística
7. Principais distribuições
• Distribuição do X -Quadrado

Perceber o são graus de liberdade:


Consideremos um conjunto de dados qualquer.

Graus de liberdade é o número de valores deste conjunto de dados


que podem variar após terem sido impostas certas restrições a todos
os valores.
1.Noções de Estatística
7. Principais distribuições

• Distribuição T -Student
A distribuição t de Student é
a designação de uma família
de distribuições indexada
pelo parâmetro n, que representa
o número de graus de liberdade (g.l.).
1.Noções de Estatística
7. Principais distribuições
• Distribuição T -Student
1.Noções de Estatística
8. Testes de hipóteses
Hipótese
É uma conjectura, uma resposta provisória que de acordo com certos
critérios, será rejeitada ou não-rejeitada.

Nota:
Considerando que as mesmas causas nem sempre produzem os
mesmos efeitos, em lugar de ACEITAR, costuma-se dizer NÃO REJEITAR,
associando a esta última expressão uma PROBABILIDADE.
1.Noções de Estatística
8. Testes de hipóteses
Ideia de base subjacente aos testes estatísticos é:

• Definir uma hipótese nula que se receia que seja verdadeira;


• Verificar se os dados podem fornecer forte evidência contrária à
hipótese.
• Recorre-se a uma regra de decisão, sabendo que se poderá cometer
um erro, qualquer que seja a decisão tomada.
• Comete-se um erro de 1ª espécie quando se rejeita a hipótese nula,
sendo esta verdadeira.
1.Noções de Estatística
8. Testes de hipóteses

• Pode igualmente cometer-se um erro de 2ª espécie aceitando a


hipótese nula, quando esta é falsa.
• Uma análise estatística mais sofisticada deverá ter em conta o
equilíbrio e os custos relativos entre os erros de 1ª e 2ª espécie,.
• No entanto, habitualmente segue-se uma abordagem «adversa ao
risco», ficando-se pela análise dos erros de 1ª espécie.
1.Noções de Estatística
8. Testes de hipóteses
As Hipóteses nem sempre são verdadeiras, nem sempre se decide
acertadamente. O quadro seguinte mostra que existem 4
possíveis acções:
Hipótese
Verdadeira (V) Falsa (F)
Rejeitar a Hipótese 1 2
Decisão Erra Acerta
Não rejeitar a 3
Hipótese Acerta Erra

Na célula 1 comete-se um erro porque se rejeita uma hipótese verdadeira.


Ao fazer isto comete-se um ERRO de 1ª ESPECIE ou ERRO TIPO I.
Na célula 4 comete-se um erro porque se deixou de rejeitar uma hipótese
Falsa. Cometeu-se um ERRO de 2ªESPECIE ou ERRO TIPO II.
1.Noções de Estatística
8. Testes de hipóteses
- A Hipótese que vai ser posta à prova (testada) chama-se, em Estatística,
Hipótese Nula e designa-se por 𝐻0

- A Hipótese que vai ficar no lugar da Hipótese Nula, caso ela seja rejeitada –
Chama-se Hipótese Alternativa e designa-se por 𝐻𝟏

- Vê-se que DECISÃO e ERRO caminham sempre juntos.

- Ao se REJEITAR ou NÃO REJEITAR uma Hipótese, podem-se cometer erros.


De facto não se quer cometer erro algum, no entanto, está-se disposto a
tolerar um ERRO, SE esse erro for pequeno.
1.Noções de Estatística
8. Testes de hipóteses
• A probabilidade de um erro de 1ª espécie é designada por nível de
significância e é representada por 𝛼.
• O valor definido para 𝛼 depende da avaliação (por vezes subjectiva)
do custo associado ao erro de primeira espécie.

• NOTA: Lembrar sempre que em qualquer dos testes a selecção de


rejeição da hipótese nula deverá ser convertida num decisão de
gestão.
1.Noções de Estatística
8. Testes de hipóteses
Nível de Significância
É a probabilidade máxima de rejeitar 𝐻0 . Se, por exemplo, utilizarmos o
nível de significância de 5%, a hipótese nula (𝐻0 ) será rejeitada
somente se o resultado da amostra for tão diferente do valor suposto
que uma diferença igual ou maior ocorreria com uma probabilidade
máxima de 0,05.

Na prática, o valor de 𝛼 é fixo.


(Geralmente 𝛼 = 0,01 ou 0,05 ou 0,10.)
1.Noções de Estatística
8. Testes de hipóteses
Região Crítica
• Região onde os valores da estatística do teste levam à rejeição da hipótese
nula. A sua área é igual ao nível de significância, e sua direcção é a mesma
da hipótese alternativa.

Regra de Decisão
• Se o valor da estatística do teste cair dentro da região crítica, rejeita-se 𝐻0 .
Ao rejeitar a hipótese nula (𝐻0 ) existe uma forte evidência de sua falsidade.
• Ao contrário, quando não rejeitamos, dizemos que não houve evidência
amostral significativa no sentido de permitir a rejeição de 𝐻0 .
1.Noções de Estatística
8. Testes de hipóteses
1.Noções de Estatística
9. Correlação linear simples
Objectivo
• Estudar a relação entre duas variáveis quantitativas

Exemplos:
• Quantidade e preço das laranjas vendidas
• Idade e altura das crianças
• Tempo de prática de desporto e ritmo cardíaco
• Tempo de estudo e nota na prova
• Taxa de desemprego e taxa de criminalidade
• Expectativa de vida e taxa de analfabetismo
1.Noções de Estatística
9. Correlação linear simples
Averiguaremos a presença ou ausência de relação linear entre duas
variáveis sob dois pontos de vista:
No parágrafo 9: a) Quantificando a força dessa relação: correlação.
No parágrafo 10: b) Explicitando a forma dessa relação: regressão.

A representação gráfica de duas variáveis quantitativas como objectivo


de investigar a relação entre elas chama Diagrama de dispersão
1.Noções de Estatística
9. Correlação linear simples
𝑋 = 3,71 ; 𝑌 = 4,66 𝒀 𝑿 𝑿−𝑿 𝒀−𝒀 𝑿−𝑿 𝒀−𝒀
0,77 2+
3,67 2+ −2,032
2
𝑆𝑌 = 6.2 5,7 1,37 0,77 1,05
5 9,1 6,3 1,97 3,67 7,23
−1,43 + −1,23 2 + 0,27 2
2 21,81
+ = 3,4 1,9 -2,43 -2,03 4,93
5 5
4,0 3,7 -0,63 -1,43 0,90
= 4,36 ⟹ 𝑆𝑌 = 2,09
2+ 2+ 2 4,2 4,1 -0,23 -1,23 0,28
1,37 1,97 −2,43
𝑆𝑋2= 5,7 4,3 -0.03 0,27 0,01
5
−0,63 + −0,23 2 + −0,03 2
2 12,11
+ = = 2,42 ⟹ 𝑆𝑌 = 1,56
5 5
14,39 14,39 14,39
Então: 𝑟 = = = = 0,88
5×2,09×1,56 5×2,09×1,56 16,302
1.Noções de Estatística
9. Correlação linear simples
Propriedade: −1 ≤ 𝑟 ≤ 1

Casos particulares:
𝑟 = 1 ⟹ correlação linear positiva e perfeita
𝑟 = −1 ⟹ correlaçãolinearnegativaeperfeita
𝑟 = 0 ⟹ inexistência de correlação linear
1.Noções de Estatística
9. Correlação linear simples

r = 1, correlação linear positiva e perfeita

r = -1, correlação linear negativa


e perfeita
1.Noções de Estatística
9. Correlação linear simples
𝒓≅𝟎
1.Noções de Estatística
10. Regressão linear simples
Introdução
A análise de regressão estuda o relacionamento entre uma variável
chamada variável dependente e outras variáveis chamadas variáveis
independentes.
Este relacionamento é representado por um modelo matemático, isto é, por
uma equação que associa a variável dependente com as variáveis
independentes.
Este modelo é designado por modelo de regressão linear simples se define
uma relação linear entre a variável dependente e uma variável
independente.
Se em vez de uma, forem incorporadas várias variáveis independentes, o
modelo passa a denominar-se modelo de regressão linear múltipla.
1.Noções de Estatística
10. Regressão linear simples
A análise de correlação dedica-se a inferências estatísticas das medidas de
associação linear que se seguem:

 coeficiente de correlação simples: mede a “força” ou “grau” de


relacionamento linear entre 2 variáveis;
 coeficiente de correlação múltiplo: mede a “força” ou “grau” de
relacionamento linear entre uma variável e um conjunto de outras
variáveis.

As técnicas de análise de correlação e regressão estão intimamente ligadas.


1.Noções de Estatística
10. Regressão linear simples
Diagrama de Dispersão

Os dados para a análise de regressão e correlação simples são da forma:

𝑥1 ; 𝑦1 , 𝑥2 ; 𝑦2 , … , 𝑥𝑖 ; 𝑦𝑖 , … , (𝑥𝑛 ; 𝑦𝑛 )

Com os dados constrói-se o diagrama de dispersão. Este deve exibir uma tendência linear
para que se possa usar a regressão linear.
Portanto este diagrama permite decidir empiricamente se um relacionamento linear entre
𝑋 e 𝑌 deve ser assumido.
Por análise do diagrama de dispersão pode-se também concluir (empiricamente) se o grau
de relacionamento linear entre as variáveis e forte ou fraco, conforme o modo como se
situam os pontos em redor de uma recta imaginária que passa através do enxame de
pontos.
1.Noções de Estatística
10. Regressão linear simples
Diagrama de Dispersão

A correlação é tanto maior quanto mais os pontos se concentram, com


pequenos desvios, em relação a essa recta.
Se o declive da recta é positivo, concluímos que a correlação entre 𝑋
e 𝑌 é positiva, i.e., os fenómenos variam no mesmo sentido.
Ao contrário, se o declive é negativo, então a correlação entre 𝑋
e 𝑌 é negativa, i.e., os fenómenos variam em sentido inverso.
1.Noções de Estatística
10. Regressão linear simples
Diagrama de Dispersão
Sugerem uma regressão linear (i.e., a relação entre as duas variáveis poderá ser
descrita por uma equação linear)

Existência de correlação positiva (em média,


quanto maior for a altura maior será o peso)

Existência de correlação negativa (em média,


quanto maior for a colheita menor será o preço)
1.Noções de Estatística
10. Regressão linear simples
Exemplo: Pretende-se estudar a relação entre a quilometragem de um carro
usado e o seu preço de venda
Os dados suge-
rem uma relação
linear entre a qui-
lometragem e o
peço de venda.
Existe uma corre-
lação negativa
1.Noções de Estatística
10. Regressão linear simples
O Modelo de Regressão Linear Simples
𝑌 = 𝛼 + 𝛽𝑋 + 𝐸
𝑋 – variável explicativa ou independente medida sem erro (não aleatória);
𝐸 – variável aleatória residual na qual se procuram incluir todas as influências no
comportamento da variável 𝑌 que não podem ser explicadas linearmente pelo
comportamento da variável 𝑋;
𝛼 e 𝛽 – parâmetros desconhecidos do modelo (a estimar);
𝑌 – variável explicada ou dependente (aleatória).

Exemplos
1. Relação entre o peso e a altura de um homem adulto (𝑋: altura; 𝑌: peso)
2. Relação entre o preço do vinho e o montante da colheita em cada ano (𝑋: montante da
colheita; 𝑌: preço do vinho)
1.Noções de Estatística
10. Regressão linear simples
Num estudo de regressão temos 𝑛 observações da variável 𝑋: 𝑥1 , 𝑥2 , … , 𝑥𝑛
(assume-se que estas observações são medidas sem erro).
Temos então 𝑛 variáveis aleatórias 𝑌1 , 𝑌2 , … , 𝑌𝑛 tais que:

𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝐸𝑖 𝑖 = 1, 2, … , 𝑛

Admite-se que 𝐸1 ,2𝐸2 , … , 𝐸𝑛 são variáveis aleatórias independentes de média


zero e variância 𝜎 .

Para qualquer valor


2
𝑥𝑖 de 𝑋, 𝑌𝑖 é uma variável aleatória de média 𝑌 = 𝛼 +
𝛽𝑋 e variância 𝜎 .
1.Noções de Estatística
10. Regressão linear simples
Os dados para a análise de regressão e correlação simples são da forma:

𝑥1 ; 𝑦1 , 𝑥2 ; 𝑦2 , … , 𝑥𝑖 ; 𝑦𝑖 , … , (𝑥𝑛 ; 𝑦𝑛 )

onde 𝑥𝑖 é o valor da variável 𝑋 e 𝑦𝑖 a correspondente observação da variável aleatória 𝑌𝑖 (𝑖 =


1, 2, … , 𝑛).

Cada observação satisfaz a seguinte relação:

𝑦𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝜀𝑖 𝑖 = 1, 2, … , 𝑛

O valor observado de uma variável aleatória (𝑦𝑖 ), usualmente difere da sua média (𝑌 ) por uma
quantidade aleatória 𝜀𝑖 .
1.Noções de Estatística
10. Regressão linear simples
A partir dos dados disponíveis estimamos 𝛼 e 𝛽 e substituímos estes
parâmetros pelas suas estimativas para obter a equação de regressão
estimada.

𝑦 = 𝛼 + 𝛽𝑥
Esta equação estima o valor médio de 𝑌 para um dado valor 𝑥 de 𝑋,
mas é usada para estimar o próprio valor de 𝑌.

De facto, o senso comum diz-nos que uma escolha razoável para


predizer o valor de 𝑌 para um dado 𝑥 de 𝑋, é o valor médio estimado 𝑌
1.Noções de Estatística
10. Regressão linear simples
Estimação pelo Método dos Mínimos Quadrados
1.Noções de Estatística
10. Regressão linear simples
Estimação pelo Método dos Mínimos Quadrados
Iremos estimar os parâmetros usando o método dos mínimos quadrados.
Seja 𝑑𝑖 = 𝑦𝑖 − 𝑦𝑖 - i- ésimo resíduo.

O objectivo é escolher 𝛼 e 𝛽 de modo a minimizar a soma dos quadrados


destes resíduos.
𝑛 𝑛

𝑆𝑆𝐸 = 𝑑𝑖 2 = 𝑦𝑖 − 𝛼 + 𝛽𝑋𝑖 2

𝑖=1 𝑖=1
1.Noções de Estatística
10. Regressão linear simples
Estimação pelo Método dos Mínimos Quadrados

Para determinar 𝛼 e 𝛽, de modo a minimizar SSE resolve-se o seguinte


sistema de equações:

𝜕𝑆𝑆𝐸
=0 𝛼 = 𝑦 − 𝛽𝑥
𝜕𝛼 𝑛
𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦
𝜕𝑆𝑆𝐸 ⟺ ⋯ ⟺ 𝑖=1
𝛽= 𝑛
=0 𝑥
𝑖=1 𝑖
2
− 𝑛 𝑥 2
𝜕𝛽
1.Noções de Estatística
10. Regressão linear simples
ATENÇÃO:
Um conjunto de pontos dá evidência de linearidade apenas para os valores de 𝑋 cobertos pelo
conjunto de dados. Para valores de 𝑋 que saem fora dos que foram cobertos não há qualquer
evidência de linearidade. Por isso é arriscado usar uma recta de regressão estimada para predizer
valores de 𝑌 correspondentes a valores de 𝑋 que saem fora do âmbito dos dados.

O perigo de extrapolar para fora do âmbito dos dados amostrais é que a mesma relação possa não mais se
verificar.
INTRODUÇÃO AO SPSS
CONTEÚDO
• O que é o SPSS?
• Vantagens e desvantagens da utilização do SPSS
• Como está estruturado o SPSS?
• Introdução de dados
• Transformação de dados
• Importação e exportação de dados e resultados
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
OBJECTIVOS
No final deve o formando ser capaz de:
• Saber o que é e para que serve o SPSS;
• Saber tirar vantagens sem perder de vista os riscos da utilização
abusiva do SPSS;
• Criar uma base de dados em SPSS;
• Aplicar aos dados algumas transformações;
• Representar graficamente diferentes tipos de dados;
• Importar e exportar dados para outras aplicações informáticas.
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
O que é o SPSS
SPSS – Statistical Package for the Social Sciences (Aplicação Estatística
para as Ciências Sociais)

É uma coletânea de ferramentas estatísticas, quando bem aplicadas,


permitem analisar qualquer tipo de dados
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Vantagens e desvantagens da utilização do SPSS

Vantagens:
Permite realizar muito mais rapidamente a análise de um conjunto dados;
Permite a utilização de métodos estatísticos complexos, a utilizadores que
também não tenham uma grande formação estatística. O utilizador não
necessita de conhecer em detalhe os cálculos envolvidos.

Desvantagens:
O utilizador necessita de ter uma ideia de como funciona o método
estatísticos em causa e ter noção dos seus fundamentos teóricos para
permitir analisar, de forma crítica, os resultados que são obtidos.
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Como está estruturado o SPSS?
O SPSS subdivide-se em dois subprogramas:
- O IBM SPSS Statistics Editor de Dados – se relaciona com tudo o que
tem a ver com os dados (seja a caracterização das variáveis, seja o
registo dos dados recolhidos);
- O IBM SPSS Statistics Visualizador – permite visualizar e formatar a
apresentação dos resultados.

Nota: Qualquer um destes subprogramas dá acesso aos menus que


permitem executar todas as funções do programa.
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Editor de dados
Tem duas subjanelas:
- A janela de Visualização de dados que permite visualizar e manipular
os dados registados.

- A janela de Visualização da variável que permite aceder à


formatação das variáveis.
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Visualização de dados

Na janela de visualização de dados cada linha corresponde a um


elemento da amostra (indivíduo) – a unidade estatística – e cada coluna
corresponde a uma variável.

Segue o formato da janela de visualização de dados:


CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Visualização da variável

Visualiza-se a listagem de todas as variáveis. Cada linha corresponde a


uma variável e as colunas correspondem às características das
variáveis.

Segue o formato da janela de visualização da variável:


CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
É necessário definir as seguinte características das variáveis:

Nome – permite definir o nome da variável (não pode ter espaços e tem caracteres
proibidos);

Tipo – permite definir o tipo de resultados (numérica, caracteres, etc.);

Largura – permite fixar o máximo de algarismos ou caracteres que podem ser utilizados na
introdução de dados na janela de visualização de dados;

Decimais – define-se o número de casa decimais com que os valores são apresentados na
janela de visualização de dados;

Rótulo – permite associar uma etiqueta, que serve para melhor descrever a variável;
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Valores – no caso das variáveis qualitativas, permite associar etiquetas aos códigos numéricos
utilizados;

Ausentes – permite indicar qual o código numérico utilizado para as não respostas (células da janela
de visualização em branco);

Colunas – permite definir a largura da coluna na janela de visualização de dados;

Alinhar – permite definir o alinhamento dos dados na janela de visualização de dados (à esquerda,
ao centro, ou à direita);

Medir – permite associar à uma variável uma etiqueta com informação sobre a natureza da escala
utilizada no registo dos dados (escalar, ordinal ou nominal);

Função – permite definir a origem e ou a função da variável.


CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Visualizador
Permite visualizar os resultados da análise dos dados, apresentados em
tabelas, quadros ou gráficos, passíveis de alteração, por forma a
adequá-los ao gosto do utilizador. Para que essa alteração à formatação
seja possível basta fazer um duplo clique sobre as tabelas, quadros ou
gráficos.

No lado esquerdo da janela visualizador surge a árvore de resultados. A


árvore apresenta um resumo dos resultados que apresentados de
forma agrupada pelos temos e são identificados pelo seu título.
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Apresenta-se a janela do Visualizador:
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Estrutura dos menus:
- Qualquer um dos programas/janelas permite aceder aos menus que
controlam todas as funções do SPSS, desde a simples configuração do
programa até à análise dos dados. Concentremo-nos apenas nos
menus essenciais à compreensão.

Dados
Este menu dá acesso a uma série de ferramentas de validação,
reestruturação e filtragem dos dados. Ferramentas mais utilizadas:
- Dividir arquivo, seleccionar casos, …
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Menu de Dados
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS

Menu Transformar

Permite efectuar transformações nos dados, através de operações


matemáticas, recodificação, etc. as funções de recodificação de
variáveis (Recodificar nas mesmas variáveis, … e recodificar em
variáveis diferentes,…) permitem realizar a recodificação em categorias
dos valores das variáveis. Pode-se, exemplo transformar variáveis
quantitativas em variáveis ordinais, agrupando os resultados em
intervalos de valores o que é muitas vezes necessário e que sem este
tipo de ferramenta se torna numa operação morosa e cansativa.
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS

Menu Analisar

Neste menu estão concentradas todas as ferramentas de análise


estatística dos dados, desde a análise descritiva, até à mais complexa
das análises multivariadas. As ferramentas estão agrupadas por temas
em vários submenus.
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Menu Gráficos

Este menu dá acesso às potencialidades gráficas do SPSS, permitindo


representar os dados através de uma grande variedade de tipos de
gráficos. Existem duas formas de construir um gráfico utilizando o SPSS,
através do assistente Criador de gráfico… (recomendado) ou entrando
directamente no tipo de gráfico pretendido.
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Menu Gráficos
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Introdução de dados

É feita de duas formas:

1) Introdução manual de dados.


Arquivo ⟹ Abrir ⟹ Dados

2) Importação a partir de uma base de dados existente;


Arquivo ⟹ Abrir ⟹ Dados
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Introdução manual de dados
No SPSS a estrutura é tabelar, em cada uma das colunas corresponde
sempre a uma das variáveis em causa e cada uma das linhas,
corresponde sempre a uma das unidades estatísticas em estudo. A
Introdução manual de dados segue os seguintes passos:

1) Criação e caracterização das variáveis – através da janela de


Visualização da variável;
2) Introdução dos dados recolhidos – através da janela Visualização
de dados.
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS

Transformação de Dados

- Criação de uma variável a partir de transformações matemáticas sobre


outras variáveis, que funciona de forma idêntica a uma vulgar folha de
cálculo. A aplicação destas transformações pode ser generalizada ou
dependente das condições lógicas.
Transformar ⟹ Calcular variável…

- Determinação da frequência com que um dado valor ou intervalo de


valores ocorre, nos resultados de uma variável.
Transformar ⟹ Valores de contagem dentro de casos…
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS

Transformação de Dados
- Recodificação em categorias dos valores das variáveis. Os resultados
podem ser guardados na variável em causa, ou numa nova variável.
Transformar ⟹ Recodificar nas mesmas variáveis… ⟹
⟹ Recodificar em variáveis diferentes…

- Preenchimento das não respostas, recorrendo a vários métodos


matemáticos que procuram ter em conta as respostas existentes. É preciso
ter algum cuidado com a utilização deste tipo de ferramentas, para que
não se provoquem enviesamento nos dados.
Transformar ⟹ Substituir valores ausentes…
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Transformação de Dados

- Geração aleatória de números, que substitui, de uma forma muito


simples, as tabelas de números aleatórios.
Transformar ⟹ Geradores de número aleatório…
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
Importação e exportação de dados e resultados

Importação de dados
O SPSS permite importar dados de ficheiros gerados por uma grande variedade de
programas informáticos. Os tipos de ficheiros compatíveis com o SPSS para importação de
dados são os seguintes:
.xls (Excel);
.w* (Lotus);
.dbf (dbase);
.txt
.dat
É necessário, para realizar a importação, assegurar as seguintes condições:
- O ficheiro terá que estar organizado de forma compatível com o SPSS;
- O nome de cada variável terá que ser o primeiro resultado da respectiva coluna.
AMOSTRAGEM E ESTIMAÇÃO
CONCEITOS BÁSICOS
POPULAÇÃO
É O CONJUNTO DE ELEMENTOS QUE TÊM UMA DETERMINADA
CARACTERÍSTICA EM COMUM

UNIDADE ESTATÍSTICA
É CADA UM DOS ELEMENTOS QUE CONSTITUEM A POPULAÇÃO

BASE DE SONDAGEM
É UMA LISTAGEM COM A IDENTIFICAÇÃO DAS UNIDADES DE AMOSTRAGEM.
AMOSTRAGEM E ESTIMAÇÃO
AMOSTRA
É TODO O CONJUNTO NÃO VAZIO E COM MENOR NÚMERO DE
ELEMENTOS DO QUE A POPULAÇÃO
AMOSTRAGEM E ESTIMAÇÃO
AMOSTRAGEM
É A PARTE DA ESTATÍSTICA QUE ESTUDA OS MÉTODOS DE SELECCIONAR
AMOSTRAS E O MODO DE EXTRAPOLAR OS SEUS RESULTADOS PARA A
POPULAÇÃO

AMOSTRA REPRESENTATIVA
É UMA AMOSTRA SELECCIONADA DE FORMA QUE AS INFORMAÇÕES
RECOLHIDAS POSSAM SER ESTENDIDAS AO CONJUNTO DA
POPULAÇÃO, COM UMA PRECISÃO JULGADA ADEQUADA
AMOSTRAGEM E ESTIMAÇÃO
INFERÊNCIA ESTATÍSTICA
É O RAMO DA ESTATÍSTICA QUE ESTUDA A VALIDADE DA
EXTRAPOLAÇÃO DOS RESULTADOS DA AMOSTRA PARA O CONJUNTO
DA POPULAÇÃO.

PLANO DE AMOSTRAGEM
É O PROCESSO QUE DEFINE O MÉTODO DE SELECCIONAR A AMOSTRA E
O MODO DE EXTRAPOLAR OS SEUS RESULTADOS PARA A POPULAÇÃO
AMOSTRAGEM E ESTIMAÇÃO
AMOSTRA ALEATÓRIA
CONJUNTO DE 𝑛 VARIÁVEIS ALEATÓRIAS INDEPENDENTES, (𝑥1 , 𝑥2 , … , 𝑥𝑛 ),
EXTRAÍDAS DE UMA POPULAÇÃO, TAL QUE CADA 𝑥𝑖 TEM A MESMA
CARACTERÍSTICA, OU DISTRIBUIÇÃO DA VARIÁVEL 𝑿 (VARIÁVEL
POPULACIONAL)

PARÂMETRO
MEDIDA USADA PARA DESCREVER UMA CARACTERÍSTICA DA POPULAÇÃO.
A MÉDIA POPULACIONAL COSTUMA SER DESIGNADA POR 𝜇 E A VARIÂNCIA
POPULACIONAL POR 𝜎 2 .
AMOSTRAGEM E ESTIMAÇÃO
ESTIMADOR (ESTATÍSTICA)
MEDIDA USADA PARA DESCREVER UMA CARACTERÍSTICA DA
AMOSTRA.
A MÉDIA É DESIGNADA POR 𝑥 E O DESVIO PADRÃO POR 𝑠.

ESTIMATIVA
VALOR NUMÉRICO DO ESTIMADOR.
AMOSTRAGEM E ESTIMAÇÃO
DIMENSÃO DA POPULAÇÃO (𝑁)
NÚMERO DE UNIDADES QUE COMPÕEM A POPULAÇÃO EM ESTUDO.

DIMENSÃO DA AMOSTRA (𝑛)


NÚMERO DE UNIDADES QUE COMPÕEM A AMOSTRA.
AMOSTRAGEM E ESTIMAÇÃO
FRACÇÃO DE AMOSTRAGEM
PROPORÇÃO DE CASOS NA AMOSTRA EM RELAÇÃO À POPULAÇÃO
𝑛
𝑓=
𝑁

TAXA DE RESPOSTA
PERCENTAGEM DE INQUÉRITOS VÁLIDOS EM RELACÇÃO AO NÚMERO DE
CASOS INCLUIDOS NA AMOSTRA

𝑟𝑒𝑠𝑝𝑜𝑠𝑡𝑎
𝑇𝑎𝑥𝑎 =
𝑛
AMOSTRAGEM E ESTIMAÇÃO
PORQUE USAMOS AMOSTRAS?

POPULAÇÃO INFINITA

ECONOMIA

TEMPO

MAIOR PRECISÃO

DESTRUIÇÃO DE ELEMENTOS
AMOSTRAGEM E ESTIMAÇÃO
CAMPOS DE APLICAÇÃO DA AMOSTRAGEM

AGRICULTURA
FENÓMENOS SÓCIO-DEMOGRÁFICOS
SAÚDE
ECONOMIA E FINANÇAS
ESTUDOS DE OPINIÃO
CONTROLO DE QUALIDADE
AMBIENTE
AMOSTRAGEM E ESTIMAÇÃO
ORGANIZAÇÃO PRÁTICA DE UM INQUÉRITO

OBJECTIVOS
POPULAÇÃO
UNIDADE ESTATÍSTICA
BASE DE AMOSTRAGEM
AMOSTRA
PERÍODO DE REFERÊNCIA
MÉTODO DE RECOLHA
QUESTIONÁRIO
AMOSTRAGEM E ESTIMAÇÃO
ORGANIZAÇÃO PRÁTICA DE UM INQUÉRITO

APLICAÇÃO INFORMÁTICA
CONTROLO DE QUALIDADE
ANÁLISE DOS DADOS
DIVULGAÇÃO DOS DADOS
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM

1. MÉTODOS EMPÍRICOS OU NÃO PROBABILÍSTICOS

2. MÉTODOS ALEATÓRIOS OU PROBABILÍSTICOS


AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM

1. MÉTODOS EMPÍRICOS
 NÃO EXISTE BASE DE AMOSTRAGEM
 A SELECÇÃO DAS UNIDADES AMOSTRAIS PODE TER ORIGEM NA INTUIÇÃO DO ENTREVISTADOR
OU EM CRITÉRIOS DE CONVENIÊNCIA

TIPOS:
• Intencional
• Bola de neve
• Por Quotas
• Por conveniência
• Itinerários Aleatórios
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
1. MÉTODOS EMPÍRICOS
VANTAGENS
Não necessitam de uma base de amostragem, mas unicamente duma
informação auxiliar global
Rápidos de construir
Pouco dispendiosos
Asseguram a dimensão exacta da amostra
Permitem obter categorias pouco frequentes da população
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
1. MÉTODOS NÃO PROBABILÍSTICOS OU EMPÍRICOS

INCONVENIENTES
Necessitam duma informação externa
Nenhum controlo sobre as respostas (os inquiridores podem escolher
pessoas mais acessíveis)
Não têm inferência estatística
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM

A – INTENCIONAL

O investigador escolhe intencionalmente os elementos da amostra,


considerando que se trata de elementos mais representativos das
características em estudo da população. Os critérios de selecção são
puramente subjectivos e totalmente dependentes do investigador.
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
B – BOLA DE NEVE
Começa com a selecção intencional de um grupo de elementos, aos quais
será solicitada a recomendação de outros indivíduos pertencentes à mesma
população. O investigador apenas controla a selecção dos primeiros
elementos sendo os restantes gerados pela própria dinâmica do processo. A
dimensão da amostra também não é conhecida no início do processo, vindo
a tornar-se mais delineada ao longo do mesmo. É muito útil para pequenas
populações, que pela sua especificidade tendem a estar bastante dispersas,
sendo os elementos difíceis de localizar e contactar. Apresenta desvantagem
de as pessoas recomendarem, preferencialmente familiares e amigos, o que,
tendendo estes a apresentar comportamentos semelhantes, pode provocar
grandes enviesamentos na informação recolhida.
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
C. MÉTODO DAS QUOTAS

Começa com a divisão da população em estratos segundo uma


determinada característica dos elementos (por exemplo: género, faixa
etária, local de residência, etc.). Depois, em cada estrato é selecciondo,
de forma não aleatória, um certo número ou percentagem de
elementos, denominado quota. É a versão não aleatória da
amostragem estratificada
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
D. MÉTODO DE CONVINIÊNCIA

Os elementos são escolhidos por conveniência ou por facilidade de


acesso por parte do investigador. A selecção dos elementos é
essencialmente fruto das circunstâncias, tendo o investigador pouca
influência na escolhas. As amostras resultantes são, normalmente,
pouco representativas da população e a informação recolhida bastante
enviesada.
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
E. MÉTODO DOS ITINERÁRIOS ALEATÓRIOS

É escolhido, de forma aleatória, um ponto de partida, normalmente uma


morada de partida ou um ponto de referência facilmente identificável (igreja,
esquadra da polícia, ect.). São definidos uma série de regras que o
entrevistador tem de seguir por forma a descobrir quais as moradas
seguintes onde deverá entrevistar as pessoas. Quanto mais rígidas estas
regras, menos liberdade terá o entrevistador para influenciar a escolha da
amostra com critérios subjectivos. Apesar da aparente aleatoriedade do
processo, este não assegura que todos os elementos da população tenham
uma real probabilidade de serem selecionados, ficando o entrevistador
circunscrito a uma pequena área geográfica. O processo é também muito
sensível ao incumprimento das regras por parte do entrevistador, o que é
difícil de detectar.
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
2. MÉTODOS PROBABILÍSTICOS

• EXISTE BASE DE AMOSTRAGEM


• CADA UNIDADE DA POPULAÇÃO TEM UMA PROBABILIDADE CONHECIDA E NÃO NULA DE
PERTENCER À AMOSTRA

TIPOS:
• Amostragem Aleatória Simples
• Amostragem Sistemática
• Amostragem Estratificada
• Amostragem por Conglomerados
• Amostragem Multi-etápica
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
2. MÉTODOS PROBABILÍSTICOS

VANTAGENS
Critérios de selecção dos elementos são rigorosamente definidos
Cálculo da precisão e nível de confiança associados às estimativas
Cálculo da dimensão da amostra adequada à precisão e nível de
confiança desejados para os resultados
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
2. MÉTODOS PROBABILÍSTICOS

INCONVENIENTES
Base de amostragem incompleta ou desactualizada pode enviesar os
resultados.
Pode-se obter uma amostra geograficamente muito dispersa,
podendo agravar o tempo e os custos associados à recolha dos dados.
Por vezes é difícil inquirir todos os elementos seleccionados
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
A. AMOSTRAGEM ALEATÓRIA SIMPLES
• Os elementos da amostra são escolhidos por um processo casual ou
aleatório (ao acaso)
• Todos os elementos têm uma probabilidade positiva de pertencer à
amostra
• Todas as amostras de dimensão 𝑛, extraídas de uma população de N
elementos, têm a mesma probabilidade de selecção.
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
A. AMOSTRAGEM ALEATÓRIA SIMPLES

ESTIMADORES
• MÉDIA
1 𝑛 𝑠 2 𝑁−𝑛 1 𝑛
𝑥= 𝑖=1 𝑥𝑖 𝑣𝑎𝑟 𝑥 = 𝑠2 = 𝑖=1 𝑥𝑖 − 𝑥 2
𝑛 𝑛 𝑁 𝑛−1

• TOTAL
𝑠 2 𝑁−𝑛
𝜏 =𝑁×𝑥 𝑣𝑎𝑟 𝜏 = 𝑛2 ×
𝑛 𝑁

• PROPORÇÃO
1 𝑛 𝑝𝑞 𝑁−𝑛
𝑝= 𝑖=1 𝑥𝑖 𝑣𝑎𝑟 𝑝 = 𝑞 =1−𝑝
𝑛 𝑛−1 𝑁
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
B. AMOSTRAGEM SISTEMÁTICA
• Os elementos da amostra são extraídos da população de acordo com
uma progressão aritmética, cuja base é escolhida ao acaso e cuja
razão é calculada de modo a cobrir totalmente a população.

𝑁º 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑎 𝑃𝑜𝑝𝑢𝑙𝑎çã𝑜
Razão da progressão 𝑘 = 𝑖𝑛𝑡
𝐷𝑖𝑚𝑒𝑛𝑠ã𝑜 𝑑𝑎 𝐴𝑚𝑜𝑠𝑡𝑟𝑎

Número de arranque número aleatório entre 1 e 𝑘


AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
B. AMOSTRAGEM SISTEMÁTICA

NOTAS
• Uma amostra extraída pelo método sistemático é uma amostra aleatória
• Amostragem sistemática versus A.A.S.:
- Amostra sistemática muitas vezes é mais fácil de ser executada;

- Amostra sistemática sofre menos influência pessoal do entrevistador;

- Em algumas situações, a amostra sistemática tem mais possibilidades de


produzir estimativas mais precisas do que a amostra aleatória simples.
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
B. AMOSTRAGEM SISTEMÁTICA

ESTIMADORES
• MÉDIA
1 𝑛 𝑠 2 𝑁−𝑛 1 𝑛
𝑥𝑠𝑡 = 𝑖=1 𝑥𝑖 𝑣𝑎𝑟 𝑥𝑠𝑡 = 𝑠2 = 𝑖=1 𝑥𝑖 − 𝑥𝑠𝑡 2
𝑛 𝑛 𝑁 𝑛−1

• TOTAL
𝑠 2 𝑁−𝑛
𝜏 = 𝑁 × 𝑥𝑠𝑡 𝑣𝑎𝑟 𝜏𝑠𝑡 = 𝑛2 ×
𝑛 𝑁

• PROPORÇÃO
1 𝑛 0 𝑛ã𝑜 𝑝𝑒𝑟𝑡𝑒𝑛𝑐𝑒 𝑝𝑠𝑡 𝑞𝑠𝑡 𝑁−𝑛
𝑝= 𝑖=1 𝑥𝑖 𝑥𝑖 𝑣𝑎𝑟 𝑝𝑠𝑡 = 𝑞𝑠𝑡 = 1 − 𝑝𝑠𝑡
𝑛 1 𝑝𝑒𝑟𝑡𝑒𝑛𝑐𝑒 𝑛−1 𝑁
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
C. AMOSTRAGEM ESTRATIFICADA
• A estratificação consiste em decompor a população em grupos
homogéneos chamados ESTRATOS (em que cada unidade pertence a
um e um só estrato) e extrair uma amostra aleatória separadamente
em cada estrato.

• A amostra estratificada é constituída pelos elementos seleccionados


nos diversos estratos.
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
C. AMOSTRAGEM ESTRATIFICADA

VANTAGENS:
• Maior homogeneidade dentro de cada estrato (menor variância);

• Aumento da precisão das estimativas;

• Custo menor;

• Possibilidade de obter em cada estrato estimativas dos parâmetros.


AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
C. AMOSTRAGEM ESTRATIFICADA

COMO DEFINIR OS ESTRATOS?


A escolha dos estratos é feita, normalmente, de acordo com o conhecimento que se tem
da população.
Como critério de estratificação, selecciona-se uma variável 𝑋, qualitativa ou quantitativa,
geralmente correlacionada com o fenómeno a estudar e que permita decompor a
população em classes homogéneas disjuntas relativamente a 𝑋. Neste caso, estratifica-se
segundo 𝑋.
Utilizam-se, por vezes, simultaneamente várias variáveis 𝑋, 𝑌, 𝑍 … na definição dos
estratos.

VARIÁVEL DE ESTRATIFICAÇÃO: QUALQUER VARIÁVEL UTILIZADA COMO CRITÉRIO NA


DETERMINAÇÃO DE UM ESTRATO
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
C. AMOSTRAGEM ESTRATIFICADA
ESTIMADORES
• MÉDIA
1 𝐿 1 𝑠ℎ2 𝐿 𝑁ℎ −𝑛ℎ
𝑥𝑒𝑠𝑡 = ℎ=1 𝑁ℎ 𝑥ℎ 𝑣𝑎𝑟 𝑥𝑒𝑠𝑡 = ℎ=1 𝑁ℎ2
𝑁 𝑁2 𝑛ℎ 𝑁ℎ 𝑛
2
1 2
𝑠ℎ = 𝑥𝑖 − 𝑥𝑠𝑡
𝑛ℎ − 1
𝑖=1

• TOTAL
2
𝐿 𝐿 2 𝑁ℎ −𝑛ℎ 𝑠ℎ
𝜏𝑒𝑠𝑡 = ℎ=1 𝑁ℎ 𝑥ℎ 𝑣𝑎𝑟 𝜏𝑒𝑠𝑡 = ℎ=1 𝑁ℎ 𝑁ℎ 𝑛ℎ

• PROPORÇÃO
1 𝑛 𝑁ℎ 𝑝𝑒𝑠𝑡 𝐿 2 𝑝𝑠𝑡 𝑞𝑠𝑡 𝑁ℎ −𝑛ℎ
𝑝𝑒𝑠𝑡 = 𝑛 𝑖=1 𝑁 𝑣𝑎𝑟 𝑝𝑒𝑠𝑡 = 𝑁
ℎ=1 ℎ 𝑛−1 𝑞𝑒𝑠𝑡 = 1 − 𝑝𝑒𝑠𝑡
ℎ 𝑁ℎ
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
C. AMOSTRAGEM ESTRATIFICADA
REPARTIÇÃO DA AMOSTRA PELOS ESTRATOS
Dada a dimensão total da amostra, n, fixa, e considerando os diferentes estratos, pretende-se determinar a
repartição da amostra pelos vários estratos, isto é, conhecer o número de observações a seleccionar em cada
estrato.
Sabendo que a dimensão total da amostra é 𝑛

𝑛 = 𝑛1 + 𝑛2 + … . +𝑛ℎ
qual será o valor da dimensão de cada estrato 𝑛1 , 𝑛2 , … . , 𝑛ℎ ?

Podem-se considerar, pelo menos, dois métodos:


• REPARTIÇÃO PROPORCIONAL

• REPARTIÇÃO ÓPTIMA OU DE NEYMAN


AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
C. AMOSTRAGEM ESTRATIFICADA
TAXA DE AMOSTRAGEM DO ESTRATO h: é a proporção de elementos da
amostra do estrato h, relativamente ao total dos elementos da população no
mesmo estrato
𝑛ℎ
𝑓ℎ =
𝑁ℎ
TAXA DE AMOSTRAGEM GLOBAL: é

𝑓 = 𝑛 /𝑁
em que: 𝑛 é a dimensão da amostra e 𝑁 é o número de elementos do
universo
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
C. AMOSTRAGEM ESTRATIFICADA
AMOSTRA ESTRATIFICADA PROPORCIONAL
Uma amostra estratificada diz-se proporcional se as taxas de
amostragem 𝑓ℎ são iguais em todos os estratos
𝑛ℎ
𝑓ℎ = 𝑓ℎ = ⋯ = 𝑓ℎ = 𝑓ℎ = =𝑓
𝑁ℎ
Numa amostra PROPORCIONAL, em cada estrato, extrai-se a mesma
proporção 𝑓 de indivíduos.
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
C. AMOSTRAGEM ESTRATIFICADA
AMOSTRA ESTRATIFICADA ÓPTIMA (NO SENTIDO DE NEYMAN)
Uma amostra estratificada óptima caracteriza-se pelas dimensões dos estratos 𝑛ℎ
serem escolhidas de modo a minimizar a variância da média, 𝑣𝑎𝑟 𝑥𝑒𝑠𝑡 , com a
condição de a soma dos 𝑛ℎ ser igual à dimensão total da amostra, 𝑛.

𝑁ℎ 𝑠ℎ
Para tal, 𝑛ℎ = 𝑛 × ℎ = 1, 2, … , 𝐿
ℎ 𝑁ℎ 𝑠ℎ

Se um estrato ℎ for homogéneo, pouco disperso, terá um 𝑠ℎ pequeno; daí que 𝑛ℎ


será também pequeno.
Por outro lado, se um estrato for heterogéneo, bastante disperso, 𝑠ℎ é elevado e
consequentemente 𝑛ℎ é grande.
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
NOTAS
• Há sempre interesse em estratificar. No caso de não se conhecer em cada
estrato o desvio padrão da variável utilizada como critério de estratificação,
não se pode calcular a repartição óptima da amostra.
• No entanto, uma estratificação com taxa de amostragem uniforme
(amostragem estratificada proporcional), é preferível à ausência de
estratificação.
1. O ganho devido à estratificação é tanto maior quanto maior for a
correlação da variável estudada como critério de estratificação.
2. A ausência de estratificação depende da homogeneidade dos estratos. Os
estratos devem ser o mais homogéneos possível e heterogéneos entre si.
AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
D. AMOSTRAGEM POR CONGLOMERADOS
• A população é decomposta em grupos heterogéneos (conglomerados
ou unidades primárias) e é extraída uma amostra aleatória de um
conjunto deste grupo.

• São incluídos todos os elementos pertencentes a cada um dos grupos


seleccionados.

AMOSTRAGEM POR CONGLOMERADOS NUMA ETAPA


AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
D. AMOSTRAGEM POR CONGLOMERADOS
MULTI-ETÁPICA
1. Divide-se a população num certo número de conglomerados (unidades primárias), de
modo que cada unidade estatística pertença sem ambiguidade a uma unidade primária;

2. Na primeira etapa seleccionam-se os conglomerados;


3. Na segunda etapa são selecionados os elementos dos conglomerados selecionados na
primeira etapa;
4. Na terceira etapa são selecionados os elementos dentro das unidades selecionadas na
segunda etapa;
5. E assim sucessivamente…

AMOSTRAGEM POR CONGLOMERADOS EM VÁRIAS ETAPAS


AMOSTRAGEM E ESTIMAÇÃO
MÉTODOS DE AMOSTRAGEM
D. AMOSTRAGEM POR CONGLOMERADOS
VANTAGENS
• Não necessita de uma lista de todos os indivíduos do universo, mas apenas
das unidades primárias seleccionadas;

• Permite reduzir as despesas de deslocação, pois observa-se uma menor


dispersão geográfica das unidades estatísticas, dado que elas se encontram
agrupadas num número limitado de unidades primárias;

• O custo de um inquérito cuja amostra é selecionada em duas etapas é


sempre menor do que aquele em que a amostra é selecionada numa só
etapa.
D. AMOSTRAGEM POR CONGLOMERADOS
INCONVENIENTES
• A precisão das estimativas é frequentemente menor numa amostra selecionada
em duas etapas do que numa amostra da mesma dimensão selecionada numa só
etapa;

• Isto resulta do facto da amostra ser menos dispersa geograficamente e da


diferença entre unidades secundárias de uma mesma unidade primária ser
menor que em unidades secundárias pertencendo a unidades primárias
diferentes.

• Pode-se aumentar a precisão das estimativas aumentando a dimensão da


amostra, sem que se verifique um grande acréscimo no custo do inquérito.
D. AMOSTRAGEM POR CONGLOMERADOS
NUMA ETAPA
ESTIMADORES

MÉDIA
TOTAL
PROPORÇÃO
D. AMOSTRAGEM POR CONGLOMERADOS
EM DUAS ETAPAS COM Nº DESIGUALDE DE UNIDADES
ESTIMADORES
MÉDIA POR CONGLOMERADO
onde,
𝑀 = nº de conglomerados na população;
𝑁 = nº de elementos na população;
𝑁𝑖 = nº de elementos na população do conglomerado i;
𝑚 = nº de conglomerados na amostra.
TOTAL
PROPORÇÃO
é igual a quando a variável Xé binária, assumindo valores 0 ou 1.
AMOSTRAGEM E ESTIMAÇÃO

NÃO-RESPOSTAS
• Nos censos e inquéritos por amostragem pode ocorrer que não se
recolham os dados de todas as unidades. Neste caso falta informação
de uma parte da população ou da amostra seleccionada.
• Põe-se, então, o problema de estabelecer que inferência se pode
fazer a partir dos dados obtidos e tentar ter alguns conhecimentos da
parte da população que não respondeu ao inquérito.
• Diversas circunstâncias contribuem para a existência deste problema
AMOSTRAGEM E ESTIMAÇÃO
NÃO-RESPOSTAS
NÃO-RESPOSTA TOTAL

• RECUSA
• AUSÊNCIA DE LONGA DURAÇÃO
• ABANDONO NO DECORRER DO INQUÉRITO
• INCAPACIDADE DE RESPONDER
• NEGLIGÊNCIA DO INQUIRIDO
• MÁ QUALIDADE DO ENTREVISTADOR
AMOSTRAGEM E ESTIMAÇÃO
NÃO-RESPOSTAS
NÃO-RESPOSTA POR ITEM

• INCOMPREENSÃO OU IMPOSSIBILIDADE DE RESPONDER À QUESTÃO


(QUESTÃO MAL REDIGIDA)
• RECUSA
• INCOERÊNCIA E INVALIDADE DA RESPOSTA
• MÁ QUALIDADE DO ENTREVISTADOR
AMOSTRAGEM E ESTIMAÇÃO
NÃO-RESPOSTAS
A TAXA DE NÃO-RESPOSTA VARIA SEGUNDO A NATUREZA DO INQUÉRITO:
• INQUÉRITO À SAÚDE
• INQUÉRITO AO EMPREGO
• INQUÉRITO AOS ORÇAMENTOS FAMILIARES
• INQUÉRITO ÀS EMPRESAS
• INQUÉRITO AOS TRANSPORTES
• ETC
GERALMENTE OS INQUÉRITOS POR ENTREVISTA DIRECTA TÊM TAXA DE NÃO-
RESPOSTA MAIS BAIXA.
AMOSTRAGEM E ESTIMAÇÃO
NÃO-RESPOSTAS
REGRAS PARA PREVENÇÃO DA NÃO-RESPOSTA

• PUBLICIDADE BEM DIRIGIDA


• FORMAÇÃO DO ENTREVISTADOR
• CARACTERÍSTICAS PESSOAIS DO ENTREVISTADOR
• REDACÇÃO RIGOROSA DO QUESTIONÁRIO
• INSISTÊNCIAS (CARTA, TELEFONE, VISITA)
• INQUÉRITOS NUMA AMOSTRA DE NÃO-RESPONDENTES
• ANÁLISE ESTATÍSTICA APROFUNDADA DA NÃO-RESPOSTA
AMOSTRAGEM E ESTIMAÇÃO
NÃO-RESPOSTAS
MÉTODOS BASEADOS EM MODELOS DE RESPOSTA

• REPONDERAÇÃO DOS RESPONDENTES


- CORRECÇÃO POR NÃO RESPOSTA
- ESTRATIFICAÇÃO À POSTERIORI

• IMPUTAÇÃO DOS DADOS


AMOSTRAGEM E ESTIMAÇÃO
NÃO-RESPOSTAS
PRINCIPAIS MÉTODOS DE IMPUTAÇÃO DOS DADOS
DEDUTIVO (utiliza o bom senso)
IMPUTAÇÃO POR REGRA DETERMINISTA
Ex: idade ≤ 14 anos actividade principal = inactivo

COLD–DECK
UTILIZAÇÃO DUMA INFORMAÇÃO EXTERIOR RELATIVA À MESMA UNIDADE
Ex: valor observado numa data anterior

HOT–DECK
SUBSTITUI-SE O VALOR EM FALTA POR UM VALOR OBSERVADO NUM RESPONDENTE “PRÓXIMO”, O DADOR
HOT-DECK NO CONJUNTO
O DADOR É ESCOLHIDO AO ACASO ENTRE RESPONDENTES
HOT-DECK POR CLASSE
O DADOR É ESCOLHIDO AO ACASO NA CLASSE ONDE PERTENCE O NÃO-RESPONDENTE
AMOSTRAGEM E ESTIMAÇÃO
ERROS DOS INQUÉRITOS

ERRO TOTAL

É O ENVIESAMENTO DAS ESTIMATIVAS DOS PARÂMETROS


POPULACIONAIS A PARTIR DAS RESPOSTAS OBTIDAS.
AMOSTRAGEM E ESTIMAÇÃO
ERROS DOS INQUÉRITOS
TIPOS DE ERROS:

ERROS DE AMOSTRAGEM (𝑒𝑎 )


Erros que ocorrem porque as observações são feitas apenas numa
amostra e não na população.

ERROS ANEXOS À AMOSTRAGEM (𝑒𝑜 )


Todos os erros que não estão relacionados com o facto de se inquirir
uma parte da população. Podem ser atribuídos a muitos factores.
AMOSTRAGEM E ESTIMAÇÃO
ERROS DE AMOSTRAGEM
ERRO TOTAL

Verifica-se que o ERRO TOTAL (𝑒𝑡 ) de um inquérito é igual a:

𝑒𝑡2 = 𝑒𝑎2 +𝑒𝑜2


AMOSTRAGEM E ESTIMAÇÃO
ERROS DE AMOSTRAGEM
OS ERROS DE AMOSTRAGEM RESULTAM DA HETEROGENEIDADE DAS
POSSÍVEIS AMOSTRAS COM O MESMO TAMANHO QUE PODEM SER
EXTRAÍDAS DE UMA DADA POPULAÇÃO.

NÍVEL DE CONFIANÇA: É O GAU DE “CERTEZA” ASSOCIADO ÀS


ESTIMATIVAS, GERALMENTE EXPRESSO EM PERCENTAGEM.
INTERVALO DE CONFIANÇA: É A MARGEM DE ERRO RELATIVA A UMA
ESTATÍSTICA.
ERRO-PADRÃO:É O DESVIO PADRÃO DE UMA ESTATÍSTICA.
AMOSTRAGEM E ESTIMAÇÃO
ERROS DE AMOSTRAGEM
ERRO ABSOLUTO DE AMOSTRAGEM
A amostra selecionada para um inquérito é apenas uma das várias amostras
probabilísticas possíveis, com a mesma dimensão, que poderiam ter sido
selecionadas usando o mesmo plano de amostragem. As estimativas calculadas
através de diferentes amostras, certamente diferem umas das outras.

ERRO ABSOLUTO DE AMOSTRAGEM:


É A DIFERENÇA ENTRE A ESTIMATIVA DA AMOSTRA E A MÉDIA DAS ESTIMATIVAS
DAS DIVERSAS AMOSTRAS POSSÍVEIS (VALOR ESPERADO DAS ESTIMATIVAS).

Excluindo os erros de outras origens, o erro absoluto de amostragem mede a


dimensão do desvio absoluto esperado entre a estimativa calculada pela amostra e
o verdadeiro valor dessa mesma variável na população.
AMOSTRAGEM E ESTIMAÇÃO
ERROS DE AMOSTRAGEM
ERRO RELATIVO DE AMOSTRAGEM
ERRO DE AMOSTRAGEM OU COEFICIENTE DE VARIAÇÃO
É O QUOCIENTE ENTRE A RAIZ QUADRADA DA VARIÂNCIA DE UM
ESTIMADOR E O ESTIMADOR, E É APRESENTADO NORMALMENTE EM
PERCENTAGEM.

Se o estimador for a média:


𝑉𝑎𝑟 𝑥
𝐶𝑉 𝑥 = 𝐸. 𝑅. 𝐴. 𝑥 = × 100
𝑥
AMOSTRAGEM E ESTIMAÇÃO
ERROS DE AMOSTRAGEM
APRESENTAÇÃO DO ERRO DE AMOSTRAGEM
1. OS ERROS DE AMOSTRAGEM DEVEM SER APRESENTADOS NO
CONTEXTO DO ERRO TOTAL DO INQUÉRITO, COM O OBJECTIVO DE
INDICAR A QUALIDADE GLOBAL DOS RESULTADOS DO INQUÉRITO.

2. A APRESENTAÇÃO DEVE SER DE MODO A FACILITAR A


INTERPRETAÇÃO DA INFORMAÇÃO.

3. O GRAU DE DETALHE DEVE TER EM CONTA AS NECESSIDADES


ESPECÍFICAS DE ALGUNS UTILIZADORES.
AMOSTRAGEM E ESTIMAÇÃO
ERROS DE AMOSTRAGEM
APRESENTAÇÃO
NÃO É DE MUITO INTERESSE A APRESENTAÇÃO DOS ERROS DE
AMOSTRAGEM DE TODAS AS ESTIMATIVAS DO INQUÉRITO, UMA VEZ
QUE A PUBLICAÇÃO TERIA O DOBRO DA DIMENSÃO.

A PRECISÃO DAS ESTATÍSTICAS BASEADAS NA TOTALIDADE DOS


EFECTIVOS DA AMOSTRA É SUPERIOR AO DAS ESTIMATIVAS FEITAS A
PARTIR DAS VÁRIAS SEGMENTAÇÕES DOS INQUIRIDOS, POR EXEMPLO,
SEXO, GRUPO ETÁRIO, REGIÃO GEOGRÁFICA, ACTIVIDADE ECONÓMICA,
ETC..
AMOSTRAGEM E ESTIMAÇÃO
DIMENSÃO DA AMOSTRA
IDEALMENTE, A DIMENSÃO DA AMOSTRA É DETERMINADA PELA PRECISÃO b (FIXADA À PARTIDA) QUE SE PRETENDE OBTER NOS
RESULTADOS.

PARA UMA AMOSTRA ALEATÓRIA SIMPLES,


QUANDO SE PRETENDE ESTIMAR UMA MÉDIA, TEREMOS:

𝑁𝑠 2
𝑛=
𝑏2
𝑁 2 + 𝑠2
𝑧

EM QUE
𝑁 – dimensão da População
𝑠 – variância amostral
𝑏 – precisão da estimativa
𝑧 – valor da distribuição Normal padrão
AMOSTRAGEM E ESTIMAÇÃO
DIMENSÃO DA AMOSTRA
DIMENSÃO DA AMOSTRA
IDEALMENTE, A DIMENSÃO DA AMOSTRA É DETERMINADA PELA PRECISÃO 𝑏 (FIXADA À PARTIDA) QUE SE
PRETENDE OBTER NOS RESULTADOS.
PARA UMA AMOSTRA ALEATÓRIA SIMPLES:
QUANDO SE PRETENDE ESTIMAR UMA PROPORÇÃO 𝒑,
TEREMOS:
𝑁𝑝𝑞
𝑛=
𝑏2
𝑁 2 + 𝑝𝑞
𝑧

QUANDO 𝑵 É GRANDE (GRANDES POPULAÇÕES), TEMOS:


𝑝𝑞
𝑛= 2
𝑏
𝑧2
AMOSTRAGEM E ESTIMAÇÃO
DIMENSÃO DA AMOSTRA
PARA UMA AMOSTRA ALEATÓRIA ESTRATIFICADA:
QUANDO SE PRETENDE ESTIMAR UMA MÉDIA, TEREMOS:
2 2
𝐿 𝑁ℎ 𝑠ℎ
ℎ=1 𝑤

𝑛=
𝑏2 𝐿 2
𝑁 2+ 𝑁 𝑠
ℎ=1 ℎ ℎ
𝑧
Onde se pode considerar
𝑛ℎ
𝑤ℎ =
𝑛
AMOSTRAGEM E ESTIMAÇÃO
ESTIMADOR DA RAZÃO
PARA UMA AMOSTRA ALEATÓRIA SIMPLES,TEREMOS:

𝑛
𝑦 𝑦′ 𝑖=1 𝑦𝑖
𝑟= = ′= 𝑛
𝑥 𝑥 𝑖=1 𝑥𝑖

𝑛 2
1 𝑁−𝑛 𝑖=1 𝑦𝑖 − 𝑟𝑥𝑖
𝑉𝑎𝑟 𝑟 = 2
𝑥 𝑁×𝑛 𝑛−1
Cálculo do Tamanho da Amostra
• O conceito de nível de confiança pode ser utilizado para o cálculo do
tamanho da amostra, necessário para fazermos inferências confiáveis.

2
E  Z .
s  Z / 2 .s 
n n 
2
 E 
Como o tamanho da amostra afeta o erro de amostragem?
• Se a amostra empregada for muito pequena, a margem de erro será
grande, o que impossibilita ou inviabiliza a tomada de decisão.
• Por outro lado, se a amostra for muito grande, o intervalo obtido pode
ser mais estreito do que o necessário (gastos desnecessários).
Cálculo do Tamanho da Amostra
3,0
Tamanho de amostra e margens de erro,
Margem de erro (E)

mantendo fixos 𝑠 = 10 𝑒 95% 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛ç𝑎

1,5

0,5

500 1500 3000

• Os ganhos em precisão conseguidos com aumentos fixos dos


tamanhos das amostras não são constantes.
• Tamanho de amostra 5.000 podem ser um perda de tempo e
dinheiro porque elas fornecem pouca precisão adicional.
Cálculo do Tamanho da Amostra
Exercício: Num estudo para a determinação do perfil dos pequenos da
Região Sul, a característica de maior interesse tem s = 0,3. Qual deve
ser o tamanho da amostra para que tenhamos 95% de confiança em que
o erro da estimativa da média correspondente a esta característica não
supere 0,05?

𝐸 = 0,05; 𝑠 = 0,3; 𝛼 = 0,05


2
1,96 × 0,3
𝑛= = 139
0,05
METDOLOGIAS DOS INQUÉRITOS
Planeamento de uma pesquisa
Uma pesquisa deve seguir os seguintes passos para a sua realização:
• Aprovação do briefing definitivo que foi elaborado pelo cliente (instituição);
• Definir tipo de pesquisa: Qualitativa e/ou Quantitativa;
• Planeamento Amostral;
• Elaboração do questionário de pesquisa;
• Pré-teste do instrumento de recolha de dados;
• Planeamento da pesquisa de campo: Selecção e formação da equipa de profissionais
envolvidos;
• Organização dos dados;
• Análise dos resultados;
• Elaboração do relatório final;
• Apresentação dos resultados.
METDOLOGIAS DOS INQUÉRITOS
A recolha da informação
Obter informação desejada directamente dos inquiridos recorrendo a um
questionário, é a forma mais utilizada de recolha de informação.

Apesar de todos os erros e enviesamentos que podem surgir num processo


de inquérito, para determinado tipo de informação não há melhor fonte que
o próprio inquirido.

Formas mais frequentes de recolha de informação:


• Entrevista pessoal;
• Entrevista telefónica;
• Questionário por correio.
METDOLOGIAS DOS INQUÉRITOS
A recolha da informação
As entrevistas
Uma entrevista é definida como “uma conversa com um propósito”.

Este método de recolha de dados pode oscilar da entrevista formal e estruturada, à discussão
informal entre dois ou mais indivíduos.

Nas entrevistas formais, são colocadas questões estandardizadas respeitando uma pré-designada
sequência.

As entrevistas menos formais incluem as entrevistas onde não há formalidades no processo de


questionar; nestes casos o entrevistador encoraja o diálogo e orienta-o para o tema de interesse.

Componentes da entrevista: 1) a essência da conversa que se estabelece consiste em perguntas e


repostas; 2) os participantes no processo tê definidos papéis mutuamente exclusivos.
METDOLOGIAS DOS INQUÉRITOS
A recolha da informação
Métodos de recolha da informação
Ao avaliar os métodos de recolha dos dados importa cobrir cinco questões:

A) administração do estudo, que contém em si três aspectos – o custo do método, o


controlo do processo de recolha da informação e o tempo no sentido de dar resposta
à urgência;
B) validação da informação sendo relevante o efeito que o método escolhido tem na
validade da informação recolhida;
C) taxa de respostas e as consequências de alguns elementos não participarem no
estudo, e como pode ser reduzida, em cada um dos métodos, a taxa de não resposta;
D) amostragem, onde importa avaliar o impacte do método na qualidade da amostra;
E) o questionário, que envolve as considerações especiais que devem ser feitas em
relação ao questionário a utilizar em cada um dos métodos.
METDOLOGIAS DOS INQUÉRITOS
A recolha da informação
Entrevista pessoal
É uma conversação face a face entre duas pessoas, iniciada e dirigida pelo
entrevistador com o propósito particular de obter informação relevante, no sentido
de concrectizar os objectivos do estudo.

O que diferencia este método dos outros é a presença física do entrevistador


durante a entrevista. É neste factor que residem as forças e as fraquezas deste
método.

É um método muito oneroso, pelo facto de o entrevistador ter de estar presente


junto do respondente. Este método dificulta o trabalho do supervisor, pois os
entrevistadores ficam entregues a si próprios. Consome bastante tempo. É
questionada a qualidade da informação. A taxa de resposta é mais elevada.
METDOLOGIAS DOS INQUÉRITOS
A recolha da informação
Entrevista telefónica
É semelhante à entrevista pessoal. Neste método o face a face é
substituído pelo voz a voz e envolve uma série de diferentes problemas,
procedimentos, vantagens e desvantagens.

É de baixo custo, mais rápido, a validade dos dados depende da


vontade do respondente em corresponder ao pedido de entrevista e de
fornecer a informação completa e exacta ao entrevistador.
METDOLOGIAS DOS INQUÉRITOS
A recolha da informação
Questionário por correio
A característica essencial deste método é que aquele que vai responder ao
questionário, após ter lido as questões e explicações que as acompanham,
deverá redigir as suas respostas sem poder recorrer a um intermediário – o
entrevistador. Isto cria importantes diferenças na concepção da sondagem,
construção do questionário, e vários outros aspectos das operações de
recolha de informação.

É de baixo custo. O controlo pode ser centralizado e conduzido a partir do


escritório. É consumidor de tempo. A qualidade da informação apresenta
aspectos negativos e positivos. A taxa de resposta geralmente é baixa.
METDOLOGIAS DOS INQUÉRITOS
A construção de um Questionário
O estudo preliminar
É um estudo de pequena escala feito para fornecer informação relevante para a
investigação principal. Em geral é possível distinguir dois tipos de estudos preliminares:
• Estudos para auxiliar a elaboração de um questionário novo – útil quando a
investigação principal tem como objectivo a confirmação, ou a extensão de um trabalho
na literatura e não existe um questionário adequado à investigação;
• Estudos para testar um questionário que já existe. São duas as situações onde
normalmente é preciso testar um questionário que já existe:
1) Quando se pretende aplicar o questionário a uma amostra retirada de um Universo
diferente daquele para o qual foi desenvolvido o questionário. É importante verificar a
relevância, a clareza e a compreensão das perguntas aplicadas aos respondentes do
Universo novo e, dependendo da natureza e do objectivo do questionário, também
pode ser importante testar a validade e a fiabilidade do questionário neste Universo
novo.
2) Quando se pretende traduzir um questionário e testar a tradução.
METDOLOGIAS DOS INQUÉRITOS
A construção de um Questionário
A elaboração do questionário

1) O plano do questionário
Para escrever um bom questionário convém:
a) Listar todas as variáveis da investigação, incluindo as características dos casos;
b) Especificar o número de perguntas para medir cada uma das variáveis;
c) Escrever uma versão inicial para cada pergunta;
d) Pensar cuidadosamente na natureza da primeira hipótese geral e nas variáveis e
perguntas iniciais com elas associadas. Identificar em seguida que tipo de Hipótese se
tem;
e) Consoante o tipo de hipótese geral, decidir quais as técnicas estatísticas adequadas
para testar a hipótese e ter em atenção os pressupostos destas técnicas.
METDOLOGIAS DOS INQUÉRITOS
A construção de um Questionário
A elaboração do questionário

a) Decidir, com base na informação do passo e), o tipo de resposta desejável para cada
pergunta associada com a hipótese gera;
b) Com base na informação dos passos d), e) e f) escrever a hipótese operacional;
c) Considerar as perguntas iniciais associadas com a primeira hipótese operacional;
d) Verificar se as versões finais das perguntas e das respostas ainda estão adequadas
para testar a hipótese operacional;
e) Repetir os passos c) – i) para as outras hipóteses gerais;
f) Escrever as instruções associadas com as perguntas para informar o respondente
como deve responder;
g) Planear as secções do questionário.
METDOLOGIAS DOS INQUÉRITOS
A construção de um Questionário
A primeira secção do questionário
Consiste num conjunto de perguntas para solicitar informação sobre as
características dos respondentes ao questionário, pretendendo-se
descrever os inquiridos.

Escrever perguntas
É preciso pensar cuidadosamente sobre o objectivo geral de cada uma
das perguntas que está a inserir no questionário