Você está na página 1de 40

Cincia Poltica e Relaes Internacionais

Estatstica
FCSH-UNL 2012/2013

AULA 1

Aplicaes da Estatstica na Investigao em CPRI


O objectivo da Estatstica extrair informao dos dados, observando-os, descrevendo-os e sumarizando-os,
de modo a obter uma melhor compreenso das situaes que representam.
No mbito do curso CPRI, a Estatstica no ser abordada como um mtodo, mas como um conjunto de
tcnicas que permite a investigao na rea das cincias sociais.

Etapas de Investigao
1- pergunta de partida
2- explorao do tema
3- problemtica
4- construo do modelo de anlise
5- observao
6- anlise das informaes
7- concluses

Estatstica descritiva
Consiste na apresentao, anlise e interpretao de dados atravs de instrumentos adequados (quadros,
grficos, tabelas cruzadas).

Estatstica indutiva
A partir de dados estatsticos de determinada investigao, formulam-se concluses que ultrapassam o
mbito da observao efectuada.

1
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 2

Tipos de recolha de informao


Segundo Greenwood (1965), existem trs mtodos gerais de recolha de informao:
1. mtodo extensivo
2. mtodo intensivo
3. mtodo experimental

1. Mtodo extensivo
Estende-se a uma vasta camada da populao
Informao mais superficial
Tcnica privilegiada questionrio (tratamento quantitativo da informao)
Inferncia estatstica extrapolao para o universo
O que se ganha em extenso perde-se em profundidade

2. Mtodo intensivo
Conjunto restrito de unidades de anlise
Informao em profundidade
Diversas dimenses de anlise complexidade dos fenmenos
Complexidade das tcnicas
Observao participante, entrevistas, histrias de vida

3. Mtodo experimental
Testar uma hiptese de causa-efeito
Isolar as unidades de observao (grupo experimental e grupo de controlo)
Observao dos momentos antes e aps a aplicao de um estmulo (ex: medicamento)

Fontes de erro
H sempre erro em todas as tcnicas de recolha de informao. Tanto o entrevistador como o entrevistado
introduzem erro no processo, dependendo de uma srie de factores.

a. Factores associados ao observado


Incapacidade de responder
- Ignorncia ou falta de memria
- Incapacidade para transmitir a resposta
Relutncia em responder com exactido
- Preocupao com invaso da privacidade
- Falta de tempo/ disponibilidade para responder
- Desejo de prestgio e posio social, cortesia ou desconhecimento do tema

b. Factores associados ao observador (No existe um tipo de personalidade ideal)


Caractersticas fsicas
- Idade, sexo e aparncia de pertencer a determinado estrato social
Nvel cultural e intelectual
- Linguagem utilizada, conceitos verbalizados, opinies pessoais e o interesse pelo tema
Quadro de referncia
- Educao, experincias, convices e competncia tcnica
- Superao dos inconvenientes ligados a caractersticas pessoais dificilmente transformveis

Metodologias de recolha de informao


Entrevistas individuais em profundidade
Inquritos, sondagens ou estudos de mercado/de opinio
Painel
Pesquisa documental ou observaes/ experimentaes
Entrevistas de grupo, grupos de discusso ou focus groups

2
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

Entrevista individual em profundidade


Centra-se no entrevistado, pode abordar vrias temticas e visa essencialmente a anlise das atitudes, opinies,
personalidade ou outros aspectos relativos ao entrevistado. Pode ser:
No directiva: dada liberdade ao entrevistado no existindo um guio
Semi-directiva: existe um guio com tpicos a abordar; dada alguma liberdade ao entrevistado mas sem deixar que
este se afaste muito do tema
Directiva: abordam-se questes previamente determinadas de forma estruturada

Inquritos, sondagens ou estudos de mercado/de opinio


Inqurito Questionrio
Mtodo extensivo
Permite obter informao quantificada ou quantificvel
Baseia-se em amostras de grande dimenso
A informao obtida por meio de questionrios estruturados

Painel
Dados em painel so um conjunto de dados que contm observaes sobre diversos fenmenos, observados em
diversos momentos, atravs do mesmo questionrio e aplicado aos mesmos indivduos (a este conjunto de indivduos
regularmente inquirido chama-se painel)
Os painis podem ser equilibrados ou desequilibrados
Ex: British Household Panel Survey (BHPS); Income, Social Inclusion and Living Conditions (EU-SILC)

Populao e amostra
Populao: todos os elementos que fazem parte do universo em estudo, com uma ou mais caracteristicas
comuns
Ex: avaliao do comportamento ambiental das empresas portugueses
Populao todas as empresas registadas em Portugal
Amostra: conjunto reduzido de elementos dessa mesma populao (no possvel/necessrio inquirir
toda a populao)
Ex: inqurito de satisfao aos utilizadores da Via Verde

Recenseamento e sondagem
Recenseamento: estudo de uma populao atravs da observao de todos os seus elementos
- recolhe informao na sua maioria factual
- muito dispendioso e demorado
- menor probabilidade de erros (erros no motivados pela amostragem)
Sondagem: estudo de uma populao, aferido atravs de uma amostra, com fim ao estudo de atitudes,
hbitos e preferncias da populao
- mais econmico (menos meios e recursos)
- mais rpido (menos respostas para recolher, tratar e analisar)
- informao mais detalhada
- erros motivados pela amostragem

Erros motivados pela amostragem


Variabilidade (erro) amostral: a amostra no a representao perfeita da populao (a diferena entre a estimativa
da amostra e o parmetro da populao o erro aleatrio)
Enviesamento amostral: erro sistemtico das estimativas (base de sondagens com erro de cobertura, entrevistas de
rua, no-respostas,)
Erros no motivados pela amostragem
Erros na recolha dos dados: entrevistador, entrevistado ou questionrio
Erros na preparao, tratamento e anlise dos dados: edio, codificao e introduo dos dados ou escolha da
tcnica de anlise
Outros erros: gralhas, omisso das limitaes das tcnicas,

3
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 3

Importncia da recolha de informao


Garbage in garbage out
Fancy statistical methods will not rescue garbage data
in GOOD, Philip; HARDIN, James - Common errors in statistics (and how to avoid them), New Jersey, John Wiley and Sons, 2003

Amostra representativa
Inquritos/sondagens: ambos incidem sobre uma amostra
A amostra deve ser representativa da populao, fornecendo estimativas prximas da sua realidade

Etapas do Plano amostral


1. Definio da populao alvo
2. Constituio/obteno das bases de sondagem
3. Opo por um mtodo de amostragem
4. Dimensionamento da amostra
5. Seleco dos elementos da amostra
6. Contactar e conseguir a colaborao dos elementos seleccionados

1. Definio da populao alvo


Conjunto de elementos que se encaixam em determinadas especificaes e a respeito do qual se pretende
conhecer uma ou mais caractersticas (estas especificaes definem quem entra no estudo e quem excludo)
Populao alvo nem sempre corresponde populao estudada
Problema de cobertura da populao alvo
Ex: Populao alvo agregados familiares residentes em Portugal (decido fazer entrevistas telefnicas s em
PT Continental); Populao estudada agregados familiares em lares com telefone em PT Continental

2. Obteno de base de sondagem


Base de sondagem uma representao da populao alvo sob a forma de listagem, base de dados, mapas
ou qualquer outro registo. a fonte da amostra.
Exaustividade (todos os elementos da populao esto representados)
Actualidade (a base de sondagem reflecte a pop estudada no momento da sondagem)
No duplicao (cada elemento da populao est representado uma nica vez)
Ex: Populao estudada agregados familiares residentes em lares com telefone em Portugal
Continental; Base de sondagem lista telefnica de Portugal Continental

3. Opo por um mtodo de amostragem


a. Amostras aleatrias b. Amostras no aleatrias
i. aleatria simples vii. intencional
ii. sistemtica viii. bola de neve
iii. estratificada ix. convenincia
iv. por clusters x. quotas
v. multi-etapas xi. random route
vi. multi-fases

Amostra aleatria
Todos os elementos da populao tm uma probabilidade calculvel e no nula de serem seleccionados
Exige uma base de sondagem
No confundir aleatrio com casual
Ex: entrevistas de rua so aplicadas a pessoas abordadas casualmente; no aleatrio porque nem toda a
populao tem a possibilidade de ser escolhida - apenas os elementos que passam no local e no momento
da realizao das entrevistas podem ser escolhidos ( problemas de enviesamento)

Amostra no aleatria
H unidades do universo que no tm a possibilidade de ser seleccionadas
No carece da existncia de uma base de sondagem
Ausncia de um conj de regras claras e objectivas que determinem a forma de seleccionar os elementos

4
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

ALEATRIA
.
NO ALEATRIA
critrios de seleco rigorosamente definidos;
custos mais reduzidos;
possibilidade de determinar matematicamente a
vantagens maior rapidez; no exige
dimenso da amostra em funo da preciso e do
base de sondagem
grau de confiana desejados
dificuldade na obteno de bases de sondagem com
no possvel saber o
registos actuais e completos; possibilidade de
grau de confiana para a
desvantagens obteno de amostras muito dispersas
anlise inferencial;
geograficamente; problema das no respostas (o
critrios subjectivos
elemento no pode ser substitudo)

i. Amostragem aleatria simples


Todos os elementos tm a mesma probabilidade de serem seleccionados
Pouco interessante para populaes grandes pela dificuldade em obter bases de sondagem que listem
todos os elementos da populao
Pode originar amostras muito dispersas geograficamente (problemtico em termos de custo e de tempo)
No garante a representatividade de sub-grupos
Ex: No hospital X trabalham 60 mdicos e pretende-
se seleccionar 10 para um estudo que visa estimar a
proporo de prescries de anlises clnicas no
ltimo ms

1. Obter a listagem de mdicos do hospital


2. Numerar a listagem de 1 at 60
3. Utilizar um procedimento para gerar aleatoriamente dez
nmeros (ex: gerador online de nmeros aleatrios inteiros
www.random.org/integers)

ii. Amostragem aleatria sistemtica


Noo de regularidade
O primeiro elemento sempre escolhido de forma aleatria simples
Interessante quando a base de sondagem espelha uma qualquer regularidade que se queira preservar
Se for uma amostra muito grande pode considerar-se que este mtodo mais prtico

1. Obter a listagem de mdicos do hospital


2. Numerar a listagem de 1 at 60
3. Calcular o intervalo da amostra (60/10=6)
4. Escolher aleatoriamente o primeiro nmero e
seleccionar os restantes em intervalos regulares da
dimenso calculada

iii. Amostragem estratificada


Estratificar: dividir a populao em grupos exaustivos e mutuamente exclusivos (estratos)
Deixar de pensar na populao como um todo e passar a v-la como um conjunto de grupos
Mtodo aleatrio e proporcional
Porqu estratificar?
- os estratos interessam por si s
- as varincias dos estratos so diferentes
- os custos diferem entre estratos
Como estratificar?
- definir as variveis de estratificao
- definir o nmero de estratos
As variveis de estratificao dependem do objectivo do
estudo - deve haver homogeneidade intragrupo e heterogeneidade intergrupo
Problema da indisponibilidade de informao
Quanto mais estratos houver, menos elementos vo ser seleccionados em cada um deles ganho em
representatividade mas perda de exequibilidade
Cada estrato tratado como uma populao independente das outras tantas bases de sondagem
quantos os estratos definidos
Afectao da amostra pelos estratos
5
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

Quando h estratos menos homogneos ou de dimenso muito reduzida pode justificar-se a no


proporcionalidade para a manter a mesma preciso
Processo informativo tem em conta informao que
auxilia a seleco da amostra
Exige uma base de sondagem com info relativa s
variveis de estratificao p cada elemento da pop
Dentro dos estratos, a seleco dos elementos
feita de forma aleatria (simples ou sistemtica) e
independente em cada um dos estratos

iv. Amostragem por clusters


Clusters = cachos = conglomerados so definidos com base na informao disponvel
No necessita de base de sondagem dos elementos ( semelhana dos mtodos seguintes)
Exige uma listagem completa dos grupos (unidades amostrais primrias) que so mutuamente exclusivos
e exaustivos
Processo amostral em que os clusters so escolhidos aleatoriamente ficando includos na amostra todos
os elementos pertencentes aos clusters seleccionados
Idealmente, cada um dos clusters deve ter a mesma variabilidade da populao a homogeneidade
dentro dos clusters resulta na perda de preciso das estimativas
Dimenso dos clusters depende da situao e da disponibilidade da informao
O aumento da amostra s benfico se isso resultar num aumento da variabilidade no existe ganho
em ter informao igual (estratificar primeiro)
Ex: turma conjunto de alunos; hospital conjunto de mdicos; mdico conjunto de pacientes

Vantagens Inconvenientes
No necessita de base de sondagem de elementos Possvel homogeneidade no interior dos
Evita uma amostra muito dispersa geograficamente clusters (ex: usando quarteires como
Processo mais econmico unidades amostrais primrias, os
Processo mais rpido - a mesma dimenso de indivduos vo todos pertencer,
amostra em menos tempo tipicamente, mesma classe social)

v. Amostragem multi-etapas
Extenso da amostragem por conglomerados
Combinao dos mtodos de amostragem por clusters e aleatria simples mnimo 2 etapas:
1 seleco aleatria de alguns dos clusters que constituem a populao (= clusters)
2 etapa anterior podem seguir-se diversas outras idnticas com a definio de sub-clusters e a seleco aleatria de
alguns deles
3 aplicao de amostragem simples aos elementos contidos nos clusters finais para seleccionar os elementos finais da
amostra
Ex: Sondagem eleitoral
Seleco aleatria de alguns distritos (1 etapa)
Seleco aleatria de alguns concelhos dos distritos seleccionados (2 etapa)
Seleco aleatria de algumas freguesias dos concelhos seleccionados (3 etapa)
Seleco aleatria de alguns eleitores das freguesias seleccionada (4 etapa)
A amostra final constituda pelos elementos seleccionados na 4 etapa

vi. Amostragem multi-fases


Duas fases distintas:
1 listagem dos elementos da populao e seleco aleatria de uma amostra para participar na 1 fase do estudo, na
qual so recolhidas informaes preliminares (sexo, idade, , disponibilidade para responder a um novo inqurito). Esta
info pode ser usada para a definio de uma listagem dos possveis respondentes numa segunda fase do inqurito
2 retira-se desta listagem uma 2 amostra que responder a um inqurito com um nvel de profundidade mais elevado
Questionar todos os elementos seleccionados na primeira fase sobre todos os aspectos da sondagem
pode ser desnecessrio e demasiado dispendioso
Este mtodo possibilita ainda que:
- a amostra resultante da 1 fase sirva de base de sondagem para amostragens subsequentes
- se disponha de informao til para variveis de estratificao
Ex: comportamento eleitoral da freguesia de Caxias
Dispomos de uma base de sondagem dos eleitores. Inicialmente, selecciona-se uma primeira amostra da qual se
recolheria informao como a idade, o sexo, a filiao partidria, etc, e da anlise desta informao preliminar resulta
uma segunda amostra, que seria inquirida de forma mais exaustiva e detalhada 6
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 4

vii. Amostragem intencional


O investigador escolhe intencionalmente os elementos da amostra considerando que se tratam dos
mais representativos
Ser intencional e no ser aleatria no implica que tenha pouca qualidade
Se os critrios forem os adequados podem obter-se bons resultados
Ex1: Numa faculdade realiza-se um estudo para identificar os problemas que carecem de soluo mais
urgente Entrevista-se o director, os coordenadores de cada curso, o presidente da AE e o delegado sindical
dos funcionrios por o investigador considerar que cada um representa cada sector da Faculdade

viii. Amostragem por bola de neve


Seleco intencional de um grupo de elementos a quem solicitada a recomendao de outros
indivduos da mesma populao
Bola de neve porque a amostra vai aumentando medida que os respondentes identificam outros
potenciais respondentes
A dimenso da amostra no definida partida
Vantagens Inconvenientes
Acesso a populaes pequenas e muito especficas Pessoas prximas tendem a ter atitudes
Ex: adeptos de um hobby invulgar; indivduos com e comportamentos semelhantes
uma determinada caracterstica fsica

ix. Amostragem por convenincia


No existe base de sondagem (a seleco dos elementos no aleatria)
Os elementos so seleccionados segundo critrios de convenincia ou facilidade em obter a
informao
Vantagens Inconvenientes
Rapidez e custo; no exige base de sondagem; No garante representatividade de sub-
eficaz para pr-testes ou para pesquisas grupos; risco de enviesamento da
exploratrias seleco; pouco fivel para
extrapolaes

x. Amostragem por quotas


Quota - nmero ou proporo de elementos da amostra que devem possuir determinadas
caractersticas definidas pelas variveis de controlo
Estratificao da populao com seleco no aleatria dos respondentes
As quotas podem ser independentes ou interrelacionadas, sendo que estas ltimas so as que
melhor asseguram a representatividade
- Quotas independentes: facilitam o trabalho dos inquiridores pois cada indivduo s tem de respeitar
um critrio
- Quotas interrelacionadas: resultam numa melhor representatividade; exigem mais informao
Semelhanas com a amostragem estratificada: divide a pop em grupos exaustivos e mutuamente
exclusivos atravs de variveis fortemente relacionadas com o objecto de estudo, para que haja grande
homogeneidade dentro dos estratos/quotas e elevada heterogeneidade entre os grupos
Diferenas com a amostragem estratificada: no requer base de sondagem; menor custo
Dois passos distintos:
1 definio das quotas, de modo a que seja maximizada a variabilidade entre as categorias e, ao mesmo tempo,
minimizada dentro das categorias
2 seleco arbitrria dos elementos; o entrevistador que decide quem ou no escolhido, desde que respeite as
quotas estabelecidas no plano de amostragem

7
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

Erros na definio das


Vantagens Desvantagens .
quotas
- no necessita de base de - subrepresentao de pessoas de difcil
- variveis desadequadas
sondagem dos elementos contacto ou relutantes em participar
- sobre-especificao das
(facilidade de administrao) - resulta de um julgamento pessoal e
quotas
- rapidez (possibilidade de subjectivo -representatividade apenas
- quotas difceis de preencher
substituio) em relao s variveis de controlo

xi. Amostragem de random route (ou itinerrios aleatrios ou itinerrios principais)


Serve para orientar os entrevistadores na seleco dos respondentes quando as entrevistas decorrem
porta-a-porta
Escolha, de forma aleatria, de um ponto de partida (morada, ponto de referncia), seguida da
definio de regras a seguir para chegar s moradas seguintes
Se decorrer numa rea pequena podem resultar efeitos de cluster
Difcil de controlar os entrevistadores
Ex. de definio de regras de orientao:
- de costas para a Igreja, inicia o percurso na 1 rua direita, depois esquerda e por a em diante
- na 1 rua, opta pelo lado direito, na 2 pelo esquerdo e por a em diante
- escolha do prdio - mtodo das datas: dia 17 - 1+7=8; selecciona os prdios cujos algarismos do seu nmero somados
dem 8 (8, 17, 26, 35)
- dentro do prdio pode usar uma tabela de nmeros aleatrios e recorrer tabela at encontrar uma habitao disponvel
para colaborar
- dentro da habitao, dependendo dos objectivos do estudo, pode seleccionar-se o prximo indivduo a fazer anos

8
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 5

DIMENSO DA AMOSTRA
Uma amostra grande no necessariamente melhor que uma pequena mesmo que seja aleatria -
ponto em que no h ganhos de preciso
Com rigor, s dever ser utilizada uma abordagem estatstica para o clculo de amostras aleatrias
A dimenso da amostra influenciada por:
- dimenso da populao
- mtodo de seleco
- mtodo de anlise
- nmero de variveis
- oramento e prazo
- preciso (apenas mensurvel para amostras aleatrias)

Dimenso da populao .
Rcio amostral convencional Dimenso da amostra
N 200 recenseamento -------
N = 500 50% 250
N = 1.000 30% 300
N = 10.000 10% 1.000
N = 150.000 1% 1.500
N = 1.000.000 0,025% 2.500
No existe uma proporcionalidade entre a dimenso da populao e a dimenso da amostra

Dimenses amostrais indicativas em estudos sobre pessoas/agregados familiares e sobre empresas


N de sub-grupos Pessoas ou agregados familiares
.
Empresas
na anlise
.
Nacional Regional Nacional Regional
nenhum ou poucos 1.000 - 1.500 200 - 500 200 - 500 50 - 500
intermdio 1.500 - 2.500 500 - 1.000 500 - 1.000 200 - 500
muitos 2.500+ 1.000+ 1.000+ 500+

A abordagem estatstica s possvel para processos de amostragem aleatrios


Permite encontrar a dimenso da amostra necessria para assegurar a estimao de um parmetro
com a preciso e o nvel de confiana especificados

Parmetro: Caracterstica ou varivel que permite definir ou comparar algo (mdia, proporo)
Nvel de confiana: tem a ver com o facto de se trabalhar com amostras (aleatrias); intervalos de confiana
Preciso/exactido; lgica de intervalos de confiana quanto maior o intervalo, menor a preciso da
estimativa

9
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

MTODOS DE AMOSTRAGEM
1. Amostragem aleatria simples
2. Amostragem aleatria estratificada
3. Amostragem por Clusters

1. Amostragem aleatria simples

Quando se pretende estimar a mdia

n: dimenso da amostra
z: confiana (valor tabelado para a distribuio normal, para um determinado nvel de confiana
para IC=90%, z=1,64; para IC=95%, z=1,96; para IC=99%, z=2,58)
s: variabilidade (dada pelo desvio-padro)
B: preciso (amplitude do intervalo de confiana)

Ex: Quantos elementos deve ter a amostra, num estudo sobre as famlias residentes no concelho ABC (50.000 famlias),
em que o principal objectivo estimar o gasto mensal mdio com gasolina (em euros) com uma preciso de 2 euros e
um nvel de confiana de 95%? Um estudo anterior permite-nos ter uma estimativa para o desvio-padro = 15 euros.
n: dimenso da amostra 216
z: confiana (para 95%, z=1.96) 1,96
s: variabilidade (desvio-padro) 15
B: preciso (amplitude do IC) 2

Deve haver um equilbrio entre a confiana, a preciso, a variabilidade e a dimenso da amostra


para maior confiana, preciso uma maior amostra
quanto maior a variabilidade, maior deve ser a amostra
quanto maior o intervalo de confiana, menor a preciso

2. Amostragem aleatria estratificada

Quando se pretende estimar a mdia

n: dimenso da amostra
N: dimenso da populao
h/H: estratos
z: confiana
s: variabilidade
B: preciso

Ex: Quantos elementos deve ter a amostra, num estudo sobre as famlias residentes no concelho ABC (50.000 famlias),
em que o principal objectivo estimar o gasto mensal mdio com gasolina (em euros) com uma preciso de 2 euros e
um nvel de confiana de 95%? A populao foi estratificada por ter/no ter filhos e conhecem-se os seguintes dados a
partir do mesmo estudo realizado h 1 ano atrs:

Despesas em gasolina/ Despesas em gasolina/


N filhos
ms (mdia) ms (desvio-padro)
c/ filhos 40.000 150 10
s/ filhos 10.000 90 20

10
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

Com uma amostra estratificada possvel obter estimativas com o mesmo nvel de confiana e preciso do
que se obteria com uma amostragem aleatria simples, seleccionando uma amostra de menor dimenso.

DIMENSO DOS ESTRATOS


a. Afectao proporcional
- a proporo de elementos da amostra que possui determinada caracterstica idntica proporo de
elementos da populao que possui essas mesmas caractersticas. Para tal:

n: dimenso da amostra
N: dimenso da populao
nh: dimenso da amostra no estrato h
Nh: dimenso da populao no estrato h

Ex: Amostra estratificada das famlias do concelho ABC


N = 50.000 n = 154
N1 = 40.000 N2 = 10.000

b. Afectao no proporcional/ ptima


- no existe proporcionalidade; tem em conta a variabilidade dos estratos na populao para alm da sua
dimenso. Para o seu clculo utiliza-se a seguinte frmula:

n: dimenso da amostra
nh: dimenso da amostra no estrato h
Nh: dimenso da populao no estrato h
h: desvio-padro do estrato h

Ex: Amostra estratificada das famlias do concelho ABC


n = 154
N1 = 40.000 1 = 10
N2 = 10.000 2 = 20

11
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

4. Amostragem por clusters


Neste mtodo h que definir no o nmero de elementos a entrevistar mas sim o nmero de unidades
amostrais primrias. Para o seu clculo utiliza-se a seguinte frmula:

m: nmero de unidades amostrais


z: nvel de confiana
S(l): variabilidade de cada sub-seco (desvio-padro)
B:
_ preciso
N: dimenso de cada sub-seco

Ex: Quantos elementos deve ter a amostra, num estudo sobre as famlias residentes na freguesia LKM (11.250 famlias),
em que o principal objectivo estimar a despesa mdia/famlia com gasolina (em euros) com uma preciso de 2 euros e
um nvel de confiana de 95%?
Para efeitos de amostragem a freguesia foi dividida em 750 sub-seces geogrficas, cada uma delas com um n
aproximadamente igual de famlias (15 famlias/sub-seco). O mesmo estudo realizado h 1 ano permite ter uma
estimativa para o desvio-padro da despesa com gasolina/sub-seco = 55 euros.

Definido o nmero de sub-seces (13) aplica-se um mtodo aleatrio para as seleccionar de entre as 750 existentes na
freguesia. Neste mtodo, que consiste apenas numa etapa, no se seleccionam elementos so entrevistados todos os
elementos dos clusters seleccionados
Neste caso, cada cluster composto por 15 famlias.
Assim, vo ser inquiridas:

SELECO DOS ELEMENTOS DA AMOSTRA

Mtodos de amostragem aleatrios - seleco de escritrio


existe a base de sondagem a partir da qual se seleccionam os elementos, se conhece a sua identificao e a
forma de chegar at si
Mtodos de amostragem no aleatrios - seleco no terreno:
podendo caber ao entrevistador tarefas como organizar/decidir os percursos na rea de amostragem ou
seleccionar os respondentes, obedecendo a quotas ou a outro critrio

Nos mtodos no aleatrios h o risco dos entrevistadores


evitarem certas reas/zonas
evitarem percursos longos dentro da rea de amostragem concentrao geogrfica das entrevistas
trabalharem nos horrios mais convenientes
acentuarem o seu julgamento pessoal na escolha dos respondentes medida que se aproxima o preenchimento
total das quotas e que fica cada vez mais difcil encontrar as unidades restantes para terminar as quotas

por isso importante


formar convenientemente os entrevistadores
adequar o horrio dos contactos ao perfil do respondente
construir mecanismos de controlo da aplicao dos questionrios

12
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 6

As observaes so feitas atravs dos instrumentos de recolha de informao, sendo estes


Entrevistas & Questionrios

1. ENTREVISTAS
A entrevista uma tcnica de recolha de informao que cabe dentro do grupo das tcnicas
qualitativas (expresso que designa uma variedade de tcnicas interpretativas que tm por fim
descrever, descodificar, traduzir certos fenmenos sociais)
Estas tcnicas do mais ateno ao significado dos fenmenos, do que sua frequncia (mas isso
no significa que excluam a quantificao)
Tem uma estrutura pr-definida com objectivos de recolha de informao para quantificao
(Distingue-se dos questionrios)

Objectivos da entrevista
Anlise de um problema especfico: os contornos do problema, os pontos de vista presentes, o que
est em jogo, os sistemas de relaes, o funcionamento de uma organizao, etc
A reconstituio de um processo de aco, de experincias ou de acontecimentos do passado
Anlise do sentido que os actores do s suas prticas e aos acontecimentos com os quais se vem
confrontados (os seus sistemas de valores, as suas referncias normativas, as suas interpretaes
de determinadas situaes, as leituras que fazem das suas experincias)

Tcnicas de realizao de entrevistas


Quem interrogar?

- Representatividade social
- Diversidade e no a homogeneidade (de entrevistados e de situaes)
- Saturao (quando os dados recolhidos no trazem mais informaes que legitimem o aumento do material emprico)
Quantos interrogar? O nmero de entrevistas depender:
- Do conhecimento do objecto existente
- Do estatuto da pesquisa (exploratria, analtica, expressiva)
- Do tipo de definio do universo de anlise
- Dos recursos disponveis
Como construir o guio?
- No directiva: dada liberdade ao entrevistado no existindo um guio
- Semi-directiva: existe um guio com tpicos a abordar; dada alguma liberdade ao entrevistado mas sem deixar que
este se afaste muito do tema
- Directiva: abordam-se questes previamente determinadas de forma estruturada

Vantagens Desvantagens
Grau de profundidade de elementos de A flexibilidade do mtodo
anlise recolhidos Os resultados no se adaptam
A flexibilidade e a fraca directividade do directamente a um tipo de tratamento e
dispositivo que permite recolher os anlise
testemunhos e as interpretaes dos A anlise de contedo contm uma enorme
entrevistados, respeitando os seus prprios variedade de tcnicas de tratamento de
quadros de referncia (a sua linguagem e entrevistas que permitem quantificar e
categorias mentais) qualificar os resultados

Como tratar: anlise de contedo


uma tcnica e no um mtodo
Tem uma dimenso descritiva (apresenta o que foi narrado) e uma interpretativa (decorre das
interrogaes do analista face ao objecto de estudo)
No exclui quantificao
Diversidade nas formas de utilizao
- Categorial: anlise temtica que constitui sempre a 1 fase da AC e geralmente descritiva
- Avaliao: mede as atitudes do entrevistado face ao objecto de estudo e a direco e intensidade da opinio
(desmembra-se o texto em unidades de significao e analisa-se a carga avaliativa)
- Enunciao: entende-se a entrevista como um processo. Usa-se sobretudo para entrevistas longas e muito
abertas, centrando-se na anlise dos contedos
- Expresso: anlise formal e lingustica para investigar a autenticidade de documentos. Em cincia poltica
2. QUESTIONRIOS
utiliza-se para a anlise dos discursos polticos
13
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

O questionrio um instrumento de observao no participante, baseado numa sequncia de


questes que so dirigidas a um conjunto de indivduos, sobre as suas opinies, crenas,
Pressupe uma estrutura pr-definida com objectivos de recolha de informao para quantificao
O seu objectivo a frequncia com que determinado fenmeno ocorre (mas isso no significa que
exclua o significado dos fenmenos)

Construo do questionrio
Para que o questionrio resulte necessrio que:

- A informao procurada seja susceptvel de ser recolhida pelo mecanismo pergunta/resposta


- Os respondentes tenham a informao procurada
- Os respondentes estejam dispostos a fornecer essa informao
Antes de comear h que ter em conta:
- Caractersticas dos respondentes (idade, habilitaes, regio,)
- Modo de aplicao do questionrio (entrevista, auto-resposta,)
- Natureza da informao procurada (complexidade, acessibilidade,)

Elaborao das questes


Tipo de questes

- Formato: abertas (A); fechadas (B)


- Utilizao de escalas de medio (C)
Texto das questes

Tipo de questes
(A) Questes abertas
permitem ao respondente expressar-se pelas suas prprias palavras
no so sugeridas respostas pelo que possvel:
- avaliar o nvel de informao de que o indivduo dispe
- identificar o que mais importante para o inquirido
permitem formular as opes de resposta das perguntas fechadas
auxiliam a interpretao dos dados obtidos atravs de perguntas fechadas
(B) Questes fechadas
exigem ao investigador a capacidade de antecipar as respostas possveis exaustivas e exclusivas
as respostas so comparveis entre todos os respondentes pois todos respondem do mesmo modo
ao mesmo conjunto de questes
facilidade de resposta - basta identificar a resposta certa
produzem dados facilmente processveis e analisveis
produzem dados com menor variabilidade
Questes de escolha nica com duas categorias (dicotmicas) o inquirido escolhe apenas uma
opo de entre duas possveis
Questes de escolha nica com vrias categorias o inquirido escolhe apenas uma opo de entre vrias
Questes de escolha mltipla o inquirido pode escolher vrias opes de resposta
(C) Questes com utilizao de escalas de medio
permitem medir a intensidade de atitudes, sentimentos, opinies de forma quantificada
tipos de escalas de medida:
- (C1) escala ordinal
- (C2) escala verbal com ordenao/ Escala de Likert
- (C3) diferencial semntico
- (C4) escala de soma constante

(C1) Escala ordinal


- solicita a ordenao/hierarquizao de um conjunto de objectos/itens/atributos
segundo determinado critrio especificado ao respondente
- permite fazer uma hierarquizao mas no permite fazer comparaes entre
nveis no permite medir distncias
- a hierarquizao normalmente feita pela atribuio de nmeros a cada item

(C2) Escala verbal com ordenao/Escala de Likert


- solicita ao respondente que afirme a sua opinio com base numa grelha
estruturada, por ordem crescente ou decrescente, de categorias de resposta
- H que ter em ateno: n de categorias (mn. 3, mx. 10); n par ou mpar
de categorias; equilbrio/desequilbrio da escala
- vantagem dos indivduos se poderem expressar relativamente a todas
as categorias
14
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

(C3) Escala de diferencial semntico


- solicita ao respondente que expresse a sua opinio/sentimento em
relao a um atributo/objecto atravs do posicionamento numa escala
limitada nos extremos por adjectivos ou frases antnimas
- quanto mais pares de adjectivos mais rica a informao obtida
- adequada quando se quer traar perfis de consumo/comportamento

(C4) Escala de soma constante


- solicita ao respondente que distribua um nmero total fixo de pontos (ex. 100
pontos) pelos diversos objectos/ atributos/ itens em avaliao de acordo com
um critrio definido
- permite a hierarquizao de um conjunto de objectos/atributos/itens e avaliar
a distncia entre eles
- no adequada a todo o tipo de respondentes pois necessrio fazer
clculos (no se deve usar muitos atributos)

Texto das questes


Utilizar palavras adequadas ao nvel vocabular do respondente
- Populao heterognea (nivelar por baixo )
Evitar palavras de significado ambguo e susceptveis de diferentes interpretaes pelos
respondentes
- Evitar frequentemente, normalmente,
Evitar a utilizao de palavras que possam provocar reaces estereotipadas
- Qual a sua opinio acerca do aborto?
Evitar questes de texto longo e complexo
- Apenas alongam o questionrio e saturam o inquirido
Evitar formular a questo pela negativa
- Pode usar-se uma negativa entre as positivas para despertar o inquirido mas no se deve abusar pois
confunde os entrevistados
Evitar assumir pressupostos
- Que jornais compra? (pode no comprar jornais e a pergunta no faz sentido para o inquirido que por
vergonha pode responder na mesma)
Evitar questionar dois ou mais aspectos numa mesma questo
- O que acha das claques do Benfica e do Sporting?
No colocar perguntas constrangedoras
- Se for necessrio coloc-las, devero surgir no final e bem enquadradas

Codificao dos questionrios


(I) Associar um cdigo a cada categoria
de resposta

(II) Do questionrio base de dados

15
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

Tipos de variveis (natureza)

Caracterizar a varivel quanto natureza dos valores que pode assumir


Variveis qualitativas
- Nominal (no existe ordenao entre as categorias)
Ex1: sexo - homem / mulher (dicotmica)
Ex2: inteno de voto - sim / no / no sei
- Ordinal ( possvel ordenar as categorias segundo um determinado critrio)
Ex1: nvel de instruo - sem instruo / 1 ciclo / 2 ciclo / 3 ciclo / secundrio / superior
Ex2: grau de satisfao - muito satisfeito / satisfeito / insatisfeito / muito insatisfeito

Variveis quantitativas
- Discreta (conjunto de resultados finito ou infinito numervel)
Ex: n de carros produzidos numa fbrica
- Contnua (conjunto de resultados infinito e no numervel/contnuo)
Ex: altura

Como medir variveis nominais?


Variveis qualitativas em que no existe uma forma lgica de ordenar os diferentes resultados
A informao registada resume-se ao nmero de vezes que cada resultado possvel ocorreu
Ex: Costuma ir ao supermercado? Sim No

Como medir variveis ordinais?


Variveis qualitativas em que possvel estabelecer uma ordem entre os resultados recorrendo a um
critrio lgico
Para alm do n de vezes que cada resultado ocorre ainda possvel dispor os resultados segundo
um determinado critrio lgico
Ex: Frequncia com que vai ao supermercado? Nunca Ocasionalmente
Diariamente

Como medir variveis quantitativas?


Variveis quantitativas/mtricas, para alm de permitir identificar e ordenar os resultados, permitem
tambm quantificar as diferenas entre eles
Ex: Qual a sua idade? [_____] (Sabendo a idade de cada indivduo podemos ordenar os indivduos do mais
novo ao mais velho/viceversa e ainda conhecer as distncias etrias entre eles)

16
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 7

ESTATSTICA UNIVARIADA
1. Distribuies de Frequncias (Absolutas, Relativas e Acumuladas)
2. Propores, Percentagens, Rcio, Taxa e Taxa de Variao

1. Distribuies de frequncias
Frequncia Absoluta (Fi): n de vezes que um valor observado
Frequncia Relativa (fi): diviso entre a frequncia absoluta e o total
Frequncia Absoluta Acumulada (cumFi): soma das frequncias absolutas anteriores com a
frequncia dessa categoria
Frequncia Relativa Acumulada (cumfi): soma das frequncias relativas anteriores com a frequncia
dessa categoria

Ex: Tabela de distribuio de frequncias

A distribuio de frequncias de variveis contnuas obriga definio de classes de valores.


Regras:
O n de classes (K) deve estar compreendido entre 4 e 14
Nenhuma classe deve ter frequncia nula
As classes devem ter amplitudes iguais
Os pontos mdios devem ser de clculo fcil
Tentar evitar classes abertas
Cada valor s pode ser includo num intervalo
Limites do intervalo dos dados observados
R = diferena entre o limite superior e inferior da distribuio
R = Xmax Xmin
N de intervalos/classes (K)
K=5 se n<25 e Kn para n>=25
Amplitude de classe ai R/K
Ponto mdio a mdia dos valores extremos de cada classe

Ex: Considerando uma distribuio de pesos de pacientes do Hospital Curry Cabral


numa consulta de Alergologia (populao de 80 indivduos, em que o menor peso
de 18Kg e o mais elevado de 65Kg)
N = 80
R = 65 -18 = 47
K = 80 8,9
ai = 47 / 8,9 5,2
Ci= (limite inferior classe + limite superior) / 2

17
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

2. Propores, Percentagens, Rcio, Taxa e Taxa de Variao

Proporo
Compara o nmero de observaes de uma dada categoria com o total de sujeitos que
compe a distribuio. A proporo igual frequncia relativa:

Percentagem
a frequncia com que determinada observao ocorre em relao a cada 100.
a percentagem da frequncia relativa.

Rcio
Compara directamente o n de observaes que se enquadra numa categoria com o
n de observaes que se enquadra noutra categoria.

R = Fi1 / Fi2
Ex CPRI/Sociologia = 360/90=4
Por cada aluno de Sociologia h 4 alunos de CPRI

Taxa
Exprime o peso do valor efectivo registado para um determinado fenmeno face ao
seu valor potencial.

Ex: Sabendo que h 990 alunos na FCSH (potencial), e votaram para a AE 420 (caso), ento a taxa de participao foi de
42,42% (=) Fi caso / Fi potencial x 100 (=) 420/990*100= 42,42%

Taxa de variao
utilizada para comparar uma populao em dois momentos distintos, traduzindo
percentualmente o acrscimo ou decrscimo global verificado entre os dois registos.

Ex: A FCSH tinha 800 alunos em 2009 (T0) e 990 em 2010 (T1).
Qual a taxa de variao dos alunos inscritos neste perodo?

= (T1 T0) / T0 x 100 (=) = (990-800)/800*100 = 23,75%


A populao de alunos da FCSH aumentou 23,75% entre 2009 e 2010. Em 2009 votaram nas eleies para a AE 550
alunos da FCSH e em 2010 votaram 420. Qual a taxa de variao da participao nas eleies para AE?
= (420-550)/550*100 = -23,64%
Assim, a participao nas eleies decresceu 23,64% entre 2009 e 2010.

18
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 8

MEDIDAS DESCRITIVAS
Medidas de Localizao Medidas de tendncia central
1. mdia aritmtica
2. moda
3. mediana

Medidas de tendncia central


Descrevem um conjunto de dados estatsticos atravs de um valor apenas
O valor a escolher depende das caractersticas dos dados
As medidas de tendncia central do o valor central ou mdio dos dados observados

1. MDIA ARITMTICA
1.1. Mdia para dados desagregados
A mdia aritmtica a soma de todos os valores observados dividida pelo nmero de observaes

Xi= valores individuais


observados

1.2. Mdia para dados agrupados em classes


No caso dos dados agregados em classes, a mdia aritmtica dada pela frequncia e ponto mdio
de cada classe

Vantagens da mdia Desvantagens da mdia


Facilidade de interpretao e clculo influenciada por valores extremos
Utiliza toda a informao disponvel Pode no corresponder a um valor concreto
da varivel

19
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

2. MEDIANA
o valor da varivel que ocupa a posio central na distribuio de frequncias
A mediana corta a distribuio ordenada em duas partes iguais
A mediana determinada pelo n de observaes e no pelo seu valor

2.1. Mediana para variveis discretas


Ordenar os dados
Calcular CumFi
Verificar se o nmero de observaes (N) par ou mpar

Se N for mpar, a mediana ser o


elemento central

Se N for par, ser a mdia entre


os elementos centrais

2.2. Mediana para variveis contnuas


Ordenar os dados
Calcular a ordem N/2
Calcular CumFi (Pelas CumFi, identificar a classe que contm a mediana)
Como a varivel contnua no h necessidade de diferenciar entre par e mpar
Calcular o valor exacto da mediana, dado por:

li(Me) = limite inferior da classe mediana


CumFi(Me-1) = frequncias acumuladas anteriores
classe mediana
Fi(Me) = frequncia da classe mediana
a(Me) = amplitude da classe mediana

Interpretao: verifica-se que metade dos alunos tem peso inferior a 53,75 kg e a
outra metade tem peso superior a 53,75 kg.

Vantagens da mediana Desvantagens da mediana


fcil de calcular e de compreender No utiliza toda a informao disponvel
determinada pelo n de observaes e no
pelo seu valor
muito utilizada para distribuies fortemente assimtricas

20
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

3. MODA
o valor mais frequente da distribuio ou o valor que mais observaes apresenta no conjunto de
dados em analise
Em geral, menos utilizada do que a mdia e a mediana
No existe em algumas distribuies, enquanto que noutras poder existir mais do que uma moda
(distribuio bimodal, trimodal)
Pode ser calculada em qualquer distribuio
No sofre a influncia dos valores extremos

3.1. Moda para variveis discretas


o valor mais frequente da distribuio
Mo = 13

3.2. Moda para variveis contnuas


Definir Classe Modal
Determinar o valor da moda, que dado por:

li(Mo) = limite inferior da classe modal


Fi(Mo-1) = frequncia absoluta da classe anterior
classe modal
Fi(Mo+1) = frequncia absoluta da classe a seguir
classe modal
a(Mo) = amplitude da classe modal

Interpretao: o peso mais frequente entre os alunos 53,75 kg

21
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 9

MEDIDAS DESCRITIVAS
Medidas de Disperso
Medidas de distncia que no recorrem a medidas de localizao
1. intervalo de variao
Utilizao de uma medida de localizao como termo de comparao
2a. desvio absoluto mdio
2b. varincia
2c. desvio-padro
Comparao da disperso entre dois ou mais conjuntos de dados medida de disperso relativa
3. coeficiente de variao

1. INTERVALO DE VARIAO
a diferena entre o valor mximo e o valor mnimo da varivel
(R) Apenas toma em conta os dois valores extremos:
a medida de disperso de mais fcil clculo
(2a)
Quanto maior o valor do DAM , maior a disperso da varivel
D o grau de disperso dos valores da varivel em relao mdia
menos influenciada por valores extremos do que o desvio-padro
Considera apenas dois valores da distribuio, podendo dar uma
ideia errada da real disperso da varivel
Considera a diferena de todas as observaes relativamente a um valor central
Desvantagens
- No sensvel aos valores intermdios (ignora os sinais dos desvios)
- Nada nos diz acerca da disperso dos restantes valores assumidos pela varivel

2a. DESVIO ABSOLUTO MDIO _


Calcula-se o valor da mdia: Xi - X
Determinam-se as diferenas entre cada valor observado e a mdia
igual mdia aritmtica dos desvios absolutos dos valores da varivel relativamente sua mdia
Ignoramos o sinal (positivo ou negativo) porque estamos interessados na magnitude da diferena
Somam-se todas as diferenas e dividem-se pelo nmero total de observaes

Desvio Absoluto Mdio


(dados desagregados)

Cada categoria (nota) tem, em mdia, um desvio


de 2,37 valores em relao mdia

Desvio Absoluto Mdio


(dados agregados)

Cada categoria (nota) tem, em mdia, um desvio


de 2,17 valores em relao mdia

22
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

2b. VARINCIA
2 2
A varincia ( ou s ) d-nos um resultado ao quadrado, pois trabalha
com os quadrados dos desvios entre os valores observados e a mdia
a soma do quadrado das diferenas entre os valores da varivel e a
mdia, dividida pelo nmero total de observaes
Desvantagens
- A varincia tem a desvantagem de se traduzir no quadrado das unidades em que est definida a varivel
- Por esta razo, o desvio-padro a medida de disperso mais utilizada

Varincia (dados desagregados) Varincia (dados agregados)

2c. DESVIO-PADRO
O desvio-padro ( ou s) a raiz quadrada positiva da varincia
medido na mesma unidade da varivel.
a medida de disperso mais utilizada.
afectado por todos os valores observados.
Desvantagens
- O resultado pode ser muito influenciado por apenas alguns valores extremos
- Por esta razo, menos aconselhada em distribuies muito assimtricas

3. COEFICIENTE DE VARIAO
dado pela relao, em termos percentuais, entre o desvio-padro e a
mdia da distribuio
uma medida relativa de disperso, til para a compreenso e comparao, em termos relativos, das
variveis e do grau de concentrao em torno das mdias, de distribuio de frequncias distintas
uma medida de disperso relativa; no trabalha com os valores absolutos, mas com os valores do
desvio-padro e da mdia

Em termos prticos:
- Se CV>50%, alto grau de disperso relativa e, logo, uma pequena representatividade da mdia como
medida estatstica
- Se CV<50%, a mdia ser tanto mais representativa quanto menor for o valor do coeficiente

23
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 10

MEDIDAS DESCRITIVAS
Medidas de Concentrao
1. intervalo de variao
2. indce de Gini

Medidas de concentrao
Existem casos em que pode ser mais til utilizar medidas de concentrao em vez de disperso para
medir a forma como uma dada caracterstica se distribui pelos elementos
Contudo, s possvel quando faz sentido acumular a caracterstica num nmero maior ou menor de
elementos da populao ( possvel medir a concentrao do rendimento familiar, dos salrios, das
reas de explorao agrcola, , mas no faz sentido aplicar a fenmenos como a idade ou a altura,
visto serem caractersticas individuais que no podem ser distribudas por vrios elementos)
O grau de concentrao de uma distribuio de frequncias pode ser aferido
- graficamente (Curva de Lorenz)
- atravs de um indicador numrico (ndice de Gini)
Nas situaes extremas,
- um s elemento da populao detm todo o atributo concentrao mxima
- cada elemento da populao detm igual parcela do atributo concentrao mnima

1. CURVA DE LORENZ
Objectivo de perceber de que forma se distribui uma caracterstica pelos elementos
H que calcular no s os valores acumulados das ocorrncias (cumf i) como tambm os valores
acumulados correspondentes ao atributo em estudo (cumyi)

Ex: Uma empresa industrial pretende estudar como se distribuem as


suas vendas pelas 233 empresas compradoras em funo da
dimenso destas. Pretende-se saber se as vendas se distribuem de
igual forma por pequenas, mdias e grandes empresas. Assim,
agruparam-se os 233 clientes segundo o nmero de empregados.

Quanto menor a rea entre a recta de igual


distribuio e a curva de Lorenz (rea de
concentrao), mais uniformemente est
distribudo o atributo.

24
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

a partir das frequncias


acumuladas que se obtm a curva
de Lorenz:
- No eixo das abcissas colocam-se
os valores acumulados (relativos) do
nmero de ocorrncias (cum fi);
- No eixo das ordenadas colocam-se
os valores acumulados (relativos) do
atributo (cumyi)

Elevada concentrao:
I). 92,3% dos clientes representam 53% do volume de vendas
II) Os restantes 7,7% (=100%-92,3%) de clientes representam os
restantes 47% (=100%-53%) das vendas.

Curvas de
Lorenz

25
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

2. NDICE DE GINI
Quanto maior for a distncia entre a recta de igual distribuio e a curva de Lorenz, maior ser a
concentrao
Quanto maior for a diferena entre pi e qi maior ser a concentrao
Seja:
e

Baseado nesta constatao, Gini props o seguinte ndice


para medir o grau de concentrao:
(onde, n = nmero de classes/categorias)

O ndice de Gini varia entre 0 e 1 (ou entre 0 e 100, se for utilizada a percentagem): nulo quando
em todas as classes houver igual distribuio do atributo pelos elementos em estudo e toma o valor
mximo quando todo o atributo est concentrado nos indivduos da ltima classe

Ex (partindo da primeira tabela


de dados):

INE define como: indicador de desigualdade na distribuio do rendimento que visa sintetizar num
nico valor a assimetria dessa distribuio, assumindo valores entre 0 (quando todos os indivduos
tm igual rendimento) e 100 (quando todo o rendimento se concentra num nico indivduo)

Ex: Evoluo da desigualdade no rendimento em Portugal

26
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 11

ESTATSTICA INFERENCIAL
Estatstica descritiva vs. Estatstica inferencial
Descritiva: procura sistematizar e representar de forma clara e compreensvel informao contida no
conjunto de dados da amostra atravs de instrumentos adequados
Indutiva ou inferencial: procura caracterizar o todo (populao) a partir de um conjunto limitado de
dados (amostra)

A estatstica clssica baseia-se no pressuposto de que as variveis tm determinada distribuio na


populao
Ex: sabe-se que a altura dos indivduos tem sempre uma distribuio chamada NORMAL, que se caracteriza por uma
concentrao dos indivduos em torno da mdia, e uma menor frequncia de observaes nos extremos (a maioria dos
indivduos tem alturas prximas e alguns so muito altos ou muito baixos).

Distribuio Normal

Ex (direita): Distribuio de idades de uma turma X = 22; =1

68% dos indivduos tem idade compreendida entre os 21 e os 23 anos


95% dos indivduos tem idade compreendida entre os 20 e os 24 anos

Inferncia estatstica
A partir desta distribuio possvel calcular a probabilidade de determinada caracterstica, obtida a
partir dos dados amostrais, se verificar na populao
Como no conhecemos a populao (s conhecemos uma parcela amostra) fcil perceber que
existe sempre um grau de incerteza associado extrapolao
Geralmente utilizam-se nveis de confiana de 95%, permitindo uma margem de erro da inferncia
estatstica de 5%

27
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

MEDIDAS DE ASSIMETRIA E ACHATAMENTO


Assimetria vs. Achatamento
(1) Assimetria: as medidas de assimetria possibilitam analisar uma distribuio de acordo com as
relaes entre suas medidas de moda, mdia e mediana, quando observadas graficamente
(2) Achatamento (ou curtose): o quanto uma curva de frequncia ser achatada em relao a uma
curva normal de referncia

(1) Medidas de assimetria


A assimetria resulta, em geral, da presena de valores extremamente elevados ou pequenos a
moda no afectada mas o mesmo no acontece com a mdia e tambm com a mediana, embora
em menor grau
Quanto mais pronunciada for a assimetria maior ser a distncia entre a moda e a mediana
Consiste na comparao de trs medidas de tendncia central: a mdia, a mediana e a moda
- Quando a mdia, a mediana e a moda coincidem, a distribuio simtrica
- Quando a mdia mediana moda, a distribuio assimtrica positiva ou enviesada esquerda
- Quando a mdia mediana moda, a distribuio assimtrica negativa ou enviesada direita

Medidas de assimetria

distribuio simtrica assimetria positiva / assimetria negativa/


enviesamento esquerda enviesamento direita

Coeficiente de assimetria de Pearson

Se Gi=0, a distribuio simtrica Se Gi>0, a distribuio assimtrica Se Gi<0, a distribuio assimtrica


positiva negativa

Ex: Considere uma distribuio de pesos dos alunos de CPRI com as seguintes medidas:
X = 60,3 ; Me = 59,28 ; Mo = 56,25 ; = 9,93 ; Gi = 0,38

Segundo a formula supracitada, Gi = (60,356,25) 9,93 0,41


Logo, a distribuio assimtrica positiva

28
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

(2) Medidas de achatamento


Do-nos uma indicao da intensidade das frequncias na vizinhana dos valores centrais

Medidas de achatamento

distribuio leptocrtica distribuio mesocrtica distribuio platicrtica

Medidas de tendncia no central

Quartil um dos trs valores que divide o conjunto ordenado dos dados em 4 partes iguais
- 1 quartil (Q1/4) = quartil inferior (valor aos 25% da amostra ordenada = 25 percentil)
- 2 quartil (Q2/4) = mediana (valor at ao qual se encontra 50% da amostra ordenada = 50 percentil)
- 3 quartil (Q3/4) = quartil superior (valor a partir do qual se encontram 25% dos valores mais elevados = valor
aos 75% da amostra ordenada = 75 percentil)

Percentis valores da varivel que dividem a distribuio em 100 partes iguais

Grau de Curtose

Se K=0,263 , Se K>0,263 , Se K<0,263 ,


a distribuio mesocrtica a distribuio platicrtica a distribuio leptocrtica

Ex: Considere uma distribuio de pesos dos alunos de CPRI com as seguintes medidas:
P10=44 ; P90=78 ; Q1=55 ; Q3=67

Segundo a formula supracitada, K = (6755) [2 (7844) 0,18


Logo, a distribuio leptocrtica

29
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 12

Introduo Estatstica Bivariada


(1) Analise Bivariada
(2) Tabelas de Contingncia

(1) ANALISE BIVARIADA


Permite cruzamentos entre duas variveis:
- Possibilidade de perceber se duas variveis so dependentes ou independentes (ex.: perceber se a
inteno de voto varia com a idade)
- Permite averiguar a fora da relao entre duas variveis
Em qualquer anlise estatstica fundamental sustentar teoricamente os procedimentos de anlise,
sob pena de encontrar relaes estatsticas que no tm pertinncia

(2) TABELAS DE CONTINGNCIA


Cruzam duas variveis categricas, permitindo perceber que indivduos tm simultaneamente duas
caractersticas medidas por estas variveis
Ex: cruzando sexo com sentido de voto podemos perceber quantas mulheres na amostra votam no PS, e calcular
propores

(a) Percentagens em linha

1
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

(b) Percentagens em coluna

(c) Percentagens do total

2
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 13

2
Teste de independncia Qui
2
(1) Teste do Qui de independncia
2
(2) Teste do Qui-Quadrado (X )

2
(1) TESTE DO QUI DE INDEPENDNCIA
Teste independncia de duas variveis na populao - inferncia ( relaes de causa-efeito)
Parte de uma tabela de contingncia adequado apenas a variveis de tipo nominal ou ordinal
Compara os valores observados na amostra com os valores esperados

Valores esperados
Aqueles que se obteriam em caso de independncia das variveis
Valor esperado de cada clula = multiplicao do total marginal em
linha pelo total marginal em coluna dividida pela dimenso da amostra

2
(2) TESTE DO QUI-QUADRADO (X )
usado para descobrir se existe uma associao entre a varivel de
linha e a coluna varivel, numa tabela de contingncia (A hiptese nula
que as variveis no esto associadas/ so independentes; a
hiptese alternativa que as variveis esto associadas/so dependentes)
Representa o somatrio do quadrado das diferenas entre valores observado e esperado a dividir pelo
esperado

3
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

Mas que significado tem este valor?


Tem de ser comparado com um valor de referncia desta distribuio que dado pelo n de graus de
liberdade do teste e pelo nvel de significncia que fixarmos

Graus de liberdade
O nmero de graus de liberdade dado pela multiplicao do nmero de
categorias em coluna (c) menos 1 pelo nmero de categorias em linha (r) menos 1
2
Diz-se ento que esta estatstica segue uma distribuio de com n graus de liberdade

O valor da tabela d-nos o ponto crtico que


divide a regio de rejeio e a de aceitao para
um determinado nvel de significncia

Valor crtico = 3,841 (porque com um nvel de confiana de 95% trabalha-se com alpha 0,05)
para a esquerda deste valor regio de aceitao (Ho: as variveis so independentes)
para a direita deste valor regio de rejeio (Ha: as variveis no so independentes)

4
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

(a) Testes de hipteses


Relao entre duas variveis na populao a inferncia estatstica implica a extrapolao de concluses
retiradas de uma amostra para a populao
Como no se observa toda a populao existe sempre algum grau de incerteza nas estimativas
Os testes de hipteses servem para testar se determinada hiptese se verifica na populao

2
(b) Teste do Qui-Quadrado ( )
Testa a independncia de duas variveis na populao (diferente de relaes causa-efeito)
Parte de uma tabela de contingncia (variveis qualitativas)
Compara os valores observados com os valores esperados [aqueles que se obteriam em caso de
independncia das variveis, dado pela multiplicao do total marginal em linha pelo total marginal em coluna, dividido
pela dimenso da amostra E = (Nlinha x Ncoluna) N]
A hiptese em teste tem a designao de hiptese nula (H0)
No teste do qui-quadrado a hiptese nula
- H0: as variveis so independentes
A partir desta hiptese possvel estabelecer uma hiptese alternativa (H a), que complementar da
primeira
- Ha: as variveis no so independentes

2
(c) Teste do pressupostos
Para que se possa aceitar os resultados deste teste necessrio que:
No mais de 20% das clulas tenham frequncia esperada inferior a 5
No exista qualquer clula com valor esperado inferior a 1

5
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 14

1. Medidas de Associao 2. Medidas de Correlao


PHI R de Pearson
V de Cramer R () de Spearman

(1) MEDIDAS DE ASSOCIAO


Complementarmente anlise de independncia, podemos estar interessados em avaliar a
intensidade da relao entre as duas variveis
Valores mais elevados da estatstica de teste do Qui-Quadrado no significam maior/menor relao
entre as variveis (i.e., no permitem Averiguar a intensidade da relao para tal necessrio
utilizar medidas de associao baseadas no Qui-Quadrado)
As medidas de associao so utilizadas como um teste para determinar a fora da associao entre
2
duas variveis, depois de rejeitada a hiptese de independncia pelo teste do Qui

Para avaliar a intensidade da relao entre variveis nominais ou tratadas como tal, calculam-se
medidas de associao:
PHI (para tabelas 2x2):
onde n representa a dimenso da amostra. Varia entre 0 e 1;
Quanto mais prximo de 1, mais forte a associao

V de Cramer (para tabelas NxM):


onde N e M correspondem ao nmero de linhas e colunas, respectivamente; Varia
entre 0 e 1, significando respectivamente a ausncia de associao ou a associao
perfeita entre as variveis; Para tabelas de 2x2, o Phi igual ao V de Cramer

(1.1) PHI
Supondo que rejeitmos a hiptese de independncia entre as variveis situao perante o emprego e
2
sexo = 10,304; g.l. = 1; valor crtico = 3,841
Como avaliar a fora da associao entre as duas variveis? Calculando a medida de associao Phi (o
cruzamento destas duas variveis, cada uma com duas categorias, resulta numa tabela 2x2)

O valor de Phi est muito prximo de zero


(o,087) o que nos permite concluir que a
associao entre as duas variveis fraca.

(1.2) V DE CRAMER
O teste de independncia do Qui2 permitiu rejeitar a hiptese de independncia entre as variveis N de
disciplinas que repetiu e curso frequentado
2
Vamos agora calcular o grau de associao entre as variveis, sabendo que o =251,249 (g.l.=4 4,988)

V= 0,526 o que indica que as variveis esto consideravelmente associadas.

6
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

(2) COEFICIENTES DE CORRELAO


Os coeficientes de correlao servem para avaliar a relao existente entre duas variveis mtricas
(nunca nominais)
As medidas mais comuns so:
- R de Pearson (exclusivamente para variveis mtricas)
- R () de Spearman (pelo menos uma das variveis ordinal)

(2.1) R DE PEARSON
Coeficiente de Pearson corresponde a um quociente entre
indicadores: no numerador encontra-se a covarincia
entre as duas variveis e no denominador, o produto dos desvios-padro de X e Y
indicado para variveis quantitativas
Pode assumir valores entre -1 e 1; Quanto mais prximo estiver dos valores extremos, maior a correlao
Valor 0 no existe correlao entre as variveis Se >/= 0,5 correlao positiva
Valor entre 0 e 0,5 correlao positiva fraca Se </= -0,5 correlao negativa
Valor entre -0,5 e 0 correlao negativa fraca

Correlao positiva Correlao negativa Ausncia de correlao


Variveis positivamente Variveis negativamente Variveis no esto correlacionadas.
correlacionadas. No limite, isto , se a correlacionadas. No limite, isto , se a No limite, isto , em caso de "absoluta
correlao for "perfeita, o coeficiente correlao for "perfeita, o coeficiente independncia, o coeficiente de
de correlao ser igual a 1 de correlao serigual a -1 correlao ser igual a 0

Vantagens do coeficiente de correlao R de Pearson:


Porque uma medida de associao relativa no influenciado pelas unidades de medida das variveis
Como tem limites bem definidos de fcil interpretao sendo possvel distinguir entre graus de
associao elevados ou reduzidos

(2.2) R DE SPEARMAN
Este coeficiente uma medida de associao das ordenaes dos valores
das variveis e no dos valores em si (como acontece com o Pearson)
Pode ser calculado para variveis definidas em escala ordinal
indicado quando pelo menos uma das variveis ordinal:
Pode assumir valores entre -1 e 1 (Quanto + prximo estiver dos valores extremos, + forte a correlao)
Valor 0 no existe correlao entre as variveis Se >/= 0,5 correlao positiva
Valor entre 0 e 0,5 correlao positiva fraca Se </= -0,5 correlao negativa
Valor entre -0,5 e 0 correlao negativa fraca
Fases:
(a) ordenar as observaes atribuindo-lhes um nmero que indique a sua posio relativa na ordenao;
fazer isto separadamente para cada varivel (pode utilizar-se o n 1 para o valor mais pequeno ou para o maior)
(b) aplicar o mesmo critrio de ordenao duas variveis
(c) se se verificar repetio de categorias, o nmero de ordem passa a ser o valor mdio

Medidas de associao VS Coeficientes de correlao


A correlao permite perceber o sentido da relao entre
A associao no permite perceber o sentido da relao duas variveis (Correlao positiva se uma varivel
entre duas variveis cresce, a outra tambm cresce; Correlao negativa se
uma varivel cresce, a outra decresce)
Permitem a anlise da relao entre duas variveis
A associao (ou correlao) entre a varivel X e Y igual associao (ou associao) entre a varivel Y e X

7
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 15

Regresso Linear Simples


(1) Modelo de Regresso Linear Simples
(2) Mtodo dos Mnimos Quadrados
(3) Qualidade do Ajustamento

(1) MODELO DE REGRESSO LINEAR SIMPLES


Estuda a relao entre duas variveis, uma dependente (Y) e uma independente (X); e permite fazer
previses
Existe uma relao de causa-efeito (que a variao de uma possa ser atribuda variao da outra)
Pressupostos: existir uma relao de causa-efeito entre as duas variveis; a relao entre as variveis
tem de ser linear (diagrama de disperso)
Diagrama de disperso: Grfico onde cada ponto representa um par de valores observados (X i Yi).

Equao que descreve a recta de regresso:


Y = varivel dependente (ou explicada)
X =varivel independente (ou explicativa)
e = inclui outros factores explicativos de Y e os erros de medio
a e b so constantes = intercepo da recta com o eixo vertical e b o declive da recta.

Interpretao do erro (e)


O erro contm toda a informao que no foi explicitada pelo modelo. Portanto, nesta componente vo
estar includas todas as variveis omitidas no modelo
O erro surge porque as relaes humanas so tipicamente imprevisveis. Neste sentido, o erro poder
traduzir mudanas de atitude
O erro pode surgir como erro de medio
Como no conhecemos o erro vamos trabalhar com um modelo ajustado
Quando ajustamos uma recta de regresso aos dados observados, a relao linear entre as duas
variveis torna-se perfeita porque se anulam todos os efeitos do erro (uma vez que impossvel
determin-lo), vindo a recta ajustada com a seguinte forma matemtica:
a = ordenada na origem. Traduz o valor de Y quando X zero
b = declive. Traduz a variao de Y por variao de uma unidade de X

(2) MTODO DOS MNIMOS QUADRADOS


O mtodo dos mnimos quadrados permite o ajustamento de uma recta de regresso (a recta
ajustada) aos dados observados de tal forma que minimizada a soma do quadrado dos desvios entre os
valores observados e a recta ajustada. Estes desvios so distncias medidas na vertical e correspondem s
diferenas entre os valores observados e os ajustados.

Para cada valor da varivel independente teremos


dois valores para Y: um valor observado Yi e um valor
ajustado (Yaj) dado pela recta de regresso
A diferena entre os dois corresponde ao erro
aleatrio (e)

8
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

O mtodo dos mnimos quadrados permite-nos encontrar uma recta de


regresso cujos coeficientes so dados por:

Ordenada na origem

Declive da recta de regresso

Ex: pretende-se estimar a nota final dos alunos da licenciatura de CPRI em funo da sua nota de ingresso na FCSH

Sabendo que n=8


1 Calcula-se o declive da recta de regresso (b)

2 Em seguida, a ordenada na origem (a)

a = 4, 519
b = 0, 747
Assim, para um aumento de uma unidade (um valor) na nota de entrada na
faculdade estima-se um aumento de 0,747 na nota final de curso (Modelo
estimado) Para fazer previses:

(3) QUALIDADE DO AJUSTAMENTO


(3.1) Coeficiente de Pearson (R)
O coeficiente de correlao de Pearson (R) d-nos a intensidade e o sentido da relao entre as variveis
Varia entre -1 e 1
Se R=0 no h correlao linear

2
(3.2) Coeficiente de determinao (R )
Medida do poder explicativo da equao de regresso ou a proporo de Y explicada pela presena da
varivel X
Varia entre 0 e 1 (a variao de Y explicada por X ser no mximo 100% e no mnimo 0%)
Obtm-se elevando ao quadrado o coeficiente de correlao de Pearson (e multiplicando por 100
para obter a percentagem)
2
Por exemplo, se R =20%, significa que a varivel independente explica 20% da variao da varivel
dependente

Ex: (exerccio anterior)

Interpretao: verifica-se uma correlao linear positiva e forte


(0,827) entre a nota de entrada na faculdade e a nota final de curso
dos alunos de CPRI. Podemos concluir que cerca de 68% da
variao da nota final de curso devida variao da nota de
entrada na FCSH.
9
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

AULA 16

Representao Grfica
(1) Grfico de Linhas
(2) Grfico de Barras/Colunas
(3) Grfico de Sectores
(4) Grfico Polar
(5) Histograma de Frequncias
(6) Grfico de Disperso

REPRESENTAO GRFICA
A representao grfica dos dados estatsticos tem por objectivo dar uma ideia, o mais imediata
possvel, dos resultados obtidos permitindo chegar-se a concluses rpidas sobre a evoluo e /ou
relaes entre os fenmenos em anlise
Descreve a realidade nos seus aspectos mensurveis
um desenho que representa um conjunto de quantidades referentes a determinados aspectos da
realidade
O grfico um instrumento de sntese que evidencia aspectos particulares construir um grfico
relacionar duas (ou mais) grandezas, pondo em evidncia as tendncias, os valores mnimo e mximo
e as ordens de grandeza dos fenmenos em observao.
Conceitos: eixo (segmento da recta sobre o qual definido um sentido de leitura), origem (definida
pelo sentido da leitura; poder ser zero) e escala (representa a relao que existe entre a grandeza
real e a sua representao no eixo)

(1) GRFICO DE LINHAS


Permite visualizar a evoluo dos fenmenos anlise longitudinal
Permite comparar o comportamento de duas variveis
, por isso, o mais indicado para representar sries cronolgicas
Nos grficos de linhas, enfatizada a tendncia, dada pela inclinao entre dois pontos
Os pontos concretos so mais difceis de comparar se as linhas no tiverem marcadores

(2) GRFICO DE BARRAS/COLUNAS


Permite a visualizao das quantidades e a evoluo
ao longo do tempo das partes que constituem uma
determinada varivel
Os grficos de colunas so rectngulos cuja altura
proporcional ao valor representado
Como permitem comparar pontos que partilham a
mesma base, obtm resultados mais fiveis
Assim, os grficos com este pressuposto so os que
melhor representam a informao

10
Joana Carvalho Martins N.37725
Cincia Poltica e Relaes Internacionais

Barras ou colunas? Linhas ou colunas?


Escolha o grfico de colunas porque a percepo do valor Se queremos comparar pontos, o grfico de colunas
associado variao vertical mais natural mais eficiente, porque nos mostra a sua posio exacta
Opte pelo grfico de barras apenas quando as legendas dos
pontos no eixo vertical for demasiado extensa e no houver Os grficos de linhas permite uma melhor percepo
uma forma elegante de as representar. da evoluo

(3) GRFICO DE SECTORES


Consiste na representao grfica dos resultados num
crculo, dividido em sectores
Os sectores so proporcionais aos valores das partes.
indicado quando se pretende comparar cada parte com o
total
Utilizam-se quando se pretende dar uma imagem de
distribuio percentual ou em valores absolutos de uma
determinada varivel, num tempo preciso

(4) GRFICO POLAR


Representa os dados estatsticos por meio de um polgono
utilizado, sobretudo, para a apresentao de sries temporais

(5) HISTOGRAMA DE FREQUNCIAS


Distribuio das frequncias de uma varivel contnua (Peso de 60 alunos de Antropologia)

(6) GRFICO DE DISPERSO


Consiste na representao dos dados de uma
varivel em funo de outra
Permite, de uma forma intuitiva, identificar as
relaes entre os dados
apenas uma 1 anlise ao conjunto de dados
analisados (toda a anlise das relaes existentes
tero que ser suportadas por outras ferramentas)

Tabelas ou grficos?
Esta oposio no faz sentido na anlise de info temos
vrias ferramentas (nenhuma , partida, mais informativa)
As tabelas servem para encontrar valores exactos, e para tarefas baseadas nesse pressuposto
Os grficos servem para compreender relaes de dados num contexto de variabilidade (no do valores exactos)
a partir da correcta escolha e adequada manipulao de cada uma que podemos compreender os fenmenos a partir
dos dados com que trabalhamos
11
Joana Carvalho Martins N.37725