Trabalho Estatistica

Faculdade de Letras da Universidade do Porto
Departamento de Geografia

Mestrado em Sistemas de Informao Geogrfica e Ordenamento do Territrio

Relatrio do Projecto Final

Anlise Factorial Condies de Vida dos
Agregados Familiares Portugueses

Unidade Curricular: Mtodos de Estatstica Aplicada
Docente: Alexandra Lopes e Joo Carvalho
Discente: Diana Marlene Magalhes Silva, Licenciatura em Geografia
Porto, Junho de 2014
2

1.INTRODUO
O presente trabalho enquadra-se no mbito da Unidade Curricular de Mtodos
de Estatstica Aplicada leccionada no 1 Ano de Mestrado em Sistemas de Informao
Geogrfica e Ordenamento do Territrio proporcionado pela Faculdade de Letras da
Universidade do Porto, sendo-nos solicitado pelo docente a sua elaborao a ttulo
individual.
A temtica deste trabalho consiste na caracterizao de uma srie de indicadores
que medem as condies de vida dos agregados familiares portugueses, utilizando uma
base de dados inserida no SPSS como metodologia principal para explicar em que
consiste e como se avalia a anlise factorial dos dados. Por anlise factorial considera-se
o estudo dos inter-relacionamentos entre as variveis, num esforo para encontrar
num conjunto de factores (em menor nmero que o conjunto de variveis originais) que
exprima o que as variveis originais partilham em comum.
necessrio revelar que numa perspectiva inicial o objectivo primordial deste
trabalho consolidar os conhecimentos aprendidos nas aulas e p-los em prtica,
utilizando de forma integrada a informao fornecida e a derivada, como permitiu
tambm que adquirisse-mos conceitos, informao e tcnicas at ento desconhecidas e
numa fase final possibilitou a interpretao dos outputs criados no SPSS.
Concretamente pretendo realizar uma anlise ao prprio conceito de condies de vida e
forma como medida, atravs do clculo dos ndices compsitos avaliando a sua
fiabilidade e tambm a elaborao de anlises descritivas das variveis. Para a
elaborao deste trabalho a metodologia utilizada centrou-se essencialmente na base de
dados fornecida pelo docente inserida no programa SPSS (Statistical Package for the
Social Sciences).
Para dar resposta s finalidades deste trabalho, este ir ser constitudo por duas
partes principais: uma primeira parte de carcter prtico que recair sobre a
transformao dos dados em SPSS para analisarmos posteriores outputs, e aqui entra
uma segunda parte de ndole terico que incluir a descrio dos procedimentos no
tratamento dos dados e anlise relativa aos resultados dos mesmos. Ao longo do
trabalho sero esclarecidas as opes metodolgicas, problemas e solues encontradas
de forma precisa e clara.

3

2.ENQUADRAMENTO TERICO
A Estatstica Multivariada inclui os mtodos de anlise das relaes de mltiplas
variveis dependentes e/ou mltiplas variveis independentes. As tcnicas de Estatstica
Multivariada tm o intento de simplificar ou facilitar a interpretao do fenmeno
estudado e o seu desenvolvimento tem possibilitado o estudo de fenmenos cada vez
mais complexos. A anlise factorial a principal e mais antiga tcnica de Estatstica
Multivariada de simplificao da informao, utilizada para representar relaes entre
um conjunto de variveis atravs de um menor nmero de caractersticas. Por outras
palavras, uma tcnica para reduzir o nmero de variveis de uma base de dados,
identificando o padro de correlaes ou covarincias entre elas e criando um nmero
menor de novas variveis latentes (tambm designadas de factores) no observadas,
calculadas a partir dos dados brutos. Os factores so calculados por ordem
decrescente de importncia, isto , o primeiro explica a mxima varincia dos dados
originais, a segunda a mxima varincia no explicitada pela primeira e assim
sucessivamente. A ttulo de curiosidade a ideia fundamental foi proposta por Sperman
(pioneiro da anlise factorial) e por Pearson, no incio do sculo XX, para entender
problemas relacionados psicologia educacional, na tentativa de definir inteligncia.
Em suma a anlise factorial usada principalmente com objectivo de simplificar
os dados, combinando variveis para criar novos factores. E descreve um conjunto de
variveis originais atravs da criao de um menor nmero de variveis.

3. PROCEDIMENTOS METODOLGICOS
Antes de mais o nosso caso de estudo/problema insere-se em perceber quais as
condies de vida dos agregados familiares portugueses (varivel dependente) e todas
as informaes derivadas sero elaboradas no programa estatstico SPSS. Para esta
anlise foi-nos fornecido pelo docente uma base de dados em SPSS, para por
conseguinte procedermos anlise factorial dos indicadores predispostos e fornecidos.
Optei por colocar algumas tabelas estatsticas nos anexos devido dimenso ocupada
pelas mesmas e tambm porque nos foi definido um nmero limite de pginas.
Inicialmente quando abrimos a base de dados, a primeira coisa a fazer foi
analisar os indicadores facultados e perceber se existe um padro comum entre estes. A
primeira parte de qualquer anlise estatstica consiste em sumarizar e descrever os
dados. Sendo assim, esta base de dados composta por 28 indicadores (variveis
independentes), como se poder observar pela Tabela 1 contida nos anexos, realizada de
4

seguida com uma anlise descritiva de todos estes indicadores atravs da ferramenta
Analyse, Descriptive Statistics, Descriptives
Atravs desta ferramenta podemos determinar neste caso as medidas de
tendncia central (na coluna mean/mdia), medidas de disperso (nas coluna
minimum/mnimo, maximum/mximo e std. deviation/desvio-padro) e na coluna N
representa o nmero de casos. Passmos posteriormente, para a anlise factorial e para
aplicar a ferramenta referente devemos segui os seguintes passos: Analyse, Data
Reduction, Factor. Esta opo indica que iremos reduzir os dados em factores.
Devemos definir depois as variveis independentes que devem ser estudadas, neste caso
seleccionamos as 28, pois desejmos que todas elas sejam agrupadas. Ressalta-se que o
dito anteriormente no se trata de uma regra, apenas cabe pessoa que est a conduzir a
sua anlise que decide quais os indicadores a serem agrupados. Dentro da caixa da
ferramenta Factor Analysis, no boto Descriptives escolhemos no campo Statistics a
opo Initial Solution (exibir a distribuio da percentagem da varincia explicada
pelos factores) e no campo Correlation Matrix a opo KMO and Barttlets teste of
sphericity (apresentar os testes KMO para medir a adequacidade da utilizao da
ferramenta anlise factorial e o teste de Bartlett que mede se existe correlaes
suficientes para que a anlise factorial possa ser aplicada); no boto Extraction
escolhemos o mtodo Principal Components, no campo Analyse seleccionmos
Correlation Matrix, no campo Display selectmos Unrotated Factor Solution e Scree
Plot e no campo Extract clicmos em Based on Engeivalue onde o nmero de factores
ser determinado de acordo com o autovalor que corresponde ao nmero de variveis
(ou parte das variveis) que um delimitado factor consegue explicar. Por norma aparece
1 no Engeivalues greater than, ou seja, sero extrados todos os factores que conseguem
explicar uma varivel. A opo Maximum Interation for Convergence circunscreve o
nmero de interaces entre os dados que o software tem aprovao de fazer para
encontrar os factores, sendo que por norma aparece j o nmero 25; no comando
Rotation escolhemos a rotao de valores e no campo Method assinalmos a opo
Varimax, que o mtodo mais comum e alm disso escolhemos a opo Rotated
Solution no campo Display, pois como fizemos nas aulas queremos a soluo
rotaceonada e no boto Scores manteve-se tudo igual, assim como no comando Options
onde j se encontra seleccionado no campo Missing Values a opo Exclude Cases
ListWise (significa que se algum caso deixou de responder a alguma questo, este ser
desconsiderado na anlise) e no campo Coefficient Display format escolhemos a opo
5

Sort by Size que permite ver a variao nos factores de forma ordenada pelos seus
valores. Clicmos em Continue e Ok. No final recebemos como output os seguintes
resultados:

Tabela 2 Resultado do teste KMO e Bartletts

Nesta tabela, podemos visualizar o teste KMO (Kaiser Meyer Olkin) e o teste de
esfericidade de Bartletts indicam qual o grau de susceptibilidade ou o ajuste dos
dados anlise factorial, ou seja, procuram de alguma forma medir o modelo factorial.
O primeiro mostra qual a proporo da varincia que as variveis apresentam
em comum e um ndice usado para avaliar adequao da anlise factorial e os valores
obtidos atravs deste variam entre 0 e 1. Para interpretao do resultado obtido, valores
prximos de 1 indicam que o mtodo de anlise factorial perfeitamente adequado para
o tratamento dos dados e por outro lado, valores menores que 0,5, indicam a
inadequao do mtodo (ou seja, inferior a 0,5 inaceitvel, de 0,5 a 0,6 possui umm
grau de ajuste mau, de 0,6 a 0,7 razovel, de 0,7 a 0,8 mdia, de 0,8 a 0,9 boa e de
0,9 a 1 excelente). O valor obtido neste teste deve assim ser KMO > 0,5 para que a
anlise factorial seja considerada possvel ao problema. Neste caso, o valor obtido foi de
0,866 , o que nos mostra uma boa adequao de possibilidades de tratamento dos dados
com o mtodo de anlise factorial, o que nos permite dizer que h uma correlao
bastante boa entre estas variveis. O segundo teste permite-nos verificar se existe
correlao suficientemente forte para que a anlise factorial possa ser utilizada, fornece
a probabilidade estatstica de que a matriz de correlao tenha correlaes significantes
entre pelo menos algumas variveis e possui propsito de avaliar a hiptese de que a
matriz das correlaes pode ser a matriz identidade. Se a matriz de correlaes for igual
matriz identidade, isso significa que as inter-relaes entre as variveis so iguais a 0
e, neste caso, deve-se reconsiderar a aplicao da anlise factorial. Temos assim aqui
um teste de hipteses, em que a hiptese de nulidade (H0) indica que a matriz de
correlaes uma matriz de identidade, no h correlao suficiente entre as variveis
contra a hiptese alternativa (H1) que diz que a matriz de correlaes no uma matriz
6

de identidade, existe correlao. Como o p-value (sig) menor que o nvel de
significncia 0,000 rejeitmos a hiptese nula e aceitmos a hiptese alternativa, que
nos diz que existe correlaes significantes. Os dois testes revelam-se que a aplicao
da anlise factorial uma boa opo para estudarmos os nossos dados.
A tabela 3, apresentada nos anexos, relativa s Communalities refere-se
quantidade/variao explicada de cada varivel quando agrupada num factor, isto , d-nos
a percentagem de varincia de cada varivel que explicada aps a extraco de
factores. O que importa descrever nesta tabela a coluna Extraction, que nos diz que
quanto maior o valor nesta coluna maior o ajustamento do valor no modelo, porque se
forem valores baixos torna-se um problema pior. Logo, valores inferiores a 0,3 so para
descartar, mostram que os indicadores no encaixam bem, sendo que o ideal ter intervalos
de valores superiores a 0,5. Segundo a anlise do campo Extraction da tabela 3 podemos
constatar que apenas a varivel Sexo detm uma extraco abaixo de 0,3 possuindo
apenas 0,232, logo um indicador problemtico no se ajusta bem ao modelo, as
restantes do melhor qualidade ao modelo. Cabe pessoa que est a fazer a anlise
decidir se elimina ou no tais variveis problemticas.

Tabela 4 Matriz da Varincia Total Explicada

7

A tabela 4 mostra-nos a Total Variance Explained , que indica a percentagem
total da varincia que explicada pelos factores obtidos e faz a decomposio da
variao total dos dados para identificao das estruturas comuns, ou seja, permite-nos
seleccionar o nmero de componentes a reter.
A ideia a partir de um conjunto de variveis e chegar a um modelo que
sintetiza as nossas variveis observadas num conjunto de menor variveis. Cada linha
representa uma dimenso de anlise e corresponde s 28 variveis, sendo que estas em
conjunto explicam 100% da variao dos dados. A finalidade no esta, mas sim partir
de um conjunto de indicadores e chegar a um conjunto de dados menores, mas que
contenha a mxima informao possvel. Para procedermos anlise desta tabela
precismos simplesmente da coluna Initial Eigenvalues, e assim podemos referir que se
combinarmos os indicadores numa varivel tenho 23,7% da variao explicada, mas se
sintetizar as 28 variveis em dois factores s consigo explicar 32,3% da variao e se
agrupar todos os indicadores em trs factores explico 39,7% da variao e assim
sucessivamente para os restantes. O importante sabermos onde parar, ou seja, temos
de escolher um reduzido nmero de variveis para chegar a um modelo robusto com um
nvel de explicao elevado. Existem critrios que so consensuais que nos ajudam a
decidir quantas dimenses sntese se extrai de um modelo factorial: o primeiro o
critrio do valor prprio (Eigenvalues) que mede a capacidade explicativa de cada
dimenso e o seu valor de referncia o 1, ou seja, valores inferiores a 1 tornam-se
irrelevantes no modelo e desde o momento que tivemos acima do valor de referncia
estamos bem. Sendo que neste caso se observmos o campo Total da coluna Initial
Eigenvalues, apenas as seis primeiras variveis apresentam valores prprios superiores a
1, se verificmos a stima varivel consta-se um valor prprio de 0,996, como esta j
menor que 1 faz-se o corte e s se usam seis variveis para testar o modelo e o segundo
critrio diz respeito quantidade total de variao que as componentes extradas
conseguem explicar e aqui observmos o campo Cumulative da coluna Initial
Eigenvalues e se reduzir as variveis a seis obtenho 54,7% da variao, mas se reduzir a
sete variveis verificmos 58,2 % da variao e apesar se acrescentar mais, tem um
valor prprio inferior a 1, por isso fico-me apenas pelas seis variveis. Tudo isto para
dizer que apenas as seis variveis apresentam valores prprios superiores a 1 e que no
seu conjunto explicam cerca de 55% da variao total dos indicadores em anlise.
A concluso final pode ser extrada atravs da anlise do grfico 1 contido nos
anexos. Este grfico designa-se por grfico de cotovelo, devido analogia de brao
8

dobrado no cotovelo efectivamente e que quer dizer ponto de corte. O Scree Plot um
grfico que exibe os auto valores (Eigenvalues) de uma matriz versus o nmero de
factores. E se reparmos apenas seis componentes se encontram acima do corte do
cotovelo, ou seja, apresentam e indicam a presena de valores prprios superiores a 1,
referindo uma elevada explicao da varincia de todas as componentes.

Tabela 6 - Matriz de Componentes Rodada
Relativamente tabela 5 que se encontra nos anexos e a tabela 6 que se refere a
primeira Component Matrix e a segunda Rotated Component Matrix, estas duas
matrizes pretendem ser equivalentes em termos contedo, a primeira encontra-se nos
anexos. A interpretao de uma exactamente igual interpretao de outra em alguns
casos, quando no conseguimos a soluo est suja e a verificmos a matriz de
componentes rodada. Quando a primeira matriz igual segunda os dados esto
limpos, quando ocorre o contrrio os dados no so bons. A matriz de componentes a
matriz original e observam-se os coeficientes que correlacionam os 28 indicadores com
os seis factores (componentes),obtidos na anlise factorial antes da rotao. A matriz de
componentes rodada indica, aps realizar a rotao dos factores, quais variveis
9

pertencem a cada factor. O mtodo de rotao utilizado foi o Varimax (rotao
ortogonal) conforme visto no referencial terico. Este mtodo um dos mais utilizados.
E nesta segunda tabela que ns nos vamos focar essencialmente, sendo ela
particularmente til. Se reparmos na tabela cada linha representa uma varivel e cada
uma das colunas um dos factores. Os valores dispostos na matriz representam a
correlao de cada varivel com cada factor. Depois identificamos as variveis que
pertencem a cada factor observando os valores de correlao, e pertencero quele
factor as correlaes com maior valor absoluto naquele factor. Sendo assim cada factor
(componentes) vai ser composto pelos indicadores assinalados a vermelho, na tabela
Rotated Component Matrix. O seu uso coincide com o facto de ser aqui que vamos dar
nome aos factores seleccionados, interpretando o sentido substantivo das correlaes
mais fortes com cada um. Depois de fazer esta operao de sntese passei a ter seis
variveis, tcnica que nos permite depois fazer outras anlises. O primeiro factor vai ser
designado de Condies do Agregado1, o segundo factor de Condies de Habitao, o
terceiro factor de Condies de Agregado2, o quarto factor ser designado de Classe
Etria ,o quinto factor de Rendimentos do Agregado e o sexto factor vai ficar com o
nome Dimenso Pessoal.
Na tabela 7 presente nos anexos, relativa Component Transformation Matrix,
esta fornece-nos informao sobre a magnitude da rotao operada.
Para calcularmos as seis a varivel sntese h duas formas de o fazer: a primeira mais
utilizada e mais simples, consiste em pegar nas variveis que quero compor, por
exemplo pego nos oito indicadores do factor 1 somo-os e divido por 8 e tenho a minha
nova varivel sntese, depois utilizo os cinco indicadores do factor 2 somo-os e divido
por cinco, e assim sucessivamente para os quatro restantes factores, sendo este um
processo aditivo simples. Todas as variveis pertencentes a cada factor esto indicadas
na tabela 5 na Rotated Component Matrix, a vermelho. A desvantagem o caracter
pouco intuitivo das grandezas que obtemos, no intuitiva. A outra forma recorrer a
um mtodo ponderado, processo de atribuio de pesos para cada uma das variveis
originais. Neste caso vamos utilizar a primeira forma, que o mtodo para compor as
variveis sntese, devido sua simplicidade. Para realizar esta operao, fomos a
Analyse, Dimension Reduction, Factor e para das opes assinaladas anteriormente,
clicmos no boto Scores e seleccionmos Save as Variables com o mtodo Regression
e Continue, ok. Agora vamos Transform, Compute Variable e no campo Target
Variable comemos por dar o nome do factor e depois seleccionamos os indicadores
10

que fazem parte deste factor e no Numeric Expression escrevemos a expresso e assim
ficar:
Factor_1 (Agregado pode custear uma semana de ferias fora de casa por ano +
Agregado tem maquina para lavar roupa + agregado pode custear manter a habitao
aquecida + Agregado pode custear substituir moblia gasta ou estragada + Agregado
tem micro-ondas + Agregado pode comprar roupas novas em vez de usadas + Agregado
tem leitor de vdeo + Agregado tem carro) /8;
Factor_2 (Habitao tem banho ou chuveiro + Habitao tem gua corrente quente +
Habitao tem sanita com autoclismo dentro de casa + Agregado tem tv a cores +
Agregado tem telefone) /5;
Factor_3 (Habitao tem humidade nas paredes, no tecto, nas fundaes + Habitaes
tem soalho ou janelas apodrecidos + Habitao tem infiltraes no telhado + Habitao
e muito escura ou no tem luz suficiente + Habitao tem espao + Habitao tem falta
de instalaes de aquecimento adequadas) /6;
Factor_4 (Grupo etrio em 1998 + Classificao etria em 1998) /2;
Factor_5 (Agregado pode custear comer carne ou peixe, dia-sim-dia-no, se quiser +
Agregado pode custear receber familiares ou amigos para jantar + Habitao tem
cozinha separada + Grupo rendimento em 1998) /4;
Factor_6 (Estatuto perante o trabalho + Estado Civil + Sexo) /3.
No final de tudo isto clicmos em Ok. Aps finalizado este procedimento, a ltima
operao diz respeito ao clculo do ndice de confiabilidade (preciso) do factor. A
anlise de fiabilidade permite-nos verificar se existe ou no uma boa consistncia
interna das variveis entre si num factor. Para tal necessrio seguir o seguinte
procedimento Analyse, Scale, Reliability Analysis para verificmos o alfa de Cronbach
do conjunto de variveis correspondentes a cada factor e assim seleccionmos os
indicadores que fazem parte de cada factor e passmos para o campo Items e vamos ao
boto Statistics e no campo Descriptives For escolhemos a opo Scale If Item Deleted
e Continue e Ok. Este ltimo processo deve ser realizado um de cada vez para as seis
variveis sntese criadas, ou seja, necessrio fazer o teste de fiabilidade seis vezes.
Consecutivamente, esta operao vai dar origem a trs tabelas por cada factor: a
primeira designada de Case Processing Summary, a segunda de Reliability Statistics d-
nos a consistncia das variveis quando combinadas, apresenta aas estimativas do Alpha
de Cronbach e a terceira diz respeito Item-Total Statistics, que recalcula o alfa de
Cronbach se retirmos vez cada um dos indicadores ou seja, apresenta o efeito de
11

remoo de cada um dos itens no total da escala. Apenas vai ser analisado para cada
factor a tabela designada Realibity Statistics, pois optei por colocar as restantes tabelas
estatsticas deste procedimento nos anexos de modo a ganhar algum espao, uma vez
que existe limite de nmero de pginas.
De seguida ser ento apresentado a anlise de fiabilidade dos seis factores na
tabela 7, medida enquanto consistncia interna ou Alfa de Cronbach.

Tabela 7 Anlise das Confiabilidades Estatsticas

O valor de referncia do teste de Cronbach ideal de 0,8 (intervalo de valores
entre 0,8 e 0,9 o ideal na estatstica) como valor mnimo aceitvel, sendo que valores
substancialmente mais baixos indicam uma escala no confivel, ou seja, que temos
problemas de consistncia e valores acima de 0,9, entrmos j num cenrio de
redundncia (queremos valores elevados, mas no to altos ao ponto de passar acima de
1), significa que estamos a medir sempre o mesmo. Analisando o primeiro quadro
referente ao factor um, podemos verificar que este possui um alfa de Cronbach de 0,854
o que nos indica um ndice com um nvel de confiabilidade bastante satisfatrio, assim
como o factor dois que detm um alfa de Cronbach de 0,802. Ao contrrio do referido
Factor 1
Factor 2 Factor 3
Factor 6
Factor 5 Factor 4
12

anteriormente o factor trs, quatro, cinco e seis possuem aleatoriamente valores de alfa
de Cronbach de 0,758, 0,479, -0,241, 0,206, o que nos indica um nvel de confiabilidade
no muito satisfatrio e com graves problemas de consistncia interna, sendo de
destacar que o factor cinco apresenta um nvel de confiabilidade negativo, o que quer
dizer que viola as premissas do teste de confiabilidade.

4. CONCLUSO
Em jeito de concluso podemos referir, como a maior parte dos testes de
confiabilidade no deu acima de 0,8, significa que houve inconsistncia do modelo, ou
seja, as variveis usadas para medir e analisar o conceito de condies de vida no so
as mais adequadas. Assim se quisermos analisar o que nos pedido nesta base de dados
ou retiramos alguns indicadores ou ento analismos com outros.
Por fim, de salientar a importncia como ferramenta de trabalho do SPSS para
uso de investigao, nomeadamente em trabalhos de realidade e compreenso de uma
determinada base de dados. No entanto, esperamos que o mesmo possa servir, por
exemplo, de ponto de partida para uma aplicao geogrfica ou no, mais abrangente e
que possa vir a ser til num futuro profissional.

Trabalho Estatistica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Trabalho Estatistica

Enviado por

Direitos autorais:

Formatos disponíveis

Faculdade de Letras da Universidade do Porto

Você também pode gostar