Você está na página 1de 12
Faculdade de Letras da Universidade do Porto Departamento de Geografia Mestrado em Sistemas de Informação Geográfica

Faculdade de Letras da Universidade do Porto Departamento de Geografia

Mestrado em Sistemas de Informação Geográfica e Ordenamento do Território

Relatório do Projecto Final

Análise Factorial Condições de Vida dos Agregados Familiares Portugueses

Unidade Curricular: Métodos de Estatística Aplicada Docente: Alexandra Lopes e João Carvalho Discente: Diana Marlene Magalhães Silva, Licenciatura em Geografia

Porto, Junho de 2014

1.INTRODUÇÃO

O presente trabalho enquadra-se no Âmbito da Unidade Curricular de Métodos de Estatística Aplicada leccionada no 1º Ano de Mestrado em Sistemas de Informação

Geográfica e Ordenamento do Território proporcionado pela Faculdade de Letras da Universidade do Porto, sendo-nos solicitado pelo docente a sua elaboração a título individual. A temática deste trabalho consiste na caracterização de uma série de indicadores que medem as condições de vida dos agregados familiares portugueses, utilizando uma base de dados inserida no SPSS como metodologia principal para explicar em que

consiste e como se avalia a análise factorial dos dados. Por análise factorial considera-se “…o estudo dos inter-relacionamentos entre as variáveis, num esforço para encontrar num conjunto de factores (em menor número que o conjunto de variáveis originais) que

exprima o que as variáveis originais partilham em comum”.

É necessário revelar que numa perspectiva inicial o objectivo primordial deste trabalho é consolidar os conhecimentos aprendidos nas aulas e pô-los em prática, utilizando de forma integrada a informação fornecida e a derivada, como permitiu também que adquirisse-mos conceitos, informação e técnicas até então desconhecidas e numa fase final possibilitou a interpretação dos outputs criados no SPSS. Concretamente pretendo realizar uma análise ao próprio conceito de condições de vida e á forma como é medida, através do cálculo dos índices compósitos avaliando a sua fiabilidade e também a elaboração de análises descritivas das variáveis. Para a elaboração deste trabalho a metodologia utilizada centrou-se essencialmente na base de dados fornecida pelo docente inserida no programa SPSS (Statistical Package for the Social Sciences). Para dar resposta às finalidades deste trabalho, este irá ser constituído por duas partes principais: uma primeira parte de carácter prático que recairá sobre a transformação dos dados em SPSS para analisarmos posteriores outputs, e aqui entra uma segunda parte de índole teórico que incluirá a descrição dos procedimentos no tratamento dos dados e análise relativa aos resultados dos mesmos. Ao longo do trabalho serão esclarecidas as opções metodológicas, problemas e soluções encontradas de forma precisa e clara.

2

2.ENQUADRAMENTO TEÓRICO

A Estatística Multivariada inclui os métodos de análise das relações de múltiplas variáveis dependentes e/ou múltiplas variáveis independentes. As técnicas de Estatística Multivariada têm o intento de simplificar ou facilitar a interpretação do fenómeno estudado e o seu desenvolvimento tem possibilitado o estudo de fenómenos cada vez mais complexos. A análise factorial é a principal e mais antiga técnica de Estatística Multivariada de simplificação da informação, utilizada para representar relações entre

um conjunto de variáveis através de um menor número de características. Por outras palavras, é uma técnica para reduzir o número de variáveis de uma base de dados, identificando o padrão de correlações ou covariâncias entre elas e criando um número menor de novas variáveis latentes (também designadas de “factores”) não observadas, calculadas a partir dos dados brutos. Os “factores” são calculados por ordem

decrescente de importância, isto é, o primeiro explica a máxima variância dos dados originais, a segunda a máxima variância não explicitada pela primeira e assim sucessivamente. A título de curiosidade a ideia fundamental foi proposta por Sperman (pioneiro da análise factorial) e por Pearson, no início do século XX, para entender problemas relacionados à psicologia educacional, na tentativa de definir inteligência. Em suma a análise factorial é usada principalmente com objectivo de simplificar os dados, combinando variáveis para criar novos factores. E descreve um conjunto de variáveis originais através da criação de um menor número de variáveis.

3. PROCEDIMENTOS METODOLÓGICOS

Antes de mais o nosso caso de estudo/problema insere-se em perceber quais as condições de vida dos agregados familiares portugueses (variável dependente) e todas as informações derivadas serão elaboradas no programa estatístico SPSS. Para esta análise foi-nos fornecido pelo docente uma base de dados em SPSS, para por conseguinte procedermos á análise factorial dos indicadores predispostos e fornecidos. Optei por colocar algumas tabelas estatísticas nos anexos devido á dimensão ocupada pelas mesmas e também porque nos foi definido um número limite de páginas. Inicialmente quando abrimos a base de dados, a primeira coisa a fazer foi analisar os indicadores facultados e perceber se existe um padrão comum entre estes. A primeira parte de qualquer análise estatística consiste em sumarizar e descrever os dados. Sendo assim, esta base de dados é composta por 28 indicadores (variáveis independentes), como se poderá observar pela Tabela 1 contida nos anexos, realizada de

3

seguida com uma análise descritiva de todos estes indicadores através da ferramenta Analyse, Descriptive Statistics, Descriptives Através desta ferramenta podemos determinar neste caso as medidas de tendência central (na coluna mean/média), medidas de dispersão (nas coluna minimum/mínimo, maximum/máximo e std. deviation/desvio-padrão) e na coluna N representa o número de casos. Passámos posteriormente, para a análise factorial e para aplicar a ferramenta referente devemos segui os seguintes passos: Analyse, Data Reduction, Factor. Esta opção indica que iremos reduzir os dados em factores. Devemos definir depois as variáveis independentes que devem ser estudadas, neste caso seleccionamos as 28, pois desejámos que todas elas sejam agrupadas. Ressalta-se que o dito anteriormente não se trata de uma regra, apenas cabe á pessoa que está a conduzir a sua análise que decide quais os indicadores a serem agrupados. Dentro da caixa da ferramenta Factor Analysis, no botão Descriptives escolhemos no campo Statistics a opção Initial Solution (exibirá a distribuição da percentagem da variância explicada pelos factores) e no campo Correlation Matrix a opção KMO and Barttlet’s teste of sphericity (apresentará os testes KMO para medir a adequacidade da utilização da ferramenta análise factorial e o teste de Bartlett que mede se existe correlações suficientes para que a análise factorial possa ser aplicada); no botão Extraction escolhemos o método Principal Components, no campo Analyse seleccionámos Correlation Matrix, no campo Display selectámos Unrotated Factor Solution e Scree Plot e no campo Extract clicámos em Based on Engeivalue onde o número de “factores” será determinado de acordo com o autovalor que corresponde ao número de variáveis (ou parte das variáveis) que um delimitado factor consegue explicar. Por norma aparece 1 no Engeivalues greater than, ou seja, serão extraídos todos os factores que conseguem explicar uma variável. A opção Maximum Interation for Convergence circunscreve o número de interacções entre os dados que o software tem aprovação de fazer para encontrar os factores, sendo que por norma aparece já o número 25; no comando Rotation escolhemos a rotação de valores e no campo Method assinalámos a opção Varimax, que é o método mais comum e além disso escolhemos a opção Rotated Solution no campo Display, pois como fizemos nas aulas queremos a solução rotaceonada e no botão Scores manteve-se tudo igual, assim como no comando Options onde já se encontra seleccionado no campo Missing Values a opção Exclude Cases ListWise (significa que se algum caso deixou de responder a alguma questão, este será desconsiderado na análise) e no campo Coefficient Display format escolhemos a opção

4

Sort by Size que permite ver a variação nos factores de forma ordenada pelos seus valores. Clicámos em Continue e Ok. No final recebemos como output os seguintes resultados:

Sort by Size que permite ver a variação nos factores de forma ordenada pelos seus valores.

Tabela 2 Resultado do teste KMO e Bartlett’s

Nesta tabela, podemos visualizar o teste KMO (Kaiser Meyer Olkin) e o teste de esfericidade de Bartlett’s indicam qual é o grau de susceptibilidade ou o ajuste dos dados á análise factorial, ou seja, procuram de alguma forma medir o modelo factorial. O primeiro mostra qual é a proporção da variância que as variáveis apresentam em comum e é um índice usado para avaliar adequação da análise factorial e os valores obtidos através deste variam entre 0 e 1. Para interpretação do resultado obtido, valores próximos de 1 indicam que o método de análise factorial é perfeitamente adequado para o tratamento dos dados e por outro lado, valores menores que 0,5, indicam a inadequação do método (ou seja, inferior a 0,5 é inaceitável, de 0,5 a 0,6 possui umm grau de ajuste mau, de 0,6 a 0,7 é razoável, de 0,7 a 0,8 é média, de 0,8 a 0,9 é boa e de 0,9 a 1 é excelente). O valor obtido neste teste deve assim ser KMO > 0,5 para que a análise factorial seja considerada possível ao problema. Neste caso, o valor obtido foi de 0,866 , o que nos mostra uma boa adequação de possibilidades de tratamento dos dados com o método de análise factorial, o que nos permite dizer que há uma correlação bastante boa entre estas variáveis. O segundo teste permite-nos verificar se existe correlação suficientemente forte para que a análise factorial possa ser utilizada, fornece a probabilidade estatística de que a matriz de correlação tenha correlações significantes entre pelo menos algumas variáveis e possui propósito de avaliar a hipótese de que a matriz das correlações pode ser a matriz identidade. Se a matriz de correlações for igual à matriz identidade, isso significa que as inter-relações entre as variáveis são iguais a 0 e, neste caso, deve-se reconsiderar a aplicação da análise factorial. Temos assim aqui um teste de hipóteses, em que a hipótese de nulidade (H0) indica que a matriz de correlações é uma matriz de identidade, não há correlação suficiente entre as variáveis contra a hipótese alternativa (H1) que diz que a matriz de correlações não é uma matriz

5

de identidade, existe correlação. Como o p-value (sig) é menor que o nível de significância 0,000 rejeitámos a hipótese nula e aceitámos a hipótese alternativa, que nos diz que existe correlações significantes. Os dois testes revelam-se que a aplicação da análise factorial é uma boa opção para estudarmos os nossos dados. A tabela 3, apresentada nos anexos, relativa às Communalities refere-se á

quantidade/variação explicada de cada variável quando agrupada num factor, isto é, dá-nos

a percentagem de variância de cada variável que é explicada após a extracção de

factores. O que importa descrever nesta tabela é a coluna Extraction, que nos diz que quanto maior o valor nesta coluna maior o ajustamento do valor no modelo, porque se forem valores baixos torna-se um problema pior. Logo, valores inferiores a 0,3 são para descartar, mostram que os indicadores não encaixam bem, sendo que o ideal é ter intervalos de valores superiores a 0,5. Segundo a análise do campo Extraction da tabela 3 podemos

constatar que apenas a variável Sexo detém uma extracção abaixo de 0,3 possuindo apenas 0,232, logo é um indicador problemático não se ajusta bem ao modelo, as restantes dão melhor qualidade ao modelo. Cabe á pessoa que está a fazer a análise decidir se elimina ou não tais variáveis problemáticas.

de identidade, existe correlação. Como o p-value ( sig ) é menor que o nível de

Tabela 4 Matriz da Variância Total Explicada

6

A tabela 4 mostra-nos a Total Variance Explained , que indica a percentagem total da variância que é explicada pelos factores obtidos e faz a decomposição da variação total dos dados para identificação das estruturas comuns, ou seja, permite-nos seleccionar o número de componentes a reter.

A ideia é a partir de um conjunto de variáveis e chegar a um modelo que sintetiza as nossas variáveis observadas num conjunto de menor variáveis. Cada linha representa uma dimensão de análise e corresponde às 28 variáveis, sendo que estas em conjunto explicam 100% da variação dos dados. A finalidade não é esta, mas sim partir de um conjunto de indicadores e chegar a um conjunto de dados menores, mas que contenha a máxima informação possível. Para procedermos á análise desta tabela precisámos simplesmente da coluna Initial Eigenvalues, e assim podemos referir que se combinarmos os indicadores numa variável tenho 23,7% da variação explicada, mas se sintetizar as 28 variáveis em dois factores só consigo explicar 32,3% da variação e se agrupar todos os indicadores em três factores explico 39,7% da variação e assim sucessivamente para os restantes. O importante é sabermos onde parar, ou seja, temos de escolher um reduzido número de variáveis para chegar a um modelo robusto com um nível de explicação elevado. Existem critérios que são consensuais que nos ajudam a decidir quantas dimensões síntese se extrai de um modelo factorial: o primeiro é o critério do valor próprio (Eigenvalues) que mede a capacidade explicativa de cada dimensão e o seu valor de referência é o 1, ou seja, valores inferiores a 1 tornam-se irrelevantes no modelo e desde o momento que tivemos acima do valor de referência estamos bem. Sendo que neste caso se observámos o campo Total da coluna Initial Eigenvalues, apenas as seis primeiras variáveis apresentam valores próprios superiores a 1, se verificámos a sétima variável consta-se um valor próprio de 0,996, como esta já é menor que 1 faz-se o corte e só se usam seis variáveis para testar o modelo e o segundo critério diz respeito á quantidade total de variação que as componentes extraídas conseguem explicar e aqui observámos o campo Cumulative da coluna Initial Eigenvalues e se reduzir as variáveis a seis obtenho 54,7% da variação, mas se reduzir a sete variáveis verificámos 58,2 % da variação e apesar se acrescentar mais, tem um valor próprio inferior a 1, por isso fico-me apenas pelas seis variáveis. Tudo isto para dizer que apenas as seis variáveis apresentam valores próprios superiores a 1 e que no seu conjunto explicam cerca de 55% da variação total dos indicadores em análise.

A conclusão final pode ser extraída através da análise do gráfico 1 contido nos anexos. Este gráfico designa-se por gráfico de “cotovelo”, devido á analogia de braço

7

dobrado no cotovelo efectivamente e que quer dizer ponto de corte. O Scree Plot é um gráfico que exibe os auto valores (Eigenvalues) de uma matriz versus o número de factores. E se reparámos apenas seis componentes se encontram acima do corte do cotovelo, ou seja, apresentam e indicam a presença de valores próprios superiores a 1, referindo uma elevada explicação da variância de todas as componentes.

dobrado no cotovelo efectivamente e que quer dizer ponto de corte. O Scree Plot é um

Tabela 6 - Matriz de Componentes Rodada

Relativamente á tabela 5 que se encontra nos anexos e a tabela 6 que se refere a primeira á Component Matrix e a segunda á Rotated Component Matrix, estas duas matrizes pretendem ser equivalentes em termos conteúdo, a primeira encontra-se nos anexos. A interpretação de uma é exactamente igual á interpretação de outra em alguns casos, quando não conseguimos a solução está suja e aí verificámos a matriz de componentes rodada. Quando a primeira matriz é igual á segunda os dados estão limpos, quando ocorre o contrário os dados não são bons. A matriz de componentes é a matriz original e observam-se os coeficientes que correlacionam os 28 indicadores com os seis factores (componentes),obtidos na análise factorial antes da rotação. A matriz de componentes rodada indica, após realizar a rotação dos factores, quais variáveis

8

pertencem a cada factor. O método de rotação utilizado foi o Varimax (rotação ortogonal) conforme visto no referencial teórico. Este método é um dos mais utilizados. E é nesta segunda tabela que nós nos vamos focar essencialmente, sendo ela particularmente útil. Se reparámos na tabela cada linha representa uma variável e cada uma das colunas é um dos factores. Os valores dispostos na matriz representam a correlação de cada variável com cada factor. Depois identificamos as variáveis que pertencem a cada factor observando os valores de correlação, e pertencerão àquele factor as correlações com maior valor absoluto naquele factor. Sendo assim cada factor (componentes) vai ser composto pelos indicadores assinalados a vermelho, na tabela Rotated Component Matrix. O seu uso coincide com o facto de ser aqui que vamos dar nome aos factores seleccionados, interpretando o sentido substantivo das correlações mais fortes com cada um. Depois de fazer esta operação de síntese passei a ter seis variáveis, técnica que nos permite depois fazer outras análises. O primeiro factor vai ser designado de Condições do Agregado1, o segundo factor de Condições de Habitação, o terceiro factor de Condições de Agregado2, o quarto factor será designado de Classe Etária ,o quinto factor de Rendimentos do Agregado e o sexto factor vai ficar com o nome Dimensão Pessoal. Na tabela 7 presente nos anexos, relativa á Component Transformation Matrix, esta fornece-nos informação sobre a magnitude da rotação operada. Para calcularmos as seis a variável síntese há duas formas de o fazer: a primeira é mais utilizada e mais simples, consiste em pegar nas variáveis que quero compor, por exemplo pego nos oito indicadores do factor 1 somo-os e divido por 8 e tenho a minha nova variável síntese, depois utilizo os cinco indicadores do factor 2 somo-os e divido por cinco, e assim sucessivamente para os quatro restantes factores, sendo este um processo aditivo simples. Todas as variáveis pertencentes a cada factor estão indicadas na tabela 5 na Rotated Component Matrix, a vermelho. A desvantagem é o caracter pouco intuitivo das grandezas que obtemos, não é intuitiva. A outra forma é recorrer a um método ponderado, processo de atribuição de pesos para cada uma das variáveis originais. Neste caso vamos utilizar a primeira forma, que é o método para compor as variáveis síntese, devido á sua simplicidade. Para realizar esta operação, fomos a Analyse, Dimension Reduction, Factor e para das opções assinaladas anteriormente, clicámos no botão Scores e seleccionámos Save as Variables com o método Regression e Continue, ok. Agora vamos Transform, Compute Variable e no campo Target Variable começámos por dar o nome do factor e depois seleccionamos os indicadores

9

que fazem parte deste factor e no Numeric Expression escrevemos a expressão e assim ficará:

Factor_1 (Agregado pode custear uma semana de ferias fora de casa por ano + Agregado tem maquina para lavar roupa + agregado pode custear manter a habitação aquecida + Agregado pode custear substituir mobília gasta ou estragada + Agregado tem micro-ondas + Agregado pode comprar roupas novas em vez de usadas + Agregado tem leitor de vídeo + Agregado tem carro) /8; Factor_2 (Habitação tem banho ou chuveiro + Habitação tem água corrente quente + Habitação tem sanita com autoclismo dentro de casa + Agregado tem tv a cores + Agregado tem telefone) /5; Factor_3 (Habitação tem humidade nas paredes, no tecto, nas fundações + Habitações tem soalho ou janelas apodrecidos + Habitação tem infiltrações no telhado + Habitação e muito escura ou não tem luz suficiente + Habitação tem espaço + Habitação tem falta de instalações de aquecimento adequadas) /6; Factor_4 (Grupo etário em 1998 + Classificação etária em 1998) /2; Factor_5 (Agregado pode custear comer carne ou peixe, dia-sim-dia-não, se quiser + Agregado pode custear receber familiares ou amigos para jantar + Habitação tem cozinha separada + Grupo rendimento em 1998) /4; Factor_6 (Estatuto perante o trabalho + Estado Civil + Sexo) /3. No final de tudo isto clicámos em Ok. Após finalizado este procedimento, a última operação diz respeito ao cálculo do índice de confiabilidade (precisão) do factor. A análise de fiabilidade permite-nos verificar se existe ou não uma boa consistência interna das variáveis entre si num factor. Para tal é necessário seguir o seguinte procedimento Analyse, Scale, Reliability Analysis para verificámos o alfa de Cronbach do conjunto de variáveis correspondentes a cada factor e assim seleccionámos os indicadores que fazem parte de cada factor e passámos para o campo Items e vamos ao botão Statistics e no campo Descriptives For escolhemos a opção Scale If Item Deleted e Continue e Ok. Este último processo deve ser realizado um de cada vez para as seis variáveis síntese criadas, ou seja, é necessário fazer o teste de fiabilidade seis vezes. Consecutivamente, esta operação vai dar origem a três tabelas por cada factor: a primeira designada de Case Processing Summary, a segunda de Reliability Statistics dá- nos a consistência das variáveis quando combinadas, apresenta aas estimativas do Alpha de Cronbach e a terceira diz respeito Item-Total Statistics, que recalcula o alfa de Cronbach se retirámos á vez cada um dos indicadores ou seja, apresenta o efeito de

10

remoção de cada um dos itens no total da escala. Apenas vai ser analisado para cada factor a tabela designada Realibity Statistics, pois optei por colocar as restantes tabelas estatísticas deste procedimento nos anexos de modo a ganhar algum espaço, uma vez que existe limite de número de páginas. De seguida será então apresentado a análise de fiabilidade dos seis factores na tabela 7, medida enquanto consistência interna ou Alfa de Cronbach.

Factor 1 Factor 2 Factor 3
Factor 1
Factor 2
Factor 3
remoção de cada um dos itens no total da escala . Apenas vai ser analisado para
remoção de cada um dos itens no total da escala . Apenas vai ser analisado para
remoção de cada um dos itens no total da escala . Apenas vai ser analisado para
Factor 4
Factor 4
Factor 5
Factor 5
Factor 6
Factor 6

Tabela 7 Análise das Confiabilidades Estatísticas

O valor de referência do teste de Cronbach ideal é de 0,8 (intervalo de valores entre 0,8 e 0,9 é o ideal na estatística) como valor mínimo aceitável, sendo que valores substancialmente mais baixos indicam uma escala não confiável, ou seja, que temos problemas de consistência e valores acima de 0,9, entrámos já num cenário de redundância (queremos valores elevados, mas não tão altos ao ponto de passar acima de 1), significa que estamos a medir sempre o mesmo. Analisando o primeiro quadro referente ao factor um, podemos verificar que este possui um alfa de Cronbach de 0,854 o que nos indica um índice com um nível de confiabilidade bastante satisfatório, assim como o factor dois que detém um alfa de Cronbach de 0,802. Ao contrário do referido

11

anteriormente o factor três, quatro, cinco e seis possuem aleatoriamente valores de alfa de Cronbach de 0,758, 0,479, -0,241, 0,206, o que nos indica um nível de confiabilidade não muito satisfatório e com graves problemas de consistência interna, sendo de destacar que o factor cinco apresenta um nível de confiabilidade negativo, o que quer dizer que viola as premissas do teste de confiabilidade.

4. CONCLUSÃO

Em jeito de conclusão podemos referir, como a maior parte dos testes de confiabilidade não deu acima de 0,8, significa que houve inconsistência do modelo, ou seja, as variáveis usadas para medir e analisar o conceito de condições de vida não são as mais adequadas. Assim se quisermos analisar o que nos é pedido nesta base de dados ou retiramos alguns indicadores ou então analisámos com outros.

Por fim, de salientar a importância como ferramenta de trabalho do SPSS para uso de investigação, nomeadamente em trabalhos de realidade e compreensão de uma determinada base de dados. No entanto, esperamos que o mesmo possa servir, por exemplo, de ponto de partida para uma aplicação geográfica ou não, mais abrangente e que possa vir a ser útil num futuro profissional.

12