Você está na página 1de 12

06/01/2021 Análise de Componentes Principais e Análise Fatorial: diferenças e semelhanças na aplicação da Epidemiologia Nutricional

Revista Brasileira de Epidemiologia Serviços sob demanda


Versão impressa ISSN 1415-790X Versão on-line ISSN 1980-5497
Diário
Rev. bras. epidemiol. vol.22 São Paulo 2019 Epub 29 de julho de 2019
SciELO Analytics
https://doi.org/10.1590/1980-549720190041
Google Scholar H5M5 (2020)
ARTIGO ORIGINAL
Artigo

Análise de Componentes Principais e Análise nova página de texto (beta)


Fatorial: diferenças e semelhanças na aplicação Inglês (pdf)
da Epidemiologia Nutricional Artigo em formato xml

Como citar este artigo

SciELO Analytics

Curriculum ScienTI
Análise de Componentes Principais e Análise Fatorial:
diferenças e similaridades na aplicação em Tradução automática

Epidemiologia Nutricional Indicadores

Links Relacionados

Compartilhar

Mais
Roberta de Oliveira Santos I http://orcid.org/0000-0001-5598-1350 Mais

Link permanente
Bartira Mendes Gorgulho I http://orcid.org/0000-0002-1714-3548

Michelle Alessandra de Castro I http://orcid.org/0000-0002-7219-1067

Regina Mara Fisberg I http://orcid.org/0000-0002-4490-9035

Dirce Maria Marchioni I http://orcid.org/0000-0002-6810-5779

Valéria Troncoso Baltar II http://orcid.org/0000-0002-8152-8565

I
Departamento de Nutrição, Faculdade de Saúde Pública, Universidade de São Paulo - São Paulo (SP), Brasil.
II
Departamento de Epidemiologia e Bioestatística, Instituto de Saúde Coletiva, Universidade Federal Fluminense -
Rio de Janeiro (RJ), Brasil.

ABSTRATO:

Introdução:

https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2019000100439 1/12
06/01/2021 Análise de Componentes Principais e Análise Fatorial: diferenças e semelhanças na aplicação da Epidemiologia Nutricional

Métodos estatísticos como Análise de Componentes Principais (PCA) e Análise Fatorial (FA) são cada vez mais
populares nos estudos de Epidemiologia Nutricional. No entanto, foram observados mal-entendidos quanto à escolha
e aplicação desses métodos.

Objetivos.

Este estudo tem como objetivo comparar e apresentar as principais diferenças e semelhanças entre AF e PCA,
enfocando sua aplicabilidade em estudos nutricionais.

Métodos:

A PCA e a AF foram aplicadas em uma matriz de 34 variáveis que expressam a ingestão alimentar média de 1.102
indivíduos de um estudo de base populacional.

Resultados:

Dois fatores foram extraídos e, juntos, explicaram 57,66% da variância comum das variáveis do grupo de alimentos,
enquanto cinco componentes foram extraídos, explicando 26,25% da variância total das variáveis do grupo de
alimentos. Entre as principais diferenças desses dois métodos estão: suposição de normalidade, matrizes de
variância-covariância / correlação e sua variância explicada, escores fatoriais e erro associado. As semelhanças são:
ambas as análises são usadas para redução de dados, o tamanho da amostra geralmente precisa ser grande, dados
correlacionados e são baseadas em matrizes de variância-covariância.

Conclusão:

PCA e FA não devem ser tratados como métodos estatísticos iguais, visto que a fundamentação teórica e os
pressupostos para o uso desses métodos, bem como a interpretação dos resultados, são diferentes.

Palavras-chave: Dieta; Comida; Comendo; Epidemiologia nutricional

RESUMO:

Introdução:

Métodos estatísticos de análise multivariada, tais como Análise de Componentes Principais e Análise Fatorial, têm
sido cada vez mais utilizados nos estudos em Epidemiologia Nutricional, no entanto equívocos quanto à escolha e
Análise Fatorial dos métodos são observados.

Objetivos:

Os objetivos estudo são comparar e apresentar as diferenças e similaridades conceituais e metodológicas entre
Análise de Componentes Principais e Análise Fatorial à aplicabilidade nos estudos em nutrição.

Métodos:

Análise de Componentes Principais e Análise Fatorial foram aplicados em uma matriz de 34 grupos de alimentos que
expressaram o consumo alimentar médio de 1.102 desejados de um estudo populacional.

Resultados:

Um total de dois componentes foi extraído e juntos explicaram 57,66% da variância comum entre as variáveis dos
grupos alimentares, enquanto um total de cinco componentes foi extraído e juntos explicaram 26,25% da variância
total. Entre as principais diferenças envolvendo os dois métodos estão: pressuposto de normalidade; como matrizes
de variância-covariância / correlação, com consequente quantidade de variância explicada; a carga fatorial /
componente e o erro associado. Entre as similaridades estão: ambas as técnicas são usadas para redução de dados;
simples de um grande tamanho de amostra; os dados precisam ser correlacionados e são baseadas nas matrizes de
variância-covariância / correlação.

Conclusão:

Análise de Componentes Principais e Análise Fatorial não devem ser tratadas como métodos estatísticos iguais e
intercambiáveis, uma vez que o racional teórico e os pressupostos para o uso dos métodos, assim como a
interpretação dos resultados, são diferentes.

https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2019000100439 2/12
06/01/2021 Análise de Componentes Principais e Análise Fatorial: diferenças e semelhanças na aplicação da Epidemiologia Nutricional

Palavras-chave: Dieta; Alimentos; Ingestão de alimentos; Epidemiologia nutricional

INTRODUÇÃO
A Análise de Componentes Principais (PCA) e a Análise Fatorial (AF) são métodos estatísticos multivariados que
analisam várias variáveis para reduzir uma grande dimensão de dados a um número relativamente menor de
1
dimensões, componentes ou fatores latentes . Esses métodos estatísticos são amplamente aplicados em
2 3
epidemiologia nutricional para estudar combinações de alimentos , como a análise do padrão alimentar .
Apesar de sua ampla utilização, muitos pesquisadores desconhecem os pressupostos e diferenças conceituais
entre PCA e AF, o que leva ao uso indevido dos métodos, prejudicando a interpretação e validade dos resultados.

A seleção de PCA ou FA deve ser baseada no objetivo da pesquisa. Ambos os métodos são usados para redução
de dados, mas o PCA visa descrever um grande conjunto de dados em uma dimensão mais simples, de
preferência um plano. Nesse caso, o PCA é usado principalmente para mostrar graficamente os relacionamentos
entre as variáveis em alguns gráficos de dimensão reduzida. Por outro lado, a AF é um modelo estatístico
utilizado para construir padrões alimentares (fatores), que são variáveis latentes para predizer escolhas
4
alimentares . A ACP é um procedimento matemático que permite ao pesquisador reduzir o número de variáveis
correlacionadas em um número menor de componentes (combinação linear dessas variáveis), linearmente
1,5
independentes entre si, o que representa um percentual da covariância total . Não há pressuposto de
normalidade nesta fase. Em contrapartida, a AF visa modelar cada variável original por meio de fatores latentes e
erros aleatórios, de forma que reduza o número de fatores e, dependendo do método de extração, torna-se
1
necessária a suposição de normalidade . Um dos possíveis métodos de estimação utilizados na AF são os
1
componentes principais, daí a confusão entre esses métodos .

Uma das principais diferenças entre PCA e AF em termos matemáticos são os valores encontrados na diagonal da
1,5,6,7
matriz de correlação , base de ambos os métodos. A variância total de cada variável é o resultado da
soma da variância compartilhada com outra variável, a variância comum (comunalidade) e a variância única
8
inerente a cada variável (variância específica) . No PCA, todas as variações são levadas em consideração nos
cálculos. Consequentemente, a diagonal da matriz de correlação é 1,00 (soma da variância única de cada
1,5,9
variável, variância comum entre as variáveis e variância do erro) e inclui toda a variância das variáveis .
8
Por sua vez, FA usa apenas variância comum ; portanto, a diagonal da matriz de correlação inclui apenas
comunalidades, ou seja, apenas a variância compartilhada com outras variáveis será considerada (excluindo a
1,5,9
variância única de cada variável e a variância do erro) .

A PCA é conceitualmente mais simples que a AF, pois resume ou agrega conjuntos de variáveis correlacionadas e,
1 , 6 , 10
nesse sentido, é relativamente empírica, sendo um método de análise descritiva exploratória . Por outro
lado, a AF é um método mais complexo no sentido de que os fatores refletem as causas das variáveis
observadas, portanto, esta análise assume uma característica do modelo multivariado ao calcular as cargas
6 , 10
fatoriais e os erros atribuídos a cada fator .

Nesse sentido, o objetivo deste artigo foi comparar e mostrar as diferenças e semelhanças entre PCA e FA,
apresentando um exemplo baseado em dados reais.

MÉTODOS

ESTUDO DE POPULAÇÃO E GESTÃO DE DADOS

Ilustramos a aplicação de PCA e AF na área de nutrição usando ambos os métodos multivariados em uma matriz
de 34 variáveis que expressam a ingestão alimentar média (em gramas / dia) de 1.102 indivíduos (com 20 anos
ou mais) que responderam a dois recordatórios dietéticos consecutivos de 24 horas (24HDR) em um estudo de
11
base populacional . O estudo teve dois objetivos distintos: descrever apenas os dados multidimensionais na
11
PCA e a derivação dos padrões alimentares na AF. Castro et al. apresentam uma descrição detalhada dos 34
grupos de alimentos e sua composição.

https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2019000100439 3/12
06/01/2021 Análise de Componentes Principais e Análise Fatorial: diferenças e semelhanças na aplicação da Epidemiologia Nutricional
11
Os procedimentos para agrupar os alimentos foram os mesmos aplicados por Castro et al. . Em resumo, um
total de 948 alimentos diferentes consumidos nos dias de avaliação dietética caiu para 38 grupos de alimentos,
seguindo os critérios:

similaridade no perfil nutricional, ou seja, combinação de variações do mesmo alimento com perfil
nutricional semelhante no mesmo grupo ( por exemplo , diferentes tipos de café);

hábitos alimentares regionais e uso culinário de alimentos pela população do sudeste brasileiro.

A seguir, analisamos uma matriz de correlação das variáveis para investigar como os grupos de alimentos se
correlacionam. Como quatro grupos de alimentos não se correlacionaram significativamente (p> 0,05) com
nenhum outro grupo de alimentos, eles foram excluídos da análise, resultando em 34 grupos de alimentos para
AF e PCA.

Em grupos de alimentos com distribuição aumentada zero, seria melhor tratar os dados antes de iniciar a redução
de dados. Métodos estatísticos para estimar a ingestão usual podem ser aplicados para lidar com a variação
12 , 13
intra-individual e distribuição zero aumentada . Outra opção é a análise direta da matriz de correlação,
usando correlação alternativa em vez da correlação de Pearson usual. Após a análise, o pesquisador pode
comparar seus resultados com os da análise usual e verificar se houve diferenças relevantes.

ANÁLISE ESTATÍSTICA

Antes de usar qualquer método estatístico, como primeiro passo, o pesquisador deve ter um objetivo muito claro.
Depois de decidir entre os possíveis métodos estatísticos, é importante verificar seus pressupostos; com FA e
PCA, não é diferente. Primeiro, o tamanho da amostra precisa ser grande o suficiente em relação ao número de
variáveis que serão analisadas. Não há cálculo do tamanho da amostra e este número é arbitrário, mas
geralmente, pelo menos 50 indivíduos são recomendados. Além disso, o tamanho da amostra deve ser pelo
menos cinco vezes maior que o número de variáveis, com proporção ideal de 10 ou mais indivíduos para cada
5
variável analisada . Neste estudo, a proporção de indivíduos em relação às variáveis consideradas no exemplo
ilustrativo foi de aproximadamente 32: 1.

Em segundo lugar, ambas as análises são baseadas na matriz de covariância / correlação, portanto, é
recomendável avaliar a adequação da amostra de acordo com as correlações múltiplas das variáveis. Vale
ressaltar que as variáveis incluídas em ambas as análises precisam ser correlacionadas, e se essas correlações
forem baixas, é melhor ter um tamanho de amostra maior. Correlações significativas do conjunto de variáveis
indicam a adequação da amostra para AF ou PCA, mas observar as magnitudes de correlação é sempre
aconselhável. Na AF, a adequação da amostra deve ser avaliada, podendo ser aplicados dois testes: o teste de
Kaiser-Meyer-Olkin (KMO) e o teste de esfericidade de Bartlett. A estatística KMO é uma proporção de variância
entre as variáveis que pode ser variância comum: varia de zero a um, em que zero é inadequado, enquanto
14
próximo de um é adequado . O teste de Bartlett compara a matriz de correlação observada com a matriz de
identidade (fora da diagonal é zero). Se forem semelhantes, serão necessários tantos fatores quanto variáveis, e
4
a análise é inútil . No geral, valores de KMO acima de 0,50 ep <0,05 para o teste de esfericidade de Bartlett são
5
considerados aceitáveis . Além disso, FA requer uma suposição extra: as variáveis de entrada não precisam
apresentar distribuição normal multivariada, mas a normalidade é assumida para fatores únicos (erros de
regressão). Não há teste estatístico para checá-lo corretamente, mas é recomendado traçar histogramas ou
gráficos QQ de todas as variáveis para confirmar se elas estão próximas da distribuição normal e para verificar a
15
presença de outliers . Uma vez que as suposições foram alcançadas, FA e PCA podem ser aplicados seguindo as
etapas na Figura 1 .

https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2019000100439 4/12
06/01/2021 Análise de Componentes Principais e Análise Fatorial: diferenças e semelhanças na aplicação da Epidemiologia Nutricional

Figura 1. Passo a passo da Análise Fatorial e Análise de Componentes Principais.

Na segunda etapa da AF, é necessário escolher um dos diversos métodos de extração disponíveis. Componentes
principais, fator principal e fator de máxima verossimilhança estão entre os mais populares na epidemiologia
1
nutricional . A decisão sobre qual método utilizar deve combinar os objetivos da AF com o conhecimento de
2
algumas características básicas das relações entre as variáveis .

O método de extração de AF utilizado neste estudo foi o fator principal (PF), método padrão para alguns
®
softwares estatísticos, como o Stata , comumente utilizado em ciências da saúde. Este método considera a
variância de cada variável observada explicada pelo fator ( ou seja , comunalidade) para calcular as cargas
1 , 16
fatoriais . Por outro lado, na segunda etapa do PCA, a decomposição da matriz é automática de forma
5
exploratória , não havendo necessidade de escolha de método de extração.

A terceira etapa do PCA e do FA determina o número de fatores a serem extraídos; em primeiro lugar, foi
14
aplicado o critério de Kaiser . Esse critério parte do raciocínio de que a variância mínima explicada pelo fator
17 5 de
deve ser igual ou maior que a variância de uma única variável observada . Scree test Cattell , ou seja ,,
um gráfico da proporção da variância explicada por cada componente / fator (autovalores), foi inspecionado
visualmente para identificar pontos de quebra na trajetória da curva (ponto de inflexão) e verificar a distância
entre os pontos. Quanto maior a distância entre os pontos, maior o aumento da variância explicado com a
inclusão do componente / fator. O teste de scree de Cattell é útil ao decidir sobre o número de componentes /
fatores a serem extraídos se um grande número de componentes / fatores mostrar autovalores maiores que 1,0.
As mesmas etapas mencionadas acima foram aplicadas para determinar o número de componentes e fatores e
permitir comparações. A Figura 2 apresenta o scree test de Cattell para FA e PCA.

https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2019000100439 5/12
06/01/2021 Análise de Componentes Principais e Análise Fatorial: diferenças e semelhanças na aplicação da Epidemiologia Nutricional

Figura 2. Scree plot dos autovalores dos fatores e componentes.

A quarta etapa do PCA é traçar os componentes para interpretação e concluir a solução. Nesse ponto no PCA, é
possível interpretar os componentes ou a correlação entre os componentes e as variáveis (facilmente calculados
multiplicando os valores dos componentes pela raiz quadrada dos autovalores). Alguns softwares estatísticos
traçam os gráficos com correlações para interpretação. Esses gráficos possuem duas dimensões / planos de
interpretação, com vetores correspondentes a cada item alimentar, e seu tamanho mostra o quão bem
representados estão nesse plano. Além disso, o ângulo entre os vetores indica como esses grupos de alimentos
estão correlacionados. Se o ângulo entre dois alimentos for pequeno, eles têm uma correlação positiva alta, se
próximos a 90º, eles não estão correlacionados, e se entre 90º e 180º, eles estão negativamente
correlacionados. Pela simplicidade,

A quarta etapa da FA é a rotação do fator. A rotação ortogonal Varimax foi aplicada ao subconjunto de fatores
extraídos, com o objetivo de estimar fatores não correlacionados com uma matriz de carregamento mais simples,
14 , 18
considerada de fácil interpretação . Uma matriz de carga simples é estimada quando a variável carrega
fortemente no mínimo de fatores possível, e as cargas das variáveis entre os fatores (cargas cruzadas) são
19 , 20
aproximadamente zero . A ideia de rotação dos fatores baseia-se no objetivo da análise utilizada para
construir fatores, variáveis latentes que representam padrões que predizem a ingestão de grupos de alimentos.
https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2019000100439 6/12
06/01/2021 Análise de Componentes Principais e Análise Fatorial: diferenças e semelhanças na aplicação da Epidemiologia Nutricional

Nesse sentido, a rotação PCA não é adequada porque não faz parte do seu objetivo. A rotação de fator deve ser
feita apenas para estimar o fator quando as suposições para inferência foram verificadas.

Após a identificação das cargas fatoriais, como um quinto passo, o pesquisador deve buscar variáveis não
5
explicadas adequadamente pelos fatores . Assim, a interpretação da AF também deve considerar as
comunalidades, uma vez que as comunalidades estimadas representam o quanto uma variável tem em comum
1 , 5 , 21
com as demais variáveis da análise . Se uma variável tem uma correlação alta com uma ou mais
5 22
variáveis, a comunalidade aumenta , e o conjunto de fatores explicará muito da variância da variável .
Considerando que a AF busca explicar a variância por meio de fatores comuns, os autores costumam excluir
5 , 21
variáveis com baixa comunalidades e voltar à primeira etapa . O ponto de corte para comunalidade é
arbitrário, e cada autor toma sua própria decisão com base no nível de explicação desejado. Na área de nutrição,
23 24
alguns autores utilizaram valores de corte iguais ou superiores a 0,10 e 0,25 , ou seja, consideraram
variáveis aceitáveis que explicassem pelo menos 10 e 25% da variância; entretanto, a maioria dos artigos não o
menciona. Neste estudo, decidimos apresentar todas as comunidades.

A sexta etapa da AF é a interpretabilidade dos fatores, investigada considerando que grupos de alimentos com
cargas positivas podem ser interpretados como estando diretamente correlacionados ao fator, enquanto grupos
de alimentos com cargas negativas podem ser interpretados como inversamente correlacionados ao fator.

Como forma de facilitar a interpretação, os autores costumam usar pontos de corte em cargas fatoriais
5
rotacionadas para encontrar os nomes dos fatores . Por exemplo, a epidemiologia nutricional comumente adota
o ponto de corte de | 0,30 |, ou seja , variáveis com cargas menores que este corte não são consideradas na
criação do nome do fator. Nesta aplicação, usamos um ponto de corte de | 0,30 |. No entanto, ressaltamos que
todas as variáveis / itens foram incluídos para o cálculo do escore, como forma de ajudar a fornecer alguma
interpretação.

A sétima e última etapa da AF é a estimativa dos escores dos fatores. Esta etapa não é obrigatória, mas pode ser
útil para a análise posterior, visto que os pesquisadores pretendem identificar a colocação ou classificação de um
25
indivíduo no fator; na área de nutrição, o fator pode ser traduzido em padrões de ingestão .

®
Todas as análises foram realizadas com o software Stata , versão 12, e o software SAS, versão 9.3. O Comitê
de Ética em Pesquisa da Escola de Saúde Pública da Universidade de São Paulo e a Secretaria Municipal de Saúde
aprovaram o estudo principal.

RESULTADOS
A Tabela 1 mostra o exemplo ilustrativo da aplicação de ambas as técnicas aos mesmos dados dietéticos.
Comparando os resultados dos dois métodos, o número de fatores extraídos (FA) foi, como esperado, menor do
que o número de componentes extraídos (PCA). Dois fatores foram extraídos e, juntos, explicaram 57,7% da
variância comum das variáveis do grupo de alimentos, enquanto cinco componentes foram extraídos, explicando
26,3% da variância total das variáveis do grupo de alimentos. Figura 2demonstra que apenas dois fatores
atenderam ao critério de Kaiser (autovalores> 1,0). Em contraste, quatorze componentes satisfizeram o mesmo
critério. Porém, durante a realização da inspeção visual do gráfico, foi sugerido um ponto de interrupção na
trajetória da curva do quinto componente para atender ao critério de Kaiser.

Tabela 1. Resultados da análise de componentes principais (PCA) e da análise fatorial (AF) antes e depois da rotação Varimax,
com base em uma ingestão média de grupo alimentar de 2 dias, Health Survey of São Paulo, Brazil.

2 2 FA (após
Componentes Correlação entre ingestão
FA (sem 2
h h rotação
principais (PC) de PC e grupo de alimentos
rotação) h por 2
para 2 para 5 Varimax)
fatores
PC1 PC2 PC3 PC4 PC5 Dim1 Dim2 Dim3 Dim4 Dim5 PCs PCs F1 F2 F1 F2
Arroz .41 -.14 -.03 -,32 -.04 0,61 -.20 -.04 -0,40 -.05 0,42 0,58 0,55 -10 0,54 0,13 31
Massa .00 , 04 0,25 0,24 -.04 .00 0,05 0,33 30 -.05 .00 20 -.01 , 04 -.03 , 03 .00
Pão / torradas /
.29 -.24 -.06 .29 0,18 43 -.35 -.07 0,37 0,21 30 0,49 38 -.25 0,45 -.07 0,21
biscoitos
Pão inteiro -.03 0,33 -.09 0,07 0,08 -.05 .47 -,11 0,08 , 09 0,22 0,25 -.07 0,35 -,21 .29 0,13
Frutas -.04 0,27 -15 -.01 0,02 -.06 0,39 -.19 -.01 0,02 0,16 0,19 -.07 0,27 -.18 0,22 0,08
Vegetais enlatados 0,22 0,37 -.03 -.08 , 04 0,32 0,53 -.04 -10 , 04 0,39 0,40 0,21 46 .01 0,50 0,25
Vegetais folhosos , 09 11 0,21 , 09 -.09 0,13 0,16 28 11 -10 , 04 0,14 0,08 0,13 0,02 0,15 0,02
Vegetais sem folhas 0,19 0,37 -.07 .00 .01 0,27 0,53 -.09 .00 0,02 36 0,37 0,17 44 -.03 .47 0,22
Carne 0,17 , 04 0,08 -.18 .01 0,25 0,06 11 -.22 .01 0,06 12 0,18 0,07 0,14 0,14 , 04
Carne de porco 0,06 -.02 0,17 -.06 -,11 , 09 -.03 0,22 -.07 -.13 .01 0,08 0,06 -.01 0,06 0,02 .00
https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2019000100439 7/12
06/01/2021 Análise de Componentes Principais e Análise Fatorial: diferenças e semelhanças na aplicação da Epidemiologia Nutricional

2 2 FA (após
Componentes Correlação entre ingestão
FA (sem 2
h h rotação
principais (PC) de PC e grupo de alimentos
rotação) h por 2
para 2 para 5 Varimax)
fatores
PC1 PC2 PC3 PC4 PC5 Dim1 Dim2 Dim3 Dim4 Dim5 PCs PCs F1 F2 F1 F2
Carne processada 0,21 .00 0,19 -.06 -.18 31 .00 0,24 -.08 -,21 , 09 20 0,22 , 03 0,19 12 0,05
Aves 11 0,10 -.06 -.09 0,08 0,16 0,14 -.08 -,11 0,10 0,05 0,08 11 12 0,05 0,16 , 03
Chocolate em pó 0,06 -.02 0,06 , 04 0,58 , 09 -.03 0,08 0,05 0,68 .01 0,48 0,06 -.01 0,06 .01 .00
Queijo amarelo 11 , 03 0,14 0,25 -.05 0,17 , 04 0,19 31 -.06 , 03 0,17 11 , 04 0,08 0,08 .01
Queijo branco -.03 0,23 -.08 11 0,10 -.04 0,33 -10 0,14 12 11 0,15 -.06 0,22 -.14 0,18 0,05
Leite inteiro 0,13 -,12 -15 , 04 0,48 0,19 -.17 -.20 , 04 0,57 0,07 43 0,16 -,11 0,19 -.04 , 04
Leite magro e
-,11 0,23 -.06 12 -.08 -.16 0,33 -.08 0,15 -.09 0,13 0,17 -.14 0,22 -.22 0,14 0,07
desnatado
Outros produtos
11 0,13 -.08 , 09 0,02 0,16 0,18 -,11 11 0,02 0,06 0,08 0,10 0,14 , 03 0,17 , 03
lácteos
Ovos 20 -.02 -.01 -.02 -.02 30 -.03 -.01 -.03 -.03 , 09 , 09 0,22 .01 0,19 0,10 0,05
Pulsos .00 0,05 -,11 0,17 -.04 -.01 0,08 -.14 0,21 -.05 .01 0,07 -.01 0,05 -.03 , 04 .00
Feijões 0,34 -.18 -.04 -.36 -.09 0,51 -.25 -.05 -,45 -10 0,32 0,54 0,45 -15 0,48 0,05 0,23
Manteiga / Margarina 0,27 -15 -.13 0,24 12 0,40 -,21 -.17 30 0,14 0,21 0,35 0,34 -.14 0,37 .01 0,14
Bolos / produtos de
0,06 , 04 12 0,23 -.04 , 09 0,06 0,16 .29 -.05 .01 12 0,05 0,05 , 03 0,06 .00
confeitaria
Salgadinhos 0,06 , 03 , 04 0,08 0,17 , 09 0,05 0,05 0,10 20 .01 0,06 0,05 , 04 , 03 0,06 .00
Sanduíches .00 -.05 38 11 -.07 .01 -.07 0,50 0,14 -.08 .00 28 .00 -.05 0,02 -.04 .00
Café chá 0,16 -,12 -.28 0,32 -.34 0,23 -.17 -.36 .41 -,41 0,08 0,54 0,21 -.13 0,24 -.03 0,06
Refrigerantes 0,14 -.08 44 -.01 0,16 0,21 -,12 0,58 -.01 0,19 0,06 43 0,16 -.07 0,18 .01 , 03
Sucos de fruta 0,14 20 0,05 0,16 , 03 0,21 .29 0,06 20 , 04 0,13 0,17 0,13 0,23 0,02 0,26 0,07
Bebidas alcoólicas , 09 , 04 30 .00 -.18 0,14 0,06 0,39 .00 -,21 0,02 0,22 0,08 0,06 0,05 , 09 .01
Cortes frios 0,07 , 04 11 12 0,16 11 0,05 0,15 0,15 0,19 .01 , 09 0,07 , 04 , 04 0,07 .01
Molho de salada 0,32 0,34 -.03 -.06 .00 0,48 0,50 -.04 -.08 .00 .47 0,48 0,35 46 0,13 0,57 0,34
Açúcar 0,27 -15 -.22 0,32 -,21 0,40 -.22 -.28 0,40 -.25 0,21 0,51 0,34 -15 38 .01 0,14
Molhos / cremes
gordurosos / 0,02 0,08 30 0,18 , 03 0,02 11 0,39 0,23 , 04 .01 0,22 .00 0,08 -.03 0,08 .01
maionese
Especiarias 0,15 0,19 .00 -,11 -.09 0,23 0,27 .00 -.14 -,11 0,13 0,16 0,14 0,22 , 04 0,26 0,07
Autovalores 2,2 2,1 1,7 1,6 1,4 2,21 2,9 1,7 1,6 1,4 - - 1,4 1,3 1,4 1,3 -
Variância explicada
6,5 6,1 5.0 4,6 4,1 6,5 6,1 5.0 4,6 4,1 - - 30,8 26,9 30,8 26,9 -
(%)
Variância acumulada
6,5 12,6 17,6 22,2 26,3 6,5 12,6 17,6 22,2 26,3 - - 30,8 57,7 30,8 57,7 -
(%)

2
Em negrito: carregando ≥ | 0,30 |; KMO = 0,59; Teste de esfericidade de Bartlett (p <0,001) / h =
comunalidades.

Outra diferença entre FA e PCA está nas cargas dos grupos de alimentos. A maioria dos grupos de alimentos
apresentou cargas maiores, em módulo, em FA do que em PCA. Comparando os dois fatores com os dois
primeiros componentes extraídos, a carga mais alta em FA foi de 0,55 para o grupo de arroz (Fator 1), enquanto
a carga mais alta em PCA foi de 0,41 para o mesmo grupo de alimentos (Componente 1).

Na AF, as comunalidades das variáveis variaram de 0,00 a 0,34, com dezessete variáveis explicando menos de
5% da variância comum, enquanto na PCA, as comunalidades das variáveis variaram de 0,02 a 0,47 para dois
componentes e 0,06 a 0,58 para cinco componentes, mostrando que ao extrair um maior número de
componentes, a quantidade de variância comum aumenta.

Aplicando um corte de carregamento de | 0,30 | para simplificar a interpretação da estrutura fatorial, podemos
observar dois fatores: o fator um (30,8% da variância explicada) apresentou cargas positivas para arroz, pão /
torradas / crackers, feijão, manteiga / margarina e açúcar; e o fator 2 (26,9% da variância) foi caracterizado por
vegetais enlatados, vegetais não folhosos e molho para salada.

Figura 3apresenta a representação gráfica das correlações entre os dois primeiros componentes e a ingestão de
grupos de alimentos na PCA. Este é o primeiro plano a analisar e representa a parte mais importante da
variância. Este gráfico revela que alguns alimentos estão bem representados no primeiro plano, como vegetais
enlatados, molho para salada e arroz, cujos vetores estão mais próximos do tamanho do raio 1 (correlação
máxima). Notamos que vegetais enlatados, temperos para salada e vegetais não folhosos são consumidos em
associação (semelhante aos resultados para o fator 2). Queijo branco, pão integral, frutas e leite desnatado e
desnatado também são consumidos em associação. Além disso, pão / torradas / biscoitos, manteiga / margarina,
arroz, feijão, açúcar e café / chá (semelhante ao fator 1) são consumidos em associação e inversamente
associados à ingestão de queijo branco, pão integral,

https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2019000100439 8/12
06/01/2021 Análise de Componentes Principais e Análise Fatorial: diferenças e semelhanças na aplicação da Epidemiologia Nutricional

Figura 3. Gráfico das correlações entre os dois primeiros componentes e a ingestão de alimentos.

DISCUSSÃO

Este trabalho teve como objetivo comparar e apresentar as diferenças e semelhanças entre AF e PCA, destacando
que a escolha do método dependerá do objetivo do estudo: PCA apenas descreve um grande conjunto de dados
em uma dimensão mais simples, enquanto FA é um modelo estatístico utilizado para construir padrões dietéticos.
Além disso, nossos resultados mostraram que AF e PCA podem levar a estimativas diferentes, especialmente
quando as variâncias comuns das variáveis são baixas. A diferença nas cargas fatoriais das variáveis entre AF e
PCA, observada neste estudo, pode ser explicada pelas baixas comunalidades das variáveis. A este respeito,
alguns autores sugeriram que quando o número de variáveis está acima de 30, as variâncias comuns excedem
5 5 , 26
0,60 para a maioria das variáveis , e o erro (variância única / específica) é próximo de zero , FA e PCA
podem produzir resultados semelhantes. No entanto, mesmo que a solução final (fatores e componentes) na
maioria dos estudos seja frequentemente semelhante entre os dois métodos, a interpretação dos achados e a
modelagem dos dados não devem ser feitas da mesma maneira.

A AF pode ser aplicada a estudos que objetivam analisar o padrão alimentar de uma determinada população, pois
gera fatores que representam uma variável latente, que explicará o consumo de alimentos ou grupos de
alimentos. Cada item / grupo alimentar é estimado (com erro aleatório) por uma combinação linear de variáveis
não observadas, os fatores (variáveis latentes). Os escores dos fatores calculados na FA representam o “padrão”
27
do indivíduo e não uma observação “real” .

A PCA deve ser usada quando o pesquisador pretende reduzir os dados originais em um conjunto menor de
componentes para interpretação para reproduzir parte da variabilidade em menos combinações lineares das
variáveis originais. A interpretação da solução final pode ser feita de forma gráfica, conforme apresentado neste
estudo. Assim, o objetivo, neste caso, é identificar combinações lineares de itens alimentares ou grupos de
alimentos responsáveis pela maior variabilidade alimentar desses indivíduos e selecionar itens alimentares para a
6 28
elaboração de um questionário de frequência alimentar (QFA) . Qin et al. usaram PCA para determinar os
atributos sensoriais de amostras de sidra de maçã com base em bi-plot e descobriram que os odores florais e
frutados estavam altamente correlacionados ao sabor doce e opostos a atributos de aroma mais complexos.
https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2019000100439 9/12
06/01/2021 Análise de Componentes Principais e Análise Fatorial: diferenças e semelhanças na aplicação da Epidemiologia Nutricional

Os fatores obtidos em um FA são variáveis latentes, ou seja , variáveis aleatórias cuja ocorrência fica oculta. Em
outras palavras, a variável latente representa a verdadeira medida das variáveis, levando em consideração o erro
associado à medida das variáveis originalmente observadas, pois a variável latente assume que cada um de seus
29
itens possui um erro de medida associado e considera esta informação em sua estimativa. Castro et al.
avaliaram a associação entre padrões alimentares e fatores de risco cardiovascular metabólicos em adultos
brasileiros e, para construir os padrões alimentares, os autores consideraram que cada grupo de alimentos
apresentava erros de medida que poderiam ser previstos pelos padrões alimentares.

A variável latente - fator - pode representar construtos hipotéticos, que contemplam um aspecto epistemológico,
um conceito não observado, como a caracterização dos hábitos alimentares de uma determinada população, seja
ela Ocidental, Tradicional, Prudente ou Mediterrânea. Portanto, a AF fornece uma estimativa da relação entre
alimentos e grupos de alimentos consumidos por diferentes indivíduos (independentemente de erro aleatório),
permitindo a identificação de combinações de grupos de alimentos, ou padrões alimentares, que representam os
30
hábitos alimentares da população estudada .

Embora ambas as análises requeiram atenção quanto ao tamanho da amostra, número de variáveis observadas,
padrão de covariação / correlação entre as variáveis e número de componentes / fatores que serão formados, a
escolha do melhor método a ser utilizado dependerá do objetivo de cada estudo .

CONCLUSÃO

Os pesquisadores precisam estar cientes das diferentes características da PCA e da AF para decidir sobre o
método mais adequado para atingir os objetivos de sua pesquisa. Embora em algumas situações os dois métodos
possam fornecer resultados semelhantes, eles são conceitualmente diferentes, levando a uma interpretação
diversa dos resultados.

REFERÊNCIAS
1. Meyers LS, Gamst G, Guarino AJ. Pesquisa multivariada aplicada: desenho e interpretação. Califórnia: Sage;
2006. [ Links ]

2. Ocké MC. Avaliação de metodologias de avaliação da dieta geral: escores de qualidade alimentar e análise do
padrão alimentar. Proc Nutr Soc. 2013; 72 (2): 191-9. http://doi.org/10.1017/S0029665113000013 [ Links ]

3. Hu FB. Análise do padrão alimentar: uma nova direção na epidemiologia nutricional. Curr Opin Lipidol 2002; 13
(1): 3-9. [ Links ]

4. Johnson RA, Wichern DW. Análise estatística multivariada aplicada. 6ª ed. Upper Saddle River: Pearson
Prentice Hall; 1998. [ Links ]

5. Hair Jr. JF, Black WC, Babin BJ, Anderson RE, Tatham RL. Análise de dados multivariada. 6ª ed. Upper Saddle
River: Pearson Prentice Hall; 2006. [ Links ]

6. Schneeweiss H, Mathes H. Factor analysis and principal components. J Multivar Anal 1995; 55 (1): 105-24.
http://doi.org/10.1006/jmva.1995.1069 [ Links ]

7. Suhr D. Análise de componentes principais vs. análise fatorial exploratória. In: SUGI 30 Proceedings
[Internet]. 2005 [acesso em 18 de maio de 2017]. Disponível em:
http://www2.sas.com/proceedings/sugi30/Leadrs30.pdf [ Links ]

8. Park HS, Dailey R, Lemus D. O uso de análise fatorial exploratória e análise de componentes principais na
pesquisa em comunicação. Hum Commun Res 2002; 28 (4): 562-77. http://doi.org/10.1111/j.1468-
2958.2002.tb00824.x [ Links ]

9. Brown JD. Análise de componentes principais e análise fatorial exploratória - definições, diferenças e escolhas.
Shiken: JALT Testing & Evaluation Sig Newsletter [Internet] 2009 [acessado em 27 de março de 2017]; 13 (1):
26-30. Disponível em: https://jalt.org/test/PDF/Brown29.pdf [ Links ]

10. Tabachnick BG, Fidell LS. Usando estatísticas multivariadas. 5ª ed. Upper Saddle River: Pearson Allyn &
Bacon; 2007. [ Links ]

11. Castro MA, Baltar VT, Selem SSC, Marchioni DML, Fisberg RM. Padrões alimentares derivados empiricamente:
interpretabilidade e validade de construto de acordo com diferentes métodos de rotação de fatores. Cad Saúde
Pública 2015; 31 (2): 298-310. http://dx.doi.org/10.1590/0102-311X00070814 [ Links ]

12. Rodrigues-Motta M, Galvis Soto DM, Lachos VH, Vilca F, Baltar VT, Verly Junior E, et al. Um modelo de efeito
misto para respostas positivas aumentadas por zeros. Stat Med. 2015; 34 (10): 1761-78.

https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2019000100439 10/12
06/01/2021 Análise de Componentes Principais e Análise Fatorial: diferenças e semelhanças na aplicação da Epidemiologia Nutricional

http://dx.doi.org/10.1002/sim.6450 [ Links ]

13. Tooze JA, Kipnis V, Buckman DW, Carroll RJ, Freedman LS, Guenther PM, et al. Uma abordagem de modelo
de efeitos mistos para estimar a distribuição da ingestão usual de nutrientes: o método NCI. Stat Med 2010; 29
(27): 2857-68. https://doi.org/10.1002/sim.4063 [ Links ]

14. Kaiser HF. Um índice de simplicidade fatorial. Psychometrika 1974; 39 (1): 31-6.
https://doi.org/10.1007/BF02291575 [ Links ]

15. Zygmont C, Smith MR. Análise fatorial robusta na presença de violações de normalidade, dados ausentes e
outliers: questões empíricas e soluções possíveis. Método Quantitativo para Psicologia. 2014; 10 (1): 40-55.
https://doi.org/10.20982/tqmp.10.1.p040 [ Links ]

16. Rencher AC. Métodos de análise multivariada. 2ª ed. Nova York: John Wiley & Sons; 2002. v. 492. [ Links ]

17. Hayton JC, Allen DG, Scarpello V. Decisões de retenção de fator em análise fatorial exploratória: um tutorial
sobre análise paralela. Organ Res Methods 2004; 7 (2): 191-205.
https://doi.org/10.1177%2F1094428104263675 [ Links ]

18. Kaiser HF. O critério varimax para rotação analítica na análise fatorial. Psychometrika 1958; 23 (3): 187-200.
https://doi.org/10.1007/BF02289233 [ Links ]

19. Floyd FJ, Widaman KF. Análise fatorial no desenvolvimento e aprimoramento de instrumentos de avaliação
clínica. Psychol Assess 1995; 7 (3): 286-99. https://psycnet.apa.org/doi/10.1037/1040-3590.7.3.286 [ Links ]

20. Sass DA. Erro de estimativa de carregamento de fator e estabilidade usando análise fatorial exploratória.
Medição da psicologia educacional 2010; 70 (4): 557-77. https://doi.org/10.1177%2F0013164409355695 [
Links ]

21. Yong AG, Pearce S. Um guia para iniciantes em análise fatorial: enfocando a análise fatorial exploratória.
Tutor Quant Methods Psychol 2013; 9 (2): 79-94. http://dx.doi.org/10.20982/tqmp.09.2.p079 [ Links ]

22. Kline P. Um guia fácil para a análise fatorial. Nova York: Routledge; 1994. [ Links ]

23. De Oliveira Santos R, Fisberg RM, Marchioni DM, Baltar VT. Padrões dietéticos para refeições de adultos
brasileiros. Br J Nutr 2015; 114 (5): 822-8. https://doi.org/10.1017/S0007114515002445 [ Links ]

24. Cunha DB, Almeida RMVR, Pereira RA. Uma comparação de três métodos estatísticos aplicados na
identificação de padrões alimentares. Cad Saúde Pública 2010; 26 (11): 2138-48.
http://dx.doi.org/10.1590/S0102-311X2010001100015 [ Links ]

25. DiStefano C, Zhu M, Mîndrilǎ D. Compreendendo e usando pontuações de fator: Considerações para o
pesquisador aplicado. Pract Assess Res Eval 2009; 14 (20). Disponível em: http://pareonline.net/getvn.asp?
v=14&n=20 [ Links ]

26. Velicer WF, Peacock AC, Jackson DN. Uma comparação de padrões de componentes e fatores: uma
abordagem de Monte Carlo. Multivariate Behav Res 1982; 17 (3): 371-88.
http://dx.doi.org/10.1207/s15327906mbr1703_5 [ Links ]

27. Shulze MB, Hoffmann K. Abordagens metodológicas para estudar padrões dietéticos em relação ao risco de
doença cardíaca coronária e derrame. Br J Nut 2006; 95 (5): 860-9. http://dx.doi.org/1079/BJN20061731 [
Links ]

28. Qin Z, Petersen MA, Bredie WLP. Perfil de sabor de sidras de maçã do Reino Unido e da região escandinava.
Food Res Int 2018; 105: 713-23. https://doi.org/10.1016/j.foodres.2017.12.003 [ Links ]

29. Castro MA, Baltar VT, Marchioni DM, Fisberg RM. Examinando associações entre padrões dietéticos e fatores
de risco metabólicos de DCV: um novo uso de modelagem de equações estruturais. Br J Nutr 2016; 115
(Suplemento 9): 1586-97. https://doi.org/10.1017/S0007114516000556 [ Links ]

30. Skrondal A, Rabe-Hesketh S. Modelagem de variáveis latentes generalizadas: modelos de equações


multiníveis, longitudinais e estruturais. Londres: Chapman & Hall; 2004. [ Links ]

Suporte financeiro: nenhum

Recebido: 26 de março de 2018; Aceito: 15 de maio de 2018

Autor correspondente: Roberta de Oliveira Santos. Departamento de Nutrição, Faculdade de Saúde Pública,
Universidade de São Paulo. Avenida Dr. Arnaldo, 715, CEP: 01246-904, São Paulo, SP, Brasil. E-mail:
https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2019000100439 11/12
06/01/2021 Análise de Componentes Principais e Análise Fatorial: diferenças e semelhanças na aplicação da Epidemiologia Nutricional

oliveira.ros@usp.br

Conflito de interesses: nada a declarar

Contribuição dos Autores: Conceito e desenho do estudo: Roberta de Oliveira Santos, Bartira Mendes Gorgulho,
Dirce Maria Marchioni e Valéria Troncoso Baltar. Análise e interpretação dos dados: Roberta de Oliveira Santos,
Bartira Mendes Gorgulho, Michelle Alessandra de Castro e Valéria Troncoso Baltar. Redação e discussão crítica:
Roberta de Oliveira Santos, Bartira Mendes Gorgulho, Michelle Alessandra de Castro, Regina Mara Fisberg, Dirce
Maria Marchioni e Valéria Troncoso Baltar.

Este é um artigo de acesso livre distribuído sob os termos da Licença de Atribuição Creative Commons

Av. Dr. Arnaldo, 715 - 2º andar - sl. 3 - Cerqueira César


01246-904 São Paulo SP Brasil
Tel./FAX: +55 11 3085-5411

revbrepi@usp.br

https://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2019000100439 12/12