Você está na página 1de 48

ANÁLISE ESTATÍSTICA

MULTIVARIADA

NOVA METODOLOGIA DE
CÁLCULO DO ICMS VERDE NO
ESTADO DO PARÁ
“A estatística é a gramática da
ciência”. Karl Pearson
Sumário 1 – ALGORÍTMOS
2 – REPRESENTAÇÃO DE ALGORÍTMOS
3 – TIPOS DE DADOS
4 – VARIÁVEIS
5 – VARIÁVEIS QUALITATIVAS
6 – ANÁLISE DE COMPENENTES PRINCIPAIS
7 – ETAPAS DA ANÁLISE
8 – AUTOSCALING (AUTOSCALED DATA)
9 – PADRONIZAÇÃO DAS VARIÁVEIS
10 – VARIÁVEIS QUALITATIVAS
11 – MATRIZES E VETORES
12 – SELEÇÃO E TRATAMENTO DE DADOS
13 – MEDIDA DE PROXIMIDADE
14 - MÉTRICAS COMUNS EM MEDIDAS DE PROXIMIDADE OU SIMILARIDADE
15 – DISTÂNCIA EUCLIDIANA
16 – DISTÂNCIA MANHATTAN
17 - DISTÂNCIA MAHALANOBIS
18 – CALIBRAGEM OU GRADUAÇÃO
19 - ANÁLISE MULTIVARIADA
20 - ANÁLISE FATORIAL
21 - ETAPAS
22 - ENTRADA DE DADOS
23 - CÁLCULO DAS CORRELAÇÕES
24 - EXTRAÇÃO DOS FATORES INICIAIS
25 - ROTAÇÃO
26 - PROCESSO DA ANÁLISE FATORIAL
27 - ANÁLISE FATORIAL EXPLORATÓRIA
28 - ESTRUTURA FATORIAL EXPLORATÓRIA
29 - MODELO DE SOLUÇÃO SCHMID LEIMAN
30 - TESTE DE VALIDADE DA ANÁLISE FATORIAL
31 - INTERPRETAÇÃO DO TESTE KMO
32 - ETAPAS PARA IDENTIFICAÇÃO DOS ÍNDICES FINAIS DO ICMS VERDE
33 - ANÁLISE FATORIAL DESCRITIVA
34 - ANÁLISE FATORIAL - EXTRAÇÃO
35 - ANÁLISE FATORIAL - ROTAÇÃO
36 - PONTUAÇÃO DO FATOR
37 - REVISÃO PARA O USO
38 – PORTARIA 1271 DE 21 DE JULHO DE 2016
39 - REFERENCIAL BIBLIOGRÁFICO
Algorítmos
Um algoritmo é um conjunto finito de
regras que fornece uma sequência de
operações para resolver um problema
específico.

É um conjunto de regras e rotinas


sequenciais para alcançar através de etapas
matemáticas.
Representação de Algorítmos
Representação de Algoritmos
As formas mais comuns de representação de algoritmos
são as seguintes:
Linguagem Natural - Os algoritmos são expressos
diretamente em linguagem natural.(ex: letra,nome, etc.)
Fluxograma Convencional - Esta é um representação
gráfica que emprega formas geométricas padronizadas
para indicar as diversas ações e decisões que devem ser
executadas para resolver o problema.
Pseudo-linguagem - Emprega uma linguagem
intermediária entre a linguagem natural e uma linguagem
de programação para descrever os algoritmos.
Tipos de dados
Os algoritmos irão manipular dados, que
normalmente são fornecidos pelos usuários, e
entregar resultados para estes usuários. Uma
pergunta importante neste momento é: que tipo de
dados poderemos manipular?
Existem três tipos básicos de dados que a linguagem
irá manipular:
•Dados numéricos – Somente números
•Dados alfa-numéricos – Números com letras ou
caracteres.
•Dados Lógicos (dados booleanos) –Verdadeiro ou
falso.
Variáveis
É um conjunto de informações que assume uma
diversidade de formas de grandezas, transformando-
se ou assumindo formas, quantificada em um grupo.
(conceito matemático)

As variáveis nos estudos estatísticos são os valores


que assumem determinadas características dentro
de uma pesquisa e podem ser classificadas em
qualitativas ou quantitativas.
Variáveis qualitativas
É considerado relativamente fácil dentro da
estatística descritiva tratar de dados qualitativos.

Exemplo:
Variáveis nominais – O sexo observado de um
grupo de ursos. (masculino e feminino)

Variáveis ordinais – É a frequência de vezes que


foram avistados ursos no interior da floresta,
durante os meses registrados.
Análise de componentes principais
O PCA foi inventado em 1901 por Karl Pearson. O
PCA é a mais simples das verdadeiras análises
multivariadas por autovetores (Vetores Próprios).
Com frequência, sua operação pode ser tomada
como sendo reveladora da estrutura interna dos
dados, de uma forma que melhor explica a variância
nos dados.
O PCA é fortemente ligado à análise de
fatores (Factorial Analysis); de fato, alguns pacotes
estatísticos propositalmente confluem as técnicas.
Etapas da análise
Autoscaling (autoscaled data)

É um escalonamento de dados diferenciados


de uma base com finitas variáveis para uma
base de um conjunto de informações, onde o
autoajustamento das médias e desvio padrão
é necessário, diante de um contexto de
médias e desvios padrões diferenciados,
tornando-os em algorítmos padronizados,
com média igual a 0 e desvio igual a1.
Padronização das variáveis
Normalmente as características são obervadas em
unidades de medidas diferentes entre si, e neste
caso, segundo REGAZZI (2000) é conveniente
padronizar as variáveis. A padronização pode ser
feita com média zero e variância 1.
Variáveis qualitativas
Após a padronização obtemos uma matriz de dados.
Matrizes e vetores
Matriz
O molde é chamado de uma mesa retangular
de números, compondo colunas I e linhas J.
Uma matriz quadrada é quando linhas e
colunas possuem o mesmo número.

Vetor
Um número ou conjunto de números em
formato de linha ou coluna expresso dentro de
uma matriz. O vetor correspondente do
número zero é chamado de vetor ortogonal.
Seleção e tratamento de dados
•Eliminação de dados duplicados ou corrompidos – dados
duplicados ou corrompidos são removidos;
•Tratamento de outliers – dados com valores inválidos
significantemente fora do esperado para uma variável são
removidos;
•Valores faltantes ou inválidos - dados faltando valor ou com
valores inválidos são removidos do conjunto selecionado;
•Transformação dos dados – essa etapa pode ser subdividida
em duas tarefas:
•Tratamento de atributos – adequar os diferentes tipos de
atributos para o processo de agrupamento;
•Normalização – tratar dados com atributos de diferentes
dimensões, quando se pretende que eles tenham a mesma
influência no processo.
Medida de proximidade

A medida de proximidade pode ser


definida como a medida de similaridade
ou dissimilaridade entre os dados
(Koerich, 2005). A matriz de similaridades
é uma matriz de dimensão bastante
utilizada em diversos algorítmos de
agrupamento de dados.
Métricas comuns em medidas de
proximidade ou similaridade
Distância euclidiana
Distância manhattan
Distância mahalanobis
Calibragem ou graduação
Métodos básicos utilizado para as soluções de
calibração de problemas (também chamado de
graduação). Ela pode servir como um guia para os
investigadores, começando a examinar questão e
diversas perguntas. A calibragem pode ser linear e
não linear. É utilizado para identificar padrões e para
avaliar opções possíveis. Os melhores resultados são
obtidos pela calibração multivariável, refletindo na
qualidade da simulação dos dados e sua verificação.
Análise multivariada

A denominação “Análise Multivariada”


corresponde a um grande número de
métodos e técnicas que utilizam
simultaneamente todas as variáveis na
interpretação teórica do conjunto de dados
obtidos.
Análise fatorial
A análise fatorial é uma técnica de
interdependência nas quais todas as variáveis
são simultaneamente consideradas, cada uma
relacionada com todas as outras, empregando
ainda o conceito da variável estatística, a
composição linear de variáveis. Na análise
fatorial, as variáveis estatísticas (fatores) são
formadas para maximizar seu poder de
explicação do conjunto inteiro de variáveis, e
não para prever uma variável(eis) dependente(s).
Etapas
Há, basicamente, quatro passos na condução da análise fatorial:
entrada de dados, cálculo das correlações entre as variáveis,
extração inicial dos fatores e a rotação da matriz.
Coeficiente de correlação de Pearson
O coeficiente de correlação de Pearson é uma medida do grau de
relação linear entre duas variáveis quantitativas. Este coeficiente
varia entre os valores -1 e 1. O valor 0 (zero) significa que não há
relação linear, o valor 1 indica uma relação linear perfeita e o valor
-1 também indica uma relação linear perfeita mas inversa, ou seja
quando uma das variáveis aumenta a outra diminui. Quanto mais
próximo estiver de 1 ou -1, mais forte é a associação linear entre
as duas variáveis.
O coeficiente de correlação de Pearson é normalmente
representado pela letra r e a sua fórmula de cálculo é:
Entrada de dados
Os dados de entrada da análise fatorial geralmente
tomam a forma de um conjunto de valores de
variáveis para cada objeto ou indivíduo na amostra.
Na verdade, qualquer matriz cujos componentes
ofereçam uma medida de similaridade entre variáveis,
pode ser passível de análise fatorial.
Cálculo das correlações

Para o cálculo da matriz de correlações podem ser


utilizadas duas abordagens: análise fatorial R e a análise
fatorial Q. Na análise fatorial R, as correlações são
calculadas entre variáveis e na análise fatorial Q entre
casos. Nos procedimentos da análise fatorial R, procura-
se agrupar as diferentes variáveis em alguns fatores
específicos. Casos podem ser pessoas, produtos, lojas ou
quaisquer outros elementos de tal forma que tratados
pela análise fatorial possam ser agrupados em fatores
específicos.
Extração dos fatores iniciais
Há diferentes métodos de extração de fatores da matriz de
correlações. De forma geral, estes métodos são
numericamente complexos para serem aqui abordados. Um
desses métodos, componentes principais, é intensamente
utilizado na prática e será o processo adotado para extração
dos fatores das análises fatoriais empregadas no cálculo do
ICMS Verde. O objetivo da extração de fatores é encontrar
um conjunto de fatores que formem uma combinação linear
das variáveis originais ou da matriz de correlações. Desta
forma, se as variáveis X1 , X2 , X3 , ... , Xn são altamente
correlacionadas entre si, elas serão combinadas para formar
um fator, e assim, sucessivamente, com todas as demais
variáveis da matriz de correlação. Ocorrerá uma combinação
linear entre as variáveis.
Rotação
Os fatores extraídos apresentam, frequentemente, muitas
dificuldades para serem interpretados. Para ajudar na
interpretação desses fatores a solução inicial deve ser rotada.
Há duas formas de procedimento da rotação da matriz: a
rotação ortogonal (rotação varimax), que mantém os fatores
não correlacionados e a rotação oblíqua, que torna os fatores
correlacionados entre si. A ideia básica do giro de fatores é
identificar alguns fatores que possuam variáveis que tenham alta
correlação e outros com variáveis que possuam baixa
correlação. Os cálculos para realização destas rotações são
muitos complexos e fugirá do escopo desta pesquisa. A
realização da rotação de matrizes demanda uma quantidade tão
grande de cálculos que a utilização da análise fatorial em
pesquisas só passou a ser viável com o advento dos
computadores e dos programas de análises que possibilitaram a
realização dos cálculos de forma rápida, precisa e econômica.
Processo de análise fatorial
• Teste de esfericidade de Bartlett : uma estatística de teste
usada para examinar a hipótese de que as variáveis não sejam
correlacionadas na população. Em outras palavras, a matriz de
correlação da população é uma matriz identidade; cada variável se
correlaciona perfeitamente com ela própria (r=1), mas não
apresenta correlação com as outras variáveis (r=0).
• Matriz de correlação: o triângulo inferior da matriz exibe as
correlações simples, r, entre todos os pares possíveis de variáveis
incluídas na análise. Os elementos da diagonal, que são todos iguais
a um, em geral são omitidos.
• Comunalidade: porção da variância que uma variável
compartilha com todas as outras variáveis consideradas. É também
a proporção de variância explicada pelos fatores comuns.
• Autovalor: representa a variância total explicada por cada fator.
(Continuação I)
• Cargas fatoriais: correlação simples entre as variáveis e
os fatores.
• Gráfico das cargas dos fatores: gráfico das variáveis
originais utilizando as cargas fatoriais como ordenadas.
• Matriz de fatores ou matriz principal: contém as
cargas fatoriais de todos as variáveis em todos os fatores
extraídos.
• Escores fatoriais: escores compostos estimados para
cada indivíduo nos fatores derivados.
• Medida de adequação da amostra de Kaiser-Meyer-
Olkin (KMO): índice usado para avaliar a adequação da
análise fatorial. Valores altos (entre 0,5 e 1,0) indicam que a
análise fatorial é apropriada. Valores abaixo de 0,5 indicam
que a análise fatorial pode ser inadequada.
(Continuação II)
• Percentagem de variância: percentagem da variância
total atribuída a cada fator.
• Resíduos: diferenças entre as correlações observadas,
dadas na matriz de correlação de entrada (input) e as
correlações reproduzidas, conforme estimadas pela matriz de
fatores.
• Scree plot: gráfico dos autovalores versus número de
fatores por ordem de extração.
Análise fatorial exploratória

Aplicou-se a rotação para transformar os coeficientes


das componentes principais retidas numa estrutura mais
simplificada. O objetivo é dividir o conjunto inicial de
variáveis em subconjuntos com maior grau de
independência possível. Optou-se pela rotação varimax.
Este processo pretende que, para cada componente
principal, existam apenas alguns pesos significativos e
todos os outros sejam próximos de zero, através da
maximização da variância entre os fatores para a rotação
das matrizes fatoriais.
Estrutura fatorial exploratória
Modelo de solução Schmid Leiman
O modelo de solução Schmid-Leiman utiliza os dados (SSL,
Schmid & Leiman, 1957) com o objetivo de gerar evidências
da existência de um fator geral de segunda ordem e
clarificar suas relações com os fatores de primeira ordem e
as variáveis observadas. A SSL é uma transformação das
matrizes de cargas fatoriais obtidas na análise fatorial para
gerar uma estrutura hierárquica em que o fator geral é
ortogonal aos fatores específicos.
O modelo de Schmid-Leiman extrai a máxima variância
com relação ao fator de primeira ordem, enquanto que os
fatores de segunda ordem são reduzidos a fatores
residuais. Entretanto, cargas fatoriais iguais ou maiores que
0,25 são geralmente consideradas satisfatórias (Wolf &
Preising, 2005).
Teste de validade da análise
fatorial

A finalidade deste item é verificar se a aplicação da


análise fatorial tem validade para as variáveis escolhidas.
Para efetuar o procedimento referido utilizou-se os
testes de Kaiser-Meyer-Olkin (KMO) e de Esfericidade
de Bartlett.
Interpretação do teste KMO
Etapas para identificação dos índices
finais do icms verde
1ª ETAPA – REDUÇÃO DE DIMENSÃO;

2ª ETAPA - EXTRAÇÃO DOS FATORES


(COMPONENTES PRINCIPAIS);

3ª ETAPA – TESTE DE ESFERICIDADE DE BARTLETT E


KMO.
Análise fatorial descritiva
TESTE PARA A REALIZAÇÃO DO CÁLCULO:

•MATRIZ DE CORRELAÇÃO;
•COEFICIENTES;
•NÍVEL DE SIGNIFICÂNCIA;
•DETERMINANTES;
•TESTE DE ESFERICIDADE DE BARTLETT E KMO.
Análise fatorial - extração
MÉTODO – COMPONENTES PRINCIPAIS
ANALISAR – MATRIZ DE CORRELAÇÃO
EXIBIR:
•Solução de fator não rotacionado;
•Scree plot;
•Extrair – nº fixo de fatores (4).
Análise fatorial - Rotação

MÉTODO – VARIMAX

É um método de rotação ortogonal e pretende que,


para cada componente principal, existam apenas alguns
pesos significativos e todos os outros sejam próximos
de zero, isto é, o objetivo é maximizar a variação entre
os pesos de cada componente principal.
Pontuação do fator

•IDENTIFICAÇÃO DAS VARIÁVEIS;


•MÉTODO – REGRESSÃO;
•IDENTIFICAÇÃO DOS PESOS – VARIÂNCIA
TOTAL EXPLICADA.
Revisão para uso

•MÉTODODE EXTRAÇÃO UTILIZADA – ANÁLISE


DE COMPONENTE PRINCIPAL.

•MÉTODODE ROTAÇÃO UTILIZADA – VARIMAX


COM NORMALIZAÇÃO EM KAISER.
Portaria nº 1272, de 21, de julho de
2016
O repasse dos índices definitivos pertencentes ao ICMS Verde aos municípios,
durante o ano de 2017, será estabelecido de acordo com os pesos, critérios e
indicadores constantes nesta portaria, dimensionados em 4 (quatro) fatores, da
seguinte forma: I - O Fator 1, denominado de Regularização Ambiental é
composto pelos seguintes indicadores (Cadastro Ambiental Rural - CAR; Área
de Preservação Permanente - APP; Reserva Legal - RL e a Área Degradada -
AD), contribuiu com um Peso de 38,618% no índice do ICMS Verde do
Estado do Pará; II - O Fator 2, denominado de Gestão Territorial é
composto pelos seguintes indicadores (Áreas Protegidas de Uso Restrito;
Áreas Protegidas de Uso Sustentável; Desflorestamento e Desflorestamento
em Áreas Protegidas), este fator apresenta um Peso de 35,442% no índice do
ICMS Verde do Estado do Pará; III - O Fator 3, denominado de Estoque
Florestal é formado por um único indicador (Remanescente Florestal),
apresentando um Peso de 14,092% no índice do ICMS Verde do Estado do
Pará e; IV - O Fator 4, denominado de Fortalecimento da Gestão
Ambiental Municipal é composto por um único indicador (Capacidade de
Exercício da Gestão Ambiental), e apresenta uma contribuição no índice do
ICMS Verde do Estado do Pará com Peso de 11,848%.
Referencial bibliográfico
Antelman, G. (1997). Elementary Bayesian statistics. Cheltenham, UK:
Edward Elgar.
Atkins, D. C., Baldwin, S., Zheng, C., Gallop, R. J., & Neighbors, C. (in
press). A tutorial on count regression and zero-altered count models
for longitudinal addictions data.
Bartholomew, D., Knott, M., & Moustaki, I. (2011). Latent variable
models and factor analysis: : A unified approach (3rd ed.). New York: John
Wiley Sons.
Pearson, K. (1901). On lines and planes of closest fit to systems of points
in space. Phil. Mag.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of
tests. Psychometrika, 16, 297-334. doi: 10.1007/bf02310555
Cohen, J. (1988). Statistical power analysis for the behavioral sciences
(2nd ed.). Mahwah, NJ: Erlbaum.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests.
Psychometrika, 16, 297-334. doi: 10.1007/bf02310555
Curran, P., West, S., & Finch, J. (1996). The robustness of test statistics
to nonnormality and specification error in confirmatory factor
analysis. Psychological Methods, 1(1), 16-29. doi:
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of
tests. Psychometrika, 16, 297-334. doi: 10.1007/bf02310555
Curran, P., West, S., & Finch, J. (1996). The robustness of test statistics
to nonnormality and specification error in confirmatory factor
analysis. Psychological Methods, 1(1), 16-29. doi:10.1037/1082-989X.1.1.16
Edwards, W., Lindman, H., & Savage, L. J. (1963). Bayesian statistical
inference for psychological research. Psychological Review, 70(3),
193-242. doi: 10.1037/h0044139
Efron, B., & Tibshirani, R. J. (1994). An introduction to the bootstrap.
London: Chapman Hall.Beaujean
Little, T. D., Cunningham, W. A., Shahar, G., & Widaman, K. F. (2002).
To parcel or not to parcel: Exploring the question, weighing the
merits. Structural Equation Modeling, 9(2), 151-173. doi:10.1207/s15328007sem0902
1Loehlin, J. C. (2004). Latent variable models: An introduction to factor,
path, and structural equation analysis (4th ed.). Mahwah, NJ:
Erlbaum.
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental tests.
Reading, MA: Addison-Wesley.
McDonald, R. P. (1999). Test theory: A unified treatment. Mahwah, NJ:
Erlbaum.
McIver, J. P., Carmines, E. G., & Zeller, R. A. (1980). Multiple indicators
(Appendix). In R. A. Zeller & E. G. Carmines (Eds.), Measurement
in the social sciences (p. 162-185). Cambridge, UK: Cambridge
University Press.
Little, T. D., Cunningham, W. A., Shahar, G., & Widaman, K. F. (2002).
To parcel or not to parcel: Exploring the question, weighing the
merits. Structural Equation Modeling, 9(2), 151-173. doi:
10.1207/s15328007sem0902 1
Loehlin, J. C. (2004). Latent variable models: An introduction to factor,
path, and structural equation analysis (4th ed.). Mahwah, NJ:
Erlbaum.
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental tests.
Reading, MA: Addison-Wesley.
McDonald, R. P. (1999). Test theory: A unified treatment. Mahwah, NJ:
Erlbaum.
McIver, J. P., Carmines, E. G., & Zeller, R. A. (1980). Multiple indicators
(Appendix). In R. A. Zeller & E. G. Carmines (Eds.), Measurement
in the social sciences (p. 162-185). Cambridge, UK: Cambridge
University Press.
Jolliffe, I.T. (1970). Redundant Variables in Multivariate Analysis. Unpublished
D. Phil. thesis. University of Sussex.
Jolliffe, I.T. (1972). Discarding variables in a principal component analysis
1: Artificial data. Appl. Statist., 21, 160–173.
Jolliffe, I.T. (1973). Discarding variables in a principal component analysis
II: Real data. Appl. Statist., 22, 21–31.
REGAZZI, A.J. Análise multivariada, notas de aula INF 766, Departamento de
Informática da Universidade Federal de Viçosa, v.2, 2000.

KHATTREE, R. & NAIK, D.N. Multivariate data reduction and discrimination


with SAS software. Cary, NC, USA: SAS Institute Inc., 2000. 558 p.

JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 4th


ed. Upper Saddle River, New Jersey: Prentice-Hall, 1999, 815 p.
Maiores informações :

DIORED / COMAM / GEAR / SEMAS - Secretaria de Estado de


Meio Ambiente e Sustentabilidade.

Endereço: Parque Estadual do Utinga. Av. João Paulo II, s/n,


Bairro: Curió - Utinga.

Telefone de contato: +55 +91 3184 – 3615 / 3184-3652.


Belém – Pará – Brasil

Responsável: Genardo Chaves de Oliveira e Heriberto Wagner


Amanajás Pena

Você também pode gostar