Escolar Documentos
Profissional Documentos
Cultura Documentos
INTRODUÇÃO ..................................................................................................................................... 7
EXAME TABULAR E GRÁFICO DOS DADOS ...................................................................................... 8
DADOS PERDIDOS E DADOS DERIVADOS .....................................................................................25
OBSERVAÇÕES ATÍPICAS .................................................................................................................29
TESTES DE SUPOSIÇÕES ..................................................................................................................32
TRANSFORMAÇÕES DE DADOS ...................................................................................................... 34
CONCLUSÃO......................................................................................................................................... 37
BIBLIOGRAFIA ...................................................................................................................................... 38
PROFESSOR-AUTOR ............................................................................................................................. 42
ORGANIZAÇÃO E PREPARAÇÃO DOS
DADOS PARA ANÁLISE
Neste módulo, vamos discutir a importância da organização dos dados nas análises
multivariadas, e relacionar as práticas utilizadas para organização e preparação dos dados para
análise. Com isso, é possível extrair o máximo de informações sobre os dados disponibilizados e
garantir que as análises sejam efetuadas de forma assertiva e produtiva.
Introdução
A análise multivariada de dados exige cuidados maiores do que as análises uni e bivariadas.
Primeiramente, a estratificação dos dados deve ser meticulosa. Perceba que, na análise uni/bivariada,
a escolha inapropriada dos estratos dos dados pode ter consequências como a falha em identificar
os efeitos de uma variável sobre outra ou sobre os resultados finais (por exemplo, quando a
estratificação mostrar um baixo coeficiente de correlação entre um par de variáveis, ao passo que,
se adequadamente estratificado, poderia ter sido identificada uma forte correlação entre elas). No
entanto, na análise multivariada, tratamos com relações usualmente complexas entre diversas
variáveis (inclusive, com a possibilidade de interação entre duas ou mais variáveis). Dessa forma, há
maiores exigências para identificar, compreender e interpretar as relações inferidas nas análises
multivariadas (HAIR et al., 2014).
Normalmente, o volume de dados é muito maior do que nos outros tipos de análises, o
que aumenta significativamente a complexidade das análises (a ponto de muitas só poderem ser
desenvolvidas mediante o uso de recursos computacionais), além das implicações de qualquer
erro no processo. Vejamos:
Em particular, a área de Economia e Finanças oferece grande variedade de
informações disponíveis ao público. Instituições de pesquisa como IBGE,
IPEA, Bancos Centrais, bolsas de valores e tantas outras, disponibilizam
seus dados publicamente, seja por obrigatoriedade legal, seja para o próprio
fomento da atividade de pesquisa (PERLIN, 2018, p. 3).
Nesse sentido, a própria escolha do método de análise a ser utilizado é altamente dependente
do conhecimento e inferência do pesquisador sobre as inter-relações entre as variáveis. De acordo
com Hair et al. (2014), dados perdidos, observações atípicas e as próprias características estatísticas
das variáveis, nesse tipo de análise, são mais difíceis de serem avaliados. Dessa forma, o pesquisador
deve examinar os dados disponíveis antes de iniciar sua análise, garantindo que os mesmos atendam
a todas as exigências para tal tipo de análise, produzindo resultados válidos e precisos, o que inclui
certificar-se de que dados perdidos e informações atípicas não introduzam vieses diversos na análise.
Lembre-se de que erros nos dados não levarão, necessariamente, a algum alerta de erro no
processamento ou resultado. Como no uso de uma calculadora, se você errar ao digitar determinado
valor, não haverá um alerta que o informe sobre tal erro: a calculadora apenas processará os
comandos e gerará uma resposta incorreta. Desse modo, o cuidado em adotar alguns procedimentos
e ferramentas para identificar potenciais problemas nos dados torna-se mandatório.
A seguir, iremos estudar alguns desses instrumentos:
exame tabular e gráfico dos dados;
dados perdidos e dados derivados;
observações atípicas;
testes das suposições e
transformações de dados.
8
Nesse sentido, a recomendação é que utilizemos métodos simples, fáceis de serem utilizados e
intuitivos na análise de seus resultados para fazer varreduras nos dados, de forma a ter uma compreensão
prévia dos mesmos e, até mesmo, possibilitar algumas inferências sobre os fenômenos estudados. A
tabulação dos dados é um desses recursos. Veja, por exemplo, a situação da Zezinho’s Technology –
empresa de alta tecnologia que vem enfrentando perdas substanciais nos últimos meses devido à queda
nas vendas, aumento dos gastos com garantia, bem como processos movidos por alguns clientes.
Como parte do processo de investigação pelos engenheiros e técnicos da Zezinho’s, 20 unidades
de seu principal produto, o Zézimus, foram submetidas a um teste de funcionamento, no qual variou-
se a carga elétrica a que eram submetidos, de forma a verificar o limite de carga que os Zézimus resistiam
sem falhar. A seguir, a tabela mostra a amperagem (medida de carga elétrica) que cada unidade testada
conseguiu alcançar antes de falhar. Você consegue perceber algo relevante nos dados da tabela?
Tabela 1 – Cargas
9
Provavelmente, deve ter chamado sua atenção a grande dispersão nos valores encontrados.
Repare que algumas unidades do Zézimus resistiram a mais de 200 amperes, enquanto outros
falharam com pouco mais de 20 amperes. O rearranjo dos valores na tabela torna isso ainda mais
evidente, como mostrado a seguir:
Tabela 2 – Cargas
Isso pode nos levar a pensar em algumas possibilidades sobre as reclamações dos clientes: é
possível que haja uma inconstância nos componentes do produto ou em seu processo produtivo
que fazem com que algumas unidades falhem quando em uso pelos clientes.
Comportamentos como esses também poderiam servir de base para analisar o nível de
satisfação de clientes de um restaurante, a demanda de determinado produto no mercado bem como
variações cambiais, etc. Também podemos imaginar tal tipo de análise considerando duas variáveis.
10
Hair et al. (2014) destacam ser importante não somente conhecer a distribuição das variáveis, mas
também examinar as relações entre elas, isto é, as relações entre duas ou mais variáveis.
Vamos supor que, além do teste de carga efetuado, alguns parâmetros do Zézimus foram
monitorados. Por exemplo, o tempo contínuo de utilização (em horas) e a quantidade de problemas
ocorridos durante os testes, como mostrado na tabela a seguir:
1 139 10
2 103 13
3 251 84
4 225 69
5 225 47
6 86 3
7 156 36
8 65 9
9 96 11
10 196 25
E aqui, é possível perceber alguma coisa? Note que há valores altos e baixos tanto do tempo
de utilização quanto da quantidade de problemas. No entanto, um olhar mais atento nos mostra
que parece haver uma associação (ou correlação) entre grande quantidade de horas de utilização,
com alta ocorrência de problemas, ao passo que poucas horas durante os testes estavam relacionadas
a menores incidências de problemas. Tal constatação poderia auxiliar os técnicos da Zezinho’s na
investigação das causas das reclamações dos clientes e na busca de melhorias nos seus produtos.
No entanto, tais inferências nem sempre são tão óbvias. Por exemplo, um volume maior de
dados torna praticamente impossível a identificação de padrões por mera observação das tabelas.
Além disso, se estivermos lidando, simultaneamente, com mais de duas variáveis (algo que é usual
nas análises multivariadas), tais inferências se tornam ainda mais difíceis. Veja um exemplo na tabela
que segue, referente à atividade econômica de produção de um bem (um produto eletrônico, por
exemplo). A tabela mostra, além das informações sobre os defeitos, quem foi o operador responsável
pela produção do produto, a temperatura e umidade do ambiente em que a atividade é exercida, a
tensão de utilização e o fornecedor dos insumos necessários à produção.
11
Tabela 4 – Defeitos e condições nos experimentos
12
operador temperatura tensão umidade
dia fornecedor defeitos
(rodízio) (°C) (V) (%)
13
Perceba que, apesar de não ser possível identificar o valor exato da carga em que cada amostra
testada falhou, vemos facilmente que ¼ das amostras suportou a carga de, aproximadamente, 200
amperes, ¼ resistiu até cerca de 100 amperes e metade ficou abaixo de 50 amperes. É uma visão
geral, descritiva dos resultados, muito mais rica do que havíamos conseguido com a tabela até agora.
Outro recurso gráfico valioso para estudarmos o comportamento das variáveis, quando o
conjunto de dados é maior ou igual a 30 medidas, é o histograma. Por exemplo, vejamos a análise
feita em um conjunto de 50 dados, referente à taxa de conversão do Peso Argentino para o Real ao
longo de um período de tempo, mostrado a seguir:
12,58 12,97 13,45 13,53 13,59 13,61 13,62 13,78 13,97 14,21
14,47 14,51 14,53 14,58 14,65 14,78 14,83 14,97 15,06 15,13
15,17 15,23 15,29 15,37 15,40 15,45 15,51 15,62 15,67 15,73
15,83 15,98 16,01 16,11 16,17 16,23 16,35 16,43 16,49 16,52
16,67 16,83 16,97 17,05 17,13 17,22 17,30 17,48 17,80 18,47
14
Observe outro histograma, com um perfil completamente diferente do mostrado
anteriormente. Compare os dois: que inferências você pode fazer?
15
Alternativamente, esse tipo de análise pode ser feita por meio do denominado diagrama de
ramo-e-folha, exemplificado a seguir:
5 012
5 5567777899
6 0112344444
6 5567777999
7 01144
7 55666777899
8 000122234
8 55556667777778
9 001111222333333444
9 56699999
10 00
16
Figura 1 – Exemplo de BoxPlot
17
E quanto às horas de utilização de nosso exemplo? Nesse caso, podemos elaborar um gráfico de
dispersão para analisar a correlação entre as horas e a quantidade de problemas, como mostrado a
seguir. Nele, podemos perceber uma forte correlação positiva entre a utilização e a quantidade de
problemas, algo que suspeitávamos, mas não podíamos ser assertivos até vermos isso de forma gráfica.
Vamos ver esse tipo de análise na prática? Bem, é razoável supor que as famílias com maior
renda tenham uma quantidade de aparelhos de televisão na residência superior ao das famílias de
menor renda, não é mesmo? Vamos ver se os dados coletados comprovam isso? São os dados de 30
famílias: crie um gráfico de correlação e vamos ver a que conclusão chegamos.
18
Tabela 6 – Renda familiar x quantidade de TVs
12 R$ 14.500 1
13 R$ 7.200 3
14 R$ 16.000 6
15 R$ 7.000 5
16 R$ 13.400 3
17 R$ 11.000 4
18 R$ 18.300 1
19 R$ 3.500 5
20 R$ 7.700 1
21 R$ 7.900 4
22 R$ 11.100 5
23 R$ 8.700 5
24 R$ 6.500 3
25 R$ 7.200 5
26 R$ 10.000 6
27 R$ 3.700 2
28 R$ 5.000 3
29 R$ 12.900 4
30 R$ 5.200 1
19
Resolvendo em R:
#Criando vetores com os valores da tabela
Renda<- c (5500, 3200, 8100, 6400, 11300, 22500, 6000, 26100, 16900, 9200, 11100,
14500, 7200, 16000, 7000, 13400, 11000, 18300, 3500, 7700, 7900, 11100, 8700, 6500, 7200,
10000, 3700, 5000, 12900, 5200)
QtdTV<- c (1, 2, 6, 3, 4, 3, 3, 3, 4, 1, 2, 1, 3, 6, 5, 3, 4, 1, 5, 1, 4, 5, 5, 3, 5, 6, 2, 3, 4, 1)
#Criando gráfico de pontos azuis com valores do eixo vertical variando de 0 a 7 e
#alinhados com o eixo horizontal
plot (Renda, QtdTV, main="TVs x Renda Familiar", xlab = "Renda (R$)", ylab = "TVs",
type='p', col="blue", pch=18, ylim= c (0, 7), las=1, cex=1.5)
Bem, como você pode perceber, parece que a renda familiar não tem, de fato, muita influência
sobre a quantidade de aparelhos de TV. Talvez, algum outro tipo de análise, que englobasse o
tamanho dos aparelhos, sua tecnologia ou o tempo de uso nos mostrasse outra realidade. É possível,
ainda, expandir o uso do diagrama de dispersão para incorporar mais uma dimensão: o gráfico de
bolhas permite visualizar a influência de duas variáveis sobre uma terceira (ou, eventualmente, se
traçado em um gráfico 3D, a influência de três variáveis sobre uma quarta).
É uma expansão do diagrama de dispersão, na qual a dimensão adicional é representada pelo
diâmetro das bolhas, como mostrado a seguir. No Gráfico 7, o preço de determinada commodity é
representado pelo diâmetro das bolhas, ou seja, preços mais altos são representados por bolhas maiores,
enquanto preços mais baixos são bolhas de menor diâmetro. Tais bolhas variam em função dos valores
de duas variáveis, por exemplo, preço dos insumos e preços internacionais da commodity. Vejamos:
20
Gráfico 7 – Gráfico de bolhas
21
Para perfis multivariados, a diversidade das variáveis estudadas dificulta uma representação
bidimensional ou, no máximo, tridimensional: torna-se necessário identificar formas de representar
os fenômenos em tais situações. Para tanto, há alguns recursos usualmente utilizados são:
a) Gráfico de estrela – São gerados para cada observação e englobam tantas quantas forem as
variáveis analisadas. As variáveis são representadas por eixos convergentes, de tal forma que os
comprimentos de tais eixos indiquem as medidas das variáveis. Permitem comparar as observações,
como nas imagens a seguir, que avaliam as instituições financeiras A, B e C, e, a partir daí, inferir se os
dados disponíveis podem ser utilizados para uma análise mais profunda ou se há limitações no seu uso.
22
b) Gráfico radar – São muito semelhantes ao gráfico estrela, mas sua construção é feita
para cada uma das variáveis em análise, e não para cada observação. Por isso, a interpretação dos
dados é mais difícil, tanto em termos de visualização das informações sobrepostas, como pode ser
percebido na figura a seguir, como pela representação dos dados sobre os eixos serem função da
amplitude da variável (ALBUQUERQUE, 2016).
Uma abordagem também utilizada para visualização de dados em uma análise multivariada é
transformar, matematicamente, os dados originais para representá-los graficamente. Por exemplo,
na técnica denominada de Curvas de Andrews, cada item multivariado é usado para criar uma curva
senoidal, como mostrado a seguir:
23
“A magnitude de cada variável de uma observação afeta a frequência, a amplitude e a
periodicidade da função, tornando-a única para cada objeto observado” (ALBUQUERQUE,
2006, p. 63). Dessa forma, observações com comportamento semelhante seriam representadas
por curvas assemelhadas.
Uma das formas mais pitorescas de representação gráfica de dados para análise multivariada é
a chamada Faces de Chernoff. Trata-se de representações caricatas de faces humanas com
características como o contorno facial, posição dos olhos, tamanho das pupilas, inclinação das
sobrancelhas, tamanho do nariz, a abertura, o tamanho e curvatura da boca, etc. Por exemplo, Santos
(2011) utilizou tal recurso para avaliar a produção científica no Brasil, adotando os seguintes padrões:
Altura do rosto artigos em periódicos nacionais.
Largura do Rosto artigos em periódicos internacional.
Nariz Trabalhos completos publicados em anais de eventos.
Olhos capítulos de livros.
Abertura da boca resumos em periódicos especializados.
Tamanho da boca resumos em anais.
O resultado da classificação dos dados referentes aos estados brasileiros é mostrado a seguir:
24
A princípio, as diferenças são sutis, como a altura do rosto, nariz, a abertura e o tamanho da
boca praticamente iguais em várias faces. Isso representaria diferenças mínimas em termos de
publicações em periódicos nacionais, trabalhos em anais e resumos nesses estados. No entanto,
repare que, em alguns estados, a boca está fechada, o que os caracteriza baixa produção.
Pode parecer um trabalho adicional e sem sentido coletar dados diversos e utilizá-los para
“desenhar” as faces, para interpretá-las posteriormente. No entanto, a rápida percepção do que é
parecido e do que é diferente entre elas ocorre devido à habilidade natural do ser humano em
identificar e distinguir expressões faciais (SILVA NETO, 2008), ampliando a capacidade de perceber
fenômenos diversos mediante a análise das faces, quando comparado à análise de tabelas e similares.
25
Gráfico 9 – Efeito de A sobre B
No entanto, vamos “perder” alguns dados e ver como fica o diagrama depois disso:
26
Você diria que os dois gráficos representam o mesmo fenômeno? Ou o formato de uma letra
Z na região central (A entre 50 e 80, B entre 20 e 70) o levaria a inferir a existência de alguma
perturbação – possivelmente, a influência de uma terceira variável não identificada? Bem, a
diferença entre os dois gráficos é de “apenas” sete pontos perdidos.
Como você pode perceber, decisões sobre dados perdidos não são triviais. Hair et al. (2009,
p. 58) defendem que “o pesquisador deve compreender os processos que conduzem aos dados
perdidos a fim de selecionar o curso de ação apropriado”. Isso engloba identificar se os dados
perdidos estão aleatoriamente distribuídos pelas observações ou há algum padrão. Vamos ver um
caso sobre tais considerações.
O exemplo, a seguir, mostra os dados coletados em determinada pesquisa com cinco variáveis
(V1 a V5) e 20 casos. Perceba a existência de dados perdidos.
# V1 V2 V3 V4 V5 dados perdidos
13 2,7 4 80%
27
# V1 V2 V3 V4 V5 dados perdidos
2 2 11 6 2 23
Dados Total
perdidos 10% 10% 55% 30% 10% 23%
28
Outro fator de preocupação do pesquisador é o da existência de dados derivados, isto é, dados
criados a partir da transformação de outros dados – por exemplo, data de nascimento e idade dos
respondentes de um questionário, ou a média das notas dos alunos em uma prova. Ainda que a
utilização de dados derivados possa ser conveniente para o processamento de dados, há o risco de
correlações entre dados brutos/primários, e dados derivados serem interpretados como fenômenos
específicos, quando, na realidade, são reflexo de mera operação matemática.
Observações atípicas
Outro aspecto que deve ser observado pelo pesquisador nos dados existentes, antes de aplicar
as ferramentas de análise multivariada, é a das chamadas observações atípicas. Elas são medidas que,
nitidamente, destoam das demais, seja por apresentarem valores muito mais altos ou muito mais
baixos do que os demais, ou parecerem não fazer parte do grupo de medidas que foram coletadas.
Obviamente, não há a expectativa de termos dados que são perfeitamente “encaixados” nos
demais e inteiramente previsíveis e regulares, visto que, de forma geral, qualquer processo está
submetido às chamadas causas comuns, isto é, pequenas variações inerentes aos próprios processos
ou fenômenos diversos. Por exemplo, quando tentamos manter uma velocidade constante ao dirigir
um automóvel em uma pista, na realidade, estamos alternando velocidades um pouco acima e um
pouco abaixo do que queremos manter. O mesmo acontece quando regulamos a temperatura de
um aparelho de ar condicionado. Da mesma forma, quando identificamos uma tendência de
aumento ou queda de preços por conta de um aumento ou queda na demanda por um bem, seria
ilusório supor que todos os preços praticados seguiriam, exatamente, a mesma proporção: a
tendência identificada representa uma média das variações e, ao redor da mesma, alguns preços
variariam em proporções diferentes.
Por exemplo, observe o gráfico a seguir, que apresenta os resultados de uma amostra de 20
observações sobre a renda familiar em um bairro.
29
Representações gráficas facilitam visualizar situações como essa (também pode-se optar por
calcular limites de controle em quantidades de desvios-padrões, como utilizados nas cartas de
controle de processos, ou converter os dados em valores padronizados, de média zero e desvio
padrão igual a 1). É fácil perceber que há uma variação nos dados sobre a renda, mas,
principalmente, que a renda da família F é muito superior às das demais famílias. Por quê?
Essa pergunta deve ser fonte de análise do pesquisador: será que, de fato, trata-se de uma família
com renda muito superior às demais? Ou será que foi um erro na coleta e registro dos dados (por
exemplo, um erro na digitação das casas decimais, o que fez com que uma renda mensal de pouco
mais de R$ 5.000,00 fosse apresentada como acima de R$ 500.000,00). A resposta vai indicar se
tratar de um dado válido ou não, isto é, se deve ou não ser considerado na análise multivariada.
Não há uma forma única para analisar tal situação e identificar a razão da observação
atípica: é necessário que o pesquisador tenha profundo conhecimento sobre o fenômeno que
está sendo estudado para poder efetuar tal julgamento. Também pode ser necessário que ele
inicie um processo de investigação, a fim de fazer qualquer inferência sobre o ocorrido. Algumas
possibilidades (HAIR et al., 2014):
Ocorrência de um erro processual (por exemplo, a digitação dos valores). Nesse caso, os
valores devem ser eliminados ou tratados como dados perdidos (ver tópico “Dados perdidos
e dados derivados” do módulo 1).
A observação se deve a um evento extraordinário (por exemplo, a família foi ganhadora
de um prêmio na loteria). Nessa situação, o pesquisador deve avaliar se o dado deve ser
considerado ou não, dependendo do que ele busca estudar e analisar. Por exemplo, se o
estudo envolve o cálculo da média das rendas familiares, o valor extremo identificado vai
“puxar a média para cima”, de tal forma que ela seja muito superior ao que seria se tal
valor não existisse. Desse modo, se o fenômeno a ser estudado envolve, por exemplo, o
poder de compra das famílias no bairro, para efeito de lançamento de um novo produto,
pode ser mais interessante descartar tal dado.
Por outro lado, a observação atípica pode ser real, válida, mas sem que haja uma
explicação para ela. Nesse caso, o pesquisador deve utilizar seu discernimento para
estabelecer um curso de ação: o dado deve ser considerado ou não? É importante ter em
mente que, nesses casos, a falta de uma justificativa não deve ser, necessariamente, motivo
para exclusão dos dados. Por exemplo, a observação atípica pode-se dever a um novo
fenômeno, ainda desconhecido, mas emergente, e que levará a modificações diversas no
futuro (por exemplo, a família pode ter descoberto um filão de ouro em seu quintal, algo
ainda desconhecido pelos demais vizinhos e moradores do bairro).
30
Há ainda outra forma possível de observação atípica: valores que não são muito altos ou
muito baixos, mas destoam em uma combinação de valores entre variáveis, como se pode observar
no exemplo a seguir.
Observe que, exceto por um ponto, o gráfico apresenta uma clara correlação positiva entre
duas variáveis. Tal ponto seria caracterizado como uma observação atípica, e a recomendação dada
por Hair et al. (2014) é a de descartar tal dado, a não ser que haja fortes argumentos que justifiquem
a manutenção do mesmo na análise multivariada.
Uma variante que pode ser utilizada ao diagrama de dispersão é o denominado gráfico de
influência (influence plot). Trata-se de um gráfico de bolhas em que a terceira dimensão (o
diâmetro das bolhas) varia em função da influência de cada medida sobre a relação entre as
variáveis (HAIR et al., 2014).
As observações atípicas devem ser analisadas e interpretadas: elas trazem informações novas
sobre fenômenos que não seriam identificados sem tal análise (ou seja, não eliminar casos
simplesmente pelo fato de eles serem diferentes dos demais), elas representam dados ou, de fato,
não representam uma população e, dessa forma, podem distorcer as análises posteriores?
Com maior quantidade de variáveis, um recurso para análise é a análise em pares (por
exemplo, na matriz de dispersão). No entanto, quando lidamos com grande quantidade de variáveis,
são necessários outros recursos, pois o aumento da quantidade de gráficos a ser analisada é
significativo. Hair et al. (2014) sugere o uso da distância de Mahalanobis, que mede a distância de
cada observação a partir de um centro “médio” de todas as observações, ponderando-as pela
diferença à amplitude de variação na direção do ponto de teste, de tal forma que valores extremos
seriam identificados como observações mais afastadas da distribuição geral.
31
Testes de suposições
Uma vez que tenham sido analisados os dados perdidos e as observações atípicas, temos uma
base de dados “limpa”, pronta para análise. No entanto, ainda é necessário testar os dados quanto
à aderência dos mesmos às premissas (suposições) das inferências estatísticas contidas nas técnicas
multivariadas: normalidade, homocedasticidade, linearidade e ausência de erros
correlacionados. A seguir, vejamos cada uma delas:
32
Como teste de homocedasticidade, é utilizado o teste de Levene, que usa o desvio absoluto das
observações em cada tratamento para a mediana do tratamento, determinando se a média desses desvios
é a mesma para todos os tratamentos (MINITAB, s.d.), ou o teste M de Box, que compara a variação
em várias amostras.
Hair et al. (2014) destacam que a maioria dos casos de heteroscedasticidade é resultado de não
normalidade em uma ou mais variáveis. Consequentemente, “corrigir” o problema de não linearidade
costuma sanar tal dificuldade.
c) Linearidade – Uma vez que correlações estabelecem apenas associações lineares entre
variáveis, a existência de relações não lineares não é considerada nos cálculos de correlação, o que pode
subestimar o valor de correlação. A verificação da existência de relações não lineares pode ser observada
mediante a construção de diagramas de correlação, como exemplificado a seguir.
33
envolve o fenômeno da correlação entre os dados se não for estabelecido um intervalo bastante razoável
entre as coletas de informações. Mesmo uma mudança acentuada na temperatura de ajuste não fará com
que a temperatura ambiente oscile muito. Desse modo, a percepção de conforto ou desconforto é
influenciada pela medida anterior, simplesmente, pelo fato de que não houve tempo suficiente para que a
temperatura ambiente se estabilizasse em um novo patamar a partir do ajuste do ar condicionado.
Também é importante analisar se o efeito combinado de duas ou mais variáveis (por exemplo, a
umidade relativa do ar, a velocidade do vento, etc.) pode gerar tal tipo de problema. É recomendado que
variáveis “suspeitas” sejam agrupadas e os grupos examinados em busca de padrões (HAIR et al., 2014).
Transformações de dados
A violação das suposições pode ser controlada pela transformação dos dados. Tal transformação não
se trata, exatamente, de alterar os dados coletados, mas algo como “utilizar outra escala” para permitir que
a análise possa ser desenvolvida de forma adequada. Podemos fazer uma analogia com a substituição de
medidas em metros para quilômetros, quando estudamos distâncias entre cidades, ou substituir medidas
de ângulo máximo que as rodas de um automóvel podem esterçar (girar para manobras) por medidas de
distância mínima para se conseguir executar determinada manobra. Nesse contexto, Hair et al. (2009, p.
89) estabelecem algumas regras sobre quando as transformações devem ocorrer:
Para julgar o impacto potencial de uma transformação, calcule a proporção entre média da variável
e seu desvio padrão:
Efeitos perceptíveis devem ocorrer quando a proporção é menor do que 4.
Quando a transformação puder ser realizada em qualquer uma das duas variáveis, escolha a
variável com menor proporção.
As transformações podem mudar a interpretação das variáveis. Por exemplo, transformar variáveis
calculando seu logaritmo traduz a relação de uma medida de mudança proporcional (elasticidade).
Sempre se assegure de explorar, meticulosamente, as interpretações possíveis das variáveis
transformadas.
Use variáveis em seu formato original (não transformadas) quando caracterizar ou interpretar
resultados.
34
Alguns recursos são sugeridos por Hair et al. (2014) para a transformação de dados são:
inversão (1/Y ou 1/X) para distribuições “achatadas” ou não simétricas (não normais),
heteroscedasticidade e não linearidade;
radiciação, exponenciação ou logaritmos, para distribuições assimétricas,
heteroscedasticidade e não linearidade, e
variáveis adicionais para representar componentes não lineares.
Com isso, concluímos o primeiro módulo de nossa disciplina, no qual você pôde observar o
quão importante é o cuidado com os dados utilizados nas análises multivariadas. Devido à
complexidade e abrangência de tais análises, a utilização de dados inapropriados – incompletos,
incorretos de alguma forma, ou não representativos das relações de causa e efeito entre variáveis –
podem gerar vieses que comprometem toda a análise e, muitas vezes, são de difícil detecção. Por
isso, antes da utilização, os dados precisam ser analisados, organizados e tratados, de forma a garantir
um bom processo de análise e suporte aos processos de tomada de decisão. Para isso, utilizamos
uma das diversas técnicas e ferramentas de análise multivariada.
35
36
CONCLUSÃO
Chegamos ao final de nossa disciplina, por meio da qual você tomou conhecimento sobre os
fundamentos da Análise Multivariada. A partir da compreensão de tais fundamentos, você está
capacitado a continuar explorando as possibilidades de tais técnicas: conhecer ferramentas,
aplicações, usos em diferentes áreas de estudo e contextos, etc. A Análise Multivariada é um tema
em franco crescimento e a cada dia novos métodos, softwares e aplicações surgem. Big Data e
Inteligência Artificial são alguns exemplos de inovações viabilizadas por tais desenvolvimentos.
Desse modo, caro aluno, incentivamos que você continue a explorar as técnicas de Análise
Multivariada, seja parte desse movimento e amplie seu conhecimento e suas competências!
BIBLIOGRAFIA
ALBUQUERQUE, Eduardo Rui Viana Barbas. A representação gráfica de dados multivariados como
instrumento de apoio à análise econômica e financeira: uma adaptação dos rostos de Chernoff na
representação gráfica da informação contabilística. 2016. 400 p. Tese (Doutorado em Gestão).
Universidade Lusíada de Lisboa, Faculdade de Ciências da Economia e da Empresa, Lisboa, 2016.
COSTA, Antonio Fernando Branco; EPPRECHT, Eugenio Kahn; CARPINETTI, Luiz César
Ribeiro. Controle Estatístico de Qualidade. 2. ed. São Paulo: Atlas, 2016.
FÁVERO, Luiz Paulo; BELFIORE, Patrícia. Análise de Dados: técnicas multivariadas exploratórias
com SPSS e STATA. Rio de Janeiro: Elsevier, 2015.
FOGLIATTO, Fávio Sanson; RIBEIRO, José Luis Duarte. Confiabilidade e manutenção industrial.
Rio de Janeiro: Elsevier, 2009.
GIOLO, Suely Ruiz. Introdução à análise de dados categóricos com aplicações. São Paulo: Blucher, 2017.
HAIR Jr., Joseph F.; BLACK, William C.; BABIN, Barry J.; ANDERSON, Rolph E. THATAM,
Ronald. Análise Multivariada de Dados. 6. ed. Porto Alegre: Bookman, 2009.
HAIR Jr., Joseph F.; BLACK, William C.; BABIN, Barry J.; ANDERSON, Rolph E. Multivariate
Data Analysis. Seventh Edition. Essex: Pearson Education, 2014.
LARSON, Ron; FARBER, Betsy. Estatística Aplicada. 4. ed. São Paulo: Pearson, 2010.
NAVIDI, Willian. Probabilidade e estatística para Ciências Exatas. Porto Alegre: AMGH, 2012.
PERLIN, Marcelo S. Processamento e análise de dados financeiros e econômicos com o R. 2. ed. Porto
Alegre: Amazon-KDP, 2018.
38
ROCHA, Henrique Martins. Controle estatístico da qualidade. Rio de Janeiro: Fundação CECIERJ,
2019.
SANTOS, Levi Alã Neves dos. Contribuição da mineração de dados e da otimização heurística para
a interpretação dos dados da produção científica brasileira. 2011. 114 p. Dissertação (Mestrado em
Ciência da Informação). Universidade Federal da Bahia. Instituto de Ciência da Informação.
Salvador, 2011.
SILVA NETO, Marco Aurélio. Mineração visual de dados: extração do conhecimento a partir das
técnicas de visualização da informação e mineração de dados. 2008. 172 p. Dissertação (Mestrado).
Universidade Federal do Paraná – UFPR. Curitiba, 2008.
WALPOLE, Ronald E.; MYERS, Raymond H.; MYERS, Sharon L.; YE, Keying. Probabilidade &
estatística para Engenharia e Ciências. 8. ed. São Paulo: Pearson, 2009.
Bibliografia recomendada
CORRAR, Luiz J.; PAULO, Edilson; DIAS FILHO, José Maria. Análise Multivariada para os
cursos de Administração, Ciências Contábeis e Economia. São Paulo: Atlas, 2007.
A larga aplicação das técnicas multivariadas e a necessidade de disseminá-las, de forma mais
intensa, no ambiente acadêmico e no empresarial motivaram os autores a produzir este livro,
que oferece os conceitos estatísticos de forma mais objetiva e direta para o leitor, tornando-
os mais acessível aos estudantes (de graduação e de pós-graduação) da área quantitativa. Os
exemplos de natureza prática que acompanham cada capítulo, a linguagem fortemente
sintonizada com o repertório do público-alvo e os exercícios de fixação refletem a
preocupação dos autores para com o alcance e a compreensibilidade da obra.
FÁVERO, Luiz Paulo; BELFIORE, Patrícia. Análise de dados: técnicas multivariadas exploratórias
com SPSS e STATA. Rio de Janeiro: Elsevier, 2015.
O livro é voltado para pesquisadores que se interessam tanto por modelagem multivariada
quanto pela utilização desses importantes softwares para fins de aplicação prática e tomada de
decisão. A obra é formada por três capítulos, distribuídos da seguinte forma: capítulo 1 –
Análise de agrupamentos; capítulo 2 – Análise fatorial por componentes principais e capítulo
3 – Análise de correspondência simples e múltipla.
39
GIOLO, Suely Ruiz. Introdução à análise de dados categóricos com aplicações. São Paulo:
Blucher, 2017.
Esse livro aborda conceitos básicos, testes e diversos modelos estatísticos propostos para a
análise de dados categóricos. Entre os modelos, podem ser citados o de regressão logística e
o de logitos cumulativos. Com o propósito de ilustrar as metodologias estatísticas
apresentadas, vários exemplos são analisados no texto.
HAIR Jr., Joseph F.; BLACK, William C.; BABIN, Barry J.; ANDERSON, Rolph E. THATAM,
Ronald. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.
Nova edição de livro consagrado na área apresenta um amplo conjunto de técnicas
estatísticas. É uma introdução sobre o assunto destinada àqueles sem formação estatística.
Os capítulos estão organizados seguindo uma progressão lógica e prática das fases de análise
e agrupando tipos de técnicas similares aplicáveis a diversas situações.
LARSON, Ron; FARBER, Betsy. Estatística aplicada. 4. ed. São Paulo: Pearson, 2010.
O objetivo dessa obra é ensinar os estudantes a utilizar o conhecimento estatístico para
retratar e descrever o mundo e, a partir disso, tomar decisões fundamentadas. Além disso,
o conteúdo do livro é integrado com o uso de ferramentas tecnológicas — Minitab, Excel
e a calculadora TI-84 Plus — e de applets interativos exclusivos, que estimulam os alunos a
investigarem conceitos estatísticos.
LATTIN, James; CARROLL, J. Douglas; GREEN, Paul E. Análise de dados multivariados. São
Paulo: Cengage Learning, 2011.
Esse livro foi elaborado pensando em um público de psicólogos, sociólogos, pesquisadores de
mercado, cientistas de gestão, que ocasionalmente necessitam de técnicas estatísticas
multivariadas para ajudá-los a realizar o seu trabalho, e não de estatísticos profissionais. Seu texto
é apurado para que as técnicas sejam aplicadas por não estatísticos de modo facilitado e didático.
40
MINGOTI, Sueli Aparecida. Análise de dados através de métodos de estatística multivariada. Belo
Horizonte: UFMG, 2005.
É um livro que visa a atender não somente aos Estatísticos mas também aos profissionais de
outras áreas que necessitam de conhecimentos de técnicas de Estatística Multivariada para
resolução de seus problemas de análise de dados.
WALPOLE, Ronald E.; MYERS, Raymond H.; MYERS, Sharon L.; YE, Keying. Probabilidade &
estatística para Engenharia e Ciências. 8. ed. São Paulo: Pearson, 2009.
Esse livro apresenta a estatística e a probabilidade sob o ponto de vista da engenharia e de
outras áreas das ciências exatas. A abordagem é bastante didática, apresentando os conceitos
de maneira abrangente e profunda por meio de uma sequência lógica e direta, material
gráfico, exemplos e exercícios que auxiliam na aprendizagem.
41
PROFESSOR-AUTOR
Henrique Martins Rocha é D.Sc. em Engenharia
Mecânica pela Universidade Estadual Paulista, com estudos pós-
doutorais em Projetos e Desenvolvimento de Novos Produtos,
pela mesma instituição. Atuou por 27 anos, no Brasil, nos USA e
no Canadá em funções executivas e técnicas, em empresas como
Xerox, White Martins, Flextronics, Remington e CBV, nas áreas
de Análise de Negócios e Estratégia Empresarial, Projetos,
Programas, Desenvolvimento e Lançamento de Produtos,
Processos, Planejamento e Controle de Produção, etc. Atua na
área acadêmica, desde 2001, como professor e coordenador de
cursos de graduação e pós-graduação e professor-tutor EaD e
MOOC. Além disso, recebeu diversos prêmios, títulos e homenagens na área acadêmica e
profissional. Orientou quase 300 trabalhos de conclusão (D.Sc., M.Sc., especialização/MBA e
graduação) e iniciação científica, e publicou quase uma centena de artigos em periódicos e anais de
eventos científicos. E é autor de três livros, coautor de seis, organizador de um, autor de 29 capítulos
de livro e revisor técnico de cerca de outros 250 nas áreas de Engenharia, Gestão de Operações e
Educação Superior.
42