Introducao A Organizacao de Dados para Analise Multivariada

INTRODUÇÃO
Os estudos estatísticos ganham importância a cada momento no

mundo atual: análises financeiras, aspectos relacionados à concessão de
crédito, análise da saúde financeira das empresas e análise de
investimentos são algumas das áreas altamente dependente da Estatística.
Também nos estudos econômicos, a influência da Estatística é cada vez
maior, com o uso dos modelos Econométricos.
Em geral, na análise de riscos em negócios, seja nas áreas de
agropecuária, de mineração, de petróleo e energia, da indústria de
transformação, de saúde, de atuária, etc., a estatística faz parte do dia-a-
dia dos profissionais. No entanto, os últimos anos trouxeram um novo
fator: a evolução das tecnologias da informação e comunicação, através
da expansão da Internet, da tecnologia de armazenagem de dados, etc., o
que fez com que o volume de informações geradas e que precisam ser
processadas a cada momento alcançasse patamares nunca antes igualados.
Por conta disso, os volumes de dados nos estudos estatísticos
também cresceram, e os métodos tradicionais mostraram-se incapazes de
lidar com tanta informação ao mesmo tempo. Nesse contexto, surgiram
as denominadas técnicas de análise multivariada – ferramentas estatísticas
que lidam com grande volume de dados, oriundas de fontes diversas e
recebidas em diferentes formatos. As informações a serem extraídas da
massa de dados também são mais complexas: pequenas nuances ou
perturbações nos dados podem significar o início de fenômenos de
grande abrangência, exigindo plana e rápida compreensão dos gestores
para suporte às decisões de negócio a serem tomadas.
Nesse mundo novo, a era da comunicação exige que os
profissionais conheçam os fundamentos das técnicas de análise
multivariada, de forma a estarem habilitados a acompanhar o ritmo
evolutivo e serem capazes de prover respostas rápidas e assertivas aos
novos desafios que surgem. É justamente isso o que será trazido na
disciplina Fundamentos da Análise Multivariada de Dados: a
descrição da lógica envolvida, desde a seleção e preparação dos dados,
até a discussão da técnica mais conhecida e uma das mais relevantes:
a regressão múltipla.
Nesse sentido, esta disciplina visa oferecer reflexões e possibilidades de aplicação de técnicas
de análise multivariada para suportar o processo decisório nas organizações. Para tal, iremos
identificar os conceitos fundamentais da análise multivariada, e relacionar as técnicas de análise
multivariada com as informações e as decisões no ambiente de negócios.
SUMÁRIO
ORGANIZAÇÃO E PREPARAÇÃO DOS DADOS PARA ANÁLISE ........................................................... 7
INTRODUÇÃO ..................................................................................................................................... 7
EXAME TABULAR E GRÁFICO DOS DADOS ...................................................................................... 8
DADOS PERDIDOS E DADOS DERIVADOS .....................................................................................25
OBSERVAÇÕES ATÍPICAS .................................................................................................................29
TESTES DE SUPOSIÇÕES ..................................................................................................................32
TRANSFORMAÇÕES DE DADOS ...................................................................................................... 34
CONCLUSÃO......................................................................................................................................... 37
BIBLIOGRAFIA ...................................................................................................................................... 38
Bibliografia recomendada ...................................................................................................... 39
PROFESSOR-AUTOR ............................................................................................................................. 42
ORGANIZAÇÃO E PREPARAÇÃO DOS
DADOS PARA ANÁLISE
Neste módulo, vamos discutir a importância da organização dos dados nas análises
multivariadas, e relacionar as práticas utilizadas para organização e preparação dos dados para
análise. Com isso, é possível extrair o máximo de informações sobre os dados disponibilizados e
garantir que as análises sejam efetuadas de forma assertiva e produtiva.
Introdução
A análise multivariada de dados exige cuidados maiores do que as análises uni e bivariadas.
Primeiramente, a estratificação dos dados deve ser meticulosa. Perceba que, na análise uni/bivariada,
a escolha inapropriada dos estratos dos dados pode ter consequências como a falha em identificar
os efeitos de uma variável sobre outra ou sobre os resultados finais (por exemplo, quando a
estratificação mostrar um baixo coeficiente de correlação entre um par de variáveis, ao passo que,
se adequadamente estratificado, poderia ter sido identificada uma forte correlação entre elas). No
entanto, na análise multivariada, tratamos com relações usualmente complexas entre diversas
variáveis (inclusive, com a possibilidade de interação entre duas ou mais variáveis). Dessa forma, há
maiores exigências para identificar, compreender e interpretar as relações inferidas nas análises
multivariadas (HAIR et al., 2014).
Normalmente, o volume de dados é muito maior do que nos outros tipos de análises, o
que aumenta significativamente a complexidade das análises (a ponto de muitas só poderem ser
desenvolvidas mediante o uso de recursos computacionais), além das implicações de qualquer
erro no processo. Vejamos:
Em particular, a área de Economia e Finanças oferece grande variedade de
informações disponíveis ao público. Instituições de pesquisa como IBGE,
IPEA, Bancos Centrais, bolsas de valores e tantas outras, disponibilizam
seus dados publicamente, seja por obrigatoriedade legal, seja para o próprio
fomento da atividade de pesquisa (PERLIN, 2018, p. 3).
Nesse sentido, a própria escolha do método de análise a ser utilizado é altamente dependente
do conhecimento e inferência do pesquisador sobre as inter-relações entre as variáveis. De acordo
com Hair et al. (2014), dados perdidos, observações atípicas e as próprias características estatísticas
das variáveis, nesse tipo de análise, são mais difíceis de serem avaliados. Dessa forma, o pesquisador
deve examinar os dados disponíveis antes de iniciar sua análise, garantindo que os mesmos atendam
a todas as exigências para tal tipo de análise, produzindo resultados válidos e precisos, o que inclui
certificar-se de que dados perdidos e informações atípicas não introduzam vieses diversos na análise.
Lembre-se de que erros nos dados não levarão, necessariamente, a algum alerta de erro no
processamento ou resultado. Como no uso de uma calculadora, se você errar ao digitar determinado
valor, não haverá um alerta que o informe sobre tal erro: a calculadora apenas processará os
comandos e gerará uma resposta incorreta. Desse modo, o cuidado em adotar alguns procedimentos
e ferramentas para identificar potenciais problemas nos dados torna-se mandatório.
A seguir, iremos estudar alguns desses instrumentos:
 exame tabular e gráfico dos dados;
 dados perdidos e dados derivados;
 observações atípicas;
 testes das suposições e
 transformações de dados.
Exame tabular e gráfico dos dados

A análise multivariada busca identificar padrões em dados, de tal forma a explicar
comportamentos, tendências, similaridades e associações, de modo a permitir compreender
fenômenos, fazer predições e suportar o processo de tomada de decisões em negócios (FÁVERO;
BELFIORE, 2015). Para tanto, os dados devem ser confiáveis, ou seja, devemo-nos certificar de
que não serão utilizadas ferramentas e métodos potentes para analisar dados “errados”. Desse modo,
é preciso compreender a natureza e o comportamento das variáveis com que trabalhamos. De
acordo com Hair et al. (2014), o ponto de partida para tal análise é caracterizar a distribuição dos
valores disponíveis de cada variável, isto é, o perfil univariado.
8
Nesse sentido, a recomendação é que utilizemos métodos simples, fáceis de serem utilizados e
intuitivos na análise de seus resultados para fazer varreduras nos dados, de forma a ter uma compreensão
prévia dos mesmos e, até mesmo, possibilitar algumas inferências sobre os fenômenos estudados. A
tabulação dos dados é um desses recursos. Veja, por exemplo, a situação da Zezinho’s Technology –
empresa de alta tecnologia que vem enfrentando perdas substanciais nos últimos meses devido à queda
nas vendas, aumento dos gastos com garantia, bem como processos movidos por alguns clientes.
Como parte do processo de investigação pelos engenheiros e técnicos da Zezinho’s, 20 unidades
de seu principal produto, o Zézimus, foram submetidas a um teste de funcionamento, no qual variou-
se a carga elétrica a que eram submetidos, de forma a verificar o limite de carga que os Zézimus resistiam
sem falhar. A seguir, a tabela mostra a amperagem (medida de carga elétrica) que cada unidade testada
conseguiu alcançar antes de falhar. Você consegue perceber algo relevante nos dados da tabela?
Tabela 1 – Cargas
amostra carga (amperes)

1 31
2 88
3 31
4 199
5 30
6 241
7 28
8 238
9 194
10 71
11 29
12 36
13 24
14 44
15 37
16 44
17 215
18 102
19 126
20 107
Fonte: autoria própria.
9
Provavelmente, deve ter chamado sua atenção a grande dispersão nos valores encontrados.
Repare que algumas unidades do Zézimus resistiram a mais de 200 amperes, enquanto outros
falharam com pouco mais de 20 amperes. O rearranjo dos valores na tabela torna isso ainda mais
evidente, como mostrado a seguir:
Tabela 2 – Cargas
amostra carga (amperes)

6 241
8 238
17 215
4 199
9 194
19 126
20 107
18 102
2 88
10 71
14 44
16 44
15 37
12 36
1 31
3 31
5 30
11 29
7 28
13 24
Isso pode nos levar a pensar em algumas possibilidades sobre as reclamações dos clientes: é
possível que haja uma inconstância nos componentes do produto ou em seu processo produtivo
que fazem com que algumas unidades falhem quando em uso pelos clientes.
Comportamentos como esses também poderiam servir de base para analisar o nível de
satisfação de clientes de um restaurante, a demanda de determinado produto no mercado bem como
variações cambiais, etc. Também podemos imaginar tal tipo de análise considerando duas variáveis.
10
Hair et al. (2014) destacam ser importante não somente conhecer a distribuição das variáveis, mas
também examinar as relações entre elas, isto é, as relações entre duas ou mais variáveis.
Vamos supor que, além do teste de carga efetuado, alguns parâmetros do Zézimus foram
monitorados. Por exemplo, o tempo contínuo de utilização (em horas) e a quantidade de problemas
ocorridos durante os testes, como mostrado na tabela a seguir:
Tabela 3 – Tempo de utilização e quantidade de problemas
tempo de utilização quantidade de

experimento
contínua (h) problemas
1 139 10
2 103 13
3 251 84
4 225 69
5 225 47
6 86 3
7 156 36
8 65 9
9 96 11
10 196 25
E aqui, é possível perceber alguma coisa? Note que há valores altos e baixos tanto do tempo
de utilização quanto da quantidade de problemas. No entanto, um olhar mais atento nos mostra
que parece haver uma associação (ou correlação) entre grande quantidade de horas de utilização,
com alta ocorrência de problemas, ao passo que poucas horas durante os testes estavam relacionadas
a menores incidências de problemas. Tal constatação poderia auxiliar os técnicos da Zezinho’s na
investigação das causas das reclamações dos clientes e na busca de melhorias nos seus produtos.
No entanto, tais inferências nem sempre são tão óbvias. Por exemplo, um volume maior de
dados torna praticamente impossível a identificação de padrões por mera observação das tabelas.
Além disso, se estivermos lidando, simultaneamente, com mais de duas variáveis (algo que é usual
nas análises multivariadas), tais inferências se tornam ainda mais difíceis. Veja um exemplo na tabela
que segue, referente à atividade econômica de produção de um bem (um produto eletrônico, por
exemplo). A tabela mostra, além das informações sobre os defeitos, quem foi o operador responsável
pela produção do produto, a temperatura e umidade do ambiente em que a atividade é exercida, a
tensão de utilização e o fornecedor dos insumos necessários à produção.
11
Tabela 4 – Defeitos e condições nos experimentos
operador temperatura tensão umidade

dia fornecedor defeitos
(rodízio) (°C) (V) (%)
1 Carlos 25 129 78 SuperPower 51
2 Eduardo 24 118 44 Fênix 2
3 Bernardo 22 119 59 Alfa 21
4 Carlos 26 109 81 Alfa 60
5 Eduardo 27 125 84 XYZ 51
6 Alberto 27 127 72 Alfa 60
7 Bernardo 29 135 59 XYZ 35
8 Carlos 31 133 61 Fênix 50
9 Carlos 30 112 77 Fênix 55
10 Davi 31 114 44 Fênix 7
11 Bernardo 29 110 78 Alfa 42
12 Carlos 25 124 57 Phanton 44
13 Carlos 24 123 78 SuperPower 55
14 Geraldo 28 132 41 XYZ 4
15 Bernardo 29 122 53 XYZ 34
16 Alberto 32 131 42 SuperPower 7
17 Geraldo 32 114 73 Alfa 46
19 Bernardo 36 109 69 Fênix 42
20 Geraldo 31 124 55 Fênix 15
21 Alberto 27 128 46 Alfa 10
22 Davi 28 118 52 Alfa 13
23 Carlos 26 125 80 Phanton 84
24 Carlos 25 133 75 Alfa 69
12
operador temperatura tensão umidade
dia fornecedor defeitos
(rodízio) (°C) (V) (%)
25 Bernardo 26 122 52 XYZ 47
26 Geraldo 25 111 48 Phanton 3
27 Davi 24 128 52 Alfa 36
29 Bernardo 24 129 62 Phanton 11
30 Eduardo 23 127 62 SuperPower 25
Para tais situações, é conveniente recorrermos a representações e ferramentas gráficas. Você

já ouviu que “uma imagem vale mais do que mil palavras”? Isso se baseia na elevada capacidade do
cérebro humano de processar informações visuais: o agrupamento visual, a apresentação de escalas,
a facilidade na percepção de tendências permite que os gráficos nos transmitam muito mais
informação do que as tabelas. Com isso, facilitam a compreensão e memorização devido à
capacidade humana para recordar padrões visuais, que é superior à capacidade para lembrar textos
e números (LARSON & FARBER, 2010; ALBUQUERQUE, 2016).
Isso é curioso, uma vez que, de forma geral, os gráficos têm menos precisão nas informações
do que as tabelas. Por exemplo, não conseguimos enxergar valores ou alterações muito pequenas ou
diferenças entre valores que estejam “nas casas decimais”. No entanto, é justamente essa menor
precisão que nos permite ter uma visão mais abrangente.
Vejamos a representação gráfica dos resultados das 20 amostras do Zézimus no teste de carga:
Gráfico 1 – Cargas de falha
13
Perceba que, apesar de não ser possível identificar o valor exato da carga em que cada amostra
testada falhou, vemos facilmente que ¼ das amostras suportou a carga de, aproximadamente, 200
amperes, ¼ resistiu até cerca de 100 amperes e metade ficou abaixo de 50 amperes. É uma visão
geral, descritiva dos resultados, muito mais rica do que havíamos conseguido com a tabela até agora.
Outro recurso gráfico valioso para estudarmos o comportamento das variáveis, quando o
conjunto de dados é maior ou igual a 30 medidas, é o histograma. Por exemplo, vejamos a análise
feita em um conjunto de 50 dados, referente à taxa de conversão do Peso Argentino para o Real ao
longo de um período de tempo, mostrado a seguir:
Tabela 5 – Valores de conversão do Peso Argentino
12,58 12,97 13,45 13,53 13,59 13,61 13,62 13,78 13,97 14,21
14,47 14,51 14,53 14,58 14,65 14,78 14,83 14,97 15,06 15,13
15,17 15,23 15,29 15,37 15,40 15,45 15,51 15,62 15,67 15,73
15,83 15,98 16,01 16,11 16,17 16,23 16,35 16,43 16,49 16,52
16,67 16,83 16,97 17,05 17,13 17,22 17,30 17,48 17,80 18,47
Fonte: adaptado de Lozada (2017, p. 34).
Construindo o histograma com tais dados, podemos perceber que a distribuição de

frequências se aproxima de uma curva normal, caracterizando uma aleatoriedade dos valores ao
redor de um valor central. Vejamos:
Gráfico 2 – Distribuição dos valores
14
Observe outro histograma, com um perfil completamente diferente do mostrado
anteriormente. Compare os dois: que inferências você pode fazer?
Gráfico 3 – Exemplo de histograma
Fonte: Autoria própria.
Como podemos perceber, o gráfico mostra um histograma descentralizado e, principalmente,

um perfil bimodal, o que pode ser causado por dados “misturados” – como dados de duas populações
claramente distintas, peso de homens e mulheres, dois lotes diferentes de matéria-prima, taxa de
conversão para compra e para venda da moeda, etc. Observe, também, como o perfil formado pelas
colunas está bastante diferente da curva normal que foi sobreposta, indicando não aleatoriedade.
15
Alternativamente, esse tipo de análise pode ser feita por meio do denominado diagrama de
ramo-e-folha, exemplificado a seguir:
Gráfico 4 – Exemplo de diagrama de rame-e-folha
5 012
5 5567777899
6 0112344444
6 5567777999
7 01144
7 55666777899
8 000122234
8 55556667777778
9 001111222333333444
9 56699999
10 00
Fonte: Hair et al. (2009, p.54).
Uma limitação no uso do histograma ou no diagrama de ramo-e-folha é o de necessitar de,

ao menos, 30 dados. Abaixo dessa quantidade, a visualização de fenômenos com poucos dados é
difícil. Nesses casos, a recomendação é de trabalhar com outra ferramenta – o BoxPlot (ou caixa de
medianas, ou ainda gráfico de caixas). Trata-se de um resumo gráfico dos quartis dos dados, na
forma de um retângulo cujas faces superior e inferior representam, respectivamente, o primeiro e
terceiro quartil dos dados, enquanto a mediana (segundo quartil) separa o retângulo em duas partes
e as extensões (chamadas whiskers) representam os limites superior e inferior da distribuição, como
mostrado na figura a seguir:
16
Figura 1 – Exemplo de BoxPlot
Quando a mediana está “descentralizada”, isto é, claramente mais próxima do primeiro ou

do terceiro quartil, está caracterizada a assimetria da distribuição. Também, os comprimentos dos
whiskers excessivamente longos ou curtos caracterizam a não normalidade na distribuição dos dados,
ao passo que pontos além dos limites indicam outliers, isto é, observações atípicas.
A utilização de boxplots permite analisar diversos fenômenos e características dos dados,
inclusive a “mistura” de duas populações distintas, como exemplificado na imagem a seguir.
Observe que os dados de dois grupos distintos estão misturados, apresentando o boxplot à esquerda.
A forma do mesmo levou a uma análise mais completa, na qual foi identificada a existência dos dois
grupos, que foram desmembrados e estão representados nos demais boxplots.
Figura 2 – Grupos misturados e BoxPlots separados
17
E quanto às horas de utilização de nosso exemplo? Nesse caso, podemos elaborar um gráfico de
dispersão para analisar a correlação entre as horas e a quantidade de problemas, como mostrado a
seguir. Nele, podemos perceber uma forte correlação positiva entre a utilização e a quantidade de
problemas, algo que suspeitávamos, mas não podíamos ser assertivos até vermos isso de forma gráfica.
Gráfico 5 – Diagrama de dispersão
Vamos ver esse tipo de análise na prática? Bem, é razoável supor que as famílias com maior
renda tenham uma quantidade de aparelhos de televisão na residência superior ao das famílias de
menor renda, não é mesmo? Vamos ver se os dados coletados comprovam isso? São os dados de 30
famílias: crie um gráfico de correlação e vamos ver a que conclusão chegamos.
18
Tabela 6 – Renda familiar x quantidade de TVs
amostra renda familiar Qde TVs

1 R$ 5.500 1
2 R$ 3.200 2
3 R$ 8.100 6
4 R$ 6.400 3
5 R$ 11.300 4
6 R$ 22.500 3
7 R$ 6.000 3
8 R$ 26.100 3
9 R$ 16.900 4
10 R$ 9.200 1
11 R$ 11.100 2
12 R$ 14.500 1
13 R$ 7.200 3
14 R$ 16.000 6
15 R$ 7.000 5
16 R$ 13.400 3
17 R$ 11.000 4
18 R$ 18.300 1
19 R$ 3.500 5
20 R$ 7.700 1
21 R$ 7.900 4
22 R$ 11.100 5
23 R$ 8.700 5
24 R$ 6.500 3
25 R$ 7.200 5
26 R$ 10.000 6
27 R$ 3.700 2
28 R$ 5.000 3
29 R$ 12.900 4
30 R$ 5.200 1
Fonte: Autoria própria.
19
Resolvendo em R:
#Criando vetores com os valores da tabela
Renda<- c (5500, 3200, 8100, 6400, 11300, 22500, 6000, 26100, 16900, 9200, 11100,
14500, 7200, 16000, 7000, 13400, 11000, 18300, 3500, 7700, 7900, 11100, 8700, 6500, 7200,
10000, 3700, 5000, 12900, 5200)
QtdTV<- c (1, 2, 6, 3, 4, 3, 3, 3, 4, 1, 2, 1, 3, 6, 5, 3, 4, 1, 5, 1, 4, 5, 5, 3, 5, 6, 2, 3, 4, 1)
#Criando gráfico de pontos azuis com valores do eixo vertical variando de 0 a 7 e
#alinhados com o eixo horizontal
plot (Renda, QtdTV, main="TVs x Renda Familiar", xlab = "Renda (R$)", ylab = "TVs",
type='p', col="blue", pch=18, ylim= c (0, 7), las=1, cex=1.5)
Gráfico 6 – Diagrama de dispersão
Bem, como você pode perceber, parece que a renda familiar não tem, de fato, muita influência
sobre a quantidade de aparelhos de TV. Talvez, algum outro tipo de análise, que englobasse o
tamanho dos aparelhos, sua tecnologia ou o tempo de uso nos mostrasse outra realidade. É possível,
ainda, expandir o uso do diagrama de dispersão para incorporar mais uma dimensão: o gráfico de
bolhas permite visualizar a influência de duas variáveis sobre uma terceira (ou, eventualmente, se
traçado em um gráfico 3D, a influência de três variáveis sobre uma quarta).
É uma expansão do diagrama de dispersão, na qual a dimensão adicional é representada pelo
diâmetro das bolhas, como mostrado a seguir. No Gráfico 7, o preço de determinada commodity é
representado pelo diâmetro das bolhas, ou seja, preços mais altos são representados por bolhas maiores,
enquanto preços mais baixos são bolhas de menor diâmetro. Tais bolhas variam em função dos valores
de duas variáveis, por exemplo, preço dos insumos e preços internacionais da commodity. Vejamos:
20
Gráfico 7 – Gráfico de bolhas
Entre os muitos tipos de diagrama de dispersão, um formato particularmente adequado às

técnicas multivariadas é a matriz de dispersão. Nessa matriz, os diagramas de dispersão são representados
para todas as combinações de variáveis na parte inferior da matriz. A diagonal contém os histogramas
das variáveis – valores acima da diagonal são correlações bivariadas (HAIR et al., 2009, p. 54-55).
Figura 3 – Matriz de dispersão
Fonte: Hair et al. (2014, p. 37).
21
Para perfis multivariados, a diversidade das variáveis estudadas dificulta uma representação
bidimensional ou, no máximo, tridimensional: torna-se necessário identificar formas de representar
os fenômenos em tais situações. Para tanto, há alguns recursos usualmente utilizados são:
a) Gráfico de estrela – São gerados para cada observação e englobam tantas quantas forem as
variáveis analisadas. As variáveis são representadas por eixos convergentes, de tal forma que os
comprimentos de tais eixos indiquem as medidas das variáveis. Permitem comparar as observações,
como nas imagens a seguir, que avaliam as instituições financeiras A, B e C, e, a partir daí, inferir se os
dados disponíveis podem ser utilizados para uma análise mais profunda ou se há limitações no seu uso.
Figura 4 – Indicadores financeiros – A Figura 5 – Indicadores financeiros – B
Fonte: autoria própria. Fonte: autoria própria.
Figura 6 – Indicadores financeiros – C
22
b) Gráfico radar – São muito semelhantes ao gráfico estrela, mas sua construção é feita
para cada uma das variáveis em análise, e não para cada observação. Por isso, a interpretação dos
dados é mais difícil, tanto em termos de visualização das informações sobrepostas, como pode ser
percebido na figura a seguir, como pela representação dos dados sobre os eixos serem função da
amplitude da variável (ALBUQUERQUE, 2016).
Figura 7 – Indicadores financeiros
Uma abordagem também utilizada para visualização de dados em uma análise multivariada é
transformar, matematicamente, os dados originais para representá-los graficamente. Por exemplo,
na técnica denominada de Curvas de Andrews, cada item multivariado é usado para criar uma curva
senoidal, como mostrado a seguir:
Gráfico 8 – Curva senoidal
Fonte: Albuquerque (2016, p. 64).
23
“A magnitude de cada variável de uma observação afeta a frequência, a amplitude e a
periodicidade da função, tornando-a única para cada objeto observado” (ALBUQUERQUE,
2006, p. 63). Dessa forma, observações com comportamento semelhante seriam representadas
por curvas assemelhadas.
Uma das formas mais pitorescas de representação gráfica de dados para análise multivariada é
a chamada Faces de Chernoff. Trata-se de representações caricatas de faces humanas com
características como o contorno facial, posição dos olhos, tamanho das pupilas, inclinação das
sobrancelhas, tamanho do nariz, a abertura, o tamanho e curvatura da boca, etc. Por exemplo, Santos
(2011) utilizou tal recurso para avaliar a produção científica no Brasil, adotando os seguintes padrões:
 Altura do rosto  artigos em periódicos nacionais.
 Largura do Rosto  artigos em periódicos internacional.
 Nariz  Trabalhos completos publicados em anais de eventos.
 Olhos  capítulos de livros.
 Abertura da boca  resumos em periódicos especializados.
 Tamanho da boca  resumos em anais.
O resultado da classificação dos dados referentes aos estados brasileiros é mostrado a seguir:
Figura 8 – Faces de Chernoff
Fonte: Santos (2011, p. 69).
24
A princípio, as diferenças são sutis, como a altura do rosto, nariz, a abertura e o tamanho da
boca praticamente iguais em várias faces. Isso representaria diferenças mínimas em termos de
publicações em periódicos nacionais, trabalhos em anais e resumos nesses estados. No entanto,
repare que, em alguns estados, a boca está fechada, o que os caracteriza baixa produção.
Pode parecer um trabalho adicional e sem sentido coletar dados diversos e utilizá-los para
“desenhar” as faces, para interpretá-las posteriormente. No entanto, a rápida percepção do que é
parecido e do que é diferente entre elas ocorre devido à habilidade natural do ser humano em
identificar e distinguir expressões faciais (SILVA NETO, 2008), ampliando a capacidade de perceber
fenômenos diversos mediante a análise das faces, quando comparado à análise de tabelas e similares.
Dados perdidos e dados derivados

A coleta dos dados a serem analisados não é um processo imune a falhas, principalmente se
levarmos em consideração o crescimento assombroso da quantidade de registros de eventos em
diferentes bancos de dados (PERLIN, 2018) que percebemos nos dias de hoje. Por exemplo, um
questionário incompleto, um erro de leitura em um sensor ou scanner, o esgotamento do tempo
disponível para a coleta de dados ou a inelegibilidade de um dado transcrito são situações em que
deixamos de dispor de todos os dados previstos e planejados para a análise. Chamamos esses dados
faltantes de dados perdidos. Tais ocorrências podem parecer simplórias e, a princípio, poderíamos
pensar em dois caminhos: (i) voltar a campo e coletar os dados faltantes ou (ii) ignorá-los e fazer
a análise com os dados disponíveis. Porém, tais decisões não devem ser tomadas sem antes
analisarmos as potenciais implicações.
Coletar dados adicionais, com o intuito de recompor uma amostra de análise, usualmente,
irá inserir vieses indesejados nos dados: a distribuição de frequências fica comprometida, pois são
inseridos dados de momentos e, eventualmente, ambientes diferentes. Por exemplo, a avaliação que
um cliente faz sobre o atendimento em um restaurante em um dia ou horário diferente das
avaliações feitas anteriormente representará uma medida de um cenário que pode ser
completamente diferente: pode haver maior ou menor volume de clientes sendo atendidos, os
garçons podem ser outros, etc. Da mesma forma, coletar dados referentes à emissão de poluentes
de motores em funcionamento pode apresentar dados “misturados”, caso parte da coleta ocorra em
um momento diferente de tempo, pois os motores podem estar mais desgastados, podem ter
passado por algum tipo de manutenção ou troca de componente, etc.
Além disso, ignorar os dados perdidos e proceder com a análise dos restantes pode
inviabilizar a análise, primeiramente, porque a redução na quantidade de dados pode
comprometer o grau de significância estatística da amostra. No entanto, também pode mascarar
determinados fenômenos. Por exemplo, observe o diagrama de correlação a seguir. Nele,
percebemos a existência de uma correlação positiva forte.
25
Gráfico 9 – Efeito de A sobre B
No entanto, vamos “perder” alguns dados e ver como fica o diagrama depois disso:
Gráfico 10 – Efeito de A sobre B
26
Você diria que os dois gráficos representam o mesmo fenômeno? Ou o formato de uma letra
Z na região central (A entre 50 e 80, B entre 20 e 70) o levaria a inferir a existência de alguma
perturbação – possivelmente, a influência de uma terceira variável não identificada? Bem, a
diferença entre os dois gráficos é de “apenas” sete pontos perdidos.
Como você pode perceber, decisões sobre dados perdidos não são triviais. Hair et al. (2009,
p. 58) defendem que “o pesquisador deve compreender os processos que conduzem aos dados
perdidos a fim de selecionar o curso de ação apropriado”. Isso engloba identificar se os dados
perdidos estão aleatoriamente distribuídos pelas observações ou há algum padrão. Vamos ver um
caso sobre tais considerações.
O exemplo, a seguir, mostra os dados coletados em determinada pesquisa com cinco variáveis
(V1 a V5) e 20 casos. Perceba a existência de dados perdidos.
Tabela 7 – Dados de pesquisa
# V1 V2 V3 V4 V5 dados perdidos
1 1,3 9,9 6,7 3,0 2,6 0 0%
2 4,1 5,7 2,9 2 40%
3 9,9 3,0 3 60%
4 0,9 8,6 2,1 1,8 1 20%
5 0,4 8,3 1,2 1,7 1 20%
6 1,5 6,7 4,8 2,5 1 20%
7 0,2 8,8 4,5 3,0 2,4 0 0%
8 2.1 8,0 3,0 3,8 1,4 0 0%
9 1,8 7,6 3,2 2,5 1 20%
10 4,5 8,0 3,3 2,2 1 20%
11 2,5 9,2 3,3 3,9 1 20%
12 4,5 6,4 5,3 3,0 2,5 0 0%
13 2,7 4 80%
14 2,8 6,1 6,4 2,8 1 20%
15 3,7 3,0 3 60%
16 1,6 6,4 5,0 2,1 1 20%
17 0,5 9,2 3,3 2,8 1 20%
18 2,8 5,2 5,0 2,7 1 20%
27
# V1 V2 V3 V4 V5 dados perdidos
19 2.2 6,7 2,6 2,9 1 20%
20 1,8 9,0 5,0 2,2 3,0 0 0%
2 2 11 6 2 23
Dados Total
perdidos 10% 10% 55% 30% 10% 23%
Fonte: adaptado de Hair et al (2014, p. 41).
Algumas inferências podem ser feitas:

 Quase um quarto dos dados foi perdido.
 Há dados perdidos de todas as variáveis. V3 perdeu 55% de seus dados.
 Entre os 20 casos, somente cinco têm dados completos. Três deles têm mais de 50%
dos dados perdidos.
Observe que, dependendo da exigência do tamanho da amostra para o grau de confiança

exigido, o experimento poderia estar invalidado. Além disso, caso o método de análise multivariada
exigisse dados completos, somente cinco casos poderiam ser aproveitados, o que dificultaria ainda
mais o atendimento a uma quantidade mínima de amostra.
De fato, não há uma regra única para lidar com os dados perdidos, mas uma série de análises
que podem nos levar a diferentes formas de ação. De acordo com Hair et al. (2014), se a quantidade
de dados perdidos para um caso ou observação individual for menor do que 10% e se tal perda for
aleatória (não concentrada em determinado tipo de dado coletado), tais dados podem ser ignorados
e precedermos com a análise sem eles. Caso contrário, deve-se decidir se é necessária nova coleta de
dados (algo usualmente demorado e caro), a extensão da coleta já realizada (desde que os dados
adicionais possam ser adicionados aos já coletados sem criar vieses no conjunto de dados a ser
analisado), a modelagem matemática do fenômeno (no caso de dados perdidos não serem
aleatórios), tomando por base os parâmetros de distribuição da variável analisada (FOGLIATO;
RIBEIRO, 2009), ou se os dados substitutos podem ser atribuídos (data imputation).
A atribuição de valores ocorre com base nas relações conhecidas entre variáveis válidas na
amostra (por exemplo, com alto grau de correlação entre elas), utilizando somente dados válidos ou
definindo valores de substituição para os dados perdidos, com base em casos semelhantes, média das
outras observações ou atribuídos por regressão (HAIR et al., 2014). No entanto, o método de
atribuição deve ser utilizado com parcimônia, por haver o risco de inserir vieses no conjunto de dados.
É recomendado que sejam utilizados métodos diversos de atribuição, isto é, uma combinação de
métodos, de forma a verificar se determinado método apresenta valores muito diferentes dos demais
ou mesmo utilizar valores médios entre diferentes métodos, de forma a tornar o processo mais robusto.
28
Outro fator de preocupação do pesquisador é o da existência de dados derivados, isto é, dados
criados a partir da transformação de outros dados – por exemplo, data de nascimento e idade dos
respondentes de um questionário, ou a média das notas dos alunos em uma prova. Ainda que a
utilização de dados derivados possa ser conveniente para o processamento de dados, há o risco de
correlações entre dados brutos/primários, e dados derivados serem interpretados como fenômenos
específicos, quando, na realidade, são reflexo de mera operação matemática.
Observações atípicas
Outro aspecto que deve ser observado pelo pesquisador nos dados existentes, antes de aplicar
as ferramentas de análise multivariada, é a das chamadas observações atípicas. Elas são medidas que,
nitidamente, destoam das demais, seja por apresentarem valores muito mais altos ou muito mais
baixos do que os demais, ou parecerem não fazer parte do grupo de medidas que foram coletadas.
Obviamente, não há a expectativa de termos dados que são perfeitamente “encaixados” nos
demais e inteiramente previsíveis e regulares, visto que, de forma geral, qualquer processo está
submetido às chamadas causas comuns, isto é, pequenas variações inerentes aos próprios processos
ou fenômenos diversos. Por exemplo, quando tentamos manter uma velocidade constante ao dirigir
um automóvel em uma pista, na realidade, estamos alternando velocidades um pouco acima e um
pouco abaixo do que queremos manter. O mesmo acontece quando regulamos a temperatura de
um aparelho de ar condicionado. Da mesma forma, quando identificamos uma tendência de
aumento ou queda de preços por conta de um aumento ou queda na demanda por um bem, seria
ilusório supor que todos os preços praticados seguiriam, exatamente, a mesma proporção: a
tendência identificada representa uma média das variações e, ao redor da mesma, alguns preços
variariam em proporções diferentes.
Por exemplo, observe o gráfico a seguir, que apresenta os resultados de uma amostra de 20
observações sobre a renda familiar em um bairro.
Gráfico 11 – Renda familiar – bairro X
29
Representações gráficas facilitam visualizar situações como essa (também pode-se optar por
calcular limites de controle em quantidades de desvios-padrões, como utilizados nas cartas de
controle de processos, ou converter os dados em valores padronizados, de média zero e desvio
padrão igual a 1). É fácil perceber que há uma variação nos dados sobre a renda, mas,
principalmente, que a renda da família F é muito superior às das demais famílias. Por quê?
Essa pergunta deve ser fonte de análise do pesquisador: será que, de fato, trata-se de uma família
com renda muito superior às demais? Ou será que foi um erro na coleta e registro dos dados (por
exemplo, um erro na digitação das casas decimais, o que fez com que uma renda mensal de pouco
mais de R$ 5.000,00 fosse apresentada como acima de R$ 500.000,00). A resposta vai indicar se
tratar de um dado válido ou não, isto é, se deve ou não ser considerado na análise multivariada.
Não há uma forma única para analisar tal situação e identificar a razão da observação
atípica: é necessário que o pesquisador tenha profundo conhecimento sobre o fenômeno que
está sendo estudado para poder efetuar tal julgamento. Também pode ser necessário que ele
inicie um processo de investigação, a fim de fazer qualquer inferência sobre o ocorrido. Algumas
possibilidades (HAIR et al., 2014):
 Ocorrência de um erro processual (por exemplo, a digitação dos valores). Nesse caso, os
valores devem ser eliminados ou tratados como dados perdidos (ver tópico “Dados perdidos
e dados derivados” do módulo 1).
 A observação se deve a um evento extraordinário (por exemplo, a família foi ganhadora
de um prêmio na loteria). Nessa situação, o pesquisador deve avaliar se o dado deve ser
considerado ou não, dependendo do que ele busca estudar e analisar. Por exemplo, se o
estudo envolve o cálculo da média das rendas familiares, o valor extremo identificado vai
“puxar a média para cima”, de tal forma que ela seja muito superior ao que seria se tal
valor não existisse. Desse modo, se o fenômeno a ser estudado envolve, por exemplo, o
poder de compra das famílias no bairro, para efeito de lançamento de um novo produto,
pode ser mais interessante descartar tal dado.
 Por outro lado, a observação atípica pode ser real, válida, mas sem que haja uma
explicação para ela. Nesse caso, o pesquisador deve utilizar seu discernimento para
estabelecer um curso de ação: o dado deve ser considerado ou não? É importante ter em
mente que, nesses casos, a falta de uma justificativa não deve ser, necessariamente, motivo
para exclusão dos dados. Por exemplo, a observação atípica pode-se dever a um novo
fenômeno, ainda desconhecido, mas emergente, e que levará a modificações diversas no
futuro (por exemplo, a família pode ter descoberto um filão de ouro em seu quintal, algo
ainda desconhecido pelos demais vizinhos e moradores do bairro).
30
Há ainda outra forma possível de observação atípica: valores que não são muito altos ou
muito baixos, mas destoam em uma combinação de valores entre variáveis, como se pode observar
no exemplo a seguir.
Gráfico 12 – Faixa salarial versus compras mensais
Observe que, exceto por um ponto, o gráfico apresenta uma clara correlação positiva entre
duas variáveis. Tal ponto seria caracterizado como uma observação atípica, e a recomendação dada
por Hair et al. (2014) é a de descartar tal dado, a não ser que haja fortes argumentos que justifiquem
a manutenção do mesmo na análise multivariada.
Uma variante que pode ser utilizada ao diagrama de dispersão é o denominado gráfico de
influência (influence plot). Trata-se de um gráfico de bolhas em que a terceira dimensão (o
diâmetro das bolhas) varia em função da influência de cada medida sobre a relação entre as
variáveis (HAIR et al., 2014).
As observações atípicas devem ser analisadas e interpretadas: elas trazem informações novas
sobre fenômenos que não seriam identificados sem tal análise (ou seja, não eliminar casos
simplesmente pelo fato de eles serem diferentes dos demais), elas representam dados ou, de fato,
não representam uma população e, dessa forma, podem distorcer as análises posteriores?
Com maior quantidade de variáveis, um recurso para análise é a análise em pares (por
exemplo, na matriz de dispersão). No entanto, quando lidamos com grande quantidade de variáveis,
são necessários outros recursos, pois o aumento da quantidade de gráficos a ser analisada é
significativo. Hair et al. (2014) sugere o uso da distância de Mahalanobis, que mede a distância de
cada observação a partir de um centro “médio” de todas as observações, ponderando-as pela
diferença à amplitude de variação na direção do ponto de teste, de tal forma que valores extremos
seriam identificados como observações mais afastadas da distribuição geral.
31
Testes de suposições
Uma vez que tenham sido analisados os dados perdidos e as observações atípicas, temos uma
base de dados “limpa”, pronta para análise. No entanto, ainda é necessário testar os dados quanto
à aderência dos mesmos às premissas (suposições) das inferências estatísticas contidas nas técnicas
multivariadas: normalidade, homocedasticidade, linearidade e ausência de erros
correlacionados. A seguir, vejamos cada uma delas:
a) Normalidade – As variáveis, considerando ao menos 50 observações (ou 30, como limite

mínimo aceitável) seguem, aproximadamente, uma distribuição normal, e as combinações delas
também são normais. Deve ser analisada a curtose (elevação ou achatamento da distribuição) e a
assimetria (não ser centrada ou não ter o mesmo formato em ambos os lados).
A testagem de normalidade pode ocorrer por forma gráfica – sobreposição da distribuição
sobre padrões normais, de forma a se visualizar a similaridade dos perfis – ou por meio de testes
estatísticos. Entre eles, estão os testes de valores críticos de assimetria e de curtose, e os testes de
Shapiro-Wilks e Kolmogorov-Smirnov (HAIR et al., 2014). De qualquer forma, os autores
destacam que o uso de amostras com 200 ou mais casos evita problemas de não normalidade.
b) Homocedasticidade – Supõe-se que a variação dos valores analisados se mantém

constante ao longo do tempo, isto é, exibe um valor constante de variância. Ou seja, o efeito de
causas comuns não sofreria alterações ao longo da análise do fenômeno e, dessa forma, alterações
perceptíveis ocorreriam somente mediante causas especiais.
Observe, por exemplo, os diagramas de dispersão a seguir: perceba que o da esquerda mostra
uma dispersão relativamente semelhante para cada valor (homocedasticidade), ao passo que o da
direita apresenta uma dispersão desigual (heteroscedasticidade).
Figura 9 – homocedasticidade x heteroscedasticidade
Fonte: Hair et al. (2014, p. 73).
32
Como teste de homocedasticidade, é utilizado o teste de Levene, que usa o desvio absoluto das
observações em cada tratamento para a mediana do tratamento, determinando se a média desses desvios
é a mesma para todos os tratamentos (MINITAB, s.d.), ou o teste M de Box, que compara a variação
em várias amostras.
Hair et al. (2014) destacam que a maioria dos casos de heteroscedasticidade é resultado de não
normalidade em uma ou mais variáveis. Consequentemente, “corrigir” o problema de não linearidade
costuma sanar tal dificuldade.
c) Linearidade – Uma vez que correlações estabelecem apenas associações lineares entre
variáveis, a existência de relações não lineares não é considerada nos cálculos de correlação, o que pode
subestimar o valor de correlação. A verificação da existência de relações não lineares pode ser observada
mediante a construção de diagramas de correlação, como exemplificado a seguir.
Gráfico 13 – Frequência versus problemas
d) Ausência de erros correlacionados – Pressupõe-se que os dados coletados sejam independentes

entre si, isto é, que um resultado coletado como amostra não tenha influência sobre o seguinte. De acordo
com Costa et al. (2016), quando os valores possuem alguma interdependência (autocorrelação), há um
aumento na probabilidade de observações consideradas atípicas.
Dessa forma, “se encontramos um padrão que sugere que todos os outros erros são positivos,
enquanto os termos de erro alternativo são negativos, sabemos que alguma relação sistemática inexplicada
existe na variável dependente” (HAIR et al., 2009, p. 86).
O conhecimento do pesquisador sobre o processo estudado e os fenômenos envolvidos é crucial

para se antecipar à ocorrência de erros correlacionados. Por exemplo, se fazemos um estudo de satisfação
e conforto térmico de uma plateia quanto à temperatura de ajuste do ar condicionado em um teatro, isso
33
envolve o fenômeno da correlação entre os dados se não for estabelecido um intervalo bastante razoável
entre as coletas de informações. Mesmo uma mudança acentuada na temperatura de ajuste não fará com
que a temperatura ambiente oscile muito. Desse modo, a percepção de conforto ou desconforto é
influenciada pela medida anterior, simplesmente, pelo fato de que não houve tempo suficiente para que a
temperatura ambiente se estabilizasse em um novo patamar a partir do ajuste do ar condicionado.
Também é importante analisar se o efeito combinado de duas ou mais variáveis (por exemplo, a
umidade relativa do ar, a velocidade do vento, etc.) pode gerar tal tipo de problema. É recomendado que
variáveis “suspeitas” sejam agrupadas e os grupos examinados em busca de padrões (HAIR et al., 2014).
Transformações de dados
A violação das suposições pode ser controlada pela transformação dos dados. Tal transformação não
se trata, exatamente, de alterar os dados coletados, mas algo como “utilizar outra escala” para permitir que
a análise possa ser desenvolvida de forma adequada. Podemos fazer uma analogia com a substituição de
medidas em metros para quilômetros, quando estudamos distâncias entre cidades, ou substituir medidas
de ângulo máximo que as rodas de um automóvel podem esterçar (girar para manobras) por medidas de
distância mínima para se conseguir executar determinada manobra. Nesse contexto, Hair et al. (2009, p.
89) estabelecem algumas regras sobre quando as transformações devem ocorrer:
Regras práticas para transformação de dados
Para julgar o impacto potencial de uma transformação, calcule a proporção entre média da variável
e seu desvio padrão:
 Efeitos perceptíveis devem ocorrer quando a proporção é menor do que 4.
 Quando a transformação puder ser realizada em qualquer uma das duas variáveis, escolha a
variável com menor proporção.
As transformações devem ser aplicadas nas variáveis independentes, exceto no caso de

heteroscedasticidade.
A heteroscedasticidade pode ser remediada apenas pela transformação da variável dependente

em relação a uma dependência. Se uma relação heteroscedástica é também não linear, a variável
dependente, e talvez as independentes, deve(m) ser transformada(s).
As transformações podem mudar a interpretação das variáveis. Por exemplo, transformar variáveis
calculando seu logaritmo traduz a relação de uma medida de mudança proporcional (elasticidade).
Sempre se assegure de explorar, meticulosamente, as interpretações possíveis das variáveis
transformadas.
Use variáveis em seu formato original (não transformadas) quando caracterizar ou interpretar
resultados.
Fonte: Hair et al.
34
Alguns recursos são sugeridos por Hair et al. (2014) para a transformação de dados são:
 inversão (1/Y ou 1/X) para distribuições “achatadas” ou não simétricas (não normais),
heteroscedasticidade e não linearidade;
 radiciação, exponenciação ou logaritmos, para distribuições assimétricas,
heteroscedasticidade e não linearidade, e
 variáveis adicionais para representar componentes não lineares.
Hair et al. (2009, p. 9) ainda destacam que:
Algumas transformações podem ser associadas com certos tipos de dados.

[...] contagens de frequência sugerem uma transformação de raiz quadrada;
as proporções são melhor transformadas por arco seno [...]; e a mudança
proporcional é mais fácil de manobrar calculando-se o logaritmo da variável.
Com isso, concluímos o primeiro módulo de nossa disciplina, no qual você pôde observar o
quão importante é o cuidado com os dados utilizados nas análises multivariadas. Devido à
complexidade e abrangência de tais análises, a utilização de dados inapropriados – incompletos,
incorretos de alguma forma, ou não representativos das relações de causa e efeito entre variáveis –
podem gerar vieses que comprometem toda a análise e, muitas vezes, são de difícil detecção. Por
isso, antes da utilização, os dados precisam ser analisados, organizados e tratados, de forma a garantir
um bom processo de análise e suporte aos processos de tomada de decisão. Para isso, utilizamos
uma das diversas técnicas e ferramentas de análise multivariada.
35
36
CONCLUSÃO
Chegamos ao final de nossa disciplina, por meio da qual você tomou conhecimento sobre os
fundamentos da Análise Multivariada. A partir da compreensão de tais fundamentos, você está
capacitado a continuar explorando as possibilidades de tais técnicas: conhecer ferramentas,
aplicações, usos em diferentes áreas de estudo e contextos, etc. A Análise Multivariada é um tema
em franco crescimento e a cada dia novos métodos, softwares e aplicações surgem. Big Data e
Inteligência Artificial são alguns exemplos de inovações viabilizadas por tais desenvolvimentos.
Desse modo, caro aluno, incentivamos que você continue a explorar as técnicas de Análise
Multivariada, seja parte desse movimento e amplie seu conhecimento e suas competências!
BIBLIOGRAFIA
ALBUQUERQUE, Eduardo Rui Viana Barbas. A representação gráfica de dados multivariados como
instrumento de apoio à análise econômica e financeira: uma adaptação dos rostos de Chernoff na
representação gráfica da informação contabilística. 2016. 400 p. Tese (Doutorado em Gestão).
Universidade Lusíada de Lisboa, Faculdade de Ciências da Economia e da Empresa, Lisboa, 2016.
COSTA, Antonio Fernando Branco; EPPRECHT, Eugenio Kahn; CARPINETTI, Luiz César
Ribeiro. Controle Estatístico de Qualidade. 2. ed. São Paulo: Atlas, 2016.
FÁVERO, Luiz Paulo; BELFIORE, Patrícia. Análise de Dados: técnicas multivariadas exploratórias
com SPSS e STATA. Rio de Janeiro: Elsevier, 2015.
FOGLIATTO, Fávio Sanson; RIBEIRO, José Luis Duarte. Confiabilidade e manutenção industrial.
Rio de Janeiro: Elsevier, 2009.
GIOLO, Suely Ruiz. Introdução à análise de dados categóricos com aplicações. São Paulo: Blucher, 2017.
HAIR Jr., Joseph F.; BLACK, William C.; BABIN, Barry J.; ANDERSON, Rolph E. THATAM,
Ronald. Análise Multivariada de Dados. 6. ed. Porto Alegre: Bookman, 2009.
HAIR Jr., Joseph F.; BLACK, William C.; BABIN, Barry J.; ANDERSON, Rolph E. Multivariate
Data Analysis. Seventh Edition. Essex: Pearson Education, 2014.
LARSON, Ron; FARBER, Betsy. Estatística Aplicada. 4. ed. São Paulo: Pearson, 2010.
LOZADA, Gisele. Controle estatístico de processos. Porto Alegre: SAGAH, 2017.
MINITAB. Como calcular o teste de Levene no Minitab. Disponível em

<https://support.minitab.com/pt-br/minitab/18/help-and-how-to/modeling-statistics/anova/
supporting-topics/anova-calculations/calculate-levene-s-test/>. Acesso em 15 out. 2018.
NAVIDI, Willian. Probabilidade e estatística para Ciências Exatas. Porto Alegre: AMGH, 2012.
PERLIN, Marcelo S. Processamento e análise de dados financeiros e econômicos com o R. 2. ed. Porto
Alegre: Amazon-KDP, 2018.
38
ROCHA, Henrique Martins. Controle estatístico da qualidade. Rio de Janeiro: Fundação CECIERJ,
2019.
SANTOS, Levi Alã Neves dos. Contribuição da mineração de dados e da otimização heurística para
a interpretação dos dados da produção científica brasileira. 2011. 114 p. Dissertação (Mestrado em
Ciência da Informação). Universidade Federal da Bahia. Instituto de Ciência da Informação.
Salvador, 2011.
SILVA NETO, Marco Aurélio. Mineração visual de dados: extração do conhecimento a partir das
técnicas de visualização da informação e mineração de dados. 2008. 172 p. Dissertação (Mestrado).
Universidade Federal do Paraná – UFPR. Curitiba, 2008.
WALPOLE, Ronald E.; MYERS, Raymond H.; MYERS, Sharon L.; YE, Keying. Probabilidade &
estatística para Engenharia e Ciências. 8. ed. São Paulo: Pearson, 2009.
Bibliografia recomendada
CORRAR, Luiz J.; PAULO, Edilson; DIAS FILHO, José Maria. Análise Multivariada para os
cursos de Administração, Ciências Contábeis e Economia. São Paulo: Atlas, 2007.
A larga aplicação das técnicas multivariadas e a necessidade de disseminá-las, de forma mais
intensa, no ambiente acadêmico e no empresarial motivaram os autores a produzir este livro,
que oferece os conceitos estatísticos de forma mais objetiva e direta para o leitor, tornando-
os mais acessível aos estudantes (de graduação e de pós-graduação) da área quantitativa. Os
exemplos de natureza prática que acompanham cada capítulo, a linguagem fortemente
sintonizada com o repertório do público-alvo e os exercícios de fixação refletem a
preocupação dos autores para com o alcance e a compreensibilidade da obra.
FÁVERO, Luiz Paulo; BELFIORE, Patrícia. Análise de dados: técnicas multivariadas exploratórias
com SPSS e STATA. Rio de Janeiro: Elsevier, 2015.
O livro é voltado para pesquisadores que se interessam tanto por modelagem multivariada
quanto pela utilização desses importantes softwares para fins de aplicação prática e tomada de
decisão. A obra é formada por três capítulos, distribuídos da seguinte forma: capítulo 1 –
Análise de agrupamentos; capítulo 2 – Análise fatorial por componentes principais e capítulo
3 – Análise de correspondência simples e múltipla.
39
GIOLO, Suely Ruiz. Introdução à análise de dados categóricos com aplicações. São Paulo:
Blucher, 2017.
Esse livro aborda conceitos básicos, testes e diversos modelos estatísticos propostos para a
análise de dados categóricos. Entre os modelos, podem ser citados o de regressão logística e
o de logitos cumulativos. Com o propósito de ilustrar as metodologias estatísticas
apresentadas, vários exemplos são analisados no texto.
HAIR Jr., Joseph F.; BLACK, William C.; BABIN, Barry J.; ANDERSON, Rolph E. THATAM,
Ronald. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.
Nova edição de livro consagrado na área apresenta um amplo conjunto de técnicas
estatísticas. É uma introdução sobre o assunto destinada àqueles sem formação estatística.
Os capítulos estão organizados seguindo uma progressão lógica e prática das fases de análise
e agrupando tipos de técnicas similares aplicáveis a diversas situações.
LARSON, Ron; FARBER, Betsy. Estatística aplicada. 4. ed. São Paulo: Pearson, 2010.
O objetivo dessa obra é ensinar os estudantes a utilizar o conhecimento estatístico para
retratar e descrever o mundo e, a partir disso, tomar decisões fundamentadas. Além disso,
o conteúdo do livro é integrado com o uso de ferramentas tecnológicas — Minitab, Excel
e a calculadora TI-84 Plus — e de applets interativos exclusivos, que estimulam os alunos a
investigarem conceitos estatísticos.
LATTIN, James; CARROLL, J. Douglas; GREEN, Paul E. Análise de dados multivariados. São
Paulo: Cengage Learning, 2011.
Esse livro foi elaborado pensando em um público de psicólogos, sociólogos, pesquisadores de
mercado, cientistas de gestão, que ocasionalmente necessitam de técnicas estatísticas
multivariadas para ajudá-los a realizar o seu trabalho, e não de estatísticos profissionais. Seu texto
é apurado para que as técnicas sejam aplicadas por não estatísticos de modo facilitado e didático.
LOESCH, Cláudio; HOELTGEBAUM, Marianne. Métodos estatísticos multivariados. São Paulo:

Saraiva, 2017.
O principal objetivo do livro é apresentar de forma compreensível a estatística
multivariada, que comprova e projeta realidades. A análise multivariada, quando bem
aplicada, pode auxiliar muito as empresas a uma compreensão mais nítida dos fatos
ocorridos e que irão ocorrer, tanto no que tange às relações quantitativas econômico-
financeiras quanto nas análises de conhecimentos específicos, como marketing,
empreendedorismo corporativo e planejamento estratégico.
40
MINGOTI, Sueli Aparecida. Análise de dados através de métodos de estatística multivariada. Belo
Horizonte: UFMG, 2005.
É um livro que visa a atender não somente aos Estatísticos mas também aos profissionais de
outras áreas que necessitam de conhecimentos de técnicas de Estatística Multivariada para
resolução de seus problemas de análise de dados.
PERLIN, Marcelo S. Processamento e análise de dados financeiros e econômicos com o R. 2. ed.

Porto Alegre: Amazon-KDP, 2018.
Esse livro introduz o leitor ao uso do R e RStudio como plataforma de processamento e
análise de dados financeiros e econômicos. O livro apresenta a base de conhecimento
necessária para utilizar o R, desde a sua instalação até a criação de códigos de pesquisa,
incluindo baixar dados econômicos e financeiros de arquivos locais ou da internet,
representar e processar esses dados e, por fim, criar tabelas e figuras para reportar os
resultados em um relatório técnico.
WALPOLE, Ronald E.; MYERS, Raymond H.; MYERS, Sharon L.; YE, Keying. Probabilidade &
estatística para Engenharia e Ciências. 8. ed. São Paulo: Pearson, 2009.
Esse livro apresenta a estatística e a probabilidade sob o ponto de vista da engenharia e de
outras áreas das ciências exatas. A abordagem é bastante didática, apresentando os conceitos
de maneira abrangente e profunda por meio de uma sequência lógica e direta, material
gráfico, exemplos e exercícios que auxiliam na aprendizagem.
41
PROFESSOR-AUTOR
Henrique Martins Rocha é D.Sc. em Engenharia
Mecânica pela Universidade Estadual Paulista, com estudos pós-
doutorais em Projetos e Desenvolvimento de Novos Produtos,
pela mesma instituição. Atuou por 27 anos, no Brasil, nos USA e
no Canadá em funções executivas e técnicas, em empresas como
Xerox, White Martins, Flextronics, Remington e CBV, nas áreas
de Análise de Negócios e Estratégia Empresarial, Projetos,
Programas, Desenvolvimento e Lançamento de Produtos,
Processos, Planejamento e Controle de Produção, etc. Atua na
área acadêmica, desde 2001, como professor e coordenador de
cursos de graduação e pós-graduação e professor-tutor EaD e
MOOC. Além disso, recebeu diversos prêmios, títulos e homenagens na área acadêmica e
profissional. Orientou quase 300 trabalhos de conclusão (D.Sc., M.Sc., especialização/MBA e
graduação) e iniciação científica, e publicou quase uma centena de artigos em periódicos e anais de
eventos científicos. E é autor de três livros, coautor de seis, organizador de um, autor de 29 capítulos
de livro e revisor técnico de cerca de outros 250 nas áreas de Engenharia, Gestão de Operações e
Educação Superior.
42

Introducao A Organizacao de Dados para Analise Multivariada

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Introducao A Organizacao de Dados para Analise Multivariada

Enviado por

Direitos autorais:

Formatos disponíveis

INTRODUÇÃO

Os estudos estatísticos ganham importância a cada momento no

Bibliografia recomendada ...................................................................................................... 39

Exame tabular e gráfico dos dados

amostra carga (amperes)

Fonte: autoria própria.

amostra carga (amperes)

Fonte: autoria própria.

Tabela 3 – Tempo de utilização e quantidade de problemas

tempo de utilização quantidade de

Fonte: autoria própria.

operador temperatura tensão umidade

1 Carlos 25 129 78 SuperPower 51

2 Eduardo 24 118 44 Fênix 2

3 Bernardo 22 119 59 Alfa 21

4 Carlos 26 109 81 Alfa 60

5 Eduardo 27 125 84 XYZ 51

6 Alberto 27 127 72 Alfa 60

7 Bernardo 29 135 59 XYZ 35

8 Carlos 31 133 61 Fênix 50

9 Carlos 30 112 77 Fênix 55

10 Davi 31 114 44 Fênix 7

11 Bernardo 29 110 78 Alfa 42

12 Carlos 25 124 57 Phanton 44

13 Carlos 24 123 78 SuperPower 55

14 Geraldo 28 132 41 XYZ 4

15 Bernardo 29 122 53 XYZ 34

16 Alberto 32 131 42 SuperPower 7

17 Geraldo 32 114 73 Alfa 46

18 Alberto 34 115 60 SuperPower 44

19 Bernardo 36 109 69 Fênix 42

20 Geraldo 31 124 55 Fênix 15

21 Alberto 27 128 46 Alfa 10

22 Davi 28 118 52 Alfa 13

23 Carlos 26 125 80 Phanton 84

24 Carlos 25 133 75 Alfa 69

25 Bernardo 26 122 52 XYZ 47

26 Geraldo 25 111 48 Phanton 3

27 Davi 24 128 52 Alfa 36

28 Alberto 22 125 48 SuperPower 9

29 Bernardo 24 129 62 Phanton 11

30 Eduardo 23 127 62 SuperPower 25

Fonte: autoria própria.

Para tais situações, é conveniente recorrermos a representações e ferramentas gráficas. Você

Gráfico 1 – Cargas de falha

Fonte: autoria própria.

Tabela 5 – Valores de conversão do Peso Argentino

Fonte: adaptado de Lozada (2017, p. 34).

Construindo o histograma com tais dados, podemos perceber que a distribuição de

Gráfico 2 – Distribuição dos valores

Fonte: autoria própria.

Gráfico 3 – Exemplo de histograma

Fonte: Autoria própria.

Como podemos perceber, o gráfico mostra um histograma descentralizado e, principalmente,

Gráfico 4 – Exemplo de diagrama de rame-e-folha

Fonte: Hair et al. (2009, p.54).

Uma limitação no uso do histograma ou no diagrama de ramo-e-folha é o de necessitar de,

Fonte: autoria própria.

Quando a mediana está “descentralizada”, isto é, claramente mais próxima do primeiro ou

Figura 2 – Grupos misturados e BoxPlots separados

Fonte: autoria própria.

Gráfico 5 – Diagrama de dispersão

Fonte: autoria própria.