Escolar Documentos
Profissional Documentos
Cultura Documentos
Introducao PDF
Introducao PDF
Texto i: INTRODUÇÃO
SUMÁRIO
1. INTRODUÇÃO................................................................................................................................................ 1
1.1. O QUE É A ANÁLISE MULTIVARIADA? ................................................................................................................ 1
1.2. FERRAMENTAS COMPUTACIONAIS ...................................................................................................................... 1
1.3. DEFINIÇÃO DE ANÁLISE MULTIVARIADA ............................................................................................................ 1
2. CONCEITOS BÁSICOS.................................................................................................................................. 2
2.1. COMBINAÇÃO LINEAR DE VARIÁVEIS (VARIATE) .................................................................................................. 2
2.2. ESCALAS DE MEDIDA......................................................................................................................................... 3
2.2.1. Escalas qualitativas.................................................................................................................................. 3
2.2.2. Escalas quantitativas................................................................................................................................ 4
2.3. ERROS DE MEDIDA E MEDIDA MULTIVARIADA .................................................................................................... 5
2.4. SIGNIFICÂNCIA ESTATÍSTICA VERSUS PODER ESTATÍSTICO .................................................................................. 6
6. CONCLUSÃO.................................................................................................................................................19
7. REFERÊNCIAS..............................................................................................................................................20
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 1
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
1. INTRODUÇÃO
A análise multivariada de uma forma bem geral refere-se a todos os métodos estatísticos que
analisam simultaneamente múltiplas medidas em cada indivíduo ou objeto sob investigação. Qualquer
análise simultânea de mais de duas variáveis pode ser, de certo modo, considerado como análise
multivariada. Muitas técnicas multivariadas são simplesmente extensões de análises univariadas
(análise da distribuição de uma única variável) e análise bivariada (classificação cruzada, correlação,
análise de variância e regressão simples). Por exemplo, a regressão simples (com uma variável
preditiva) é estendida para o caso multivariado para incluir várias variáveis preditivas. Da mesma
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 1
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
forma, a única variável dependente encontrada na análise de variância é estendida para incluir
múltiplas variáveis dependentes na análise de variância multivariada. Em muitos casos, como poderá
ser visto, a análise multivariada é um meio de realizar em uma única análise aquilo que exigiria
múltiplas análises no caso univariado. Outras técnicas multivariadas, no entanto, foram projetadas para
lidar somente com casos multivariados, tal como a análise de fatores, que visa identificar a estrutura
subjacente de um grupo de variáveis ou a análise discriminante, para diferenciar entre grupos baseados
em um conjunto de variáveis.
Uma das razões para a dificuldade de se definir a análise multivariada é que o termo
multivariado não é utilizado de forma consistente na literatura. Para alguns pesquisadores,
multivariado significa simplesmente examinar o relacionamento entre duas ou mais variáveis. Outros
usam o termo somente para problemas onde todas as variáveis assumem por hipótese uma distribuição
multivariada. Para ser considerado verdadeiramente multivariada, no entanto, todas as variáveis devem
ser aleatórias e interrelacionadas de tal forma que seus diferentes efeitos não podem ser interpretados
de maneira significativa separadamente. Outros autores declaram que o propósito da análise
multivariada é medir, explicar e predizer o grau de relacionamento entre variates (combinação linear
de variáveis). Desta forma, a característica multivariada repousa nas múltiplas combinações de
variáveis (variates) e não somente sobre o número de variáveis ou observações.
A análise multivariada tem suas raízes na análise univariada e bivariada e a extensão para o
domínio multivariado introduz conceitos adicionais e questões que são particularmente relevantes.
Estes conceitos vão desde o entendimento conceitual do bloco estrutural básico da análise multivariada
- as variates - até questões específicas que lidam com o tipo de escala de medida utilizada e as
questões estatísticas da significância dos testes e intervalos. Cada conceito desempenha um papel
importante na aplicação bem sucedida de qualquer técnica multivariada.
A variate
Como já mencionado, o bloco básico da construção da análise multivariada é a combinação
linear de variáveis com pesos empiricamente determinados, ou simplesmente denominada de variate.
As variáveis são especificadas pelo pesquisador ou analista enquanto que os pesos são determinados
pelo objetivo específico das técnicas multivariadas. Uma variate de n variáveis ponderadas (X1 até Xn)
pode ser escrita da seguinte forma: Valor da variate = w1X1 + w2X2 + ... + wnXn,
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 2
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
Medidas não-métricas podem ser feitas tanto com uma escala nominal quanto com uma
ordinal. Uma medida com escala nominal atribui valores com o objetivo de rotular ou identificar os
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 3
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
objetos. Escalas nominais, também conhecidas como escalas categóricas, fornecem o número de
ocorrências (freqüências) em cada classe ou categoria da variável sendo estudada. Os símbolos ou
números atribuídos a cada categoria não tem um significado quantitativo além o de indicar a presença
ou ausência do atributo ou característica sob investigação. Exemplos de escalas nominais são: sexo,
religião, preferência política, estado civil, etc.
A escala ordinal é o nível seguinte das escalas de medidas. Variáveis podem ser ordenadas
através de escalas ordinais com respeito a quantidade do atributo que possuem. Cada subcategoria
pode ser comparada com outra em termos das relações "maior que" ou "menos que". Por exemplo
níveis diferentes de satisfação do consumidor com alguns produtos novos podem ser ilustrados por
uma escala ordinal.
Produto A Produto B Produto C
Os números utilizados na escala ordinal são não quantitativos, porque eles indicam somente a
sua posição relativa numa série ordenada. Não existe uma medida de quanta satisfação o consumidor
recebe em termos absolutos e nem o pesquisador sabe a diferença exata entre dois pontos na escala de
satisfação. Muitas escalas nas ciências humanas estão enquadradas neste grupo.
As escalas métricas incluem a de intervalo e a de razão. Estas escalas permitem uma medida
real do atributo sendo mensurado e praticamente todas as operações matemáticas podem ser aplicadas.
Estas escalas possuem unidades constantes de medida de modo que as diferenças entre duas categorias
são idênticas. A única diferença real entre uma escala de intervalo e uma escala de razão é que as de
intervalo possuem um zero arbitrário enquanto que as de razão possuem um ponto zero absoluto. As
escalas de intervalo mais conhecidas são as que medem a temperatura como a Celsius e a Fahrenheit.
Ambas possuem um ponto zero arbitrário, isto é, não significando uma quantidade zero de temperatura
ou ausência completa de temperatura. Da mesma forma não é possível afirmar que um certo valor num
escala de intervalo é múltiplo de algum outro na escala. Por exemplo, uma temperatura de 80F numa
escala diferente não é o dobro da temperatura de 40F porque 80F na escala Celsius é 26,7C. Do mesmo
modo o valor 40F na escala Celsius é 4,4C. Embora 80 seja o dobro de 40, não se pode afirmar que o
calor de 80F é o dobro do calor de 40F, porque usando uma escala diferente o calor medido não é o
dobro, isto é, 2. 4,4C ≠ 8,8C.
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 4
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
A escala de razão é o mais alto nível de medida possível, porque ela apresenta as vantagens
das demais escalas mais um zero absoluto. Todas as operações matemáticas são permitidas com este
tipo de escala. O peso, por exemplo, é medido por uma escala deste tipo. Quando se diz que alguma
coisa pesa 10 kg, isto significa exatamente o dobro de algo que pesa 5kg, não importando se for
expresso em kg ou outra unidade qualquer. Aqui um peso zero significa ausência total da
característica, isto é, peso.
Entender os diferentes tipos de escala de medida é importante por duas razões. Primeiro é
necessário identificar a escala de medida usada para cada variável para que dados métricos não sejam
usados incorretamente como se fossem não-métricos e vice-versa. Segundo, a escala de medida é um
fator crítico na determinação do tipo de técnica multivariada que será mais apropriada para os dados
levando em consideração as variáveis dependentes e independentes.
O objetivo de reduzir o erro de medida pode ser alcançado de várias formas. Ao tratar o grau
de erro de medida presente em qualquer medida o analista pode tanto tratar da validade quanto da
confiabilidade. A validade é o grau com que a medida acuradamente representa aquilo que ela se
propõe a representar. Assegurar a validade começa com o entendimento correto do que deve ser
medido e então com a determinação da medida tão corretamente e acuradamente quanto possível. No
entanto acurácia não assegura validade.
Supondo que a medida é válida, isto é, representa aquilo que se propõe a medir, existem ainda
considerações sobre a confiabilidade da medida. Confiabilidade é o grau com o qual a variável
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 5
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
considerada mede o verdadeiro valor e está livre de erros. Se a mesma medida, por exemplo, é feita
várias vezes, medidas confiáveis mostrarão uma consistência mais alta do que medidas menos
confiáveis.
Um outro procedimento a ser seguido é desenvolver medidas multivariadas, também
conhecidas como escalas somadas, onde várias variáveis são agrupadas para representar uma variável
composta (por exemplo, escalas de personalidade de itens múltiplos ou classe de um produto). O
objetivo é evitar o uso de uma única variável para representar um conceito e ao invés usa-se várias
variáveis como indicadores, todas representando diferentes facetas do conceito para obter uma
perspectiva mais global. O uso de múltiplos indicadores permite ao pesquisador especificar mais
precisamente as respostas desejadas e não colocar total confiança em uma única resposta mas ao invés
numa resposta média ou típica de um conjunto relacionado de respostas. A idéia é que respostas
múltiplas refletem de forma mais acurada a verdadeira resposta do que uma única.
O impacto de erros de medida e uma confiabilidade pobre não podem ser vistos diretamente
pois eles estão embutidos nas variáveis observadas. Resultados ruins nem sempre são devidos a erros
de medida, mas a presença de erros de medida seguramente distorcerá o relacionamento observado e
tornará a técnica multivariada menos poderosa.
deveria ser aceita. A probabilidade de se cometer o erro do tipo II é representada por β (beta). No
entanto, uma probabilidade mais interessante é 1- β, que é a probabilidade de tomar uma decisão
correta, isto é, é a probabilidade de se rejeitar a hipótese nula quando ela é falsa. Esta probabilidade é
denominada de poder do teste.
O poder não é apenas uma função de α, ele é, na realidade, uma resultante de três fatores:
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 7
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
3 . T I P O S D E T É C N I C A S M U LT I VA R I A D A S
A regressão múltipla é o método de análise apropriado quando o problema envolve uma única
variável (métrica) dependente que se presume estar relacionada com uma ou mais (também métricas)
variáveis independentes. O objetivo da análise de regressão é prever as mudanças na variável
dependente em resposta às mudanças que ocorrem nas várias variáveis independentes. Este objetivo é
quase sempre alcançado através do método dos mínimos quadrados.
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 8
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
produto, homens de mulheres e créditos bons de créditos ruins, etc. Até a receita federal americana
utiliza a análise discriminante para comparar o pagamento de impostos de renda de locais selecionados
com um contribuinte hipotético e para identificar os retornos mais promissores e as áreas de auditoria.
Análise canônica de correlação pode ser vista como uma extensão lógica da análise de
regressão múltipla. Lembre-se que análise de regressão múltipla envolve uma única variável
dependente métrica e várias variáveis independentes também métricas. Na correlação canônica o
objetivo é correlacionar simultaneamente várias variáveis dependentes métricas com várias variáveis
independentes também métricas. Enquanto a regressão múltipla envolve uma única variável
dependente, a correlação canônica envolve múltiplas variáveis dependentes. O princípio subjacente é
desenvolver uma combinação linear de cada conjunto de variáveis (tanto dependentes quanto
independentes) para maximizar a correlação entre os dois conjuntos. Em outras palavras, o
procedimento envolve obter um conjunto de pesos para as variáveis dependentes e independentes que
forneçam a correlação simples máxima entre o conjunto das variáveis dependentes e as independentes.
A técnica do modelo linear de probabilidade também conhecida como análise de logit é uma
combinação de regressão múltipla e análise discriminante múltipla. Ela é semelhante a análise de
regressão múltipla no sentido de que uma ou mais variáveis independentes são utilizadas para prever
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 9
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
uma única variável dependente. O que distingue o modelo linear de probabilidade da regressão
múltipla é que a variável dependente é não-métrica como na análise discriminante. A escala não-
métrica da variável dependente requer uma abordagem diferenciada na estimação e nas hipóteses sobre
a distribuição subjacente, mas em muitas outras características é semelhante à regressão múltipla.
Desta forma, uma vez que a variável dependente seja corretamente especificada e a técnica de
estimação apropriada seja empregada, os fatores básicos considerados na regressão múltipla serão
utilizadas aqui da mesma forma. O modelo linear de probabilidade se diferencia da análise
discriminante primeiramente porque ele acomoda qualquer tipo de variável independente (tanto
métricas quanto não-métricas) e não necessita da hipótese de normalidade multivariada. No entanto,
em muitas situações, particularmente com mais de dois níveis na variável dependente a análise
discriminante é uma técnica mais apropriada.
A análise conjunta é uma técnica dependente emergente que criou novas formas de avaliação
de objetos, tanto se forem produtos quanto se forem serviços ou idéias. A aplicação mais direta é no
desenvolvimento de novos produtos e serviços, permitindo a avaliação de produtos complexos
enquanto mantém um contexto realístico de decisão para o respondente. O analista de marketing é
capaz de avaliar a importância dos atributos bem como dos níveis de cada atributo enquanto que os
consumidores avaliam somente uns poucos perfis de produtos, que são combinações de níveis de
produtos. Por exemplo, suponha um conceito de produto com três atributos (preço, qualidade e cor),
cada um com três possíveis níveis (por exemplo, vermelho, amarelo e azul). Ao invés de precisar
avaliar todas as 27 (3.3.3) possíveis combinações, um subconjunto (9 ou mais) pode ser avaliado pela
sua atratividade para o consumidor e o analista sabe, não somente quão importante é cada atributo, mas
também a importância de cada nível (a atração do vermelho versus amarelo versus azul). Além disso,
quando a avaliação do consumidor é completada, os resultados da análise conjunta podem também ser
usados em simuladores de projetos de produtos, que mostram a aceitação do consumidor para qualquer
número de produtos formulados e ajudam no projeto do produto ótimo.
A modelagem por equações estruturais muitas vezes denominada LISREL (que é o nome de
um dos pacotes de software mais populares), é uma técnica que permite separar relacionamentos para
cada um dos conjuntos de variáveis dependentes. Em termos simples, a técnica fornece um método de
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 10
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
estimação apropriado e eficiente para uma série de equações de regressões múltiplas separadas serem
estimadas simultaneamente. Ela é caracterizada por duas componentes básicas:
(1) O modelo estrutural e
(2) O modelo de medida.
O modelo de medida permite que o analista uso várias variáveis (indicadores) para uma única
variável dependente ou independente. Por exemplo, a variável dependente poderá ser um conceito
representado por uma escala agregada tal como auto-estima. No modelo de medida o analista pode
avaliar a contribuição de cada item da escala bem como incorporar quão bem a escala mede o conceito
(confiabilidade) na estimação do relacionamento entre as variáveis dependentes e independentes. Este
procedimento é semelhante a executar a análise de fatores dos itens da escala e usar os escores dos
fatores na regressão.
As técnicas discutidas acima estão centradas em métodos multivariados aplicados a dados que
contém tanto variáveis dependentes quanto independentes. No entanto, se o pesquisador esta
investigando as interpelações e desta forma a interdependência entre todas as variáveis, sem se
preocupar se as variáveis são dependentes ou independentes então, várias outras técnicas multivariadas
são apropriadas. Estas técnicas incluem: análise de fatores, de conglomerados, escalonamento
multidimensional e análise de correspondência.
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 11
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
Em sua forma básica a análise de correspondência emprega uma tabela de contingência, que é
a tabulação cruzada de duas variáveis categóricas. Ela então transforma os dados não-métricos a um
nível métrico e executa a redução dimensional (semelhante a análise de fatores) e o mapa perceptível
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 12
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
4 . C L A S S I F I C A Ç Ã O D A S T É C N I C A S M U LT I VA R I A D A S
Uma técnica dependente pode ser definida como aquela em que uma variável ou um conjunto
de variáveis são identificadas como variáveis dependentes para serem previstas ou explicadas por
outra ou outro conjunto de variáveis conhecidas como independentes. Um exemplo de uma destas
técnicas é a análise múltipla de regressão. Em contraste, uma técnica interdependente é aquela em
que uma única variável ou um grupo de variáveis são definidas como sendo dependentes ou
independentes. Além disso, o procedimento envolve a análise de todas as variáveis no conjunto
simultaneamente. A análise de fatores é uma técnica de interdependência.
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 13
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
Com respeito ao número de variáveis dependentes estas técnicas podem ser classificadas
como tendo uma única variável dependente, várias variáveis dependentes ou mesmo várias relações de
dependência ou independência. As técnicas dependentes podem, ainda, ser classificadas como
apresentando variáveis métricas (quantitativa/numérica) ou não-métricas (qualitativas/categóricas)
dependentes. Se a análise envolve uma única variável dependente que é métrica, a técnica apropriada é
tanto análise múltipla de regressão quanto análise conjunta. A análise conjunta é um caso especial. É
um procedimento dependente que pode tratar a variável dependente tanto como métrica ou não-
métrica, dependendo das circunstâncias. Por outro lado, se a única variável dependente é categórica
então a técnica apropriada é a análise discriminante ou modelos lineares de probabilidade. Em
contraste, quando o problema envolve várias variáveis dependentes, quatro outras técnicas de análise
são apropriadas. Se as várias variáveis dependentes são métricas deve-se então olhar para as variáveis
independentes. Se as variáveis independentes são não-métricas a técnica de análise multivariada de
variância deve ser selecionada. Se elas forem métricas então análise canônica de correlação é a técnica
a ser empregada. Se as várias variáveis dependentes são não-métricas, elas podem ser transformadas
através de variáveis dummy codificadas como 0 ou 1 e então a análise canônica pode novamente ser
empregada. Finalmente se um conjunto relacionamentos de variáveis dependentes/independentes pode
ser assumido então a modelagem por equações estruturais pode ser empregado.
Existe uma relação estreita entre os vários procedimentos dependentes e elas podem ser vistas
como uma família de técnicas. A tabela 4.1 define as várias técnicas dependentes multivariadas em
termos da natureza e do número das variáveis dependentes e independentes. Como pode ser visto, a
correlação canônica pode ser considerada como um modelo geral sobre o qual muitas outras técnicas
multivariadas estão baseadas, porque ela coloca as mais baixas restrições tanto no tipo quanto no
número de variáveis em ambas as variates dependente e independente. As restrições são colocadas nas
variates, conclusões mais precisas podem ser alcançadas baseadas na escala específica de medida dos
dados. Desta forma, as técnicas multivariadas abrangem desde o método geral de análise canônica até
o mais especializado representado pela modelagem de equações.
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 14
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
Dependência: Interdependência:
Métrica Não-métrica
Métrica Não-métrica
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 15
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
Correlação canônica
Y1 + Y2 + Y3 + .. + Yn = X1 + X2 + X3 + ... + Xn
(Qualitativas, Quantitativas ) (Qualitativas, Quantitativas )
Análise multivariada de variância
Y1 + Y2 + Y3 + ... + Yn = X1 + X2 + X3 + ... + Xn
(Quantitativas ) (Qualitativas)
Análise de variância
Y = X1 + X2 + X3 + ... + Xn
(Quantitativas ) (Qualitativas)
Análise discriminante múltipla
Y = X1 + X2 + X3 + ... + Xn
(Qualitativa) (Quantitativas )
Análise de regressão múltipla
Y = X1 + X2 + X3 + ... + Xn
(Quantitativa) (Quantitativas, Qualitativas)
Análise conjunta
Y = X1 + X2 + X3 + ... + Xn
(Quantitativa, Qualitativa) (Qualitativas)
Modelagem por equações estruturais
Y1 = X11 + X12 + X13 + ... + X1n
Y2 = X21 + X22 + X23 + ... + X2n
................................................
Ym = Xm1 + Xm2 + Xm3 + ... + Xmn
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
As técnicas interdependentes são mostradas no lado direito da figura 4.1. Deve-se lembrar que
neste tipo de técnica as variáveis não são classificadas como dependentes ou independentes. Ao invés,
todas as variáveis são analisadas simultaneamente em um esforço para encontrar uma estrutura
subjacente para todo o conjunto de variáveis ou elementos. Se a estrutura das variáveis é para ser
analisada, então análise de fatores é a técnica apropriada. Se casos ou respondentes devem ser
agrupados para representar a estrutura, então a análise de conglomerados é a técnica selecionada.
Finalmente, se o interesse reside na estrutura dos objetos, então a técnica da redução multidimensional
deve ser aplicada. Assim como nas técnicas dependentes, as propriedades das medidas das técnicas
devem ser consideradas. No entanto, dados não-métricos podem ser transformados através de variáveis
dummy para uso com análise de fatores e de conglomerados. A abordagem métrica e não-métrica foi
desenvolvida para a redução multidimensional. Se a interdependência dos objetos medidos por dados
não-métricos deve ser analisada, a análise de correspondência é também uma técnica apropriada.
5 . A N Á L I S E M U LT I VA R I A D A : I N T E R P R E TA Ç Ã O
O analista deve considerar a significância estatística dos resultados, é claro, mas também seu
significado prático. A significância prática é obtida respondendo a questão "E agora?". Para qualquer
aplicação gerencial, os resultados devem ter um efeito demonstrável que justifique a ação.
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
resultados significativos para se assegurar que eles possuem significância prática, devido ao
crescimento do poder estatístico em virtude do tamanho da amostra. O tamanho da amostra afeta
também os resultados quando a análise envolve grupos de resposta tal como na análise discriminante e
MANOVA. Tamanhos desiguais entre grupos influenciam os resultados e requerem interpretações
adicionais e/ou análises.
As técnicas multivariadas são projetadas para acomodar múltiplas variáveis na análise. Esta
característica, no entanto, não deve substituir o desenvolvimento de um modelo conceitual antes da
aplicação da técnica. Enquanto é sempre mais importante evitar a omissão de uma variável preditiva
crítica, denominado de erro de especificação, por várias razões o analista também deve evitar o
oposto, isto é, inserir variáveis indiscriminadamente e deixar a técnica multivariada tentar identificar
as relevantes. Primeiro, porque variáveis irrelevantes normalmente aumentam a habilidade de
aderência dos dados ao modelo tornando os resultados menos generalizáveis para a população.
Segundo, variáveis irrelevantes não necessariamente distorcem os resultados das relevantes, mas elas
podem mascarar os verdadeiros efeitos devidos a multicolinearidade. A multicolinearidade representa
o grau com que qualquer variável pode ser prevista pelas outras variáveis na análise. Com o aumento
da multicolinearidade diminui a habilidade de detectar o efeito de outras variáveis. Desta forma, incluir
variáveis que não são conceitualmente relevantes pode ter efeitos potenciais danosos, mesmo se elas
não distorcem diretamente os resultados do modelo.
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
6. CONCLUSÃO
Nesta introdução às técnicas multivariadas o assunto não foi absolutamente esgotado. O que
se apresentou aqui de forma introdutória foi o elenco das técnicas já sedimentadas. Técnicas ainda
pouco conhecidas ou recém desenvolvidas não foram analisadas. O que se pretendeu foi apresentar um
panorama amplo das principais técnicas, suas interelações e um guia para a escolha e a aplicação das
mesmas. Novas técnicas que estão rapidamente ganhando importância, com aplicações em quase todas
as áreas são as redes neurais (neuronais) e a mineração de dados (data mining).
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/
SÉRIE: Estatística Multivariada
Texto i: INTRODUÇÃO
7. REFERÊNCIAS
AAKER, David A., DAY, George S. Marketing Research (3e). New York: John Wiley & Sons, 1986.
DILLON, William R., MADDEN, Thomas J., FIRTLE, Neil H. Marketing Research in a Marketing
Environment (Third edition). Boston, Massachusetts: IRWIN, 1987, 760 pp.
HAIR, Joseph F., Jr.. ANDERSON, Rolph E., TATHAM, Ronald L., BLACK William C.
Multivariate Data Analyis: with readings (fourth edition). Upper Saddle River, New Jersey:
Prentice Hall, 1995. 745 pp.
MASON, Robert D., DOUGLAS, Lind A. Statistical Techniques in Business And Economics. IRWIN,
Boston, 1990.
NORUŠIS, Marija J., SPSS Inc. SPSS® for Windows™ Professional Statistics™, Release 5. Chicago,
IL: SPSS Inc., 1992.
STEVENS, James. Applied Multivariate Statistics For The Social Sciences. Mahwah, New Jersey:
LEA − Lawrence Erbaum Associates, Publishers. 1996.
Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/