Você está na página 1de 23

Captulo 1

Introduo

Objetivos de aprendizagem
Ao concluir este captulo, voc dever ser capaz de:
Explicar o que anlise multivariada e quando sua aplicao adequada.
Definir e discutir as tcnicas especficas includas na anlise multivariada.
Determinar qual tcnica multivariada apropriada a um problema especfico de pesquisa.
Discutir a natureza das escalas de medida e sua relao com tcnicas multivariadas.
Descrever os aspectos conceituais e estatsticos inerentes anlise multivariada.

Apresentao do captulo
O Captulo 1 apresenta uma viso geral simplificada sio para uma anlise multivariada. Para ilustrar essa
da anlise multivariada. Enfatiza que os mtodos de transio, este captulo apresenta uma classificao
anlise multivariada iro influenciar cada vez mais das tcnicas multivariadas. Em seguida, oferece linhas
no apenas os aspectos analticos de pesquisa, mas gerais para a aplicao dessas tcnicas, bem como uma
tambm o planejamento e a abordagem da coleta de abordagem estruturada para a formulao, estimao
dados para decises e resoluo de problemas. Apesar e interpretao dos resultados multivariados. O cap-
de as tcnicas multivariadas terem muitas caractersti- tulo conclui com uma discusso da base de dados uti-
cas em comum com suas contrapartes univariada e bi- lizada ao longo da maior parte do livro para ilustrar a
variada, vrias diferenas importantes surgem na tran- aplicao das tcnicas.

Termos-chave
Antes de comear o captulo, leia os termos-chave para Alfa () Ver Erro Tipo I.
comprender os conceitos e a terminologia empregados. Anlise multivariada Anlise de mltiplas variveis
Ao longo do captulo, os termos-chave aparecem em ne- em um nico relacionamento ou conjunto de rela-
grito. Outros pontos que merecem destaque, alm das re- es.
ferncias cruzadas nos termos-chave, esto em itlico.
24 ANLISE MULTIVARIADA DE DADOS

Anlise univariada de varincia (ANOVA) Tcnica es- varivel como tentativa de aumentar a confiabilidade da
tatstica para determinar, com base em uma medida de- medida por meio de medida multivariada. Na maioria
pendente, se vrias amostras so oriundas de popula- dos exemplos, as variveis separadas so somadas e em
es com mdias iguais. seguida seu escore total ou mdio usado na anlise.
Beta () Ver Erro Tipo II. Indicador Varivel nica utilizada em conjuno com
Confiabilidade Extenso em que uma varivel ou um uma ou mais variveis diferentes para formar uma me-
conjunto de variveis consistente com o que se pre- dida composta.
tende medir. Se medidas repetidas forem executadas, Medida Composta Ver Escala mltipla.
as medidas confiveis sero consistentes em seus valo-
Medida multivariada Uso de duas ou mais variveis
res. diferente de validade, por se referir no ao que
como indicadores de uma nica medida composta. Por
deveria ser medido mas do modo como medido.
exemplo, um teste de personalidade pode oferecer as
Correlao parcial bivariada Correlao simples (duas respostas a diversas questes individuais (indicado-
variveis) entre dois conjuntos de resduos (varincias res), as quais so ento combinadas para formar um
inexplicadas) que permanecem depois que a associao escore nico (escala mltipla), que representa o tipo de
de outras variveis independentes removida. personalidade.
Dados mtricos Tambm chamados de dados quantitati- Multicolinearidade Extenso em que uma varivel po-
vos, dados intervalares ou dados proporcionais, essas medi- de ser explicada pelas outras variveis na anlise.
das identificam ou descrevem indivduos (ou objetos) medida que a multicolinearidade aumenta, fica mais
no apenas na posse de um atributo, mas tambm pela complicada a interpretao da varivel estatstica, uma
quantia ou grau em que o indivduo pode ser caracteri- vez que se torna mais difcil verificar o efeito de qual-
zado pelo atributo. Por exemplo, a idade ou o peso de quer varivel, devido a suas inter-relaes.
algum so dados mtricos. Poder Probabilidade de rejeitar corretamente a hiptese
Dados no-mtricos Tambm chamados de dados qua- nula quando a mesma falsa, ou seja, de encontrar cor-
litativos, so atributos, caractersticas ou proprieda- retamente um suposto relacionamento quando ele exis-
des categricas que identificam ou descrevem um in- te. Determinado como uma funo (1) do nvel de signi-
divduo ou objeto. Diferem dos dados mtricos no sen- ficncia estatstica () dado pelo pesquisador para um
tido de indicarem a presena de um atributo, mas no erro Tipo 1, (2) do tamanho da amostra utilizada na an-
a quantia. Exemplos so ocupaes (mdico, advoga- lise e (3) do tamanho do efeito examinado.
do, professor) ou status do comprador (comprador, Significncia prtica Mtodo de avaliar resultados da
no-comprador). So tambm conhecidos como dados anlise multivariada baseado em suas descobertas
nominais ou dados ordinais. substanciais, em vez de sua significncia estatstica. En-
Erro de especificao Omisso de uma varivel-chave quanto a significncia estatstica determina se o resulta-
da anlise, que causa um impacto sobre os efeitos esti- do pode ser atribudo ao acaso, a significncia prtica
mados de variveis includas. avalia se o resultado til (i.e., substancial o bastante
Erro de medida Impreciso na mensurao dos valores para garantir ao).
verdadeiros das variveis devido falibilidade do Tamanho do efeito Estimativa do grau em que o fen-
instrumento de medida (ou seja, escalas de respostas meno estudado (p. ex., correlao ou diferena em m-
inapropriadas), erros na entrada de dados ou enganos dias) existe na populao.
dos respondentes. Tcnica de dependncia Classificao de tcnicas esta-
Erro Tipo I Probabilidade de rejeitar incorretamente a tsticas diferenciadas por terem uma varivel ou um
hiptese nula na maioria dos casos, isso significa dizer conjunto de variveis identificado como a(s) varivel(eis)
que existe uma diferena ou correlao quando na ver- dependente(s) e a(s) varivel(eis) remanescente(s) como
dade no o caso. Tambm chamado de alfa (). Nveis independente(s). O objetivo a previso da(s) vari-
comuns so 5 ou 1%, chamados de nvel 0,05 ou 0,01, vel(eis) dependente(s) pela(s) varivel(eis) independen-
respectivamente. te(s). Um exemplo a anlise de regresso.
Erro Tipo II Probabilidade de falhar incorretamente na Tcnica de interdependncia Classificao de tcnicas
rejeio da hiptese nula em termos simples, a proba- estatsticas nas quais as variveis no so divididas em
bilidade de no encontrar uma correlao ou diferena conjuntos dependentes e independentes (p. ex., anlise fato-
na mdia quando ela existe. Tambm chamado de beta rial), todas as variveis so analisadas como um nico
(), est inversamente relacionado ao erro Tipo I. O valor conjunto.
1 menos o erro Tipo II definido como poder. Tratamento Varivel independente que o pesquisador
Escalas Mltiplas Mtodo de combinao de diversas manipula para ver o efeito (se houver) sobre a(s) vari-
variveis que medem o mesmo conceito em uma nica vel(eis) dependente(s), como em um experimento.
INTRODUO 25

Validade Extenso em que uma medida ou um conjunto estatstica. Menos livros ainda discutem as aplicaes da
de medidas representa corretamente o conceito do estu- estatstica multivariada, oferecendo uma discusso con-
do o grau em que se est livre de qualquer erro siste- ceitual dos mtodos estatsticos. Este livro foi escrito
mtico ou no-aleatrio. A validade se refere a quo para preencher tal lacuna.
bem o conceito definido pela(s) medida(s), enquanto Livros orientados a aplicaes so de interesse cru-
confiabilidade se refere consistncia da(s) medida(s). cial para cientistas do comportamento e administrado-
Varivel dependente Efeito presumido, ou resposta, a res, sejam do governo ou de empresas, que tm de ex-
uma mudana na(s) varivel(eis) independente(s). pandir seu conhecimento de anlise multivariada para
compreender melhor os fenmenos complexos em seu
Varivel dicotmica Varivel no-mtrica transformada
ambiente de trabalho. Qualquer pesquisador que exami-
em uma varivel mtrica designando-se 1 ou 0 a um ob-
ne apenas relaes entre duas variveis e evite anlise
jeto, dependendo se este possui ou no uma caracters-
multivariada estar ignorando poderosas ferramentas
tica particular.
que podem dar informaes potencialmente teis. Como
Varivel estatstica Combinao linear de variveis for- j foi dito, Para os propsitos de qualquer rea apli-
mada na tcnica multivariada determinando-se pesos cada, a maioria de nossas ferramentas , ou deveria ser,
empricos aplicados a um conjunto de variveis especi- multivariada. Somos levados concluso de que a me-
ficado pelo pesquisador. nos que um problema seja tratado como multivariado,
Varivel independente Causa presumida de qualquer ser tratado superficialmente [7, p. 158]. De acordo com
mudana na varivel dependente. os estatsticos Hardyck e Petrinovich [8, p. 7]:

Os mtodos de anlise multivariada predominaro no fu-


turo e resultaro em drsticas mudanas na maneira co-
mo profissionais de pesquisa pensam em problemas e
O que anlise multivariada? planejam sua pesquisa. Esses mtodos tornam possvel le-
A tecnologia computacional hoje disponvel, quase inima- vantar questes especficas e precisas de considervel
ginvel apenas duas dcadas atrs, tem feito avanos ex- complexidade em cenrios naturais. Isso viabiliza a con-
traordinrios na anlise de dados psicolgicos, sociolgi- duo de pesquisas teoricamente importantes e a avalia-
o dos efeitos de variaes paramtricas que natural-
cos e outros tipos de dados comportamentais. Esse im-
mente ocorrem no contexto em que elas normalmente
pacto mais evidente na relativa facilidade com que com-
aparecem. Dessa maneira, as correlaes naturais entre as
putadores podem analisar grandes quantidades de dados mltiplas influncias de comportamento podem ser pre-
complexos. Praticamente qualquer problema atual facil- servadas e efeitos separados dessas influncias, estuda-
mente analisado por vrios programas estatsticos em mi- dos estatisticamente sem causar um isolamento comum
crocomputadores. Alm disso, os efeitos do progresso tec- de qualquer indivduo ou varivel.
nolgico tm se estendido para alm da habilidade de
manipular dados, libertando pesquisadores de restries Por exemplo, os homens de negcios de hoje no conse-
do passado na anlise de dados e conferindo-lhes condi- guem seguir a abordagem simplista na qual os consumi-
es de se engajarem em um desenvolvimento e uma ava- dores so considerados homogneos e caracterizados por
liao mais importantes de seus modelos tericos. Limita- um pequeno nmero de variveis demogrficas. Ao in-
es metodolgicas no so mais uma preocupao cru- vs disso, eles devem desenvolver estratgias que ape-
cial para o terico que se esfora por apoio emprico. Boa lem a inmeros segmentos de clientes com caractersticas
parte dessa crescente compreenso e domnio da anlise demogrficas e psicogrficas variadas em um mercado
de dados vem do estudo de estatstica e inferncia estats- com mltiplas restries (p. ex., legais, econmicas, com-
tica. Igualmente importante, contudo, tm sido o entendi- petitivas, tecnolgicas). somente por meio de tcnicas
mento e a aplicao cada vez maiores de um grupo de tc- multivariadas que essas mltiplas relaes podem ser
nicas estatsticas conhecido como anlise multivariada. adequadamente examinadas para se obter uma com-
Tcnicas analticas multivariadas esto sendo am- preenso mais completa e realista na tomada de decises.
plamente aplicadas na indstria, no governo e em cen- Ao longo do texto, usamos o termo genrico pesqui-
tros de pesquisa acadmica. Alm disso, poucas reas sador quando nos referimos a um analista de dados,
de estudo ou pesquisa tm falhado na integrao de tc- profissional ou acadmico. Julgamos inapropriado fazer
nicas multivariadas em suas ferramentas analticas. distino entre essas duas reas, uma vez que a atividade
Para atender a esse interesse crescente, tm sido publi- de pesquisa deve se sustentar em bases tericas e quanti-
cados muitos livros e artigos que tratam dos aspectos tativas. A despeito de os objetivos da pesquisa e da nfa-
tericos e matemticos dessas ferramentas, e textos in- se na interpretao poderem variar, um pesquisador em
trodutrios tambm tm surgido em quase todas as qualquer rea deve abordar todos os tpicos, sejam con-
reas. Poucos livros, porm, tm sido escritos para o ceituais ou empricos, que surgem nas discusses sobre
pesquisador que no especialista em matemtica ou os mtodos estatsticos.
26 ANLISE MULTIVARIADA DE DADOS

Programas estatsticos no so mais primeiramente


O impacto da revoluo na informtica desenvolvidos para sistemas de grande porte e ento
adaptados para computadores pessoais; em vez disso,
quase impossvel discutir a aplicao de tcnicas mul-
eles agora so incialmente desenvolvidos para o micro-
tivariadas sem uma discusso do impacto do computa-
computador. Talvez a categoria de programas estatsticos
dor. Como anteriormente mencionado, a ampla aplica-
de mais rpido crescimento seja a dos pacotes estatsticos
o de computadores (primeiro de grande porte e depois
projetados especificamente para tirar proveito da flexibi-
computadores pessoais) para processar bancos de dados
lidade do computador pessoal. Tcnicas multivariadas
grandes e complexos tem incentivado significativamen-
so to difundidas que todas as tcnicas ilustradas neste
te o uso de mtodos estatsticos multivariados. A teoria
texto podem ser avaliadas com pacotes estatsticos pron-
estatstica para tcnicas multivariadas de hoje foi desen-
tamente disponveis tanto para computadores de grande
volvida bem antes do surgimento de computadores,
porte quanto minicomputadores ou computadores pes-
mas essas tcnicas permaneceram quase desconhecidas
soais. Uma lista abrangente dos principais programas
fora da rea de estatstica terica at o momento em que
disponveis de anlise multivariada pode ser encontrada
o poder computacional tornou-se disponvel para execu-
no Apndice A. Dedica-se especial ateno a programas
tar seus clculos cada vez mais complexos. Os avanos
de computadores pessoais.
tecnolgicos contnuos em computao, particularmen-
te em computadores pessoais, tm oferecido, a qualquer
pesquisador interessado, rpido acesso a todos os recur-
sos necessrios para abordar problemas multivariados
de praticamente qualquer tamanho. De fato, muitos pes- Definio de anlise multivariada
quisadores referem-se a si mesmos como analistas de da- No fcil definir anlise multivariada. De um modo
dos, em vez de estatsticos ou (como no vernculo) geral, ela refere-se a todos os mtodos estatsticos que
quantitativistas. Esses analistas de dados tm contri- simultaneamente analisam mltiplas medidas sobre ca-
budo substancialmente para o aumento do uso e da da indivduo ou objeto sob investigao. Qualquer an-
aceitao da estatstica multivariada em setores priva- lise simultnea de mais de duas variveis de certo mo-
dos e do governo. Dentro da comunidade acadmica, do pode ser considerada anlise multivariada. Assim,
disciplinas em todas as reas tm adotado tcnicas mul- muitas tcnicas multivariadas so extenses da anlise
tivariadas, e cada vez mais freqentemente acadmicos univariada (anlise de distribuies de uma nica va-
devem ser versados nas tcnicas multivariadas apro- rivel) e da anlise bivariada (classificao cruzada, cor-
priadas para suas pesquisas empricas. Mesmo para pes- relao, anlise de varincia e regresso simples usada
soas com forte qualificao quantitativa, a disponibilida- para analisar duas variveis). Por exemplo, regresso
de de pacotes computacionais para anlise multivariada simples (com uma varivel preditora) estendida no
tem facilitado a complexa manipulao de matrizes de caso multivariado para incluir vrias variveis predito-
dados que h muito tempo tm dificultado o desenvol- ras. Do mesmo modo, a varivel dependente isolada
vimento de tcnicas multivariadas. encontrada na anlise de varincia estendida de for-
Muitas universidades de porte j exigem que os ca- ma a incluir mltiplas variveis dependentes em anli-
louros comprem seus prprios computadores antes da se multivariada de varincia. Em muitos casos, tcnicas
matrcula, e estudantes e professores agora rotineira- multivariadas so um meio de executar em uma nica
mente analisam dados multivariados para responder a anlise aquilo que antes exigia mltiplas anlises usan-
questes em reas de estudo que vo da antropologia do tcnicas univariadas. Outras tcnicas multivariadas,
zoologia. Todos os pacotes estatsticos abrangentes ela- contudo, so unicamente projetadas para lidar com
borados para computadores de grande porte (p. ex., questes multivariadas, como anlise fatorial, que iden-
SPSS, SAS e BMDP) esto agora disponveis tambm em tifica a estrutura subjacente a um conjunto de variveis,
computadores pessoais. Programas especializados para ou anlise discriminante, que discrimina grupos com
outros tipos de anlise multivariada, incluindo escalo- base em um conjunto de variveis.
namento multidimensional, modelagem de equaes si- Uma razo para a dificuldade de definir anlise mul-
multneas e estruturais e anlise conjunta, estavam ao tivariada que o termo multivariada no usado de ma-
alcance apenas mas com limitaes em computado- neira consistente na literatura. Alguns pesquisadores o
res de grande porte, porm hoje eles so compatveis utilizam simplesmente para designar o exame de rela-
com computadores pessoais. Sistemas especialistas es- es entre mais de duas variveis. Outros, somente em
to sendo desenvolvidos para tratar at mesmo de ques- problemas nos quais todas as variveis mltiplas so
tes como a seleo de uma tcnica estatstica [4] ou o consideradas como tendo uma distribuio normal mul-
delineamento de um plano de amostragem para garan- tivariada. Para ser considerada verdadeiramente como
tir objetivos estatsticos e prticos almejados [3]. multivariada, contudo, todas as variveis devem ser
INTRODUO 27

aleatrias e inter-relacionadas de maneira que seus dife- que diferencie de forma mxima entre grupos de obser-
rentes efeitos no podem ser significativamente interpre- vaes. Em anlise fatorial, variveis estatsticas so for-
tados de forma separada. Alguns autores estabelecem que madas para melhor representarem a estrutura subjacente
o propsito da anlise multivariada medir, explicar e ou a dimensionalidade das variveis como representadas
prever o grau de relacionamento entre variveis estatsti- por suas intercorrelaes.
cas (combinaes ponderadas de variveis). Desse modo, Em cada caso, a varivel estatstica captura o carter
o carter multivariado consiste nas mltiplas variveis es- multivariado da anlise. Assim, em nossa discusso de
tatsticas (combinaes mltiplas de variveis) e no ape- cada tcnica, a varivel estatstica foco da anlise em
nas no nmero de variveis ou observaes. Para os pro- muitos aspectos. Devemos compreender no apenas seu
psitos deste livro, no insistimos em uma definio rgi- impacto coletivo em satisfazer o objetivo da tcnica, mas
da. A anlise multivariada incluir tanto as tcnicas de tambm a contribuio de cada varivel separada para o
mltiplas variveis quanto as tcnicas verdadeiramente efeito geral da varivel estatstica.
multivariadas, uma vez que acreditamos que o conheci-
mento de tcnicas de mltiplas variveis um primeiro
passo essencial na compreenso da anlise multivariada.
Escalas de medida
A anlise de dados envolve a partio, a identificao e a
medida de variao em um conjunto de variveis, seja en-
tre elas ou entre uma varivel dependente e uma ou mais
Alguns conceitos bsicos de anlise variveis independentes. A palavra-chave aqui medida,
multivariada pois o pesquisador no pode repartir ou identificar varia-
o a menos que ela possa ser medida. A mensurao
Apesar de a anlise multivariada ter suas razes nas esta- importante para representar com preciso o conceito de
tsticas univariada e bivariada, a extenso para o dom- interesse e instrumental na seleo do mtodo multiva-
nio multivariado introduz conceitos adicionais e ques- riado apropriado para anlise. A seguir, discutimos como
tes que tm particular relevncia. Esses conceitos va- o conceito de medida se relaciona anlise de dados e
riam da necessidade de uma compreenso conceitual do particularmente s vrias tcnicas multivariadas.
constructo da anlise multivariada a varivel estatsti- H dois tipos bsicos de dados: no-mtricos (quali-
ca at pontos especficos que lidam com os tipos de es- tativos) e mtricos (quantitativos). Dados no-mtricos
calas de medida empregadas e as questes estastticas de so atributos, caractersticas ou propriedades categricas
testes de significncia e nveis de confiana. Cada concei- que identificam ou descrevem um objeto. Descrevem di-
to tem um papel significativo na aplicao bem-sucedida ferenas em tipo ou espcie, indicando a presena ou au-
de qualquer tcnica multivariada. sncia de uma caracterstica ou propriedade. Muitas pro-
priedades so discretas, no sentido de terem uma caracte-
A varivel estatstica rstica particular, sendo todas as outras caractersticas ex-
cludas; por exemplo, se algum do sexo masculino, no
Como anteriormente mencionado, o constructo da anli- pode ser do sexo feminino. No existe qualquer quan-
se multivariada a varivel estatstica, uma combinao tia de sexo; h apenas o estado de ser masculino ou femi-
linear de variveis com pesos empiricamente determina- nino. Em contrapartida, medidas de dados mtricos so
dos. As variveis so especificadas pelo pesquisador, feitas de modo que os indivduos podem ser identificados
sendo os pesos determinados pela tcnica multivariada como diferenciados em quantia ou grau. Variveis metri-
para atingir um objetivo especfico. Uma varivel estats- camente medidas refletem quantidade relativa ou grau.
tica de n variveis ponderadas (X1 at Xn) pode ser enun- Medidas mtricas so apropriadas para casos que envol-
ciada matematicamente como: vem quantia ou magnitude, como nvel de satisfao ou
compromisso com um emprego.
Valor da varivel estatstica =
w1X1 + w2X2 + w3X3 + + wnXn

onde Xn a varivel observada e wn o peso determina- Escalas de medida no-mtrica


do pela tcnica multivariada. As medidas no-mtricas podem ser feitas com uma es-
O resultado um nico valor que representa uma cala nominal ou ordinal. A medida com uma escala no-
combinao do conjunto inteiro de variveis que melhor minal designa nmeros usados para rotular ou identifi-
atinge o objetivo da anlise multivariada especfica. Em car indivduos ou objetos. As escalas nominais, tambm
regresso mltipla, a varivel estatstica determinada conhecidas como escalas categricas, fornecem o nme-
de modo a melhor se correlacionar com a varivel a ser ro de ocorrncias em cada classe ou categoria da vari-
prevista. Em anlise discriminante, a varivel estatstica vel em estudo. Portanto, os nmeros ou smbolos desig-
formada de modo a criar escores para cada observao nados aos objetos no tm significado quantitativo alm
28 ANLISE MULTIVARIADA DE DADOS

da indicao da presena ou ausncia do atributo ou ca- mltiplo de algum outro ponto da escala. Por exemplo,
racterstica sob investigao. Exemplos de dados esca- no se pode considerar que um dia de 80F tenha o do-
lonados nominalmente incluem o sexo , a religio ou o bro de temperatura de um dia de 40F, pois sabemos
partido poltico de um indivduo. Ao trabalhar com es- que 80F, em uma escala diferente, como Celsius,
ses dados, o pesquisador pode designar nmeros para 26,7C. Do mesmo modo, 40F em Celsius 4,4C. Ape-
cada categoria, por exemplo, 2 para mulheres e 1 para sar de 80F ser de fato o dobro de 40F, no podemos
homens. Esses nmeros simplesmente representam ca- afirmar que o calor de 80F o dobro do calor de 40F, j
tegorias ou classes e no implicam quantias de um atri- que, usando diferentes escalas, o calor no tem o dobro
buto ou caracterstica. da intensidade, isto , 4,4C 2 26,7C.
Escalas ordinais so o prximo nvel superior de As escalas de razo representam a mais elevada for-
preciso em medida. Variveis podem ser ordenadas ou ma de preciso de medida, pois possuem as vantagens
ranqueadas com escalas ordinais em relao quantia de todas as escalas inferiores somadas existncia de
do atributo possuda. Toda subclasse pode ser compara- um ponto zero absoluto. Todas as operaes matemti-
da com outra em termos de uma relao da forma cas so possveis com medidas de escala razo. As ba-
maior que ou menos que. Por exemplo, diferentes lanas de banheiros ou outros aparelhos comuns para
nveis de satisfao de um consumidor em relao a di- medir pesos so exemplos dessas escalas, pois tm um
versos novos produtos podem ser ilustrados em uma ponto zero absoluto, e assim podemos falar em termos
escala ordinal. A escala a seguir mostra a opinio de um de mltiplos quando relacionamos um ponto da escala
respondente sobre trs produtos. Ele est mais satisfei- com outro; por exemplo, 100 libras duas vezes o peso
to com A do que com B e mais satisfeito com B do que de 50 libras.
com C. Compreender os diferentes tipos de escalas de me-
dida importante por duas razes. Primeiro, o pesqui-
Produto A Produto B Produto C
sador deve identificar a escala de medida de cada va-
rivel usada, de forma que dados no-mtricos no se-
jam incorretamente usados como dados mtricos e vi-
Muito satisfeito Insatisfeito
ce-versa. Segundo, a escala de medida crtica ao de-
terminar quais tcnicas multivariadas so as mais apli-
Os nmeros utilizados em escalas ordinais, como esses, cveis aos dados, com consideraes feitas para ambas
so no-quantitativos, pois indicam apenas posies re- as variveis, independentes e dependentes. Na discus-
lativas em uma srie ordenada. No existe medida de so sobre as tcnicas e sua classificao em sees,
grau de satisfao do consumidor em termos absolutos, apresentadas mais adiante, as propriedades mtricas e
e o pesquisador tambm no sabe a diferena exata en- no-mtricas de variveis independentes e dependen-
tre pontos na escala de satisfao. Muitas escalas em tes so os fatores determinantes na escolha da tcnica
cincias do comportamento recaem nessa categoria or- apropriada.
dinal.
Erro de medida e medida multivariada
Escalas de medida mtrica
O uso de variveis mltiplas e a confiana em sua combi-
As escalas intervalares e escalas de razo (ambas mtri- nao (a varivel estatstica) em tcnicas multivariadas
cas) fornecem o mais alto nvel de preciso de medida, tambm concentra a ateno em uma questo comple-
permitindo que quase todas as operaes matemticas mentar o erro de medida. Erro de medida o grau em
sejam executadas. Essas duas escalas tm unidades que os valores observados no so representativos dos
constantes de medida e, portanto, diferenas entre valores verdadeiros. Tem muitas fontes, que variam
quaisquer dois pontos adjacentes em qualquer parte da desde os erros na entrada de dados devido impreciso
escala so iguais. A nica diferena real entre escalas in- da medida (p. ex., impor escalas com sete pontos para
tervalares e escalas de razo que as primeiras tm um medida de atitude quando o pesquisador sabe que os
ponto zero arbitrrio, enquanto as segundas tm um respondentes podem responder precisamente apenas
ponto zero absoluto. As escalas intervalares mais fami- em escalas de trs pontos) at a falta de habilidade de
liares so as escalas de temperatura Fahrenheit e Cel- respondentes em fornecerem informaes precisas (p.
sius. Cada uma tem um ponto zero arbitrrio diferente ex., respostas como a renda familiar podem ser razoa-
e nenhuma indica uma quantia nula ou ausncia de velmente corretas, mas raramente exatas). Assim, todas
temperatura, j que podemos registrar temperaturas as variveis usadas em tcnicas multivariadas devem
abaixo do ponto zero em ambas. Logo, no possvel ser consideradas como tendo um certo grau de erro de
dizer que qualquer valor em uma escala intervalar um medida. O impacto de erro de medida o acrscimo de
INTRODUO 29

rudo s variveis observadas ou medidas. Logo, o posta e em diferentes reas de interesse imaginadas pa-
valor observado obtido representa tanto o nvel verda- ra constituir a satisfao geral. A premissa que respos-
deiro quanto o rudo. Quando usado para computar tas mltiplas refletem a resposta verdadeira com
correlaes ou mdias, o efeito verdadeiro parcial- maior preciso do que uma nica resposta. Avaliao de
mente mascarado pelo erro de medida, causando um confiabilidade e incorporao de escalas na anlise so
enfraquecimento nas correlaes e menor preciso nas mtodos que o pesquisador deve empregar. Para uma
mdias. O impacto especfico de erro de medida e sua introduo mais detalhada a modelos de mltiplas me-
acomodao em relacionamentos de dependncia didas e construo de escalas, ver discusso suplemen-
abordado mais detalhadamente no Captulo 11. tar no Captulo 3 (Anlise Fatorial) e no Captulo 11
O objetivo do pesquisador de reduzir o erro de medi- (Modelagem de Equaes Estruturais) ou textos adicio-
da pode seguir diversos caminhos. Ao avaliar o grau de nais [10]. Alm disso, compilaes de escalas que podem
erro presente em qualquer medida, o pesquisador deve fornecer ao pesquisador uma escala pronta para usar
levar em conta a validade e a confiabilidade da medida. com confiabilidade demonstrada tm sido publicadas re-
Validade o grau em que uma medida representa preci- centemente [1,5].
samente aquilo que se espera. Por exemplo, se queremos
O impacto de erro de medida e a confiabilidade ruim
medir renda discricionria, no devemos perguntar a
no podem ser diretamente percebidos, uma vez que es-
renda familiar total. A garantia da validade comea com
to embutidos nas variveis observadas. Portanto, o pes-
uma compreenso direta do que deve ser medido e ento
realizar a medida to correta e precisa quanto possvel. quisador sempre deve trabalhar para aumentar a confia-
No entanto, valores exatos no garantem validade. Em bilidade e a validade, que em contrapartida resultaro
nosso exemplo de renda, o pesquisador poderia definir em uma descrio mais verdadeira das variveis de in-
com grande exatido o que renda familiar, mas ainda teresse. Resultados pobres no so sempre devido a erro
ter uma medida invlida de renda discricionria porque de medida, mas a presena de erro de medida certamen-
a pergunta correta no foi formulada. te distorce as relaes observadas e torna as tcnicas mul-
Se a validade est garantida, o pesquisador deve ain- tivariadas menos poderosas. Reduzir erro de medida,
da considerar a confiabilidade das medidas. Confiabili- apesar de demandar esforo, tempo e recursos adicio-
dade o grau em que a varivel observada mede o valor nais, pode melhorar resultados fracos ou marginais, bem
verdadeiro e est livre de erro; assim, o oposto de como fortalecer resultados demonstrados.
erro de medida. Se a mesma medida for feita repetida-
mente, por exemplo, medidas mais confiveis mostraro
maior consistncia do que medidas menos confiveis. O
Significncia estatstica versus
pesquisador sempre deve avaliar as variveis emprega- poder estatstico
das e se medidas alternativas vlidas esto disponveis, e Todas as tcnicas multivariadas, exceto anlise de agru-
ento escolher a varivel com a maior confiabilidade. pamentos e escalonamento multidimensional, so ba-
Alm disso, o pesquisador pode querer desenvolver seadas na inferncia estatstica dos valores ou relaes
medidas multivariadas, tambm conhecidas como esca- de uma populao entre variveis de uma amostra alea-
las mltiplas, nas quais diversas variveis so reunidas tria extrada daquela populao. Se conduzimos um
em uma medida composta para representar um conceito
censo da populao inteira, ento a inferncia estatsti-
(p. ex., escalas de personalidade com mltiplos itens ou
ca desnecessria, pois qualquer diferena ou relao,
escalas mltiplas de satisfao com um produto). O obje-
no importa quo pequena, verdadeira e existe. En-
tivo evitar o uso de apenas uma varivel para represen-
tretanto, raramente, ou nunca, um censo realizado; lo-
tar um conceito e, ao invs disso, usar vrias variveis
go, o pesquisador obrigado a fazer inferncias a partir
como indicadores (ver Termos-Chave), todos represen-
de uma amostra.
tando diferentes facetas do conceito, para se obter uma
perspectiva mais ampla. O uso de mltiplos indicado- Interpretar inferncias estatsticas requer que o pes-
res permite ao pesquisador especificar mais precisa- quisador especifique os nveis de erro estatstico aceit-
mente as respostas desejadas. No deposita total con- veis. A abordagem mais comum especificar o nvel do
fiana em uma nica resposta, mas na resposta mdia erro Tipo I, tambm conhecido como alfa (). O erro Ti-
ou tpica de um conjunto de respostas relacionadas. po I a probabilidade de rejeitar a hiptese nula quan-
Por exemplo, ao medir satisfao, poder-se-ia perguntar do a mesma verdadeira, ou, em termos simples, a
simplesmente Quo satisfeito voc est? e basear a chance de o teste exibir significncia estatstica quando
anlise nesta nica resposta. Ou uma escala mltipla na verdade esta no est presente o caso de um posi-
poderia ser desenvolvida combinando-se vrias respos- tivo falso. Ao especificar um nvel alfa, o pesquisador
tas de satisfao, talvez em diferentes formatos de res- estabelece os limites permitidos para erro, especifican-
30 ANLISE MULTIVARIADA DE DADOS

do a probabilidade de se concluir que a significncia es, o tamanho do efeito baseado na real correla-
existe quando na realidade esta no ocorre. o entre as variveis.
Quando especifica o nvel de erro Tipo I, o pesquisa- 2. Alfa () Como j foi discutido, quando alfa se torna
dor tambm determina um erro associado, chamado de mais restritivo, o poder diminui. Isso significa que
erro Tipo II ou beta (). O erro Tipo II a probabilidade quando o pesquisador reduz a chance de encontrar
de no rejeitar a hiptese nula quando na realidade esta um efeito significante incorreto, a probabilidade de
falsa. Uma probabilidade ainda mais interessante 1 , corretamente encontrar um efeito tambm diminui.
chamada de poder do teste de inferncia estatstica. Po- Diretrizes convencionais sugerem nveis de alfa de
der a probabilidade de rejeitar corretamente a hiptese 0,05 ou 0,01. Entretanto, o pesquisador deve conside-
nula quando esta deve ser rejeitada. rar o impacto dessa deciso sobre o poder antes de
Logo, poder a probabilidade de a significncia esta- selecionar o nvel alfa. A relao dessas duas probabi-
tstica ser indicada se estiver presente. A relao das dife- lidades ilustrada em discusses posteriores.
rentes probabilidades de erro na situao hipottica de
teste para a diferena em duas mdias mostrada aqui: 3. Tamanho da amostra Em qualquer nvel alfa, tama-
nhos de amostras aumentados sempre produzem
Realidade
maior poder do teste estatstico. No entanto, aumentar
H0: sem diferena Ha: com diferena
o tamanho da amostra tambm pode produzir poder
H0: sem em excesso. Isso significa que se aumentarmos o ta-
1
diferena Erro Tipo II manho da amostra, efeitos cada vez menores sero
Deciso
estatstica considerados estatisticamente significantes, at o pon-
Ha: com 1 to em que para tamanhos de amostra muito grandes
diferena Erro Tipo I Poder praticamente qualquer efeito ser significante. O pes-
quisador sempre deve estar ciente de que o tamanho
Apesar de a especificao de alfa estabelecer o nvel de da amostra pode impactar o teste estatstico, tornan-
significncia estatstica aceitvel, o nvel de poder que do-o insensvel (com amostras pequenas) ou exagera-
determina a probabilidade de sucesso em encontrar as damente sensvel (com amostras muito grandes).
diferenas se elas realmente existirem. Ento por que no
As relaes entre alfa, tamanho da amostra, tama-
fixar alfa e beta em nveis aceitveis? Porque os erros Ti-
nho do efeito e poder so muito complicadas, e muitas
po I e Tipo II so inversamente relacionados e, medida
referncias de orientao esto disponveis. Cohen [6]
que o erro Tipo I se torna mais restritivo (se aproxima de
examina o poder para a maioria dos testes de inferncia
zero), o erro Tipo II aumenta. Reduzir erros Tipo I, por-
estatstica e apresenta uma orientao para nveis acei-
tanto, reduz o poder do teste estatstico. Assim, o pesqui-
tveis de poder, sugerindo que estudos devem ser pla-
sador deve jogar com o equilbrio entre o nvel alfa e o
nejados para atingir nveis alfa de pelo menos 0,05 com
poder resultante.
nveis de poder de 80%. Para atingir tais nveis de po-
O poder no apenas uma funo de . na verda-
der, os trs fatores alfa, tamanho da amostra e tama-
de determinado por trs fatores:
nho do efeito devem ser considerados simultanea-
1. Tamanho do efeito A probabilidade de atingir sig- mente. Essas inter-relaes podem ser ilustradas por
nificncia estatstica, baseada no apenas em consi- dois exemplos simples. O primeiro envolve o teste para
deraes estatsticas, mas tambm na verdadeira a diferena entre os escores mdios de dois grupos.
magnitude do efeito de interesse (p. ex., uma diferen- Considere que o tamanho do efeito deva variar entre
a de mdias entre dois grupos ou a correlao entre pequeno (0,2) e moderado (0,5). O pesquisador agora
variveis) na populao, denominado tamanho do deve determinar o nvel alfa necessrio e o tamanho da
efeito* (ver Termos-Chave). Como era de se esperar, amostra de cada grupo. A Tabela 1.1 ilustra o impacto
um efeito maior mais facilmente encontrado do que do tamanho da amostra e do nvel alfa necessrio sobre
um efeito menor, o que causa impacto no poder do o poder. Como se v, o poder se torna aceitvel com ta-
teste estatstico. Para avaliar o poder de qualquer tes- manhos de amostra de 100 ou mais em situaes com
te estatstico, o pesquisador deve primeiro com- um tamanho de efeito moderado nos dois nveis alfa.
preender o efeito sendo examinado. Os tamanhos de Todavia, quando o tamanho do efeito pequeno, os tes-
efeito so definidos em termos padronizados para fa- tes estatsticos tm pouco poder, mesmo com nveis alfa
cilitar a comparao. As diferenas de mdia so da- expandidos ou amostras de 200 ou mais. Por exemplo,
das em termos de desvios-padro, de modo que um uma amostra de 200 em cada grupo, com um alfa de
tamanho de efeito de 0,5 indica que a diferena de 0,05, ainda tem apenas 50% de chance de diferenas sig-
mdia metade de um desvio-padro. Para correla- nificantes serem encontradas se o tamanho do efeito for
pequeno. Isso sugere que se o pesquisador antecipar
* N. de R.T. Em ingls, effect size (ES). que os efeitos sero pequenos, ele dever planejar o es-
INTRODUO 31

TABELA 1.1 Nveis de poder para a comparao de duas mdias: variaes por tamanho de amostra, nvel de significncia e
tamanho do efeito
alfa () = 0,05 alfa () = 0,01
Tamanho do efeito (ES - Effect Size)
_________________________________________ Tamanho do efeito (ES)
____________________________________________
Tamanho da amostra Pequeno (0,2) Moderado (0,5) Pequeno (0,2) Moderado (0,5)

20 0,095 0,338 0,025 0,144


40 0,143 0,598 0,045 0,349
60 0,192 0,775 0,067 0,549
80 0,242 0,882 0,092 0,709
100 0,290 0,940 0,120 0,823
150 0,411 0,990 0,201 0,959
200 0,516 0,998 0,284 0,992

Fonte: Solo Power Analysis, BMDP Statistical Software, Inc.

tudo com tamanhos de amostra muito maiores e/ou n- de 80% alcanado com amostras de 130 para um nvel
veis alfa menos restritivos (0,05 ou 0,10). alfa de 0,05 e de 100 para um nvel alfa de 0,10.
No segundo exemplo, a Figura 1.1 apresenta grafica- Tais anlises permitem que o pesquisador tenha
mente o poder para nveis de significncia 0,01, 0,05 e mais informaes para tomar decises sobre o planeja-
0,10 para tamanhos de amostra de 30 a 300 por grupo, mento de estudo e a interpretao dos resultados. Ao
quando o tamanho do efeito (0,35) est entre pequeno e planejar uma pesquisa, o pesquisador deve estimar o
moderado. Diante de tais perspectivas, a especificao de tamanho do efeito e ento selecionar o tamanho da
um nvel de significncia de 0,01 requer uma amostra de amostra e alfa para atingir o nvel de poder desejado.
200 por grupo para atingir o nvel desejado de 80% de Alm de seus usos para planejamento, a anlise de po-
poder. No entanto, se o nvel alfa relaxado, um poder der tambm utilizada depois que a anlise est com-

1,0

= 0,10
0,8
Poder sugerido: 0,80

= 0,05
0,6
Poder

0,4
Tamanho do efeito: 0,35
= 0,01

0,2

0,0
30 50 70 90 110 130 150 170 190 210 230 250 270 290
Tamanho da amostra por grupo

FIGURA 1.1 Impacto do tamanho da amostra sobre o poder para vrios nveis alfa (0,01, 0,05, 0,10) com tamanho do
efeito de 0,35.
32 ANLISE MULTIVARIADA DE DADOS

pleta para determinar o real poder alcanado, de modo meio de condensar a informao contida em um n-
que os resultados possam ser apropriadamente inter- mero de variveis originais em um conjunto menor de
pretados. Os resultados so devido a tamanhos de efei- variveis estatsticas (fatores) com uma perda mnima
to, tamanhos das amostras ou nveis de significncia? O de informao. Pelo fato de fornecer uma estimativa
pesquisador pode avaliar cada um desses fatores por emprica da estrutura das variveis consideradas, a
seu impacto na significncia ou no-significncia dos anlise fatorial se torna uma base objetiva para criar
resultados. O pesquisador de hoje pode consultar estu- escalas mltiplas.
dos publicados que detalham as especificaes da de-
terminao de poder [6] ou apelar para diversos progra-
mas de computador que auxiliam no planejamento de
Regresso mltipla
estudos com o propsito de atingir o poder desejado ou Regresso mltipla o mtodo de anlise apropriado
calcular o poder de resultados reais [2,3]. Orientaes quando o problema de pesquisa envolve uma nica va-
especficas para regresso mltipla e anlise multivaria- rivel dependente mtrica considerada relacionada a
da de varincia as aplicaes mais comuns de anlise duas ou mais variveis independentes mtricas. O obje-
de poder so discutidas com mais detalhes nos Cap- tivo da anlise de regresso mltipla prever as mudan-
tulos 4 e 6. as na varivel dependente como resposta a mudanas
Aps termos abordado as questes de estender tcni- nas variveis independentes. Esse objetivo alcanado,
cas multivariadas a partir de suas origens univariadas e com freqncia, por meio da regra estatstica dos mni-
bivariadas, agora introduzimos brevemente cada mto- mos quadrados.
do multivariado discutido no texto. Aps as introdues Sempre que o pesquisador estiver interessado em
das tcnicas, apresentamos um esquema de classificao prever a quantia ou magnitude da varivel dependente,
para auxiliar na seleo da tcnica apropriada, especifi- a regresso mltipla ser til. Por exemplo, despesas
cando os objetivos da pesquisa (relao de independn- mensais com jantares fora de casa (varivel dependen-
cia ou dependncia) e os tipos de dados (mtricos ou te) podem ser previstas a partir de informaes referen-
no-mtricos). tes a renda familiar, tamanho da famlia e idade do che-
fe da famlia (variveis independentes). Do mesmo mo-
do, o pesquisador pode tentar prever as vendas de uma
empresa a partir de informaes sobre suas despesas
Tipos de tcnicas multivariadas em publicidade, o nmero de vendedores e o nmero
de lojas que vendem seus produtos.
Anlise multivariada um conjunto de tcnicas para anli-
se de dados que est sempre em expanso. Dentre as tcni-
cas mais estabelecidas discutidas neste livro, esto (1) an- Anlise discriminante mltipla
lise de componentes principais e anlise dos fatores co-
Anlise discriminante mltipla (MDA multiple discri-
muns, (2) regresso mltipla e correlao mltipla, (3) an-
minant analysis) a tcnica multivariada adequada
lise discriminante mltipla, (4) anlise multivariada de va-
quando a nica varivel dependente dicotmica (p.
rincia e covarincia, (5) anlise conjunta, (6) correlao ca-
ex., masculino-feminino) ou multicotmica (p. ex., alto-
nnica, (7) anlise de agrupamentos e (8) escalonamento
mdio-baixo) e, portanto, no-mtrica. Como na regres-
multidimensional. Dentre as tcnicas emergentes, tambm
so mltipla, pressupe-se que as variveis indepen-
esto includas (9) anlise de correspondncia, (10) modelos
dentes sejam mtricas. A anlise discriminante aplic-
lineares de probabilidade, como logit e probit, e (11) a mode-
vel em situaes nas quais a amostra total pode ser divi-
lagem de equaes simultneas/estruturais. Aqui introdu-
dida em grupos baseados em uma varivel dependente
zimos cada uma das tcnicas multivariadas, definindo bre-
no-mtrica que caracteriza diversas classes conheci-
vemente a tcnica e o objetivo para sua aplicao.
das. Os objetivos primrios da anlise discriminante
mltipla so entender diferenas de grupos e prever a
Anlise de componentes principais e probabilidade de que uma entidade (indivduo ou obje-
anlise dos fatores comuns to) pertencer a uma classe ou grupo em particular com
base em diversas variveis independentes mtricas. Por
Anlise fatorial, que inclui anlise de componentes exemplo, a anlise discriminante poderia ser emprega-
principais e anlise dos fatores comuns, uma aborda- da para distinguir inovadores de no-inovadores de
gem estatstica que pode ser usada para analisar inter- acordo com seus perfis demogrficos e psicogrficos.
relaes entre um grande nmero de variveis e expli- Outras aplicaes incluem a distino de usurios de
car essas variveis em termos de suas dimenses ine- peso daqueles que no o so, sexo masculino de sexo
rentes comuns (fatores). O objetivo encontrar um feminino, consumidores de marcas nacionais de consu-
INTRODUO 33

midores de marcas importadas e bons riscos de crdito o quo importante cada atributo , mas tambm a im-
de riscos ruins de crdito. At mesmo o Internal Reve- portncia de cada nvel (a atratividade de vermelho ver-
nue Service dos EUA usa anlise discriminante para sus amarelo versus azul). Alm disso, quando as avalia-
comparar restituies de impostos federais seleciona- es do consumidor so concludas, os resultados da
das com uma restituio hipottica de contribuinte anlise conjunta podem igualmente ser usados em si-
composta e normal (com diferentes nveis de renda) pa- muladores de planejamento do produto, os quais mos-
ra identificar as restituies mais promissoras e reas tram a aceitao do consumidor a qualquer nmero de
para auditoria. formulaes do produto e ajudam no planejamento do
produto timo.
Anlise multivariada de varincia
e covarincia Correlao cannica
A anlise multivariada de varincia (MANOVA multi- A anlise de correlao cannica pode ser vista como
variate analysis of variance and covariance) uma tcnica uma extenso lgica da anlise de regresso mltipla.
estatstica que pode ser usada para explorar simulta- Lembre que a anlise de regresso mltipla envolve uma
neamente as relaes entre diversas variveis indepen- nica varivel dependente mtrica e vrias variveis in-
dentes categricas (geralmente chamadas de tratamen- dependentes mtricas. Com a anlise cannica, o objeti-
tos) e duas ou mais variveis dependentes mtricas. Co- vo correlacionar simultaneamente diversas variveis
mo tal, representa uma extenso da anlise univariada dependentes mtricas e diversas variveis independen-
de varincia (ANOVA univariate analysis of variance). tes mtricas. A regresso mltipla envolve uma nica va-
A anlise multivariada de covarincia (MANCOVA rivel dependente; a correlao cannica envolve mlti-
multivariate analysis of covariance) pode ser usada em plas variveis dependentes.
conjuno com MANOVA para remover (aps o experi- O princpio subjacente desenvolver uma combina-
mento) o efeito de quaisquer variveis independentes o linear de cada conjunto de variveis (independentes
mtricas no controladas (conhecidas como covariveis e dependentes) para maximizar a correlao entre os
estatsticas) sobre as variveis dependentes. O procedi-
dois conjuntos. Em outras palavras, o procedimento en-
mento anlogo ao envolvido na correlao parcial bi-
volve a obteno de um conjunto de pesos para as va-
variada, na qual o efeito de uma terceira varivel re-
riveis dependentes e independentes que fornece a cor-
movido da correlao. MANOVA til quando o pes-
relao simples mxima entre o conjunto de variveis
quisador planeja uma situao experimental (manipu-
dependentes e o de variveis independentes.
lao de vrias variveis no-mtricas que representam
tratamento) para testar hipteses referentes varincia
em respostas nos grupos sobre duas ou mais variveis Anlise de agrupamentos
dependentes mtricas.
A anlise de agrupamentos uma tcnica analtica para
desenvolver subgrupos significativos de indivduos ou
Anlise conjunta objetos. Especificamente, o objetivo classificar uma
A anlise conjunta uma tcnica emergente de depen- amostra de entidades (indivduos ou objetos) em um pe-
dncia que tem trazido nova sofisticao para a avalia- queno nmero de grupos mutuamente excludentes, com
o de objetos, como produtos novos, servios ou base nas similaridades entre as entidades. Na anlise de
idias. A aplicao mais direta no desenvolvimento de agrupamentos, diferentemente da anlise discriminante,
novos produtos ou servios, viabilizando a avaliao de os grupos no so predefinidos. Ao invs disso, a tcnica
produtos complexos e mantendo um contexto realista usada para identificar os grupos.
de deciso para o respondente. O pesquisador de mer- A anlise de agrupamentos geralmente envolve pelo
cado capaz de avaliar a importncia de atributos, bem menos trs passos. O primeiro a medida de alguma for-
como os nveis de cada atributo, enquanto consumido- ma de similaridade ou associao entre as entidades pa-
res avaliam apenas uns poucos perfis do produto, os ra determinar quantos grupos realmente existem na
quais so combinaes de nveis de produto. Por exem- amostra. O segundo o prprio processo de agrupamen-
plo, considere que um dado produto tenha trs atribu- to, nas quais entidades so particionadas em grupos
tos (preo, qualidade e cor), cada um com trs nveis (agrupamentos). O ltimo passo estabelecer o perfil das
possveis (p. ex., vermelho, amarelo e azul). Em vez de pessoas ou variveis para determinar sua composio.
avaliar as 27 (3 3 3) combinaes possveis, um sub- Muitas vezes, isso possvel pela aplicao da anlise
conjunto (9 ou mais) pode ser avaliado por seu apelo discriminante aos grupos identificados pela tcnica de
perante consumidores, e o pesquisador sabe no apenas agrupamento.
34 ANLISE MULTIVARIADA DE DADOS

Escalonamento multidimensional Modelos lineares de probabilidade


Em escalonamento multidimensional, o objetivo trans- Os modelos lineares de probabilidade, freqentemente
formar julgamentos de consumidores sobre similaridade chamados de anlise logit, so uma combinao de regres-
ou preferncia (p. ex., preferncia por lojas ou marcas) so mltipla com anlise discriminante mltipla. Esta tc-
em distncias representadas em um espao multidimen- nica similar anlise de regresso mltipla no sentido
sional. Se os respondentes julgam os objetos A e B os em que uma ou mais varivel(is) independente(s) /so
mais semelhantes, comparados com todos os outros pos- empregada(s) para prever uma nica varivel dependen-
sveis pares de objetos, tcnicas de escalonamento multi- te. O que diferencia um modelo linear de probabilidade
dimensional colocaro os objetos A e B de tal forma que a de regresso mltipla que a varivel dependente no-
distncia entre eles no espao multidimensional seja me- mtrica, como no caso da anlise discriminante. A escala
nor do que a distncia entre quaisquer outros pares de no-mtrica da varivel dependente requer diferenas no
objetos. Os mapas perceptuais resultantes exibem a posi- mtodo de estimao e nas suposies sobre o tipo de dis-
o relativa de todos os objetos, mas anlises adicionais tribuio inerente, ainda que em muitos outros aspectos
so necessrias para descrever ou avaliar quais atributos seja bastante semelhante regresso mltipla. Assim,
ditam a posio de cada objeto. uma vez que a varivel dependente seja corretamente es-
pecificada e a tcnica de estimao apropriada seja em-
pregada, os fatores bsicos considerados em regresso
Anlise de correspondncia mltipla tambm sero usados aqui. Os modelos lineares
A anlise de correspondncia uma tcnica de interde- de probabilidade diferem da anlise discriminante princi-
pendncia recentemente desenvolvida que facilita tanto palmente no sentido em que eles acomodam todos os ti-
a reduo dimensional da classificao de objetos (p. ex., pos de variveis independentes (mtricas e no-mtricas)
produtos, pessoas) em um conjunto de atributos quanto e no requerem a suposio de normalidade multivaria-
o mapeamento perceptual de objetos relativo a esses da. No obstante, em muitos casos, particularmente com
atributos. Os pesquisadores so constantemente defron- mais de dois nveis de varivel dependente, a anlise dis-
tados com a necessidade de quantificar os dados quali- criminante a tcnica mais apropriada.
tativos encontrados em variveis nominais. A anlise
de correspondncia difere das tcnicas de interdepen-
dncia discutidas anteriormente em sua habilidade para
Modelagem de equaes estruturais
acomodar tanto dados no-mtricos quanto relaes Modelagem de equaes estruturais, comumente chama-
no-lineares. da de LISREL (o nome de um dos programas de compu-
Em sua forma mais bsica, a anlise de correspon- tador mais conhecidos), uma tcnica que permite sepa-
dncia emprega uma tabela de contingncia, que a ta- rar relaes para cada conjunto de variveis dependen-
bulao cruzada de duas variveis categricas. Ela ento tes. Em seu sentido mais simples, a modelagem de equa-
transforma os dados no-mtricos em um nvel mtrico e es estruturais fornece a tcnica de estimao apropria-
faz reduo dimensional (anloga anlise fatorial) e da e mais eficiente para uma srie de equaes de regres-
mapeamento perceptual (semelhante anlise multidi- so mltipla separadas estimadas simultaneamente.
mensional). Por exemplo, preferncias de respondentes a caracterizada por dois componentes bsicos: (1) o mode-
marcas podem ser tabuladas no cruzamento com vari- lo estrutural e (2) o modelo de mensurao. O modelo es-
veis demogrficas (p. ex., sexo, categorias de renda, ocu- trutural o modelo de caminhos, que relaciona vari-
pao), indicando quantas pessoas que preferem cada veis independentes com dependentes. Em tais situaes,
marca recaem em cada categoria das variveis demogr- teoria, experincia prvia ou outras orientaes permi-
ficas. Por meio de anlise de correspondncia, a associa- tem ao pesquisador distinguir quais variveis indepen-
o ou correspondncia de marcas e diferentes caracte- dentes prevem cada varivel dependente. Os modelos
rsticas daqueles que preferem cada marca ento mos- discutidos anteriormente que acomodam mltiplas va-
trada em um mapa bi ou tridimensional de marcas e ca- riveis dependentes anlise multivariada de varincia
ractersticas dos respondentes. Marcas que so percebi- e correlao cannica no se aplicam nessa situao,
das como semelhantes so colocadas prximas umas das pois eles permitem apenas uma nica relao entre vari-
outras. Do mesmo modo, as caractersticas mais eminen- veis dependentes e independentes.
tes de respondentes que preferem cada marca tambm O modelo de mensurao permite ao pesquisador usar
so determinadas pela proximidade das categorias de diversas variveis (indicadores; ver Termos-Chave) para
variveis demogrficas s posies das marcas. A anlise uma nica varivel independente ou dependente. Por
de correspondncia fornece uma representao multiva- exemplo, a varivel dependente poderia ser um conceito
riada de interdependncia para dados no-mtricos que representado por uma escala mltipla, como auto-estima.
no possvel com outros mtodos. No modelo de mensurao, o pesquisador pode avaliar a
INTRODUO 35

contribuio de cada item da escala, bem como incorpo- em uma nica anlise? (3) Como so medidas as vari-
rar a maneira como a escala mede o conceito (confiabili- veis, sejam dependentes ou independentes? A escolha da
dade) na estimao das relaes entre variveis depen- tcnica multivariada apropriada depende das respostas a
dentes e independentes. Esse procedimento semelhante essas trs questes.
a executar uma anlise fatorial (discutida em seo ante- Quando se considera a aplicao de tcnicas estatsti-
rior) dos itens da escala e usar os escores fatoriais na re- cas multivariadas, a primeira questo : as variveis po-
gresso. dem ser divididas em uma classificao de dependentes
e independentes? A resposta a essa questo indica se
Outras tcnicas multivariadas emergentes uma tcnica de dependncia ou interdependncia deve
ser usada. Note que na Figura 1.2 as tcnicas de depen-
O advento do disseminado poder computacional intro- dncia esto do lado esquerdo e as de interdependncia,
duziu a era da anlise multivariada como hoje a conhe- do lado direito. Uma tcnica de dependncia pode ser
cemos, com algumas tcnicas especializadas aplicveis definida como aquela na qual uma varivel ou conjunto
a uma vasta gama de situaes. No entanto, estamos de variveis identificado(a) como a varivel dependen-
diante do comeo de uma era na qual a anlise multiva- te a ser predita ou explicada por outras variveis conhe-
riada incorpora novos mtodos para identificar e repre- cidas como variveis independentes. Um exemplo de
sentar relaes multivariadas. Uma rea de desenvolvi- tcnica de dependncia a anlise de regresso mltipla.
mento a de sistemas multivariados, que envolve tra- Em contraste, uma tcnica de interdependncia aque-
balho em minerao de dados e redes neurais. Minera- la na qual nenhuma varivel ou grupo de variveis de-
o de dados a tentativa de quantificar relaes entre finida(o) como independente ou dependente. Em vez
grandes quantidades de informaes com uma mnima disso, o procedimento envolve a anlise simultnea de
pr-especificao da natureza das relaes. Uma tcnica todas as variveis no conjunto. Anlise fatorial um
bastante usada em conjuno com a minerao de da- exemplo de uma tcnica de interdependncia. Vamos nos
dos a de redes neurais, uma tcnica flexvel de anlise concentrar primeiramente em tcnicas de dependncia e
capaz de executar tanto a identificao de relaes (si- usar a classificao da Figura 1.2 para selecionar o mto-
milar regresso mltipla ou anlise discriminante) ou do multivariado apropriado.
a reduo de dados quanto a anlise estrutural (anloga
As diferentes tcnicas de dependncia podem ser
anlise fatorial ou de agrupamentos). As redes neurais
classificadas por duas caractersticas: (1) o nmero de
diferem das tcnicas multivariadas mais tradicionais
variveis dependentes e (2) o tipo de escala de medida
discutidas previamente no sentido da formulao do
empregada nas variveis. Primeiro, quanto ao nmero
modelo e tambm dos tipos de relaes mais complexas
de variveis dependentes, as tcnicas de dependncia
que podem ser acomodadas. Outra rea envolve um
podem ser classificadas como as que tm uma nica va-
distanciamento da teoria de estatstica tradicional de
rivel dependente, diversas variveis dependentes ou
estatstica inferencial por meio do desenvolvimento da
mesmo diversas relaes entre variveis dependentes e
tcnica de reamostragem ou bootstrapping. Essa tcnica
independentes. Segundo, as tcnicas de dependncia
elimina a necessidade das suposies estatsticas de dis-
tambm podem ser classificadas como as que tm vari-
tribuies amostrais (tais como a normalidade), na ver-
veis dependentes mtricas (quantitativas/numricas)
dade usando o computador para fazer a reamostra-
ou no-mtricas (qualitativas/categricas). Se a anlise
gem da amostra original com substituio e gerar uma
envolve uma nica varivel dependente que mtrica,
estimativa emprica da distribuio amostral. Uma viso
a tcnica apropriada a anlise de regresso mltipla
geral dessas novas tcnicas fornecida no Captulo 12.
ou anlise conjunta. A anlise conjunta um caso espe-
cial. um procedimento de dependncia que pode tra-
tar a varivel dependente como no-mtrica ou mtrica,
dependendo do tipo de dados coletados. Contudo, se a
Uma classificao de tcnicas
varivel dependente for no-mtrica (categrica), ento
multivariadas as tcnicas adequadas sero anlise discriminante ml-
Para ajud-lo a se familiarizar com as tcnicas multiva- tipla e modelos lineares de probabilidade. Em contra-
riadas especficas, apresentamos uma classificao de partida, quando o problema de pesquisa envolve diver-
mtodos multivariados na Figura 1.2. Essa classificao sas variveis dependentes, outras quatro tcnicas de
baseada em trs julgamentos que o pesquisador deve fa- anlise so adequadas. Se as vrias variveis dependen-
zer sobre o objetivo da pesquisa e a natureza dos dados: tes so mtricas, devemos ento olhar para as variveis
(1) As variveis podem ser divididas em dependentes e independentes. Se as variveis independentes so no
independentes, com base em alguma teoria? (2) Se pude- mtricas, a tcnica de anlise multivariada de varincia
rem, quantas variveis sero tratadas como dependentes (MANOVA) deveria ser escolhida. Se as variveis inde-
36 ANLISE MULTIVARIADA DE DADOS

Qual tipo de
relao est
sendo examinado?

Dependncia

Quantas
variveis esto
sendo
previstas?

Mltiplas relaes de Diversas variveis Uma varivel dependente


variveis dependentes dependentes em em uma nica relao
e independentes uma nica relao

Modelagem de Qual a escala Qual a escala


equaes de medida da de medida da
estruturais varivel varivel
(Captulo 11) dependente? dependente?

Mtrico No-mtrico Mtrico No-mtrico

Anlise
Anlise de Regresso mltipla discriminante
correlao (Captulo 4) mltipla
Qual a escala
cannica com (Captulo 5)
de medida da
variveis
varivel preditora?
dicotmicas Anlise conjunta Modelos lineares
(Captulo 8) (Captulo 7) de probabilidade
(Captulo 4)

Mtrico No-mtrico

Anlise de Anlise
correlao multivariada
cannica de varincia
(Captulo 8) (Captulo 6)

FIGURA 1.2 Seleo de uma tcnica multivariada.


INTRODUO 37

Interdependncia

A estrutura de
relaes
ocorre entre:

Varivel Casos/Respondentes Objeto

Anlise de Como os
Anlise fatorial
agrupamentos atributos so
(Captulo 3)
(Captulo 9) medidos?

Mtrico No-mtrico
No-mtrico

Legenda

Escalonamento Anlise de
multidimensional correspondncia
(Captulo 10) (Captulo 10)
Ponto de
deciso

Tcnica
multivariada
escolhida
38 ANLISE MULTIVARIADA DE DADOS

pendentes so mtricas, a correlao cannica adequa- TABELA 1.2 A relao entre mtodos multivariados de
da. Se as diversas variveis dependentes so no-mtri- dependncia multivariada
cas, elas podem ser transformadas por meio de uma co- Correlao Cannica
dificao de variveis dicotmicas (0-1) e a anlise ca- Y1 + Y2 + Y3 + + Yn = X1 + X2 + X3 + + Xn
nnica pode novamente ser utilizada.1 Finalmente, se (mtrico, no-mtrico) (mtrico, no-mtrico)
um conjunto de relaes entre variveis dependen- Anlise Multivariada de Varincia
tes/independentes postulado, ento a modelagem de Y1 + Y2 + Y3 + + Yn = X1 + X2 + X3 + + Xn
equaes estruturais apropriada. (mtrico) (no-mtrico)
Existe uma forte relao entre os vrios procedimen- Anlise de Varincia
tos de dependncia, os quais podem ser vistos como uma Y1 = X1 + X2 + X3 + + Xn
famlia de tcnicas. A Tabela 1.2 define as diversas tcni- (mtrico) (no-mtrico)
cas multivariadas de dependncia em termos da natureza
Anlise Discriminante Mltipla
e do nmero de variveis dependentes e independentes. Y1 = X1 + X2 + X3 + + Xn
Como podemos ver, a correlao cannica pode ser consi- (no-mtrico) (mtrico)
derada o modelo geral no qual muitas outras tcnicas
Anlise de Regresso Mltipla
multivariadas se baseiam, pois esta coloca o mnimo de
Y1 = X1 + X2 + X3 + + Xn
restries sobre o tipo e nmero de variveis tanto nas va-
(mtrico) (mtrico, no-mtrico)
riveis estatsticas dependentes quanto nas independen-
Anlise Conjunta
tes. medida que restries so feitas sobre as variveis
Y1 = X1 + X2 + X3 + + Xn
estatsticas, concluses mais precisas podem ser conse-
(no-mtrico, mtrico) (no-mtrico)
guidas, baseadas na escala especfica de mensurao de
dados empregada. Desse modo, as tcnicas multivariadas Modelagem de Equaes Estruturais
variam do mtodo mais geral de anlise cannica at a Y1 = X11 + X12 + X13 + + X1n
Y2 = X21 + X22 + X23 + + X2n
tcnica mais especializada de modelagem de equaes es-
Ym = Xm1 + Xm2 + Xm3 + + Xmn
truturais.
(mtrico) (mtrico, no-mtrico)
Tcnicas de interdependncia so exibidas no lado di-
reito da Figura 1.2. Os leitores recordaro que, nas tcnicas
de interdependncia, as variveis no podem ser classifi-
cadas como dependentes ou independentes. Em vez dis- tamentos mtrico e no-mtrico para escalonamento mul-
so, todas as variveis so analisadas simultaneamente em tidimensional tm sido desenvolvidos. Se as interdepen-
um esforo para encontrar uma estrutura subjacente ao dncias de objetos medidos por dados no-mtricos so
conjunto inteiro de variveis ou indivduos. Se a estrutura analisadas, a anlise de correspondncia tambm uma
de variveis deve ser analisada, ento a anlise fatorial a tcnica adequada.
tcnica apropriada. Se os casos ou respondentes devem
ser agrupados para representar a estrutura, ento a anli-
se de agrupamento selecionada. Finalmente, se o interes-
se na estrutura de objetos, as tcnicas de escalonamento Diretrizes para anlises
multidimensional devem ser empregadas. Assim como no multivariadas e interpretao
caso de tcnicas de dependncia, as propriedades de me-
Como mostrado anteriormente, a anlise multivariada
dida das tcnicas devem ser consideradas. Geralmente, a
tem um carter muito diverso e pode ser muito poderosa.
anlise fatorial e anlise de agrupamento so considera-
Esse poder especialmente tentador quando o pesquisa-
das tcnicas mtricas de interdependncia. No entanto,
dor est inseguro sobre o planejamento de anlise mais
dados no-mtricos podem ser transformados pela codifi-
apropriado e confia na tcnica multivariada como um
cao de variveis dicotmicas para uso com formas espe-
substituto para o desenvolvimento conceitual necessrio.
ciais de anlise fatorial e anlise de agrupamentos. Os tra-
Mesmo quando corretamente aplicada, a eficcia na aco-
modao de mltiplas variveis e relaes cria complexi-
1
Variveis dicotmicas (ver Termos-Chave) sero discutidas em de-
dade nos resultados e suas interpretaes. Logo, fazemos
talhes mais adiante. Resumidamente, codificao de variveis di- a advertncia sobre seu uso sem a fundamentao concei-
cotmicas um meio de transformar dados no mtricos em dados tual necessria para apoiar a tcnica escolhida de acordo
mtricos. Envolve a criao das variveis ditas dicotmicas, nas com os conceitos bsicos discutidos anteriormente e em
quais 1s e 0s so designados a indivduos, dependendo se eles pos- aspectos apresentados na prxima seo.
suem ou no uma caracterstica em questo. Por exemplo, se um
indivduo do sexo masculino, assinale 0 ao mesmo, e se for do se-
J discutimos diversas questes particularmente
xo feminino, atribua 1, ou o inverso. aplicveis anlise multivariada e, apesar de no haver
INTRODUO 39

uma resposta nica, julgamos que a anlise e a inter- O tamanho da amostra afeta todos
pretao de qualquer problema multivariado podem ser os resultados
auxiliadas seguindo-se uma srie de diretrizes gerais. Es-
sas diretrizes representam mais uma filosofia de anlise A discusso sobre poder estatstico demonstrou o im-
pacto profundo que o tamanho da amostra representa
multivariada que nos tem sido til, do que uma lista
para atingir a significncia estatstica, tanto para tama-
completa de consideraes. As sees seguintes discutem
nhos pequenos quanto grandes. Para amostras meno-
esses pontos sem obedecer a uma ordem particular, e
res, a sofisticao e complexidade da tcnica multivaria-
com igual nfase em todos. da podem facilmente resultar em (1) baixssimo poder
estatstico para o teste identificar realisticamente resul-
Estabelea significncia prtica, bem como tados significantes ou (2) um ajuste muito fcil dos
dados, de modo que os resultados so artificialmente
significncia estatstica
bons porque se ajustam muito bem na amostra, mas
A fora da anlise multivariada sua forma aparente- sem poder de generalizao. Um impacto semelhante
mente mgica de ordenar um grande nmero de poss- tambm ocorre para amostras muito grandes, as quais,
veis alternativas e encontrar as que tm significncia es- como anteriormente discutido, podem tornar os testes
tatstica. Entratanto, com esse poder vem tambm a estatsticos muito sensveis. Sempre que tamanhos de
cautela. Muitos pesquisadores ficam mopes ao se con- amostras excederem 200 ou 400 respondentes, o pesqui-
centrar somente na significncia alcanada dos resulta- sador dever examinar todos os resultados significantes
para garantir que tenham significncia prtica devido
dos sem compreender suas interpretaes, sejam boas
ao poder estatstico aumentado pelo tamanho da amos-
ou ruins. Ao invs disso, o pesquisador deve olhar no
tra. Tamanhos de amostra tambm afetam os resultados
apenas a significncia estatstica dos resultados, mas
quando a anlise envolve grupos de respondentes, co-
tambm sua significncia prtica. A significncia prti-
mo na anlise discriminante ou em MANOVA. Tama-
ca faz a pergunta E da? para qualquer aplicao ad- nhos de amostra diferentes entre grupos influenciam os
ministrativa, os resultados devem ter um efeito de- resultados e exigem interpretao e/ou anlise adicio-
monstrvel que justifique que a ao. Em termos acad- nal. Logo, um pesquisador ou usurio de tcnicas mul-
micos, a pesquisa est se concentrando no apenas em tivariadas sempre deve avaliar os resultados luz da
resultados de estatisticamente significantes, mas tam- amostra usada na anlise.
bm em suas implicaes substantivas e tericas, as
quais so muitas vezes extradas de sua significncia
prtica. Conhea seus dados
Por exemplo, uma anlise de regresso usada pa- As tcnicas multivariadas, por natureza, identificam re-
ra prever intenes de recompra, medidas como a pro- laes complexas muito difceis de serem representadas
babilidade entre 0 e 100 de que o cliente comprar no- de maneira simples. Conseqentemente, a tendncia
vamente da firma. O estudo conduzido e os resulta- aceitar os resultados sem o exame comum que se promo-
dos retornam significantes no nvel de significncia de ve nas anlises univariada e bivariada (p. ex., diagramas
0,05. Os executivos se apressam em acatar os resultados de disperso de correlaes e grficos de caixas em com-
e modificar a estratgia da firma de acordo com eles. No paraes de mdias). No entanto, tais atalhos podem
entanto, passa despercebido que, mesmo que a relao ser um preldio para o desastre. A anlise multivariada
fosse significante, a habilidade de previso era pobre demanda um exame at mesmo mais rigoroso dos dados,
pois a influncia de observaes atpicas, violaes das
to pobre que a estimativa de probabilidade de recom-
suposies e dados perdidos pode aparecer em diversas
pra poderia variar 20% no nvel de significncia de
variveis com efeitos substanciais. Para utilizar todos os
0,05. A relao estatisticamente significante poderia,
benefcios das tcnicas multivariadas, o pesquisador de-
portanto, ter uma margem de erro de 40 pontos percen- ve saber onde olhar com formulaes alternativas do
tuais! Um cliente previsto como tendo 50% de chance modelo original, tais como relaes no-lineares e intera-
de retornar poderia realmente ter probabilidades de 30 tivas. O pesquisador tem, contudo, um conjunto crescen-
a 70%, representando nveis inaceitveis para uma ao. te de tcnicas de diagnstico que permitem que essas re-
Pesquisadores e administradores no sondaram a signi- laes multivariadas sejam descobertas de maneiras
ficncia prtica ou administrativa dos resultados, na muito semelhantes aos mtodos univariados e bivaria-
qual teriam percebido que a relao ainda precisava de dos. O pesquisador multivariado deve dispor de tempo
refinamento, caso devesse ser confivel a ponto de para usar essas medidas diagnsticas para uma melhor
orientar qualquer estratgia. compreenso dos dados e das relaes bsicas existentes.
40 ANLISE MULTIVARIADA DE DADOS

Esforce-se por modelos parcimoniosos uma subamostra para estimar o modelo e a outra para
estimar a preciso de previso, (2) empregar a tcnica
As tcnicas multivariadas so planejadas para acomo- bootstrapping [9], ou (3) mesmo juntar uma amostra se-
dar mltiplas variveis na anlise. Essa caracterstica, parada para garantir que os resultados sejam apropria-
contudo, no deve substituir o desenvolvimento do mo- dos para outras amostras. Qualquer que seja a tcnica
delo conceitual antes de as tcnicas multivariadas serem multivariada empregada, o pesquisador deve se esfor-
aplicadas. Apesar de sempre ser mais importante evitar ar no apenas para estimar um modelo significante,
a omisso de uma varivel preditora crtica, o que se mas para garantir que ele seja representativo da popu-
chama de erro de especificao, por vrias razes o lao como um todo. Lembre-se de que o objetivo no
pesquisador tambm deve evitar a insero indiscrimi- determinar o melhor ajuste apenas para os dados da
nada de variveis, esperando que a tcnica multivaria- amostra, mas desenvolver um modelo que melhor des-
da arrume as variveis relevantes. Primeiro, as vari- creva a populao como um todo.
veis irrelevantes geralmente aumentam a habilidade da
tcnica de ajustar os dados da amostra, mas ao preo de
superajustar os dados e torn-los menos generalizveis
populao. Segundo, as variveis irrelevantes no
Um tratamento estruturado para construir
chegam a viesar as estimativas das variveis relevantes,
mas podem mascarar os verdadeiros efeitos por causa modelos multivariados
da multicolinearidade, a qual representa o grau em que medida que discutimos as numerosas tcnicas mul-
qualquer efeito de varivel pode ser previsto ou expli- tivariadas disponveis ao pesquisador e a mirade de
cado pelas outras variveis na anlise. Quando a multi- questes envolvidas em suas aplicaes, fica aparente
colinearidade aumenta, a habilidade de definir qual- que a concluso bem-sucedida de uma anlise multi-
quer efeito de varivel diminui. Logo, incluir variveis variada envolve mais do que a seleo do mtodo cor-
conceitualmente irrelevantes pode ter vrios efeitos po- reto. Questes que variam da definio do problema
tencialmente danosos, ainda que as variveis adicionais diagnose crtica dos resultados devem ser abordadas.
no influenciem diretamente os resultados do modelo. Para ajudar o pesquisador ou o usurio a aplicar mto-
dos multivariados, um tratamento com seis passos pa-
ra a anlise multivariada apresentado. A meta no
Examine seus erros
fornecer um conjunto rgido de procedimentos a serem
Mesmo com o alcance estatstico das tcnicas multivaria- seguidos, mas sim orientaes que enfatizam uma ma-
das, raramente atingimos a melhor previso na primeira neira de construir modelos. Um tratamento para a
anlise. O pesquisador deve encarar a questo Para on- construo de modelos concentra a anlise em um pla-
de vamos a partir daqui? A melhor resposta examinar no de pesquisa bem-definido, comeando com um mo-
os erros na previso, se eles so os resduos da anlise de delo conceitual que detalhe as relaes a serem exami-
regresso, os erros na classificao de observaes na nadas. Uma vez definido em termos conceituais, as
anlise discriminante, ou observaes atpicas na anlise questes empricas podem ser abordadas, incluindo a
de agrupamentos. Em cada caso, o pesquisador deve us- seleo da tcnica multivariada especfica e os proble-
ar os erros na previso no como uma medida de falha mas de implementao. Depois que foram obtidos re-
ou algo que simplesmente deve ser eliminado, mas como sultados significantes, sua interpretao se transforma
um ponto de partida para diagnosticar a validade dos re- no foco, com especial ateno varivel estatstica. Fi-
sultados obtidos e uma indicao das relaes restantes nalmente, as medidas diagnsticas garantem que o
sem explicao. modelo no vlido apenas para os dados da amostra,
mas que to generalizvel quanto possvel. A discus-
so que se segue brevemente descreve cada passo des-
Valide seus resultados se tratamento.
A habilidade da anlise multivariada para identificar Esse processo de seis passos para construir modelos
inter-relaes complexas tambm significa que podem fornece uma estrutura para desenvolver, interpretar e
ser encontrados resultados especficos apenas para a validar qualquer anlise multivariada. Cada pesquisa-
amostra e no generalizveis para a populao. O pes- dor deve desenvolver critrios para sucesso ou fa-
quisador sempre deve garantir que haja observaes lha em cada estgio, mas as discusses de cada tcnica
suficientes por parmetro estimado, para evitar supe- fornecem orientaes sempre que disponveis. Neste
rajustamento da amostra, como j discutido. Contudo, ponto, a nfase em um tratamento de construo de mo-
igualmente importantes so os esforos para validar os delos, em vez de simplesmente apontar as especificida-
resultados por qualquer dentre os vrios mtodos, in- des de cada tcnica, deve fornecer uma base mais ampla
cluindo (1) separar a amostra em duas partes e usar para o desenvolvimento, estimao e interpretao de
INTRODUO 41

modelos, que iro melhorar a anlise multivariada do es gerais, como tamanho mnimo ou desejado da
profissional e do acadmico. amostra, tipos permitidos ou exigidos de variveis (m-
tricas versus no-mtricas) e mtodos de estimao, alm
de aspectos especficos, como o tipo de medidas de asso-
Estgio 1: definio do problema da ciao usadas em escalonamento multidimensional, a es-
pesquisa, dos objetivos e da tcnica timao de resultados agregados ou desagregados em
multivariada a ser usada anlise conjunta ou o uso de formulaes especiais de va-
O ponto de partida para qualquer anlise multivariada riveis para representar efeitos no-lineares ou interati-
definir o problema da pesquisa e os objetivos de anlise vos em regresso. Em cada caso, essas questes resolvem
em termos conceituais, antes de especificar quaisquer va- detalhes especficos e finalizam a formulao do modelo
riveis ou medidas. O papel do desenvolvimento do mo- e exigncias para a coleta de dados.
delo conceitual, ou da teoria, no pode ser estabelecido
com exagero. No importa se pesquisa aplicada ou aca- Estgio 3: avaliao das suposies inerentes
dmica, o pesquisador deve primeiro ver o problema em tcnica multivariada
termos conceituais, definindo os conceitos e identifican-
do as relaes fundamentais a serem investigadas. De- Com os dados coletados, a primeira tarefa no esti-
senvolver um modelo conceitual no atribuio exclu- mar o modelo multivariado, mas avaliar as suposies
siva de acadmicos; to somente algo ajustado para subjacentes. Todas as tcnicas multivariadas tm supo-
aplicao no mundo real. sies inerentes, estatsticas e conceituais, que influen-
Um modelo conceitual no precisa ser complexo e ciam muito suas habilidades para representar relaes
detalhado; pode ser uma simples representao das re- multivariadas. Para as tcnicas baseadas em inferncia
laes a serem estudadas. Se uma relao de dependn- estatstica, as suposies de normalidade multivaria-
cia proposta como o objetivo de pesquisa, o pesquisa- da, linearidade, independncia de termos de erro e
dor precisa especificar os conceitos dependentes e inde- igualdade de varincias em uma relao de dependn-
pendentes. Para uma aplicao de uma tcnica de inter- cia devem ser satisfeitas. A avaliao dessas suposi-
dependncia, as dimenses de estrutura ou similarida- es discutida em maiores detalhes no Captulo 2.
de devem ser especificadas. Note que um conceito, dife- Cada tcnica tambm tem uma srie de suposies
rentemente de uma varivel, definido em ambas as si- conceituais que lidam com questes como a formula-
tuaes, sejam de dependncia ou de interdependncia. o de modelo e os tipos de relaes representadas.
O pesquisador primeiro identifica as idias ou os tpi- Antes de qualquer estimao de modelo, o pesquisa-
cos de interesse, em vez de se concentrar nas medidas dor deve garantir que as suposies estatsticas e con-
especficas a serem usadas. Isso minimiza a chance de ceituais estejam satisfeitas.
conceitos relevantes serem omitidos no esforo de de-
senvolver medidas e de definir as especificidades do Estgio 4: estimao do modelo multivariado e
plano de pesquisa. Os leitores interessados no desen-
volvimento de modelos conceituais devem ver o Cap-
avaliao do ajuste geral do modelo
tulo 11. Com as suposies satisfeitas, a anlise inicia a verdadei-
Com os objetivos e o modelo conceitual especifica- ra estimao do modelo multivariado e uma avaliao do
dos, o pesquisador deve apenas escolher a tcnica multi- ajuste geral do modelo. No processo de estimao, o pes-
variada apropriada. Aps escolher entre um mtodo de quisador dispe de opes para atender caractersticas es-
dependncia ou interdependncia, a ltima deciso se- pecficas dos dados (p. ex., uso de covariveis estatsticas
lecionar a tcnica em particular com base nas caracters- em MANOVA) ou maximizar o ajuste dos dados (p. ex.,
ticas de medidas das variveis dependentes e indepen- rotao de fatores ou funes discriminantes). Depois que
dentes. As variveis podem ser especificadas antes do es- o modelo estimado, o seu ajuste geral avaliado para
tudo em seu planejamento ou depois que os dados foram estabelecer se atinge nveis aceitveis sobre os critrios es-
coletados, quando anlises especficas so definidas. tatsticos (p. ex., nvel de significncia), se identifica as re-
laes propostas e se tem significncia prtica. Muitas ve-
zes, o modelo reespecificado, em uma tentativa de atin-
Estgio 2: desenvolvimento do plano de anlise gir melhores nveis de ajuste e/ou explicao geral. Em
Com o modelo conceitual estabelecido e a tcnica multi- todos os casos, contudo, um modelo aceitvel deve ser
variada selecionada, a ateno se volta para a implemen- obtido antes de se prosseguir.
tao. Para cada tcnica, o pesquisador deve desenvolver No importa qual nvel de ajuste geral do modelo se-
um plano de anlise que aborde as questes particulares ja conseguido, o pesquisador tambm deve determinar
a seu propsito e projeto. As questes incluem considera- se os resultados so excessivamente afetados por alguma
42 ANLISE MULTIVARIADA DE DADOS

observao ou pequeno conjunto de observaes que in- sideraes sobre planejamento da pesquisa e teste das
dique que os resultados podem ser instveis ou no-ge- suposies).
neralizveis. Esses esforos garantem que os resultados A segunda seo do fluxograma de deciso (est-
so robustos e estveis, aplicando-se razoavelmente gios 4 a 6) trata dos aspectos pertinentes estimao do
bem a todas as observaes na amostra. Observaes de modelo, interpretao e validao. O fluxograma de de-
ajustes prejudiciais podem ser identificadas como obser- ciso fornece ao pesquisador um mtodo simplificado,
vaes atpicas, observaes influentes ou resultados er- mas, sistemtico, de uso da abordagem estrutural de
rneos (p. ex., agrupamentos unitrios ou casos muito
construo do modelo multivariado em qualquer apli-
mal classificados em anlise discriminante).
cao da tcnica multivariada.

Estgio 5: interpretao da(s)


varivel(eis) estatstica(s)
Bases de dados
Com um nvel aceitvel de ajuste do modelo, interpretar
a(s) varivel(eis) estatstica(s) revela a natureza da rela- Para melhor explicar e ilustrar cada tcnica multivariada,
o multivariada. A interpretao de efeitos para vari- usamos conjuntos de dados hipotticos ao longo do li-
veis individuais feita examinando-se os coeficientes es- vro. Esses dados foram obtidos a partir da Hair, Ander-
timados (pesos) para cada varivel na varivel estatstica son, and Tatham Company (HATCO), um grande forne-
(p. ex., pesos de regresso, cargas fatoriais ou utilidades cedor industrial (apesar de inexistente). Cada conjunto
conjuntas). de dados foi conseguido de entrevistas de clientes da
Alm disso, algumas tcnicas tambm estimam ml- HATCO realizadas por uma empresa de pesquisa de
tiplas variveis estatsticas que representam dimenses
mercado.
latentes de comparao ou associao (i.e., funes dis-
criminantes ou componentes principais). A interpretao
pode conduzir a reespecificaes adicionais das variveis Base de dados primria
e/ou da formulao do modelo, onde o modelo reesti-
mado e ento novamente interpretado. O objetivo iden- A base de dados primria, que consiste em 100 observa-
tificar evidncia emprica de relaes multivariadas nos es sobre 14 variveis separadas, um exemplo de um
dados da amostra que possam ser generalizados para a estudo de segmentao para uma situao de negcios,
populao total. especificamente um levantamento de clientes existentes
da HATCO. Trs tipos de informao foram coletados. O
primeiro a percepo da HATCO sobre sete atributos
Estgio 6: validao do modelo multivariado
identificados em estudos anteriores como os mais in-
Antes de aceitar os resultados, o pesquisador deve sub- fluentes na escolha de fornecedores. Os respondentes,
met-los a um conjunto final de anlises diagnsticas que executivos que compram da HATCO, a avaliaram a em
avaliem o grau de generabilidade dos resultados pelos cada atributo. O segundo tipo de informao se refere a
mtodos de validao disponveis. As tentativas de vali- compras reais, tanto s avaliaes da satisfao de cada
dar o modelo so direcionadas no sentido de demosntrar cliente com a HATCO como ao percentual de compras da
a generalidade dos resultados para a populao total (ver HATCO daquele cliente. O terceiro tipo de informao
discusso anterior sobre tcnicas de validao). Essas contm caractersticas gerais das companhias comprado-
anlises diagnsticas acrescentam pouco interpretao ras (p. ex., tamanho da empresa, tipo de indstria).
dos resultados, mas podem ser vistas como uma garan-
Os dados fornecidos deveriam dar HATCO uma
tia de que os resultados so os melhores descritivos dos
dados e generalizveis populao. melhor compreenso das caractersticas de seus clientes e
das relaes entre suas percepes sobre a HATCO e suas
aes sobre a mesma (compras e satisfao). Uma breve
Um fluxograma de deciso descrio das variveis da base de dados dada na Tabe-
Para cada tcnica multivariada, a abordagem de seis la 1.3, na qual as variveis so classificadas como inde-
passos para a construo de modelos multivariados pendentes ou dependentes e mtricas ou no-mtricas.
ser retratada em um fluxograma de deciso dividido Uma lista da base de dados fornecida no Apndice A
em duas sees. A primeira seo (estgios 1 a 3) lida para quem desejar reproduzir as solues relatadas neste
com as questes relativas preparao para a estima- livro. Uma definio de cada varivel e uma explicao
o do modelo do real (i.e., objetivos da pesquisa, con- de sua codificao dada nas sees que se seguem.
INTRODUO 43

Percepes da HATCO Caractersticas do comprador


Cada varivel foi medida em uma escala grfica, onde As cinco caractersticas das empresas respondentes usa-
uma linha de 10 centmetros foi desenhada entre os pon- das no estudo, algumas mtricas e outras no-mtricas,
tos extremos chamados de Ruim e Excelente. so as seguintes:
X8 Tamanho da empresa tamanho da empresa em
relao a outras neste mercado. Essa varivel tem
duas categorias: 1 = grande, 0 = pequeno.
Ruim Excelente X11 Especificao de compra o quanto um com-
prador em particular avalia cada compra sepa-
Os respondentes indicaram suas percepes fazendo
radamente (anlise de valor total) versus o uso
uma marca em qualquer ponto da linha. A marca era
de especificaes de compra, as quais detalham
ento medida e a distncia a partir de 0 (em centme-
precisamente as caractersticas procuradas do
tros) era anotada. O resultado foi uma escala que varia
produto. Essa varivel tem duas categorias: 1 =
de 0 a 10, arredondada para uma casa decimal. Os sete
emprega anlise de valor total, avaliando cada
atributos da HATCO avaliados por cada respondente
compra separadamente; 0 = uso de especifica-
so os seguintes: o de compra.
X1 Velocidade de entrega tempo total necessrio X12 Estrutura de aquisio mtodo de adquirir ou
para entregar o produto assim que a encomenda comprar produtos em uma empresa em particular.
foi confirmada Essa varivel tem duas categorias: 1 = aquisio
centralizada, 0 = aquisio no-centralizada
X2 Nvel de preo nvel percebido de preo cobra-
do por fornecedores do produto X13 Tipo de indstria classificao da indstria
qual um comprador pertence. Essa varivel tem
X3 Flexibilidade de preo disposio percebida de duas categorias: 1 = indstria A, 0 = outras in-
representantes da HATCO em negociar preos dstrias.
em todos os tipos de compras X14 Tipo de situao de compra tipo de situao
X4 Imagem do fabricante imagem geral do fabri- que o comprador enfrenta. Essa varivel tem trs
cante ou fornecedor categorias: 1 = nova tarefa, 2 = nova compra mo-
dificada, 3 = nova compra simples.
X5 Servio geral nvel geral de servio necessrio
para manter uma relao satisfatria entre forne-
cedor e comprador TABELA 1.3 Descrio de variveis da base de dados
X6 Imagem da fora de vendas imagem geral da Descrio da varivel Tipo de varivel
fora de vendas do fabricante PERCEPES DA HATCO

X7 Qualidade do produto nvel percebido de qua- X1 Velocidade de entrega Mtrica


lidade de um produto em particular (p. ex., fun- X2 Nvel de preo Mtrica
cionamento ou produtividade) X3 Flexibilidade de preo Mtrica
X4 Imagem do fabricante Mtrica
X5 Servio geral Mtrica
Resultados das compras
X6 Imagem da fora de vendas Mtrica
Foram obtidas duas medidas especficas, que refletiram X7 Qualidade do produto Mtrica
os resultados das relaes das compras dos respondentes RESULTADOS DAS COMPRAS
com a HATCO. Essas medidas incluem:
X9 Nvel de uso Mtrica
X9 Nvel de uso quanto do produto total da em- X10 Nvel de satisfao Mtrica
presa comprado da HATCO, medido em uma CARACTERSTICAS DO COMPRADOR
escala de 100 pontos percentuais, que varia de 0
X8 Tamanho da empresa No-mtrica
a 100%.
X11 Especificao de compra No-mtrica
X10 Nvel de satisfao quo satisfeito est o com- X12 Estrutura de aquisio No-mtrica
prador com compras feitas no passado, da HAT- X13 Tipo de indstria No-mtrica
CO, medido na mesma escala grfica de percep- X14 Tipo de situao de compra No-mtrica
es empregada de X1 a X7.
44 ANLISE MULTIVARIADA DE DADOS

Outras bases de dados Seo 2: Tcnicas de dependncia trata de cinco tc-


nicas de dependncia regresso mltipla, anlise
Outras trs bases de dados especializadas so emprega-
discriminante, anlise multivariada de varincia,
das no texto. O Captulo 2 usa uma base de dados menor
anlise conjunta e correlao cannica (Captulos 4-8,
de muitas dessas variveis obtidas em algumas pesqui-
respectivamente). Como observado anteriormente,
sas preliminares. O objetivo ilustrar a identificao de
as tcnicas de dependncia permitem ao pesquisador
observaes atpicas, o manuseio de dados perdidos e o
avaliar o grau de relao entre as variveis depen-
teste de suposies estatsticas. Os Captulos 8 e 10 exa-
dentes e independentes. As tcnicas de dependncia
minam bases de dados com os nicos dados necessrios
variam no tipo e carter da relao, o que se reflete
para essas tcnicas. Em cada caso, a base de dados mais
nas propriedades de medida das variveis depen-
bem descrita nesses captulos. Uma lista completa das
dentes e independentes. Cada tcnica examinada
bases de dados dada no apndice A.
sob sua perspectiva nica de avaliar uma relao de
dependncia e sua habilidade de tratar com um tipo
particular de objetivo de pesquisa.
Organizao dos demais captulos Seo 3: Tcnicas de interdependncia (Captulos
9-10) cobre as tcnicas de anlise de agrupamentos
Os outros captulos do livro so organizados em quatro e escalonamento multidimensional. Essas tcnicas
sees; cada uma aborda um estgio separado para exe- apresentam ao pesquisador ferramentas particular-
cutar uma anlise multivariada. mente adequadas para avaliar estruturas, focalizan-
Seo 1: Preparao para uma anlise multivaria- do-se na descrio das relaes entre objetos, sejam
da lida com questes que devem ser resolvidas respondentes (anlise de agrupamentos), ou objetos
antes que uma anlise multivariada possa ser apli- como empresas, produtos e assim por diante (escalo-
cada. Essa seo comea com o Captulo 2, o qual namento multidimensional). Deve-se notar que uma
cobre os tpicos de acomodao de dados perdi- das tcnicas primrias de interdependncia, anlise
dos, a garantia de atender as suposies estatsti- fatorial e sua habilidade para avaliar a relao entre
cas inerentes e a identificao de observaes atpi- variveis, j foi abordada na Seo 1.
cas que poderiam influenciar desproporcional- Seo 4: Tcnicas avanadas e emergentes (Captu-
mente os resultados. O Captulo 3 cobre a anlise los 11 e 12) fornece ao pesquisador uma introduo a
fatorial, uma tcnica particularmente adequada uma tcnica multivariada avanada amplamente em-
para examinar as relaes entre variveis e as pregada, modelagem de equaes estruturais, bem
oportunidades de criar escalas mltiplas. Esses como algumas tcnicas emergentes novas nas reas
dois captulos se combinam para fornecer ao pes- de minerao de dados, redes neurais e bootstrapping.
quisador no apenas as ferramentas diagnsticas O objetivo desses dois captulos no apresentar um
necessrias para preparar os dados para anlise, tratamento completo dos aspectos e usos dessas tc-
mas tambm os meios para reduo de dados e nicas, mas fornecer uma introduo que capacitar o
construo de escala que podem ser includos em pesquisador a avaliar o potencial uso dessas tcnicas
outras tcnicas multivariadas. em situaes especficas de pesquisa.

Resumo
Este captulo introduziu o tpico empolgante e desafia- mo ela deve ser aplicada e como os resultados de sua
dor da anlise multivariada de dados. Os captulos que aplicao devem ser interpretados. Os resumos de fim
se seguem discutem cada tcnica em detalhes suficien- de captulo de obras da literatura profissional e acad-
tes para capacitar o pesquisador iniciante a entender o mica demonstram melhor a aplicao e interpretao
que uma tcnica em particular pode fazer, quando e co- das tcnicas.
INTRODUO 45

Questes
1. Com suas prprias palavras, defina anlise multiva- 5. Por que o conhecimento sobre escalas de medida im-
riada. portante para entender anlise multivariada de dados?
2. Cite vrios fatores que tm contribudo para a aplica- 6. Quais so as diferenas entre significncia estatstica
o crescente de tcnicas de anlise multivariada de e significncia prtica? Uma delas pr-requisito pa-
dados nos ltimos anos. ra a outra?
3. Liste e descreva as tcnicas de anlise multivariada 7. Quais so as implicaes de baixo poder estatstico?
de dados descritas neste captulo. Cite exemplos nos Como o poder poder ser melhorado se considera-
quais cada tcnica apropriada. do muito baixo?
4. Explique por que e como os diversos mtodos mul- 8. Detalhe o tratamento de construo de modelos para
tivariados podem ser entendidos como uma fam- a anlise multivariada, concentrando-se nas questes
lia de tcnicas. mais importantes em cada passo.

Referncias
1. Bearden, William O., Richard G. Netemeyer, and Mary Item Measures. Chicago: American Marketing
F. Mobley (1993), Handbook of Marketing Scales, Multi- Association.
Item Measures for Marketing and Consumer Behavior. 6. Cohen, J. (1977), Statistical Power Analysis for the
Newbury Park, Calif.: Sage. Behavioral Sciences. New York: Academic Press.
2. BMDP Statistical Software, Inc. (1991), SOLO Power
7. Gatty, R. (1966), Multivariate Analysis for Marketing
Analysis. Los Angeles.
Research: An Evaluation. Applied Statistics 15
3. Brent, Edward E., Edward J. Mirielli, and Alan (November): 157-172.
Thompson (1993), Ex-SampleTM: An Expert System to
Assist in Determining Sample Size, Version 3.0. Columbia, 8. Hardyck, C. D., and L. F. Petrinovich (1976),
Mo.: Idea Works. Introduction to Statistics for the Behavioral Sciences, 2d ed.
Philadelphia: Saunders.
4. Brent, Edward E., et al. (1991), Statistical Navigator
ProfessionalTM: An Expert System to Assist in Selecting 9. Mooney, Christopher Z., and Robert D. Duval (1993),
Appropriate Statistical Analyses, Version 1.0. Columbia, Bootstrapping: A Nonparametric Approach to Statistical
Mo.: Idea Works. Inference. Beverly Hills, Calif.: Sage.
5. Brunner, Gordon C., and Paul J. Hensel (1993), 10. Sullivan, John L., and Stanley Feldman (1979), Multiple
Marketing Scales Handbook, A Compilation of Multi- Indicators: An Introduction. Beverly Hills, Calif.: Sage.

Você também pode gostar