Marc Scholten & Pedro Zany Caldeira - O Senso Do Escalonamento Multidimensional PDF

Anlise Psicolgica (1997), 1 (XV): 63-85
O senso do escalonamento multidimensional

MARC SCHOLTEN (**) PEDRO ZANY CALDEIRA (**)
1. INTRODUO
Na sua definio mais abrangente, o escalonamento multidimensional (MultiDimensional Scaling MDS) constitudo por uma famlia de modelos pelos quais um conjunto de dados representado por um conjunto de pontos num espao em que as relaes geomtricas entre estes pontos correspondem, o mais prximo possvel, s relaes empricas no conjunto de dados (Carroll & Arabie, 1980; Coxon, 1982). O problema desta definio reside na sua abrangncia: inclui muito mais do que usualmente considerado quando se faz referncia ao termo escalonamento multidimensional. Na realidade, a maioria dos mtodos estatsticos multivariados incluem-se nesta definio (Davison, 1983; Jones & Koehly, 1993): anlise discriminante, anlise de varincia multivariada, anlise de regresso cannica, anlise de componentes principais, anlise factorial, anlise de correspondncias, mtodos de mensurao conjunta e funcional e alguns mtodos de anlise de clusters. Assim, adoptamos uma definio menos abran-
(*) Universidade Catlica Portuguesa. (**) Bolseiro PRAXIS XXI/UIIPOG-ISPA.
gente, que limita o termo escalonamento multidimensional a uma famlia de modelos de distncia espacial como forma de representao de dados de proximidade (Carroll & Arabie, 1980; Davison, 1983). Dados de proximidade fornecem informao referente semelhana e dissemelhana entre entidades. Neste artigo, o smbolo ij ser utilizado para representar a proximidade entre a entidade i e a entidade j. Se as proximidades so registadas de tal modo que o valor mais elevado corresponde ao par menos semelhante, ento ij uma medida de dissemelhana. Se, pelo contrrio, as proximidades so registadas de tal modo que o valor mais elevado corresponde ao par de entidades mais semelhante, ento ij uma medida de semelhana. Tal como indica a definio aqui adoptada, o MDS pressupe uma analogia, originalmente proposta por Richardson (1938), entre o conceito psicolgico de semelhana (ou, estritamente falando, o conceito psicolgico de dissemelhana) e o conceito geomtrico de distncia. Atravs do MDS, os dados de proximidade so representados numa configurao espacial de pontos de forma a que as distncias entre os pontos correpondam s proximidades to perto quanto possvel. Com este artigo pretendemos auxiliar os psiclogos a alcanar uma opinio formada sobre a utilidade, ou inutilidade, do MDS para as suas 63
investigaes. Apesar da nossa exposio ser to exacta quanto possvel, no entraremos nos aspectos tcnicos do MDS. A nossa preocupao transmitir o que o MDS faz e o que que o investigador deve fazer para que o MDS faa, no como que o MDS faz. O leitor interessado pode consultar as referncias apropriadas que surgem neste artigo para mais pormenores sobre a tcnica que vai ser apresentada e para tcnicas mais avanadas no campo do MDS que no so discutidas aqui.
2. AQUECIMENTO
Os trs exemplos seguintes (adaptados livremente de Schiffman, Reynolds & Young, 1981) servem para dar uma compreenso intuitiva dos princpios subjacentes ao MDS. Estes exemplos demonstram relaes simples de input-output e, como resultado da sua simplicidade, so irrealistas em relao ao que o MDS pode fazer para estabelecer essas relaes (um ponto a que mais tarde regressaremos neste artigo). Suponha que seleccionamos quatro partidos polticos portugueses (PSD, PP, PS e PCP) e pedimos a um sujeito (Bruno) para ordenar todos os pares que podem ser formados a partir deste conjunto de partidos polticos em relao sua semelhana global. Dado que podem ser formados n*(n-1)/2 pares a partir de um conjunto de n objectos, o sujeito ter de ordenar 6 pares de partidos polticos em relao sua semelhana global. A ordenao que ser fornecida pelo sujeito pode ser escrita na forma de uma matriz de dados objecto-por-objecto, como ilustra a Figura 1. O maior valor da matriz corresponde ao par de objectos que so menos semelhantes (isto , a matriz contm medidas de dissemelhana). O que o MDS faz localizar os quatro partidos polticos como pontos num espao de tal modo que a ordem das distncias interpontos no espao se aproximem o mais possvel da ordenao fornecida pelo sujeito: o PSD e o PS, que so considerados mais semelhantes, devero aparecer mais juntos, o PSD e o PCP, que so considerados mais dissemelhantes, devero surgir mais afastados, e assim por diante. A Figura 1 representa um mapa bidimensional dos partidos, juntamente com uma matriz objecto-por-objecto contendo as distncias euclidianas 64
entre os partidos neste espao bidimensional. Pode-se verificar que a ordem destas distncias corresponde perfeitamente ordenao fornecida pelo sujeito. Em geral, quando se recolhem dados reais no se tem tanta sorte. A partir do mapa bidimensional, pode-se inferir intuitivamente que o sujeito parece usar uma dimenso espectro (o eixo horizontal, ordenando da esquerda para a direita) e uma dimenso de poder (o eixo vertical, ordenando do grande para o pequeno) de forma a ajuizar da semelhana global dos partidos polticos (obviamente, esta leitura refere-se situao poltica antes de 1 de Outubro de 1995). Suponhamos agora que, para alm de Bruno, pedimos a mais dois sujeitos (Chico e Tiago) para ordenarem todos os pares que podem ser formados, relativamente sua semelhana global, a partir do conjunto dos quatro partidos polticos. As trs ordenaes obtidas desta forma podem ser apresentadas na forma de trs matrizes de dissemelhana, como ilustram as Figuras 1 e 2. O que o MDS faz neste caso localizar os objectos num espao do grupo e pesar as dimenses do espao do grupo para cada sujeito individualmente, de tal forma que a ordem das distncias interponto nos espaos privados corresponde, to prximo quanto possvel, s ordenaes fornecidas pelos respectivos sujeitos. Quando um sujeito representativo do grupo de sujeitos, o espao privado obtm-se atribuindo pesos iguais s dimenses do espao do grupo. medida que um sujeito se desvia do grupo, contudo, o espao privado obtm-se atribuindo pesos diferentes s dimenses do espao do grupo, esticando ou encolhendo o espao ao longo das suas dimenses, at se obter uma correspondncia ptima com a ordenao dos sujeitos. No nosso exemplo, pressups-se que Bruno representativo do grupo constitudo pelos trs indivduos, implicando que o seu espao privado, ilustrado na Figura 1, tambm possa ser interpretado como o espao do grupo. Contudo, Chico e Tiago desviam-se do grupo, como revelado pelos pesos dimensionais da Figura 2: Chico d um peso relativamente maior dimenso espectro enquanto Tiago atribui um peso relativamente maior dimenso poder, apesar da focalizao de Chico na dimenso espectro ser menos dramtica que a focalizao de Tiago na dimenso poder. Os espaos privados destes indi-
FIGURA 1
MDS Aplicado a uma Matriz de Proximidades Objecto-Por-Objecto
65
FIGURA 2
MDS Aplicado a Matrizes Mltiplas de Proximidades Objecto-Por-Objecto
66
FIGURA 3
MDS Aplicado a uma Matriz de Proximidades Sujeito-Por-Objecto
67
vduos, tambm ilustrados na Figura 2, refletem estes factos: o espao de Chico estreita-se na dimenso poder enquanto que o espao de Tiago se estreita ainda mais na dimenso espectro. Como resultado, as distncias entre partidos polticos muda de sujeito para sujeito. A comparao das matrizes das distncias apresentadas nas Figuras 1 e 2 sugere, por exemplo, que Tiago percepciona o PP e o PCP como muito prximos (pois ambos tm pouco poder) enquanto que Chico e Bruno percepcionam estes partidos como estando muito distantes um do outro. Inversamente, Tiago percepciona o PSD e o PP como estando distantes um do outro (uma vez que so muito dissemelhantes, pois o PSD tem muito poder e o PP tem muito pouco) enquanto que Bruno e Chico percepcionam estes partidos com uma distncia moderada entre si. Continuamos afortunados: pode-se verificar que a ordem das distncias nos espaos privados de Chico e Tiago corresponde perfeitamente s ordenaes fornecidas por estes sujeitos. Como ilustrao final dos milagres do MDS, suponha que pedimos a trs sujeitos (Joana, Maria e Sofia) para ordenarem os quatro partidos polticos em relao sua atractividade global. As ordenaes fornecidas poderiam ser apresentadas sob a forma de uma matriz de dados objecto-por-objecto, tal como ilustra a Figura 3. O maior valor numa determinada linha desta matriz corresponde ao objecto que menos atractivo para um determinado sujeito. O que o MDS faz nestes casos localizar os objectos e os sujeitos como pontos num espao conjunto, de tal modo que a ordem das distncias entre os objectos e os sujeitos no espao correspondam, to prximo quanto possvel, s ordens de preferncias fornecidas pelos respectivos sujeitos. Joana encontra-se mais prxima do PCP que de qualquer outro partido e Sofia encontra-se mais afastada do PCP que de qualquer outro partido. Maria encontra-se mais afastada do PSD que de qualquer outro partido mas Sofia encontra-se mais prxima do PSD que de qualquer outro partido, e assim por diante. A posio de um sujeito no espao conjunto representa o ponto ideal desse sujeito relativamente aos partidos polticos: o partido preferido a todos os outros. A Figura 3 representa um mapa bidimensional dos partidos e dos pontos ideais. Continuando com a interpretao dimensional dos exemplos anterio68
res, parece que Sofia gosta da direita e grande, Maria gosta de um partido de tamanho mdio do centro poltico, enquanto que Joana gosta de um partido de tamanho mdio do lado esquerdo da arena poltica. A Figura 3 tambm mostra uma matriz sujeito-por-objecto contendo as distncias euclidianas entre os partidos e os pontos ideais neste espao bidimensional. Pode-se verificar que, para cada sujeito, a ordem destas distncias corresponde perfeitamente s ordenaes fornecidas por esse sujeito. Antes de pressionarmos a nossa sorte para alm de limites aceitveis, continuaremos com a discusso de vrios aspectos tcnicos e metodolgicos chave no MDS.
3. RECOLHA E ORGANIZAO DE DADOS
Os exemplos que ilustraram a seco anterior pressuposeram a recolha de dados atravs da ordenao de pares de objectos em relao s semelhanas globais e a ordenao dos objectos em relao atractividade global. Estes so apenas dois mtodos de recolha de dados entre uma grande variedade de possibilidades. Nesta seco, sero apresentados mtodos para obter dados que permitem a anlise MDS (ver Coxon, 1982; Davison, 1983; Shepard, 1972), em que obter dados se refere recolha dos dados e sua organizao. Em relao recolha dos dados, a distino dever ser feita entre dados de graduao, dados de ordenao e dados de agrupamento. Em relao organizao dos dados, distinguiremos entre dados directos, que fornecem informao de (dis)semelhana quando so recolhidos, e dados derivados, que fornecem a informao de (dis)semelhana exigida atravs do processamento prvio dos dados recolhidos. 3.1. Dados directos Os dados podem fornecer informao de (dis)semelhana quando so recolhidos. Discutiremos os mtodos principais para obter estes dados directos. Dados de graduao. Dados de (dis)semelhana objecto-por-objecto podem ser obtidos atravs de comparaes entre pares. So apresentados aos sujeitos pares de objectos e pedese-lhes para indicarem, para cada par, at que
ponto os objectos do par so semelhantes ou
disssemelhantes um do outro. Numa tarefa de
graduao categorial, os sujeitos indicam os
seus juizos marcando uma categoria numa escala
de 7 ou 15 pontos. Numa tarefa de graduao
contnua, indicam os seus juizos marcando uma
posio numa linha contnua. Numa tarefa de es-
timao da magnitude, um par seleccionado
como padro. Os outros pares, os pares em julga-
mento, so ento comparados com este par
padro. Se, por exemplo, um sujeito percepciona
um par como duas vezes (dis)semelhante ao par
padro, ento ser atribuido um valor de 2 ao
par em julgamento. Se, contudo, o sujeito per-
cepciona um par como metade (dis)semelhante
ao par padro, ento ser atribuido um valor de 1
ao par em julgamento.
Ao utilizar tarefas de comparaes entre pares, o design do questionrio deve controlar adequadamente os efeitos de ordenao, assegurando que um objecto aparece tantas vezes na primeira posio quantas as que aparece na segunda entre pares, e efeitos de afastamento, assegurando que os pares em que um objecto aparece se encontram mais ou menos distribudos ao longo do questionrio. Quando se utiliza uma tarefa de estimao da magnitude, mais desejvel assegurar que os n*(n-1)/2 pares de objectos so seleccionados igualmente tambm como par padro entre sujeitos. Outra preocupao com a utilizao de tarefas de comparao entre pares a extenso do questionrio: quando n (isto , o nmero de objectos) aumenta, n*(n-1)/2 (isto , o nmero de pares de objectos) aumenta rapidamente. Com 10 objectos existem 45 pares. Quando se aumenta a quantidade de objectos para 20, o nmero de pares aumenta para 190. Quando a quantidade de objectos aumenta de tal forma que no se espera que nenhum sujeito compare todos os pares possveis, deve-se utilizar um design incompleto em que cada par comparado por alguns, mas no por todos os sujeitos: os pares so divididos em subconjuntos e aos sujeitos so aleatoriamente atribuidos um destes subconjuntos por forma a compararem os pares nele contidos. Em relao formao desses subconjuntos, parece que a diviso aleatria dos pares em subconjuntos resulta to bem como os mtodos que se baseiam em regras (ver Spence & Domoney, 1974). Deve-se contudo recomendar que a diviso aleatria se deve submeter a algumas restries: em primeiro lugar, cada par deve aparecer num nmero igual de subconjuntos e, em segundo lugar, cada objecto deve aparecer em pelo menos um par de cada subconjunto. Em relao organizao dos dados para a anlise em MDS, til distinguir entre o nmero de modos e o nmero de sentidos num conjunto de dados. Segundo Carroll & Arabie (1980), o nmero de modos refere-se aos diferentes conjuntos de entidades no conjunto de dados, enquanto que o nmero de sentidos se refere ao nmero total de dimenses no conjunto de dados. Os dados de 69
comparaes entre pares recolhidos com um design completo pode ser organizado num conjunto de dados com dois modos (os objectos que entram nas comparaes e os sujeitos que fazem as comparaes) e trs sentidos (dois para os objectos e um para os sujeitos). Assim, h uma matriz objecto-por-objecto para cada sujeito. Alternativamente, os dados de comparaes entre pares recolhidos com um design completo podem ser agregados num conjunto de dados com um modo (os objectos que entram nas comparaes) e dois sentidos (ambos para o nico modo do conjunto de dados). Depois da agregao, h uma nica matriz objecto-por-objecto para o sujeito mdio. Cada entrada nesta matriz a mdia da (dis)semelhana de um determinado par de objectos, que a mdia aritmtica das graduaes categoriais ou contnuas e a mdia geomtrica das estimaes da magnitude (Davison, 1983). Obviamente, os dados de comparaes entre pares recolhidos com um design incompleto devem ser agregados antes da anlise. Para que se realize a agregao, parece aconselhvel obter pelo menos 20 vezes mais observaes do que parmetros necessrios para especificar a configurao, isto , m*(n*(n-1)/2)20*(n*r) ou m40*r/(n-1), em que m o nmero de sujeitos, n o nmero de objectos e r o nmero de dimenses que definem o espao (Davison, 1983). Dados de (dis)semelhana sujeito-por-objecto podem ser obtidos pedindo aos sujeitos para atribuirem nmeros aos objectos, de forma a que a magnitude dos nmeros indique as estimativas dos sujeitos sobre at que ponto os objectos possuem um determinado atributo. O atributo pode ser qualquer coisa, mas geralmente relaciona-se com a atractividade global dos objectos. Quando se recolhem os dados atravs da estimao da magnitude, um dos objectos pode ser seleccionado como padro ou, alternativamente, um objecto imaginrio que tenha mais do atributo pode ser escolhido como tal. Quando os objectos so avaliados em relao atractividade global, este o objecto que tem a maior atractividade global, por outras palavras, o objecto que representa o ideal do sujeito. Dados de (dis)semelhana sujeito-por-objecto organizam-se num conjunto de dados com dois modos (sujeitos e objectos) e dois sentidos (um para cada modo). Os dados nesta matriz fornecem informao 70
relativa proximidade dos membros entre modos, isto , a (dis)semelhana entre sujeitos e objectos: os dados no fornecem informao relativa proximidade dos membros intra cada um dos modos, isto , a (dis)semelhana entre sujeitos ou a (dis)semelhana entre objectos. Dados de ordenao. Dados de (dis)semelhana objecto-por-objecto podem obter-se pedindo aos sujeitos para ordenarem todos os pares que podem ser formados a partir de um conjunto de objectos em relao sua semelhana global (tal como se regista nos primeiro e terceiro exemplos introdutrios). Numa ordem forte, no so permitidos empates: um par de objectos no pode ser julgado como igualmente semelhante a um outro par mas tem de ser julgado mais ou menos semelhante que outro par. Numa ordem fraca, so permitidos os empates: um par de objectos pode ser julgado igualmente semelhante a um outro. Os dados podem ser organizados em conjuntos de dados de dois modos e trs sentidos ou, alternativamente, podem ser agregados num conjunto de dados de um modo e dois sentidos atravs da medianizao, entre sujeitos, das posies ordinais dos pares de objectos. Dados de (dis)semelhana sujeito-por-objecto podem obter-se pedindo aos sujeitos para ordenarem os objectos em relao extenso em que os objectos possuem determinado atributo, geralmente atractividade global (como no terceiro exemplo introdutrio). Tambm aqui, a ordem pode ser forte ou fraca. Os dados organizam-se num conjunto de dados em dois modos e dois sentidos. Dados de agrupamento. O agrupamento refere-se diviso de um conjunto de objectos em categorias mutuamente exclusivas e colectivamente exaustivas. Os mtodos de agrupamento so diferentes uns dos outros em relao aos agrupamentos permitidos e ao nmero de categorias permitidas por agrupamento. Em relao ao nmero de agrupamentos permitidos, pode-se fazer uma distino entre uma tarefa de agrupamento nico, que d uma oportunidade para dividir um conjunto de objectos em categorias de forma a que os objectos que pertencem mesma categoria so mais semelhantes que os objectos que pertencem a categorias diferentes, e uma tarefa de agrupamentos mltiplos, que d diversas oportunidades para dividir os objectos em categorias de
tal forma que, em cada ocasio e num determinado aspecto, a semelhana dentro das categorias seja maior que a semelhana entre categorias (Rosenberg & Kim, 1975). Em relao ao nmero de categorias permitidas em cada agrupamento, deve-se fazer uma distino entre agrupamentos fixos e agrupamentos livres. Numa tarefa de agrupamento fixo, o conjunto de objectos dividese num nmero pr-fixado de categorias. Dois casos especiais so a dicotomizao, onde o conjunto de objectos se divide em duas categorias (geralmente em relao a um objecto possuir ou no um determinado atributo) e a tricotomizao, onde o conjunto de objectos se divide em trs categorias (geralmente consistindo nos objectos que tm um determinado atributo, nos que no o tm e nos quais o atributo no se aplica). Numa tarefa de agrupamento livre , o conjunto de objectos divide-se num qualquer nmero de categorias, que pode ser desde uma (onde os
objectos se reunem na mesma categoria) a n (onde cada objecto constitui a sua categoria). Um agrupamento pode-se apresentar sob a forma de uma matriz de co-ocorrncias, na qual a entrada 1 indica que dois objectos, i e j, foram atribuidos mesma categoria e 0 indica que os objectos foram atribuidos a diferentes categorias. Assim, por exemplo, o agrupamento S={v,w|x,y,z} poder ser apresentado sob a forma da seguinte matriz: v w x y z
v - 1 0 0 0 w 0 0 0 x 1 1 y - 1 z Se bem que a anlise MDS possa ser apresentada atravs desta matrizes de co-ocorrncias
TABELA 1
Valores de Perfil e Dissemelhanas de Perfis para Dados de Ordenao Valores de Perfil

Positivo/ / Negativo PSD PP PS CDU -3 -3 +3 -1 Bom / / Mau 0 -1 +3 +2 Forte / / Fraco -2 +1 -2 +2 Duro / / Mole -1 +1 +1 +3 Activo / / Passivo +3 -3 -3 +1 Dinmico / / Esttico +3 -2 -2 +2
Dissemelhanas de Perfis
PSD PSD PP PS CDU 0 PP 75 0 PS 110 61 0 CDU 45 50 69 0
71
(por exemplo, Wish, 1970), as matrizes individuais so geralmente agregadas entre agrupamentos (por exemplo, Wish, 1970), entre sujeitos (por exemplo, Rosenberg, Nelson & Vivekananthan, 1968; Rosenberg & Kim, 1975) ou entre agrupamentos e sujeitos (por exemplo, Rosenberg & Kim, 1970). Depois da agregao, as matrizes contm as frequncias (relativas) com que quaisquer dois objectos foram atribuidos mesma categoria. 3.2. Dados derivados Os dados podem fornecer a informao exigida de (dis)semelhana atravs de processamento prvio dos dados recolhidos. Continuaremos pela discusso dos principais mtodos de obteno destes dados derivados. Dados de graduao. Quando se pede a um sujeito para avaliar n objectos em relao a m atributos, o resultado sero n perfis, cada um com t valores nos atributos. Por exemplo, podemos pedir a Mrio para classificar os quatro partidos polticos portugueses num diferenciador semntico (Osgood, Suci & Tannenbaum, 1957), que um conjunto de escalas categoriais bipolares, polarizadas em descries relativamente abstractas e respectivos antnimos. Deste modo, Mrio poderia avaliar os quatro partidos em seis escalas bipolares de 7 pontos, polarizadas em positivo-negativo, bom-mau, forte-fraco, grande-pequeno, activo-passivo e dinmico-esttico, respectivamente. Isto deveria resultar numa matriz de dados contendo quatro perfis com seis scores de atributos cada, tal como ilustra a Tabela 1. A dissemelhana entre os partidos pode ento ser derivada como alguma medida de dissemelhana de perfis (ver Cronbach & Glesser, 1953). Uma dessas medidas o desvio quadrado total entre objectos: t ij = (xir - xjr)2, r=1
drada do desvio quadrado total entre objectos, que a distncia euclidiana entre objectos no espao dos atributos, e a raiz quadrada do desvio quadrado mdio entre objectos. Trs elementos diferentes contribuem para o perfil de dissemelhana (Skinner, 1978). O primeiro, a elevao dos perfis, tal como medida pela mdia dos valores atribuidos aos objectos i e j (mi e mj). Assim, a dissemelhana dos objectos i e j aumenta com a tendncia de um
TABELA 2
A Contribuio de Elevao, Disperso e Forma Para a Dissemelhana de Perfis
(1)
em que ij a dissemelhana entre os objectos i e j, xir o valor do objecto i no atributo r e t o nmero de atributos. As dissemelhanas de perfis derivadas desta medida tambm esto registadas na Tabela 1. Outras medidas de dissemelhana de perfis, se bem que relacionadas, so a raiz qua72
objecto receber maiores valores do que outro. O segundo elemento, a disperso dos perfis, tal como medido pelo desvio padro dos valores atribuidos aos objectos i e j (si e sj). Assim, a dissemelhana dos objectos i e j aumenta com a tendncia de um objecto receber valores mais dispersos do que o outro. O terceiro elemento, a forma dos perfis, cuja correspondncia medida pela correlao entre os valores atribuidos aos objectos i e j (rij). Depois de remover a contribuio da elevao e da disperso para a dissemelhana de perfis atravs da computao de valores padro, isto , ao deixar zir=(xir-mi)/si e zjr=(xjr-mj)/sj, a dissemelhana de perfis pode continuar a existir, medidade que as mudanas nos valores padro num perfil tendem a estar em desacordo com mudanas nos valores padro no outro perfil. Correspondncias menos que perfeitas sero traduzidas num coeficiente de correlao menor que um, enquanto que uma no-correspondncia perfeita ser traduzida num coeficiente de correlao igual a menos um. Depois da padronizao, o desvio quadrado total entre perfis uma funo linear decrescente da correlao entre os perfis. Especificamente, o desvio quadrado total entre perfis est relacionada com a correlao entre perfis segundo a frmula ij=2t(1-rij). As contribuies da elevao, disperso e forma para a dissemelhana de perfis est ilustrada na Tabela 2, exibindo diversos casos em que dois objectos (i e j) so avaliados em trs atributos (a, b, c). No primeiro caso, a dissemelhana surge apenas pela diferena na elevao: o objecto j recebe avaliaes maiores que o objecto i. No segundo caso, a dissemelhana surge apenas pela diferena na disperso: o objecto j tende a receber avaliaes mais dispersas que o objecto i. No terceiro caso, a dissemelhana surge apenas pela diferena na forma: uma diminuio nas avaliaes do objecto i ocorre em simultneo com um aumento igual nas avaliaes do objecto j (no-correspondncia perfeita). O quarto e ltimo caso ilustra a contribuio conjunta da elevao, disperso e forma para a dissemelhana de perfis: o objecto j tende a receber avaliaes mais elevadas e mais dispersas que o objecto i, enquanto que uma diminuio nas avaliaes do objecto i ocorre em simultneo com um aumento proporcional nas
avaliaes do objecto j (mais uma vez, nocorrespondncia perfeita). A derivao da informao de dissemelhana a partir dos perfis parece legitima, se bem que a sua utilidade com objectivos de escalonamento dependa criticamente de (1) conhecer os atributos relevantes e (2) saber como medi-los. Se estas duas exigncias no se cumprirem, parece ser prefervel obter a informao de dissemelhana seguindo os procedimentos que evitam a identificao prvia dos atributos relevantes e a mensurao independente desses atributos. De facto, uma virtude importante do MDS que ele permite que se evite tudo isso na anlise multivariada. Dados de ordenao. Em vez de se obter informao da (dis)semelhana sujeito-por-objecto pedindo directamente aos sujeitos para fornecerem uma ordenao total dos objectos em relao ao grau com que os objectos possuem um determinado atributo (atraco, dureza, rapidez ou qualquer outro), essa informao pode ser derivada a partir das ordenaes emparelhadas dos objectos em relao ao atributo seleccionado. As ordenaes emparelhadas podem ser obtidas atravs da administrao de uma tarefa de juzo de dominncia, na qual so apresentados pares de objectos e pede-se ao sujeito para indicar, em cada par, qual dos objectos possui maior quantidade de um determinado atributo, isto , qual dos objectos derrota ou domina o outro em relao a esse atributo. Os juzos de dominncia podem ser testados, em primeiro lugar, em relao sua transitividade (isto , se h derrota i e i derrota j, ento h deve derrotar j). Se os juizos so suficientemente consistentes, as ordenaes emparelhadas podem servir para derivar uma ordenao total dos objectos. Suponhamos que apresentamos a um sujeito um conjunto de pares formados pelas primeiras quatro letras do alfabeto, isto , T={(a,b), (a,c), (a,d), (b,c), (b,d), (c,d)}, e lhe pedimos para indicar, em relao a cada par, qual a letra preferida. Se o sujeito preferir uma letra arredondada esquerda a outra arredondada direita, se preferir uma com um grande brao a outra com um brao pequeno e se for mais influenciado pelo arredondamento que pelo tamanho do brao da letra, ento os juizos de dominncia perfeitamente consistentes seriam a, a, a, c, d e d, respectiva73
mente. A partir deste juizos, pode-se derivar a ordem de preferncia a>d>c>b. Se, contudo, um sujeito for mais influenciado pelo tamanho do brao que pelo arredondamento, ento os juizos de dominncia perfeitamente consistentes seriam b, a, d, b, d e d, respectivamente. A partir deste juizos pode-se derivar a ordem de preferncia d>b>a>c. As ordenaes totais inferidas para os sujeitos individuais so organizadas numa matriz de proximidade sujeito-por-objecto. Dados de agrupamento. Em vez de se obter directamente informao de (dis)semelhana objecto-por-objecto pedindo aos sujeitos para fornecerem, relativamente sua semelhana global, uma ordenao dos pares de objectos, essa informao pode ser derivada a partir dos dados recolhidos atravs da administrao de uma tarefa de agrupamento hierrquico (ver por exemplo Green, Maheshwari & Rao, 1969). Este um procedimento de dicotomizao multitarefa. Na primeira etapa, os pares so divididos em dois grupos: um contendo os pares semelhantes (S1), o outro contendo os pares dissemelhantes (D1). Na segunda etapa, cada grupo resultante da primeira etapa subdividido. Os pares semelhantes da primeira etapa so divididos num grupo de pares semelhantes (S1[S2]) e num grupo de pares dissemelhantes (S1[D2]), tal como os pares dissemelhantes da primeira etapa so divididos num grupo de pares semelhantes (D1[S2]) e num grupo de pares dissemelhantes (D1[D2]). Desta forma, at segunda etapa o procedimento gera quatro grupos cujos membros so classificados em relao sua semelhana global: S1[S2]>S1[D2]>D1 [S2]>D1[D2]. A dicotomizao hierrquica pode continuar at que, na etapa final, o procedimento gere uma ordenao total de pares de objectos em relao sua semelhana global. As ordenaes totais dos sujeitos individuais podem organizar-se numa matriz de proximidades objecto-por-objecto, agregada ou desagregada. Enquanto que o mtodo de agrupamento hierrquico gera dados a partir dos quais se pode derivar a informao ordinal respeitante (dis)semelhana dos pares de objectos, os mtodos de agrupamento discutidos anteriormente geram dados que fornecem informao nominal respeitante semelhana dos pares de objectos na forma de matrizes de co-ocorrncia. Contudo, 74
em muitas aplicaes, as co-ocorrncias brutas so transformadas em medidas de semelhana que salientam os aspectos adicionais dos agrupamentos observados. Vamos regressar ao agrupamento S={v,w|x,y,z}. Enquanto que as co-ocorrncias brutas so todas iguais umas s outras, como anteriormente foi ilustrado, possvel definir medidas de semelhana que do pesos diferentes s co-ocorrncias observadas (ver Coxon, 1982). Uma possibilidade pesar as co-ocorrncias pelo tamanho das categorias a que os pares de objectos pertencem (c), inflacionando deste modo a medida de semelhana pelo tamanho da categoria: v v w x y z w 2 x 0 0 y 0 0 3 z 0 0 3 3 -
Esta medida de semelhana inflacionada salienta as discriminaes brutas: os objectos atribuidos a categorias maiores tornam-se mais semelhantes que os objectos atribuidos a categorias mais pequenas. Outra possibilidade pesar inversamente as co-ocorrncias pelo tamanho da categoria a que os pares de objectos pertencem (1/c), deflacionando deste modo a medida de semelhana pelo tamanho da categoria.
v w x y z v 0 0 0 w 0 0 0 x a a y a z Esta medida de semelhana deflacionada salienta as discriminaes finas: os objectos atribuidos a categorias maiores so menos semelhantes que os objectos atribuidos a categorias mais pequenas. Como j foi referido anteriormente, as matrizes individuais so geralmente agregadas entre agrupamentos. Podem desenvolver-se anlises a partir da matriz agregada ou sobre as medidas de (dis)semelhana derivadas a partir da matriz agregada. Um candidato forte a medida de dissemelhana introduzida por Rosenberg et al.
(1968) e definida para matrizes agregadas contendo as frequncias com que os objectos foram atribuidos a diferentes categorias. n ij = (fih - fjh)2, h=1
(2)
onde ij a dissemelhana dos objectos i e j, fih a frequncia com que os objectos i e h foram atribuidos a diferentes categorias e n o nmero de objectos. A medida na equao (2) formalmente equivalente medida da equao (1), mas calcula as dissemelhanas de perfis com base nas incongruncias da agrupamento em vez de se basear nos valores nos atributos. Consideremos os agrupamentos S1= {v,x|w|y,z}, S2={v,x|w,y,z}, S3={v,y|w|x,z} e S4={v,y|w,x|z}. As matrizes seguintes mostram como estes agrupamentos se representam em relao s medidas fij (isto , incongruncias de agrupamento) e em relao s medidas dij (isto , dissemelhanas dos perfis), respectivamente.
v w x y z v w x y z 0 4 2 2 2 4 0 3 3 3 2 3 0 4 3 2 3 4 0 2 4 3 3 2 0 v w x y z v 35 w x y z
0 35 14 17 34 0 23 24 19 0 33 26 0 13 0 14 23
17 24 33
34 19 26 13
A medida ij obtem-se seleccionando a linha (coluna) i e j na matriz fij e calculando o desvio quadrado total entre as entradas correspondentes entre as n colunas (linhas). O racional da medida ij que o i e o j podem ganhar semelhana aparecendo frequentemente na mesma categoria (semelhana directa) e aparecendo com uma frequncia semelhante na mesma categoria como terceiras partes (semelhana indirecta). Por exemplo, duas pessoas podem ganhar proximidade social no apenas interagindo frequentemente uma com a outra mas tambm interagindo com frequncia semelhante com terceiras pessoas, independentemente de o fazerem na mesma ocasio. Para ilustrar a diferena, consideremos a dissemelhana entre o par de objectos w e z e o par de objectos x e z. Em relao s incongruncias de agrupamento (medidas fij), os pares so igualmente dissemelhantes. Contudo,
em relao s dissemelhanas de perfis (medidas ij), w e z so menos dissemelhantes que x e z, porque w e z tendem a interagir com terceiras partes do mesmo modo (excepto que z co-ocorre com y mais uma vez do que w), enquanto que x e z tendem a interagir com outros de formas bastante diferentes (excepto que ambos co-ocorrem uma vez com w). Outro mtodo de derivar informao de (dis)semelhana a partir dos dados de agrupamento agregados aplica-se quando os sujeitos fornecem dicotomizaes mltiplas em relao a um conjunto de atributos pr-especificados. Por exemplo, pode-se pedir aos sujeitos que dividam os quatro maiores partidos polticos portugueses em dois grupos, considerando que o atributo bom possa ser caracterstico ou no dos respectivos partidos e pode pedir-se-lhes que forneam a mesma dicotomizao em relao tambm aos atributos forte e activo. Suponhamos que 10 sujeitos realizam esta tarefa e que os dados foram agregados numa matriz contendo quatro perfis com trs frequncias distribuidas cada, tal como mostra a Tabela 3. Deste modo, por exemplo, o atributo bom foi considerado caracterstico do PS por todos os sujeitos, enquanto que s foi considerado caracterstico do PCP por metade dos sujeitos. Dissemelhanas de perfis podem ser calculadas nessas frequncias de agrupamento segundo a equao (1), cujos resultados tambm surgem na Tabela 3. Contudo, esta prtica ignora a distribuio desigual das frequncias de agrupamento entre objectos e entre atributos. Por exemplo, os sujeitos do atributos ao PS com uma maior frequncia do que a qualquer outro partido, enquanto que do o atributo bom aos partidos com uma maior frequncia que qualquer outro atributo. De forma a eliminar estes efeitos de linha (objectos) e de coluna (atributos) nas dissemelhanas de perfis, as frequncias de agrupamento podem ser normalizadas segundo a seguinte frmula (ver Carroll, Green & Schaffer, 1988). fir gir = ri * cr em que gir a frequncia normalizada com que o atributo r atribuido ao objecto i, fir a fre75 ,
TABELA 3
Valores de Perfil e Dissemelhanas de Perfis Para Dados de Agrupamento
76
quncia com que os sujeitos atribuem atributos ao objecto i e cr a frequncia com que os sujeitos atribuem o atributo r aos objectos. Em relao s frequncias de agrupamento normalizadas apresentadas na Tabela 3, pode-se verificar, por exemplo, que o atributo bom caracteriza o PS tanto quanto o PCP quando as desigualdades nas frequncias marginais so controladas. As dissemelhanas de perfis podem ser calculadas em frequncias de agrupamento normalizadas segundo a seguinte frmula (ver Carroll et al., 1986): t ij = F * [ (gir - gjr)2], r=1 em que ij a dissemelhana dos objectos i e j, t o nmero de atributos e F a frequncia total com que os atributos so atribuidos aos objectos, isto , n t F= fir, i=1 r=1 em que n o nmero de objectos. Em relao s dissemelhanas de perfis calculadas nas frequncias de agrupamento normalizadas apresentadas na Tabela 3, pode-se verificar, por exemplo, que h uma correspondncia perfeita entre o PS e o PCP quando as desigualdades nas frequncias marginais so controladas. 3.3. Comentrios finais Nesta seco apresentmos mtodos de recolha e organizao de dados que possibilitam a anlise MDS. Se bem que seja impossvel ser exaustivo, pensmos que apontmos os principais mtodos que interessam psicologia. Mais, a exposio transmitiu o estilo da preparao de dados que precede a anlise MDS e, concomitantemente, forneceu directivas para o desenvolvimento de mtodos mais adaptados a qualquer objectivo de investigao. Gostariamos ainda de expressar uma palavra de cautela em relao agregao de dados entre sujeitos. Como princpio metodolgico, a inspeco das diferenas individuais deve preceder sempre a agregao (Coxon, 1982). Caso contrrio, corre-se o risco de estar muito ocupa-
do a escalonar informao de dissemelhana que no pertence a ningum. Em relao s diferenas individuais, fizemos uma distino clara entre dados desagregados, que permitem a heterogeneidade da informao de (dis)semelhana entre sujeitos, e dados agregados, que impe a exigncia de a informao de (dis)semelhana ser homognea entre sujeitos. Uma extenso bvia desta distino, a escolha de um nvel intermdio de agregao: formar grupos de sujeitos de modo a que a informao de (dis)semelhana seja homognea intra-grupos mas heterognea inter-grupos. Assim, a um nvel intermdio de agregao, um dos modos do conjunto de dados refere-se aos grupos de sujeitos que foram formados. Contudo, independentemente da agregao ser parcial ou completa, necessria uma abordagem cautelosa. Isto significa que, previamente agregao, qualquer estrutura de dados de um sujeito deve ser comparada, de uma maneira ou de outra, com a estrutura completa de dados de todos os outros sujeitos.
4. ANLISE DE DADOS
Tal como foi referido no incio deste artigo, no iremos abordar os aspectos tcnicos do MDS (para exposies tcnicas a um nvel introdutrio ver Coxon, 1982; Davison, 1983). No entanto, o investigador deve estar apto a decidir se se justifica ajustar um modelo de distncias espaciais aos dados de proximidade obtidos, escolher entre os modelos principais e as opes de modelos na anlise de dados e conseguir uma interpretao vlida dos resultados do MDS. Estes tpicos sero desenvolvidos nesta seco. 4.1. Axiomas Mtricos Atravs do MDS, os dados de proximidade so representados por uma configurao espacial de pontos em que as distncias interponto correspondem, to perto quanto possvel, s proximidades. De forma a decidir se se justifica ajustar um modelo de distncias espaciais aos dados de proximidade, necessrio investigar se as proximidades satisfazem os trs seguintes axiomas (por exemplo, Carroll & Wish, 1974b). O axio77
ma da positividade, tambm referido como o axioma da minimalidade (por exemplo, Tversky, 1977), afirma que duas entidades so ou idnticas uma outra, caso em que a sua dissemelhana zero, ou diferentes uma da outra, caso em que a sua dissemelhana maior que zero, isto , dijdii=0. O axioma da simetria afirma que uma entidade i to dissemelhante de outra j tanto quanto a entidade j o da i, isto , dij=dji. As proximidades que satisfazem o axioma da positividade e o axioma da simetria podem ser representadas num espao semimtrico. O axioma da desigualdade triangular afirma que uma entidade k ou est em cima da linha que liga i a j, caso em que a soma da dissemelhana entre as entidades i e k com a dissemelhana entre k e j igual dissemelhana das entidades i e j, ou est fora da linha que liga as entidades i e j, caso em que a soma da dissemelhana entre as entidades i e k com a dissemelhana antre as entidades k e j excede a dissemelhana das entidades i e j, isto , dik+dkj>dij, para todos os i, j e k. As proximidades que tambm satisfaam o axioma da desigualdade triangular podem ser representadas num espao mtrico. Mas ser que os axiomas mtricos fornecem uma base psicologicamente vlida para a anlise da informao de (dis)semelhana? Segundo Tversky (1977, 329) a minimalidade problemtica, a simetria aparentemente falsa e a desigualdade triangular dificilmente apelativa. Quando a identidade do estmulo no evidente, prtica comum recolher auto-proximidades para alm de proximidades entre estmulos noidnticos (Carroll & Wish, 1974b). Nesses casos, a minimalidade tende a ser desafiada pelas probabilidades desiguais de julgar estmulos idnticos como o mesmo em vez de diferente (Tversky, 1977). Por exemplo, quando o estmulo so figuras geomtricas, a probabilidade de julgar figuras idnticas como a mesma em vez de diferente diminui com a sua complexidade (para uma reviso ver Nickerson, 1972), sugerindo que a distncia entre qualquer ponto e si prprio aumenta com a dimensionalidade do ponto (Smith e Medin, 1981). Desafios simetria podem encontrar-se na escolha das pessoas em afirmaes na forma de i igual a j e nos seus juzos de semelhana tal como so revelados pelo seu acordo com afirmaes na forma de i semelhante a j. As pessoas normalmente 78
escolhem, e esto mais prontamente a concordar com, afirmaes de semelhana em que o estmulo mais saliente, proeminente ou prototpico ocupa a posio de referente j em oposio posio i do sujeito (Tversky, 1977). Deste modo, as pessoas dizem normalmente que uma elipse como um crculo em vez de um crculo como uma elipse e concordam mais facilmente com a afirmao que uma elipse semelhante a um crculo do que com a afirmao que um crculo semelhante a uma elipse. Finalmente, dvidas sobre a validade psicolgica do axioma da desigualdade triangular vm desde William James (1890), que salientou a possvel intransitividade nos juzos de semelhana, com o exemplo da bola-lua-vela. Uma bola pode ser considerada semelhante lua, porque ambas so redondas, a lua pode ser considerada semelhante a uma vela, porque ambas do luz, mas a bola e a vela no so semelhantes uma outra. Isto colide com o axioma da desigualdade triangular. Se i bastante semelhante a k e k bastante semelhante a j, ento i e j no podem ser muito dissemelhantes um do outro (Tversky, 1977). Como continuar quando as proximidades violam os axiomas mtricos? Em primeiro lugar, pode-se abandonar completamente a noo de espao mtrico e adoptar outra abordagem para a representao dos dados de proximidade, como a abordagem da teoria de conjuntos, adoptada por Tversky (1977) no desenvolvimento do modelo de contraste de semelhanas. Em segundo lugar, pode-se manter a noo de espao mtrico mas aumentar o modelo de distncia espacial com pressupostos suplementares em relao ao processo atravs do qual uma configurao de estmulos se traduz em juzos de semelhana de estmulos, como o modelo de distncia-densidade proposto por Krumhansl (1978). Em terceiro lugar, pode-se manter a noo de espao mtrico mas redefinir um conjunto de dados de p modos e q sentidos num conjunto de dados de (p+1) modos e q sentidos (Carroll & Arabie, 1980). O modo extra surge por se considerar as linhas e colunas como correspondendo a entidades distintas, de forma a que cada entidade esteja representada duas vezes na configurao espacial, uma vez como sujeito e outra vez como objecto (Coxon, 1982). Se bem que geralmente seja apresentado como uma soluo para ajustar um modelo de distncias espaciais s
TABELA 4
Procedimento de Tripla-Igualdade
proximidades no-simtricas, este procedimento, de facto, fornece uma soluo de ajustamento de um modelo de distncia espacial s proximidades que violam qualquer um dos axiomas mtricos. Em quarto lugar, pode-se definir as violaes como no-existentes, transformando os dados de proximidade. A positividade pode ser forada, substituindo todas as entradas diagonais da matriz de proximidades por zeros (isto , ii=0 para todos os i). A simetria pode ser forada, substituindo as entradas fora da
diagonal ij e ji pela sua soma (isto , ij= ji= ij+ ji) ou a sua mdia aritmtica (isto , ij= ji=[(ij+ ji)/2]), pelo seu produto (isto , ij= ji= ij* ji) ou pela sua mdia geomtrica (isto , ij= ji=[ij* ji]) para todos os i>j. Finalmente, a desigualdade triangular pode ser forada, aplicando-se o procedimento de transformao avanado por Carroll e Wish (1974a), baseado em Torgerson (1958) e geralmente considerado adequado para este propsito. Neste
79
procedimento, ij= ij+cmin, para todos os i<>j, em que cmin = max [ij-(ik+kj)]. (i,j,k) (3)
Aqui, cmin a constante mais pequena que se tem de adicionar a todas as proximidades, excepto as auto-proximidades, de forma a transformar os s (proximidades) em ds (distncias, isto , nmeros que satisfaam pelo menos os axiomas mtricos). Qualquer outra constante c>cmin tambm serviria (com o custo de aumentar, contudo, a dimensionalidade do espao que tem de acomodar os dados). O procedimento da tripla igualdade aplica-se quando as proximidades so dissemelhantes (para um exemplo, ver Tabela 4). Quando as proximidades so semelhanas, devem primeiro ser transformadas em dissemelhanas, por exemplo, atravs da multiplicao de todos os dados por -1. Quando as proximidades so medidas ao nvel ordinal, o procedimento da tripla igualdade pode ser vista como uma funo monotnica permissiva, transformando as proximidades em distncias (Carroll & Wish, 1974b). Quando as proximidades so medidas ao nvel intervalar, o procedimento pode-se justificar da seguinte forma (ver Coxon, 1982). Para trs pontos (i, j, k), que formam uma linha recta num espao mtrico, (dik+dkj) igual a dij ou, por outras palavras, dij-(dik+dkj) igual a zero. Contudo, para situaes em que k cai fora da linha, (dik+dkj) maior que dij ou, por outras palavras, o valor de dij-(dik+dkj) negativo. Quando as proximidades satisfazem o axioma da desigualdade triangular, ento, o termo da direita na equao (3) nunca ser positivo. Contudo, quando as proximidades representam distncias intervalares e no escalares ou, por outras palavras, quando ij=dij+c, o termo da direita da equao (3) ser (0+c) para pontos colineares e ser um valor menor (negativo+c) em outras situaes. De modo a fazer com que as proximidades satisfaam o axioma da desigualdade triangular, ento, o valor maior de todas as comparaes ternrias a constante menor a adicionar proximidade. A ocorrncia das violaes dos axiomas mtricos no depende apenas da validade psicolgica desses axiomas para a representao das 80
(dis)semelhanas percepcionadas mas tambm no mtodo atravs do qual a informao sobre a (dis)semelhana recolhida. Certos mtodos de recolha de dados, por definio, no prevem violaes aos axiomas mtricos, como os mtodos de agrupamento j apresentados. Tal como Tversky (1977) refere, os axiomas mtricos sero satisfeitos deixando que ij=0, quando as respostas a i e j so idnticas, e ij=1 nas restantes situaes. Pelo contrrio, os axiomas mtricos sero satisfeitos quando se define a medida de semelhana, em vez de uma medida de dissemelhana, deixando que ij=1, quando as respostas a i e j so idnticas, e ij=0 nas restantes situaes. Uma vez que esta ltima medida se utiliza na construo de uma matriz de coocorrncias para dados de agrupamento, a coocorrncia , por definio, uma mtrica. Para alm disso, quando as matrizes dos individuos se somam numa matriz agregada, a co-ocorrncia agregada tambm uma mtrica, pois a soma das mtricas uma mtrica (Coxon, 1982). 4.2. Dados de Um Modo e Dois Sentidos Atravs do MDS, dados sobre a proximidade so representados por uma configurao espacial de pontos, em que as distncias interponto correspondem s proximidades to perto quanto possvel. Para dados de um modo e dois sentidos (tal como os dados recolhidos em relao a Bruno), o modelo MDS pode escrever-se da seguinte forma: r ij = f (dij)= f ([ |xit - xjt|p]1/p), t=1
(4)
em que ij a proximidade entre os objectos i e j, dij a distncia entre os objectos i e j, f uma funo que relaciona distncias com proximidades, xit a coordenada do objecto i na dimenso t, r o nmero de dimenses que definem a configurao e p o parmetro que especifica a potncia da mtrica da distncia. Para p1, a mtrica da distncia, conhecida como a mtrica Minkowski ou mtrica da potncia, uma mtrica verdadeira em que os trs axiomas mtricos j referidos so satisfeitos. Para 0<p<1, a mtrica Minkowski uma mtrica verdadeira apenas se se omitir o expoente exterior 1/p. De
outra forma, a desigualdade triangular no satisfeita e a mtrica Minkowski , de facto, uma semimtrica. Para p<0, a mtrica Minkowski sempre uma semimtrica. A mtrica Minkowski inclui diversos casos especiais de interesse substantivo (ver Carroll & Wish, 1974b), Quando p=2, a mtrica Minkowski reduz-se mtrica euclidiana, segundo a qual, por exemplo, a distncia entre dois objectos bidimensionais a=(1,4) e b=(5,1) 5. A mtrica euclidiana utiliza-se na maior parte das aplicaes do MDS, devido, provavelmente, sua tractabilidade matemtica, simplicidade conceptual e precedncia histrica (Carroll & Wish, 1974b, 435). Uma circunstncia afortunada que os modelos MDS que utilizam esta mtrica provaram ter uma boa robustez, o que significa que, mesmo que a mtrica real seja no-euclidiana, o MDS no espao euclidiano geralmente ir recuperar a configurao com grande preciso (Carroll e Wish, 1974b). Quando p=1, a mtrica Minkowski reduz-se designada mtrica dos blocos urbanos, segundo a qual a distncia entre objectos a soma das diferenas absolutas entre os objectos ao longo de todas as dimenses. Assim, a distncia entre a e b 7. Quando p=+, a mtrica Minkowski reduz-se mtrica mxima, segundo a qual a distncia entre objectos a maior diferena absoluta entre os objectos (psicologicamente, como se um indivduo apenas considerasse a dimenso ao longo da qual os objectos so mais dissemelhantes). Deste modo, a distncia entre a e b 4. Quando p=-, a mtrica Minkowski reduz-se a semimtrica mnima, segundo a qual a distncia entre objectos a menor diferena absoluta entre os objectos (psicologicamente, como se um indivduo apenas considerasse a dimenso ao longo da qual os objectos so mais semelhantes). Deste modo, a distncia entre a e b 3. esta semimtrica que poderia acomodar e explicar as proximidades epitomizadas pelo exemplo de William James da bola-lua-vela. Os modelos MDS diferem em relao funo f, que relaciona distncias com proximidades, e o parmetro p, que especifica a mtrica da distncia. No escalonamento mtrico, as distncias relacionam-se com proximidades de escalas intervalares atravs de uma funo f conhecida (Carroll & Wish, 1974b). Torgerson (1958), por exemplo, relaciona distncias com disseme-
lhanas atravs de uma funo linear, enquanto Shepard (1957) relaciona distncias com semelhanas atravs de uma funo exponencial negativa (ambas pressupem a mtrica euclidiana). No escalonamento no-mtrico, as distncias relacionam-se com proximidades de escalas ordinais atravs de uma funo monotnica desconhecida, no-decrescente para dissemelhanas e no-crescente para semelhanas (Carroll & Wish, 1974a). Se bem que a primeira implementao se restrinja mtrica euclidiana (Shepard, 1962a; 1962b), melhorias subsequentes permitiram qualquer mtrica pertencente famlia Minkowski (Kruskal, 1964a; 1964b). Previamente apresentao dos trs exemplos de anlises MDS no incio deste artigo, prevenimos que esses exemplos eram irrealistas em relao ao que o MDS pode de facto fazer. Isto deve-se exigncia, no MDS no-mtrico, de que os dados imponham restries suficientes configurao de pontos atravs da qual os dados so representados para que a soluo final seja determinvel. Diversas recomendaes foram consideradas na literatura sobre o que suficiente. Por exemplo, Kruskal & Wish (1978) recomendam que os dados de pontos sejam pelo menos o dobro dos parmetros necessrios para especificar a configurao, isto , n*(n-1)/2 2*(n*r) ou n4*r+1, em que n o nmero de objectos e r o nmero de dimenses. Davison (1983) recomenda que os objectos sejam pelo menos cinco vezes mais do que as dimenses necessrias para especificar a configurao, isto , n5*r. Green, Carmone e Smith (1987), aps reviso das recomendaes de outros investigadores, sugerem que os objectos sejam quatro a seis vezes mais do que as dimenses necessrias especificao da configurao, isto , 4*r<n<6*r. Para configuraes de dimensionalidade entre 1 e 5, ento, as recomendaes so as seguintes: r nmin 1 2 3 4 5 5 9 13 17 21 5 10 15 20 25 4- 6 8-12 12-18 16-24 20-30
Se estas recomendaes no forem seguidas, a configurao obtida atravs do MDS no-mtrico 81
no ser fivel e ir, deste modo, fornecer uma base pobre para interpretaes substantivas. 4.3. Dados de Dois Modos e Trs Sentidos Para dados de dois modos e trs sentidos (como os recolhidos para Bruno, Chico e Tiago) o modelo MDS pode escrever-se da seguinte forma:
r ijk = f (dijk)= f ([ wkt * |xit - xjt|p]1/p), t=1 (5)
na com o sujeito mdio. (No nosso caso hipottico Bruno que d um peso igual s duas dimenses que definem a soluo, assim, o seu espao privado pode ser considerado tambm como espao do grupo.) 4.4. Dados de Dois Modos e Dois Sentidos Para dados de dois modos e dois sentidos (como os recolhidos para Joana, Maria e Sofia) o modelo MDS pode escrever-se como:
r
jk = f (djk)= f ([ wkt * |xjt - ykt|p]1/p), t=1
(6)
em que ijk a proximidade entre os objectos i e j tal como observa o sujeito k, dijk a distncia entre os objectos i e j no espao privado do sujeito k, wkt o peso da dimenso t para o sujeito k e todos os outros termos lem-se da mesma forma que na equao (4). Quando p=2, o modelo conhecido por modelo de escalonamento das diferenas individuais (Individual Difference SCALing INDSCAL, Carroll & Chang, 1970) ou modelo das mtricas subjectivas (Schnemann, 1972). Se bem que desenvolvido de modo a acomodar as diferenas individuais no peso perceptual, conceptual ou comportamental dadas s dimenses-estmulo (como no nosso caso hipottico de Bruno, Chico e Tiago), os sujeitos no precisam necessariamente de ser indivduos e os objectos no necessitam de ser estmulos (Carroll & Wish, 1974a). Por exemplo, o modelo INDSCAL pode aplicar-se a ndices de proximidade social entre indivduos (objectos) obtidos em diferentes situaes (sujeitos), o que poder revelar caractersticas de personalidade subjacentes interaco social e mudanas na incidncia da sua manifestao em diferentes situaes. A possibilidade de pesos zero permite uma situao em que dois ou mais grupos tenham espaos privados completamente diferentes sem comunalidade entre eles. Nesta situao, o espao do grupo definido pela soma total das dimenses para os diferentes grupos de sujeitos e cada grupo de sujeitos tem pesos diferentes de zero apenas num subconjunto das dimenses. O espao do grupo produzido pelo modelo INDSCAL relaciona-se com um sujeito real ou hipottico com pesos iguais nas dimenses daquele espao. O espao do grupo no se relacio82
em que jk a proximidade entre o objecto j e o sujeito k, djk a distncia entre o objecto j e o sujeito k, ykt a coordenada do sujeito k na dimenso t e todos os outros termos podem ser lidos como nas equaes (4) e (5). Se bem que desenvolvido de forma a acomodar diferenas individuais nas preferncias entre estmulos (como no nosso caso hipottico de Joana, Maria e Sofia), a aplicao do modelo da equao (6) no necessita de se limitar a tais instncias. Tal como j foi sugerido, este modelo pode utilizar-se na representao dos dados de proximidade objectopor-objecto quando os pressupostos mtricos so severamente violados (Carroll & Arabie, 1980). Para mencionar apenas outra possibilidade, os indivduos (objectos) podem ser avaliados ou ordenados em relao actividade social (atributo), em diferentes situaes (sujeitos). Desta forma, as posies nas situaes na soluo MDS iro representar as localizaes da actividade social mxima (isto , nenhum indivduo poder ser mais activo que esse valor) e os indivduos sero posicionados na configurao em correspondncia com a sua actividade social em diferentes situaes. Pode-se fazer uma distino entre anlises internas e externas de dados de dois modos e dois sentidos (ver Carroll, 1972; Carroll & Arabie, 1980). Numa anlise interna (sem restries), os sujeitos e os objectos so posicionados simultaneamente numa configurao espacial. Numa anlise externa (com restries), especificada a priori uma configurao de objectos (por exemplo, atravs de anlises MDS prvias aos dados de proximidade objecto-por-objecto) e
os sujeitos so posicionados nesta configurao pr-especificada. Outra distino pode fazer-se entre anlises condicional e incondicional (Coombs, 1964). Numa anlise condicional, pressupe-se que o significado dos nmeros que indicam o grau em que os objectos possuem um determinado atributo seja incomparvel entre sujeitos. Este pressuposto pode ser plausvel em relao ordenao dos partidos polticos feita por Joana, Maria e Sofia, relativamente sua atractividade global. Enquanto que Maria gosta mais do PS e Joana coloca este partido em segundo lugar, possvel que a opinio de Joana sobre o PS seja mais positiva do que a de Maria. Numa anlise incondicional, pressupe-se que o significado dos nmeros indicam o grau em que os objectos possuem um determinado atributo seja comparvel entre sujeitos. Este pode ser um pressuposto plausvel em relao s avaliaes de um observador sobre diversos individuos relativamente sua actividade social em diferentes situaes. Os desenvolvimentos iniciais do modelo da equao (6) eram internos, condicionais e nomtricos. Coombs (1950) avanou com o modelo numa forma unidimensional (isto , r=1). Bennett e Hays (1960) generalizaram o modelo aos casos multidimensionais (isto , r1), pressupondo a mtrica euclidiana no ponderada (isto , p=2 e wkt=1, para todos os sujeitos k e dimenses t). Desenvolvimentos subsequentes tambm permitiram anlises externas, condicionais e/ou mtricas, grandemente motivadas pelos problemas de indeterminao resultantes das formulaes iniciais do modelo (Carroll & Arabie, 1980; Davison, 1983; Schiffman et al., 1981). Carroll (1972) avanou com uma hierarquia de modelos para o escalonamento de diferenas individuais de dados de preferncia, sob o pressuposto geral de um espao euclidiano (isto , p=2). O primeiro modelo na hierarquia o modelo vectorial, que pressupe que os pontos ideais so infinitamente distantes dos pontos estmulo (isto , ykt= para todos os sujeitos k e dimenses t). Com um ponto ideal a uma distncia infinita, a famlia dos contornos das equidistncias circulares que o rodeia constitui, na regio dos pontos estmulo, uma famlia de linhas rectas paralelas, perpendiculares a um vector que une a origem do espao com o ponto ideal. Desta forma, as projeces dos pontos
estmulo naquele vector fornecem a ordem das distncias dos pontos estmulo a partir do ponto ideal. O modelo vector pressupe diferenas individuais no peso dimensional dado s dimenses estmulo. Desta forma, cada sujeito representado por um vector privado que aponta mais vivamente para as dimenses que so de maior importncia para o sujeito. O segundo modelo na hierarquia o modelo de desdobramento simples, que pressupe que os pontos ideais se localizam dentro das fronteiras do espao, de forma que os contornos equidistantes so crculos que rodeiam esses pontos ideais. Este modelo pressupe diferenas individuais na localizao do ponto ideal, no no peso dimensional dado s dimenses estmulo (isto , wkt=1 para todos os sujeitos k e dimenses t). O terceiro modelo na hierarquia o modelo de desdobramento ponderado, que pressupe diferenas individuais tanto na localizao do ponto ideal como no peso dimensional dado s dimenses estmulo. culturalmente interessante notar que, ao passarmos do modelo vectorial para o modelo de desdobramento ponderado, atravessamos um modelo que traz os pontos ideais do infinito para a fronteira do espao, sem os trazer para dentro do espao. Segundo este modelo, os contornos das equidistncia pressupem a forma convexa das curvas de isopreferncia caractersticas da anlise microeconmica (Coxon, 1982). 4.5. O Que Que Temos Aqui? Se bem que a configurao de pontos no espao produzida por um modelo MDS seja informativa segundo as suas regras, o investigador querer normalmente saber quais as dimenses da configurao representada. De forma a facilitar a interpretao, uma anlise MDS muitas vezes seguida por um ajustamento de propriedades, que formalmente equivalente a uma anlise externa de dados de dois modos e dois sentidos: fixa-se a configurao de pontos (objectos) e as propriedades (sujeitos) so posicionadas na configurao, como vectores ou como pontos (Coxon, 1982; Schiffman et al., 1981). Por exemplo, para se interpretar a dimenso da configurao de Bruno (Figura 1), podemos relacionar coordenadas dos partidos polticos na dimenso com as avaliaes dos partidos 83
polticos feitas por Bruno num conjunto de diferenciadores semnticos com os antnimos esquerda-direita, poderoso-fraco, justo-injusto e assim por diante. Deste modo, as escalas seriam posicionadas como vectores na configurao e as dimenses seriam interpretadas em relao aos vectores que esto mais inclinados para elas. Se as nossas previses, feitas no incio do artigo, forem vlidas, o vector espectro inclina-se mais vivamente em relao dimenso horizontal, enquanto que o vector poder se inclina mais vivamente para a dimenso vertical. Mais, se a justia no declinar, linearmente ou monotonicamente, em qualquer uma das direces do espao, no ser considerada til para interpretar as dimenses e ser desprezada na anlise. 4.6. Comentrios Finais Neste artigo, tentmos familiarizar o leitor com as noes bsicas da anlise MDS, que foram estabelecidas entre o incio dos anos 50 e o incio dos anos 70. Ignormos propositadamente todas as evolues na rea desde ento. Mais, tal como anuncimos no incio deste artigo, no fomos aos aspectos tcnicos das anlises apresentadas e no abordmos de todo anlises mais avanadas. Contudo, o leitor ter atingido uma melhor compreenso do que o MDS faz e o que deve ser feito para que o MDS faa.
REFERNCIAS
Bennett, J. F., & Hays, W. L. (1960). Multidimensional unfolding: Determining the dimensionality of ranked preference data. Psychometrika, 25, 27-43. Burton, M. L. (1975). Dissimilarity measures for unconstrained sorting data. Multivariate Behavioral Research, 10, 409-424. Carroll, J. D. (1972). Individual differences and multidimensional scaling. In A. K. Romney, R. N. Shepard, & S. B. Nerlove (Eds.), Multidimensional scaling (Vol. 1, pp. 105-155). New York: Seminar Press. Carroll, J. D., & Arabie, P. (1980). Multidimensional scaling. Annual Review of Psychology, 31, 607-649.
Carroll, J. D., & Chang, J. J. (1970). Analysis of individual differences in multidimensional scaling via an N-Way generalization of Eckart-Young decomposition. Psychometrika, 35, 283-319. Carroll, J. D., Green, P. E., & Schaffer, C. M. (1986). Interpoint distance comparisons in correspondence analysis. Journal of Marketing Research, 23, 271-280. Carroll, J. D., Wish, M. (1974a). Models and methods for three-way multidimensional scaling. In R. C. Atkinson, D. H. Krantz, R. D. Luce, & P. Suppes (Eds.), Contemporary developments in mathematical psychology. Measurement, psychophysics, and neural information processing (Vol. 2, pp. 57-105). San Francisco: W.H. Freeman. Carroll, J. D., Wish, M. (1974b). Multidimensional perceptual models and measurement methods. In E. C. Carterette, & M. P. Friedman (Eds.), Handbook of perception. Psychophysical judgment and measurement (Vol. 2, pp. 391-447). New York: Academic Press. Coombs, C. H. (1950). Psychological scaling without a unit of measurement. Psychological Review, 57, 148-158. Coombs, C. H. (1964). A theory of data. New York: John Wiley. Coxon, A. P. M. (1982). The users guide to multidimensional scaling. London: Heinemann Educational Books. Cronbach, L. J., & Gleser, G. C. (1953). Assessing similarity between profiles. Psychological Bulletin, 50, 456-473. Davison, M. L. (1983). Multidimensional scaling. New York: John Wiley. Green, P. E., Carmone, F. J., Smith, S. M. (1987). Multidimensional scaling: Concepts and Applications. Boston: Allyn & Bacon. Green, P. E., Maheshwari, A., & Rao, V. R. (1969). Dimensional Interpretation and configuration invariance in multidimensional scaling: An empirical study. Multivariate Behavioral Research, 4 (2), 159-180. James, W. (1890). The principles of psychology. New York: Henry Holt & Co. Jones, L. E., & Koehly, L. M. (1993). Multidimensional scaling. In G. Keren & C. Lewis (Eds.), A handbook for data analysis in the behavioral sciences: Methodological Issues (pp. 95-163). Hillsdale: Lawrence Erlbaum. Krumhansl, C. L. (1978). Concerning the applicability of geometric models to similarity data: The interrelationship between similarity and spatial density. Psychological Review, 85 (5), 445-463. Kruskal, J. B. (1964a). Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis. Psychometrika, 29, 1-27. Kruskal, J. B. (1964b). Nonmetric multidimensional scaling: A numerical method. Psychometrika, 29, 115-129.
84
Kruskal, J. B., & Wish, M. (1978). Multidimensional scaling. Beverly Hills: Sage. Nickerson, R. S. (1972). Binary-classification reaction time: A review of some studies of human information-processing capabilities. Psychonomic Monograph Supplements, 4, 275-317. Osgood, C. E., Suci, G., & Tannenbaum, P. H. (1957). The measurement of meaning. Urbana: University of Illinois Press. Richardson, M.W. (1939). Multidimensional psychophysics. Psychological Bulletin, 35, 659-660. Rosenberg, S., Nelson, C., & Vivekananthan, P. S. (1968). A multidimensional approach to the structure of personality impressions. Journal of Personality and Social Psychology, 9 (4), 283-294. Rosenberg, S., & Kim, M. P. (1975). The method of sorting as a data-gathering procedure in multivariate research. Multivariate Behavioral Research, 10, 489-502. Schiffman, S. S., Reynolds, M. L., & Young, F. W. (1981). Introduction to multidimensional scaling. Theory, methods, and applications. Orlando: Academic Press. Schnemann, P. H. (1972). An algebraic solution for a class of subjective metrics models. Psychometrika, 37, 441-451. Shepard, R. N. (1957). Stimulus and response generalization: A stochastic model relating generalization to distance in psychological space. Psychometrika, 22, 325-345. Shepard, R. N. (1962a). Analysis of proximities: Multidimensional scaling with an unknown distance function. I. Psychometrika, 27, 125-140.
Shepard, R. N. (1962b). Analysis of proximities: Multidimensional scaling with an unknown distance function. II. Psychometrika, 27, 219-246. Shepard, R. N. (1972). A taxonomy of some principal types of data and of multi-dimensional methods for their analysis. In R. N. Shepard, A. K. Romney, & S. B. Nerlove (Eds.), Multidimensional scaling. Theory and applications in the behavioral sciences (Vol. 1, pp. 21-47). New York: Seminar Press. Skinner, H. A. (1978). Differentiating the contribution of elevation, scatter and shape in profile similarity. Educational and Psychological Measurement, 38, 297-308. Smith, E. E., & Medin, D. L. (1981). Categories and concepts. Cambridge: Harvard University Press. Spence, I., & Domoney, D.W. (1974). Single subject incomplete designs for nonmetric multi-dimensional scaling. Psychometrika, 39, 469-490. Torgerson, W. S. (1958). Theory and methods of scaling. New York: John Wiley. Tversky, A. (1977). Features of similarity. Psychological Review, 84 (4), 327-352. Wish, M. (1970). Comparisons among multidimensional structures of nations based on different measures of subjective similarity. In L. von Bertalanffy, & A. Rapoport (Eds.), General systems (Vol. 15, pp. 55-65). Washington: Society for General Systems Research. Wish, M. (1976). Comparisons among multidimensional structures of interpersonal relations. Multivariate Behavioral Research, 11, 297-324.
85

Marc Scholten & Pedro Zany Caldeira - O Senso Do Escalonamento Multidimensional PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Marc Scholten & Pedro Zany Caldeira - O Senso Do Escalonamento Multidimensional PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Anlise Psicolgica (1997), 1 (XV): 63-85

O senso do escalonamento multidimensional

(*) Universidade Catlica Portuguesa. (**) Bolseiro PRAXIS XXI/UIIPOG-ISPA.

MDS Aplicado a uma Matriz de Proximidades Objecto-Por-Objecto

MDS Aplicado a Matrizes Mltiplas de Proximidades Objecto-Por-Objecto

MDS Aplicado a uma Matriz de Proximidades Sujeito-Por-Objecto

3. RECOLHA E ORGANIZAO DE DADOS

ponto os objectos do par so semelhantes ou

disssemelhantes um do outro. Numa tarefa de

graduao categorial, os sujeitos indicam os

seus juizos marcando uma categoria numa escala

de 7 ou 15 pontos. Numa tarefa de graduao

contnua, indicam os seus juizos marcando uma

posio numa linha contnua. Numa tarefa de es-

timao da magnitude, um par seleccionado

como padro. Os outros pares, os pares em julga-

mento, so ento comparados com este par

padro. Se, por exemplo, um sujeito percepciona

um par como duas vezes (dis)semelhante ao par

padro, ento ser atribuido um valor de 2 ao

par em julgamento. Se, contudo, o sujeito per-

cepciona um par como metade (dis)semelhante

ao par padro, ento ser atribuido um valor de 1

Valores de Perfil e Dissemelhanas de Perfis para Dados de Ordenao Valores de Perfil

A Contribuio de Elevao, Disperso e Forma Para a Dissemelhana de Perfis

Valores de Perfil e Dissemelhanas de Perfis Para Dados de Agrupamento

Se estas recomendaes no forem seguidas, a configurao obtida atravs do MDS no-mtrico 81

Você também pode gostar