Escolar Documentos
Profissional Documentos
Cultura Documentos
e-ISSN: 2177-5184
DOI: 10.5585/remark.v13i2.2685
Data de recebimento: 08/01/2014
Data de Aceite: 17/03/2014
Editor Científico: Otávio Bandeira De Lamônica Freire
Avaliação: Double Blind Review pelo SEER/OJS
Revisão: Gramatical, normativa e de formatação
RESUMO
Este artigo tem por finalidade debater o tema de mensuração de construtos em Marketing, sumarizando as principais
discussões sobre o assunto. Inicialmente, discutimos a origem das preocupações e os desdobramentos na área desde os
anos de 1970. Em seguida, apresentamos os principais modelos consolidados (modelo clássico de Churchill, modelo
COARSE e modelo de mensuração formativa). Na sequência, apresentamos preocupações atuais que se somam à
teorização clássica, com algumas recomendações relevantes (especialmente sobre mensuração por múltiplos itens,
mensuração por um único item, escalas de verificação e aspectos transculturais). Ao final, apresentamos considerações
sobre tendências de mensuração em Marketing, com ênfase em Teoria da Resposta ao Item, operadores Bayesianos e
estimação por mínimos quadrados parciais. O artigo atualiza o debate sobre o tema e tem a possibilidade de contribuir
para estudiosos e pesquisadores de Marketing que demandem uma visão atual sobre mensuração e recomendações para
pesquisas.
ABSTRACT
The purpose of this article is to discuss about construct measurement in Marketing by summarizing the main
considerations about the subject. First, it discusses the origins of the debates about the theme since the 1970s and
describes its main consolidated models (the classical Churchill’s model, the COARSE model and the formative
measurement model). Then it presents current concerns about the classical approach with relevant recommendations
(particularly regarding multi-item measurement, single-item measurement, rating scales and cross-cultural aspects). At
the end, it presents considerations about measurement trends in Marketing with emphasis on the Item Response Theory
(IRT), Bayesian estimators and Partial Least Squares (PLS). The article updates the debate on the theme and contributes
to Marketing experts and researchers who demand a current view about measurement and recommendations for research
development.
Felipe Zambaldi1
Francisco José da Costa2
Mateus Canniatti Ponchio3
1
Doutor em Administração de Empresas pela Fundação Getulio Vargas - FGV. Professor da Fundação Getulio Vargas
– FGV, Brasil. E-mail: felipe.zambaldi@fgv.br
2
Doutor em Administração de Empresas pela Fundação Getulio Vargas – FGV. Professor da Universidade Federal
da Paraíba, UFPB, Brasil. E-mail: franzecosta@gmail.com
3
Doutor em Administração de Empresas pela Fundação Getulio Vargas – FGV. Professor da Escola Superior de
Propaganda e Marketing de São Paulo (ESPM-SP), Brasil. E-mail: mponchio@espm.br
_____________________________________________________________________________________
ZAMBALDI / COSTA / Brazilian Journal of Marketing - BJM
PONCHIO 1 Revista Brasileira de Marketing – ReMark
Edição Especial Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 2 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
século. A razão desta aproximação é simples: referência, podemos afirmar que, em Marketing, o
trabalhamos em Marketing com construtos abstratos primeiro grande passo para a definição de uma
(como satisfação, identidade, apego, lealdade...) para os prioridade da questão de mensuração vem do artigo de
quais pressupomos uma intensidade mensurável, mas Gilbert Churchill, publicado em 1979 no prestigiado
para os quais não temos ainda instrumentos de acesso Journal of Marketing Research, e que trouxe uma
direto dessa intensidade. O mesmo ocorre na suposição crítica bem fundamentada das práticas então vigentes
de existência de uma intensidade mensurável em na área, que, segundo o autor, eram extremamente
estresse (em Psicologia) ou conhecimento e frágeis. O alerta da época era simples, mas até hoje
aprendizado (em Educação), por exemplo; em todos os atual: não é possível acreditar no valor de uma
dados, não temos um instrumento que alcance operacionalização de números (ou seja, nas técnicas de
diretamente estes construtos. Ou seja, pesquisamos em análise) se não sabemos ao certo o que está por detrás
Marketing construtos latentes, que requerem uma desses números (ou seja, nas decisões de mensuração e
estratégia de medição própria e diferenciada daquelas de design para a sua captação).
utilizadas, por exemplo, na área de Finanças para medir Churchill resgatou toda a construção anterior
lucro, ou na área de Produção para medir defeitos de que já se fazia dentro da academia de Marketing4,
qualidade. Psicologia e Educação, e propôs um passo a passo a ser
Absorvemos em Marketing a maior parte do usado por pesquisadores na construção de métricas. Seu
conteúdo substantivo da teoria da mensuração da modelo vem sendo recorrentemente citado e utilizado
Psicologia e da Educação, para viabilizar, mais em pesquisas em Marketing (na ocasião de
recentemente, uma contribuição mais própria do nosso. desenvolvimento deste artigo havia mais de 9600
Para construir um referencial de base do que atualmente citações no Google Acadêmico), mas não esteve isento
já temos consolidado em Marketing, expomos de limitações e críticas.
rapidamente algumas informações sobre o tema nestes Na realidade, o modelo de Churchill está
dois campos. orientado a desenvolver medidas segundo alguns
Em Psicologia, o problema da mensuração pressupostos que, se não são considerados válidos,
vem desde quando profissionais da área optaram por podem ser motivo de proposição de outros modelos de
desenvolver testes (métricas) para avaliação de seus construção de métricas. As críticas centrais vieram do
construtos e variáveis. O campo da testagem seguinte: sob o pressuposto de mensuração segundo a
psicológica (ver Urbina, 2004) e a disciplina de dita ‘teoria da amostra de domínio’, são utilizados
Psicometria buscam desenvolver testes e métodos sempre múltiplos indicadores para medir um construto,
desde o final do século XIX, na tentativa de medir, por e a análise de validação pode ser feita por meio de
exemplo, valores pessoais, tendências profissionais ou técnicas como análise fatorial (para identificação ou
predisposição a determinados comportamentos, por reafirmação da existência de um fator subjacente – o
meio de instrumentos de lápis e papel (ou equivalentes, construto latente – explicando a variação dos itens), e
como os atuais instrumentos digitalizados e aplicados do coeficiente alfa de Cronbach (para atestar a
via internet). Neste campo encontra-se um dos consistência interna do conjunto de itens). Pela negação
principais periódicos acadêmicos de mensuração, que é deste pressuposto (ou de sua aplicação generalizada),
a revista Psycometrika, fundada em 1936 e já vieram os desenvolvimentos de mensuração por um
acumulando diversas contribuições teóricas que único item e com análise qualitativa da validade
transbordam o próprio campo da Psicologia. (principalmente defendido por John Rossiter em seu
Já em Educação, o problema da mensuração modelo COARSE), ou a mensuração formativa, em que
alcança a grande maioria das pessoas escolarizadas, não se supõe um fator subjacente explicando a variação
uma vez que as conhecidas provas escolares são na de um conjunto de indicadores, mas supondo,
verdade instrumentos de medição de aprendizagem que inversamente, que é a variação dos itens que implica a
os professores aplicam durantes suas disciplinas. Nesse variação do construto formado (há diversos defensores
campo, a mensuração é relatada como parte central da dessa controversa tese, merecendo destaque o texto de
área especializada de Avaliação educacional, que inclui Diamantopoulos & Winklhofer (2001).
tanto a avaliação de aprendizagem de conhecimentos Pela análise de pesquisas e publicações
transferidos por docentes, quanto a avaliação de recentes, podemos afirmar que o cenário atual focaliza
competências (como nos concursos públicos) e a o debate destas três perspectivas: modelo clássico (com
avaliação de programas e instituições (como as inspiração no modelo de Churchill, 1979); mensuração
avaliações institucionais e as avaliações de cursos e formativa; e mensuração isenta de maiores elaborações
programas de pós-graduação). Foi no campo da quantitativas e com maior foco na validação qualitativa.
Educação que se desenvolveram mais recentemente os Outros desenvolvimentos parecem ser a pauta de
principais estudos de Teoria da Resposta ao Item (TRI), pesquisa e aplicação futura, com a expansão do uso da
comentada posteriormente. Teoria da Resposta ao Item, de ampla utilização no
Embora não seja seguro fixar uma data de campo da avaliação educacional, e chegando aos
poucos no universo de Marketing (ver Andrade, respondentes-chave, realizadas por meio de grupos de
Tavares & Valle, 2000; Lucian, 2012). foco, por exemplo. Em posse do primeiro conjunto de
itens, faz-se uma coleta de dados para um pré-teste.
Com seus resultados, procede-se à etapa de purificação
3 O PROBLEMA DA CONSTRUÇÃO DE do instrumento com o intuito de verificar quais itens
ESCALAS: ALTERNATIVAS CLÁSSICAS E devem permanecer e quais itens devem ser excluídos
AVANÇOS ou adaptados. As ferramentas propostas por Churchill
para essa etapa são o cálculo do coeficiente alfa de
Para ilustrar particularidades na construção do Cronbach como medida de confiabilidade e também a
conhecimento em variados campos científicos, Mari análise fatorial exploratória, que pode indicar
(2005) comparou o emprego de axiomas na ciência confiabilidade quando as cargas fatoriais dos itens que
formal (citando como exemplo a geometria euclidiana medem o construto forem altas, além de auxiliar o
na qual os elementos de construção da teoria estão pesquisador a compreender as diferentes dimensões
alicerçados em axiomas) à dependência da mensuração presentes no instrumento que está desenvolvendo (se
de fenômenos da ciência empírica. O autor argumenta houver mais do que uma). A purificação também pode
que, nas ciências empíricas, coexistem entre os ser feita por meio da análise fatorial confirmatória (que
cientistas diferentes entendimentos epistemológicos em Churchill prefere, por presumir que as etapas anteriores
relação à mensuração ou mesmo à possibilidade de se realizam de forma rigorosa e permitem a formulação
atribuição de um número a um fenômeno. prévia sobre a dimensionalidade do instrumento de
medida).
3.1 O modelo clássico de Churchill A etapa de purificação pode levar os
pesquisadores de volta ao passo da geração do conjunto
Particularmente nos estudos em Marketing, de itens e a alterações no primeiro conjunto proposto.
predomina, desde 1979, a proposta realizada por Com um novo conjunto de itens em mãos, procede-se a
Gilbert Churchill e seus desdobramentos, compondo o uma nova coleta de dados e a uma nova depuração, o
que conhecemos como abordagem clássica da que pode se repetir até que o pesquisador considere ter
mensuração em Marketing. Conforme indicado acima, uma medida confiável e que bem represente as
os procedimentos propostos por Churchill foram eventuais dimensões do construto. Esse processo, no
motivados por sua percepção de que os esforços de entanto, pode ser muito custoso e representar algum
mensuração no campo tendiam a ser carentes em desperdício das unidades amostrais, já que muitas
termos de rigor. Nesse contexto, o autor apresentou coletas de dados não são definitivas. Após o
definições para validade e confiabilidade, seguramente pesquisador obter uma purificação satisfatória, segue
as duas mais fundamentais no processo de validação de nova coleta de dados, essa definitiva, sobre a qual se
instrumentos de medidas. As definições fornecidas de verifica a confiabilidade novamente por meio do
Churchill para validade e confiabilidade ainda são coeficiente alfa ou, alternativamente, por meio da
adotadas pela maior parte dos pesquisadores em divisão do instrumento em dois conjuntos de itens
Marketing. diferentes e da apuração do grau de associação entre
O autor define como validade a capacidade de eles, ou ainda da confiabilidade teste-reteste, que
uma medida capturar em seus escores o fenômeno sob consiste em aplicar o instrumento ao mesmo grupo de
análise sem ruídos, e como confiabilidade a respondentes em dois momentos distintos e comparar
propriedade de medidas de um mesmo construto serem seus resultados. Churchill considera preferível, no
concordantes entre si. Ou seja, a validade concerne a entanto, o uso do alfa de Cronbach.
assegurar que a escala mede o que interessa medir, e a A coleta definitiva também se presta ao teste
confiabilidade concerne a desenvolver esta medida com de validade de construto. Para aferir validade
o mínimo de erros (que são esperados no processo convergente e validade discriminante, a recomendação
científico, mas que precisam ser minimizados). de Churchill é o uso da Matriz Multitraço Multimétodo,
A proposta de Churchill para validação de que consiste em verificar associações entre traços
medidas consiste em passos sequenciais, alguns dos (construtos) obtidos por diferentes métodos, ou seja,
quais podem ser realizados mais de uma vez ao longo com aplicação da mensuração por diferentes
do mesmo processo. O primeiro passo se refere a instrumentos, diferentes formas e momentos de coleta,
especificar o domínio teórico do construto, ou defini-lo e até diferentes amostras. A matriz formada por estes
teoricamente, e deve ser realizado com base em revisão procedimentos torna-se um instrumento que provê
de literatura. Em seguida, o autor propõe a geração de comparações entre: 1) a variação comum contida dentro
um conjunto de itens (questões) que constituirão a de uma escala com diversos itens para um mesmo
primeira versão do instrumento de medida. Essa etapa construto, coletados pelo mesmo método; 2) a
é dependente da anterior (especificação do domínio de associação entre as medidas de um mesmo construto
construto) e se realiza com base na revisão da literatura, obtidas por diferentes métodos; 3) a associação entre
na consulta a estudos empíricos já publicados, na diferentes construtos obtidas por um método comum; e
criação de exemplos e incidentes relevantes ao domínio 4) a associação entre diferentes construtos obtidos por
conceitual e em pesquisas qualitativas com métodos distintos. O sentido de fazer essas
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 4 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
comparações é que, quando há uma alta variação confiabilidade e da análise fatorial como técnica para
comum entre os itens de um mesmo construto, há verificação de validade. Ademais, os procedimentos se
validade convergente, ou seja, eles convergem para prestam ao desenvolvimento de escalas de múltiplos
uma medida comum. Essa variação comum deve ser itens, sob o pressuposto de que estes variam por conta
maior do que as associações dessas medidas com da variação do construto latente (ou seja, têm relação
diferentes construtos obtidos por diferentes métodos e refletiva com o construto). Diante de tais críticas, John
maior do que as associações entre diferentes construtos Rossiter desenvolveu uma proposta alternativa em
obtidos por meio de um mesmo método. 2002, o modelo COARSE, privilegiando os
Além disso, é esperado que a associação entre procedimentos qualitativos na validação dos
um mesmo traço (construto) coletado por diferentes instrumentos de medida.
métodos deve ser maior do que a associação entre A sigla COARSE refere-se a seis passos que o
traços distintos, sejam eles coletados pelo mesmo pesquisador deve seguir de acordo com o modelo:
método ou não. Quando essas condições são satisfeitas, Construct definition; Object classification; Attribute
obtemos evidências de haver validade discriminante, classification; Rater Identification; Scale formation; e
ou seja, de fato temos medidas diferentes para Enumeration. Em português, temos: Definição do
construtos distintos. É comum usarmos o coeficiente de construto; Classificação do objeto; Classificação do
correlação de Pearson para medir as associações atributo; Identificação do avaliador; Formação da
propostas. A variação comum entre os itens do escala; e Enumeração. O modelo está bem detalhado
construto costuma ser obtida por meio da análise em Rossiter (2011), e apresentamos a seguir esses
fatorial (embora essas sejam medidas de associação passos que, no mínimo, são referência de
linear, seu uso apresenta resultados satisfatórios, em aprimoramento para eventuais limitações do modelo
geral). clássico de Churchill.
Churchill também propõe que se verifique a O primeiro passo, o de definição do construto,
validade de critério para garantir a validade de consiste em escrever uma definição em termos de
construto. De maneira breve (vamos nos aprofundar objeto, atributo e entidade avaliadora. O objeto é o foco
nesse assunto adiante), a validade de critério se observa da medida como, por exemplo, uma propaganda. O
quando verificamos uma associação esperada, atributo é o que será medido no objeto como, por
preferencialmente significante, entre a medida para o exemplo, as reações afetivas à propaganda; e a entidade
construto que estamos validando e outras medidas (em avaliadora é quem fará a avaliação do objeto e do
geral de operacionalização mais consolidada) às quais atributo como, por exemplo, um grupo de
devem se associar do ponto de vista teórico. Se a consumidores-alvo.
validade de construto (em seus diversos subtipos) não Partimos então para o segundo passo, a
for alcançada, a proposta de Churchill é recomeçar o classificação do objeto, que conta com entrevistas
processo do início, desde a especificação de domínio do abertas com respondentes-chave. O objeto pode ser
construto. classificado como concreto simples, abstrato coletivo
Quando, finalmente, obtemos uma indicação ou abstrato formado. Um objeto concreto é aquele que
segura da validade de construto, Churchill propõe que qualquer respondente conhece o significado e o
a medida seja apresentada por meio de estatística reconhece, como, por exemplo, o conceito de controle
descritiva da sua distribuição na amostra. Os de qualidade de serviços. Objetos abstratos coletivos
procedimentos propostos por Churchill e alguns são heterogêneos aos olhos dos respondentes-chave,
desdobramentos sugeridos em trabalhos posteriores mas compõem uma categoria clara aos olhos do
têm sido amplamente adotados pelos pesquisadores da pesquisador, como por exemplo, bebidas com gás
área de Marketing (por exemplo, Netemeyer, Bearden (como refrigerantes, águas gaseificadas com sabor, ou
& Sharma, 2003; Costa, 2011). água com gás). Os objetos abstratos formados são
No entanto, sua aplicação rigorosa é muitas aqueles cuja interpretação variam perceptivelmente
vezes inviável por conta da necessidade de várias entre pessoas e são vistos como portadores de
coletas de dados, o que pode esbarrar em limitações de diferentes componentes como, por exemplo, pode ser o
tempo e em limitações orçamentárias, e também na conceito de capitalismo. Se o objeto for classificado
dificuldade de se coletarem dados por métodos como concreto, um único item basta para medi-lo. Para
distintos, o que inibe o uso da Matriz Multitraço os objetos abstratos, múltiplos itens são necessários.
Multimétodo. Nessa etapa, começamos a escrever os itens do
instrumento de medidas, para que reflitam o objeto.
3.2 Uma alternativa ao modelo clássico: o modelo O terceiro passo é a classificação de atributos,
COARSE também com base em entrevistas abertas com
respondentes-chave. Os atributos se classificam como
A proposta de Churchill recebeu muitas concretos, formados ou suscitados (eliciting). Os
críticas daqueles que a consideram muito enfática em concretos são aqueles cuja interpretação é praticamente
termos de ajustes estatísticos frente às etapas unânime entre respondentes, como o conceito de
qualitativas da validação, além de ser dependente dos intenção de compra, por exemplo. Os formados são
pressupostos do coeficiente alfa como medida de abstratos e o que os caracteriza é a soma de uma série
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 5 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 6 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
uma pessoa baixa deve ter pernas curtas e por isso 4.1 Validade e confiabilidade na mensuração
precisa esticá-las. Assim, ocorre que as respostas às refletiva de múltiplos itens
perguntas são manifestações (ou sintomas) do construto
altura, e refletem sua intensidade. Presumimos também Talvez como decorrência da ampla
que, por refletirem o mesmo construto, as respostas às repercussão do artigo de Churchill (1979), em que foi
perguntas devem ser correlacionadas entre si. Essas proposto um paradigma para mensuração de construtos
características fazem das respostas às duas perguntas latentes refletivos em Marketing, e de outros (por
indicadores refletivos da altura. exemplo, Gerbing & Anderson, 1988) que também
Vamos agora assumir que pretendemos dedicaram atenção a aspectos de mensuração e
estimar a quantidade de álcool ingerida por pessoas que apontaram falhas nos procedimentos usuais então
saíram de uma festa, mas não temos como fazer um vigentes, nas últimas décadas tem sido comum
exame de sangue nessas pessoas e nem como estimar encontrarmos, em artigos, o emprego de análises
essa taxa por meio do uso de um bafômetro. Podemos fatoriais exploratórias e confirmatórias para verificar a
perguntar a essas pessoas quantas doses beberam de estrutura dimensional de variáveis, bem como
uísque, vodca, cerveja e/ou outras bebidas alcoólicas. A estratégias para analisar validade convergente e
combinação das doses nos permite estimar a quantidade discriminante (por exemplo, por meio da Matriz
de álcool ingerida, se soubermos o teor alcoólico Multitraço Multimétodo), e a modelagem por equações
contido em cada dose. Nesse caso, a combinação das estruturais, entre outros.
doses provê uma soma que nos permite estimar o que No entanto, ainda parece haver necessidade de
não observamos diretamente. Os indicadores em chamar a atenção dos pesquisadores para a questão da
conjunto formarão a taxa de álcool que cada pessoa mensuração. Jarvis, Mackenzie e Podsakoff (2003), em
bebeu. Várias combinações independentes podem levar substancial esforço de análise do emprego de modelos
a quantidades similares de álcool ingerida; por de mensuração no campo de Marketing, apontaram que
exemplo, uma pessoa pode beber apenas vodca e ter a ainda havia confusão quanto à distinção entre
mesma quantidade de álcool no sangue de uma outra construtos de natureza formativa e refletiva entre
que bebeu uísque e cerveja. Outra pessoa pode ter artigos científicos publicados em periódicos de
ingerido muito álcool, tendo bebido apenas uísque. prestígio no campo (Journal of Marketing Research,
Assim, não é necessário que as respostas às diferentes Journal of Marketing, Journal of Consumer Research e
perguntas (quantidade de doses ingeridas de cada Marketing Science). Dos 1.192 construtos utilizados
bebida) estejam correlacionadas entre si para que em 178 artigos analisados, extraídos dos quatro
formem a medida de ingestão de álcool. São essas as periódicos citados, 1.146 (96,1%) foram modelados
características que fazem dessas perguntas indicadores como refletivos e 46 (3,9%), como formativos. No
formativos da ingestão de álcool. entanto, na visão dos autores, dos 1.146 construtos
Embora seja uma estratégia bem refletivos, 336 deveriam ter sido modelados como
fundamentada e lógica, a mensuração formativa formativos (o que representa uma taxa de erro de
encontrou dificuldades operacionais. De fato, mesmo classificação de 29,3%). Entre os 46 modelados como
havendo recomendações para avaliação estatística de formativos, os autores entenderam que 17 deveriam ter
validade e confiabilidade (ver uma síntese em Costa sido classificados como refletivos (taxa de erro de
(2011)), nenhuma delas alcançou a consistência de um classificação de 37,0%). Simulações conduzidas no
coeficiente alfa de Cronbach nem a completude e mesmo estudo apontaram para a gravidade desse erro
adequação de uma análise fatorial. Edwards (2011) de classificação, que, no limite, pode ser a origem de
chega a chamar esta estratégia de mensuração de erros nos resultados de testes de hipóteses e,
falaciosa e desaconselha completamente seu uso. naturalmente, na elaboração de considerações finais de
pesquisas.
Conforme indicado no item 3 acima, a
4 PROCEDIMENTOS E RECOMENDAÇÕES natureza do construto influencia as maneiras de avaliar
sua confiabilidade e validade. Considerando a medição
Nesse item, apresentamos os principais refletiva de múltiplos itens, comentamos nesta seção
procedimentos e provemos recomendações práticas sobre estratégias de avaliação desses aspectos. Nossa
para a desafiadora tarefa de desenvolver e validar impressão ao apreciar artigos científicos na área de
escalas em marketing. Particularmente, detalhamos Marketing, particularmente os produzidos pela
práticas para aferição de validade e confiabilidade na comunidade acadêmica brasileira, é que os relatos
mensuração refletiva de múltiplos itens, práticas essas acerca dos aspectos operacionais das escalas
que configuram o mainstream na área. Em seguida, empregadas para mensurar construtos latentes
abordamos procedimentos para verificar validade e priorizam características associadas à confiabilidade, e
confiabilidade na mensuração por meio de item único. pouca atenção é dedicada aos aspectos de validade.
Talvez esta realidade esteja associada ao fato de
existirem formulações matemáticas amplamente
disseminadas em pacotes estatísticos para avaliar
confiabilidade, mas o mesmo não se pode dizer da
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 7 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
facilidade de verificação da validade. É fundamental ter categorias: sistemáticos (vieses de mensuração em uma
clara a concepção de que medidas válidas são mesma direção em sucessivas rodadas de coleta de
necessariamente confiáveis, mas atingir confiabilidade dados) e não sistemáticos (aleatórios ao longo de
satisfatória não é condição suficiente para assegurar sucessivas rodadas de mensuração). Para uma revisão
validade. A seguir comentamos os dois conceitos. mais extensa sobre tipos de erros, recomendamos a
leitura de Nunnally (1978).
4.1.1 Confiabilidade Ao discorrer sobre propriedades de
estimadores (em nossa opinião, extensíveis a
Em definição da American Psychological instrumentos de mensuração), Bussab e Morettin
Association (1985, p. 19, tradução nossa), (2007) propõem uma analogia aos tiros dados por
“confiabilidade refere-se ao grau em que pontuações de quatro rifles. A Figura 1 ilustra o desempenho de cada
testes estão livres de erros de mensuração”. Pedhazur e um deles.
Schmelkin (1991) classificam esses erros em duas
respostas do indivíduo em sua participação seguinte); e principalmente, o fato de que um valor elevado para a
b) mudanças ‘naturais’ da pontuação do indivíduo ao medida não assegura unidimensionalidade de
longo do tempo (por exemplo, podemos imaginar que construto), seu uso é justificável na avaliação da
o nível de etnocentrismo de um indivíduo aumente ou confiabilidade de uma escala, em particular em estágio
diminua ao longo de sua vida). Se, por um lado, inicial de purificação de seus itens. Interpretamos
aumentar o intervalo de tempo entre as duas baixos valores de alfa (não há consenso sobre um valor
mensurações pode contribuir com a diminuição do mínimo aceitável; recomendamos ao menos 0,60)
carry-over effect, por outro, pode agravar o problema como indicativos de baixa consistência interna e
das mudanças ‘naturais’, e vice-versa. Evidentemente, consequente necessidade de descarte de indicadores,
esses riscos aumentam quando utilizamos múltiplos elaboração de novos ou adaptação de existentes
itens para mensurar um construto, como é o caso da (enfatizamos que, quando nosso construto é de natureza
mensuração refletiva. formativa, não faz qualquer sentido esperarmos um
Em síntese, não é uma tarefa fácil segregarmos valor de alfa de Cronbach elevado, pois a correlação
confiabilidade de estabilidade temporal ao entre os itens não é pressuposta).
empregarmos a técnica de teste-reteste, e por isso não Como alternativa ao coeficiente alfa como
encorajamos seu uso para mensuração com múltiplos medida de confiabilidade, podemos empregar o índice
itens (e caso utilizada, as interpretações devem ser de confiabilidade composta proposto por Fornell e
ponderadas à luz dos argumentos apresentados), Larcker (1981). A confiabilidade composta pode ser
embora seja possível seu uso em outras estratégias de obtida por meio de Análise Fatorial e indica a
medição, conforme será apresentado posteriormente. proporção de variância do escore verdadeiro de um
Especificamente para os construtos de construto em relação à variância total do escore
múltiplos itens a literatura especializada já apontou calculado. Por não apresentar o inconveniente de se
boas soluções. De fato, já há métodos matemáticos inflar com a inclusão de itens na escala, seu uso tem se
eficientes para aferir confiabilidade a partir dos dados popularizado e o consideramos preferível ao uso do alfa
de apenas uma rodada de coleta; são exemplos o de Cronbach. No entanto, o índice de confiabilidade
coeficiente alfa de Cronbach (Cronbach, 1951), o também não é capaz de garantir a unidimensionalidade
índice de confiabilidade composta (Fornell & Larcker, de um construto. Assim como para o coeficiente alfa,
1981) e a análise fatorial exploratória (ver Aranha & também consideramos desejáveis valores superiores a
Zambaldi, 2008). Esses métodos têm como pressuposto 0,60.
a teoria da amostra de domínio, de acordo com a qual Quanto à análise fatorial exploratória,
existiriam diversos indicadores observáveis cujas deveríamos esperar cargas fatoriais elevadas (no
variações seriam provocadas por um construto de mínimo iguais a 0,40 ou 0,50; ressaltamos que não há
natureza latente comum. um valor mínimo consensual) entre os indicadores e o
Retomemos o exemplo do construto latente fator que representa a dimensão a qual deveriam
refletivo inteligência. Supondo que cheguemos a um pertencer5.
consenso sobre sua definição conceitual, podemos É possível, por exemplo, ao incluir diversos
imaginar características de indivíduos a partir das quais itens com redação semelhante em uma escala, inflar
inferir sua inteligência. Um exemplo seria o tempo seus índices de consistência interna. Isso, no entanto,
necessário para solucionar problemas. não torna mais efetivo o instrumento de mensuração,
Convencionemos que indivíduos mais inteligentes além de tomar espaço em questionários e de deixá-los
resolvem problemas mais rapidamente. Se elaborarmos mais longos sem necessidade. Nesse sentido, devem ser
um instrumento de mensuração com dez tipos desses tomados cuidados na fase de geração de itens para que
problemas e estes forem resolvidos por, digamos, 300 aspectos complementares de um mesmo construto
indivíduos, esperaremos que os tempos de resolução de sejam capturados. Recomendamos o artigo de Lee e
cada tipo de problema estejam positivamente Hooley (2005) sobre os fundamentos teóricos,
correlacionados (quanto mais dependente da variação aplicações e limitações das técnicas de coeficiente alfa
em inteligência for a variação nesses tempos, melhor e análise fatorial, e Costa (2011) sobre estágios no
para a nossa medida). desenvolvimento dos itens de uma escala.
Apesar das conhecidas limitações aplicáveis
ao coeficiente alfa de Cronbach (por exemplo, o fato de 4.1.2 Validade
que mantidos outros aspectos inalterados, quanto mais
itens semelhantes e quanto maior o número de itens em Entendemos por validade de mensuração de
uma escala, maior tende a ser seu valor, e, um construto o quanto uma proposta de medida
5 Em nossa percepção, em geral quando a análise fatorial correlacionadas. Por isso, entendemos que o procedimento de
exploratória é reportada em artigos de Marketing no âmbito rotação apropriado seria o oblíquo (para uma cobertura mais
da academia brasileira, utilizam-se procedimentos de rotação específica sobre o assunto, recomendamos a leitura de
ortogonal (que pressupõem correlação linear nula entre os Stewart (1981)). Convém ressaltar que, entre indicadores
fatores extraídos). No entanto, parece razoável supor ser formativos, não necessariamente devemos esperar as altas
comum que dimensões de um mesmo construto refletivo cargas fatoriais mencionadas.
(quando lidamos com construtos multidimensionais) estejam
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 9 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
realmente afere aquilo a que está se propondo medir. A expectativas teóricas, e técnicas como a Matriz
eventual presença de erros sistemáticos (ver item Multitraço Multimétodo, a Análise Fatorial
anterior) deverá ser capturada ao empregarmos Confirmatória (AFC) e a Modelagem por Equações
procedimentos efetivos de validação. É importante Estruturais (SEM) são úteis para essas checagens.
destacar, de início, que conseguimos tão somente
acumular ‘evidências’ de que nosso instrumento de Os tipos de estratégias de análise de validade
mensuração seja válido; não é possível ter absoluta apresentados devem ser vistos como complementares.
certeza que a validade ocorra, já que isto requereria que Raramente encontramos, em artigos na área de
o construto latente objeto de mensuração pudesse ser Marketing, o uso simultâneo de todos. Para ilustrarmos
observável. como estas estratégias se aplicam, tomemos o exemplo
Nosso objetivo, ao buscar evidências de de Richins e Dawson (1992). Esses autores, ao
validade para uma escala, é proporcionar condições desenvolverem e proporem uma escala largamente
razoáveis de medição de construtos, para que então utilizada para mensurar materialismo, utilizaram
hipóteses que o envolvam possam ser testadas. estratégias de validação de critério (simultâneo). Em
Diferentemente dos métodos para verificar questionários enviados aos respondentes, além de
confiabilidade, os métodos disponíveis para avaliar a incluírem os indicadores da escala de valores materiais,
validade são dependentes da habilidade do pesquisador também apresentaram perguntas como: qual é o nível
para desenvolver estratégias mais ou menos eficientes. de renda necessário para satisfazer suas necessidades?;
Estas estratégias podem mirar três tipos de análise de qual é a importância relativa de valores tais como
validade6: segurança financeira, relacionamento agradável com
outros, e auto realização?; o que o respondente faria
a) de translação – é um tipo de validação não caso ganhasse, sem esperar, determinada quantia de
estatística e qualitativa que envolve o exame dinheiro (uso egoísta ou altruísta)?; entre outras.
sistemático do conteúdo do instrumento de Usaram, então, uma sólida fundamentação teórica para
mensuração para avaliar se seus componentes justificar comportamentos esperados de grupos de
representam adequadamente facetas do construto indivíduos mais materialistas e menos materialistas, e
(situação em que dizemos haver validade de averiguaram se a pontuação de valores materiais
conteúdo) e se há adequação de redação e forma indicada pelo instrumento de mensuração proposto
para aplicação dentre a população a que se destina servia para predizer o comportamento nas perguntas de
(situação em que dizemos haver validade de face). verificação apresentadas. Convém reforçar, neste
Em geral, este tipo de validação é conduzido por exemplo, o esforço de reflexão acerca das
especialistas (pesquisadores ou participantes); é características esperadas para grupos de indivíduos
possível também utilizar potenciais respondentes mais e menos materialistas, e de criação de protocolos
como juízes; para buscar validação.
As técnicas de análise de validade em cada
b) de critério – envolve a análise da associação uma das estratégias apresentadas são muitas e sua
prevista entre nossa medida e uma variável tomada exposição está além do escopo deste artigo. Podemos
como critério, representativa do construto. Por afirmar que os métodos clássicos de avaliação de
exemplo, as medidas de uma escala de propensão ao validade por estas estratégias estão bem documentados
comportamento doador podem ser comparadas com (cf. DeVellis, 1991; Netemeyer, Bearden & Sharma,
o comportamento doador, digamos, verificado no 2003; Costa 2011). No entanto, em anos recentes, o uso
ano subsequente. A validação de critério, nesse de técnicas estatísticas mais sofisticadas para análise de
caso, é qualificada como preditiva. É possível validade tem se intensificado. Por exemplo, Gonçalves
empregar validação de critério simultânea, por (2013) utiliza um modelo de análise fatorial
exemplo, ao mensurar materialismo entre religiosos confirmatória de terceira ordem para verificar
e entre estudantes de negócios, tal como conduzido confiabilidade e validade convergente da escala de
por Belk (1985); satisfação com atributos. Esse construto foi definido
como tendo três dimensões primárias – núcleo do
c) de construto – refere-se a quanto a serviço, aspectos periféricos da qualidade do serviço e
operacionalização de um construto o mostra valor. Por sua vez, a dimensão de aspectos periféricos
aderente ao que a teoria diz, em termos de sua da qualidade do serviço possui três subdimensões, e a
definição e propriedades. Verificam-se sua de valor, outras duas.
estrutura dimensional e seu relacionamento com Já Yi e Gong (2013) propuseram mensurar o
outros construtos. São subtipos as validades: comportamento de cocriação de valor do consumidor
convergente; discriminante; nomológica; e grupo- por meio de uma abordagem hierárquica e
conhecido. Aqui, as associações encontradas entre multidimensional. Como estratégias de validação
o construto e outros são confrontadas com as (convergente, discriminante e nomológica), os autores
6Ressaltamos que, embora o foco desse subitem (4.1) seja na medição, como será observado mais adiante. A variação de
mensuração refletiva de múltiplos itens, essas estratégias de aplicação está nas técnicas utilizadas.
análise de validade são aplicáveis a outras alternativas de
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 10 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
empregam modelos de análise fatorial confirmatória abstrato. Isto gera um desafio maior para o pesquisador,
(de primeira e terceira ordens) e modelo PLS (partial tendo em vista a necessidade de consolidar em um só
least squares). enunciado toda a significação de um construto, além de
requerer uma forma de apresentação que seja coerente
4.2 Validade e confiabilidade na mensuração por com a escala de verificação a ser utilizada.
único item Como método para este desafio, dois
procedimentos precisam ser cuidadosamente
A estratégia de mensuração por múltiplos utilizados: primeiro, o item deve ser elaborado e
itens, objeto de aplicação de relevantes técnicas (como submetido à apreciação de especialistas no tema e/ou
modelagem por equações estruturais, por exemplo), pesquisadores experientes; segundo, o item deve ser
pressupõe que um construto bem delimitado tem sua exposto a futuros potenciais pesquisados, para verificar
medição a partir do levantamento das pontuações para sua compreensão da associação do conceito ao item.
dois ou mais itens. Nesta perspectiva, e conforme Estes procedimentos ajudam a garantir validade de
indicado acima, cada item mensura uma faceta do conteúdo (associação do item com a definição) e face
construto, que, pela teoria da amostra de domínio, tem (apresentação e compreensibilidade do item).
associação direta com o construto por possuir uma parte John Rossiter (2011), em seu modelo
de sua variação oriunda da variação do fator latente (a COARSE, é enfático em afirmar que a etapa qualitativa
outra parte da variação se explica por um erro de mensuração por um único item é a principal, senão
aleatório). Há, por outro lado, uma alternativa de a única, forma de garantir a validade de uma escala.
medição bastante usada nas pesquisas em Marketing, Ainda assim, entendemos que a indicação reiterada de
que consiste na mensuração de construtos por um único validade de conteúdo e face por especialistas ou
item em lugar de um conjunto deles. potenciais respondentes da escala não é suficiente, ou
O pressuposto central da teoria da amostra de ao menos não haveria perdas por sua confrontação com
domínio facilita sobremaneira a validação estatística de resultados de uma aplicação concreta da escala na
medidas de um construto ou dimensão. De fato, se mensuração do construto a que se propõe a medir.
consideramos que a validade de conteúdo e de face de
um conjunto de itens está boa (essa etapa é mais 4.2.2 Etapa quantitativa de validação e confiabilidade
qualitativa), a validade estatística é facilmente
verificada pela análise da adequação fatorial e da A análise da consistência de uma escala de um
consistência interna. Por outro lado, em uma só item se reafirma com dados oriundos de sua
averiguação por um único item não há sentido algum aplicação a partir da avaliação da aderência dos
em sua submissão a uma extração fatorial ou a extração resultados amostrais à expectativa de comportamento
de um coeficiente de consistência interna, como o alfa da variável que deu origem à amostra, da validade de
de Cronbach ou o índice de confiabilidade composta. critério, da validade de grupo conhecido e do
Isto faz com que sejam utilizadas técnicas de análise de procedimento de teste-reteste. Vejamos alguns detalhes
validade distintas. A seguir apresentamos os principais e recomendações.
procedimentos de análise de validade, considerando Sobre a aderência da escala ao esperado,
primeiro a avaliação qualitativa e depois as alternativas tomemos por pressuposto que a métrica é direcionada a
de avaliação estatística7. medir um construto cuja medida segue alguma
distribuição de probabilidade em nível populacional.
4.2.1 Etapa qualitativa de validação Por exemplo, é possível supor que o ‘nível de satisfação
de cidadãos com o governo’ segue uma distribuição
Na avaliação qualitativa, neste tipo de escala simétrica de comportamento aproximadamente normal,
os cuidados são os mesmos daqueles aplicados nas ou que o ‘nível de disposição de jovens à participação
escalas de múltiplos itens, e a meta é simples: fazer o cívica’ é assimétrica à direita, com maior concentração
enunciado do item refletir plenamente o conteúdo do em escores mais baixos de uma escala. Nesses termos,
construto, manifesto em sua definição. Além da clara se uma escala é aplicada para medir estes construtos, o
associação com a definição, ou seja, validade de comportamento dos escores da amostra deve refletir
conteúdo, e para assegurar boa validade de face, o aproximadamente o modelo de distribuição esperado.
enunciado precisa ser sucinto e compreensível, mesmo Do ponto de vista operacional, esta verificação
que a escala já seja menor em tamanho (em comparação pode ser feita de forma exploratória ou por meio de
com a mensuração por múltiplos itens). Em outras testes, porém recomendamos uma avaliação
palavras, o fato de a mensuração ser baseada em um só exploratória e bem fundamentada. Por exemplo, uma
item não implica que se utilize um item muito extenso avaliação do histograma ou de um gráfico de ramo-e-
ou com vocabulário inapropriado para a compreensão folha dos valores da amostra já pode ser suficiente para
do respondente, mesmo que o construto mensurado seja sinalizar se o formato da amostra se aproxima da
7 Levando em conta a finalidade deste artigo de servir de e dar mais recomendações, diferente do que fizemos no item
referencial de consulta a pesquisadores e considerando ainda 4.1, para o qual o desenvolvimento teórico e de aplicações é
a menor tradição de uso e de desenvolvimento na literatura de muito mais amplo.
Marketing, optamos por detalhar melhor estes procedimentos
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 11 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
AVALIAÇÃO RECOMENDAÇÃO
8 Conforme indicamos acima, não recomendamos este só verificação. Este não é o caso da verificação por um único
procedimento para mensuração de múltiplos itens, devido ao item, razão pela qual o procedimento ganha utilidade.
fato de termos métodos de verificação consistentes para uma
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 12 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
4.3 Complementos Relevantes: dimensionalidade, respondentes pode ser mesclar a ordem de apresentação
organização de instrumentos e variância comum ao dos itens das dimensões presentes no instrumento,
método como já mencionamos ao apresentar a proposta de
Rossiter (2002, 2011). Outra seria o uso de itens
Uma questão relevante nos debates atuais inversos (aqueles com relação conceitual negativa com
sobre mensuração em Marketing remete à o construto) entre itens com relação positiva com o
dimensionalidade de um construto. Um construto não construto (ver Wong, Rindfleisch & Burroughs, 2003;
precisa ser necessariamente unidimensional, podendo e Aranha & Zambaldi, 2008). Por exemplo, para medir
possuir diversas dimensões (subconstrutos) ou competência, podemos colocar no instrumento
atributos (na elaboração de Rossiter). Tomemos como afirmações que remetam a esse atributo, juntamente
exemplo a confiança, construto que pode ter, de acordo com um item que remeta à incompetência. A presença
com a literatura, múltiplas dimensões, como percepção de itens inversos tende a obrigar que o respondente se
de honestidade, de benevolência e de competência. concentre mais em suas respostas, por não poder adotar
Nesse caso, entendemos que para medir a confiança um padrão automático ao responder (como alta
seria necessário medir as três dimensões, ou seja, se os concordância com todos os itens, por exemplo).
respondentes percebem o objeto de análise como Evidentemente, os itens inversos devem ter seus
honesto, benevolente e competente. As três dimensões, valores invertidos para análise e cômputo de escores.
ou atributos, podem, inclusive, ser abstratas e com isso Ademais, são de difícil elaboração, pois costumam
requerem múltiplos itens para suas medidas. A análise conter negativas, o que pode confundir os
fatorial confirmatória é uma técnica útil para análise de respondentes.
dimensionalidade do instrumento (ver Aranha &
Zambaldi, 2008), mas está limitada ao ajuste de
modelos refletivos. É necessário ressaltar que o teste de 5 CONSIDERAÇÕES SOBRE ESCALAS DE
dimensionalidade de uma escala não deve se basear no VERIFICAÇÃO
coeficiente alfa de Cronbach, no índice de
confiabilidade composta, nem na análise fatorial Um importante aspecto da mensuração de
exploratória, mas em procedimentos mais robustos. construtos em Marketing é o que chamamos de “escala
Além das preocupações com os de verificação”, que está associada à referência que o
procedimentos qualitativos e quantitativos para a respondente tem para apontamento do número que
construção e validação de instrumentos de medida, indicará a medida do construto. Com efeito, quando o
enfrentamos aquelas concernentes aos seus métodos de respondente aponta a intensidade de medição de
aplicação. Neste domínio, incluímos a forma de coleta interesse, normalmente ele o faz pela indicação de um
(como por meio de entrevistas ou por número que escolhe dentre um conjunto de opções (por
autopreenchimento, por exemplo), os momentos de exemplo, 5 pontos numerados de 1 a 5 em uma escala
aplicação e as distintas amostras às quais podemos de concordância). É sempre um bom desafio para os
aplicar os instrumentos. Cada variação na aplicação é pesquisadores apontarem alternativas de números
sujeita a viés e, quando esse viés exerce grande adequadas aos diferentes propósitos de pesquisa.
influência nos dados obtidos, enfrentamos um Rossiter (2011) chega a afirmar que a validade
fenômeno indesejado, conhecido como variância de uma escala se faz pelo somatório da validade do
comum ao método, que consiste em um padrão comum conteúdo do item (o enunciado de uma afirmação para
a todas as respostas (ou à maior parte delas) por parte captação da concordância, por exemplo) com a
dos respondentes, seja por apresentarem validade da escala de verificação (ou o número de
comportamento socialmente desejável, por tentarem pontos e o sentido que eles têm para o respondente). É
adivinhar o que se quer medir e procurarem direcionar fácil concordar com o posicionamento de Rossiter, o
a medida, por tentarem parecer coerentes, ou por que faz necessária uma atenção especial sobre esta
sofrerem algum viés oriundo da forma de coleta (como decisão de medição.
falta de compreensão de um item ou algum tipo de Apresentamos aqui quais são as principais
indução por parte do entrevistador). decisões a serem tomadas e as alternativas mais
O uso de múltiplos métodos para coleta dos apropriadas para cada contexto de decisão. Em geral, as
dados de um construto visando a mitigar a variância decisões são concernentes à coerência da escala de
comum ao método é dispendioso em termos de tempo verificação com a apresentação do item; ao número de
e de outros recursos e, por essa razão, os pesquisadores, pontos da escala; à estratégia de agregação; e às
impossibilitados de empregarem ferramentas como a alternativas de operacionalização estatística.
Matriz Multitraço Multimétodo, lançam mão de
técnicas para minimizar o potencial viés decorrente do 5.1 Coerência entre escala e apresentação do
uso de um método único. Uma das formas de dificultar conteúdo
o reconhecimento do que se quer medir por parte dos
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 13 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
9A denominação de pontos é mais problemática nos casos de efetivamente não tem sentido, pois o indiferente ou neutro
números ímpares de pontos, pois há tendência de associar o simplesmente não tem respostas na escala (por exemplo, uma
ponto central à condição de indiferentes ou neutro, o que pessoa neutra na concordância com uma determinada
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 14 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
houver espaço, devemos utilizar tantos pontos quanto estiver adequada, é possível manter a medida agregada
possíveis, evitando, por outro lado, dar uma na mesma escala das variáveis pela extração das médias
denominação específica para cada ponto. Uma aritméticas simples de cada respondente no conjunto de
estratégia interessante parece ser utilizar escalas de 10 itens (ou seja, extraindo as médias dos escores de cada
ou 11 pontos (de 1 a 10, ou 1 a 11, ou -5 a +5), respondente (Bagozzi & Edwards, 1998) ou, em uma
denominando somente os extremos e com uma segunda alternativa, pela extração de uma média
sinalização de significado da região intermediária (ver ponderada dos escores por respondente, utilizando
Hodge e Gillespie, 2007). Aplicações com este tipo de como fator de ponderação os escores fatoriais dos
escala têm sido apontadas como consistentes, e em boa respectivos itens. Esta segunda estratégia tem a
medida facilitam a resposta, pois na cultura brasileira vantagem de, além de manter a escala agregada nos
estamos habituados em emitir posições de 0 ou 1 a 10 limites das escalas originais, dar pesos maiores aos
(ver Barboza et al. 2013). itens mais correlacionados ao construto latente
A opção pela quantidade de tantos pontos (lembramos que o escore fatorial é uma medida de
quanto possíveis é, no entanto, controversa, e depende correlação entre a variável e o fator latente).
da capacidade de o respondente compreender o Se um construto tem mensuração por
funcionamento da escala. De acordo com nossa múltiplos itens, mas sem supor relação refletiva, a
experiência de campo, especialmente entre melhor estratégia de agregação é pela extração de uma
respondentes com baixa escolaridade, diminuir o medida ponderada por respondente. Aqui temos, por
número de opções pode ser interessante, pois deixa a outro lado, a necessidade de justificar os fatores de
indicação de resposta mais simples. Podemos usar itens ponderação; caso não haja uma boa justificativa,
de aquecimento, como por exemplo, 'Hoje está frio', ou qualquer agregação é arriscada. É possível a agregação
'Eu gosto de futebol', para verificar a compreensão de pela média aritmética simples dos escores por
como indicar concordância aos itens que serão lidos. respondente para um caso extremo de ausência total de
Isto é possível quando a aplicação é feita por um um referencial de ponderação, porém as análises das
entrevistador, presencialmente. medidas precisam sempre levar em consideração
possíveis problemas oriundos deste procedimento.
5.3 Estratégia de agregação
5.4 Operacionalização estatística
O problema da agregação existe quando
utilizamos uma escala de múltiplos itens para Fazemos aqui breves considerações sobre a
mensuração de um dado construto ou dimensão. A operacionalização estatística de dados oriundos de
demanda vem da necessidade de, eventualmente, escalas costumeiramente utilizadas. Este assunto chega
analisarmos a medida total do construto (por vezes, esta a ser polêmico a depender do pesquisador e do seu nível
medida não se faz necessária, como é o caso, por de exigência teórica. Por esta razão, nos limitamos a
exemplo, de pesquisas que testam modelos por apontar algumas avaliações e recomendações de
modelagem de equações estruturais). Quando a prática, passíveis, naturalmente, de contestação.
agregação é necessária, salientamos aqui três opções Conforme já informado, várias técnicas
para o caso de construtos com mensuração refletiva e pressupõem continuidade das variáveis para sua
uma para os demais casos. aplicação, como é o caso de parte dos modelos lineares
Se temos um conjunto de itens que medem convencionais. Por esta razão, se estamos
refletivamente um construto, e se este conjunto de itens operacionalizando dados oriundos de escalas com
está adequado em termos de estrutura fatorial e de mensuração por um número determinado de pontos, os
consistência interna, uma primeira recomendação, e a dados dificilmente têm comportamento semelhante a
mais comum de todas, consiste na utilização das uma variável contínua. Isto faz com que o uso de
estratégias de agregação da análise fatorial, que está técnicas de regressão múltipla do modelo normal linear
presente na maioria dos pacotes computacionais. Ou (e mesmo parte das técnicas de modelos lineares
seja, na extração fatorial podemos solicitar que o generalizados, regressão quantílica e outras), por
software gere uma medida geral do fator. O problema exemplo, não possa ser realizado quando a variável
desta estratégia é que, nas rotinas atualmente resposta for medida em uma escala de Likert, por
implementadas, a variável que se gera é padronizada de exemplo10.
tal modo que sua média é 0 e sua variância é 1, o que Entendemos que a alternativa mais coerente
normalmente difere das medidas das escalas de origem para superar esse tipo de embate consiste em ampliar o
dos itens (que são entre 1 e 5, ou 1 e 7, entre outras). leque de técnicas, triangulando tantas quantas
Por esta razão, se a estrutura psicométrica possíveis, e analisando convergências, similaridades,
afirmação na verdade não pontua em uma escala que mede com pressuposto de continuidade com variáveis medidas com
justamente o nível de concordância). escalas de pontos (da mesma forma como encontramos
10 Esta afirmação é controversa, pois, por vezes, se confunde diversas aplicações de técnicas paramétricas sem a total
continuidade da variável com continuidade da escala, o que, segurança quanto aos pressupostos de distribuição
efetivamente, são conceitos distintos. Por um caminho ou envolvidos).
outro, não é incomum encontrarmos aplicações de modelos
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 15 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
AVALIAÇÃO RECOMENDAÇÃO
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 16 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
interpretação do instrumento de coleta de dados pelos Com a crescente globalização da ciência e das
respondentes, por exemplo, resultante da redação das sociedades, pesquisas interculturais provavelmente
questões. Wong, Rindfleisch e Burroughs (2003) continuarão a ganhar importância, assim como a
apontaram problemas com a administração de itens necessidade de endereçar com sucesso questões ainda
redigidos em ordem direta entre respondentes do leste não resolvidas de mensuração nesses contextos. De
asiático; argumentam que, em função da maior acordo com Church (2010), medidas válidas entre
inclinação para concordar com sentenças proferidas por culturas irão requerer dos pesquisadores
terceiros, itens redigidos em forma de pergunta desenvolvimentos contínuos em métodos estatísticos
poderiam ser mais adequados para capturar valores. para determinar equivalência de mensuração. Por
Reardon e Miller (2012) sugerem que pode haver exemplo, modelos lineares hierárquicos e sua
benefícios ao usar metáforas em escalas, na habilidade de simultaneamente testar hipóteses tanto no
comparação com o uso de formatos mais tradicionais, nível individual como cultural de análise
como Likert e diferencial semântico. Já o viés de provavelmente crescerão em importância.
administração refere-se à dificuldade de comunicação
entre o pesquisador e o pesquisado.
O viés de item ocorre quando indivíduos com 7 TENDÊNCIAS DE MENSURAÇÃO EM
a mesma ‘quantidade’ de uma característica, mas MARKETING
pertencentes a diferentes grupos culturais, exibem
diferentes probabilidades de resposta a itens em uma Neste item apresentamos alguns tópicos de
direção esperada. Quanto à equivalência linguística, o tendência de mensuração em marketing. Nossa seleção
procedimento de tradução reversa é provavelmente o foi baseada na avaliação da literatura recente em
mais empregado entre os estudos brasileiros, mas há pesquisas e mensuração em Marketing, e os temas de
também outros disponíveis. Pode-se, por exemplo, referência foram os seguintes: Teoria da Resposta ao
administrar um instrumento em dois idiomas para Item, estimadores Bayesianos e modelagem por
pessoas bilíngues e comparar a correlação entre as mínimos quadrados parciais (partial least squares –
respostas. PLS).
Segundo Church (2010), a Teoria de Resposta construto nos respondentes. Nos campos da
ao Item (TRI) tem sido empregada para medir uma série Administração, como o de Marketing, por exemplo,
de construtos latentes, como inteligência, traços de ainda são menos comuns as aplicações de TRI,
personalidade, individualismo e coletivismo, por predominando as chamadas abordagens clássicas como
exemplo. Seu uso já ocorre há mais de 60 anos, sendo a análise fatorial (AF) para aplicação em modelagem
mais comum nos campos de Educação e Psicologia por equações estruturais (SEM).
(Samartini, 2006), mas já encontra aplicações em Há, no entanto, uma tendência de aumento do
pesquisas brasileiras na área de Marketing (ver Lucian, uso de TRI no campo da Administração e, em
2012). particular, de Marketing, motivada por propriedades
Embora a nomenclatura TRI represente um que permitem maior quantidade de informações e
conjunto de modelos com especificidades diversas, a resultados mais estáveis do que os da abordagem
maioria deles possui em comum o estabelecimento de clássica. Uma das vantagens do uso de TRI é que, ao
dois parâmetros. O primeiro refere a quanto o item obtermos uma medida de quanto o item contém do
(questão) se aproxima do traço a ser medido; e o traço, bastam poucas questões para que possamos
segundo a quanto do traço está presente no respondente identificar sua intensidade em um respondente. Isso é
(um terceiro parâmetro associado a aleatoriedade pode possível pelo fato de os modelos de TRI fornecerem
ser modelado, a depender do interesse de pesquisa). Por uma distribuição de probabilidades para as respostas
essa razão, os pesquisadores em Educação possíveis para cada questão em função do nível em que
desenvolveram diversos estudos utilizando TRI, o traço está presente no respondente.
valendo-se do parâmetro do item como uma medida de A nomenclatura TRI reúne uma família de
dificuldade de questões em uma avaliação e do modelos diferentes, podendo coletar dados binários ou
parâmetro do respondente como medida da habilidade escalares (Scherbaum, Finlinson, Barden & Tamanini,
(ou conhecimento) dos estudantes. A técnica se 2006). Os avanços em termos de ferramentas e
popularizou como forma de padronizar resultados de aplicações têm sido maiores para dados binários e, por
alunos que realizam avaliações com questões distintas, essa razão, acreditamos que o uso de TRI em Marketing
de forma que seus desempenhos sejam comparados. (campo aculturado ao emprego de escalas de múltiplos
O campo da Psicologia, tradicionalmente pontos), embora crescente, é ainda incipiente e tende a
envolvido com a mensuração de traços latentes, permanecer assim no médio prazo.
também apresenta vasta coleção de aplicações de TRI Os modelos de TRI dividem-se em modelos
ao procurar quantificar a aderência dos itens de um cumulativos e de desdobramento (Samartini, 2006;
instrumento ao construto a ser medido e a presença do Scherbaum et al., 2006). Modelos cumulativos
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 17 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
presumem que as respostas possíveis para um item de forma limitada à amostra original e os parâmetros
implicam ordem e que o avanço nessa ordem representa dos itens são dela dependentes, o que não ocorre em
o aumento do traço em análise. As escalas de TRI, ao menos teoricamente. Essa fonte de viés da
concordância, nesse contexto, indicariam que quanto abordagem clássica é uma de suas desvantagens em
mais um respondente concordar com uma afirmação termos de estabilidade de resultados. Outra vantagem
(não sendo essa inversa), mais possuirá do traço. Os da TRI é que o erro padrão dos itens varia ao longo de
modelos de desdobramento, por sua vez, não presumem todos os níveis do traço, ou seja, é possível determinar
acúmulo do traço na ordem das respostas possíveis a o traço latente para cada um de seus níveis (Scherbaum
um item. Imaginemos, por exemplo, a seguinte et al., 2006).
afirmação: 'fumar deveria ser permitido apenas em No entanto, ao contrário das abordagens
ambientes abertos'. Uma pessoa absolutamente a favor clássicas, os modelos de TRI não medem a
da permissão do fumo em qualquer ambiente confiabilidade de um instrumento completo de medida
discordaria totalmente da afirmação, assim com quando usamos escalas de múltiplos itens, já que a
concordaria plenamente uma pessoa absolutamente confiabilidade em TRI é apurada por item (Scherbaum
contra a permissão de fumar em qualquer ambiente. As et al., 2006), não dispondo de medidas gerais como o
pessoas que não estivessem nos extremos de opinião índice de confiabilidade composta, por exemplo, o que
sobre a permissão para fumar distribuiriam suas pode ser considerado uma desvantagem.
respostas nos níveis intermediários de concordância. Outra desvantagem do uso de TRI é a
Enquanto não presumem acúmulo do traço de acordo necessidade de amostras maiores do que as necessárias
com uma ordem das respostas aos itens, os modelos de nas abordagens clássicas (Church, 2010; Scherbaum et
desdobramento trazem uma distribuição de al., 2006). Ademais, o uso de TRI é complexo para os
probabilidades para cada resposta possível como uma usuários que não dominam estatística de forma
função da presença do traço em cada respondente. avançada e, por haver carência de recursos
A comparação de resultados entre TRI e computacionais em termos de software com interfaces
análise fatorial confirmatória, sejam obtidos por meio amigáveis para TRI, acreditamos que ainda há e haverá
de simulações ou de estudos empíricos, tem inibições de seu uso fora das áreas de educação e
demonstrado maior adequação por parte da TRI (ver psicologia, em que seus desenvolvimentos foram mais
Salzberger & Koller, 2013; e Buchbinder, Goldszmidt proeminentes.
& Parente, 2012) na validação de medidas. Os modelos de TRI apresentam também duas
Aparentemente, as medidas validadas por TRI premissas e, ao menos uma delas pode ser interpretada
funcionam de maneira mais estável em contextos como uma desvantagem frente à abordagem clássica,
distintos, ao passo que as validadas por meio de AFC tratando-se da unidimensionalidade do traço. Os
requerem maiores adaptações em contextos distintos modelos TRI costumam presumir que um instrumento
(por contextos distintos, entendemos variações entre mede um traço único, embora existam modelos
formas de coleta de dados (entrevistas pessoais ou por multidimensionais de TRI que são, no entanto, por
telefone, e autopreenchimento de questionários, por demais complexos e de difícil implementação
exemplo), de momentos de coleta, e de amostras que (Buchbinder et al., 2012; McDonald, 2010). Os
representem populações distintas (Meade & modelos da abordagem clássica ajustam mais
Lautenschlager, 2004). facilmente múltiplos traços na validação de
A explicação para essas diferenças pode ser instrumentos.
provida por meio de propriedades teóricas da TRI. Uma A outra premissa dos modelos TRI é
delas é a que a obtenção de características dos itens e conhecida como independência local (ou condicional)
dos indivíduos por meio das respostas dadas são e significa que as respostas dadas para um item
independentes entre si. Em outras palavras, é possível dependem exclusivamente do traço latente e não afetam
determinar os parâmetros dos itens (dificuldade da as respostas nos outros itens e nem são por elas
questão ou presença do traço) com base em diferentes afetadas. Essa premissa pode ser uma explicação para o
conjuntos de respondentes representativos de fato dos pesquisadores que preferem a TRI afirmarem
populações diversas (Salzberger & Koller, 2013; que os parâmetros dos itens não dependem da amostra
Scherbaum et al., 2006). e com isso suas estimativas são estáveis. No entanto, o
Os modelos clássicos (análise fatorial e de argumento é questionável, pois se trata de uma
consistência interna) são baseados em correlações para premissa, nem sempre observável.
a construção de escores e estimação de parâmetros para A comparação entre as propriedades de TRI e
os itens. Por não contarem com a separação entre os das abordagens clássicas permite que pensemos em
parâmetros dos itens e dos respondentes, seus situações em que a escolha por uma ou outra
resultados ficam restritos às características da amostra abordagem seja mais ou menos adequada. A
e, consequentemente, à sua representatividade. Esse é abordagem clássica poderia ser indicada para quando
um dos prováveis motivos para a necessidade de imaginarmos haver constância do erro padrão ao longo
adaptações de escalas já validadas pela abordagem dos níveis do traço em um item. No entanto, uma
clássica em uma cultura quando se conduzem estudos situação como essa não é muito plausível, fazendo da
interculturais, uma vez que os escores são construídos escolha por um modelo de TRI preferível. TRI também
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 18 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
deve ser uma melhor escolha quando não dispomos de acúmulo do traço de acordo com a ordem das respostas
amostras representativas da população para a qual se possíveis, é possível discriminar melhor o traço nos
pretende desenvolver a medida, por conta da respondentes que escolhem total concordância ou total
independência entre os parâmetros dos itens e dos discordância com um item do que nos modelos
respondentes. Essa mesma propriedade, por conferir cumulativos. A esse atributo, soma-se a possibilidade
maior estabilidade dos parâmetros de item de haver variação do erro padrão do traço em cada um
independentemente do contexto, também credencia de seus níveis, permitindo diferentes graus de precisão
TRI como a primeira opção para a criação de novas para indivíduos que estão nos extremos ou em níveis
medidas ou o refinamento de medidas existentes. intermediários do traço. A capacidade de bem lidar com
Ao objetivarmos aferir a confiabilidade geral o estilo de resposta extrema é também um benefício do
do instrumento, o uso da abordagem clássica seria mais uso de TRI para o tratamento da variância comum ao
recomendável, ao passo que TRI seria mais apropriada método – a tendência de o respondente se posicionar de
para obter confiabilidade nos diferentes níveis do traço, forma unívoca (podendo ser muito favorável ou muito
por item. Outro critério a ser considerado pode ser a desfavorável ao traço ao longo de suas respostas) por
parcimônia, também discutível. Se por um lado, a todo o instrumento de medida. Ao permitir variação na
unidimensionalidade em TRI presume um modelo mais estimativa dos parâmetros do item para diferentes
parcimonioso, por outro lado, trata-se de uma restrição níveis do traço, o estilo de resposta extrema não
a modelos multidimensionais, que podem fazer mais contaminará as estimativas dos respondentes que estão
sentido em algumas formulações teóricas. Ademais, os em níveis intermediários.
modelos de TRI são de aplicação mais complexa e O estilo de resposta extrema permite que os
exigem mais recursos computacionais e técnicos do que modelos de TRI identifiquem questões que funcionam
os modelos clássicos, sobretudo quando ajustamos melhor como dicotômicas, não escalares. Por essa
modelos multidimensionais, o que faz do uso de TRI razão, os avanços em TRI têm sido maiores para o
menos parcimonioso. desenvolvimento de instrumentos que coletem dados
Uma aplicação em que se destaca a aderência binários e com isso a tradição de escalas de múltiplos
da TRI é o caso de respostas extremas, ou daquelas itens observada em Marketing pode inibir o aumento do
situações em que o respondente se posiciona nos emprego de métodos de TRI no campo.
extremos das questões (de Jong, Steenkamp, Fox & O Quadro 3 sintetiza os fundamentos da
Baumgartner, 2008). Justamente pela propriedade dos abordagem clássica e de TRI, suas vantagens e
modelos de decomposição apresentarem desvantagens, e aplicações mais apropriadas em cada
probabilidades distintas para cada resposta em função caso.
do valor do traço de cada indivíduo, sem presumir
Determinam escores individuais e parâmetros dos Calcula parâmetros para o item (aderência ao
itens (como cargas fatoriais, variância média extraída construto medido) e para o respondente (valor do
Fundamentos e confiabilidade, por exemplo) com base na estrutura traço) de forma independente. Costuma presumir
de correlações. Os resultados não são independentes unidimensionalidade (nos modelos mais
do contexto em que os dados são coletados (formas de simples) e independência local.
coleta, momentos de coleta e amostras distintas).
Menor complexidade. Ampla disponibilidade de Os modelos não precisam ser cumulativos. Maior
recursos computacionais. Facilidade de ajuste de estabilidade dos parâmetros de itens em dados
modelos multidimensionais. Requerem amostras coletados em contextos distintos. Variação do
Vantagens menores do que os modelos de TRI. Geram índices de erro padrão do item de acordo com o nível do
confiabilidade globais. traço no respondente. Permite aferir
confiabilidade por item. Com poucas perguntas,
é possível estabelecer o valor do traço no
indivíduo.
Quando consideramos haver constância do erro padrão Quando consideramos haver variação do erro
ao longo dos níveis do traço em um item. Quando padrão ao longo dos níveis do traço em um item.
desejamos obter um indicador global de confiabilidade Quando não podemos garantir a
Aplicações do instrumento. Quando ajustamos um modelo de representatividade da amostra. Para a criação de
recomendadas medida multidimensional. novas medidas e/ou para refinar medidas
existentes. Quando desejamos obter a
confiabilidade por item do instrumento. Quando
nos defrontamos com o estilo de respostas
extremas.
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 19 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 20 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
de simular distribuições marginais em sequência; lineares, diferentemente do que ocorre com a estimação
embora gere sequências autocorrelacionadas, o Bayesiana (ver Zellner & Rossi, 1984). Ademais, a
amostrador de Gibbs termina por "se livrar" dos valores modelagem por aproximação assintótica necessita de
iniciais da cadeia e converge para uma distribuição amostras muito grandes, uma clara desvantagem em
estacionária. relação à modelagem Bayesiana. Por fim, os modelos
Especialmente relevante à modelagem de Bayesianos são menos sensíveis à presença de outliers,
variáveis latentes é o conceito de aumento de dados pois a distribuição de parâmetros é estimada com base
(data augmentation), usado para moldar a na maior parte da amostra e menos nos casos extremos
verossimilhança de um modelo de alguma natureza (Hahn & Doh, 2006).
(como a modelagem por equações estruturais, por Por considerar uma distribuição possível para
exemplo); o amostrador de Gibbs pode ser usado para os parâmetros na população, e não a existência de um
essa finalidade. O conceito de aumento de dados parâmetro fixo populacional, alguns autores
consiste em adicionar informação indisponível (como a consideram a inferência Bayesiana como a forma mais
estimação de variáveis latentes) ao conjunto de dados adequada (senão a única) de ajustar modelos em
por meio de sua modelagem. Rossi, Allenby & Marketing (ver Rossi, Allenby & McCulloch, 2006; e
McCulloch (2006) demonstram que uma variedade de Park & Kim, 2013). O argumento está no fato de que
modelos podem ser construídos por meio de aumento conseguimos modelar os comportamentos e atitudes de
de dados quando não observamos variáveis cada indivíduo em função de suas características
diretamente. Para aprofundamento a respeito dos individuais em vez de estimar um parâmetro médio
algoritmos de simulação MCMC, recomendamos a para a população inteira (uma limitação dos modelos da
leitura de Gamerman & Lopes (2006) e de Rossi, estatística clássica). Como em Marketing é relevante
Allenby & McCulloch (2006). compreender os agentes de forma personalizada, essa
Particularmente em relação ao uso da Análise propriedade dos modelos Bayesianos tem
Fatorial Confirmatória na validação de construtos, a impulsionado o uso desse tipo de inferência na área. Tal
abordagem Bayesiana possui algumas vantagens em benefício dos métodos Bayesianos se aproxima de um
relação à estatística clássica. Em primeiro lugar, os dos benefícios dos modelos de TRI que, ao modelarem
pesquisadores que preferem o uso da inferência os parâmetros dos respondentes, também podem ser
Bayesiana consideram que com ela é possível usar considerados Bayesianos em sua natureza. No entanto,
amostras menores do que na abordagem frequentista a estimação Bayesiana em Análise Fatorial e Equações
(clássica) (Rossi, Allenby & McCulloch, 2006); o estruturais, ao contrário de TRI, não separa os
argumento, no entanto, somente é verdadeiro quando parâmetros dos itens dos respondentes e se baseia na
temos prioris informativas, o que, como já estrutura de associação entre os dados (assim como na
mencionamos, é arriscado. Para mitigar o risco, estatística clássica) e, portanto, depende fortemente das
sugerimos que pesquisadores realizem extensiva características da amostra. Efetivamente, a distribuição
revisão da literatura e de resultados empíricos passados de parâmetros a posteriori, quando usamos prioris de
para definir as distribuições a priori que utilizarão em referência, representa bem a amostra utilizada que,
seus modelos. portanto, deve ser bastante representativa da população.
Outra vantagem é que o uso de estimadores Os modelos Bayesianos têm sido
Bayesianos não precisa violar premissas acerca de crescentemente empregados em diversos campos por
distribuição das variáveis utilizadas. Grande parte dos conta de sua natureza intuitiva e de suas vantagens
itens das escalas em Marketing são coletados como frente à inferência clássica. Esse movimento têm sido
variáveis ordinais (graus de concordância, por impulsionado pelo aumento de recursos de software de
exemplo), mas tratados por modelos da estatística prateleira capazes de prover a estimação Bayesiana por
clássica que presumem que os dados coletados sejam meio de interfaces amigáveis, e também pelo avanço de
normalmente distribuídos, como é o caso da estimação hardware capaz de processar simulações com
por máxima verossimilhança, o caso mais frequente em sequências muito grandes (na casa dos milhares). Um
Análise Fatorial Confirmatória e em Equações exemplo de aplicação desse tipo é o algoritmo presente
Estruturais. É muito improvável uma variável ordinal no pacote de Equações Estruturais AMOS. No entanto,
se distribuir normalmente, ou até mesmo impossível, as ferramentas de prateleira provêm pouca flexibilidade
considerando que a distribuição normal é exclusiva aos pesquisadores em termos de escolha do simulador
para variáveis quantitativas contínuas. Ao não presumir MCMC ou mesmo de extração de resultados
normalidade na distribuição dos dados, a inferência individualizados para cada respondente, o que seria um
Bayesiana se adéqua melhor à modelagem de variáveis dos principais benefícios da escolha por um modelo
ordinais (Byrne, 2001). Bayesiano. Existem ferramentas mais flexíveis, como o
A abordagem clássica também confia por pacote R, por exemplo, que exigem, no entanto,
vezes na aproximação assintótica para prover funções conhecimento avançado em estatística e habilidades em
de densidade de probabilidade para o conjunto de programação, muitas vezes incomuns entre as
estimadores amostrais. Mesmo que as aproximações habilidades dos pesquisadores em nossa área.
assintóticas não presumam a normalidade dos dados, O uso da inferência clássica por máxima
podem não se manter plausíveis em modelos não verossimilhança na construção de escalas é adequado
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 21 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
Quadro 4 - Comparação entre a estimação clássica e a Bayesiana em Análise Fatorial e em Modelagem por Equações
Estruturais.
7.3 Modelagem por mínimos quadrados parciais em modelos padronizados) estimadas pelo modelo com
(partial least squares - PLS) aquelas de fato observadas nos dados coletados e
procedem a testes de quiquadrado para avaliar as
O uso de Análise Fatorial Confirmatória e de diferenças. O ajuste geral do modelo é acessado nesses
Modelagem por Equações Estruturais em Marketing, casos por indicadores baseados na estatística de
conforme já mencionamos, tem sido mais comum por quiquadrado e em testes que verificam a significância
meio da estimação por máxima verossimilhança. Uma dos erros oriundos da diferença entre o que é observado
alternativa que tem se mostrado viável e ganho espaço e o que é estimado. Já nos modelos baseados em
em pesquisas empíricas na área, com forte influência do variância, não existem estatísticas globais de ajuste,
campo dos Sistemas de Informação, é o uso dos sendo o modelo avaliado pela significância das relações
modelos por mínimos quadrados parciais, em inglês propostas entre variáveis (também disponíveis nos
partial least squares, conhecidos como PLS. Embora modelos estimados com base em covariância) e pelo
os modelos baseados em covariância (como os total de variabilidade das variáveis de interesse que o
estimados por máxima verossimilhança, por exemplo) modelo consegue explicar (R2).
sejam mais conhecidos pelos pesquisadores em nossa Por não depender de uma estrutura de
área, os modelos PLS também são modelos de equações covariância para ajustar um modelo, o método PLS tem
estruturais, porém baseados em variância. sido empregado em pesquisas que utilizam indicadores
A diferença fundamental entre os modelos formativos, dado que não exige que haja correlação
baseados em covariância e aqueles baseados em entre os indicadores usados para medir um mesmo
variância é que os primeiros obtêm índices de ajuste construto. Esta tem sido considerada uma boa razão
globais ao comparar as covariâncias (ou correlações, para o uso do método por diversos pesquisadores que
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 22 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
se propõem a fazer estudos com indicadores recomendáveis para a validação nomológica com
formativos, mas também tem sido o alvo das discussões medidas de diversas naturezas (formativas ou
sobre suas falhas (ver Diamantopoulos, 2011). refletivas) por contarem com indicadores globais de
Justamente por não contar com indicadores de ajuste ajuste, terão maior dificuldade para convergir e
globais, os modelos PLS estão limitados a verificar se exigirão maior complexidade para serem ajustados
as relações propostas fazem sentido individualmente, (Diamantopoulos, 2011). Um problema adicional dos
mas não permitem verificar se o modelo como um todo modelos PLS é o fato de não permitirem a estimação de
é plausível. Por essa razão, a literatura costuma indicar erros para os indicadores formativos, ao passo em que
o uso de PLS em modelos exploratórios, em que há nos modelos baseados em variância os erros dos
pouca teoria desenvolvida (ver Hair, Ringle & Sarstedt, indicadores formativos estão presentes; entendemos
2011; Henseler, Ringle & Sinkovics, 2009; não ser razoável não estimar erros de medida.
Marcoulides & Saunders, 2006; e Ringle, Sarstedt & Outras indicações para o uso de PLS
Straub, 2012). No entanto, é discutível a adequação encontradas na literatura são as situações em que não
dessa situação em procedimentos de validação temos amostras grandes, já que menos parâmetros são
nomológica, em que justamente a relação teórica entre estimados em comparação aos modelos baseados em
construtos e variáveis deve estar bem amadurecida para covariância, e assim economizamos graus de liberdade
o pesquisador, sendo esse em geral o caso para que se (embora saibamos que, em qualquer estimação
usem equações estruturais. frequentista, os intervalos de confiança serão maiores
É necessário informar que os modelos para amostras pequenas, ou seja, menos precisos).
baseados em covariância (à exceção dos modelos de Ademais, os modelos baseados em variância também
análise fatorial, sendo que a análise fatorial não exigem a normalidade da distribuição dos dados
confirmatória é um caso específico de modelagem por coletados. O uso de PLS tem sido facilitado e crescido
equações estruturais) não são necessariamente modelos pela disponibilidade de ferramentas com interface
exclusivos para indicadores refletivos. No entanto, em amigável, como SmartPLS e PLS-Graph.
termos práticos, acabam sendo, pois por se basearem na O Quadro 5 sintetiza os fundamentos da
covariância dos itens usados para medir um mesmo Modelagem por Equações Estruturais baseada em
construto, costumam não serem 'identificados' (isto é, covariância (em particular a estimação por máxima
não convergir para um ajuste) quando não se estipula verossimilhança) e baseada em variância (em particular
essa covariância ou quando ela não é suficiente grande a estimação por mínimos quadrados parciais - PLS),
para que o modelo 'rode'. Por essa razão, mesmo que os com vantagens e desvantagens e aplicações mais
modelos baseados em covariância sejam mais apropriadas para cada caso.
que reflitam criticamente acerca de suas escolhas fronteira e buscando expandir nossas análises sobre o
metodológicas, em particular as que envolvem tema. O conteúdo exposto também mostra o quanto
mensuração. ainda temos a avançar, e os desafios são bastante
Com efeito, de pouco ou nada vale o emprego motivadores. Nossa demanda agora é seguir adiante nos
de modelagens estatísticas sofisticadas se o banco de estudos e nas aplicações para aperfeiçoar ainda mais o
dados a partir do qual essas análises serão feitas contém conhecimento que produzimos em Marketing.
números que não refletem adequadamente os
fenômenos que devem representar. Com este
pensamento em mente, desenvolvemos neste artigo REFERÊNCIAS
uma revisão ampla, da evolução histórica, do estado
atual e das tendências futuras do problema da American Psychological Association. (1985).
mensuração dos construtos em Marketing. Standards for educational and psychological tests.
Em nossa visão, o desenvolvimento Washington, DC: Author.
acadêmico e profissional de Marketing é uma variável
dependente do desenvolvimento de pesquisas para Andrade, D. F., Tavares, H. R., & Valle, R. C (2000).
aperfeiçoar conhecimentos em nosso campo. Mas a Teoria da resposta ao item: conceitos e aplicações.
pesquisa em Marketing, por sua vez, é dependente do 14º Simpósio Nacional de Probabilidade e
nível de desenvolvimento metodológico, que passa Estatística – SINAPE. São Paulo: Associação
pelas questões de mensuração, de design e de análise de Brasileira de Estatística.
dados. Sem dúvidas, não há desenvolvimento de
pesquisas sólidas em Marketing sem uma concentração Aranha, F., & Zambaldi, F. (2008). Análise fatorial em
cuidadosa com a mensuração que se faz das variáveis e administração. Sao Paulo: Cengage Learning.
construtos teóricos. Em linha com a percepção de Lee
e Hooley (2005), recomendamos que pesquisadores em Bagozzi, R. P., & Edwards, J. R. (1998). A general
Marketing dediquem o tempo necessário para que seus approach for representing constructs in
modelos de mensuração sejam percebidos como organizational research. Organizational Research
sólidos; apenas posteriormente faz sentido elaborar Methods, 1(1), 45-87.
modelos avançados para testar hipóteses entre
construtos. Barboza, S. I. S., Carvalho, D. L. T., Soares Neto, J. B.
Nosso artigo fez uma incursão ampla sobre o & Costa, F. J. (2013). Variações de Mensuração
assunto. Embora tenhamos na restrição do espaço o pela Escala de Verificação: uma análise com escalas
impedimento de sermos exaustivos, cuidamos de não de 5, 7 e 11 pontos. Teoria e Prática em
deixar de fora qualquer dos temas centrais sobre o Administração, 3(2), 99-120.
assunto, o que nos faz acreditar que, do ponto de vista
acadêmico, nossa pesquisa alcança utilidade a Belk, R. W. (1985). Materialism: trait aspects of living
pesquisadores, iniciantes ou veteranos, quando estes in the material world. Journal of Consumer
procurarem uma atualização e uma visão global sobre Research, 12(3), 265-280.
o assunto.
Além disto, entendemos que este artigo traz Buchbinder, F., Goldszmidt, R., & Parente, R. (2012).
uma contribuição potencial para o campo da educação Item Response Theory and Construct Measurement
em Marketing, especialmente para a área de Pesquisa in Emerging Markets. Research Methodology in
de Marketing ministrada em cursos de graduação ou Strategy and Management, 7, 73-100.
para disciplinas de conteúdo metodológico de cursos de
pós-graduação. O artigo pode ser utilizado, portanto, Bussab, W. O., & Morettin, P. (2007). Estatística
como componente de uma disciplina mais geral, assim Básica. São Paulo: Saraiva.
como um texto introdutório de uma disciplina mais
específica sobre mensuração (já temos acumulado Byrne, B. (2001). Structural Equation Modeling with
experiências de disciplinas dessa natureza na pós- Amos: Basic Concepts. Applications. and
graduação brasileira, como por exemplo na Programming. Mahwha, New Jersey: Lawrence
EAESP/FGV (São Paulo) e na ESPM (São Paulo), na Erlbaum.
FUMEC (Minas Gerais) e na UFPB (Paraíba).
A exposição feita não deixa dúvidas de que já Church, A. (2010). Measurement issues in cross-
avançamos muito em termos teóricos, inclusive com cultural research. In G. Walford, E. Tucker, & M.
uma crescente contribuição de pesquisadores de Viswanathan (Eds.), The Sage Handbook of
Marketing para o tema mensuração (diferentemente do Measurement (pp. 151-176). London, UK: Sage
que já ocorreu no passado, quando o campo de Publications.
Marketing dependia dos desenvolvimentos oriundos
dos campos de Psicologia e Educação). Colocamos Churchill, G. A. (1979). A paradigm for developing
como desafio para pesquisadores brasileiros seguirmos better measures of marketing constructs. Journal of
nos apropriando do assunto, evoluindo nos avanços de Marketing Research (JMR), 16(1).
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 24 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
Devellis, R. F. (1991). Scale development: theory and Hodge, D. R. & Gillespie, D. F. (2007). Phrase
applications. Newbury Park, CA: SAGE completion scales: a better measurement approach
Publications. than Likert scales? Journal of Social Service
Research, 33(4), 1-12.
Diamantopoulos, A. (2011). Incorporating formative
measures into covariance-based structural equation Jarvis, C. B., Mackenzie, S. B., & Podsakoff, P. M.
models. Mis Quarterly, 35(2), 335-358. (2003). A critical review of construct indicators and
measurement model misspecification in marketing
Diamantopoulos, A. & Winklhofer, H. M. (2001) Index and consumer research. Journal of Consumer
construction with formative indicators: an Research, 30(2), 199-218.
alternative to scale development. Journal of
Marketing Research, 38(2), 269–277. Kamakura, W. A., & Mazzon, J. A. (2013).
Socioeconomic status and consumption in an
Edwards, J. R. (2011). The fallacy of formative emerging economy. International Journal of
measurement. Organizational Research Methods, Research in Marketing, 30(1), 4-18.
14(2), 370-388.
Kloke, J. D., & Mckean, J. W. (2012). Rfit : Rank-
Faraway, J. J. (2006). Extending linear models with R. based estimation for linear models. The R Journal,
Boca Raton, FL: Chapman & Hall/CRC. 4(2), 57–64.
Fornell, C., & Larcker, D. F. (1981). Structural Lee, C. E. (1965). Measurement and the development
equation models with unobservable variables and of science and marketing. Journal of Marketing
measurement error: Algebra and statistics. Journal Research, 2(1), 20-25.
of marketing research, 18(8), 382-388.
Lee, N., & Hooley, G. (2005). The evolution of
Gamerman, D., & Lopes, H. (2006). Markov chain “classical mythology” within marketing measure
Monte Carlo: stochastic simulation for Bayesian development. European Journal of Marketing,
inference. Boca Raton, FL: Chapman & Hall/CRC. 39(3), 365-385.
Gerbing, D. W., & Anderson, J. (1988). An Updated Likert, R. (1932). A technique for the measurement of
Paradigm for Scale Development Incorporating attitudes. Archives in Psychology, 140, 1-55.
Unidimensionality and Its Assessment. Journal of
Marketing Research, 25, 186-192. Lucian, R. (2012). Mensuração de atitudes: a
proposição de um protocolo para elaboração de
Gonçalves, H. M. M. (2013). Multi-group invariance in escalas. Tese (Doutorando em Administração).
a third-order factorial model: attribute satisfaction Programa de Pós-Graduação em Administração da
measurement. Journal of Business Research, 66, Universidade Federal de Pernambuco – PROPAD-
1292-1297. UFPE.
Hahn, E. D., & Doh, J. P. (2006). Using Bayesian Marcoulides, G. A., & Saunders, C. (2006). Editor's
methods in strategy research: an extension of comments: PLS: a silver bullet?. MIS
quarterly, 30(2), iii-ix.
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 25 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
Mari, L. (2005). The problem of foundations of Rossi, P., Allenby, G., & McCulloch, R. (2006).
measurement. Measurement, 38(4), 259-266. Bayesian statistics and marketing. Chichester,
England: John Wiley and Sons, Ltd.
McDonald, R. P. (2000). A basis for multidimensional
item response theory. Applied Psychological Rossiter, J. R. (2002). The COARSE procedure for
Measurement, 24(2), 99–114. scale development in marketing. International
Journal of Research in Marketing, 19(4), 305-335.
Meade, A. W., & Lautenschlager, G. (2004). A
comparison of item response theory and Rossiter, J. R. (2011) Measurement for the Social
confirmatory factor analytic methodologies for Sciences: the COARSE method and why it must
establishing measurement replace psychometrics. New York: Springer.
equivalence/invariance. Organizational Research
Methods, 7(4), 361-388. Salzberger, T., & Koller, M. (2013). Towards a new
paradigm of measurement in marketing. Journal of
Milfont, T. L., & Fischer, R. (2010). Testing Business Research, 66(9), 1307-1317.
measurement invariance across groups:
Applications in cross-cultural research. Samartini, A. L. S. (2006). Modelos com variáveis
International Journal of Psychological Research, latentes aplicados à mensuração de importância de
3(1), 111-121. atributos. Doctoral thesis, Escola de Administração
de Empresas de São Paulo da Fundação Getulio
Netemeyer, R. G., Bearden, W. O., & Sharma, S. Vargas (FGV/EAESP), Sao Paulo, Brazil.
(2003). Scaling procedures: issues and applications.
Thousand Oaks: Sage. Scherbaum, C., Finlinson, S., Barden, K., & Tamanini,
K. (2006). Applications of item response theory to
Nunnaly, J. (1978). Psychometric Theory. New York: measurement issues in leadership research. The
McGraw-Hill Book Company. Leadership Quarterly, 17(4), 366–386.
Park, H. J., & Kim, S. H. (2013). A Bayesian network Sheather, S. J. (2009) A modern approach to regression
approach to examining key success factors of with R. New York: Springer.
mobile games. Journal of Business Research, 66(9),
1353-1359. Steenkamp, J. -B. E. (2005). Moving out of the US silo:
A call to arms for conducting international
Pedhazur, E., & Schmelkin, L. P. (1991). marketing research. Journal of Marketing, 69(4), 6-
Measurement, design and analysis: an integrated 8.
approach. Hillsdale: Lawrence Erlbaum Associates
Inc. Publishers, 1991. Stevens, S. S. (1946). On the theory of scales of
measurement. Science, 103(2684), 677–680.
Pereira, B. B. (1997). Estatística: a tecnologia da
ciência. Boletim da Associação Brasileira de Stewart, D. W. (1981). The application and
Estatística, ano XIII, n. 37, 2º quadrimestre, 27-35. misapplication of factor analysis in marketing
research. Journal of Marketing Research, 18(2), 51-
Raudenbush, S. W., & Bryk, A. S. (2002). Hierarchical 62.
linear models: applications and data analysis
methods. (2nd ed.). Thousand Oaks, CA: Sage Urbina, S. (2004). Essentials of psychological testing.
Publications, Inc. New Jersey: John Wiley & Sons, Inc..
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 26 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
behavior: scale development and validation. Zellner, A., & Rossi, P. E. (1984). Bayesian analysis of
Journal of Business Research, 66, 1279-1284. dichotomous quantal response models. Journal of
Econometrics, 25(3), 365-393.
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 27 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014