Desafios Do Marketing

REMark – Revista Brasileira de Marketing
e-ISSN: 2177-5184
DOI: 10.5585/remark.v13i2.2685
Data de recebimento: 08/01/2014
Data de Aceite: 17/03/2014
Editor Científico: Otávio Bandeira De Lamônica Freire
Avaliação: Double Blind Review pelo SEER/OJS
Revisão: Gramatical, normativa e de formatação
MENSURAÇÃO EM MARKETING: ESTADO ATUAL, RECOMENDAÇÕES E DESAFIOS
RESUMO
Este artigo tem por finalidade debater o tema de mensuração de construtos em Marketing, sumarizando as principais
discussões sobre o assunto. Inicialmente, discutimos a origem das preocupações e os desdobramentos na área desde os
anos de 1970. Em seguida, apresentamos os principais modelos consolidados (modelo clássico de Churchill, modelo
COARSE e modelo de mensuração formativa). Na sequência, apresentamos preocupações atuais que se somam à
teorização clássica, com algumas recomendações relevantes (especialmente sobre mensuração por múltiplos itens,
mensuração por um único item, escalas de verificação e aspectos transculturais). Ao final, apresentamos considerações
sobre tendências de mensuração em Marketing, com ênfase em Teoria da Resposta ao Item, operadores Bayesianos e
estimação por mínimos quadrados parciais. O artigo atualiza o debate sobre o tema e tem a possibilidade de contribuir
para estudiosos e pesquisadores de Marketing que demandem uma visão atual sobre mensuração e recomendações para
pesquisas.
Palavrachave: Mensuração; Escalas; Validação; Confiabilidade.
MEASUREMENT IN MARKETING: CURRENT SCENARIO, RECOMMENDATIONS AND

CHALLENGES
ABSTRACT
The purpose of this article is to discuss about construct measurement in Marketing by summarizing the main
considerations about the subject. First, it discusses the origins of the debates about the theme since the 1970s and
describes its main consolidated models (the classical Churchill’s model, the COARSE model and the formative
measurement model). Then it presents current concerns about the classical approach with relevant recommendations
(particularly regarding multi-item measurement, single-item measurement, rating scales and cross-cultural aspects). At
the end, it presents considerations about measurement trends in Marketing with emphasis on the Item Response Theory
(IRT), Bayesian estimators and Partial Least Squares (PLS). The article updates the debate on the theme and contributes
to Marketing experts and researchers who demand a current view about measurement and recommendations for research
development.
Keywords: Measurement in Marketing; Marketing Scales; Validity; Reliability.
Felipe Zambaldi1
Francisco José da Costa2
Mateus Canniatti Ponchio3
1
Doutor em Administração de Empresas pela Fundação Getulio Vargas - FGV. Professor da Fundação Getulio Vargas
– FGV, Brasil. E-mail: felipe.zambaldi@fgv.br
2
Doutor em Administração de Empresas pela Fundação Getulio Vargas – FGV. Professor da Universidade Federal
da Paraíba, UFPB, Brasil. E-mail: franzecosta@gmail.com
3
Doutor em Administração de Empresas pela Fundação Getulio Vargas – FGV. Professor da Escola Superior de
Propaganda e Marketing de São Paulo (ESPM-SP), Brasil. E-mail: mponchio@espm.br
_____________________________________________________________________________________
ZAMBALDI / COSTA / Brazilian Journal of Marketing - BJM
PONCHIO 1 Revista Brasileira de Marketing – ReMark
Edição Especial Vol. 13, n. 2. Maio/2014
Mensuração em Marketing: Estado Atual, Recomendações e Desafios
_______________________________________________________________________________
1 INTRODUÇÃO formativos, além dos refletivos, mais comuns na

literatura. Particularmente, buscamos munir os leitores
O processo de construção do conhecimento com conteúdo para prosseguirmos com uma discussão
científico depende, em grande parte, da capacidade dos sobre cuidados para a elaboração e uso de escalas em
pesquisadores de mensurarem adequadamente os estudos interculturais, com destaque à necessidade de
conceitos abordados em seus estudos. Diferentemente adaptações de escalas quando aplicadas em contextos
de algumas áreas da ciência em que a maior parte dos distintos, e levantamos tendências em mensuração em
conceitos trabalhados pode ser diretamente observada Marketing motivadas pelos debates atuais e suas
(tais como altura, peso e idade), nas ciências sociais em respostas frente às fragilidades dos modelos mais
geral, e em Marketing em particular, frequentemente comuns, abordando especificamente a Teoria de
nos deparamos com construtos de natureza mais Resposta ao Item, os estimadores Bayesianos e os
abstrata e que não podem ser diretamente acessados, modelos de Partial Least Squares. Concluímos por
como é o caso de satisfação, lealdade, felicidade, meio de considerações e reflexões sobre o material que
materialismo e atitude à marca. apresentamos.
Mensurar valores, crenças e atitudes depende,
em um primeiro momento, de um grande esforço de
definição conceitual e delimitação do construto (por 2 O PROBLEMA HISTÓRICO E ATUAL DA
exemplo, o que exatamente estamos querendo dizer MENSURAÇÃO DE CONSTRUTOS
quando utilizamos o termo satisfação?). Num segundo ABSTRATOS E LATENTES
momento, supondo superada a barreira da comunicação
representada pela clareza conceitual, necessitamos de Em um interessante artigo que se propôs a dar
uma estratégia de mensuração. Nosso objetivo deverá uma visão geral da Estatística, Pereira (1997) realçou
ser o de posicionar unidades de análise (produtos, que a mensuração é um dos elementos centrais do
consumidores, e empresas, por exemplo) num eixo de processo estatístico (que o autor defendeu ser a
acordo com a posse de menos ou de mais de ‘tecnologia da ciência’). Na visão de Pereira, o
determinada característica de interesse que esteja sendo processo científico convencional, que desenvolve a
mensurada, ou seja, precisamos definir um sistema de avaliação empírica para análise de proposições e
indicação de intensidade (ou quantidade) para o hipóteses, passa sucessivamente pela decisão de
construto que previamente definimos. mensuração das variáveis de interesse no campo
Vejamos um exemplo simples, relacionado à empírico, em seguida pela captação dos dados a partir
medição de inteligência. Mesmo que consigamos da escala de mensuração utilizada, e depois pela análise
chegar a uma definição consensual sobre o que é desses dados, etapa na qual são aplicadas diversas
inteligência (basta uma rápida revisão na literatura para técnicas estatísticas disponíveis.
encontrar visões complementares sobre o construto), A estrutura da pesquisa acima relatada, assim
não é possível observar rótulos nos braços das pessoas também considerada em outros autores (ver Pedhazur
contendo indicações da sua quantidade de inteligência. & Schmelkin, 1991), coloca para os pesquisadores a
Esse conceito de natureza latente (está presente no necessidade de considerarem esses procedimentos
objeto, mas não o observamos) não pode ser (mensuração, design e análise) como um roteiro de
diretamente medido e, portanto, deve ser acessado por referência para construção do conhecimento. Ao que
meio de estratégias indiretas de mensuração. nos parece, a ênfase geral da pesquisa nas ciências
Neste artigo, procuramos fazer um tour de sociais e comportamentais privilegiou historicamente a
force sobre as práticas de mensuração em Marketing, dimensão de análise, com maior atenção nas técnicas
campo tipicamente interessado em atribuir valores a de análise estatística.
conceitos não observáveis diretamente para posterior Internacionalmente, a consideração da
operacionalização estatística dos dados gerados para mensuração como parte central do processo de pesquisa
análise de hipóteses envolvendo os construtos. Para quantitativa em Marketing alcançou um status
tanto, inicialmente posicionamos o problema da diferenciado a partir dos anos 1960. Já no Brasil, essa
mensuração de construtos abstratos e latentes sob os tendência parece ter se consolidado mais recentemente,
pontos de vista histórico e atual, apresentando as a partir dos anos 2000, como natural evolução da
abordagens conhecidas como clássicas e os avanços pesquisa de orientação mais acadêmica que as escolas
mais recentes, de forma a introduzir o debate de Administração adotaram desde então. A análise de
contemporâneo sobre o tema. Em seguida, provemos a mensuração é atualmente requerida na maior parte dos
descrição de procedimentos e recomendações na relatos de pesquisa apresentados nas formas de
construção de escalas, com destaque para a aferição de dissertações, teses e artigos.
validade e confiabilidade dos instrumentos e depois Na verdade, o campo da pesquisa em
para lidar com escalas de verificação (coerência entre Marketing absorveu uma preocupação há anos
escala e conteúdo; número de pontos; estratégia de recorrente nos campos de Educação e Psicologia,
agregação; e uso de técnicas estatísticas), preocupando- contextos em que a mensuração é objeto de estudo e
nos em fornecer alternativas para o uso de indicadores aprofundamento teórico e operacional há mais de um
_____________________________________________________________________________________
Brazilian Journal of Marketing - BJM
ZAMBALDI / COSTA / 2 Revista Brasileira de Marketing – ReMark
PONCHIO Edição Especial – Vol. 13, n. 2. Maio/2014
_______________________________________________________________________________
século. A razão desta aproximação é simples: referência, podemos afirmar que, em Marketing, o
trabalhamos em Marketing com construtos abstratos primeiro grande passo para a definição de uma
(como satisfação, identidade, apego, lealdade...) para os prioridade da questão de mensuração vem do artigo de
quais pressupomos uma intensidade mensurável, mas Gilbert Churchill, publicado em 1979 no prestigiado
para os quais não temos ainda instrumentos de acesso Journal of Marketing Research, e que trouxe uma
direto dessa intensidade. O mesmo ocorre na suposição crítica bem fundamentada das práticas então vigentes
de existência de uma intensidade mensurável em na área, que, segundo o autor, eram extremamente
estresse (em Psicologia) ou conhecimento e frágeis. O alerta da época era simples, mas até hoje
aprendizado (em Educação), por exemplo; em todos os atual: não é possível acreditar no valor de uma
dados, não temos um instrumento que alcance operacionalização de números (ou seja, nas técnicas de
diretamente estes construtos. Ou seja, pesquisamos em análise) se não sabemos ao certo o que está por detrás
Marketing construtos latentes, que requerem uma desses números (ou seja, nas decisões de mensuração e
estratégia de medição própria e diferenciada daquelas de design para a sua captação).
utilizadas, por exemplo, na área de Finanças para medir Churchill resgatou toda a construção anterior
lucro, ou na área de Produção para medir defeitos de que já se fazia dentro da academia de Marketing4,
qualidade. Psicologia e Educação, e propôs um passo a passo a ser
Absorvemos em Marketing a maior parte do usado por pesquisadores na construção de métricas. Seu
conteúdo substantivo da teoria da mensuração da modelo vem sendo recorrentemente citado e utilizado
Psicologia e da Educação, para viabilizar, mais em pesquisas em Marketing (na ocasião de
recentemente, uma contribuição mais própria do nosso. desenvolvimento deste artigo havia mais de 9600
Para construir um referencial de base do que atualmente citações no Google Acadêmico), mas não esteve isento
já temos consolidado em Marketing, expomos de limitações e críticas.
rapidamente algumas informações sobre o tema nestes Na realidade, o modelo de Churchill está
dois campos. orientado a desenvolver medidas segundo alguns
Em Psicologia, o problema da mensuração pressupostos que, se não são considerados válidos,
vem desde quando profissionais da área optaram por podem ser motivo de proposição de outros modelos de
desenvolver testes (métricas) para avaliação de seus construção de métricas. As críticas centrais vieram do
construtos e variáveis. O campo da testagem seguinte: sob o pressuposto de mensuração segundo a
psicológica (ver Urbina, 2004) e a disciplina de dita ‘teoria da amostra de domínio’, são utilizados
Psicometria buscam desenvolver testes e métodos sempre múltiplos indicadores para medir um construto,
desde o final do século XIX, na tentativa de medir, por e a análise de validação pode ser feita por meio de
exemplo, valores pessoais, tendências profissionais ou técnicas como análise fatorial (para identificação ou
predisposição a determinados comportamentos, por reafirmação da existência de um fator subjacente – o
meio de instrumentos de lápis e papel (ou equivalentes, construto latente – explicando a variação dos itens), e
como os atuais instrumentos digitalizados e aplicados do coeficiente alfa de Cronbach (para atestar a
via internet). Neste campo encontra-se um dos consistência interna do conjunto de itens). Pela negação
principais periódicos acadêmicos de mensuração, que é deste pressuposto (ou de sua aplicação generalizada),
a revista Psycometrika, fundada em 1936 e já vieram os desenvolvimentos de mensuração por um
acumulando diversas contribuições teóricas que único item e com análise qualitativa da validade
transbordam o próprio campo da Psicologia. (principalmente defendido por John Rossiter em seu
Já em Educação, o problema da mensuração modelo COARSE), ou a mensuração formativa, em que
alcança a grande maioria das pessoas escolarizadas, não se supõe um fator subjacente explicando a variação
uma vez que as conhecidas provas escolares são na de um conjunto de indicadores, mas supondo,
verdade instrumentos de medição de aprendizagem que inversamente, que é a variação dos itens que implica a
os professores aplicam durantes suas disciplinas. Nesse variação do construto formado (há diversos defensores
campo, a mensuração é relatada como parte central da dessa controversa tese, merecendo destaque o texto de
área especializada de Avaliação educacional, que inclui Diamantopoulos & Winklhofer (2001).
tanto a avaliação de aprendizagem de conhecimentos Pela análise de pesquisas e publicações
transferidos por docentes, quanto a avaliação de recentes, podemos afirmar que o cenário atual focaliza
competências (como nos concursos públicos) e a o debate destas três perspectivas: modelo clássico (com
avaliação de programas e instituições (como as inspiração no modelo de Churchill, 1979); mensuração
avaliações institucionais e as avaliações de cursos e formativa; e mensuração isenta de maiores elaborações
programas de pós-graduação). Foi no campo da quantitativas e com maior foco na validação qualitativa.
Educação que se desenvolveram mais recentemente os Outros desenvolvimentos parecem ser a pauta de
principais estudos de Teoria da Resposta ao Item (TRI), pesquisa e aplicação futura, com a expansão do uso da
comentada posteriormente. Teoria da Resposta ao Item, de ampla utilização no
Embora não seja seguro fixar uma data de campo da avaliação educacional, e chegando aos
4 Já em 1965, Charles Lee debatia a questão da mensuração

no contexto mais amplo da pesquisa quantitativa e suas
dificuldades e especificidades; cf. Lee (1965).
_____________________________________________________________________________________
_______________________________________________________________________________
poucos no universo de Marketing (ver Andrade, respondentes-chave, realizadas por meio de grupos de
Tavares & Valle, 2000; Lucian, 2012). foco, por exemplo. Em posse do primeiro conjunto de
itens, faz-se uma coleta de dados para um pré-teste.
Com seus resultados, procede-se à etapa de purificação
3 O PROBLEMA DA CONSTRUÇÃO DE do instrumento com o intuito de verificar quais itens
ESCALAS: ALTERNATIVAS CLÁSSICAS E devem permanecer e quais itens devem ser excluídos
AVANÇOS ou adaptados. As ferramentas propostas por Churchill
para essa etapa são o cálculo do coeficiente alfa de
Para ilustrar particularidades na construção do Cronbach como medida de confiabilidade e também a
conhecimento em variados campos científicos, Mari análise fatorial exploratória, que pode indicar
(2005) comparou o emprego de axiomas na ciência confiabilidade quando as cargas fatoriais dos itens que
formal (citando como exemplo a geometria euclidiana medem o construto forem altas, além de auxiliar o
na qual os elementos de construção da teoria estão pesquisador a compreender as diferentes dimensões
alicerçados em axiomas) à dependência da mensuração presentes no instrumento que está desenvolvendo (se
de fenômenos da ciência empírica. O autor argumenta houver mais do que uma). A purificação também pode
que, nas ciências empíricas, coexistem entre os ser feita por meio da análise fatorial confirmatória (que
cientistas diferentes entendimentos epistemológicos em Churchill prefere, por presumir que as etapas anteriores
relação à mensuração ou mesmo à possibilidade de se realizam de forma rigorosa e permitem a formulação
atribuição de um número a um fenômeno. prévia sobre a dimensionalidade do instrumento de
medida).
3.1 O modelo clássico de Churchill A etapa de purificação pode levar os
pesquisadores de volta ao passo da geração do conjunto
Particularmente nos estudos em Marketing, de itens e a alterações no primeiro conjunto proposto.
predomina, desde 1979, a proposta realizada por Com um novo conjunto de itens em mãos, procede-se a
Gilbert Churchill e seus desdobramentos, compondo o uma nova coleta de dados e a uma nova depuração, o
que conhecemos como abordagem clássica da que pode se repetir até que o pesquisador considere ter
mensuração em Marketing. Conforme indicado acima, uma medida confiável e que bem represente as
os procedimentos propostos por Churchill foram eventuais dimensões do construto. Esse processo, no
motivados por sua percepção de que os esforços de entanto, pode ser muito custoso e representar algum
mensuração no campo tendiam a ser carentes em desperdício das unidades amostrais, já que muitas
termos de rigor. Nesse contexto, o autor apresentou coletas de dados não são definitivas. Após o
definições para validade e confiabilidade, seguramente pesquisador obter uma purificação satisfatória, segue
as duas mais fundamentais no processo de validação de nova coleta de dados, essa definitiva, sobre a qual se
instrumentos de medidas. As definições fornecidas de verifica a confiabilidade novamente por meio do
Churchill para validade e confiabilidade ainda são coeficiente alfa ou, alternativamente, por meio da
adotadas pela maior parte dos pesquisadores em divisão do instrumento em dois conjuntos de itens
Marketing. diferentes e da apuração do grau de associação entre
O autor define como validade a capacidade de eles, ou ainda da confiabilidade teste-reteste, que
uma medida capturar em seus escores o fenômeno sob consiste em aplicar o instrumento ao mesmo grupo de
análise sem ruídos, e como confiabilidade a respondentes em dois momentos distintos e comparar
propriedade de medidas de um mesmo construto serem seus resultados. Churchill considera preferível, no
concordantes entre si. Ou seja, a validade concerne a entanto, o uso do alfa de Cronbach.
assegurar que a escala mede o que interessa medir, e a A coleta definitiva também se presta ao teste
confiabilidade concerne a desenvolver esta medida com de validade de construto. Para aferir validade
o mínimo de erros (que são esperados no processo convergente e validade discriminante, a recomendação
científico, mas que precisam ser minimizados). de Churchill é o uso da Matriz Multitraço Multimétodo,
A proposta de Churchill para validação de que consiste em verificar associações entre traços
medidas consiste em passos sequenciais, alguns dos (construtos) obtidos por diferentes métodos, ou seja,
quais podem ser realizados mais de uma vez ao longo com aplicação da mensuração por diferentes
do mesmo processo. O primeiro passo se refere a instrumentos, diferentes formas e momentos de coleta,
especificar o domínio teórico do construto, ou defini-lo e até diferentes amostras. A matriz formada por estes
teoricamente, e deve ser realizado com base em revisão procedimentos torna-se um instrumento que provê
de literatura. Em seguida, o autor propõe a geração de comparações entre: 1) a variação comum contida dentro
um conjunto de itens (questões) que constituirão a de uma escala com diversos itens para um mesmo
primeira versão do instrumento de medida. Essa etapa construto, coletados pelo mesmo método; 2) a
é dependente da anterior (especificação do domínio de associação entre as medidas de um mesmo construto
construto) e se realiza com base na revisão da literatura, obtidas por diferentes métodos; 3) a associação entre
na consulta a estudos empíricos já publicados, na diferentes construtos obtidas por um método comum; e
criação de exemplos e incidentes relevantes ao domínio 4) a associação entre diferentes construtos obtidos por
conceitual e em pesquisas qualitativas com métodos distintos. O sentido de fazer essas
_____________________________________________________________________________________
_______________________________________________________________________________
comparações é que, quando há uma alta variação confiabilidade e da análise fatorial como técnica para
comum entre os itens de um mesmo construto, há verificação de validade. Ademais, os procedimentos se
validade convergente, ou seja, eles convergem para prestam ao desenvolvimento de escalas de múltiplos
uma medida comum. Essa variação comum deve ser itens, sob o pressuposto de que estes variam por conta
maior do que as associações dessas medidas com da variação do construto latente (ou seja, têm relação
diferentes construtos obtidos por diferentes métodos e refletiva com o construto). Diante de tais críticas, John
maior do que as associações entre diferentes construtos Rossiter desenvolveu uma proposta alternativa em
obtidos por meio de um mesmo método. 2002, o modelo COARSE, privilegiando os
Além disso, é esperado que a associação entre procedimentos qualitativos na validação dos
um mesmo traço (construto) coletado por diferentes instrumentos de medida.
métodos deve ser maior do que a associação entre A sigla COARSE refere-se a seis passos que o
traços distintos, sejam eles coletados pelo mesmo pesquisador deve seguir de acordo com o modelo:
método ou não. Quando essas condições são satisfeitas, Construct definition; Object classification; Attribute
obtemos evidências de haver validade discriminante, classification; Rater Identification; Scale formation; e
ou seja, de fato temos medidas diferentes para Enumeration. Em português, temos: Definição do
construtos distintos. É comum usarmos o coeficiente de construto; Classificação do objeto; Classificação do
correlação de Pearson para medir as associações atributo; Identificação do avaliador; Formação da
propostas. A variação comum entre os itens do escala; e Enumeração. O modelo está bem detalhado
construto costuma ser obtida por meio da análise em Rossiter (2011), e apresentamos a seguir esses
fatorial (embora essas sejam medidas de associação passos que, no mínimo, são referência de
linear, seu uso apresenta resultados satisfatórios, em aprimoramento para eventuais limitações do modelo
geral). clássico de Churchill.
Churchill também propõe que se verifique a O primeiro passo, o de definição do construto,
validade de critério para garantir a validade de consiste em escrever uma definição em termos de
construto. De maneira breve (vamos nos aprofundar objeto, atributo e entidade avaliadora. O objeto é o foco
nesse assunto adiante), a validade de critério se observa da medida como, por exemplo, uma propaganda. O
quando verificamos uma associação esperada, atributo é o que será medido no objeto como, por
preferencialmente significante, entre a medida para o exemplo, as reações afetivas à propaganda; e a entidade
construto que estamos validando e outras medidas (em avaliadora é quem fará a avaliação do objeto e do
geral de operacionalização mais consolidada) às quais atributo como, por exemplo, um grupo de
devem se associar do ponto de vista teórico. Se a consumidores-alvo.
validade de construto (em seus diversos subtipos) não Partimos então para o segundo passo, a
for alcançada, a proposta de Churchill é recomeçar o classificação do objeto, que conta com entrevistas
processo do início, desde a especificação de domínio do abertas com respondentes-chave. O objeto pode ser
construto. classificado como concreto simples, abstrato coletivo
Quando, finalmente, obtemos uma indicação ou abstrato formado. Um objeto concreto é aquele que
segura da validade de construto, Churchill propõe que qualquer respondente conhece o significado e o
a medida seja apresentada por meio de estatística reconhece, como, por exemplo, o conceito de controle
descritiva da sua distribuição na amostra. Os de qualidade de serviços. Objetos abstratos coletivos
procedimentos propostos por Churchill e alguns são heterogêneos aos olhos dos respondentes-chave,
desdobramentos sugeridos em trabalhos posteriores mas compõem uma categoria clara aos olhos do
têm sido amplamente adotados pelos pesquisadores da pesquisador, como por exemplo, bebidas com gás
área de Marketing (por exemplo, Netemeyer, Bearden (como refrigerantes, águas gaseificadas com sabor, ou
& Sharma, 2003; Costa, 2011). água com gás). Os objetos abstratos formados são
No entanto, sua aplicação rigorosa é muitas aqueles cuja interpretação variam perceptivelmente
vezes inviável por conta da necessidade de várias entre pessoas e são vistos como portadores de
coletas de dados, o que pode esbarrar em limitações de diferentes componentes como, por exemplo, pode ser o
tempo e em limitações orçamentárias, e também na conceito de capitalismo. Se o objeto for classificado
dificuldade de se coletarem dados por métodos como concreto, um único item basta para medi-lo. Para
distintos, o que inibe o uso da Matriz Multitraço os objetos abstratos, múltiplos itens são necessários.
Multimétodo. Nessa etapa, começamos a escrever os itens do
instrumento de medidas, para que reflitam o objeto.
3.2 Uma alternativa ao modelo clássico: o modelo O terceiro passo é a classificação de atributos,
COARSE também com base em entrevistas abertas com
respondentes-chave. Os atributos se classificam como
A proposta de Churchill recebeu muitas concretos, formados ou suscitados (eliciting). Os
críticas daqueles que a consideram muito enfática em concretos são aqueles cuja interpretação é praticamente
termos de ajustes estatísticos frente às etapas unânime entre respondentes, como o conceito de
qualitativas da validação, além de ser dependente dos intenção de compra, por exemplo. Os formados são
pressupostos do coeficiente alfa como medida de abstratos e o que os caracteriza é a soma de uma série
_____________________________________________________________________________________
_______________________________________________________________________________
de componentes que, se somados em alguma confiabilidade e, posteriormente, de modelos de

combinação, os formam (e são por isso chamados de equações estruturais), a operacionalização desses
formativos); um exemplo pode ser o conceito de elementos é ainda um desafio por conta de limitações
liderança. Os suscitados, por sua vez, também são relativas ao repertório metodológico dos pesquisadores
abstratos, mas são traços internos dos respondentes que em marketing, aos recursos computacionais disponíveis
podem causar as respostas aos itens do instrumento de e às propriedades das técnicas propostas.
medida (que são indicadores da manifestação do Entendemos que a força dos argumentos de
atributo, na literatura convencional chamados de Rossiter está menos no seu conjunto de passos (por
refletivos). Um exemplo pode ser o envolvimento vezes confuso), mas na orientação intensiva para a
pessoal de alguém com algo. Na classificação de validade de conteúdo, que se faz em detalhes
atributo, continuamos a escrever os itens do minuciosos, chegando até a um detalhamento dos
instrumento, usando a estratégia de item único para respondentes, e com acompanhamento continuado de
atributos concretos e de múltiplos itens para os especialistas no construto de interesse.
abstratos (formados e suscitados). Após esse passo, é
possível voltar à definição do construto e incluir nela os 3.3 Relativizando a refletividade: a mensuração
componentes de objeto e de atributo identificados nas formativa
fases de classificação.
O quarto passo é identificar a entidade Os debates atuais sobre mensuração em nossa
avaliadora, ou o grupo de pessoas que julgará os itens área permanecem diante de uma série de questões ainda
do instrumento de medida. Em outras palavras, esse em debate, todas motivadas pelo fato de que as
passo consiste em identificar detalhadamente os variáveis de interesse em Marketing costumam ser
respondentes. Para essa etapa, é importante que latentes e de mensuração indireta. Tomemos como
especialistas tenham avaliado os resultados dos passos exemplo o medo. Sabemos que existe, sabemos do que
anteriores e participado de seu aprimoramento. Nesse se trata, mas não temos como medir diretamente o
passo também definimos se será necessário estimar medo de uma pessoa; no máximo podemos observar
confiabilidade entre respondentes, e entre itens de sintomas do medo que alguém sente ou pedir que essa
atributos suscitados. pessoa manifeste de alguma forma, talvez com palavras
O quinto passo é a formação da escala. Aqui, ou testes, se sente medo, e quanto. Ou seja, podemos
combinamos os textos que contêm os componentes do observar o medo indiretamente, por meio de
objeto e os atributos para geração dos itens. indicadores que nos permitem inferir o quanto de medo
Selecionamos os tipos de escala que serão usados, há em alguém. Em grande parte dos casos, usamos
tendo como insumo as entrevistas abertas previamente múltiplos indicadores para fazer essa estimativa a
realizadas com os respondentes-chave, e realizamos um respeito do valor de um construto latente. Em outros,
pré-teste com respondentes pertencentes à população acreditamos que um único indicador pode ser
de interesse, visando a garantir que as formulações dos suficiente.
itens sejam compreensíveis. Em caso de atributos Os indicadores empregados para medir
suscitados, testamos sua unidimensionalidade. Por fim, construtos latentes costumam ser classificados em duas
se o instrumento for de múltiplos itens, embaralhamos naturezas: refletiva e formativa. Os refletivos são
a ordem de sua apresentação, mesclando as sequências aqueles que refletem a intensidade do construto quando
de componentes distintos dos atributos e do objeto, para o acessamos, e os formativos são aqueles que, quando
evitar reconhecimento por parte dos respondentes e combinados (somados de alguma maneira), formam os
assim evitar que assumam um padrão de resposta construtos. Vamos nos valer de exemplos para melhor
induzido pelo instrumento. esclarecer os dois tipos de indicadores (no primeiro
O último passo é a enumeração, que consiste exemplo ilustraremos indicadores refletivos, e no
em construir os escores da escala (estratégia de segundo exemplo, formativos).
agregação) com base em índices ou médias; Imaginemos inicialmente que nosso interesse
transformá-los em pontuações com sentido seja medir a altura de uma pessoa. Sabemos que
interpretativo, como pontuações de 0 a 10, ou de -5 a 5, podemos medir a altura de uma pessoa diretamente,
no caso de atributos bipolares; e reportar a mas, para fins didáticos, vamos assumir que queremos
confiabilidade da escala. adivinhar a altura das pessoas sem medi-la diretamente,
A proposta de Rossiter com o modelo apenas pela observação de sua manifestação em
COARSE foi bem recebida por valorizar aspectos respostas que as pessoas possam dar a duas perguntas.
qualitativos e conceituais da mensuração, além de A primeira pergunta pode se referir ao grau de
expandir o leque de métodos para além da análise dificuldade que a pessoa tem para pegar um objeto que
fatorial e do uso do alfa de Cronbach, incorporando a esteja na prateleira mais alta de um recinto. A segunda,
possibilidade de adoção de indicadores únicos e à necessidade de a pessoa esticar ou dobrar as pernas ao
formativos. No entanto, embora a proposta tenha dirigir um carro. Presume-se que uma pessoa alta deve
trazido luz ao debate ao incorporar elementos não alcançar o objeto na prateleira com maior facilidade do
considerados pela abordagem clássica (marcada pelo que pessoas baixas, e também que deve ter pernas
uso da análise confirmatória, de índices de compridas e assim as dobra para dirigir, ao passo que
_____________________________________________________________________________________
_______________________________________________________________________________
uma pessoa baixa deve ter pernas curtas e por isso 4.1 Validade e confiabilidade na mensuração
precisa esticá-las. Assim, ocorre que as respostas às refletiva de múltiplos itens
perguntas são manifestações (ou sintomas) do construto
altura, e refletem sua intensidade. Presumimos também Talvez como decorrência da ampla
que, por refletirem o mesmo construto, as respostas às repercussão do artigo de Churchill (1979), em que foi
perguntas devem ser correlacionadas entre si. Essas proposto um paradigma para mensuração de construtos
características fazem das respostas às duas perguntas latentes refletivos em Marketing, e de outros (por
indicadores refletivos da altura. exemplo, Gerbing & Anderson, 1988) que também
Vamos agora assumir que pretendemos dedicaram atenção a aspectos de mensuração e
estimar a quantidade de álcool ingerida por pessoas que apontaram falhas nos procedimentos usuais então
saíram de uma festa, mas não temos como fazer um vigentes, nas últimas décadas tem sido comum
exame de sangue nessas pessoas e nem como estimar encontrarmos, em artigos, o emprego de análises
essa taxa por meio do uso de um bafômetro. Podemos fatoriais exploratórias e confirmatórias para verificar a
perguntar a essas pessoas quantas doses beberam de estrutura dimensional de variáveis, bem como
uísque, vodca, cerveja e/ou outras bebidas alcoólicas. A estratégias para analisar validade convergente e
combinação das doses nos permite estimar a quantidade discriminante (por exemplo, por meio da Matriz
de álcool ingerida, se soubermos o teor alcoólico Multitraço Multimétodo), e a modelagem por equações
contido em cada dose. Nesse caso, a combinação das estruturais, entre outros.
doses provê uma soma que nos permite estimar o que No entanto, ainda parece haver necessidade de
não observamos diretamente. Os indicadores em chamar a atenção dos pesquisadores para a questão da
conjunto formarão a taxa de álcool que cada pessoa mensuração. Jarvis, Mackenzie e Podsakoff (2003), em
bebeu. Várias combinações independentes podem levar substancial esforço de análise do emprego de modelos
a quantidades similares de álcool ingerida; por de mensuração no campo de Marketing, apontaram que
exemplo, uma pessoa pode beber apenas vodca e ter a ainda havia confusão quanto à distinção entre
mesma quantidade de álcool no sangue de uma outra construtos de natureza formativa e refletiva entre
que bebeu uísque e cerveja. Outra pessoa pode ter artigos científicos publicados em periódicos de
ingerido muito álcool, tendo bebido apenas uísque. prestígio no campo (Journal of Marketing Research,
Assim, não é necessário que as respostas às diferentes Journal of Marketing, Journal of Consumer Research e
perguntas (quantidade de doses ingeridas de cada Marketing Science). Dos 1.192 construtos utilizados
bebida) estejam correlacionadas entre si para que em 178 artigos analisados, extraídos dos quatro
formem a medida de ingestão de álcool. São essas as periódicos citados, 1.146 (96,1%) foram modelados
características que fazem dessas perguntas indicadores como refletivos e 46 (3,9%), como formativos. No
formativos da ingestão de álcool. entanto, na visão dos autores, dos 1.146 construtos
Embora seja uma estratégia bem refletivos, 336 deveriam ter sido modelados como
fundamentada e lógica, a mensuração formativa formativos (o que representa uma taxa de erro de
encontrou dificuldades operacionais. De fato, mesmo classificação de 29,3%). Entre os 46 modelados como
havendo recomendações para avaliação estatística de formativos, os autores entenderam que 17 deveriam ter
validade e confiabilidade (ver uma síntese em Costa sido classificados como refletivos (taxa de erro de
(2011)), nenhuma delas alcançou a consistência de um classificação de 37,0%). Simulações conduzidas no
coeficiente alfa de Cronbach nem a completude e mesmo estudo apontaram para a gravidade desse erro
adequação de uma análise fatorial. Edwards (2011) de classificação, que, no limite, pode ser a origem de
chega a chamar esta estratégia de mensuração de erros nos resultados de testes de hipóteses e,
falaciosa e desaconselha completamente seu uso. naturalmente, na elaboração de considerações finais de
pesquisas.
Conforme indicado no item 3 acima, a
4 PROCEDIMENTOS E RECOMENDAÇÕES natureza do construto influencia as maneiras de avaliar
sua confiabilidade e validade. Considerando a medição
Nesse item, apresentamos os principais refletiva de múltiplos itens, comentamos nesta seção
procedimentos e provemos recomendações práticas sobre estratégias de avaliação desses aspectos. Nossa
para a desafiadora tarefa de desenvolver e validar impressão ao apreciar artigos científicos na área de
escalas em marketing. Particularmente, detalhamos Marketing, particularmente os produzidos pela
práticas para aferição de validade e confiabilidade na comunidade acadêmica brasileira, é que os relatos
mensuração refletiva de múltiplos itens, práticas essas acerca dos aspectos operacionais das escalas
que configuram o mainstream na área. Em seguida, empregadas para mensurar construtos latentes
abordamos procedimentos para verificar validade e priorizam características associadas à confiabilidade, e
confiabilidade na mensuração por meio de item único. pouca atenção é dedicada aos aspectos de validade.
Talvez esta realidade esteja associada ao fato de
existirem formulações matemáticas amplamente
disseminadas em pacotes estatísticos para avaliar
confiabilidade, mas o mesmo não se pode dizer da
_____________________________________________________________________________________
_______________________________________________________________________________
facilidade de verificação da validade. É fundamental ter categorias: sistemáticos (vieses de mensuração em uma
clara a concepção de que medidas válidas são mesma direção em sucessivas rodadas de coleta de
necessariamente confiáveis, mas atingir confiabilidade dados) e não sistemáticos (aleatórios ao longo de
satisfatória não é condição suficiente para assegurar sucessivas rodadas de mensuração). Para uma revisão
validade. A seguir comentamos os dois conceitos. mais extensa sobre tipos de erros, recomendamos a
leitura de Nunnally (1978).
4.1.1 Confiabilidade Ao discorrer sobre propriedades de
estimadores (em nossa opinião, extensíveis a
Em definição da American Psychological instrumentos de mensuração), Bussab e Morettin
Association (1985, p. 19, tradução nossa), (2007) propõem uma analogia aos tiros dados por
“confiabilidade refere-se ao grau em que pontuações de quatro rifles. A Figura 1 ilustra o desempenho de cada
testes estão livres de erros de mensuração”. Pedhazur e um deles.
Schmelkin (1991) classificam esses erros em duas
Figura 1 – Exemplos de estimadores (viés e precisão)

Fonte: Bussab e Morettin (2007, p. 291)
Na figura 1.A, temos o exemplo de um linguagem estatística, E(E)=0). Como consequência, o

estimador não enviesado, porém pouco preciso (o valor esperado da pontuação observada será igual à
espalhamento dos tiros em torno do alvo é elevado); em pontuação real (em termos estatísticos, E(O)=R). Este é
1.B, temos um estimador não enviesado e preciso o princípio central da conhecida teoria clássica de
(ocorrem erros aleatórios pequenos em torno do alvo); mensuração.
em 1.C, o estimador é enviesado e pouco preciso; em Como, então, acessar a confiabilidade em
1.D, por fim, o estimador é preciso, porém enviesado. termos de precisão? Operacionalmente, buscamos
Obviamente, uma escala de mensuração desejável é indicações de que a proporção da variância em uma
aquela que retorna a pontuação mais próxima possível medida atribuível ao valor real de um construto latente
da real, e com baixa variabilidade quando utilizada sendo mensurado, seja elevada em comparação com a
repetidas vezes (ou seja, 1.B). variância atribuível a componentes de erro (DeVellis,
O tipo de erro que controlamos em análises de 1991). Alguns exemplos de abordagens são discutidos
confiabilidade é o de precisão (consistência, a seguir.
espalhamento ao redor de um alvo). Deixemos de lado, Poderíamos pensar em medir um mesmo
por um momento, o componente sistemático do erro de grupo de indivíduos duas (ou mais) vezes, em
mensuração, presente em 2.C e 2.D (este será abordado diferentes momentos; esperaríamos que os valores
adiante). Representando por R a pontuação real (a qual obtidos, por indivíduo, ficassem próximos, se não
queremos descobrir), por O a pontuação observada idênticos. Ignorando o inconveniente de precisarmos
(mensurada) e por E o componente de erro de contatar os mesmos indivíduos em dois momentos
mensuração (desvio do observado para o real), temos distintos, existem, ao menos, dois problemas com essa
na mensuração refletiva que: O = R + E. abordagem, conhecida na literatura como teste-reteste
Na situação em que nossa métrica não possui e usualmente operacionalizada por meio do cálculo do
erro sistemático, podemos dizer que, se efetuadas coeficiente de correlação linear entre os dois vetores de
repetidas rodadas de mensuração, o valor esperado (E) pontuações (Pedhazur & Schmelkin, 1991): a) o carry-
do componente de erro será zero (ou seja, em over effect (participar de um estudo pode influenciar as
_____________________________________________________________________________________
_______________________________________________________________________________
respostas do indivíduo em sua participação seguinte); e principalmente, o fato de que um valor elevado para a
b) mudanças ‘naturais’ da pontuação do indivíduo ao medida não assegura unidimensionalidade de
longo do tempo (por exemplo, podemos imaginar que construto), seu uso é justificável na avaliação da
o nível de etnocentrismo de um indivíduo aumente ou confiabilidade de uma escala, em particular em estágio
diminua ao longo de sua vida). Se, por um lado, inicial de purificação de seus itens. Interpretamos
aumentar o intervalo de tempo entre as duas baixos valores de alfa (não há consenso sobre um valor
mensurações pode contribuir com a diminuição do mínimo aceitável; recomendamos ao menos 0,60)
carry-over effect, por outro, pode agravar o problema como indicativos de baixa consistência interna e
das mudanças ‘naturais’, e vice-versa. Evidentemente, consequente necessidade de descarte de indicadores,
esses riscos aumentam quando utilizamos múltiplos elaboração de novos ou adaptação de existentes
itens para mensurar um construto, como é o caso da (enfatizamos que, quando nosso construto é de natureza
mensuração refletiva. formativa, não faz qualquer sentido esperarmos um
Em síntese, não é uma tarefa fácil segregarmos valor de alfa de Cronbach elevado, pois a correlação
confiabilidade de estabilidade temporal ao entre os itens não é pressuposta).
empregarmos a técnica de teste-reteste, e por isso não Como alternativa ao coeficiente alfa como
encorajamos seu uso para mensuração com múltiplos medida de confiabilidade, podemos empregar o índice
itens (e caso utilizada, as interpretações devem ser de confiabilidade composta proposto por Fornell e
ponderadas à luz dos argumentos apresentados), Larcker (1981). A confiabilidade composta pode ser
embora seja possível seu uso em outras estratégias de obtida por meio de Análise Fatorial e indica a
medição, conforme será apresentado posteriormente. proporção de variância do escore verdadeiro de um
Especificamente para os construtos de construto em relação à variância total do escore
múltiplos itens a literatura especializada já apontou calculado. Por não apresentar o inconveniente de se
boas soluções. De fato, já há métodos matemáticos inflar com a inclusão de itens na escala, seu uso tem se
eficientes para aferir confiabilidade a partir dos dados popularizado e o consideramos preferível ao uso do alfa
de apenas uma rodada de coleta; são exemplos o de Cronbach. No entanto, o índice de confiabilidade
coeficiente alfa de Cronbach (Cronbach, 1951), o também não é capaz de garantir a unidimensionalidade
índice de confiabilidade composta (Fornell & Larcker, de um construto. Assim como para o coeficiente alfa,
1981) e a análise fatorial exploratória (ver Aranha & também consideramos desejáveis valores superiores a
Zambaldi, 2008). Esses métodos têm como pressuposto 0,60.
a teoria da amostra de domínio, de acordo com a qual Quanto à análise fatorial exploratória,
existiriam diversos indicadores observáveis cujas deveríamos esperar cargas fatoriais elevadas (no
variações seriam provocadas por um construto de mínimo iguais a 0,40 ou 0,50; ressaltamos que não há
natureza latente comum. um valor mínimo consensual) entre os indicadores e o
Retomemos o exemplo do construto latente fator que representa a dimensão a qual deveriam
refletivo inteligência. Supondo que cheguemos a um pertencer5.
consenso sobre sua definição conceitual, podemos É possível, por exemplo, ao incluir diversos
imaginar características de indivíduos a partir das quais itens com redação semelhante em uma escala, inflar
inferir sua inteligência. Um exemplo seria o tempo seus índices de consistência interna. Isso, no entanto,
necessário para solucionar problemas. não torna mais efetivo o instrumento de mensuração,
Convencionemos que indivíduos mais inteligentes além de tomar espaço em questionários e de deixá-los
resolvem problemas mais rapidamente. Se elaborarmos mais longos sem necessidade. Nesse sentido, devem ser
um instrumento de mensuração com dez tipos desses tomados cuidados na fase de geração de itens para que
problemas e estes forem resolvidos por, digamos, 300 aspectos complementares de um mesmo construto
indivíduos, esperaremos que os tempos de resolução de sejam capturados. Recomendamos o artigo de Lee e
cada tipo de problema estejam positivamente Hooley (2005) sobre os fundamentos teóricos,
correlacionados (quanto mais dependente da variação aplicações e limitações das técnicas de coeficiente alfa
em inteligência for a variação nesses tempos, melhor e análise fatorial, e Costa (2011) sobre estágios no
para a nossa medida). desenvolvimento dos itens de uma escala.
Apesar das conhecidas limitações aplicáveis
ao coeficiente alfa de Cronbach (por exemplo, o fato de 4.1.2 Validade
que mantidos outros aspectos inalterados, quanto mais
itens semelhantes e quanto maior o número de itens em Entendemos por validade de mensuração de
uma escala, maior tende a ser seu valor, e, um construto o quanto uma proposta de medida
5 Em nossa percepção, em geral quando a análise fatorial correlacionadas. Por isso, entendemos que o procedimento de
exploratória é reportada em artigos de Marketing no âmbito rotação apropriado seria o oblíquo (para uma cobertura mais
da academia brasileira, utilizam-se procedimentos de rotação específica sobre o assunto, recomendamos a leitura de
ortogonal (que pressupõem correlação linear nula entre os Stewart (1981)). Convém ressaltar que, entre indicadores
fatores extraídos). No entanto, parece razoável supor ser formativos, não necessariamente devemos esperar as altas
comum que dimensões de um mesmo construto refletivo cargas fatoriais mencionadas.
(quando lidamos com construtos multidimensionais) estejam
_____________________________________________________________________________________
_______________________________________________________________________________
realmente afere aquilo a que está se propondo medir. A expectativas teóricas, e técnicas como a Matriz
eventual presença de erros sistemáticos (ver item Multitraço Multimétodo, a Análise Fatorial
anterior) deverá ser capturada ao empregarmos Confirmatória (AFC) e a Modelagem por Equações
procedimentos efetivos de validação. É importante Estruturais (SEM) são úteis para essas checagens.
destacar, de início, que conseguimos tão somente
acumular ‘evidências’ de que nosso instrumento de Os tipos de estratégias de análise de validade
mensuração seja válido; não é possível ter absoluta apresentados devem ser vistos como complementares.
certeza que a validade ocorra, já que isto requereria que Raramente encontramos, em artigos na área de
o construto latente objeto de mensuração pudesse ser Marketing, o uso simultâneo de todos. Para ilustrarmos
observável. como estas estratégias se aplicam, tomemos o exemplo
Nosso objetivo, ao buscar evidências de de Richins e Dawson (1992). Esses autores, ao
validade para uma escala, é proporcionar condições desenvolverem e proporem uma escala largamente
razoáveis de medição de construtos, para que então utilizada para mensurar materialismo, utilizaram
hipóteses que o envolvam possam ser testadas. estratégias de validação de critério (simultâneo). Em
Diferentemente dos métodos para verificar questionários enviados aos respondentes, além de
confiabilidade, os métodos disponíveis para avaliar a incluírem os indicadores da escala de valores materiais,
validade são dependentes da habilidade do pesquisador também apresentaram perguntas como: qual é o nível
para desenvolver estratégias mais ou menos eficientes. de renda necessário para satisfazer suas necessidades?;
Estas estratégias podem mirar três tipos de análise de qual é a importância relativa de valores tais como
validade6: segurança financeira, relacionamento agradável com
outros, e auto realização?; o que o respondente faria
a) de translação – é um tipo de validação não caso ganhasse, sem esperar, determinada quantia de
estatística e qualitativa que envolve o exame dinheiro (uso egoísta ou altruísta)?; entre outras.
sistemático do conteúdo do instrumento de Usaram, então, uma sólida fundamentação teórica para
mensuração para avaliar se seus componentes justificar comportamentos esperados de grupos de
representam adequadamente facetas do construto indivíduos mais materialistas e menos materialistas, e
(situação em que dizemos haver validade de averiguaram se a pontuação de valores materiais
conteúdo) e se há adequação de redação e forma indicada pelo instrumento de mensuração proposto
para aplicação dentre a população a que se destina servia para predizer o comportamento nas perguntas de
(situação em que dizemos haver validade de face). verificação apresentadas. Convém reforçar, neste
Em geral, este tipo de validação é conduzido por exemplo, o esforço de reflexão acerca das
especialistas (pesquisadores ou participantes); é características esperadas para grupos de indivíduos
possível também utilizar potenciais respondentes mais e menos materialistas, e de criação de protocolos
como juízes; para buscar validação.
As técnicas de análise de validade em cada
b) de critério – envolve a análise da associação uma das estratégias apresentadas são muitas e sua
prevista entre nossa medida e uma variável tomada exposição está além do escopo deste artigo. Podemos
como critério, representativa do construto. Por afirmar que os métodos clássicos de avaliação de
exemplo, as medidas de uma escala de propensão ao validade por estas estratégias estão bem documentados
comportamento doador podem ser comparadas com (cf. DeVellis, 1991; Netemeyer, Bearden & Sharma,
o comportamento doador, digamos, verificado no 2003; Costa 2011). No entanto, em anos recentes, o uso
ano subsequente. A validação de critério, nesse de técnicas estatísticas mais sofisticadas para análise de
caso, é qualificada como preditiva. É possível validade tem se intensificado. Por exemplo, Gonçalves
empregar validação de critério simultânea, por (2013) utiliza um modelo de análise fatorial
exemplo, ao mensurar materialismo entre religiosos confirmatória de terceira ordem para verificar
e entre estudantes de negócios, tal como conduzido confiabilidade e validade convergente da escala de
por Belk (1985); satisfação com atributos. Esse construto foi definido
como tendo três dimensões primárias – núcleo do
c) de construto – refere-se a quanto a serviço, aspectos periféricos da qualidade do serviço e
operacionalização de um construto o mostra valor. Por sua vez, a dimensão de aspectos periféricos
aderente ao que a teoria diz, em termos de sua da qualidade do serviço possui três subdimensões, e a
definição e propriedades. Verificam-se sua de valor, outras duas.
estrutura dimensional e seu relacionamento com Já Yi e Gong (2013) propuseram mensurar o
outros construtos. São subtipos as validades: comportamento de cocriação de valor do consumidor
convergente; discriminante; nomológica; e grupo- por meio de uma abordagem hierárquica e
conhecido. Aqui, as associações encontradas entre multidimensional. Como estratégias de validação
o construto e outros são confrontadas com as (convergente, discriminante e nomológica), os autores
6Ressaltamos que, embora o foco desse subitem (4.1) seja na medição, como será observado mais adiante. A variação de
mensuração refletiva de múltiplos itens, essas estratégias de aplicação está nas técnicas utilizadas.
análise de validade são aplicáveis a outras alternativas de
_____________________________________________________________________________________
_______________________________________________________________________________
empregam modelos de análise fatorial confirmatória abstrato. Isto gera um desafio maior para o pesquisador,
(de primeira e terceira ordens) e modelo PLS (partial tendo em vista a necessidade de consolidar em um só
least squares). enunciado toda a significação de um construto, além de
requerer uma forma de apresentação que seja coerente
4.2 Validade e confiabilidade na mensuração por com a escala de verificação a ser utilizada.
único item Como método para este desafio, dois
procedimentos precisam ser cuidadosamente
A estratégia de mensuração por múltiplos utilizados: primeiro, o item deve ser elaborado e
itens, objeto de aplicação de relevantes técnicas (como submetido à apreciação de especialistas no tema e/ou
modelagem por equações estruturais, por exemplo), pesquisadores experientes; segundo, o item deve ser
pressupõe que um construto bem delimitado tem sua exposto a futuros potenciais pesquisados, para verificar
medição a partir do levantamento das pontuações para sua compreensão da associação do conceito ao item.
dois ou mais itens. Nesta perspectiva, e conforme Estes procedimentos ajudam a garantir validade de
indicado acima, cada item mensura uma faceta do conteúdo (associação do item com a definição) e face
construto, que, pela teoria da amostra de domínio, tem (apresentação e compreensibilidade do item).
associação direta com o construto por possuir uma parte John Rossiter (2011), em seu modelo
de sua variação oriunda da variação do fator latente (a COARSE, é enfático em afirmar que a etapa qualitativa
outra parte da variação se explica por um erro de mensuração por um único item é a principal, senão
aleatório). Há, por outro lado, uma alternativa de a única, forma de garantir a validade de uma escala.
medição bastante usada nas pesquisas em Marketing, Ainda assim, entendemos que a indicação reiterada de
que consiste na mensuração de construtos por um único validade de conteúdo e face por especialistas ou
item em lugar de um conjunto deles. potenciais respondentes da escala não é suficiente, ou
O pressuposto central da teoria da amostra de ao menos não haveria perdas por sua confrontação com
domínio facilita sobremaneira a validação estatística de resultados de uma aplicação concreta da escala na
medidas de um construto ou dimensão. De fato, se mensuração do construto a que se propõe a medir.
consideramos que a validade de conteúdo e de face de
um conjunto de itens está boa (essa etapa é mais 4.2.2 Etapa quantitativa de validação e confiabilidade
qualitativa), a validade estatística é facilmente
verificada pela análise da adequação fatorial e da A análise da consistência de uma escala de um
consistência interna. Por outro lado, em uma só item se reafirma com dados oriundos de sua
averiguação por um único item não há sentido algum aplicação a partir da avaliação da aderência dos
em sua submissão a uma extração fatorial ou a extração resultados amostrais à expectativa de comportamento
de um coeficiente de consistência interna, como o alfa da variável que deu origem à amostra, da validade de
de Cronbach ou o índice de confiabilidade composta. critério, da validade de grupo conhecido e do
Isto faz com que sejam utilizadas técnicas de análise de procedimento de teste-reteste. Vejamos alguns detalhes
validade distintas. A seguir apresentamos os principais e recomendações.
procedimentos de análise de validade, considerando Sobre a aderência da escala ao esperado,
primeiro a avaliação qualitativa e depois as alternativas tomemos por pressuposto que a métrica é direcionada a
de avaliação estatística7. medir um construto cuja medida segue alguma
distribuição de probabilidade em nível populacional.
4.2.1 Etapa qualitativa de validação Por exemplo, é possível supor que o ‘nível de satisfação
de cidadãos com o governo’ segue uma distribuição
Na avaliação qualitativa, neste tipo de escala simétrica de comportamento aproximadamente normal,
os cuidados são os mesmos daqueles aplicados nas ou que o ‘nível de disposição de jovens à participação
escalas de múltiplos itens, e a meta é simples: fazer o cívica’ é assimétrica à direita, com maior concentração
enunciado do item refletir plenamente o conteúdo do em escores mais baixos de uma escala. Nesses termos,
construto, manifesto em sua definição. Além da clara se uma escala é aplicada para medir estes construtos, o
associação com a definição, ou seja, validade de comportamento dos escores da amostra deve refletir
conteúdo, e para assegurar boa validade de face, o aproximadamente o modelo de distribuição esperado.
enunciado precisa ser sucinto e compreensível, mesmo Do ponto de vista operacional, esta verificação
que a escala já seja menor em tamanho (em comparação pode ser feita de forma exploratória ou por meio de
com a mensuração por múltiplos itens). Em outras testes, porém recomendamos uma avaliação
palavras, o fato de a mensuração ser baseada em um só exploratória e bem fundamentada. Por exemplo, uma
item não implica que se utilize um item muito extenso avaliação do histograma ou de um gráfico de ramo-e-
ou com vocabulário inapropriado para a compreensão folha dos valores da amostra já pode ser suficiente para
do respondente, mesmo que o construto mensurado seja sinalizar se o formato da amostra se aproxima da
7 Levando em conta a finalidade deste artigo de servir de e dar mais recomendações, diferente do que fizemos no item
referencial de consulta a pesquisadores e considerando ainda 4.1, para o qual o desenvolvimento teórico e de aplicações é
a menor tradição de uso e de desenvolvimento na literatura de muito mais amplo.
Marketing, optamos por detalhar melhor estes procedimentos
_____________________________________________________________________________________
_______________________________________________________________________________
expectativa de distribuição pressuposta. Naturalmente, De forma semelhante à validade de critério,

nem sempre é possível supor uma distribuição para a também é possível analisar o comportamento esperado
variável de referência, o que dificulta este tipo de de uma medida em relação a grupos ou variáveis
análise. categóricas específicas, na dita validade de grupo
Também é recomendado verificar o conhecido (esta estratégia é pouco usada em
comportamento da variável em relação a algumas mensuração por múltiplos itens). Por exemplo, em uma
medidas estatísticas. Por exemplo, é quase sempre escala de um único item para medir ‘confiança nos
esperado que a escala capture a variação real de governantes municipais’ assim enunciada ‘em geral,
intensidade do construto existente no universo de confio nos governantes de minha cidade’ (com aferição
interesse da pesquisa. Assim, se em uma população em uma escala de concordância), e se sabemos que
com dispersão sabidamente moderada na intensidade pessoas com vinculação partidária com a liderança
do construto, uma escala gera um desvio padrão muito possuem avaliação mais positiva que pessoas sem
pequeno ou muito grande, então isto pode ser vinculação, então a escala será válida se conseguir
sinalização de problemas de adequação da métrica para refletir esta diferença. Isto pode ser verificado, por
capturar o comportamento esperado dos dados. exemplo, por técnicas estatísticas como análise de
Quanto à análise de validade, diferente da variância, teste t de Student, ou por meio técnicas não
mensuração por múltiplos itens, recomendamos paramétricas correspondentes (teste de Kruskal-Wallis
somente dois procedimentos em caso de mensuração ou teste de Wilcoxon-Mann-Whiteney). Assim, caso os
por um só item: a validade de critério e de grupo dados se comportem como esperado e com a indicação
conhecido. Do ponto de vista de validade de critério, o destes testes, é possível assegurar, ou não, a validade de
procedimento consiste em analisar o comportamento da grupo conhecido.
escala em sua performance de predição ou associação Por fim, e como forma de verificação de
do construto sob medição com relação a outro construto confiabilidade, escalas com um só item podem ser
com escala previamente validada (quando esta predição avaliadas por seu comportamento segundo diferentes
ou associação é esperada). Por exemplo, suponhamos momentos de aplicação no tempo, no procedimento
que estamos analisando uma escala de um único item dito de teste e reteste8. Isto ocorre mediante a aplicação
para medir o ‘nível de consciência ambiental da escala junto a um grupo de respondentes em um
declarada’, assim enunciado ‘sou uma pessoa sensível dado momento no tempo, e depois se faz uma segunda
a questões ambientais’ (para verificação em uma escala aplicação com este mesmo grupo, passado um tempo
de concordância); se sabemos que a consciência curto o suficiente para que a intensidade do construto
ambiental é preditora da ‘predisposição à compra de não varie muito, mas distante o suficiente para que os
produtos com selo de sustentabilidade’, e se já temos respondentes não se lembrem da resposta dada
uma escala validada para este construto, então podemos anteriormente. A confiabilidade é assegurada se a
facilmente verificar se nossa escala é válida ou não correlação dos dados nas duas aplicações for
aplicando as duas métricas simultaneamente, e suficientemente grande para refletir o comportamento
verificando se a associação esperada emerge, ou seja, esperado de convergência de comportamento
se há correlação significativa entre as medidas dos dois (recomendamos ao menos 0,8).
construtos, ou se uma análise de regressão consegue O quadro 1 sumariza os procedimentos
níveis adequados de ajustamento (conforme o que se indicados e nossas recomendações.
espera em termos de intensidade e direção da previsão).
AVALIAÇÃO RECOMENDAÇÃO
Validade de Exposição da escala a especialistas e potenciais respondentes e avaliação qualitativa dos

conteúdo e face resultados.
Adequação de Análise de medidas e do comportamento (distribuição) dos dados amostrais em comparação
performance com a expectativa de comportamento.
Validade de Análise de associação ou predição da escala em relação a outros construtos com escalas já
critério validadas e comparação com resultados esperados.
Validade de Análise de medidas da escala em relação a grupos de sujeitos e comparação com resultados
grupo conhecido esperados.
Confiabilidade Avaliação da associação entre as medidas geradas pela escala em dois momentos distintos
teste-reteste no tempo e comparação com a expectativa de elevada associação.
Quadro 1 - Procedimentos de validação para escalas de item único
8 Conforme indicamos acima, não recomendamos este só verificação. Este não é o caso da verificação por um único
procedimento para mensuração de múltiplos itens, devido ao item, razão pela qual o procedimento ganha utilidade.
fato de termos métodos de verificação consistentes para uma
_____________________________________________________________________________________
_______________________________________________________________________________
4.3 Complementos Relevantes: dimensionalidade, respondentes pode ser mesclar a ordem de apresentação
organização de instrumentos e variância comum ao dos itens das dimensões presentes no instrumento,
método como já mencionamos ao apresentar a proposta de
Rossiter (2002, 2011). Outra seria o uso de itens
Uma questão relevante nos debates atuais inversos (aqueles com relação conceitual negativa com
sobre mensuração em Marketing remete à o construto) entre itens com relação positiva com o
dimensionalidade de um construto. Um construto não construto (ver Wong, Rindfleisch & Burroughs, 2003;
precisa ser necessariamente unidimensional, podendo e Aranha & Zambaldi, 2008). Por exemplo, para medir
possuir diversas dimensões (subconstrutos) ou competência, podemos colocar no instrumento
atributos (na elaboração de Rossiter). Tomemos como afirmações que remetam a esse atributo, juntamente
exemplo a confiança, construto que pode ter, de acordo com um item que remeta à incompetência. A presença
com a literatura, múltiplas dimensões, como percepção de itens inversos tende a obrigar que o respondente se
de honestidade, de benevolência e de competência. concentre mais em suas respostas, por não poder adotar
Nesse caso, entendemos que para medir a confiança um padrão automático ao responder (como alta
seria necessário medir as três dimensões, ou seja, se os concordância com todos os itens, por exemplo).
respondentes percebem o objeto de análise como Evidentemente, os itens inversos devem ter seus
honesto, benevolente e competente. As três dimensões, valores invertidos para análise e cômputo de escores.
ou atributos, podem, inclusive, ser abstratas e com isso Ademais, são de difícil elaboração, pois costumam
requerem múltiplos itens para suas medidas. A análise conter negativas, o que pode confundir os
fatorial confirmatória é uma técnica útil para análise de respondentes.
dimensionalidade do instrumento (ver Aranha &
Zambaldi, 2008), mas está limitada ao ajuste de
modelos refletivos. É necessário ressaltar que o teste de 5 CONSIDERAÇÕES SOBRE ESCALAS DE
dimensionalidade de uma escala não deve se basear no VERIFICAÇÃO
coeficiente alfa de Cronbach, no índice de
confiabilidade composta, nem na análise fatorial Um importante aspecto da mensuração de
exploratória, mas em procedimentos mais robustos. construtos em Marketing é o que chamamos de “escala
Além das preocupações com os de verificação”, que está associada à referência que o
procedimentos qualitativos e quantitativos para a respondente tem para apontamento do número que
construção e validação de instrumentos de medida, indicará a medida do construto. Com efeito, quando o
enfrentamos aquelas concernentes aos seus métodos de respondente aponta a intensidade de medição de
aplicação. Neste domínio, incluímos a forma de coleta interesse, normalmente ele o faz pela indicação de um
(como por meio de entrevistas ou por número que escolhe dentre um conjunto de opções (por
autopreenchimento, por exemplo), os momentos de exemplo, 5 pontos numerados de 1 a 5 em uma escala
aplicação e as distintas amostras às quais podemos de concordância). É sempre um bom desafio para os
aplicar os instrumentos. Cada variação na aplicação é pesquisadores apontarem alternativas de números
sujeita a viés e, quando esse viés exerce grande adequadas aos diferentes propósitos de pesquisa.
influência nos dados obtidos, enfrentamos um Rossiter (2011) chega a afirmar que a validade
fenômeno indesejado, conhecido como variância de uma escala se faz pelo somatório da validade do
comum ao método, que consiste em um padrão comum conteúdo do item (o enunciado de uma afirmação para
a todas as respostas (ou à maior parte delas) por parte captação da concordância, por exemplo) com a
dos respondentes, seja por apresentarem validade da escala de verificação (ou o número de
comportamento socialmente desejável, por tentarem pontos e o sentido que eles têm para o respondente). É
adivinhar o que se quer medir e procurarem direcionar fácil concordar com o posicionamento de Rossiter, o
a medida, por tentarem parecer coerentes, ou por que faz necessária uma atenção especial sobre esta
sofrerem algum viés oriundo da forma de coleta (como decisão de medição.
falta de compreensão de um item ou algum tipo de Apresentamos aqui quais são as principais
indução por parte do entrevistador). decisões a serem tomadas e as alternativas mais
O uso de múltiplos métodos para coleta dos apropriadas para cada contexto de decisão. Em geral, as
dados de um construto visando a mitigar a variância decisões são concernentes à coerência da escala de
comum ao método é dispendioso em termos de tempo verificação com a apresentação do item; ao número de
e de outros recursos e, por essa razão, os pesquisadores, pontos da escala; à estratégia de agregação; e às
impossibilitados de empregarem ferramentas como a alternativas de operacionalização estatística.
Matriz Multitraço Multimétodo, lançam mão de
técnicas para minimizar o potencial viés decorrente do 5.1 Coerência entre escala e apresentação do
uso de um método único. Uma das formas de dificultar conteúdo
o reconhecimento do que se quer medir por parte dos
_____________________________________________________________________________________
_______________________________________________________________________________
Em relação à coerência entre a escala e o

conteúdo, a preocupação é assegurar que a escala de Por simples prática, a grande maioria das
verificação esteja coerente com o enunciado do item. métricas em Marketing utiliza escalas de mensuração
Por exemplo, se o pesquisador decide enunciar um item do tipo intervalar (aquele em que se arbitra um ponto
como afirmação, a escala de verificação tem sentido em de mínimo, ou de máximo (ver Stevens, 1946), com
ser uma escala de concordância com a afirmação, em averiguação em um número limitado de alternativas
diferentes níveis. Este é o caso mais utilizado em (por exemplo, uma escala de 7 pontos, em que o 1
mensuração em Marketing, com a utilização da dita indica a magnitude mínima e 7 a máxima). A vantagem
‘escala de Likert’, proposta por Rensis Likert (1932). O central desta decisão está relacionada à geração segura
problema recorrentemente observado é aquele em que de respostas e à facilidade para o respondente. A perda
a escala de verificação vem na forma de concordância, central vem da impossibilidade ou inadequação do uso
mas sem que o enunciado seja apresentado com a de determinadas técnicas estatísticas.
afirmação (para a qual o respondente deve indicar se Concernente a este último aspecto, sabemos
concorda ou não e em que nível). que as principais técnicas estatísticas utilizadas nas
Não há sentido, por exemplo, em pedir para pesquisas em marketing pressupõem que algumas
um usuário avaliar um serviço (por exemplo, “avalie a distribuições sejam contínuas. Este é o caso, por
qualidade do serviço de transporte público’), e na exemplo, da técnica clássica de regressão normal linear,
sequência colocar uma escala de concordância de 5 que, por ter pressupostos para o erro do modelo, requer
pontos (por exemplo, de 1 para discordância total até 5 que a variável resposta seja do tipo contínua. Da forma
para concordância total). Evidentemente, a forma de como costumamos fazer análises, a aceitação do
evitar este tipo de problema consiste tão somente em pressuposto de continuidade torna-se complicada por
analisar a coerência entre as alternativas de resposta e a operamos com uma mensuração discreta e limitada a
forma como o item está apresentado, o que se faz por um determinado número de pontos.
uma análise cuidadosa do pesquisador, além de uma Não há na verdade uma regra para definição
consulta a especialistas e potenciais usuários. de número de pontos, mas é possível afirmar que a
Ainda relativo à coerência entre escala de escala deve ter tantos pontos quantos possíveis. Na
verificação e enunciado, um aspecto pouco destacado verdade, se for possível em uma métrica dar ao
quando se desenvolvem escalas concerne à valência dos respondente a possibilidade de indicar o número,
itens. Este problema emerge especialmente quando a bastaria ao pesquisador apontar os limites da escala;
medida sob análise envolve atitudes. Pela própria isto inclusive daria à medida um senso de continuidade
conceituação, atitudes estão associadas a avaliações que viabilizaria aplicações de técnicas estatísticas sem
gerais, que, na maioria das vezes, variam de um sentido ter que fazer maiores concessões. No entanto, essa
negativo a um sentido positivo. Ou seja, a indicação de alternativa tem restrições operacionais, pois, dado que
uma medida relativa à atitude pode trazer duas a maioria das pesquisas é feita com questionários, a
informações ao mesmo tempo: primeiro, se é uma indicação de um total de pontos torna mais fácil a coleta
avaliação positiva ou negativa; segundo, qual a de respostas.
magnitude em qualquer das duas opções (ou seja, se Há, por outro lado, delimitadores a serem
negativa, quão negativa, e se positiva, quão positiva). considerados. Entendemos que o tamanho dos
Rossiter (2011) sugere que, sempre que um questionários é um primeiro delimitador do número de
construto for de avaliação, ou de forma mais pontos, sendo necessário considerar que muitos pontos
generalizada, se for ‘bipolar’, a escala de verificação tendem a ocupar mais espaço e isto pode tornar os
mais coerente é aquela em que há alternativas de questionários muito longos e comprometer as
valores negativos, nulos e positivos. Retomando o respostas. Além disto, é necessário levar em conta a
exemplo acima, uma medida de avaliação da qualidade capacidade de os respondentes emitirem uma resposta
do serviço de transporte, com item enunciado como confiável com determinados números de pontos. Este
“avalie a qualidade do serviço de transporte público’, último aspecto é especialmente relevante para os casos
as alternativas de resposta mais coerentes seriam (em em que os respondentes necessitam de denominações
uma escala de 5 pontos), -2, -1, 0, +1, +2. Isto não sobre os pontos, ou seja, da indicação de significado de
impede, por exemplo, que seja dada ao respondente a intensidade de cada ponto da escala. Por exemplo, em
opção de marcar um ponto em uma escala de 11 pontos uma escala de 5 pontos é fácil denominar os pontos
de 0 a 10 (0, 1, 2, ..., 10) ou 1 a 100 (deixando um como: 1 – discordo totalmente; 2 – discordo
espaço para o respondente indicar um número entre 0 a parcialmente; 3 - concordo/discordo moderadamente; 4
100). Entendemos que a decisão não define algo certo – concordo parcialmente; 5 – concordo totalmente. Por
ou errado, mas sim algo ‘mais adequado’ para cada outro lado, em uma escala de 11 pontos (digamos, de 1
pesquisa e cada ato de medição. a 11), torna-se bastante complicado dar expressão para
cada ponto9.
5.2 Número de pontos da escala A recomendação que damos é a seguinte: se
9A denominação de pontos é mais problemática nos casos de efetivamente não tem sentido, pois o indiferente ou neutro
números ímpares de pontos, pois há tendência de associar o simplesmente não tem respostas na escala (por exemplo, uma
ponto central à condição de indiferentes ou neutro, o que pessoa neutra na concordância com uma determinada
_____________________________________________________________________________________
_______________________________________________________________________________
houver espaço, devemos utilizar tantos pontos quanto estiver adequada, é possível manter a medida agregada
possíveis, evitando, por outro lado, dar uma na mesma escala das variáveis pela extração das médias
denominação específica para cada ponto. Uma aritméticas simples de cada respondente no conjunto de
estratégia interessante parece ser utilizar escalas de 10 itens (ou seja, extraindo as médias dos escores de cada
ou 11 pontos (de 1 a 10, ou 1 a 11, ou -5 a +5), respondente (Bagozzi & Edwards, 1998) ou, em uma
denominando somente os extremos e com uma segunda alternativa, pela extração de uma média
sinalização de significado da região intermediária (ver ponderada dos escores por respondente, utilizando
Hodge e Gillespie, 2007). Aplicações com este tipo de como fator de ponderação os escores fatoriais dos
escala têm sido apontadas como consistentes, e em boa respectivos itens. Esta segunda estratégia tem a
medida facilitam a resposta, pois na cultura brasileira vantagem de, além de manter a escala agregada nos
estamos habituados em emitir posições de 0 ou 1 a 10 limites das escalas originais, dar pesos maiores aos
(ver Barboza et al. 2013). itens mais correlacionados ao construto latente
A opção pela quantidade de tantos pontos (lembramos que o escore fatorial é uma medida de
quanto possíveis é, no entanto, controversa, e depende correlação entre a variável e o fator latente).
da capacidade de o respondente compreender o Se um construto tem mensuração por
funcionamento da escala. De acordo com nossa múltiplos itens, mas sem supor relação refletiva, a
experiência de campo, especialmente entre melhor estratégia de agregação é pela extração de uma
respondentes com baixa escolaridade, diminuir o medida ponderada por respondente. Aqui temos, por
número de opções pode ser interessante, pois deixa a outro lado, a necessidade de justificar os fatores de
indicação de resposta mais simples. Podemos usar itens ponderação; caso não haja uma boa justificativa,
de aquecimento, como por exemplo, 'Hoje está frio', ou qualquer agregação é arriscada. É possível a agregação
'Eu gosto de futebol', para verificar a compreensão de pela média aritmética simples dos escores por
como indicar concordância aos itens que serão lidos. respondente para um caso extremo de ausência total de
Isto é possível quando a aplicação é feita por um um referencial de ponderação, porém as análises das
entrevistador, presencialmente. medidas precisam sempre levar em consideração
possíveis problemas oriundos deste procedimento.
5.3 Estratégia de agregação
5.4 Operacionalização estatística
O problema da agregação existe quando
utilizamos uma escala de múltiplos itens para Fazemos aqui breves considerações sobre a
mensuração de um dado construto ou dimensão. A operacionalização estatística de dados oriundos de
demanda vem da necessidade de, eventualmente, escalas costumeiramente utilizadas. Este assunto chega
analisarmos a medida total do construto (por vezes, esta a ser polêmico a depender do pesquisador e do seu nível
medida não se faz necessária, como é o caso, por de exigência teórica. Por esta razão, nos limitamos a
exemplo, de pesquisas que testam modelos por apontar algumas avaliações e recomendações de
modelagem de equações estruturais). Quando a prática, passíveis, naturalmente, de contestação.
agregação é necessária, salientamos aqui três opções Conforme já informado, várias técnicas
para o caso de construtos com mensuração refletiva e pressupõem continuidade das variáveis para sua
uma para os demais casos. aplicação, como é o caso de parte dos modelos lineares
Se temos um conjunto de itens que medem convencionais. Por esta razão, se estamos
refletivamente um construto, e se este conjunto de itens operacionalizando dados oriundos de escalas com
está adequado em termos de estrutura fatorial e de mensuração por um número determinado de pontos, os
consistência interna, uma primeira recomendação, e a dados dificilmente têm comportamento semelhante a
mais comum de todas, consiste na utilização das uma variável contínua. Isto faz com que o uso de
estratégias de agregação da análise fatorial, que está técnicas de regressão múltipla do modelo normal linear
presente na maioria dos pacotes computacionais. Ou (e mesmo parte das técnicas de modelos lineares
seja, na extração fatorial podemos solicitar que o generalizados, regressão quantílica e outras), por
software gere uma medida geral do fator. O problema exemplo, não possa ser realizado quando a variável
desta estratégia é que, nas rotinas atualmente resposta for medida em uma escala de Likert, por
implementadas, a variável que se gera é padronizada de exemplo10.
tal modo que sua média é 0 e sua variância é 1, o que Entendemos que a alternativa mais coerente
normalmente difere das medidas das escalas de origem para superar esse tipo de embate consiste em ampliar o
dos itens (que são entre 1 e 5, ou 1 e 7, entre outras). leque de técnicas, triangulando tantas quantas
Por esta razão, se a estrutura psicométrica possíveis, e analisando convergências, similaridades,
afirmação na verdade não pontua em uma escala que mede com pressuposto de continuidade com variáveis medidas com
justamente o nível de concordância). escalas de pontos (da mesma forma como encontramos
10 Esta afirmação é controversa, pois, por vezes, se confunde diversas aplicações de técnicas paramétricas sem a total
continuidade da variável com continuidade da escala, o que, segurança quanto aos pressupostos de distribuição
efetivamente, são conceitos distintos. Por um caminho ou envolvidos).
outro, não é incomum encontrarmos aplicações de modelos
_____________________________________________________________________________________
_______________________________________________________________________________
analogias e discrepâncias, de forma a poder construir métodos paramétricos de previsão/associação para

um referencial completo sobre a realidade em estudo a dados discretos (presente nos modelos lineares
partir dos dados disponíveis (Haig, 2005). Isto se faz generalizados e de análise de dados categorizados, por
pela apropriação de técnicas complementares àquelas exemplo; ver Faraway, 2006, Sheather, 2009), além de
correntemente utilizadas (que, entendemos, podem sim técnicas não paramétricas ou semiparamétricas (ver
continuar sendo aplicadas, dando-se o devido desconto Kloke & McKean, 2012; Hao & Naiman, 2007).
na avaliação dos resultados). Ou seja, entendemos ser O quadro 2 sumariza os procedimentos
apropriado aplicar, além das técnicas convencionais, indicados nessa seção.
AVALIAÇÃO RECOMENDAÇÃO
Coerência Analisar cuidadosamente a associação entre o conteúdo do item e as alternativas numéricas

escala-conteúdo disponibilizadas aos respondentes e indicar números adequados ao sentido do item.
Número de Utilizar tantos quantos possíveis, levando em conta, por outro lado, o espaço ocupado no
pontos questionário e a facilidade de resposta para os respondentes.
Estratégia de Para múltiplos itens, se a mensuração for refletiva, confirmar a consistência psicométrica e
agregação agregar pela técnica da análise fatorial ou nos escores por respondente, seja por média
aritmética simples ou ponderada pelos escores fatoriais.
Técnica Fazer análises complementares envolvendo técnicas clássicas com outras técnicas
estatística paramétricas, além de métodos não paramétricos e semi paramétricos.
Quadro 2 - Procedimentos para escalas de verificação
6 REFLEXÕES SOBRE MENSURAÇÃO EM O viés de construto ocorre quando as

PESQUISAS INTERCULTURAIS definições de um construto sofrem sobreposição apenas
parcial entre culturas. Dizemos, nesses casos, que há
Pesquisas interculturais têm se tornado falta de equivalência conceitual. Church (2010) oferece
comuns nas ciências sociais e servem aos propósitos de como exemplo o conceito de motivação para a
testar a generalização de teorias ou prover um realização (achievement motivation), que pode ser mais
tratamento experimental ‘natural’ para estudar a socialmente orientado – enfatizando metas de grupos
influência da cultura no comportamento. sociais ou familiares – em culturas coletivistas, na
Alternativamente, podemos pensar que a pesquisa em comparação com a concepção ocidental, que enfatiza
uma única cultura pode levar a uma visão parcial da esforço individual para obtenção de metas pessoais.
realidade ou à generalização (equivocada) dos Sobre esse tema, Milfont e Fischer (2010) apresentaram
resultados de uma cultura como se fossem universais uma revisão da literatura de equivalência de
(Steenkamp, 2005). mensuração e um modelo passo a passo de verificação
É comum, na Psicologia, encontrarmos por meio do emprego de análise fatorial confirmatória.
esforços para acessar dimensões universais da O viés de método pode assumir três formas
personalidade, tais como valores, crenças e emoções; (Church, 2010): (i) viés de amostra; (ii) viés de
no entanto, é possível que sistemas culturais moldem instrumento; e (iii) viés de administração. Um exemplo
essas características individuais de maneiras distintas. de viés de amostra poderia ocorrer ao investigarmos
Como aponta Church (2010), a existência de dimensões indivíduos pertencentes a uma determinada camada
universais de diferenças individuais, que podem ser socioeconômica. Qual seria o critério de equivalência
acessadas livres de contexto e de maneiras equivalentes entre respondentes brasileiros, norte-americanos e
entre culturas, é questionada. japoneses, por exemplo? O uso de um critério de
Em particular, na comunidade acadêmica estratificação socioeconômica adequado para a
brasileira de Marketing, é frequente o emprego de realidade brasileira tal como proposto por Kamakura &
versões (com variados graus de adaptação) de escalas Mazzon (2013) (provavelmente) não é diretamente
desenvolvidas em outros países. Além da atenção aos extensível à realidade desses outros dois países. Renda
aspectos de confiabilidade e validade das medidas, ao ou poder aquisitivo seriam abordagens superiores para
aplicá-las a um contexto distinto do qual foram identificar equivalência? Críticas semelhantes podem
projetadas, e em particular quando existe intenção do ser feitas a estudos que buscam mensurar a pobreza das
pesquisador de realizar comparações interculturais, nações (existiria um critério universal de pobreza ou
outros tipos de ruídos devem ser observados. Van de este é um conceito que deve levar em consideração
Vijver e Leung (1997) os classificam em três grupos: especificidades regionais?).
viés de construto, de método e de item. O viés de instrumento refere-se à diferença na
_____________________________________________________________________________________
_______________________________________________________________________________
interpretação do instrumento de coleta de dados pelos Com a crescente globalização da ciência e das
respondentes, por exemplo, resultante da redação das sociedades, pesquisas interculturais provavelmente
questões. Wong, Rindfleisch e Burroughs (2003) continuarão a ganhar importância, assim como a
apontaram problemas com a administração de itens necessidade de endereçar com sucesso questões ainda
redigidos em ordem direta entre respondentes do leste não resolvidas de mensuração nesses contextos. De
asiático; argumentam que, em função da maior acordo com Church (2010), medidas válidas entre
inclinação para concordar com sentenças proferidas por culturas irão requerer dos pesquisadores
terceiros, itens redigidos em forma de pergunta desenvolvimentos contínuos em métodos estatísticos
poderiam ser mais adequados para capturar valores. para determinar equivalência de mensuração. Por
Reardon e Miller (2012) sugerem que pode haver exemplo, modelos lineares hierárquicos e sua
benefícios ao usar metáforas em escalas, na habilidade de simultaneamente testar hipóteses tanto no
comparação com o uso de formatos mais tradicionais, nível individual como cultural de análise
como Likert e diferencial semântico. Já o viés de provavelmente crescerão em importância.
administração refere-se à dificuldade de comunicação
entre o pesquisador e o pesquisado.
O viés de item ocorre quando indivíduos com 7 TENDÊNCIAS DE MENSURAÇÃO EM
a mesma ‘quantidade’ de uma característica, mas MARKETING
pertencentes a diferentes grupos culturais, exibem
diferentes probabilidades de resposta a itens em uma Neste item apresentamos alguns tópicos de
direção esperada. Quanto à equivalência linguística, o tendência de mensuração em marketing. Nossa seleção
procedimento de tradução reversa é provavelmente o foi baseada na avaliação da literatura recente em
mais empregado entre os estudos brasileiros, mas há pesquisas e mensuração em Marketing, e os temas de
também outros disponíveis. Pode-se, por exemplo, referência foram os seguintes: Teoria da Resposta ao
administrar um instrumento em dois idiomas para Item, estimadores Bayesianos e modelagem por
pessoas bilíngues e comparar a correlação entre as mínimos quadrados parciais (partial least squares –
respostas. PLS).
7.1 Teoria de Resposta ao Item
Segundo Church (2010), a Teoria de Resposta construto nos respondentes. Nos campos da
ao Item (TRI) tem sido empregada para medir uma série Administração, como o de Marketing, por exemplo,
de construtos latentes, como inteligência, traços de ainda são menos comuns as aplicações de TRI,
personalidade, individualismo e coletivismo, por predominando as chamadas abordagens clássicas como
exemplo. Seu uso já ocorre há mais de 60 anos, sendo a análise fatorial (AF) para aplicação em modelagem
mais comum nos campos de Educação e Psicologia por equações estruturais (SEM).
(Samartini, 2006), mas já encontra aplicações em Há, no entanto, uma tendência de aumento do
pesquisas brasileiras na área de Marketing (ver Lucian, uso de TRI no campo da Administração e, em
2012). particular, de Marketing, motivada por propriedades
Embora a nomenclatura TRI represente um que permitem maior quantidade de informações e
conjunto de modelos com especificidades diversas, a resultados mais estáveis do que os da abordagem
maioria deles possui em comum o estabelecimento de clássica. Uma das vantagens do uso de TRI é que, ao
dois parâmetros. O primeiro refere a quanto o item obtermos uma medida de quanto o item contém do
(questão) se aproxima do traço a ser medido; e o traço, bastam poucas questões para que possamos
segundo a quanto do traço está presente no respondente identificar sua intensidade em um respondente. Isso é
(um terceiro parâmetro associado a aleatoriedade pode possível pelo fato de os modelos de TRI fornecerem
ser modelado, a depender do interesse de pesquisa). Por uma distribuição de probabilidades para as respostas
essa razão, os pesquisadores em Educação possíveis para cada questão em função do nível em que
desenvolveram diversos estudos utilizando TRI, o traço está presente no respondente.
valendo-se do parâmetro do item como uma medida de A nomenclatura TRI reúne uma família de
dificuldade de questões em uma avaliação e do modelos diferentes, podendo coletar dados binários ou
parâmetro do respondente como medida da habilidade escalares (Scherbaum, Finlinson, Barden & Tamanini,
(ou conhecimento) dos estudantes. A técnica se 2006). Os avanços em termos de ferramentas e
popularizou como forma de padronizar resultados de aplicações têm sido maiores para dados binários e, por
alunos que realizam avaliações com questões distintas, essa razão, acreditamos que o uso de TRI em Marketing
de forma que seus desempenhos sejam comparados. (campo aculturado ao emprego de escalas de múltiplos
O campo da Psicologia, tradicionalmente pontos), embora crescente, é ainda incipiente e tende a
envolvido com a mensuração de traços latentes, permanecer assim no médio prazo.
também apresenta vasta coleção de aplicações de TRI Os modelos de TRI dividem-se em modelos
ao procurar quantificar a aderência dos itens de um cumulativos e de desdobramento (Samartini, 2006;
instrumento ao construto a ser medido e a presença do Scherbaum et al., 2006). Modelos cumulativos
_____________________________________________________________________________________
_______________________________________________________________________________
presumem que as respostas possíveis para um item de forma limitada à amostra original e os parâmetros
implicam ordem e que o avanço nessa ordem representa dos itens são dela dependentes, o que não ocorre em
o aumento do traço em análise. As escalas de TRI, ao menos teoricamente. Essa fonte de viés da
concordância, nesse contexto, indicariam que quanto abordagem clássica é uma de suas desvantagens em
mais um respondente concordar com uma afirmação termos de estabilidade de resultados. Outra vantagem
(não sendo essa inversa), mais possuirá do traço. Os da TRI é que o erro padrão dos itens varia ao longo de
modelos de desdobramento, por sua vez, não presumem todos os níveis do traço, ou seja, é possível determinar
acúmulo do traço na ordem das respostas possíveis a o traço latente para cada um de seus níveis (Scherbaum
um item. Imaginemos, por exemplo, a seguinte et al., 2006).
afirmação: 'fumar deveria ser permitido apenas em No entanto, ao contrário das abordagens
ambientes abertos'. Uma pessoa absolutamente a favor clássicas, os modelos de TRI não medem a
da permissão do fumo em qualquer ambiente confiabilidade de um instrumento completo de medida
discordaria totalmente da afirmação, assim com quando usamos escalas de múltiplos itens, já que a
concordaria plenamente uma pessoa absolutamente confiabilidade em TRI é apurada por item (Scherbaum
contra a permissão de fumar em qualquer ambiente. As et al., 2006), não dispondo de medidas gerais como o
pessoas que não estivessem nos extremos de opinião índice de confiabilidade composta, por exemplo, o que
sobre a permissão para fumar distribuiriam suas pode ser considerado uma desvantagem.
respostas nos níveis intermediários de concordância. Outra desvantagem do uso de TRI é a
Enquanto não presumem acúmulo do traço de acordo necessidade de amostras maiores do que as necessárias
com uma ordem das respostas aos itens, os modelos de nas abordagens clássicas (Church, 2010; Scherbaum et
desdobramento trazem uma distribuição de al., 2006). Ademais, o uso de TRI é complexo para os
probabilidades para cada resposta possível como uma usuários que não dominam estatística de forma
função da presença do traço em cada respondente. avançada e, por haver carência de recursos
A comparação de resultados entre TRI e computacionais em termos de software com interfaces
análise fatorial confirmatória, sejam obtidos por meio amigáveis para TRI, acreditamos que ainda há e haverá
de simulações ou de estudos empíricos, tem inibições de seu uso fora das áreas de educação e
demonstrado maior adequação por parte da TRI (ver psicologia, em que seus desenvolvimentos foram mais
Salzberger & Koller, 2013; e Buchbinder, Goldszmidt proeminentes.
& Parente, 2012) na validação de medidas. Os modelos de TRI apresentam também duas
Aparentemente, as medidas validadas por TRI premissas e, ao menos uma delas pode ser interpretada
funcionam de maneira mais estável em contextos como uma desvantagem frente à abordagem clássica,
distintos, ao passo que as validadas por meio de AFC tratando-se da unidimensionalidade do traço. Os
requerem maiores adaptações em contextos distintos modelos TRI costumam presumir que um instrumento
(por contextos distintos, entendemos variações entre mede um traço único, embora existam modelos
formas de coleta de dados (entrevistas pessoais ou por multidimensionais de TRI que são, no entanto, por
telefone, e autopreenchimento de questionários, por demais complexos e de difícil implementação
exemplo), de momentos de coleta, e de amostras que (Buchbinder et al., 2012; McDonald, 2010). Os
representem populações distintas (Meade & modelos da abordagem clássica ajustam mais
Lautenschlager, 2004). facilmente múltiplos traços na validação de
A explicação para essas diferenças pode ser instrumentos.
provida por meio de propriedades teóricas da TRI. Uma A outra premissa dos modelos TRI é
delas é a que a obtenção de características dos itens e conhecida como independência local (ou condicional)
dos indivíduos por meio das respostas dadas são e significa que as respostas dadas para um item
independentes entre si. Em outras palavras, é possível dependem exclusivamente do traço latente e não afetam
determinar os parâmetros dos itens (dificuldade da as respostas nos outros itens e nem são por elas
questão ou presença do traço) com base em diferentes afetadas. Essa premissa pode ser uma explicação para o
conjuntos de respondentes representativos de fato dos pesquisadores que preferem a TRI afirmarem
populações diversas (Salzberger & Koller, 2013; que os parâmetros dos itens não dependem da amostra
Scherbaum et al., 2006). e com isso suas estimativas são estáveis. No entanto, o
Os modelos clássicos (análise fatorial e de argumento é questionável, pois se trata de uma
consistência interna) são baseados em correlações para premissa, nem sempre observável.
a construção de escores e estimação de parâmetros para A comparação entre as propriedades de TRI e
os itens. Por não contarem com a separação entre os das abordagens clássicas permite que pensemos em
parâmetros dos itens e dos respondentes, seus situações em que a escolha por uma ou outra
resultados ficam restritos às características da amostra abordagem seja mais ou menos adequada. A
e, consequentemente, à sua representatividade. Esse é abordagem clássica poderia ser indicada para quando
um dos prováveis motivos para a necessidade de imaginarmos haver constância do erro padrão ao longo
adaptações de escalas já validadas pela abordagem dos níveis do traço em um item. No entanto, uma
clássica em uma cultura quando se conduzem estudos situação como essa não é muito plausível, fazendo da
interculturais, uma vez que os escores são construídos escolha por um modelo de TRI preferível. TRI também
_____________________________________________________________________________________
_______________________________________________________________________________
deve ser uma melhor escolha quando não dispomos de acúmulo do traço de acordo com a ordem das respostas
amostras representativas da população para a qual se possíveis, é possível discriminar melhor o traço nos
pretende desenvolver a medida, por conta da respondentes que escolhem total concordância ou total
independência entre os parâmetros dos itens e dos discordância com um item do que nos modelos
respondentes. Essa mesma propriedade, por conferir cumulativos. A esse atributo, soma-se a possibilidade
maior estabilidade dos parâmetros de item de haver variação do erro padrão do traço em cada um
independentemente do contexto, também credencia de seus níveis, permitindo diferentes graus de precisão
TRI como a primeira opção para a criação de novas para indivíduos que estão nos extremos ou em níveis
medidas ou o refinamento de medidas existentes. intermediários do traço. A capacidade de bem lidar com
Ao objetivarmos aferir a confiabilidade geral o estilo de resposta extrema é também um benefício do
do instrumento, o uso da abordagem clássica seria mais uso de TRI para o tratamento da variância comum ao
recomendável, ao passo que TRI seria mais apropriada método – a tendência de o respondente se posicionar de
para obter confiabilidade nos diferentes níveis do traço, forma unívoca (podendo ser muito favorável ou muito
por item. Outro critério a ser considerado pode ser a desfavorável ao traço ao longo de suas respostas) por
parcimônia, também discutível. Se por um lado, a todo o instrumento de medida. Ao permitir variação na
unidimensionalidade em TRI presume um modelo mais estimativa dos parâmetros do item para diferentes
parcimonioso, por outro lado, trata-se de uma restrição níveis do traço, o estilo de resposta extrema não
a modelos multidimensionais, que podem fazer mais contaminará as estimativas dos respondentes que estão
sentido em algumas formulações teóricas. Ademais, os em níveis intermediários.
modelos de TRI são de aplicação mais complexa e O estilo de resposta extrema permite que os
exigem mais recursos computacionais e técnicos do que modelos de TRI identifiquem questões que funcionam
os modelos clássicos, sobretudo quando ajustamos melhor como dicotômicas, não escalares. Por essa
modelos multidimensionais, o que faz do uso de TRI razão, os avanços em TRI têm sido maiores para o
menos parcimonioso. desenvolvimento de instrumentos que coletem dados
Uma aplicação em que se destaca a aderência binários e com isso a tradição de escalas de múltiplos
da TRI é o caso de respostas extremas, ou daquelas itens observada em Marketing pode inibir o aumento do
situações em que o respondente se posiciona nos emprego de métodos de TRI no campo.
extremos das questões (de Jong, Steenkamp, Fox & O Quadro 3 sintetiza os fundamentos da
Baumgartner, 2008). Justamente pela propriedade dos abordagem clássica e de TRI, suas vantagens e
modelos de decomposição apresentarem desvantagens, e aplicações mais apropriadas em cada
probabilidades distintas para cada resposta em função caso.
do valor do traço de cada indivíduo, sem presumir
ASPECTOS ABORDAGENS CLÁSSICAS TEORIA DE RESPOSTA AO ITEM TRI
Determinam escores individuais e parâmetros dos Calcula parâmetros para o item (aderência ao
itens (como cargas fatoriais, variância média extraída construto medido) e para o respondente (valor do
Fundamentos e confiabilidade, por exemplo) com base na estrutura traço) de forma independente. Costuma presumir
de correlações. Os resultados não são independentes unidimensionalidade (nos modelos mais
do contexto em que os dados são coletados (formas de simples) e independência local.
coleta, momentos de coleta e amostras distintas).
Menor complexidade. Ampla disponibilidade de Os modelos não precisam ser cumulativos. Maior
recursos computacionais. Facilidade de ajuste de estabilidade dos parâmetros de itens em dados
modelos multidimensionais. Requerem amostras coletados em contextos distintos. Variação do
Vantagens menores do que os modelos de TRI. Geram índices de erro padrão do item de acordo com o nível do
confiabilidade globais. traço no respondente. Permite aferir
confiabilidade por item. Com poucas perguntas,
é possível estabelecer o valor do traço no
indivíduo.
Quando consideramos haver constância do erro padrão Quando consideramos haver variação do erro
ao longo dos níveis do traço em um item. Quando padrão ao longo dos níveis do traço em um item.
desejamos obter um indicador global de confiabilidade Quando não podemos garantir a
Aplicações do instrumento. Quando ajustamos um modelo de representatividade da amostra. Para a criação de
recomendadas medida multidimensional. novas medidas e/ou para refinar medidas
existentes. Quando desejamos obter a
confiabilidade por item do instrumento. Quando
nos defrontamos com o estilo de respostas
extremas.
Quadro 3 - Comparação entre TRI e a abordagem clássica de mensuração (AF e SEM).
_____________________________________________________________________________________
_______________________________________________________________________________
7.2 Estimadores Bayesianos risco está no fato de que as prioris em amostras

pequenas prevalecem no resultado final (a posteriori),
De acordo com Raudenbush e Bryk (2002), a que acaba por refletir os julgamentos pessoais prévios
estatística clássica (não estamos nos referindo à do pesquisador. Já quando contamos com amostras
abordagem clássica da mensuração em Marketing, mas muitos grandes, em geral, os valores dos parâmetros
à abordagem conhecida como clássica no campo da estimados por meio de abordagens clássicas e das
Estatística) assume que os parâmetros populacionais medidas de tendência central das distribuições a
são constantes (fixos) e que os dados utilizados em posteriori da abordagem Bayesiana tendem a coincidir
estudos empíricos representam amostras probabilísticas (ou ser muito semelhantes entre si) (Raudenbush &
em um universo de amostras possíveis. Já na Bryk, 2002).
abordagem Bayesiana (inspirada no teorema de Bayes), A base da inferência Bayesiana
a ideia de probabilidade não é representada por contemporânea para estimação de parâmetros é o uso
frequência relativa em amostras repetidas, mas por dos métodos conhecidos como Markov Chain Monte
quantificar a incerteza do pesquisador sobre os Carlo (MCMC), que consistem em simulações
parâmetros desconhecidos que geram os dados sequenciais para a distribuição de parâmetros em
amostrados. Nessa abordagem, os próprios parâmetros longas cadeias (Gamerman & Lopes, 2006). O interesse
possuem uma distribuição de probabilidades que é sumarizar os parâmetros resultantes de um método
descreve a incerteza do pesquisador sobre os seus MCMC sob a forma de esperanças, densidades e
valores. probabilidades (Congdon, 2006) obtidas por meio de
Na visão clássica, a estimativa de um ponto (e simulações inspiradas no princípio de Monte Carlo e
também de um intervalo de confiança) representa uma pouco confiáveis quando não são (aproximadamente)
boa inferência para o valor do parâmetro quando obtida normais ou quando são multimodais.
por meio de um método confiável, o qual assumimos O método original de Monte Carlo presume
possuir propriedades teóricas adequadas. O parâmetro um conjunto de simulações independentes entre si. Os
populacional não é considerado uma variável aleatória métodos MCMC, por sua, vez, geram simulações
e por essa razão não podemos atribuir a ele uma pseudoaleatórias por meio de cadeias de Markov, em
probabilidade. Na verdade, é o cômputo do intervalo que os parâmetros são considerados sequências de
em que o parâmetro deve estar contido que deve variáveis aleatórias. Uma cadeia somente pode ser
capturá-lo com algum grau de confiança. considerada de Markov se apenas o passo anterior for
A Estatística Bayesiana, por sua vez, assume relevante para o próximo (Rossi, Allenby &
que os parâmetros possuem uma distribuição de McCulloch, 2006); a simulação a partir de uma cadeia
probabilidades e assim podemos fazer inferências com estável de Markov converge para uma distribuição
base nessa premissa. Uma distribuição a priori estacionária. Assim se estabelece um esquema de
descreve as crenças do pesquisador a respeito do simulação MCMC que converge para a estabilidade.
parâmetro antes da coleta dos dados. Depois que os Há muitas questões a respeito da obtenção de
dados estão disponíveis, revisamos essa distribuição a convergência dos métodos de simulação MCMC.
priori com base no que neles observamos, com o intuito Costuma ser necessário estabelecer uma sequência
de propor uma distribuição a posteriori, que combina inicial e curta de simulação (burn in), que não será
as evidências que os dados trazem à proposta prévia. A aproveitada na distribuição final, por conta de os
estimativa de um ponto, nesse caso, pode ser a parâmetros simulados inicialmente poderem ser
tendência central da distribuição a posteriori (como sua inadequados; as simulações obtidas por MCMC são
média ou sua mediana, por exemplo). A estimação de autocorrelacionadas e assim muitas são necessárias
um intervalo na abordagem Bayesiana pode se basear para prover resultados utilizáveis (Rossi et al., 2006).
numa amplitude de valores possíveis para o parâmetro, Ademais, pode haver alguma demora para que se
que serve como base para calcularmos a probabilidade encontre a região da densidade a posteriori em que a
a posteriori de os valores do parâmetro estarem dentro tendência central do parâmetro se encontra, o que
do intervalo. dependerá do tamanho da amostra, da complexidade do
As distribuições a priori podem incorporar modelo e do método de simulação. Se as cadeias forem
eventual conhecimento prévio sobre os parâmetros, ou desenvolvidas de forma satisfatória, a autocorrelação
podem trazer pouca informação na construção à tenderá a zero conforme a simulação avançar. Caso
posteriori, quando comparada à informação trazida contrário, pouca informação acerca da distribuição a
pelos dados. Essa segunda situação (quando há prioris posteriori será provida em cada iteração e uma
pouco informativas) trata de prioris conhecidas como simulação de maior tamanho será necessária (Congdon,
prioris de referência, que não dependem de ajuste fino 2006).
para serem propostas. Seu benefício é o fato de Há diversos esquemas de simulação MCMC;
'deixarem os dados falarem' por si mesmos. A aplicação o algoritmo que serve como base a todos é conhecido
de inferência Bayesiana é arriscada quando como Metropolis-Hastings (Congdon, 2006). Outro
trabalhamos com amostras pequenas, que em geral esquema bastante popular é o amostrador de Gibbs, um
requerem prioris informativas (Congdon, 2006). O caso especial do algoritmo Metropolis-Hastings capaz
_____________________________________________________________________________________
_______________________________________________________________________________
de simular distribuições marginais em sequência; lineares, diferentemente do que ocorre com a estimação
embora gere sequências autocorrelacionadas, o Bayesiana (ver Zellner & Rossi, 1984). Ademais, a
amostrador de Gibbs termina por "se livrar" dos valores modelagem por aproximação assintótica necessita de
iniciais da cadeia e converge para uma distribuição amostras muito grandes, uma clara desvantagem em
estacionária. relação à modelagem Bayesiana. Por fim, os modelos
Especialmente relevante à modelagem de Bayesianos são menos sensíveis à presença de outliers,
variáveis latentes é o conceito de aumento de dados pois a distribuição de parâmetros é estimada com base
(data augmentation), usado para moldar a na maior parte da amostra e menos nos casos extremos
verossimilhança de um modelo de alguma natureza (Hahn & Doh, 2006).
(como a modelagem por equações estruturais, por Por considerar uma distribuição possível para
exemplo); o amostrador de Gibbs pode ser usado para os parâmetros na população, e não a existência de um
essa finalidade. O conceito de aumento de dados parâmetro fixo populacional, alguns autores
consiste em adicionar informação indisponível (como a consideram a inferência Bayesiana como a forma mais
estimação de variáveis latentes) ao conjunto de dados adequada (senão a única) de ajustar modelos em
por meio de sua modelagem. Rossi, Allenby & Marketing (ver Rossi, Allenby & McCulloch, 2006; e
McCulloch (2006) demonstram que uma variedade de Park & Kim, 2013). O argumento está no fato de que
modelos podem ser construídos por meio de aumento conseguimos modelar os comportamentos e atitudes de
de dados quando não observamos variáveis cada indivíduo em função de suas características
diretamente. Para aprofundamento a respeito dos individuais em vez de estimar um parâmetro médio
algoritmos de simulação MCMC, recomendamos a para a população inteira (uma limitação dos modelos da
leitura de Gamerman & Lopes (2006) e de Rossi, estatística clássica). Como em Marketing é relevante
Allenby & McCulloch (2006). compreender os agentes de forma personalizada, essa
Particularmente em relação ao uso da Análise propriedade dos modelos Bayesianos tem
Fatorial Confirmatória na validação de construtos, a impulsionado o uso desse tipo de inferência na área. Tal
abordagem Bayesiana possui algumas vantagens em benefício dos métodos Bayesianos se aproxima de um
relação à estatística clássica. Em primeiro lugar, os dos benefícios dos modelos de TRI que, ao modelarem
pesquisadores que preferem o uso da inferência os parâmetros dos respondentes, também podem ser
Bayesiana consideram que com ela é possível usar considerados Bayesianos em sua natureza. No entanto,
amostras menores do que na abordagem frequentista a estimação Bayesiana em Análise Fatorial e Equações
(clássica) (Rossi, Allenby & McCulloch, 2006); o estruturais, ao contrário de TRI, não separa os
argumento, no entanto, somente é verdadeiro quando parâmetros dos itens dos respondentes e se baseia na
temos prioris informativas, o que, como já estrutura de associação entre os dados (assim como na
mencionamos, é arriscado. Para mitigar o risco, estatística clássica) e, portanto, depende fortemente das
sugerimos que pesquisadores realizem extensiva características da amostra. Efetivamente, a distribuição
revisão da literatura e de resultados empíricos passados de parâmetros a posteriori, quando usamos prioris de
para definir as distribuições a priori que utilizarão em referência, representa bem a amostra utilizada que,
seus modelos. portanto, deve ser bastante representativa da população.
Outra vantagem é que o uso de estimadores Os modelos Bayesianos têm sido
Bayesianos não precisa violar premissas acerca de crescentemente empregados em diversos campos por
distribuição das variáveis utilizadas. Grande parte dos conta de sua natureza intuitiva e de suas vantagens
itens das escalas em Marketing são coletados como frente à inferência clássica. Esse movimento têm sido
variáveis ordinais (graus de concordância, por impulsionado pelo aumento de recursos de software de
exemplo), mas tratados por modelos da estatística prateleira capazes de prover a estimação Bayesiana por
clássica que presumem que os dados coletados sejam meio de interfaces amigáveis, e também pelo avanço de
normalmente distribuídos, como é o caso da estimação hardware capaz de processar simulações com
por máxima verossimilhança, o caso mais frequente em sequências muito grandes (na casa dos milhares). Um
Análise Fatorial Confirmatória e em Equações exemplo de aplicação desse tipo é o algoritmo presente
Estruturais. É muito improvável uma variável ordinal no pacote de Equações Estruturais AMOS. No entanto,
se distribuir normalmente, ou até mesmo impossível, as ferramentas de prateleira provêm pouca flexibilidade
considerando que a distribuição normal é exclusiva aos pesquisadores em termos de escolha do simulador
para variáveis quantitativas contínuas. Ao não presumir MCMC ou mesmo de extração de resultados
normalidade na distribuição dos dados, a inferência individualizados para cada respondente, o que seria um
Bayesiana se adéqua melhor à modelagem de variáveis dos principais benefícios da escolha por um modelo
ordinais (Byrne, 2001). Bayesiano. Existem ferramentas mais flexíveis, como o
A abordagem clássica também confia por pacote R, por exemplo, que exigem, no entanto,
vezes na aproximação assintótica para prover funções conhecimento avançado em estatística e habilidades em
de densidade de probabilidade para o conjunto de programação, muitas vezes incomuns entre as
estimadores amostrais. Mesmo que as aproximações habilidades dos pesquisadores em nossa área.
assintóticas não presumam a normalidade dos dados, O uso da inferência clássica por máxima
podem não se manter plausíveis em modelos não verossimilhança na construção de escalas é adequado
_____________________________________________________________________________________
_______________________________________________________________________________
quando observamos normalidade nos dados e a pesquisador que propõe a priori.

ausência de dados discrepantes, mas essa é uma O uso de variáveis contínuas para pontuar os
situação improvável e sua ausência fomenta a escolha indicadores também permite a estimação por máxima
por modelos Bayesianos. Modelos MCMC também verossimilhança, enquanto o uso de variáveis ordinais
são preferíveis quando temos amostras pequenas, mas e/ou discretas leva à escolha pela estimação Bayesiana.
para isso dependemos de prioris informativas, O Quadro 4 sintetiza os fundamentos da inferência
rigorosamente determinadas por formulações teóricas clássica e da inferência Bayesiana em Análise Fatorial
coerentes e pela consulta a resultados de estudos e em Modelagem por Equações Estruturais, suas
passados; caso contrário, os parâmetros serão vantagens e desvantagens, e aplicações mais
fortemente dependentes de idiossincrasias do apropriadas em cada caso.
ASPECTOS ESTIMAÇÃO CLÁSSICA ESTIMAÇÃO BAYESIANA
Presume a existência de um parâmetro fixo na Presume a existência de uma distribuição de

população e calcula seu intervalo de confiança parâmetros na população e a estima com
por meio de uma abordagem frequentista (em base em uma formulação a priori, a ser
Fundamentos geral, por meio de Máxima Verossimilhança). aprimorado para uma distribuição que leva
em conta os dados coletados, chamada de
posterior. A estimação é feita por
simulações Markov Chain Monte Carlo
(MCMC).
Mais difundida em pacotes estatísticos de Não presume normalidade na distribuição
prateleira e de execução mais simples. dos dados; não se limita à modelagem com
variáveis quantitativas contínuas; possui
Vantagens baixa sensibilidade a dados discrepantes.
Estima valores individuais para os
respondentes, em vez de um parâmetro
médio para a população.
Amostras grandes, com dados normalmente Amostras pequenas, com variáveis de
Aplicações distribuídos, ausência de outliers, variáveis diversas naturezas (como qualitativas e
recomendadas quantitativas contínuas. discretas, por exemplo), com presença de
outliers.
Quadro 4 - Comparação entre a estimação clássica e a Bayesiana em Análise Fatorial e em Modelagem por Equações
Estruturais.
7.3 Modelagem por mínimos quadrados parciais em modelos padronizados) estimadas pelo modelo com
(partial least squares - PLS) aquelas de fato observadas nos dados coletados e
procedem a testes de quiquadrado para avaliar as
O uso de Análise Fatorial Confirmatória e de diferenças. O ajuste geral do modelo é acessado nesses
Modelagem por Equações Estruturais em Marketing, casos por indicadores baseados na estatística de
conforme já mencionamos, tem sido mais comum por quiquadrado e em testes que verificam a significância
meio da estimação por máxima verossimilhança. Uma dos erros oriundos da diferença entre o que é observado
alternativa que tem se mostrado viável e ganho espaço e o que é estimado. Já nos modelos baseados em
em pesquisas empíricas na área, com forte influência do variância, não existem estatísticas globais de ajuste,
campo dos Sistemas de Informação, é o uso dos sendo o modelo avaliado pela significância das relações
modelos por mínimos quadrados parciais, em inglês propostas entre variáveis (também disponíveis nos
partial least squares, conhecidos como PLS. Embora modelos estimados com base em covariância) e pelo
os modelos baseados em covariância (como os total de variabilidade das variáveis de interesse que o
estimados por máxima verossimilhança, por exemplo) modelo consegue explicar (R2).
sejam mais conhecidos pelos pesquisadores em nossa Por não depender de uma estrutura de
área, os modelos PLS também são modelos de equações covariância para ajustar um modelo, o método PLS tem
estruturais, porém baseados em variância. sido empregado em pesquisas que utilizam indicadores
A diferença fundamental entre os modelos formativos, dado que não exige que haja correlação
baseados em covariância e aqueles baseados em entre os indicadores usados para medir um mesmo
variância é que os primeiros obtêm índices de ajuste construto. Esta tem sido considerada uma boa razão
globais ao comparar as covariâncias (ou correlações, para o uso do método por diversos pesquisadores que
_____________________________________________________________________________________
_______________________________________________________________________________
se propõem a fazer estudos com indicadores recomendáveis para a validação nomológica com
formativos, mas também tem sido o alvo das discussões medidas de diversas naturezas (formativas ou
sobre suas falhas (ver Diamantopoulos, 2011). refletivas) por contarem com indicadores globais de
Justamente por não contar com indicadores de ajuste ajuste, terão maior dificuldade para convergir e
globais, os modelos PLS estão limitados a verificar se exigirão maior complexidade para serem ajustados
as relações propostas fazem sentido individualmente, (Diamantopoulos, 2011). Um problema adicional dos
mas não permitem verificar se o modelo como um todo modelos PLS é o fato de não permitirem a estimação de
é plausível. Por essa razão, a literatura costuma indicar erros para os indicadores formativos, ao passo em que
o uso de PLS em modelos exploratórios, em que há nos modelos baseados em variância os erros dos
pouca teoria desenvolvida (ver Hair, Ringle & Sarstedt, indicadores formativos estão presentes; entendemos
2011; Henseler, Ringle & Sinkovics, 2009; não ser razoável não estimar erros de medida.
Marcoulides & Saunders, 2006; e Ringle, Sarstedt & Outras indicações para o uso de PLS
Straub, 2012). No entanto, é discutível a adequação encontradas na literatura são as situações em que não
dessa situação em procedimentos de validação temos amostras grandes, já que menos parâmetros são
nomológica, em que justamente a relação teórica entre estimados em comparação aos modelos baseados em
construtos e variáveis deve estar bem amadurecida para covariância, e assim economizamos graus de liberdade
o pesquisador, sendo esse em geral o caso para que se (embora saibamos que, em qualquer estimação
usem equações estruturais. frequentista, os intervalos de confiança serão maiores
É necessário informar que os modelos para amostras pequenas, ou seja, menos precisos).
baseados em covariância (à exceção dos modelos de Ademais, os modelos baseados em variância também
análise fatorial, sendo que a análise fatorial não exigem a normalidade da distribuição dos dados
confirmatória é um caso específico de modelagem por coletados. O uso de PLS tem sido facilitado e crescido
equações estruturais) não são necessariamente modelos pela disponibilidade de ferramentas com interface
exclusivos para indicadores refletivos. No entanto, em amigável, como SmartPLS e PLS-Graph.
termos práticos, acabam sendo, pois por se basearem na O Quadro 5 sintetiza os fundamentos da
covariância dos itens usados para medir um mesmo Modelagem por Equações Estruturais baseada em
construto, costumam não serem 'identificados' (isto é, covariância (em particular a estimação por máxima
não convergir para um ajuste) quando não se estipula verossimilhança) e baseada em variância (em particular
essa covariância ou quando ela não é suficiente grande a estimação por mínimos quadrados parciais - PLS),
para que o modelo 'rode'. Por essa razão, mesmo que os com vantagens e desvantagens e aplicações mais
modelos baseados em covariância sejam mais apropriadas para cada caso.
ASPECTOS MÁXIMA VEROSSIMILHANÇA PLS
Obtém índices de ajuste globais ao comparar as Acessa a significância das relações

covariâncias estimadas pelo modelo com aquelas propostas entre variáveis e a variabilidade
de fato observadas nos dados coletados e das variáveis de interesse que o modelo
Fundamentos
procedem a testes de quiquadrado (ou nele consegue explicar (R2).
inspirados) para avaliar as diferenças
encontradas.
Calcula índices de ajuste global do modelo, Não presume normalidade na distribuição
Vantagens alguns com testes de significância. Estima erro dos dados. Requer amostras menores.
para as medidas formativas, quando há.
Amostras grandes, com dados normalmente Amostras menores, com dados sem
Aplicações
distribuídos. Presença apenas de indicadores distribuição normal. Pesquisas que utilizam
recomendadas
refletivos. indicadores formativos.
Quadro 5 - Comparação entre a Modelagem por Equações Estruturais por máxima verossimilhança e por mínimos
quadrados parciais (PLS).
8 CONSIDERAÇÕES FINAIS qualquer atividade de pesquisa, incluindo a leitura de

artigos científicos, deve alicerçar-se em reflexões
Parafraseando uma recomendação de críticas; aos estudantes de iniciação científica,
Pedhazur & Schmelkin (1991), para ser significante, mestrado, doutorado, e pesquisadores, recomendamos
_____________________________________________________________________________________
_______________________________________________________________________________
que reflitam criticamente acerca de suas escolhas fronteira e buscando expandir nossas análises sobre o
metodológicas, em particular as que envolvem tema. O conteúdo exposto também mostra o quanto
mensuração. ainda temos a avançar, e os desafios são bastante
Com efeito, de pouco ou nada vale o emprego motivadores. Nossa demanda agora é seguir adiante nos
de modelagens estatísticas sofisticadas se o banco de estudos e nas aplicações para aperfeiçoar ainda mais o
dados a partir do qual essas análises serão feitas contém conhecimento que produzimos em Marketing.
números que não refletem adequadamente os
fenômenos que devem representar. Com este
pensamento em mente, desenvolvemos neste artigo REFERÊNCIAS
uma revisão ampla, da evolução histórica, do estado
atual e das tendências futuras do problema da American Psychological Association. (1985).
mensuração dos construtos em Marketing. Standards for educational and psychological tests.
Em nossa visão, o desenvolvimento Washington, DC: Author.
acadêmico e profissional de Marketing é uma variável
dependente do desenvolvimento de pesquisas para Andrade, D. F., Tavares, H. R., & Valle, R. C (2000).
aperfeiçoar conhecimentos em nosso campo. Mas a Teoria da resposta ao item: conceitos e aplicações.
pesquisa em Marketing, por sua vez, é dependente do 14º Simpósio Nacional de Probabilidade e
nível de desenvolvimento metodológico, que passa Estatística – SINAPE. São Paulo: Associação
pelas questões de mensuração, de design e de análise de Brasileira de Estatística.
dados. Sem dúvidas, não há desenvolvimento de
pesquisas sólidas em Marketing sem uma concentração Aranha, F., & Zambaldi, F. (2008). Análise fatorial em
cuidadosa com a mensuração que se faz das variáveis e administração. Sao Paulo: Cengage Learning.
construtos teóricos. Em linha com a percepção de Lee
e Hooley (2005), recomendamos que pesquisadores em Bagozzi, R. P., & Edwards, J. R. (1998). A general
Marketing dediquem o tempo necessário para que seus approach for representing constructs in
modelos de mensuração sejam percebidos como organizational research. Organizational Research
sólidos; apenas posteriormente faz sentido elaborar Methods, 1(1), 45-87.
modelos avançados para testar hipóteses entre
construtos. Barboza, S. I. S., Carvalho, D. L. T., Soares Neto, J. B.
Nosso artigo fez uma incursão ampla sobre o & Costa, F. J. (2013). Variações de Mensuração
assunto. Embora tenhamos na restrição do espaço o pela Escala de Verificação: uma análise com escalas
impedimento de sermos exaustivos, cuidamos de não de 5, 7 e 11 pontos. Teoria e Prática em
deixar de fora qualquer dos temas centrais sobre o Administração, 3(2), 99-120.
assunto, o que nos faz acreditar que, do ponto de vista
acadêmico, nossa pesquisa alcança utilidade a Belk, R. W. (1985). Materialism: trait aspects of living
pesquisadores, iniciantes ou veteranos, quando estes in the material world. Journal of Consumer
procurarem uma atualização e uma visão global sobre Research, 12(3), 265-280.
o assunto.
Além disto, entendemos que este artigo traz Buchbinder, F., Goldszmidt, R., & Parente, R. (2012).
uma contribuição potencial para o campo da educação Item Response Theory and Construct Measurement
em Marketing, especialmente para a área de Pesquisa in Emerging Markets. Research Methodology in
de Marketing ministrada em cursos de graduação ou Strategy and Management, 7, 73-100.
para disciplinas de conteúdo metodológico de cursos de
pós-graduação. O artigo pode ser utilizado, portanto, Bussab, W. O., & Morettin, P. (2007). Estatística
como componente de uma disciplina mais geral, assim Básica. São Paulo: Saraiva.
como um texto introdutório de uma disciplina mais
específica sobre mensuração (já temos acumulado Byrne, B. (2001). Structural Equation Modeling with
experiências de disciplinas dessa natureza na pós- Amos: Basic Concepts. Applications. and
graduação brasileira, como por exemplo na Programming. Mahwha, New Jersey: Lawrence
EAESP/FGV (São Paulo) e na ESPM (São Paulo), na Erlbaum.
FUMEC (Minas Gerais) e na UFPB (Paraíba).
A exposição feita não deixa dúvidas de que já Church, A. (2010). Measurement issues in cross-
avançamos muito em termos teóricos, inclusive com cultural research. In G. Walford, E. Tucker, & M.
uma crescente contribuição de pesquisadores de Viswanathan (Eds.), The Sage Handbook of
Marketing para o tema mensuração (diferentemente do Measurement (pp. 151-176). London, UK: Sage
que já ocorreu no passado, quando o campo de Publications.
Marketing dependia dos desenvolvimentos oriundos
dos campos de Psicologia e Educação). Colocamos Churchill, G. A. (1979). A paradigm for developing
como desafio para pesquisadores brasileiros seguirmos better measures of marketing constructs. Journal of
nos apropriando do assunto, evoluindo nos avanços de Marketing Research (JMR), 16(1).
_____________________________________________________________________________________
_______________________________________________________________________________
Hansen et al. Strategic Management Journal, 27(8),

Congdon, P. (2006). Bayesian Models for Categorical 783-798.
Data. Chichester, England: John Wiley &Sons, Ltd.
Haig, B. D. (2005). An abductive theory of scientific
Costa, F. J. (2011). Mensuração e Desenvolvimento de method. Psychological Methods, 10(4), 371-388.
Escalas. Rio de Janeiro: Editora Ciência Moderna.
Hair, J. F., Ringle, C. M., & Sarstedt, M. (2011). PLS-
Cronbach, L. J. (1951). Coefficient Alpha and the SEM: Indeed a silver bullet. The Journal of
Internal Structure of Tests. Psychometrika, 16(3), Marketing Theory and Practice, 19(2), 139-152.
297-334.
Hao, L. & Naiman, D. Q. (2007). Quantile regression.
de Jong, M. G., Steenkamp, J.-B. E. M., Fox, J.-P., & Thousand Oaks: Sage Publications.
Baumgartner, H. (2008). Using Item Response
Theory to Measure Extreme Response Style in Henseler, J., Ringle, C. M., & Sinkovics, R. R. (2009).
Marketing Research: A Global Investigation. The use of partial least squares path modeling in
Journal of Marketing Research, 45(1), 104-115. international marketing. Advances in international
marketing, 20(1), 277-319.
Devellis, R. F. (1991). Scale development: theory and Hodge, D. R. & Gillespie, D. F. (2007). Phrase
applications. Newbury Park, CA: SAGE completion scales: a better measurement approach
Publications. than Likert scales? Journal of Social Service
Research, 33(4), 1-12.
Diamantopoulos, A. (2011). Incorporating formative
measures into covariance-based structural equation Jarvis, C. B., Mackenzie, S. B., & Podsakoff, P. M.
models. Mis Quarterly, 35(2), 335-358. (2003). A critical review of construct indicators and
measurement model misspecification in marketing
Diamantopoulos, A. & Winklhofer, H. M. (2001) Index and consumer research. Journal of Consumer
construction with formative indicators: an Research, 30(2), 199-218.
alternative to scale development. Journal of
Marketing Research, 38(2), 269–277. Kamakura, W. A., & Mazzon, J. A. (2013).
Socioeconomic status and consumption in an
Edwards, J. R. (2011). The fallacy of formative emerging economy. International Journal of
measurement. Organizational Research Methods, Research in Marketing, 30(1), 4-18.
14(2), 370-388.
Kloke, J. D., & Mckean, J. W. (2012). Rfit : Rank-
Faraway, J. J. (2006). Extending linear models with R. based estimation for linear models. The R Journal,
Boca Raton, FL: Chapman & Hall/CRC. 4(2), 57–64.
Fornell, C., & Larcker, D. F. (1981). Structural Lee, C. E. (1965). Measurement and the development
equation models with unobservable variables and of science and marketing. Journal of Marketing
measurement error: Algebra and statistics. Journal Research, 2(1), 20-25.
of marketing research, 18(8), 382-388.
Lee, N., & Hooley, G. (2005). The evolution of
Gamerman, D., & Lopes, H. (2006). Markov chain “classical mythology” within marketing measure
Monte Carlo: stochastic simulation for Bayesian development. European Journal of Marketing,
inference. Boca Raton, FL: Chapman & Hall/CRC. 39(3), 365-385.
Gerbing, D. W., & Anderson, J. (1988). An Updated Likert, R. (1932). A technique for the measurement of
Paradigm for Scale Development Incorporating attitudes. Archives in Psychology, 140, 1-55.
Unidimensionality and Its Assessment. Journal of
Marketing Research, 25, 186-192. Lucian, R. (2012). Mensuração de atitudes: a
proposição de um protocolo para elaboração de
Gonçalves, H. M. M. (2013). Multi-group invariance in escalas. Tese (Doutorando em Administração).
a third-order factorial model: attribute satisfaction Programa de Pós-Graduação em Administração da
measurement. Journal of Business Research, 66, Universidade Federal de Pernambuco – PROPAD-
1292-1297. UFPE.
Hahn, E. D., & Doh, J. P. (2006). Using Bayesian Marcoulides, G. A., & Saunders, C. (2006). Editor's
methods in strategy research: an extension of comments: PLS: a silver bullet?. MIS
quarterly, 30(2), iii-ix.
_____________________________________________________________________________________
_______________________________________________________________________________
Mari, L. (2005). The problem of foundations of Rossi, P., Allenby, G., & McCulloch, R. (2006).
measurement. Measurement, 38(4), 259-266. Bayesian statistics and marketing. Chichester,
England: John Wiley and Sons, Ltd.
McDonald, R. P. (2000). A basis for multidimensional
item response theory. Applied Psychological Rossiter, J. R. (2002). The COARSE procedure for
Measurement, 24(2), 99–114. scale development in marketing. International
Journal of Research in Marketing, 19(4), 305-335.
Meade, A. W., & Lautenschlager, G. (2004). A
comparison of item response theory and Rossiter, J. R. (2011) Measurement for the Social
confirmatory factor analytic methodologies for Sciences: the COARSE method and why it must
establishing measurement replace psychometrics. New York: Springer.
equivalence/invariance. Organizational Research
Methods, 7(4), 361-388. Salzberger, T., & Koller, M. (2013). Towards a new
paradigm of measurement in marketing. Journal of
Milfont, T. L., & Fischer, R. (2010). Testing Business Research, 66(9), 1307-1317.
measurement invariance across groups:
Applications in cross-cultural research. Samartini, A. L. S. (2006). Modelos com variáveis
International Journal of Psychological Research, latentes aplicados à mensuração de importância de
3(1), 111-121. atributos. Doctoral thesis, Escola de Administração
de Empresas de São Paulo da Fundação Getulio
Netemeyer, R. G., Bearden, W. O., & Sharma, S. Vargas (FGV/EAESP), Sao Paulo, Brazil.
(2003). Scaling procedures: issues and applications.
Thousand Oaks: Sage. Scherbaum, C., Finlinson, S., Barden, K., & Tamanini,
K. (2006). Applications of item response theory to
Nunnaly, J. (1978). Psychometric Theory. New York: measurement issues in leadership research. The
McGraw-Hill Book Company. Leadership Quarterly, 17(4), 366–386.
Park, H. J., & Kim, S. H. (2013). A Bayesian network Sheather, S. J. (2009) A modern approach to regression
approach to examining key success factors of with R. New York: Springer.
mobile games. Journal of Business Research, 66(9),
1353-1359. Steenkamp, J. -B. E. (2005). Moving out of the US silo:
A call to arms for conducting international
Pedhazur, E., & Schmelkin, L. P. (1991). marketing research. Journal of Marketing, 69(4), 6-
Measurement, design and analysis: an integrated 8.
approach. Hillsdale: Lawrence Erlbaum Associates
Inc. Publishers, 1991. Stevens, S. S. (1946). On the theory of scales of
measurement. Science, 103(2684), 677–680.
Pereira, B. B. (1997). Estatística: a tecnologia da
ciência. Boletim da Associação Brasileira de Stewart, D. W. (1981). The application and
Estatística, ano XIII, n. 37, 2º quadrimestre, 27-35. misapplication of factor analysis in marketing
research. Journal of Marketing Research, 18(2), 51-
Raudenbush, S. W., & Bryk, A. S. (2002). Hierarchical 62.
linear models: applications and data analysis
methods. (2nd ed.). Thousand Oaks, CA: Sage Urbina, S. (2004). Essentials of psychological testing.
Publications, Inc. New Jersey: John Wiley & Sons, Inc..
Reardon, J., & Miller, C. (2012). The effect of response

scale type on cross-cultural construct measures: an
empirical example using Hall’s concept of context. Van de Vijver, F. J., & Leung, K. (1997). Methods and
International Marketing Review, 29(1), 24-53. data analysis for cross cultural research. Thousand
Oaks, CA: SAGE.
Richins, M. L., & Dawson, S. (1992). A Consumer
Values Orientation for Materialism and Its Wong, N., Rindfleisch, A., & Burroughs, J. E. (2003).
Measurement: Scale Development and Validation. Do reverse-worded items confound measures in
Journal of Consumer Research, 19(3), 303-316. cross-cultural consumer research? The case of the
material values scale. Journal of Consumer
Ringle, C. M., Sarstedt, M., & Straub, D. W. (2012). Research, 30(1), 72–91.
Editor's comments: a critical look at the use of PLS-
SEM in MIS quarterly. MIS quarterly, 36(1), iii-xiv. Yi, Y., & Gong, T. (2013). Customer value co-creation
_____________________________________________________________________________________
_______________________________________________________________________________
behavior: scale development and validation. Zellner, A., & Rossi, P. E. (1984). Bayesian analysis of
Journal of Business Research, 66, 1279-1284. dichotomous quantal response models. Journal of
Econometrics, 25(3), 365-393.
_____________________________________________________________________________________

Desafios Do Marketing

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Desafios Do Marketing

Enviado por

Direitos autorais:

Formatos disponíveis

REMark – Revista Brasileira de Marketing

MENSURAÇÃO EM MARKETING: ESTADO ATUAL, RECOMENDAÇÕES E DESAFIOS

Palavrachave: Mensuração; Escalas; Validação; Confiabilidade.

MEASUREMENT IN MARKETING: CURRENT SCENARIO, RECOMMENDATIONS AND

Keywords: Measurement in Marketing; Marketing Scales; Validity; Reliability.

1 INTRODUÇÃO formativos, além dos refletivos, mais comuns na

4 Já em 1965, Charles Lee debatia a questão da mensuração

de componentes que, se somados em alguma confiabilidade e, posteriormente, de modelos de

Figura 1 – Exemplos de estimadores (viés e precisão)

Na figura 1.A, temos o exemplo de um linguagem estatística, E(E)=0). Como consequência, o

expectativa de distribuição pressuposta. Naturalmente, De forma semelhante à validade de critério,

Validade de Exposição da escala a especialistas e potenciais respondentes e avaliação qualitativa dos

Em relação à coerência entre a escala e o

analogias e discrepâncias, de forma a poder construir métodos paramétricos de previsão/associação para

Coerência Analisar cuidadosamente a associação entre o conteúdo do item e as alternativas numéricas

Quadro 2 - Procedimentos para escalas de verificação

6 REFLEXÕES SOBRE MENSURAÇÃO EM O viés de construto ocorre quando as

7.1 Teoria de Resposta ao Item

ASPECTOS ABORDAGENS CLÁSSICAS TEORIA DE RESPOSTA AO ITEM TRI

Quadro 3 - Comparação entre TRI e a abordagem clássica de mensuração (AF e SEM).

7.2 Estimadores Bayesianos risco está no fato de que as prioris em amostras

quando observamos normalidade nos dados e a pesquisador que propõe a priori.

ASPECTOS ESTIMAÇÃO CLÁSSICA ESTIMAÇÃO BAYESIANA

Presume a existência de um parâmetro fixo na Presume a existência de uma distribuição de

ASPECTOS MÁXIMA VEROSSIMILHANÇA PLS

Obtém índices de ajuste globais ao comparar as Acessa a significância das relações

8 CONSIDERAÇÕES FINAIS qualquer atividade de pesquisa, incluindo a leitura de

Hansen et al. Strategic Management Journal, 27(8),

Reardon, J., & Miller, C. (2012). The effect of response

Você também pode gostar