Você está na página 1de 33

1

Melhorando e Avaliando a Qualidade da Mensuração Comportamental

CAPÍTULO 5
MELHORANDO E AVALIANDO A QUALIDADE DA MENSURAÇÃO
COMPORTAMENTAL
Cooper, J. O., Heron, T. E., & Heward, W. L. (2007). Applied behavior analysis. Pearson Education
*Tradução livre

Os dados obtidos ao mensurar comportamento são a matéria prima com a qual pesquisadores
e praticantes comportamentais guiam e avaliam o seu trabalho. Analistas do comportamento aplicado
mensuram comportamentos socialmente relevantes para ajudar a determinar quais comportamentos
precisam ser mudados, detectar e comparar os efeitos de várias intervenções nos comportamentos alvos
de mudança e avaliar a aquisição, manutenção e generalização das mudanças comportamentais.

Pelo fato de que muito do que o analista do comportamento faz tanto como pesquisador
quanto como praticante depende da mensuração, preocupações sobre a legitimidade dos dados que ela
produz devem ser fundamentais. Os dados refletem significativamente a razão original para mensurar
o comportamento? Os dados representam a extensão real do comportamento como ele de fato ocorreu?
Os dados fornecem uma figura consistente do comportamento? Em outras palavras, os dados são
confiáveis?

Esse capítulo foca na melhora e na avaliação da qualidade da mensuração comportamental.


Começamos definindo os indicadores essenciais de uma mensuração digna de confiança: validade,
precisão e confiabilidade. Após isso, ameaças comuns a mensuração são identificadas e sugestões para
combater essas ameaças são apresentadas. As seções finais do capítulo detalham procedimentos para
avaliar a precisão, confiabilidade e credibilidade da mensuração comportamental.

Indicadores de Mensuração Confiável

Três amigos – John, Tim e Bill – passearam juntos de bicicleta. Ao final do passeio John
olhou para o computador montado no guidom da bicicleta e disse “Nós andamos por 68 milhas.
Excelente!” “Meu computador mostra 67.5 milhas. Bom passeio amigos!” Tim respondeu. Enquanto
desmontava a sua bicicleta e esfregava suas costas, o terceiro ciclista, Bill, disse “Caramba, estou
dolorido! Nós devemos ter pedalado por umas 100 milhas!”. Alguns dias depois, os três amigos
completaram a mesma rota. Após a segunda volta, o computador de John mostrou 68 milhas, o de Tim
leu 70 milhas, e Bill, por não estar tão dolorido quanto estava no primeiro passeio, disse que eles
tinham pedalado 90 milhas. Seguindo um terceiro passeio nas mesmas ruas, John, Tim e Bill relataram
distâncias de 68, 65 e 80 milhas, respectivamente.

O quão confiáveis eram as medidas relatadas pelos três ciclistas? Os dados de qual dos três
amigos seriam mais úteis para uma consideração científica das milhas que eles tinham pedalado? Para
ser útil cientificamente, a mensuração deve ser válida, precisa e confiável. As medidas dos três amigos
foram caracterizadas pela validade, precisão e confiabilidade?

Validade

A mensuração tem validade quando produz dados que são diretamente relevantes para o
fenômeno mensurado e para a razão dele ser mensurado. Determinar a validade da mensuração gira
2
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

em torno dessa questão básica: A dimensão relevante do comportamento que é o foco da investigação
foi mensurada diretamente e de maneira legítima?

As medidas das milhas percorridas pelos três ciclistas tem validade? Pelo fato dos ciclistas
quererem saber quanto eles percorreram em cada volta, o número de milhas percorridas era uma
dimensão relevante, ou válida, do comportamento de pedalar. Se o interesse primário dos ciclistas
fosse determinar por quanto tempo ou o quão rápido eles pedalaram, o número de milhas percorridas
não teria sido uma medida válida. O uso dos computadores das bicicletas de John e Tim para mensurar
diretamente as milhas que eles percorreram foi uma medida válida. Pelo fato de Bill ter usado uma
medida indireta (a sensibilidade relativa das suas costas) para determinar o número de milhas que ele
tinha percorrido, a validade dos dados de Bill é suspeita. Uma medida direta do comportamento de
interesse vai sempre possuir mais validade que uma medida indireta, já que uma medida diret a não
requer uma inferência sobre a sua relação com o comportamento de interesse, enquanto uma medida
indireta sempre exige essa inferência. Ainda que a dor possa estar relacionada com a distância
percorrida, pelo fato de também ser influenciada por fatores como o tempo no assento da bicicleta, a
dureza da estrada, a velocidade da volta, e quanto a pessoa tem pedalado recentemente, a dor como
uma medida das milhas percorridas tem pouca validade.

A mensuração válida na análise do comportamento aplicada requer três elementos igualmente


importantes: (a) mensurar diretamente um comportamento alvo socialmente relevante, (b) mensurar
uma dimensão (e.g., taxa, duração) do comportamento alvo que seja relevante a questão ou
preocupação sobre o comportamento, e (c) garantir que os dados sejam representativos da ocorrência
do comportamento sob condições e durante momentos que sejam mais relevantes para a questão ou
preocupação sobre o comportamento. Quando qualquer um desses elementos for suspeito ou estiver
faltando – não importando o quão tecnicamente proeficiente (i.e., precisa e confiável) foi a mensuração
que produziu os dados – a validade dos dados resultantes é comprometida, talvez até ao ponto de se
tornar sem sentido.

Precisão

Quando usada no contexto da mensuração, a precisão se refere a extensão com a qual o valor
observado, o rótulo quantitativo produzido ao mensurar um evento, combina com o estado real, ou
valor real, do evento como ele existe na natureza (Johnston e Pennypacker, 1993a). Em outras palavras,
a mensuração é precisa até o ponto que corresponde ao valor real da coisa mensurada. Um valor real
é uma medida obtida por procedimentos que são independentes e diferentes dos procedimentos que
produziram os dados sendo avaliados e para os quais o pesquisador tem tido “precauções especiais ou
extraordinárias para garantir que todas as possíveis fontes de erro tenham sido evitadas ou removidas”
(p.136).

O quão precisas foram as medidas dos três ciclistas sobre as milhas percorridas? Pelo fato de
cada ciclista ter obtido uma medida diferente do mesmo evento, todos os seus dados não seriam
precisos. Cético a respeito das milhas de treinamento que os três ciclistas estavam afirmando, um
amigo deles, Lee, dirigiu pelas mesmas ruas do interior com um odômetro do Departamento de
Trânsito fixado na traseira do seu carro. Ao final da rota o odômetro leu 58 milhas. Usando a medida
obtida pelo odômetro do DT como um valor real da distância da rota, Lee determinou que nenhuma
das medidas dos três ciclistas era precisa. Cada ciclista tinha superestimado a verdadeira milhagem
percorrida.
3
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

Ao comparar as milhas relatadas por John, Tim e Bill com o valor real da distância da rota,
Lee descobriu que os dados não estavam apenas imprecisos, mas também estavam contaminados por
um tipo específico de erro de mensuração chamado de viés na mensuração. O viés na mensuração se
refere a um erro não aleatório na mensuração; isso é, um erro na mensuração que provavelmente vai
estar em uma direção. Quando um erro na mensuração é aleatório, as probabilidades de superestimar
ou subestimar o valor real de um evento são iguais. Pelo fato de John, Bill e Tim consistentemente
superestimar as milhas reais que eles percorreram, seus dados continham viés na mensuração.

Confiabilidade

A confiabilidade descreve a extensão com a qual um “procedimento de mensuração produz


o mesmo valor quando colocado em contato repetido com o mesmo estado de natureza (Johnston e
Pennypacker, 1993ª, p. 138). Em outras palavras, a mensuração confiável é uma mensuração
consistente. Como a validade e a precisão, a confiabilidade é um conceito relativo; é uma questão de
nível. Quanto mais próximos os valores obtidos por mensuração repetida do mesmo evento forem uns
dos outros, maior é a confiabilidade. Em contraste, quanto mais os valores observados por meio da
mensuração repetida diferirem uns dos outros, menor é a confiabilidade.

O quão confiáveis foram as medidas dos ciclistas? Pelo fato de John ter obtido o mesmo valor,
68 milhas, cada vez que ele mensurou a mesma rota, a sua mensuração teve confiabilidade completa.
As três medidas de Tim referentes a mesma rota – 67.5, 70 e 65 milhas – diferem uma das outras por
até cinco milhas. Portanto, a medida de Tim foi menos confiável que a de John. O sistema de
mensuração do Bill foi o menos confiável de todos, produzindo valores para a mesma rota variando de
80 a até 100 milhas.

A Importância Relativa da Validade, Precisão e Confiabilidade

A mensuração comportamental deve fornecer dados legítimos para avaliar mudança de


comportamento e guiar pesquisas e decisões do tratamento. Dados de maior qualidade (i.e., dados que
são mais úteis e confiáveis para avançar o conhecimento científico ou guiar a prática baseada em
dados) são produzidos por uma mensuração que é válida, precisa e confiável (veja Figura 1). A
validade, a precisão e a confiabilidade são conceitos relativos; cada uma pode abranger de alto para
baixo.

A mensuração deve ser válida e precisa para que os dados sejam dignos de confiança. Se a
mensuração não for válida, a precisão é discutível. Mensurar de maneira precisa um comportamento
que não é o foco da investigação, mensurar precisamente uma dimensão irrelevante do comportamento
alvo, ou mensurar de maneira precisa o comportamento sob circunstâncias ou em momentos não
representativos para as condições e momentos relevantes para a análise vai produzir dados inválidos.
Em contraste, os dados obtidos da mensuração de uma dimensão significativa do comportamento certo
sob momentos e circunstâncias relevantes é de pouco uso se os valores observados fornecerem uma
imagem imprecisa do comportamento. Medidas imprecisas tornam inválidos os dados obtidos por uma
mensuração válida.

A confiabilidade nunca deve ser confundida com a precisão. Ainda que o computador da
bicicleta de John tenha fornecido medidas totalmente confiáveis, também era completamente
imprecisa.
4
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

Preocupação sobre a confiabilidade dos dados na ausência de um interesse


anterior na precisão sugere que a confiabilidade está sendo confundida com a precisão.
As perguntas para um pesquisador ou para alguém que está lendo um estudo publicado
não são, “Os dados são confiáveis?” mas sim “Os dados são precisos?” (Johnston e
Pennypacker, 1993ª, p. 146)

Se a precisão supera a confiabilidade – e sim supera – porque pesquisadores e praticantes


estão preocupados com a confiabilidade da mensuração? Ainda que alta confiabilidade não queira
dizer alta precisão, uma confiabilidade pobre revela problemas com precisão. Pelo fato das medidas
de Tim e Bill não serem confiáveis, nós sabemos que pelo menos uma parte dos dados que eles
relataram pode não ser precisa, conhecimento que pode e deve levar a checagem da precisão das suas
ferramentas e procedimentos de mensuração.

Mensuração altamente confiável significa que qualquer grau de precisão (ou imprecisão)
que exista no sistema de mensuração vai ser revelado consistentemente nos dados. Se puder ser
determinado que o computador de John obtém confiavelmente valores observados maiores que os
valores reais por uma quantidade ou proporção constante, os dados devem ser ajustados para
acomodar esse grau constante de imprecisão.

Figura 1 Medição válida, precisa e confiável produz os dados mais confiáveis e úteis para a
ciência e a prática baseada na ciência

As duas próximas seções do capítulo descrevem métodos para combater ameaças comuns a
validade, precisão e confiabilidade da mensuração comportamental.

Ameaças a Validade da Mensuração

A validade dos dados comportamentais é ameaçada quando a mensuração é indireta, quando


a dimensão errada do comportamento é mensurada, ou quando a mensuração é conduzida de uma
maneira que os dados produzidos são um artefato dos eventos de fato.
5
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

Mensuração Indireta

A mensuração direta ocorre quando “o fenômeno que é o foco do experimento é


exatamente o mesmo que o fenômeno que está sendo mensurado” (Johnston e Pennypacker, 1993ª,
p. 113). Em contraste, a mensuração indireta ocorre quando “o que é de fato mensurado é de alguma
forma diferente do” comportamento alvo de interesse (Johnston e Pennypacker, 1993ª, p. 113). A
mensuração direta do comportamento produz dados mais válidos que a mensuração indireta. I sso
acontece porque a mensuração indireta fornece informações de segunda mão ou “filtradas” (Komaki,
1998) que exigem que o pesquisador ou praticante faça inferências sobre o relacionamento entre o
evento que foi mensurado e o comportamento real de interesse.

A mensuração indireta ocorre quando o pesquisador ou praticante mensura uma


aproximação, ou um substituto, do comportamento de interesse de fato. Um exemplo de mensuração
indireta seria usar respostas das crianças em um questionário como uma medida de qual a frequência
e o quão bem elas se dão com os seus colegas de classe. Seria melhor usar uma medida direta do
número de interações positivas e negativas entre as crianças. Usar a pontuação de um aluno em um
teste padrão de matemática como um indicador d o seu domínio em relação a habilidades matemáticas
inclusas no currículo da escola é outro exemplo de mensuração indireta. Aceitar a pontuação do aluno
no teste matemático como uma reflexão válida da sua habilidade com o currículo da escola iria exigir
uma inferência. Em contraste a isso, uma pontuação de um aluno em um teste apropriadamente
construído consistindo de problemas matemáticos vindos do conteúdo do currículo recentemente
analisado é uma medida direta que requer nenhuma inferência em relação ao que significa a respeito
da sua performance no currículo.

A mensuração indireta geralmente não é uma questão na análise do comportamento aplicada


porque alcançar a dimensão aplicada do ABA inclui a mensuração focada e significativa (válida) de
comportamentos socialmente relevantes. Ás vezes, entretanto, o praticante ou pesquisador não tem
acesso direto ou confiável ao comportamento de interesse e deve usar alguma forma de mensuração
indireta. Por exemplo, pelo fato de pesquisadores estudando a aderência a regimes médicos não
conseguirem observar diretamente e mensurar o comportamento dos pacientes nas suas casas, eles
confiam em auto relatos para os seus dados (e.g., La Greca & Schuman, 1995).¹

A mensuração indireta é às vezes usada para fazer inferências sobre eventos privados e
estados afetivos. Por exemplo, Green e Reid (1996) usaram medidas diretas de sorrisos para
representar “felicidade” em pessoas com deficiências múltiplas profundas. Entretanto, pesquisa sobre
eventos privados não necessariamente envolve mensuração indireta. Um participante da pesquisa que
tem sido treinado a observar seus próprios eventos privados está medindo o comportamento de
interesse diretamente (e.g., Kostewicz, Kubina, & Cooper, 2000; Kubina, Haertel, & Cooper, 1994).

Toda vez que a mensuração indireta é usada, é responsabilidade do pesquisador fornecer


evidências que o evento mensurado reflete diretamente, de uma forma confiável e significativa, algo
sobre o comportamento para o qual o pesquisador deseja chegar a conclusões (Johnston e
Pennypacker, 1993ª). Em outras palavras, é imposto para o pesquisador fornecer um caso convincente
para a validade dos seus dados. Ainda que algumas vezes seja tentado, o caso para validade não pode
ser alcançado ao simplesmente atribuir o nome da coisa que alguém alega estar mensurando a coisa
de fato mensurada. Respeitando esse ponto, Marr (2003) contou essa anedota sobre Abraham
Lincoln:

1 Estratégias para aumentar a precisão dos autorrelatos podem ser en contradas em Critchfield, Tucker e Vuchinich
(1998) e Finney, Putnam e Boyd (1998).
6
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

“Senhor, quantas pernas esse burro tem?”


“Quatro, Sr. Lincoln.”
“E quantos rabos ele tem?”
“Um, Sr. Lincoln.”
“Agora, senhor, se nós fossemos chamar o rabo de
perna; quantas pernas o burro teria?”
“Cinco, Sr. Lincoln.”
“Não senhor, já que você não pode transformar um rabo em
uma perna ao apenas chamar ela disso.” (pp. 66-67)

Mensurando a Dimensão Errada do Comportamento Alvo

A validade da mensuração comportamental é ameaçada com muito mais frequência ao


mensurar a dimensão errada do comportamento de interesse do que ao mensurar indiretamente.
Mensuração válida produz dados que são relevantes para as questões sobre o comportamento que
alguém procura responder através da mensuração. A validade é comprometida quando a mensuração
produz valores para uma dimensão do comportamento que é inadequada, ou irrelevante, para a razão
da mensuração do comportamento. Johnston e Pennypacker (1980) forneceram um exemplo
excelente da importância de mensurar uma dimensão que se adequa as razões da mensuração.
“Colocar uma régua em uma bacia de água enquanto a temperatura é aumentada vai produzir medidas
confiáveis sobre a profundidade da água mas vai nos mostrar muito pouco sobre a mudança de
temperatura” (p.192). Enquanto as unidades de mensuração em uma régua são adequadas para medir
o comprimento, ou nesse caso, profundidade, elas não são nada válidas para mensurar temperatura.
Se o propósito de mensurar a água for determinar se ela chegou na temperatura ideal para fazer chá,
um termômetro seria a ferramenta correta de mensuração.

Se você está interessado em mensurar a persistência acadêmica de um estudante na leitura


oral, contar o número de palavras corretas e incorretas lidas por minuto sem mensurar e registrar o
tempo total que o estudante leu não vai fornecer dados válidos sobre a persistência. O número de
palavras lidas por minuto sozinho não se encaixa com a razão da mensuração da leitura (i.e.,
persistência acadêmica). Para mensurar a persistência, o praticante precisaria registrar a duração do
período de leitura (e.g., 30 minutos). Similarmente, mensurar a porcentagem de tentativas nas quais
o estudante emite a resposta correta não vai fornecer dados válidos para responder questões sobre o
a fluência em desenvolvimento do estudante com uma habilidade, como mensurar o número de
respostas corretas por minuto e as taxas de mudança do responder (aceleração) iriam.

Artefatos de Mensuração

Mensurar diretamente uma dimensão relevante de um comportamento alvo socialmente


relevante não garante mensuração válida. A validade é reduzida quando os dados – não importa o
quão precisos ou confiáveis eles sejam – não fornecem uma representação significativa (válida) do
comportamento. Quando os dados fornecem uma figura indevida ou enganosa do comportamento por
causa da maneira que a mensuração foi conduzida, os dados são chamados de artefato. Um artefato
de mensuração é algo que parece existir por causa da maneira que foi mensurado. Medição
descontínua, períodos de medição mal programados e uso de escalas de medição insensíveis ou
limitantes são causas comuns de artefatos de medição.
7
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

Mensuração Descontínua

Pelo fato do comportamento ser um fenômeno contínuo e dinâmico que ocorre e muda ao
longo do tempo, a mensuração contínua é o padrão na pesquisa comportamental. A mensuração
contínua é a mensuração conduzida de maneira que todas as instâncias da classe de respostas de
interesse são detectadas durante o período de observação (Johnston e Pennypacker, 1993ª). A
mensuração descontínua descreve qualquer forma de mensuração na qual algumas instâncias da
classe de respostas de interesse podem não ser detectadas. A mensuração descontínua – não importa
o quão precisa e confiável – pode produzir dados que são artefatos.

Um estudo por Thomson, Holmber e Baer (1974) fornece uma boa demonstração da
extensão da variabilidade artefatual em um conjunto de dados que pode ser causada pela mensuração
descontínua. Um único observador com muita experiência usou três procedimentos diferentes para
mensurar o comportamento de quatro sujeitos (dois professores e duas crianças) em um ambiente
pré-escolar durante sessões de 64 minutos. Thomson e colegas chamaram os três procedimentos de
amostra de tempo de contínuo, alternado e sequencial. Com cada procedimento de amostra de tempo,
um quarto do tempo do observador (16 minutos) foi designado para cada um dos quatro sujeitos.

Quando foi utilizada a observação contínua programada, o observador registrou o


comportamento do Sujeito 1 durante os primeiros 16 minutos da sessão, registrou o comportamento
do Sujeito 2 durante o segundo 16 minutos, e por aí foi até que todos os quatros estudantes tinham
sido observados. No modo alternado, Sujeitos 1 e 2 foram observados em intervalos alternados
durante a primeira metade da sessão, e os Sujeitos 3 e 4 foram observados da mesma maneira durante
a última metade da sessão. Especificamente, o Estudante 1 foi observado durante os primeiros 4
minutos, o Sujeito 2 durante os próximos 4 minutos, o Sujeito 1 durante os próximos 4 minutos e
assim foi até que os 32 minutos acabaram. O mesmo procedimento foi então usado para os Estudantes
3 e 4 durante os últimos 32 minutos da sessão. A abordagem sequencial rotacionou sistematicamente
os quatro sujeitos durante observações de 4 minutos. O Sujeito 1 foi observado durante os primeiros
4 minutos, o Sujeito 2 durante o segundo 4 minutos, o Sujeito 3 durante o terceiro 4 minutos, e o
Sujeito 4 durante o quarto 4 minutos. Essa sequência foi repetida quatro vezes para dar um total de
64 minutos de observação.

Para chegar na porcentagem de variância artefatual nos dados associados com cada
programa de amostra de tempo, Thomson e colegas (1974) compararam os dados do observador com
as “taxas de fato” para cada sujeito produzidas pela mensuração contínua de cada sujeito pelas
mesmas sessões de 64 minutos. Resultados do estudo mostraram claramente que os programas
contínuos e alternados produziram as medidas mais não representativas (portanto, menos válidas)
dos comportamentos alvo (geralmente uma variância de mais d e 50% da mensuração contínua),
enquanto o procedimento de amostra sequencial produziu resultados que chegaram mais perto dos
dados obtidos a partir do registro contínuo (uma variância de 4 a 11% da mensuração contínua).

Apesar de suas limitações inerentes, a mensuração descontínua é usada em muitos estudos


da análise do comportamento aplicada nos quais observadores individuais mensuram o
comportamento de múltiplos sujeitos dentro da mesma sessão. Minimizar a ameaça a validade
representada pela mensuração descontínua requer consideração cuidadosa de quando a observação e
os períodos de mensuração devem ser programados. Mensuração infrequente, não importa o quão
confiável e precisa ela seja, geralmente produz resultados que são um artefato. Ainda que uma única
8
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

medida revele a presença ou ausência de um comportamento em um certo momento, ela pode não
ser representativa do valor típico do comportamento². Como uma regra geral, as observações devem
ser programadas de maneira frequentes ou diárias, mesmo que por apenas períodos breves.

Idealmente, todas as ocorrências do comportamento de interesse devem ser registradas.


Entretanto, quando os recursos disponíveis impedem a mensuração contínua durante um período de
observação, o uso de procedimentos de amostra é necessário. Um procedimento de amostra pode ser
suficiente para tomada de decisões e analise se as amostras representarem uma aproximação válida
dos parâmetros reais do comportamento de interesse. Quando a mensuração não pode ser contínua
em um período de observação, é geralmente preferível pegar uma amostra da ocorrência do
comportamento alvo por vários períodos breves de observação distribuídos igualmente ao longo da
sessão do que usar intervalos mais longos e menos frequentes (Thomson et al., 1974; Thompson,
Symons, e Felce, 2000). Por exemplo, mensurar um comportamento de um sujeito em trinta
intervalos de 10 segundos distribuídos igualmente dentro de uma sessão de 30 minutos vai
provavelmente produzir mais dados representativos do que observar a pessoa por um único período
de 5 minutos durante a meia hora. Mensurar comportamento com intervalos de observação que são
muito curtos ou muito longos pode resultar em dados que superestimam ou subestimam
grosseiramente a real ocorrência do comportamento. Por exemplo, mensurar o comportamento fora
da tarefa usando registro de intervalo parcial com intervalos de 10 minutos pode produzir dados que
tornam até mesmo os estudantes mais diligentes em alunos altamente fora da tarefa.

Períodos de Mensuração Mal Programados

O período de observação deve ser padronizado para fornecer uma oportunidade igual para a
ocorrência ou não ocorrência do comportamento ao longo das sessões e condições ambientais
consistentes de uma sessão de observação para a outra. Quando nenhuma dessas exigências for
alcançada, os dados resultantes podem não ser representativos e podem ser inválidos. Se os períodos
de observação são programados para momentos quando e/ou lugares nos quais a frequência do
comportamento é atípica, os dados podem não representar períodos de alto ou baixo responder. Por
exemplo, mensurar se o estudante está na tarefa durante apenas os primeiros 5 minutos da atividade
de aprendizado cooperativo em grupo em cada dia pode produzir dados que fazem com que o
comportamento na tarefa pareça maior do que ele de fato é durante a atividade inteira.

Quando os dados forem ser usados para avaliar os efeitos de uma intervenção ou tratamento,
os momentos de observação mais conservadores devem ser selecionados. Isso é, o comportamento
alvo deve ser mensurado durante esses momentos quando sua frequência de ocorrência é mais
provável de ser diferente dos resultados desejados ou previstos do tratamento. A mensuração dos
comportamentos focados para redução deve ocorrer durante momentos nos quais esses
comportamentos tem mais probabilidade de ocorrer em taxas mais altas de resposta. Inversamente,
os comportamentos focados para aumentar devem ser mensurados quando seu responder de alta
frequência for menos provável. Se uma intervenção não é planejada – como pode ser o caso em um
estudo descritivo – é importante selecionar os momentos de observação com maior probabilidade de
produzir dados que sejam representativos gerais do comportamento.

Escalas Limitadas e/ou Insensíveis de Mensuração

Dados que são artefatos podem ser resultado do uso de escalas de mensuração que não
conseguem detectar o alcance completo dos valores relevantes ou que são insensíveis as mudanças

2 Medidas únicas, como pré-testes e pós-testes, podem fornecer informações valiosas sobre o conhecimento e as
habilidades de uma pessoa antes e depois da instrução ou trat amento. O uso de sondas, medidas ocasionais, mas
sistemáticas, para avaliar a manutenção e generalização da mudança de comportamento é discutido no capítulo
intitulado “Generalização e manutenção da mudança de comportamento”.
9
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

significativas no comportamento. Os dados obtidos com uma escala de mensuração que não detecta
o alcance completo de performances relevantes podem sugerir incorretamente que o comportamento
não pode ocorrer em níveis acima ou abaixo das medidas obtidas porque a escala tem imposto um
chão ou um teto artificial para a performance. Por exemplo, mensurar a fluência da leitura oral de um
estudante ao entregar para ele um trecho de 100 palavras para ler em um minuto pode produzir dados
que sugerem que sua performance máxima é 100 palavras por minuto.

Uma escala de mensuração que é muito ou pouco sensível em relação a mudanças relevantes
no comportamento pode produzir dados que mostram erroneamente que uma mudança significativa
no comportamento tem (ou não tem) ocorrido. Por exemplo, usar uma medida de porcentagem de
10% na escala para avaliar os efeitos de uma intervenção para melhorar o controle de qualidade em
uma planta industrial pode não revelar mudanças importantes na performance se a melhora na
porcentagem de aparelhos corretamente fabricados a partir de uma linha de base de 92% até um
alcance de 97% para 98% for a diferença entre uma performance inaceitável e aceitável (i.e.,
lucrativa).

Ameaças à Precisão e Confiabilidade da Mensuração

A maior ameaça à precisão e confiabilidade dos dados na análise do comportamento


aplicada é o erro humano. Ao contrário da análise experimental do comportamento, na qual a
mensuração é geralmente automatizada e cond uzida por máquinas, a maioria das investigações na
análise do comportamento aplicada usam observadores humanos para mensurar o comportamento³.
Fatores que contribuem para o erro humano na observação incluem sistemas de mensuração mal
feitos, treinos inadequados de observação e expectativas em relação a como os dados devem parecer.

Sistema de Mensuração Mal Projetado

Sistemas de mensuração desnecessariamente complexos e difíceis de usar criam uma perda


desnecessária de confiabilidade e precisão. Coletar dad os comportamentais em contextos aplicados
requer atenção, julgamento aguçado e perseverança. Quanto mais exigente e difícil um sistema de
mensuração for, menos chances um observador vai ter de detectar consistentemente e registrar todas
as instâncias do comportamento alvo. Simplificar o sistema de mensuração o máximo possível
minimiza os erros na mensuração.

A complexidade da mensuração inclui variáveis como o número de indivíduos observados,


o número de comportamentos registrados, a duração do período de observação e/ou a duração dos
intervalos de observação, todos os quais podem afetar a qualidade da mensuração. Por exemplo,
observar vários indivíduos é mais complexo do que observar uma pessoa; registrar vários
comportamentos é mais complexo do que registrar um único comportamento; usar intervalos de
observação contínua de 5 segundos com nenhuma pausa entre os intervalos para registrar os
resultados da observação é mais difícil do que um sistema no qual é reservado um tempo para registrar
os dados.

Recomendações específicas em relação a reduzir a complexidade dependem da natureza


específica do estudo. Entretanto, ao usar mensurações de amostra de tempo, analistas do
comportamento aplicado conseguem considerar modificações como diminuir o número de indivíduos
ou comportamentos observados simultaneamente, diminuir a duração das sessões de observação
(e.g., de 30 minutos para 15 minutos), e aumentar a duração dos intervalos de tempo (e.g., de 5 para

3 Recomendamos o uso de dispositivos de gravação automática de dados sempre que possível. Por exemplo, para medir
a quantidade de exercícios de meninos em bicicletas ergométricas, DeLuca e Holborn (1992) usaram contadores
magnéticos que registravam automaticamente o número de rotações das rodas.
10
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

10 segundos). Exigir mais prática durante o treinamento do observador, estabelecer um critério mais
alto para o domínio do código observacional e fornecer feedbacks mais constantes para os
observadores também pode reduzir possíveis efeitos negativos de uma mensuração complexa.

Treinamento Inadequado dos Observadores

A seleção e o treinamento dos observadores requerem uma atenção cuidadosa. O treino


explícito e sistemático dos observadores é essencial para coletar dad os dignos de confiança. Sistemas
de observação e codificação exigem que os observadores discriminem a ocorrência e a não ocorrência
de classes específicas de comportamentos ou eventos contra um pano de fundo complexo e dinâmico
dos outros comportamentos e eventos, e registrar suas observações em uma folha de registro. Os
observadores devem aprender as definições de cada classe de respostas ou eventos a ser mensurada;
um sistema de registro de códigos ou símbolos para cada variável; um conjunto comum de
procedimentos de registro como teclas ou movimentos de escaneamento; e um método para corrigir
escrita inadvertida, teclas ou erros no escaneamento (e.g., escrever um sinal de mais em vez de um
sinal de menos, apertar a tecla F6 em vez da tecla F5, escanear um código de barras incorreto).

Selecionando Observadores Cuidadosamente

Reconhecidamente, pesquisadores aplicados geralmente lutam para achar coletores de


dados, mas nem todos os voluntários devem ser aceitos para o treinamento. Observadores em
potencial devem ser entrevistados para determinar experiências passadas com observação e
atividades de mensuração, rotina atual e compromissos futuros, ética no trabalho e motivação, e
habilidades sociais gerais. A entrevista pode incluir um pré-teste para determinar os níveis atuais de
habilidades e observação. Isso pode ser alcançado ao fazer potenciais observadores assistirem vídeos
curtos de comportamentos similares aos quais podem ser pedidos para que eles observem e depois
registrar suas performances em relação ao critério.

Treinando Observadores para um Padrão Objetivo de Competência

Observadores em treinamento devem alcançar um critério específico para registrar antes de


conduzir observações em contextos aplicados. Durante o treinamento, os observadores devem
praticar o registro de vários exemplos e não exemplos do comportamento alvo e receber um feedback
crítico sobre a sua performance. Observadores devem ter várias sessões de prática antes da coleta de
dados de fato. O treinamento deve continuar até alcançar um critério pré-determinado (95% de
precisão por duas ou três sessões consecutivas). Por exemplo, ao treinar observadores para mensurar
o término de tarefas preventivas de manutenção de equipamento pesado por militares, Komaki (1998)
exigiu três sessões consecutivas de pelo menos 90% de concordância com o valor real.

Vários métodos podem ser usados para treinar observadores. Esses incluem amostras de
vinhetas, descrições narrativas, sequências de vídeo, role-play e sessões de prática no ambiente em
que os dados reais vão ser coletados. Sessões de prática em ambientes naturais são especialmente
benéficas porque elas permitem que tanto o observador quanto o participante se adaptem a presença
do outro e podem reduzir os efeitos negativos da presença de observadores no comportamento do
participante. Os passos a seguir são um exemplo de uma abordagem sistemática para treinar
observadores.
11
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

Passo 1. Os aprendizes lêem as definições do comportamento alvo e se familiarizam com


os formulários de coleta de dados, os procedimentos para registrar suas observações e o uso adequado
de qualquer aparelho de registro ou mensuração (e.g., cronômetros, notebooks, gravadores,
escaneadores de códigos de barra).

Passo 2. Os aprendizes registram descrições narrativas simplificadas de vinhetas


comportamentais até que eles obtenham 100% de precisão em relação a um número pré-determinado
de instâncias.

Passo 3. Os aprendizes praticam registrar descrições narrativas mais longas e complexas de


vinhetas comportamentais até que eles obtenham precisão de 100% para um número pré-determinado
de episódios.

Passo 4. Os aprendizes praticam a observação e o registro de dados a partir de vinhetas


gravadas ou dramatizadas retratando o comportamento alvo na mesma velocidade e complexidade
como ele vai ocorrer no ambiente natural. Vinhetas de treino devem ser roteirizada e sequenciadas
para fornecer prática aos aprendizes, além de aumentarem gradualmente a dificuldade das
discriminações entre a ocorrência e a não ocorrência do comportamento alvo. Fazer os aprendizes
pontuarem mais uma vez a mesma série de vinhetas e comparar a confiança fornece uma avaliação
da consistência com a qual os aprendizes estão aplicando o sistema de mensuração. Os aprendizes
permanecem nesse passo até que seus dados alcancem um critério de precisão e confiabilidade pré-
estabelecido. (Se o estudo envolveu coletar dados a partir de produtos permanentes naturais como
redações ou exercícios acadêmicos, os passos de 2 a 4 devem fornecer aos aprendizes uma prática de
registro gradualmente extensiva e mais difícil para pontuar exemplos).

Passo 5. Praticar a coleta de dados no ambiente natural é o último passo no treinamento do


observador. Um observador experiente acompanha o aprendiz e de maneira simultânea e
independente mensura os comportamentos alvo. Cada sessão prática termina com aprendiz e o
observador experiente comparando suas folhas de dados e discutindo quaisquer ocorrências
questionáveis ou, portanto, imprevistas. O treinamento continua até que o critério pré-estabelecido
de acordo entre o observador veterano e o aprendiz seja alcançado (pelo menos 90% de três sessões
consecutivas)

Fornecendo Treinamento Contínuo para Minimizar Desvios do Observador

Ao longo do percurso de um estudo, os observadores as vezes alteram, geralment e sem


saber, a maneira que eles aplicam o sistema de mensuração. Chamado de desvio do observador,
essas mudanças não intencionais na maneira com a qual os dados são coletados podem produzir erros
na mensuração. O desvio do observador geralmente acarreta em uma mudança na interpretação do
observador do comportamento em relação ao que foi usada no treinamento. O desvio do observador
ocorre quando os observadores expandem ou comprimem a definição original do comportamento
alvo. Por exemplo, o desvio do observador pode ser responsável pelos mesmos comportamentos de
uma criança que foram registrados por um observador como instâncias de não cumprimento durante
a primeira semana de estudo serem registrados como instâncias de cumprimento durante a última
semana de estudo. Os observadores geralmente não percebem os desvios na mensuração.

O desvio do observador pode ser minimizado por uma reciclagem do observador ou sessões
amplificadas durante a investigação. Treinamento contínuo fornece a oportunidade para os
12
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

observadores receberem feedbacks frequentes em relação a precisão e confiabilidade da mensuração.


O treinamento contínuo pode ocorrer em intervalos regulares e pré-programados (ex.: toda sexta de
manhã) ou aleatoriamente.

Influências Não Intencionais nos Observadores

Idealmente, os dados registrados pelos observadores têm sido influenciados apenas pelas
ocorrências e não ocorrências de fato do comportamento alvo que eles foram treinados para mensurar.
Na realidade, entretanto, uma variedade de influências não intencionais e indesejadas nos
observadores podem ameaçar a precisão e a confiabilidade dos dados que eles relatam. Causas
comuns desse tipo de erro de mensuração incluem suposições que um observador pode ter sobre
resultados esperados de um dado e consciência de um observador que outros estão mensurando o
mesmo comportamento.

Expectativas do Observador

Expectativas do observador que o comportamento alvo pode ocorrer em um certo nível sob
condições particulares, ou mudança quando uma mudança no ambiente tiver sido feita, representam
uma grande ameaça pra a exatidão da mensuração. Por exemplo, se um observador acredita ou supõe
que a implementação por um professor de uma economia de fichas deve diminuir a frequência de
comportamentos inadequados de um estudante, ele pode registrar menos comportamentos
inadequados durante a condição de reforçamento por fichas que ele deveria ter registrado sem ter
aquela expectativa. Dados influenciados pelas expectativas ou esforços de um observador para obter
resultados que vão satisfazer o pesquisador são caracterizados por viés na mensuração.

A maneira mais segura de minimizar viés na mensuração causado pelas expectativas do


observador é usar observadores ingênuos. Um observador totalmente ingênuo é um observador
treinado que não está consciente do propósito do estudo e/ou as condições experimentais em efeito
durante uma determinada fase ou período de observação. Pesquisadores devem informar os
aprendizes a observador que eles vão receber informações limitadas sobre o propósito do estudo e
porque vai ser assim. Entretanto, manter a ingenuidade dos observadores é geralmente difícil e as
vezes impossível.

Quando os observadores estão conscientes do propósito ou resultados hipotéticos de uma


investigação, o viés na mensuração pode ser minimizado ao usar definições do comportamento alvo
e de procedimentos de registro que vão dar uma figura conservadora do comportamento (ex.: registro
de intervalo total de comportamento na tarefa com intervalos de 10 segundos em vez de 5 segundos),
ao promover discussão repetida e franca com os observadores sobre a importância de coletar dados
precisos, e ao fornecer feedback frequente para os observadores sobre a extensão na qual os dados
coletados concordam com os valores ou dados reais obtidos por observadores que são ingênuos. Os
observadores não devem receber feedback sobre a extensão na qual seus dados confirmam ou vão de
encontro com os resultados hipotéticos ou objetivos do tratamento.

Reatividade do Observador

O erro de mensuração que é resultado da consciência do observador de que outros estão


avaliando os dados que ele relata é chamado de reatividade do observador. Como a reatividade que
pode ocorrer quando os participantes são conscientes de que seus comportamentos estão sendo
13
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

observados, o comportamento dos observadores (os dados que eles registram e relatam) pode ser
influenciado pelo conhecimento de que outros estão avaliando seus dados. Por exemplo, saber que o
pesquisador ou outro observador está olhando para o mesmo comportamento ao mesmo tempo, ou
que vai monitorar a mensuração por meio de vídeo – ou gravador de som – pode produzir reatividade
do observador. Se o observador antecipar que outro observador vai registrar o comportamento de
certa maneira, seus dados podem ser influenciados pelo que ele antecipa que o outro observador pode
registrar.

Monitorar os observadores da maneira mais discreta possível em uma programação


imprevisível ajuda a reduzir a reatividade do observador. Separar múltiplos observadores pela
distância ou partição reduz a probabilidade de suas medidas serem influenciadas pelo outro durante
uma observação. Espelhos de um lado em alguns ambientes clínicos e de pesquisa eliminam o contato
visual entre os observadores primários e secundários. Se as sessões são gravadas, o observador
secundário consegue mensurar o comportamento em um momento posterior e o observador primário
nunca tem que entrar em contato com o observador secundário. Em ambientes nos quais o espelho
de um lado não é possível, e onde a gravação de vídeo ou áudio pode ser intrusiva, o observador
secundário pode começar a mensurar o comportamento em um momento desconhecido para o
observador primário. Por exemplo, se o observador primário começar a mensurar comportamento no
primeiro intervalo, o observador secundário poderia começar a mensurar o comportamento depois de
10 minutos terem passado. Os intervalos usados para comparações iriam começar na marca de 10
minutos, ignorando os intervalos que o observador primário registrou anteriormente.

Avaliando a Precisão e Confiabilidade da Mensuração Comportamental

Após programar um sistema de mensuração que vai produzir uma representação válida do
comportamento alvo e treinar observadores para usá-lo de maneira que provavelmente vai produzir
dados confiáveis e precisos, as próximas tarefas do pesquisador relacionadas a mensuração são
avaliar a extensão na qual, de fato, os dados são confiáveis e precisos. Em essência, todos os
procedimentos para avaliar a precisão e a confiabilidade dos dados comportamentais implicam em
alguma forma de “mensurar o sistema de mensuração”.

Avaliando a Precisão da Mensuração

A mensuração é precisa quando os valores observados (os números obtidos ao mensurar um


evento) combinam com os valores reais do evento. A razão fundamental para determinar a precisão
dos dados é óbvia: ninguém quer basear suas conclusões d e pesquisa ou decisões de tratamento em
dados errôneos. Mais especificamente, conduzir avaliações de precisão serve para quatro propósitos
relacionados. Primeiro, é importante determinar cedo em uma análise se os dados são bons o
suficiente para servirem como base para tomar decisões experimentais ou de tratamento. A primeira
pessoa que o pesquisador ou praticante deve tentar convencer de que os dados são precisos é ele
mesmo. Segundo a avaliação de precisão permite a descoberta e correção de instâncias específicas
de erro na mensuração. As duas outras abordagens para avaliar a qualidade dos dados que vão ser
discutidas mais para frente nesse capítulo – avaliações de confiabilidade e concordância entre
observadores - podem alertar o pesquisador em relação a probabilidade de erros na mensuração, mas
nenhuma das duas abordagens identifica erros. Apenas a avaliação direta da precisão da mensuração
permite que os praticantes ou pesquisadores aplicados detectem e corrijam dados errôneos.
14
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

Uma terceira razão para conduzir avaliações de precisão é revelar padrões consistentes de
erro na mensuração, o que pode levar para uma melhora geral ou calibragem do sistema de
mensuração. Quando o erro na mensuração é consistente no seu valor e direção, os dados podem ser
ajustados para compensar o erro. Por exemplo, saber que o computador da bicicleta de John
confiavelmente obteve uma medida de 68 milhas para uma rota com valor real de 58 milhas leva não
apenas aos ciclistas corrigirem os dados em mãos (nesse caso, confessar um para o outro e para o
amigo Lee que eles não tinham percorrido tantas milhas quanto eles tinham previamente afirmado)
mas também a calibrar o instrumento de mensuração para que medid as futuras sejam mais precisas
(nesse caso, ajustar a configuração da circunferência da roda no computador da bicicleta de John).

Calibrar qualquer ferramenta de mensuração, seja ela um dispositivo mecânico ou um


observador humano, implica comparar os dados obtidos pela ferramenta com o valor real. A med ida
obtida pelo odômetro de roda do Departamento de Transporte serviu como valor real para calibrar o
computador da bicicleta do John. A calibragem de um dispositivo de tempo como um timer ou um
cronômetro pode ser feita em relação a um padrão conhecido: o “relógio atômico”4 . Se nenhuma
diferença for detectada ao comparar o dispositivo de tempo com o relógio atômico, ou se as diferenças
são toleráveis para os propósitos desejados para a mensuração, a calibragem é satisfeita. Se diferenças
significativas forem encontradas, o dispositivo de tempo teria que ser resetado para o seu padrão.
Nós recomendamos avaliações frequentes de precisão nos estágios iniciais de uma análise. Então, se
as avaliações tem produzido alta precisão, avaliações menos frequentes podem ser conduzidas para
checar a calibragem dos gravadores.

Uma quarta razão para conduzir avaliações de precisão é garantir aos consumidores de que
os dados são exatos. Incluir os resultados de avaliações de precisão no relatório de pesquisa ajuda os
leitores a julgarem a confiabilidade dos dados sendo oferecidos para interpretação.

Estabelecendo Valores Reais

“Existe apenas uma maneira de avaliar a precisão de um conjunto de medidas – ao comparar


os valores observados com os valores reais. A comparação é relativamente fácil; geralmente, o
desafio é obter medidas para o comportamento que possam ser legitimamente consideradas valores
reais” (Johnston e Pennypacker, 1993a, p.138). Como definido anteriormente, um valor real é uma
medida obtida por procedimentos que são independentes e diferentes dos procedimentos que
produziram os dados que estão sendo avaliados e pelos quais o pesquisador tem tido “cuidado
especial ou extraordinário para garantir que todas as fontes de erro tenham sido evitadas ou
removidas” (p.136).

Valores reais para alguns comportamentos são evidentes e universalmente aceitos. Por
exemplo, obter os valores reais de respostas corretas em áreas acadêmicas como matemática e soletrar
é bem direto. A resposta correta para o problema matemático 2 + 2 =? tem um valor real de 4, e o
Dicionário Oxford de Língua Inglesa é uma fonte de valores reais para avaliar a precisão de mensurar
a soletração de palavras em inglês5 . Ainda que não seja universal, valores reais para muitos
comportamentos de interesse socialmente relevantes que vão ser aplicados por pesquisadores e
praticantes podem ser estabelecidos condicionalmente em um contexto local. Por exemplo, a resposta
correta para a questão “nomeie os três amidos recomendados para engrossar gordura de frigideira”
em um teste dado a estudantes em uma escola culinária não tem um valor real universal. Apesar disso,
4 A hora oficial nos Estados Unidos pode ser acessada através do National Bureau of Standards e do relógio atômico
do Observatório Naval dos Estados Unidos (na verdade, 63 relógios atômicos são calculados em média para determina r
a hora oficia l): http: //tycho.usno.navy.mil /what1.html. O relógio atômico tem precisão de 1 bilionésimo de segundo
por dia, ou 1 segundo a cada 6 milhões de anos!

5 A grafia preferida de uma palavra pode mudar (por exemplo, judgement torna-se judgment), mas, em tais casos, um
novo valor verdadeiro é estabelecido.
15
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

um valor real relevante para o estudante realizar o teste pode ser encontrado nos materiais de curso
do estudante.

Valores reais para cada um dos exemplos anteriores foram obtidos por meio de fontes
independentes das medidas a serem avaliadas. Estabelecer valores reais para muitos comportamentos
estudados pela análise do comportamento aplicada é difícil porque o processo para determinar um
valor real deve ser diferente dos procedimentos de mensuração usados para obter os dados que
alguém deseja comparar ao valor real. Por exemplo, determinar valores reais para ocorrências de um
comportamento como o de crianças brincar cooperativamente é difícil porque a única maneira de
agregar valores para o comportamento é mensurá-lo com os mesmos procedimentos de mensuração
usados para produzir os dados.

Pode ser fácil confundir valores reais com valores que apenas parecem ser valores reais. Por
exemplo, suponha que quatro observadores bem treinados e com experiência vejam uma gravação de
interações do professor e do estudante. A tarefa deles é identificar o valor real de todas as instâncias
do elogio do professor contingente a conquistas acadêmicas. Cada observador assiste a gravação
independente e conta todas as ocorrências de elogios contingentes do professor. Após registrar suas
respectivas observações, os quatro observadores compartilham suas medidas, discutem acordos e
sugerem razões para os desacordos. Os observadores registram de maneira independente o elogio
contingente por uma segunda vez. Mais uma vez eles compartilham e discutem seus resultados. Após
repetir o processo de registrar e compartilhar várias vezes, todos os observadores concordam que eles
tem registrado todas as instâncias do elogio do professor. Entretanto, os observadores não produziram
um valor real do elogio do professor por duas razões: (1) Os observadores não podiam calibrar suas
mensurações do elogio do professor para um padrão independente de elogio do professor, e (2) o
processo usado para identificar todas as instâncias do elogio do professor pode ser enviesado (um
dos observadores pode ter convencido outros de que suas medidas representavam o valor real).
Quando valores reais não podem ser estabelecidos, pesquisadores devem se basear em avaliações de
confiabilidade e medidas de acordo entre observadores para avaliar a qualidade dos seus dados.

Procedimentos de Avaliação de Precisão

Determinar a precisão de uma mensuração é um processo objetivo que consiste em calcular


a correspondência de cada medida, ou dado, avaliada em relação ao seu valor real. Por exemplo, um
praticante ou pesquisador avaliando a precisão do resultado da performance de um estudante em um
teste de soletração de 30 palavras iria comparar o resultado do estudante para cada palavra do teste
com o valor real encontrado no dicionário para aquela palavra. Cada palavra no teste que
correspondeu a sequência correta de letras (ortografia) fornecida pelo dicionário e foi marcada correta
pelo estudante iria ser uma medida precisa pelo estudante, assim como cada palavra que não
combinasse com a ortografia do dicionário seria marcada como incorreta. Se os resultados originais
do estudante em 29 das 30 palavras correspondesse aos valores reais para essas palavras, a medida
do estudante teria a precisão de 96.7%.

Ainda que um pesquisador ou praticante individual consiga avaliar a precisão dos dados que
ele coletou, geralmente são usados múltiplos observadores independentes. Brown, Dunne e Cooper
(1996) descreveram os procedimentos que eles usaram para avaliar a precisão da mensuração em um
estudo de compreensão de leitura oral des maneira a seguir:
16
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

Um observador independente revisou uma gravação de áudio de um estudante


recontando oralmente com atraso de um minuto todo dia para avaliar nossa precisão da
mensuração, fornecendo uma avaliação para a extensão com a qual nossas contagens de
recontagens atrasadas se aproximaram do valor real de recontagens corretas e incorretas. O
observador independente selecionou a gravação de áudio de cada dia ao tirar o nome de um
estudante de dentro de um chapéu, depois escutou a gravação e registrou recontagens corretas
e incorretas usando as mesmas definições do professor. Se tinha uma discrepância entre esses
resultados, o observador e o professor revisavam a fita (i.e., o valor real) juntos para identificar
a fonte da discrepância e corrigiam o erro de contagem na folha de registro e no Gráfico de
Aceleração Padrão. O observador também usou um cronômetro para medir a duração da
gravação de áudio para garantir a precisão dos tempos. Nós planejamos ter o professor
recontando o tempo da apresentação ou recontagem e recalculando a frequência por minuto de
cada discrepância de tempo de mais de 5 segundos. Todos os tempos, entretanto, alcançaram
a definição de precisão de 5 segundos. (p. 392)

Relatando Avaliações de Precisão

Em adição a descrever procedimentos usados para avaliar a precisão dos dados, pesquisadores
devem relatar o número e a porcentagem de med idas que foram checadas para precisão, o grau de
precisão encontrada, a extensão do erro na mensuração detectado, e se esses erros na mensuração foram
corrigidos nos dados. Brown e colegas (1996) usaram a seguinte narrativa para relatar os resultados da
sua avaliação de precisão:

O observador independente e o professor alcançaram acordo de 100% em 23 de


37 sessões checadas. O professor e o observador revisaram a gravação juntos para
identificar a fonte dos erros na mensuração para as 14 sessões contendo discrepâncias na
mensuração e corrigiram os erros na mensuração. Dados precisos das 37 sessões revisad as
foram então colocados nos Gráficos de Aceleração Padrão. A magnitude dos erros de
mensuração foi muito pequena, geralmente uma diferença de 1 a 3 discrepâncias. (p. 392)

Uma descrição completa e o relato dos resultados de uma avaliação de precisão ajudam os
leitores do estudo a avaliar a precisão de todos os dados inclusos no relatório. Por exemplo, suponha
que um pesquisador relatou que ele conduziu testes de precisão em 20% de dados aleatoriamente
selecionados, descobriu que essas medidas eram 97% precisas com 3% de erro não enviesado, e
corrigiu os dados avaliados como necessário. Um leitor do estudo saberia que 20% dos dados são
100% precisos e ficaria razoavelmente confiante de que os 80% de dados restantes (todos as medidas
que não tiveram precisão checada) seriam 97% precisos.

Avaliando a Confiabilidade da Mensuração

A mensuração é confiável quando ela produz os mesmos valores através de medidas repetidas
do mesmo evento. A confiabilidade é estabelecida quando o mesmo observador mede o mesmo
conjunto de dados repetidamente a partir de produtos de resposta arquivados como produtos
audiovisuais e outras formas de produtos permanentes. Quanto mais frequente um padrão de
observação é produzido, mais confiável é a mensuração (Thompson et al., 2000). Por outro lado, se
não forem alcançados valores observados similares com repetidas observações, os dados são
considerados não confiáveis. Isso leva a uma preocupação sobre a precisão, que é o indicador primário
de uma mensuração de qualidade.

Mas, como nós temos apontado repetidamente, dados confiáveis não são necessariamente
dados precisos. Como os ciclistas descobriram, a mensuração totalmente confiável (consistente) pode
17
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

estar completamente errada. Basear-se na confiabilidade da mensuração como fundação para


determinar a precisão da mensuração seria, como o filósofo Wittgenstein (1953) afirmou, “Como se
alguém compreasse várias cópias do jornal matinal para garantir que ele estava dizendo a verdade”
(p.94).

Em muitos estudos de pesquisa e na maioria d as aplicações práticas, entretanto, checar a


precisão de cada medida não é possível ou viável. Em outros casos, pode ser difícil estabelecer valores
reais para as medidas do comportamento alvo. Quando confirmar a precisão de cada dado não for
possível ou prático, ou quando valores reais não estiverem disponíveis, saber que um sistema de
mensuração tem sido aplicado com um alto grau de consistência contribui para a confiança na
credibilidade geral dos dados. Ainda que alta confiança não possa confirmar alta precisão, descobrir
um nível baixo de confiança sinaliza que então os dados são suspeitos o suficiente para serem
descartados até que os problemas no sistema de mensuração sejam determinados ou reparados.

Avaliar a confiabilidade da mensuração comportamental exige um produto permanente


natural ou artificial para que o observador consiga remensurar os mesmos eventos. Por exemplo, a
confiabilidade da mensuração de variáveis como o número de adjetivos ou verbos de ação nas redações
dos estudantes poderia ser alcançada ao fazer um observador repontuar as redações. A confiabilidade
da mensuração do número e tipo de ajuda na resposta e afirmações de feedback feitas pelos pais para
os seus filhos na mesa de jantar poderia ser avaliada ao fazer um observador assistir de novo e
repontuar gravações da hora da refeição da família e comparar os dados obtidos a partir das duas
mensurações.

Os observadores não devem remensurar o mesmo produto permanente logo após mensurá-lo
pela primeira vez. Fazer isso pode resultar nas medidas da segunda pontuação serem influenciadas
pelo que o observador lembrou da pontuação original. Para evitar essa influência indesejada, um
pesquisador pode inserir várias redações previamente pontuadas ou colocar as gravações
aleatoriamente em uma sequência de “novos dados” sendo registrados pelos observadores.

Usando Acordo Entre Observadores para Avaliar Mensuração Comportamental

O acordo (consenso) entre observadores é o indicador mais comumente utilizado de qualidade


de mensuração na análise do comportamento aplicada. O acordo entre observadores (IOA) se refere
ao grau com o qual dois ou mais observadores independentes registram os mesmos valores observados
após mensurar os mesmos eventos. Existem várias técnicas para calcular o IOA, cada uma fornece de
alguma forma uma visão diferente da extensão e natureza do acordo e desacordo entre observadores
(e.g., Hartmann, 1977; Hawkins e Dotson, 1975; Page e Iwata, 1986; Poling, Methot e LeSage, 1995;
Repp, Dietz, Boles, Dietz e Repp, 1976)

Benefícios e Usos do IOA

Obter e registrar o consenso ente observadores serve para quatro propósitos distintos.
Primeiramente, um certo nível de IOA por ser usado como base para determinar a competência de
novos observadores. Como dito anteriormente, um alto grau de consenso entre um observador recém
treinado e um observador experiente fornece um indicador objetivo da extensão com a qual o novo
observador está mensurando o comportamento da mesma maneira que observadores experientes.
18
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

Segundo, a avaliação sistemática do IOA ao longo do curso de um estudo pode detectar


desvios do observador. Quando observadores que obtiveram os mesmos, ou quase os mesmos, valores
observados ao mensurar os mesmos eventos comportamentais no começo de um estudo (IOA era alto)
obtem medidas diferentes dos mesmos eventos posteriormente no estudo (agora o IOA está baixo), um
dos observadores pode estar usando uma definição do comportamento alvo que tem se desviado.
Avaliações deterioradas de IOA não conseguem indicar com precisão qual dos dados do observador
está sendo influenciado pelo desvio (ou qualquer outra razão para desacordo), mas a informação revela
a necessidade de uma avaliação futura sobre os dados e/ou um retreinamento e uma calibragem dos
observadores.

Terceiro, sabendo que dois ou mais observadores obtiveram consistentemente dados similare s
aumenta a confiança de que a definição do comportamento alvo foi clara e não ambígua e o código e
sistema de mensuração não foram muito complicados. Quarto, para estudos que empregam múltiplos
observadores como coletores de dados, níveis altos e consistentes de IOA aumentam a confiança de
que a variabilidade dos dados não é uma função relacionada a qual observador estava de serviço em
uma determinada sessão, e, portanto, as mudanças nos dados têm mais probabilidade de refletir
mudanças reais no comportamento.

As duas primeiras razões para avaliar IOA são proativas: Elas ajudam os pesquisadores a
determinar e descrever o grau com o qual os observadores tem alcançado o critério de treinamento e
detectar possíveis desvios no uso do sistema de mensuração pelo observador. Os dois segundos
propósitos ou benefícios do IOA são como descritores somativos da consistência da medição entre os
observadores. Ao registrar os resultados das avaliações de IOA, os pesquisadores permitem com que
os consumidores julguem a confiabilidade relativa dos dados como digna de confiança e merecedora
de interpretação.

Requisitos para Obter Medidas Válidas de IOA

Uma avaliação válida de IOA depende de três critérios igualmente importantes. Ainda que
esses critérios talvez sejam óbvios, não é menos importante deixá-los explícitos. Dois observadores
(geralmente dois, mas pode ser mais) devem (a) usar o mesmo código d e observação e sistema de
mensuração, (b) observar e registrar o comportamento independente de qualquer influência um do
outro.

Os Observadores Devem Usar O Mesmo Sistema De Medição

As avaliações de concordância entre observadores conduzidas por qualquer um dos quatro


motivos previamente declarados requerem que os observadores usem as mesmas definições do
comportamento do alvo, procedimentos e códigos de observação e dispositivos de medição. Além de
usar o mesmo sistema de medição, todos os observadores que participam das medidas IOA usadas para
avaliar a credibilidade dos dados (em oposição à avaliação do desempenho dos observadores em
treinamento) devem ter recebido treinamento idêntico com o sistema de medição e alcançado o mesmo
nível de competência em usá-lo.

Os Observadores Devem Medir Os Mesmos Eventos

Os observadores devem ser capazes de observar o (s) mesmo (s) sujeito (s) precisamente nos
mesmos intervalos e períodos de observação. O IOA para dados obtidos por medição em tempo real
19
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

requer que ambos os observadores estejam na configuração simultaneamente. Os observadores em


tempo real devem ser posicionados de forma que cada um tenha uma visão semelhante do (s) sujeito
(s) e do ambiente. Dois observadores sentados em lados opostos de uma sala de aula, por exemplo,
podem obter medidas diferentes porque os diferentes pontos de vista permitem que apenas um
observador veja ou ouça algumas ocorrências do comportamento alvo.

Os observadores devem começar e terminar o período de observação precisamente ao mesmo


tempo. Mesmo uma diferença de alguns segundos entre os observadores pode produzir divergências
de medição significativas. Para remediar esta situação, os dispositivos de cronometragem podem ser
iniciados simultaneamente e fora da configuração de observação, mas antes do início da coleta de
dados, com o entendimento de que a coleta de dados iria realmente começar em um tempo pré-
determinado (por exemplo, exatamente no início de no quinto minuto). Alternativamente, mas menos
desejavelmente, um observador poderia sinalizar ao outro no momento exato em que a observação
deve começar.

Um procedimento comum e eficaz é que ambos os observadores ouçam por fones de ouvido
uma fita de áudio de pistas pré-gravadas, sinalizando o início e o fim de cada intervalo de observação.
Um dispositivo divisor de baixo custo que permite que dois fones de ouvido sejam plugados no mesmo
gravador permite que os observadores recebam dicas simultâneas de forma discret a e sem depender
um do outro.

Ao avaliar o IOA para dados obtidos de produtos permanentes, os dois observadores não
precisam medir o comportamento simultaneamente. Por exemplo, cada um dos observadores pode
assistir e registrar dados do mesmo vídeo ou fita de áudio em momentos diferentes. Procedimentos
devem ser implementados, entretanto, para garantir que cada observador assistiu ou ouviu as mesmas
fitas e que eles iniciaram e interromperam suas observações independentes precisamente no (s) mesmo
(s) ponto (s) das fitas. Garantir que dois observadores medem os mesmos eventos quando o
comportamento alvo produz produtos permanentes naturais, como atribuições acadêmicas concluídas
ou aplicativos fabricados, incluiria procedimentos como marcar claramente o número da sessão, data,
condição e nome do sujeito no produto e protegendo os produtos de resposta para garantir que eles não
sejam perturbados até que o segundo observador tenha obtido sua medida.

Os Observadores Devem Ser Independentes

O terceiro ingrediente essencial para uma avaliação IOA válida é garantir que nenhum dos
observadores seja influenciado pelas medições do outro. Os procedimentos devem estar em vigor para
garantir a independência de cada observador. Por exemplo, observadores que realizam medições de
comportamento em tempo real “devem estar situados de forma que não possam ver nem ouvir quando
o outro observa e registra uma resposta” (Johnston & Penypacker, 1993a, p. 147). Os observadores
não devem estar sentados ou posicionados tão próximos uns dos outros que qualquer um dos
observadores possa detectar ou ser influenciado pelas gravações do outro observador.

Dar ao segundo observador planilhas acadêmicas ou tarefas escritas que já foram marcadas
por outro observador violaria a independência dos observadores. Para manter a independência, o
segundo observador deve pontuar fotocópias de planilhas ou tarefas não adulteradas e não marcadas,
conforme concluídas pelos participantes.

Métodos Para Calcular IOA


20
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

Existem vários métodos para calcular IOA, cada um dos quais fornece uma visão um pouco
diferente da extensão e natureza da concordância e discordância entre observadores (por exemplo,
Hartmann, 1977; Hawkins & Dotson, 1975; Page & Iwata, 1986; Poling, Methot, & LeSage, 1995;
Repp, Dietz, Boles, Dietz, & Repp, 1976). A seguinte explicação sobre os diferentes formatos de IOA
é organizada pelos três métodos principais para medir dados comportamentais: registro de eventos,
tempo e registro de intervalo ou amostragem de tempo. Embora outras estatísticas sejam usadas às
vezes, a porcentagem de concordância entre observadores é de longe a convenção mais comum para
relatar IOA na análise de comportamento aplicada 6. Portanto, fornecemos a fórmula para calcular uma
porcentagem de concordância para cada tipo de IOA.

IOA Para Dados Obtidos Por Registro De Evento

Os vários métodos para calcular a concordância entre observador para dados obtidos por
registro de eventos são baseados na comparação (a) a contagem total registrada por cada observador
por período de medição, (b) as contagens registradas por cada observador durante cada uma de uma
série de intervalos menores de tempo dentro do período de medição, ou (c) cada contagem de
observador de 1 ou 0 em uma base de tentativa-por-tentativa.

IOA Contagem total7 : O indicador mais simples e bruto de IOA para dados de registro de
eventos compara a contagem total registrada por cada observador por período de medição. A IOA
contagem total é expressa como uma porcentagem de concordância entre o número total de respostas
registradas por dois observadores e é calculada dividindo a menor das contagens pela maior contagem
e multiplicando por 100, conforme mostrado por esta fórmula.
Contagem menos
 100 = IOA contagem total %
Contagem maior

Por exemplo, suponha que uma trabalhadora de cuidados infantis em um ambiente residencial
registrou que Mitchell de 9 anos de idade usou linguagem profana 10 vezes durante um período de
observação de 30 minutos e que um segundo observador registrou que Mitchell praguejou 9 vezes
durante o mesmo período. A contagem total de IOA para o período de observação seria 90% (ou seja,
9  10  100 = 90%).

Deve-se ter muito cuidado ao interpretar a IOA contagem total porque um alto grau de
concordância não fornece nenhuma garantia de que os dois observadores registraram os mesmos casos
de comportamento. Por exemplo, o que se segue é uma das inúmeras maneiras que os dados relatados
pelos dois observadores que mediram o uso de linguagem profana por Mitchell podem não representar
nem perto de 90% de concordância de que mediram os mesmos comportamentos. A assistente social
poderia ter registrado todas as 10 ocorrências de linguagem profana em sua folha de dados durante os
primeiros 15 minutos do período de observação de 30 minutos, momento em que o segundo observador
registrou apenas 4 do total de 9 respostas que relatou.

6 IOA pode ser calculado por correlações produto-momento, que variam de +1,0 a -1,0. No entanto, expressar IOA por
coeficientes de correlação tem dois principais pontos negativos: (a) Coeficientes altos pode m ser alcançados se um
observador registrar consistentemente mais ocorrências do comportamento do que o outro e (b) os coeficien tes de
correlação não fornecem nenhuma garantia de que os observadores concordaram com a ocorrência de qualquer dado
exemplo de comportamento (Poling et al., 1995). Hartmann (1977) descreveu o uso de kappa (k) como uma medida de
IOA. A estatística k foi desenvolvida por Cohen (1960) como um procedimento para determinar a proporção de acordos
entre observadores que seriam esperados como resultado do acaso. No entanto, a estatística k raramente é relatada na
literatura de análise do comportamento.

7 Vários termos são usados na literatura de análise do comportamento aplicada para os mesmos métodos de cálculo de
IOA, e os mesmos termos às vezes são usados com significados diferentes. Acreditamos que os termos IOA usados
aqui representam as convenções mais usadas da disciplina. Em um esforço para apontar e preservar algumas distinções
significativas entre as variações das medidas IOA, introduzimos vários termos.
21
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

IOA Contagem média por intervalo: A probabilidade de que a concordância significativa


entre os dados de contagem dos observadores signifique que mediram os mesmos eventos pode ser
aumentada (a) dividindo o período total de observação em uma série de tempos de contagem menores,
(b) tendo os observadores registrar o número de ocorrências do comportamento em cada intervalo, (c)
calcular a concordância entre as contagens dos dois observadores em cada intervalo e (d) usar as
concordâncias por intervalo como base para calcular o IOA para a observação do período total. Os
dados hipotéticos mostrados na Figura 2 serão usados para ilustrar dois métodos de cálculo da
contagem por intervalo IOA: contagem média por intervalo e contagem exata por intervalo. Durante
um período de observação de 30 minutos, dois observadores computaram independentemente o
número de vezes que cada um testemunhou uma instância de um comportamento alvo durante cada
um dos seis intervalos de 5 minutos.

Embora cada observador registrasse um total de 15 respostas no período de 30 minutos, suas


planilhas de dados revelam um alto grau de discordância dentro do período de observação. Embora a
contagem total de IOA para todo o período de observação tenha sido de 100%, a concordância entre
os dois observadores em cada intervalo de 5 minutos variou de 0% a 100%, resultando em uma
contagem média de IOA por intervalo de 65,3%.

A IOA contagem média por intervalo é calculada por esta fórmula:


IOA int 1 + IOA int 2 + IOA int 3 = IOA Contagem média de por
Nº de intervalos intervalo %

IOA Contagem exata por intervalo: A descrição mais rigorosa de IOA para a maioria dos
conjuntos de dados obtidos pelo registro de eventos é obtida pelo cálculo da contagem exata de IOA
por intervalo - a porcentagem de intervalos totais em que dois observadores registraram a mesma
contagem. Os dois observadores cujos dados são mostrados na Figura 2 registraram o mesmo número
de respostas em apenas dois dos seis intervalos, uma contagem exata por intervalo IOA de 33%.

Figura 2 Dois métodos para calcular a concordância entre os observadores (IOA) para
dados de registro de eventos computados em intervalos de tempo menores.
Intervalo
Observador 1 Observador 2 IOA por intervalo
(Tempo)
1 (1:00–1:05) /// // 2/3 = 67%
2 (1:05–1:10) /// /// 3/3 = 100%
3 (1:10–1:15) / // 1/2 = 50%
4 (1:15–1:20) //// /// 3/4 = 75%
5 (1:20–1:25) 0 / 0/1 = 0%
6 (1:25–1:30) //// //// 4/4 = 100%
Contagem Contagem
IOA Contagem média por intervalo = 65.3%
total total
IOA Contagem exata por intervalo = 33%
= 15 = 15

A seguinte fórmula é usada para calcular a contagem exata por intervalo IOA:
Nº de intervalos com 100% de IOA = IOA Contagem exata por
Nº de intervalos intervalo
22
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

IOA tentativa-por-tentativa: A concordância entre dois observadores que mediram a


ocorrência ou não ocorrência de comportamentos de tentativas discretas para os quais a contagem para
cada tentativa, ou oportunidade de resposta, pode ser apenas 0 ou 1 pode ser calculada comparando as
contagens totais dos observadores ou comparando suas contagens em uma base de tentativa-por-
tentativa. O cálculo da contagem total de IOA para dados de tentativa discreta usa a mesma fórmula
que a contagem total de IOA para dados operantes livres: A menor das duas contagens relatadas pelos
observadores é dividida pela contagem maior e multiplicada por 100, mas neste caso o número de
tentativas para as quais cada observador registrou a ocorrência do comportamento é a contagem.
Suponha, por exemplo, que um pesquisador e um segundo observador mediram independentemente a
ocorrência ou não ocorrência do comportamento sorridente de uma criança durante cada uma das 20
tentativas em que o pesquisador mostrou à criança uma imagem engraçada. Os dois observadores
comparam as planilhas de dados no final da sessão e descobrem que gravaram sorrisos em 14 e 15
tentativas, respectivamente. A contagem total de IOA para a sessão é de 93% (ou seja, 14  15  100
= 93,3%), o que pode levar um pesquisador inexperiente a concluir que o comportamento alvo foi bem
definido e está sendo medido com consistência por ambos os observadores. Essas conclusões,
entretanto, não seriam garantidas.

A contagem total de IOA de dados de teste discretos está sujeita às mesmas limitações que a
contagem total de IOA de dados operantes livres: Ele tende a superestimar a extensão da concordância
real e não indica quantas respostas, ou quais respostas, tentativas ou itens, apresentaram problemas de
concordância. A comparação das contagens dos dois observadores de 14 e 15 tentativas sugere que
eles discordaram sobre a ocorrência de sorrir em apenas 1 de 20 tentativas. No entanto, é possível que
qualquer uma das 6 tentativas marcadas como "sem sorriso" pelo experimentador foi pontuada como
uma tentativa de "sorriso" pelo segundo observador e que qualquer uma das 5 tentativas registradas
pelo segundo observador como "sem sorriso" foi registrado como um “sorriso” pelo experimentador.
Assim, a contagem total de IOA de 93% pode superestimar amplamente a consistência real com a qual
os dois observadores mediram o comportamento da criança durante a sessão.

Um índice mais conservador e significativo de concordância entre observador para dad os de


tentativas discretas é o IOA tentativa-por-tentativa, que é calculado pela seguinte fórmula:
Nº de tentativas concordantes  100 = IOA tentativa-por-
Nº total de tentativas tentativa %

O IOA tentativa-por-tentativa para os dados de sorriso dos dois observadores, se calculado


com o pior grau possível de concordância do exemplo anterior - isto é, se todas as 6 tentativas que o
observador primário pontuou como "sem sorriso" foram registradas como tentativas de "sorriso" pelo
segundo observador e todas as 5 tentativas marcadas pelo segundo observador como "sem sorriso"
foram registradas como tentativas de "sorriso" pelo experimentador - seria 45% (ou seja, 9 tentativas
marcadas em concordância divididas por 20 tentativas  100).

IOA Para Dados Obtidos Por Tempo

A concordância interobservador para dados obtid os por duração de tempo, latência de


resposta ou tempo entre respostas (IRT) é obtida e calculada essencialmente da mesma maneira que
para dados de registro de eventos. Dois observadores cronometram independentemente a duração,
latência ou IRT do comportamento alvo, e IOA é baseado na comparação do tempo total obtido por
23
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

cada observador para a sessão ou os tempos registrados por cada observador por ocorrência do
comportamento (para medidas de duração) ou por resposta (para medidas de latência e IRT).

IOA Duração Total: é calculada dividindo-se a duração mais curta das duas relatadas pelos
observadores pela duração mais longa e multiplicando por 100.
Duração mais curta
 100 = duração total IOA %
Duração mais longa

Tal como acontece com a contagem total de IOA para dados de registro de eventos, IOA de
alta duração total não fornece garantia de que os observadores registraram as mesmas durações para
as mesmas ocorrências de comportamento. Isso ocorre porque um grau significativo de desacordo entre
os tempos dos observadores de respostas individuais pode ser cancelado na soma. Por exemplo,
suponha que dois observadores registraram as seguintes durações em segundos para cinco ocorrências
de um comportamento:
R1 R2 R3 R4 R5
Observador 1 35 15 9 14 17
(duração total = 90 segundos)
Observador 2 29 21 7 14 14
(duração total = 85 segundos)

A IOA duração total para esses dados é talvez um reconfortante 94% (ou seja, 85  90  100
= 94,4%). No entanto, os dois observadores obtiveram a mesma duração para apenas uma das cinco
respostas, e seus tempos de respostas específicas variaram em até 6 segundos. Ao reconhecer esta
limitação da duração total do IOA, quando a duração total está sendo registrada e analisada como uma
variável dependente, relatar a duração total do IOA é apropriado. Quando possível, a duração total do
IOA deve ser complementada com a duração média por ocorrência do IOA, que é descrito a seguir.

IOA Duração média por ocorrência: deve ser calculada para dados de duração por ocorrência,
e é uma avaliação mais conservadora e geralmente mais significativa de IOA para dados de duração
total. A fórmula para calcular a duração média por ocorrência de IOA é semelhante à usada para
determinar a contagem média por intervalo de IOA:
Dur IOA R1 + Dur IOA R2 + Dur IOA Rn  100 = IOA duração média
n de respostas IOA duração porocorrência %

Usar esta fórmula para calcular a IOA duração média por ocorrência para os dados de tempo
dos dois observadores das cinco respostas apresentadas implicaria nas seguintes etapas:

1. Calcule IOA duração por ocorrência para cada respota: R1, 29  35 = 0,83; R2, 15 
21 = 0,71; R3,7  9 = 0,78; R4, 14  14 = 1,0; e R5, 14  17 = 0,822.
2. Adicione as porcentagens IOA individuais para cada ocorrência: 0,83 + 0,71 + 0,78 +
1,00 + 0,82 = 4,143.
3. Divida a soma dos IOAs individuais por ocorrência pelo número total de respostas
para as quais dois observadores mediram a duração: 4,14  5 = 0,8284.
4. Multiplique por 100 e arredonde para o número inteiro mais próximo: 0,828  100 =
83%
24
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

Esta fórmula básica também é usada para calcular a IOA latência média por resposta ou IOA
IRT média por resposta para latência e dados IRT. Os tempos de latências ou IRTs de um observador
em uma sessão nunca devem ser adicionados e o tempo total comparado a um tempo total semelhante
obtido por outro observador como base para o cálculo de IOA para medidas de latência e IRT.

Além de relatar a concordância média por ocorrência, a avaliação IOA para dados de tempo
pode ser aprimorada com informações sobre a gama de diferenças entre os tempos dos observadores e
a porcentagem de respostas para as quais os dois observadores obtiveram medidas dentro de um certo
intervalo de erro. Por exemplo: A duração média por ocorrência de IOA para conformidade de Temple
foi de 87% (variação entre as respostas, 63 a 100%), e 96% de todos os tempos obtidos pelo segundo
observador estavam dentro de +/– 2 segundos do observador principal medidas.

IOA Para Dados Obtidos Por Registro De Intervalo / Amostragem De Tempo

Três técnicas comumente usadas por analistas de comportamento aplicados para calcular IOA
para dados de intervalo são IOA de intervalo por intervalo, IOA de intervalo pontuado e IOA de
intervalo não pontuado.

IOA intervalo por intervalo: Ao usar IOA intervalo por intervalo (às vezes referido como o
ponto a ponto e método de intervalo total), o registro do observador primário para cada intervalo é
combinado com o registro do observador secundário para o mesmo intervalo. A fórmula para calcular
IOA intervalo a intervalo é a seguinte:
Número de intervalos em acordo
 100 = IOA intervalo por
Número de intervalos em acordo + Número
intervalo %
de intervalos em desacordo

Os dados hipotéticos na Figura 3 mostram o método intervalo a intervalo para cálculo de IOA
com base no registro de dois observadores que registraram a ocorrência (X) e a não ocorrência (0) do
comportamento em cada um dos 10 intervalos de observação. As fichas de dados dos observadores
mostram que eles concordaram sobre a ocorrência ou não ocorrência do comportamento por sete
intervalos (Intervalos 2, 3, 4, 5, 7, 9 e 10). Intervalo por intervalo IOA para este conjunto de dados é
70% (ou seja, 7  [7 + 3]  100 = 70%).

Figura 3 Ao calcular IOA intervalo a intervalo, o número de intervalos em que ambos os


observadores concordaram sobre a ocorrência ou não ocorrência do comportamento
(intervalos sombreados) é dividido pelo número total de intervalos de observação. IOA
de intervalo a intervalo para os dados mostrados aqui é de 70% (7/10).

IOA intervalo por intervalo


Nº intervalo 1 2 3 4 5 6 7 8 9 10
Observador 1 x x x 0 x x 0 x x 0
Observador 2 0 x x 0 x 0 0 0 x 0

X = comportamento foi registrado como ocorrendo durante o intervalo


0 = comportamento foi registrado como não ocorrendo durante o intervalo
25
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

O IOA intervalo a intervalo provavelmente superestima a concordância real entre os


observadores que medem os comportamentos que ocorrem em taxas muito baixas ou muito altas. Isso
ocorre porque o IOA intervalo a intervalo está sujeito a acordo aleatório ou acidental entre os
observadores. Por exemplo, com um comportamento cuja frequência real de ocorrência é de apenas
cerca de 1 ou 2 intervalos por 10 intervalos de observação, mesmo um observador mal treinado e não
confiável que perde algumas das poucas ocorrências do comportamento e registra erroneamente o
comportamento como ocorrendo em alguns intervalos em que o comportamento não ocorreu
provavelmente marcarão a maioria dos intervalos como não ocorrências. Como resultado dessa
concordância casual, o IOA intervalo a intervalo provavelmente será bastante alto. Dois métodos de
IOA que minimizam os efeitos de acordos fortuitos para dados de intervalo em comportamentos que
ocorrem em taxas muito baixas ou muito altas são IOA de intervalo pontuado e IOA de intervalo não
pontuado (Hawkins & Dotson, 1975).

IOA com intervalo pontuado: Apenas os intervalos em que um ou ambos os observadores


registraram a ocorrência do comportamento do alvo são usados no cálculo do IOA do intervalo
pontuado. Uma concordância é contada quando ambos os observadores registraram que o
comportamento ocorreu no mesmo intervalo, e cada intervalo em que um observador registrou a
ocorrência do comportamento e o outro registrou sua não ocorrência é contado como discordância. Por
exemplo, para os dados mostrados na Figura 4, apenas os intervalos 1, 3 e 9 seriam usados no cálculo
do IOA de intervalo pontuado. Os intervalos 2, 4, 5, 6, 7, 8 e 10 seriam ignorados porque ambos os
observadores registraram que o comportamento não ocorreu nesses intervalos. Como os dois
observadores concordaram que o comportamento ocorreu em apenas um (Intervalo 3) dos três
intervalos pontuados, a medida IOA do intervalo pontuado é de 33% (1 intervalo de concordância
dividido pela soma de 1 intervalo de concordância mais 2 intervalos de discordância  100 = 33%).

Figura 4 O IOA de intervalo pontuado é calculado usando apenas os intervalos


em que um dos observadores registrou a ocorrência do comportamento (intervalos
sombreados). O intervalo de pontuação IOA para os dados mostrados aqui é de
33% (1/3)

IOA intervalo pontuado


Nº intervalo 1 2 3 4 5 6 7 8 9 10
Observador 1 x 0 X 0 0 0 0 0 0 0
Observador 2 0 0 x 0 0 0 0 0 x 0

X = comportamento foi registrado como ocorrendo durante o intervalo


0 = comportamento foi registrado como não ocorrendo durante o intervalo

Para comportamentos que ocorrem em taxas baixas, o IOA de intervalo pontuado é uma
medida de concordância mais conservadora do que o IOA de intervalo a intervalo. Isso ocorre porque
o IOA de intervalo pontuado ignora os intervalos nos quais a concordância por acaso é altamente
provável. Por exemplo, usar o método intervalo a intervalo para calcular IOA para os dados na Figura
4 resultaria em uma concordância de 80%. Para evitar medidas de IOA super infladas e possivelmente
enganosas, recomendamos o uso de concordância entre observador de intervalo pontuado para
comportamentos que ocorrem em frequências de aproximadamente 30% ou menos intervalos.

Intervalo não pontuado IOA: Apenas os intervalos em que um ou ambos os observadores


registraram a não ocorrência do comportamento do alvo são considerados no cálculo do IOA de
26
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

intervalo não pontuado. Uma concordância é contada quando ambos os observadores registraram a não
ocorrência do comportamento no mesmo intervalo, e cada intervalo em que um observador registrou a
não ocorrência do comportamento e o outro registrou sua ocorrência é contado como uma discordância.
Por exemplo, apenas os intervalos 1, 4, 7 e 10 seriam usados no cálculo do IOA de intervalo não
pontuado para os dados na Figura 5, porque pelo menos um observador registrou a não ocorrência do
comportamento em cada um desses intervalos. Os dois observadores concordaram que o
comportamento não ocorreu nos intervalos 4 e 7. Portanto, o intervalo não pontuado IOA neste exemplo
é 50% (2 intervalos de concordância divididos pela soma de 2 intervalos de concordância mais 2
intervalos de discordância  100 = 50%).

Para comportamentos que ocorrem em taxas relativamente altas, o IOA de intervalo não
pontuado fornece uma avaliação mais rigorosa da concordância entre os observadores do que o IOA
de intervalo a intervalo. Para evitar medidas de IOA super inflacionadas e possivelmente enganosas,
recomendamos o uso de concordância interobservador de intervalo não pontuado para comportamentos
que ocorrem em frequências de aproximadamente 70% ou mais dos intervalos.

Figura 5 IOA de intervalo sem pontuação é calculado usando apenas os intervalos


em que qualquer um dos observadores registrou a não ocorrência do
comportamento (intervalos sombreados). IOA intervalo não pontuado para os
dados mostrados aqui é de 50% (2/4)
IOA intervalo não pontuado
Nº intervalo 1 2 3 4 5 6 7 8 9 10
Observador 1 x x x 0 x x 0 x x 0
Observador 2 0 x x 0 x x 0 x x x

X = comportamento foi registrado como ocorrendo durante o intervalo


0 = comportamento foi registrado como não ocorrendo durante o intervalo

Considerações sobre a seleção, obtenção e relatório da concordância entre observadores

As diretrizes e recomendações que se seguem estão organizadas em uma série de questões


relativas ao uso da concordância entre observador para avaliar a qualidade da mensuração
comportamental.

Com Que Frequência E Quando O IOA Deve Ser Obtida?

A concordância entre observador deve ser avaliada durante cada condição e fase de um estudo
e ser distribuída entre os dias da semana, horários do dia, cenários e observadores. O agendamento das
avaliações IOA desta maneira garante que os resultados fornecerão uma imagem representativa (ou
seja, válida) de todos os dados obtidos em um estudo. A prática atual e as recomendações de autores
de textos de métodos de pesquisa comportamental sugerem que o IOA seja obtido para um mínimo de
20% das sessões de um estudo e, de preferência, entre 25% e 33% das sessões (Kennedy, 2005; Poling
et al., 1995). Em geral, os estudos que usam dados obtidos por meio de medição em tempo real terão
IOA avaliado para uma porcentagem maior de sessões do que estudos com dados obtidos de produtos
permanentes.

A frequência com que os dados devem ser avaliados a concordância entre os observadores
varia de acordo com a complexidade do código de medição, o número e a experiência dos observadores,
27
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

o número de condições e fases e os resultados das próprias avaliações IOA. Avaliações IOA mais
frequentes são esperadas em estudos que envolvem sistemas de medição novos ou complexos,
observadores inexperientes e numerosas condições e fases. Se métodos adequadamente conservadores
para obtenção e cálculo de IOA revelarem altos níveis de concordância no início de um estudo, o
número e a proporção de sessões nas quais o IOA é avaliado podem diminuir à medida que o estudo
avança. Por exemplo, a avaliação IOA pode ser realizada em cada sessão no início de uma análise e,
em seguida, reduzida a um cronograma de uma vez a cada quatro ou cinco sessões.

Para Quais Variáveis IOA Deve Ser Obtido E Relatado?

Em geral, os pesquisadores devem obter e relatar o IOA nos mesmos níveis em que relatam e
discutem os resultados de seu estudo. Por exemplo, um pesquisador que analisa os efeitos relativos de
duas condições de tratamento em dois comportamentos de quatro participantes em dois ambientes deve
relatar os resultados de IOA em ambos os comportamentos para cada participante, separados por
condição de tratamento e ambiente. Isso permitiria aos consumidores da pesquisa julgar a credibilidade
relativa dos dados dentro de cada componente do experimento.

Qual Método De Cálculo De IOA Deve Ser Usado?

Métodos mais rigorosos e conservadores de cálculo de IOA devem ser usados em vez de
métodos que provavelmente superestimam a concordância real como resultado do acaso. Com os dados
de registro de eventos usados para avaliar a precisão do desempenho, recomendamos relatar o IOA
geral de avaliação tentativa-por-tentativa ou base tentativa-por-tentativa, talvez complementado com
cálculos IOA separados para respostas corretas e respostas incorretas. Para dados obtidos por intervalo
ou medição de amostragem de tempo, recomendamos complementar IOA intervalo a intervalo com
IOA de intervalo pontuado ou IOA de intervalo não pontuado, d ependendo da frequência relativa do
comportamento. Em situações em que o observador primário pontua o comportamento-alvo como
ocorrendo em aproximadamente 30% ou menos intervalos, o IOA de intervalo pontuado fornece um
suplemento conservador para o IOA de intervalo a intervalo. Inversamente, quando o observador
primário pontua o comportamento-alvo como ocorrendo em aproximadamente 70% ou mais dos
intervalos, o IOA de intervalo não pontuado deve suplementar o IOA de intervalo a intervalo. Se a taxa
na qual o comportamento alvo ocorre muda de muito baixa para muito alta, ou de muito alta para muito
baixa, entre as condições ou fases de um estudo, relatar IOA com intervalo não pontuado e intervalo
pontuado pode ser garantido.

Em caso de dúvida sobre qual forma de IOA relatar, o cálculo e a apresentação de diversas
variações ajudarão os leitores a fazer seus próprios julgamentos quanto à credibilidade dos dados. No
entanto, se a aceitação dos dados para interpretação ou tomada de decisão repousa sobre qual fórmula
para calcular IOA é escolhida, existem sérias preocupações sobre a confiabilidade dos dados que devem
ser abordadas.

Quais São Os Níveis Aceitáveis De IOA?

Avaliações IOA cuidadosamente coletadas e calculadas de forma conservadora aumentam


cada vez mais a credibilidade de um conjunto de dados conforme a concordância se aproxima de 100%.
A convenção usual na análise do comportamento aplicada é esperar que observadores independentes
atinjam uma média de não menos que 80% de concordância ao usar o registro observacional. No
entanto, como Kennedy (2005) apontou, “Não há justificativa científica para o porquê de 80% ser
28
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

necessário, apenas uma longa história de pesquisadores usando esse percentual como um referencial
de aceitabilidade e tendo sucesso em suas atividades de pesquisa” (p. 120).

Miller (1997) recomendou que o IOA deveria ser 90% ou mais para uma medida estabelecida
e pelo menos 80% para uma nova variável. Vários fatores atuantes em uma determinada situação
podem tornar um critério de 80% ou 90% muito baixo ou muito alto. A concordância interobservador
de 90% sobre o número de palavras contidas nas redações dos alunos deve levantar questões sérias
sobre a confiabilidade dos dados. IOA próximo a 100% é necessário para aumentar a credibilidade dos
dados de contagem obtidos de produtos permanentes. No entanto, alguns analistas podem aceitar dados
com um IOA médio tão baixo quanto 75% para a medição simultânea de vários comportamentos por
vários sujeitos em um ambiente complexo, especialmente se for basead o em um número suficiente de
avaliações IOA individuais com um pequeno intervalo (por exemplo, 73 a 80%).

O grau de mudança de comportamento revelado pelos dados também deve ser considerado ao
determinar um nível aceitável de concordância entre os observadores. Quando a mudança de
comportamento de uma condição para outra é pequena, a variabilidade nos dados pode representar
mais a observação inconsistente do que a mudança real no comportamento. Portanto, quanto menor a
mudança no comportamento entre as condições, mais alto deve ser o critério para uma porcentagem de
IOA aceitável (Kennedy, 2005).

Como O IOA Deve Ser Relatado?

As pontuações de IOA podem ser relatadas em forma de narrativa, tabela e gráfico. Qualquer
que seja o formato escolhido, é importante observar como, quando e com que frequência a
concordância entre observador foi avaliada.

Descrição narrativa: A abordagem mais comum para relatar IOA é uma descrição narrativa
simples da média e intervalo das porcentagens de concord ância. Por exemplo, Craft, Alber e Heward
(1998) descreveram os métodos e resultados das avaliações IOA em um estudo em que quatro variáveis
dependentes foram medidas da seguinte forma:
Recrutamento de alunos e elogios aos professores. Um segundo observador esteve
presente em 12 (30%) das 40 sessões do estudo. Os dois observadores observaram independente
e simultaneamente os 4 alunos, registrando o núm ero de respostas de recrutamento que emitiram
e os elogios dos professores que receberam. As notas narrativ as descritivas registradas pelos
observadores permitiram que cada episódio de recrutamento fosse identificado para fins de
concordância. A concordância entre observador foi calculada episódio a episódio dividindo -se o
número total de concordâncias pelo núm ero total de concordâncias mais discordâncias e
multiplicando por 100%. A concordância para frequência de recrutamento de alunos variou entre
os alunos de 88,2% a 100%; a concordância quanto à frequência de elogios dos professores
recrutados foi de 100% pa ra todos os 4 alunos; concordância para frequência de elogios de
professores não recrutados variou de 93,3% a 100%.
Conclusão e precisão do trabalho acadêmico. Um segundo observador registrou
independentemente a conclusão do trabalho de cada aluno e a prec isão em 10 (25%) sessões. A
concordância entre servidores para preenchimento e precisão nas planilhas de ortografia foi de
100% para todos os 4 alunos.

Tabela: Um exemplo de relatórios de resultados de concordância entre observadores em


formato de tabela é mostrado na Tabela 1. Krantz e McClannahan (1998) relataram o intervalo e o IOA
médio calculado para três tipos de interações sociais por três crianças em cada condição experimental.
29
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

Tabela 1 Resultados de concordância interobservador para cada variável dependente por participante
e condição experimental

ª Não há dados disponíveis para respostas com script e elaborações na condição de desvanecimento do script,
porque a concordância entre os observadores f oi obtida depois que os scripts f oram removidos (ou seja, porque
os scripts estavam ausentes, poderia haver apenas respostas sem script).
Extraído de “Habilidades de interação social para crianças com autismo: um procedimento de desvanecimento
do script para leitores iniciantes”, por P. J. Krantz e L. E. McClannahan, 1998, Journal of Applied Behavior
Analysis, 31, p. 196. Copyright 1998 da Sociedade para a Análise Experimental do Comportamento, Inc.
Reproduzido com permissão.

Exibição gráfica: a concordância entre observador pode ser representada visualmente


traçando as medidas obtidas pelo observador secundário em um gráfico dos dados do observador
primário, conforme mostrado na Figura 6. Olhando para os dados de ambos os observadores no mesmo
gráfico, revela-se a extensão da concordância entre os observad ores e a existência de desvio ou viés do
observador. A ausência de deriva do observador é sugerida no estudo hipotético mostrado na Figura 6
porque as medidas do observador secundário mudaram de acordo com as medidas do observador
primário. Embora os dois observadores tenham obtido a mesma medida em apenas 2 das 10 sessões
em que o IOA foi avaliado (Sessões 3 e 8), o fato de nenhum dos observadores ter relatado
consistentemente medidas superiores ou inferiores às do outro sugere a ausência de viés do observador.
A ausência de viés é geralmente indicada por um padrão aleatório de superestimação e subestimação.
Além de revelar o desvio e o viés do observador, uma terceira maneira de exibir as avaliações IOA
graficamente pode aumentar a credibilidade da medição é ilustrada pelos dados da Figura 6. Quando
os dados relatados pelo observador principal mostram uma mudança clara no comportamento entre as
condições ou fases e todas as medidas relatadas pelo observador secundário dentro de cada fase caem
dentro da faixa de valores observados obtidos pelo observador principal, a confiança aumenta que os
dados representam mudanças reais no comportamento medido ao invés de mudanças no
comportamento do observador primário devido à deriva ou contingências extra experimentais.

Embora os relatórios de pesquisa publicados na análise de comportamento aplicada


raramente incluam exibições gráficas de medidas IOA, criar e usar tais exibições durante um estudo é
30
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

uma maneira simples e direta para os pesquisadores detectar padrões na consistência (ou
inconsistência) com os quais os observadores estão medindo o comportamento que pode não ser tão
evidente na comparação de uma série de porcentagens.

Figura 6 Medidas de
plotagem obtidas por um
segundo observador em um
gráfico dos dados do
observador primário
fornecem uma representação
visual da extensão e natureza
da concordância entre
observador.

Que Abordagem Deve Ser Usada Para Avaliar A Qualidade Da Medição: Exatidão,
Confiabilidade Ou Concordância entre observador?

Avaliações da precisão da medição, da confiabilidade da medição e até que ponto diferentes


observadores obtêm as mesmas medidas, cada um fornece diferentes indicadores da qualidade dos
dados. Em última análise, a razão para conduzir qualquer tipo de avaliação da qualidade da medição é
obter evidências quantitativas que possam ser usadas com o duplo propósito de melhorar a medição
durante o curso de uma investigação e julgar e convencer outras pessoas da confiabilidade dos dados.

Depois de garantir a validade do que estão medindo e como o estão medindo, os analistas do
comportamento aplicados devem escolher avaliar a precisão da medição sempre que possível, em vez
da confiabilidade ou concordância entre os observadores. Se for possível determinar que todas as
medições em um conjunto de dados atendem a um critério de precisão aceitável, as questões
relacionadas à confiabilidade da medição e à concordância entre observador são discutíveis. Para que
os dados sejam confirmados como precisos, não é necessário realizar avaliações adicionais de
confiabilidade ou IOA.

Quando a avaliação da precisão da medição não é possível porque os valores verdadeiros


não estão disponíveis, uma avaliação da confiabilidade fornece o próximo indicador de melhor
qualidade. Se produtos permanentes naturais ou planejados podem ser arquivados, analistas de
comportamento aplicados podem avaliar a confiabilidade da medição, permitindo que os consumidores
saibam que os observadores mediram o comportamento de forma consistente de sessão para sessão,
condição para condição e fase para fase.

Quando os valores verdadeiros e os arquivos permanentes do produto não estão disponíveis,


a concordância entre os observadores fornece um nível de credibilidade para os dados. Embora o IOA
não seja um indicador direto da validade, precisão ou confiabilidade da medição, ele provou ser uma
31
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

ferramenta de pesquisa valiosa e útil na análise do comportamento aplicada. O relato da concordância


entre os observadores tem sido um componente esperado e necessário da pesquisa publicada em análise
de comportamento aplicada por várias décadas. Apesar de suas limitações, “as medidas caseiras de
concordância do observador tão amplamente utilizadas no campo são exatamente relevantes” (Baer,
1977, p. 119) para os esforços para desenvolver uma tecnologia robusta de mudança de
comportamento.

A porcentagem de concordância, no paradigma de registro de intervalo, tem


um significado direto e útil: com que frequência dois observadores assistindo a um
sujeito e equipados com as mesmas definições de comportamento veem isso ocorrendo
ou não ocorrendo nos mesmos horários padrão? As duas respostas, “Eles concordam
sobre sua ocorrência X% dos intervalos relevantes, e sobre sua não ocorrência Y% dos
intervalos relevantes”, são extremamente úteis. (Baer, 1977, p. 118)

Não há motivos para evitar que os pesquisadores usem procedimentos de avaliação múltiplos
para avaliar o mesmo conjunto de dados. Quando o tempo e os recursos permitirem, pode até ser
desejável incluir combinações de avaliações. Os analistas de comportamento aplicados podem usar
qualquer combinação possível da avaliação (por exemplo, precisão mais IOA, confiabilidade mais
IOA). Além disso, alguns aspectos do conjunto de dados podem ser avaliados quanto à precisão ou
confiabilidade, enquanto outros aspectos são avaliados com IOA. O exemplo anterior de avaliação de
precisão relatado por Brown e colegas (1996) incluiu avaliações de precisão e IOA. Observadores
independentes registraram recontagens atrasadas de alunos corretas e incorretas. Quando o IOA era
inferior a 100%, os dados para aquele aluno e sessão foram avaliados quanto à precisão. O IOA foi
usado como uma avaliação para aumentar a credibilidade e também como um procedimento para
selecionar dados a serem avaliados quanto à precisão.

Resumo

Indicadores de medição confiável 4. A medição é confiável quando produz os


mesmos valores em medições repetidas do
1. Para ser mais útil para a ciência, a medição mesmo evento.
deve ser válida, precisa e confiável.
2. A medição válida em ABA engloba três Ameaças à validade da medição
elementos igualmente importantes: (a) medir
diretamente um comportamento alvo 5. A medição indireta - medir um
socialmente significativo, (b) medir uma comportamento diferente do comportamento
dimensão do comportamento alvo relevante de interesse - ameaça a validade porque
requer que o pesquisador ou profissional faça
para a questão ou preocupação sobre o
inferências sobre a relação entre as medidas
comportamento, e (c) garantindo que os
obtidas e o comportamento real de interesse.
dados sejam representativos do
comportamento nas condições e nos 6. Um pesquisador que emprega medição
momentos mais relevantes para o (s) motivo indireta deve fornecer evidências de que o
comportamento medido reflete diretamente,
(s) para medi-los.
de alguma forma confiável e significativa,
3. A medição é precisa quando os valores
algo sobre o comportamento para o qual o
observados, os dados produzidos pela
medição de um evento, correspondem ao pesquisador deseja tirar conclusões.
estado verdadeiro ou aos valores verdadeiros 7. Medir uma dimensão do comportamento que
é inadequada ou irrelevante para a razão para
do evento.
medir o comportamento compromete a
validade.
32
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

8. Artefatos de medição são dados que fornecem 17. Os pesquisadores e profissionais que avaliam
uma imagem injustificada ou enganosa do a precisão de seus dados podem (a)
comportamento devido à forma como a determinar no início de uma análise se os
medição foi realizada. Medição descontínua, dados são utilizáveis para tomar decisões
observações mal programadas e escalas de experimentais ou de tratamento, (b) descobrir
medição insensíveis ou limitantes são causas e corrigir erros de medição, (c) detectar
comuns de artefatos de medição. padrões consistentes de erro de medição que
pode levar à melhoria geral ou calibração do
Ameaças à precisão e confiabilidade da medição sistema de medição, e (d) comunicar a outros
a confiabilidade relativa dos dados.
9. A maioria das investigações em análise do 18. Avaliar a precisão da medição é um processo
comportamento aplicada usa observadores direto de calcular a correspondência de cada
humanos para medir o comportamento, e o medida, ou dado, avaliado em seu valor real.
erro humano é a maior ameaça à precisão e 19. Os verdadeiros valores para muitos
confiabilidade dos dados. comportamentos de interesse para analistas
10. Os fatores que contribuem para o erro de de comportamento aplicados são evidentes e
medição incluem sistemas de medição mal universalmente aceitos ou podem ser
projetados, treinamento de observador estabelecidos condicionalmente pelo
inadequado e expectativas sobre a aparência contexto local. Os valores reais para alguns
dos dados. comportamentos (por exemplo, jogo
11. Os observadores devem receber treinamento cooperativo) são difíceis porque o processo
sistemático e prática com o sistema de para determinar um valor verdadeiro deve ser
medição e atender aos critérios de precisão e diferente dos procedimentos de medição
confiabilidade predeterminados antes de usados para obter os dados que se deseja
coletar os dados. comparar com o valor verdadeiro.
12. O desvio do observador - mudanças não 20. Avaliar até que ponto os observadores estão
intencionais na maneira como um observador aplicando de forma confiável um sistema de
usa um sistema de medição durante uma medição válido e preciso fornece um
investigação - pode ser minimizado por indicador útil da confiabilidade geral dos
sessões de treinamento de reforço e feedback dados.
sobre a precisão e confiabilidade da medição. 21. Avaliar a confiabilidade da medição requer
13. As expectativas ou conhecimento de um um produto permanente natural ou artificial
observador sobre os resultados previstos ou para que o observador possa medir
desejados podem prejudicar a precisão e a novamente os mesmos eventos
confiabilidade dos dados. comportamentais.
14. Os observadores não devem receber feedback 22. Embora a alta confiabilidade não confirme a
sobre a extensão em que seus dados alta precisão, descobrir um baixo nível de
confirmam ou vão contra os resultados confiabilidade sinaliza que os dados são
hipotéticos ou objetivos de tratamento. suspeitos o suficiente para serem
15. O viés de medição causado pelas expectativas desconsiderados até que os problemas no
do observador pode ser evitado usando sistema de medição possam ser determinados
observadores ingênuos. e reparados.
16. A reatividade do observador é um erro de
medição causado pela consciência de um Usando a concordância entre observador para
observador de que outros estão avaliando os avaliar a medição comportamental
dados que ele relata.
23. O indicador de qualidade de medição mais
Avaliando a precisão e confiabilidade da medição comumente usados em ABA é a concordância
comportamental entre observador (IOA), o grau em que dois
ou mais observadores independentes relatam
33
Melhorando e Avaliando a Qualidade da Mensuração Comportamental

os mesmos valores observados após medir os mais longa. A duração média por ocorrência
mesmos eventos. de IOA é uma avaliação mais conservadora e
24. Pesquisadores e profissionais usam medidas geralmente mais significativa de IOA para
de IOA para (a) determinar a competência de dados de duração total e deve sempre ser
novos observadores, (b) detectar desvio do calculada para dados de duração por
observador, (c) julgar se a definição do ocorrência.
comportamento alvo é clara e o sistema não é 32. Três técnicas comumente usadas para
muito difícil de usar, e (d) convencer os calcular o IOA para dados de intervalo são
outros da credibilidade relativa dos dados IOA de intervalo por intervalo, IOA de
25. Medir IOA requer que dois ou mais intervalo pontuado e IOA de intervalo não
observadores (a) usem o mesmo código de pontuado.
observação e sistema de medição, (b) observe 33. Por estar sujeito a acordo aleatório ou
e meça o (s) mesmo (s) participante (s) e acidental entre observadores, o IOA intervalo
eventos, e (c) observe e registre o a intervalo provavelmente superestima o grau
comportamento independente da influência de acordo entre os observadores que medem
de outros observadores. comportamentos que ocorrem em taxas muito
26. Existem inúmeras técnicas para calcular IOA, baixas ou muito altas.
cada uma das quais fornece uma visão um 34. O IOA de intervalo com pontuação é
pouco diferente da extensão e natureza da recomendado para comportamentos que
concordância e desacordo entre os ocorrem em frequências relativamente
observadores. baixas; O IOA de intervalo não pontuado é
27. A porcentagem de concordância entre recomendado para comportamentos que
observadores é a convenção mais comum ocorrem em frequências relativamente altas.
para relatar IOA na ABA. 35. As avaliações IOA devem ocorrer durante
28. IOA para dados obtidos por registro de evento cada condição e fase de um estudo e ser
pode ser calculado comparando (a) a distribuídas entre os dias da semana, horários
contagem total registrada por cada do dia, cenários e observadores.
observador por período de medição, (b) as 36. Os pesquisadores devem obter e relatar IOA
contagens registradas por cada observador nos mesmos níveis em que relatam e discutem
durante cada uma de uma série de intervalos os resultados de seu estudo.
menores de tempo dentro o período de 37. Métodos IOA mais rigorosos e conservadores
medição, ou (c) a contagem de cada devem ser usados em vez de métodos que
observador de 1 ou 0 em uma base podem superestimar a concordância como
experimental. resultado do acaso.
29. A contagem total de IOA é o indicador mais 38. A convenção para IOA aceitável tem sido de
simples e bruto de IOA para dados de registro no mínimo 80%, mas não pode haver um
de eventos, e a contagem exata por intervalo critério definido. A natureza do
de IOA é a mais rigorosa para a maioria dos comportamento sendo medido e o grau de
conjuntos de dados obtidos por registro de mudança de comportamento revelado pelos
eventos. dados devem ser considerados ao determinar
30. IOA para dados obtidos por duração de um nível aceitável de IOA.
tempo, latência de resposta ou tempo entre 39. As pontuações do IOA podem ser relatadas
respostas (IRT) é calculado essencialmente em forma de narrativa, tabela e gráfico.
da mesma forma que para dados de registro 40. Os pesquisadores podem usar vários índices
de eventos. para avaliar a qualidade de seus dados (por
31. A duração total do IOA é calculada exemplo, precisão mais IOA, confiabilidade
dividindo-se a duração mais curta das duas mais IOA).
informadas pelos observadores pela duração

Você também pode gostar