Você está na página 1de 47

MELHORANDO E AVALIANDO A QUALIDADE DA MENSURAÇÃO DO

COMPORTAMENTO

Os dados obtidos pela medição do comportamento são o principal material com o qual
os pesquisadores e praticantes de comportamento orientam e avaliam o trabalho deles.
Os analistas de comportamento aplicado medem comportamentos socialmente
significativos para ajudar a determinar quais comportamentos precisam ser alterados,
para detectar e comparar os efeitos de várias intervenções em comportamentos
direcionados à mudança e para avaliar a aquisição, manutenção e generalização de
mudanças de comportamento.
Como muito do que o analista do comportamento faz, como pesquisador ou praticante,
depende da medição, as preocupações com a legitimidade dos dados que produz devem
ser primordiais. Os dados refletem de forma significativa o (s) motivo (s) original (is)
para medir o comportamento? Os dados representam a verdadeira extensão do
comportamento como ele realmente ocorreu? Os dados fornecem uma imagem
consistente do comportamento? Em outras palavras, os dados podem ser confiáveis?
Este capítulo se concentra em melhorar e avaliar a qualidade da medição
comportamental. Começamos definindo os indicadores essenciais da medição confiável:
validade, precisão e confiabilidade. Em seguida, ameaças comuns à medição são
identificadas e sugestões para combatê-las são apresentadas. As seções finais do

1
capítulo detalham procedimentos para avaliar a precisão, a confiabilidade e a
credibilidade da medição comportamental.

INDICADORES DE MEDIÇÃO CONFIÁVEL


Três amigos - John, Tim e Bill - deram um passeio de bicicleta juntos. No final do
percurso, John olhou para o computador montado no guidão e disse: “Andamos 110
quilômetros. Excelente!" “Meu computador mostra 67,5 milhas. Boa viagem, pessoal!
Tim respondeu. Quando ele desmontou e esfregou as costas, o terceiro motociclista,
Bill, disse: “Nossa, estou dolorido! Nós devemos percorrer 100 milhas! " Alguns dias
depois, os três amigos completaram a mesma rota. Após a segunda viagem, o
computador de John mostrou 68 milhas, o computador de Tim leu 70 milhas, e Bill,
porque não estava tão dolorido quanto estava após a primeira viagem, disse que eles
haviam percorrido 150 milhas. Após uma terceira viagem nas mesmas estradas, John,
Tim e Bill relataram distâncias de 68, 65 e 80 milhas, respectivamente.

Quão confiáveis foram as medidas relatadas pelos três ciclistas? Qual dos dados dos três
amigos seria mais útil para um relato científico das milhas percorridas? Para ser mais
útil para a ciência, a medição deve ser válida, precisa e confiável. As medições dos três
amigos foram caracterizadas por validade, precisão e confiabilidade?

VALIDADE
A medição tem validade quando produz dados que são diretamente relevantes para o
fenômeno medido e para o (s) motivo (s) para medi-lo. A determinação da validade da
medição gira em torno desta questão básica: uma dimensão relevante do comportamento
que é o foco da investigação foi medida direta e legitimamente?
As medições das milhas percorridas pelos três ciclistas tiveram validade? Como os
motociclistas queriam saber até onde haviam andado de cada vez, o número de
quilômetros percorridos era uma dimensão relevante ou válida do seu comportamento
de pilotagem. Se o interesse principal dos motociclistas fosse por quanto tempo ou quão
rápido eles andavam, o número de milhas percorridas não seria uma medida válida. O
uso de John e Tim de seus computadores para medir diretamente as milhas percorridas
foi uma medida válida. Como Bill usou uma medida indireta (a ternura relativa de suas
costas) para determinar o número de milhas que ele percorria, a validade dos dados de
milhagem de Bill é suspeita. Uma medida direta do comportamento real de interesse

2
sempre terá mais validade do que uma medida indireta, porque uma medida direta não
requer uma influência sobre sua relação com o comportamento de interesse, enquanto
uma medida indireta sempre exige tal inferência. Embora a dor possa estar relacionada à
distância percorrida, porque também é influenciada por fatores como o tempo na sela da
bicicleta, a aspereza da estrada, a velocidade de pilotagem e quanto (ou pouco) a pessoa
percorreu. recentemente, a dor como medida de quilometragem tem pouca validade.
A medição válida na análise de comportamento aplicada exige três elementos
igualmente importantes: (a) medir diretamente um comportamento-alvo socialmente
significativo; (b) medir uma dimensão (por exemplo, taxa, duração) do comportamento-
alvo relevante para a questão ou preocupação com o comportamento e (c) garantir que
os dados sejam representativos da ocorrência do comportamento sob condições e
durante os períodos mais relevantes para a pergunta ou preocupação sobre o
comportamento. Quando qualquer um desses elementos é suspeito ou não existe - por
mais que seja tecnicamente eficiente (isto é, precisa e confiável) a medida que produziu
os dados - a validade dos dados resultantes é confirmada, talvez a ponto de não ter
sentido.

PRECISÃO
Quando usada no contexto da medição, a precisão refere-se à extensão em que o valor
observado, o rótulo quantitativo produzido pela medição de um evento, corresponde ao
estado verdadeiro ou valor verdadeiro do evento, como ele existe na natureza (Johnston
& Pennypacker, 1993a). Em outras palavras, a medição é precisa na medida em que
corresponde ao verdadeiro valor da coisa medida. Um valor verdadeiro é uma medida
obtida por procedimentos independentes e diferentes dos procedimentos que produziram
os dados que estão sendo avaliados e para os quais o pesquisador tomou “precauções
especiais ou extraordinárias para garantir que todas as fontes possíveis de erro foram
evitadas ou removido ”(p. 136).
Qual foi a precisão das medidas das milhas dos três motociclistas? Como cada
motociclista obteve uma medida diferente do mesmo evento, todos os dados não
puderam ser precisos. Cético quanto às milhas de treinamento que os três ciclistas
estavam reivindicando, um amigo deles, Lee, dirigia pelas mesmas estradas rurais com
um odômetro do Departamento de Transportes preso ao pára-choque traseiro de seu
carro. No final do percurso, o odômetro indicava 58 milhas. Usando a medida obtida
pelo odômetro do DOT como o verdadeiro valor da distância da rota, Lee determinou

3
que nenhuma das medidas dos três ciclistas era precisa. Cada piloto superestimou a
verdadeira quilometragem.
Ao comparar a quilometragem relatada por John, Tim e Bill com o verdadeiro valor da
distância da rota, Lee descobriu não apenas que os dados dos pilotos eram imprecisos,
mas também que os dados relatados pelos três pilotos estavam contaminados por um
tipo particular de erro de medição chamado viés de medição. Viés de medição refere-se
a erro de medição não aleatório; isto é, erro na medição que provavelmente está em uma
direção. Quando o erro de medição é aleatório, é tão provável que superestime o valor
real de um evento quanto subestime-o. Como John, Tim e Bill superestimavam
consistentemente as milhas reais que haviam percorrido, seus dados continham um viés
de medição.

CONFIABILIDADE
Confiabilidade descreve até que ponto um “procedimento de medição produz o mesmo
valor quando entra em contato repetido com o mesmo estado de natureza” (Johnston e
Pennypacker, 1993a, p. 138). Em outras palavras, a medição confiável é uma medição
consistente. Como validade e precisão, confiabilidade é um conceito relativo; é uma
questão de grau. Quanto mais próximos os valores obtidos pela medição repetida do
mesmo evento, maior a confiabilidade. Por outro lado, quanto mais os valores
observados da medição repetida do mesmo evento diferem um do outro, menor a
confiabilidade.
Quão confiáveis foram as medições dos ciclistas? Como John obteve o mesmo valor, 68
milhas, cada vez que media a mesma rota, sua medição tinha confiabilidade completa.
As três medidas de Tim da mesma viagem - 67,5, 70 e 65 milhas - diferem uma da outra
em até 8 milhas. Portanto, a medição de Tim era menos confiável que a de John. O
sistema de medição de Bill era o menos confiável de todos, produzindo valores para a
mesma rota, variando de 80 a 100 milhas.

IMPORTÂNCIA RELATIVA DA VALIDADE, PRECISÃO E


CONFIABILIDADE
A medição comportamental deve fornecer dados legítimos para avaliar a mudança de
comportamento e orientar as decisões de pesquisa e tratamento. Dados da mais alta
qualidade (ou seja, dados que são mais úteis e confiáveis para o avanço do
conhecimento científico ou para orientar a prática baseada em dados) são produzidos

4
por medições válidas, precisas e confiáveis (consulte a Figura 1). Validade, precisão e
confiabilidade são conceitos relativos; cada um pode variar de alto a baixo.
A medição deve ser válida e precisa para que os dados sejam confiáveis. Se a medição
não for válida, a precisão é discutível. Medir com precisão um comportamento que não
é o foco da investigação, medir com precisão uma dimensão irrelevante do
comportamento-alvo ou medir com precisão o comportamento sob circunstâncias ou às
vezes não representativos das condições e tempos relevantes para a análise dados
inválidos. Por outro lado, os dados obtidos ao medir uma dimensão significativa do
comportamento correto sob as circunstâncias e os tempos relevantes são de pouca
utilidade se os valores observados fornecerem uma imagem imprecisa do
comportamento. Medições imprecisas invalidam os dados obtidos por medições válidas
de outra forma.
Confiabilidade nunca deve ser confundida com precisão. Embora o computador de
bicicleta de John fornecesse medidas totalmente confiáveis, também era totalmente
impreciso.

A preocupação com a confiabilidade dos dados na ausência de interesse prévio em sua


precisão sugere que a confiabilidade está sendo confundido com precisão. As
perguntas para um pesquisador ou alguém que está lendo um estudo publicado não
são: “Os dados são confiáveis?” mas "Os dados estão corretos?" (Johnston e
Pennypacker, 1993a, p. 146)

Se a precisão supera a confiabilidade - e ocorre - por que pesquisadores e profissionais


devem se preocupar com a confiabilidade da medição? Embora alta confiabilidade não
signifique alta precisão, baixa confiabilidade revela problemas de precisão. Como as
medidas de Tim e Bill não eram confiáveis, sabemos que pelo menos alguns dos dados
relatados não eram precisos, conhecimento que poderia e deveria levar à verificação da
precisão de suas ferramentas e procedimentos de medição.
Medições altamente confiáveis significam que qualquer grau de precisão (ou
imprecisão) existente no sistema de medição e será revelado consistentemente nos
dados. Se for possível determinar que o computador de John obtém, de maneira
confiável, valores observados acima dos valores reais em uma quantidade ou proporção
constante, os dados podem ser ajustados para acomodar esse grau constante de
imprecisão.

5
As próximas duas seções do capítulo descrevem métodos para combater ameaças
comuns à validade, precisão e confiabilidade da medição comportamental.

AMEAÇAS À VALIDADE DA MEDIÇÃO


A validade dos dados comportamentais é ameaçada quando a medição é indireta,
quando a dimensão incorreta do comportamento alvo é medida ou quando a medição é
realizada de forma que os dados que produz sejam um artefato dos eventos reais .

Medição indireta
A medição direta ocorre quando “o fenômeno que é o foco do experimento é
exatamente o mesmo que o fenômeno que está sendo medido” (Johnston e Pennypacker,
1993a, p. 113). Por outro lado, a medição indireta ocorre quando “o que é realmente
medido é de alguma forma diferente do” comportamento alvo de interesse (Johnston e
Pennypacker, 1993a, p. 113). A medição direta do comportamento produz mais dados
válidos do que a medição indireta. Isso ocorre porque a medição indireta fornece
informações de segunda mão ou “filtradas” (Komaki, 1998) que exigem que o
pesquisador ou profissional faça inferências sobre a relação entre o evento que foi
medido e o comportamento real de interesse.
A medição indireta ocorre quando o pesquisador ou profissional mede um proxy ou
substituto para o comportamento real de interesse. Um exemplo de medição indireta
seria usar as respostas das crianças a um questionário para medir com que frequência
elas se dão bem com seus colegas de classe. Seria melhor usar uma medida direta do
6
número de interações positivas e negativas entre as crianças. Usar a pontuação de um
aluno em um teste padrão de desempenho em matemática como um indicador de seu
domínio das habilidades matemáticas incluídas no currículo da escola é outro exemplo
de medição indireta. Aceitar a pontuação do aluno no teste de desempenho como um
reflexo válido de sua capacidade com o currículo da escola exigiria uma inferência. Por
outro lado, a pontuação de um aluno em um teste adequadamente construído, que
consiste em problemas de matemática com conteúdo curricular coberto recentemente, é
uma medida direta que não requer inferências sobre o que isso significa em relação ao
seu desempenho no currículo.
A medição indireta geralmente não é um problema na análise do comportamento
aplicada, pois o atendimento à dimensão aplicada do ABA inclui a medição direcionada
e significativa (ou seja, válida) de comportamentos socialmente significativos. Às vezes,
no entanto, o pesquisador ou praticante não tem acesso direto e confiável ao
comportamento do interesse e, portanto, deve usar alguma forma de medição indireta.
Por exemplo, como os pesquisadores que estudam a adesão a esquemas médicos não
podem observar e medir diretamente o comportamento dos pacientes em suas casas, eles
dependem de auto-relatos para seus dados (por exemplo, La Greca & Schuman, 1995) .
Às vezes, a medição indireta é usada para fazer inferências sobre eventos particulares ou
estados afetivos. Por exemplo, Green e Reid (1996) usaram medidas diretas de sorrir
para representar “felicidade” por pessoas com deficiências múltiplas encontradas. No
entanto, pesquisas em eventos privados não envolvem necessariamente medições
indiretas. Um participante de pesquisa treinado para observar seus próprios eventos
privados está medindo diretamente o comportamento de seu interesse (por exemplo,
Kostewicz, Kubina & Cooper, 2000; Kubina, Haertel & Cooper, 1994).
Sempre que a medição indireta é usada, é responsabilidade do pesquisador fornecer
evidências de que o evento medido reflete diretamente, de alguma maneira confiável e
significativa, algo sobre o comportamento pelo qual o pesquisador deseja tirar
conclusões (Johnston & Pennypacker, 1993a ) Em outras palavras, cabe ao pesquisador
fornecer um argumento convincente para a validade de seus dados. Embora às vezes
seja tentada, o argumento da validade não pode ser alcançado simplesmente anexando o
nome da coisa que se alega medir com a coisa realmente medida. Com relação a esse
ponto, Marr (2003) narrou essa anedota sobre Abraham Lincoln:

"Senhor, quantas pernas esse burro tem?" "Quatro, Sr. Lincoln."

7
"E quantas caudas tem?"
"Primeiro, Sr. Lincoln."
“Agora, senhor, e se chamarmos cauda de perna? Quantas pernas teria o burro?
"Cinco, Sr. Lincoln."
"Não senhor, pois você não pode transformar uma cauda em uma perna chamando-a
de uma." (pp. 66–67)

MEDINDO A DIMENSÃO ERRADA DO COMPORTAMENTO DO ALVO


A validade da medição comportamental é ameaçada com muito mais frequência
medindo a dimensão errada do comportamento de interesse do que a medição indireta.
A medição válida gera dados relevantes para as perguntas sobre o comportamento que
se procura responder por meio da medição. A validade é comprometida quando a
medição produz valores para uma dimensão do comportamento inadequado ou
irrelevante para o motivo da medição do comportamento.
Johnston e Pennypacker (1980) forneceram um exemplo excelente da importância de
medir uma dimensão que se encaixa nas razões da medição. “Colocar uma régua em
uma panela de água à medida que a temperatura aumenta as medidas de profundidade
da água altamente confiáveis, mas nos diz muito pouco sobre a mudança de
temperatura” (p. 192). Embora as unidades de medida em uma régua sejam adequadas
para medir o comprimento ou, neste caso, a profundidade, elas não são de todo válidas
para medir a temperatura. Se o objetivo de medir a água é determinar se atingiu a
temperatura ideal para fazer um bule de chá, um termômetro é a ferramenta de medição
correta.
Se você estiver interessado em medir a resistência acadêmica de um aluno com a leitura
oral, contar o número de palavras corretas e incorretas lidas por minuto sem medir e
informar o tempo total que o aluno leu não fornecerá dados válidos sobre a resistência.
O número de palavras lidas por minuto por si só não se encaixa no motivo de medir a
leitura (ou seja, resistência acadêmica). Para medir a resistência, o praticante precisaria
relatar a duração do período de leitura (por exemplo, 30 minutos). Da mesma forma,
medir a porcentagem de tentativas nas quais um aluno faz uma resposta correta não
fornecerá dados válidos para responder a perguntas sobre o desenvolvimento da fluência
do aluno com uma habilidade, enquanto mede o número de respostas corretas por
minuto e as taxas variáveis de responder (celeração) faria.

8
Artefatos de Medição
Medir diretamente uma dimensão relevante de um comportamento-alvo socialmente
significativo não garante uma medida válida. A validade é reduzida quando os dados -
por mais precisos ou confiáveis que sejam - não fornecem uma representação
significativa (ou seja, válida) do comportamento. Quando os dados dão uma imagem
injustificada ou enganosa do comportamento devido à maneira como a medição foi
realizada, os dados são chamados de artefato. Um artefato de medição é algo que parece
existir devido à maneira como é medido. A medição descontínua, períodos de medição
mal programados e o uso de escalas de medição insensíveis ou limitantes são causas
comuns de artefatos de medição.

Medição descontínua
Como o comportamento é um fenômeno dinâmico e contínuo que ocorre e muda com o
tempo, a medição contínua é o padrão-ouro na pesquisa comportamental. A medição
contínua é realizada de maneira a que todas as instâncias da (s) classe (s) de resposta (s)
de interesse sejam detectadas durante o período de observação (Johnston e Pennypacker,
1993a). A medição descontínua descreve qualquer forma de medição na qual algumas
instâncias da (s) classe (s) de resposta de interesse possam não ser detectadas. Medições
descontínuas - não importa quão precisas e confiáveis - podem gerar dados que são um
artefato.
Um estudo realizado por Thomson, Holmber e Baer (1974) fornece uma boa
demonstração da extensão da variabilidade artefato em um conjunto de dados que pode
ser causado por medições descontínuas. Um único observador altamente experiente
usou três procedimentos diferentes para agendar observações de amostra de tempo para
medir o comportamento de quatro sujeitos (dois professores e duas crianças) em um
ambiente pré-escolar durante sessões de 64 minutos. Thomson e colegas chamaram os
três procedimentos de amostragem de tempo de contíguos, alternativos e seqüenciais. A
cada procedimento de amostragem, um quarto do tempo do observador (ou seja, 16
minutos) era atribuído a cada um dos quatro sujeitos.
Quando a observação contígua agendada foi usada, o observador registrou o
comportamento do Sujeito 1 durante os primeiros 16 minutos da sessão, registrou o
comportamento do Sujeito 2 durante o segundo 16 minutos, e assim por diante até que
todos os quatro alunos fossem observados. No modo alternativo, os sujeitos 1 e 2 foram
observados em intervalos alternados durante a primeira metade da sessão, e os sujeitos 3

9
e 4 foram observados da mesma maneira durante a última metade da sessão.
Especificamente, o Aluno 1 foi observado durante os primeiros 4 minutos, o Sujeito 2
durante os 4 minutos seguintes, o Sujeito 1 durante os 4 minutos seguintes, e assim por
diante até o término de 32 minutos. O mesmo procedimento foi usado para os alunos 3 e
4 durante os últimos 32 minutos da sessão. Esta sequência foi repetida quatro vezes para
dar o total de 64 minutos de observação.
Para chegar à porcentagem de variação artefato nos dados associados a cada
cronograma de amostragem, Thomson e colegas (1974) compararam os dados do
observador com “taxas reais” para cada sujeito, produzidas pela medição contínua de
cada sujeito para o mesmo Sessões de 64 minutos. Os resultados do estudo mostraram
claramente que os cronogramas contínuos e alternados produziram as medidas mais não
representativas (e, portanto, menos válidas) dos comportamentos-alvo (geralmente mais
de 50% de variação da medição contínua), enquanto a amostragem sequencial pro - o
cedure produziu resultados que mais se assemelhavam aos dados obtidos através do
registro contínuo (variação de 4 a 11% da medição contínua).
Apesar de suas limitações inerentes, a medição descontínua é usada em muitos estudos
na análise comportamental aplicada, em que observadores individuais medem o
comportamento de vários sujeitos na mesma sessão. Minimizar a ameaça à validade da
medição descontínua requer uma consideração cuidadosa de quando os períodos de
observação e medição devem ser agendados. A medição pouco frequente, por mais
precisa e confiável que seja, geralmente produz resultados que são um artefato. Embora
uma única medida revele a presença ou ausência do comportamento alvo em um
determinado momento, ela pode não ser representativa do valor típico do
comportamento. Como regra geral, as observações devem ser agendadas diariamente ou
com frequência, mesmo que por breves períodos.
Idealmente, todas as ocorrências do comportamento de interesse devem ser registradas.
No entanto, quando os recursos disponíveis impedem a medição contínua ao longo de
um período de observação, o uso de procedimentos de amostragem é necessário. Um
procedimento de amostragem pode ser suficiente para a tomada de decisão e análise, se
as amostras representam uma aproximação válida dos parâmetros verdadeiros do
comportamento de interesse. Quando a medição não pode ser contínua ao longo de um
período de observação, geralmente é preferível amostrar a ocorrência do
comportamento alvo para numerosos breves intervalos de observação distribuídos
igualmente durante toda a sessão do que usar intervalos mais longos e menos frequentes

10
(Thomson et al., 1974; Thompson, Symons e Felce, 2000). Por exemplo, medir o
comportamento de um sujeito em intervalos de 30 segundos igualmente distribuídos em
uma sessão de 30 minutos provavelmente produzirá mais dados representativos do que
observar a pessoa por um período de 5 minutos durante a meia hora.
Medir o comportamento com intervalos de observação muito curtos ou muito longos
pode resultar em dados que superestimam ou subestimam a verdadeira ocorrência do
comportamento. Por exemplo, medir o comportamento fora da tarefa pela gravação em
intervalos parciais com intervalos de 10 minutos pode produzir dados que fazem com
que até o mais diligente dos alunos pareça estar altamente fora da tarefa.

Períodos de medição mal programados


O cronograma de observação deve ser padronizado para oferecer uma oportunidade
igual para a ocorrência ou não ocorrência do comportamento entre as sessões e
condições ambientais consistentes de uma sessão para outra. Quando nenhum desses
requisitos for atendido, os dados resultantes podem não ser representativos e podem ser
inválidos. Se os períodos de observação são agendados em horários e / ou locais onde a
frequência do comportamento é atípica, os dados podem não representar períodos de
resposta alta ou baixa. Por exemplo, medir os alunos que estão em tarefa durante apenas
os primeiros 5 minutos da atividade de grupo de aprendizagem cooperativa de 20
minutos de cada dia pode gerar dados que fazem com que o comportamento na tarefa
pareça mais alto do que na realidade em toda a atividade.
Quando os dados serão utilizados para avaliar os efeitos de uma intervenção ou
tratamento, os tempos de observação mais conservadores devem ser selecionados. Ou
seja, o comportamento alvo deve ser medido durante os períodos em que é mais
provável que sua frequência de ocorrência seja diferente dos resultados desejados ou
previstos do tratamento. A medição de comportamentos direcionados à redução deve
ocorrer durante os períodos em que esses comportamentos têm maior probabilidade de
ocorrer com as taxas de resposta mais altas. Por outro lado, comportamentos
direcionados para aumento devem ser medidos quando a resposta em alta frequência é
menos provável. Se uma intervenção não for planejada - como pode ser o caso de um
estudo descritivo -, é importante selecionar os tempos de observação com maior
probabilidade de gerar dados que geralmente são representativos do comportamento.

11
Balanças de medição insensíveis e / ou limitadas
Os dados que são artefatos podem resultar do uso de escalas de medição que não
conseguem detectar toda a gama de valores relevantes ou que são insensíveis a
mudanças significativas no comportamento. Os dados obtidos com uma escala de
medição que não detecta toda a gama de desempenhos relevantes podem implicar
incorretamente que o comportamento não pode ocorrer em níveis abaixo ou acima das
medidas obtidas, porque a escala impôs um piso ou teto artificial ao desempenho. Por
exemplo, medir a fluência de leitura oral de um aluno, fornecendo a ele uma passagem
de 100 palavras para ler em 1 minuto, pode produzir dados que sugerem que seu
desempenho máximo é de 100 wpm.
Uma escala de medição que é super ou pouco sensível a mudanças relevantes no
comportamento pode produzir dados que mostram enganosamente que mudanças
significativas no comportamento ocorreram (ou não). Por exemplo, o uso de uma
medida percentual escalonada em incrementos de 10% para avaliar os efeitos de uma
intervenção para melhorar o controle de qualidade em uma fábrica pode não revelar
mudanças importantes no desempenho, se a melhoria na porcentagem de widgets
fabricados corretamente a partir de uma linha de base nível de 92% a um intervalo de 97
a 98% é a diferença entre desempenho inaceitável e aceitável (ou seja, lucrativo).

Ameaças à precisão e confiabilidade da medição


A maior ameaça à precisão e confiabilidade dos dados na análise de comportamento
aplicada é o erro humano. Diferentemente da análise experimental do comportamento,
na qual a medição é tipicamente automatizada e conduzida por máquinas, a maioria das
investigações na análise aplicada do comportamento usa observadores humanos para
medir o comportamento.3 Fatores que contribuem para o erro de medição humano
incluem sistemas de medição mal projetados, treinamento inadequado de observadores e
expectativas sobre a aparência dos dados.

Sistema de medição mal projetado


Sistemas de medição desnecessariamente pesados e difíceis de usar criam perda
desnecessária de precisão e confiabilidade. A coleta de dados comportamentais nas
configurações aplicadas requer atenção, bom senso e perseverança. Quanto mais

12
exigente e difícil for o uso de um sistema de medição, menor a probabilidade de um
observador detectar e registrar consistentemente todas as instâncias do comportamento-
alvo. A simplificação do sistema de medição, tanto quanto possível, minimiza os erros
de medição.
A complexidade da medição inclui variáveis como o número de indivíduos observados,
o número de comportamentos registrados, a duração dos períodos de observação e / ou a
duração dos intervalos de observação, os quais podem afetar a qualidade da medição.
Por exemplo, observar vários indivíduos é mais complexo do que observar uma pessoa;
gravar vários comportamentos é mais complexo do que gravar um único
comportamento; usar intervalos de observação contíguos de 5 segundos sem tempo
entre os intervalos para registrar os resultados da observação é mais difícil do que um
sistema no qual o tempo é reservado para o registro de dados.
As recomendações específicas relativas à redução da complexidade dependem da
natureza específica do estudo. No entanto, ao usar medições de amostragem de tempo,
os analistas de comportamento aplicados podem considerar modificações como
diminuir o número de indivíduos ou comportamentos observados simultaneamente,
diminuindo a duração das sessões de observação (por exemplo, de 30 minutos a 15
minutos). ) e aumentando a duração dos intervalos de tempo (por exemplo, de 5 para 10
segundos). Exigir mais prática durante o treinamento do observador, estabelecer um
critério mais alto para o domínio do código observacional e fornecer feedback mais
frequente aos observadores também pode reduzir os possíveis efeitos negativos da
medição complexa.

Treinamento inadequado para observadores


Atenção cuidadosa deve ser dada à seleção e treinamento dos observadores. O
treinamento explícito e sistemático de observadores é essencial para a coleta de dados
confiáveis. Os sistemas de observação e codificação exigem que os observadores
discriminem a ocorrência e a não ocorrência de classes específicas de comportamentos
ou eventos em um contexto frequentemente complexo e dinâmico de outros
comportamentos ou eventos e registrem suas observações em uma folha de dados. Os
servidores devem aprender as definições para cada classe de resposta ou evento a ser
medido; um sistema de notação de código ou símbolo para cada variável; um conjunto
comum de procedimentos de gravação, como pressionamentos de teclas ou movimentos
de varredura; e um método para corrigir erros manuscritos, pressionados por tecla ou

13
digitalizados inadvertidamente (por exemplo, escrever um sinal de mais em vez de um
sinal de menos, pressionar a tecla F6 em vez da tecla F5, digitalizando um código de
barras incorreto).
Seleção cuidadosa de observadores
É certo que os pesquisadores aplicados costumam se esforçar para encontrar coletores
de dados, mas nem todos os voluntários devem ser aceitos no treinamento.
Observadores em potencial devem ser entrevistados para determinar experiências
passadas com atividades de observação e medição, cronograma atual e compromissos
futuros, ética e motivação no trabalho e habilidades sociais gerais. A entrevista pode
incluir um pré-teste para determinar os níveis atuais de observação e habilidade. Isso
pode ser conseguido com os observadores em potencial assistindo a vídeos curtos de
comportamentos semelhantes aos que podem ser solicitados a observar e observando o
desempenho deles sob um critério.

Treinamento de observadores para um padrão objetivo de competência


Os estagiários observadores devem atender a um critério especificado para o registro
antes de realizar observações nas configurações aplicadas. Durante o treinamento, os
observadores devem praticar o registro de vários exemplos e não exemplos do (s)
comportamento (s) alvo (s) e receber uma crítica e feedback sobre o desempenho. Os
observadores devem ter inúmeras sessões práticas antes da coleta de dados real. O
treinamento deve continuar até que um critério predeterminado seja alcançado (por
exemplo, precisão de 95% por duas ou três sessões consecutivas). Por exemplo, ao
treinar observadores para medir a conclusão das tarefas de manutenção preventiva de
equipamentos pesados pelo pessoal militar, Komaki (1998) exigiu três sessões
consecutivas de pelo menos 90% de acordo com um valor verdadeiro.
Vários métodos podem ser usados para treinar observadores. Isso inclui exemplos de
vinhetas, descrições narrativas, sequências de vídeo, dramatizações e sessões práticas no
ambiente em que os dados reais serão coletados. As sessões de prática em ambientes
naturais são especialmente benéficas porque permitem que observadores e participantes
se adaptem à presença um do outro e podem reduzir os efeitos reativos da presença de
observadores no comportamento dos participantes. Os passos seguintes são um exemplo
de uma abordagem sistemática para treinar observadores.
Etapa 1 Os estagiários leem as definições de comportamento do alvo e familiarizam-se
com os formulários de coleta de dados, procedimentos para registrar suas observações e

14
o uso adequado de qualquer dispositivo de medição ou gravação (por exemplo,
gravadores, cronômetros, laptops, PDAs, scanners de código de barras) .
Etapa 2 Os estagiários praticam a gravação de descrições narrativas simplificadas de
vinhetas comportamentais até obter 100% de precisão em um número predeterminado
de instâncias.
Etapa 3 Os estagiários praticam a gravação de descrições narrativas mais longas e
complexas de vinhetas comportamentais até obter 100% de precisão para um número
predeterminado de episódios.
Etapa 4 Os estagiários praticam a observação e gravação de dados de vinhetas gravadas
em vídeo ou representadas, representando o (s) comportamento (s) alvo (s) na mesma
velocidade e complexidade que ocorrerão no ambiente natural. Os vi- nnettes de
treinamento devem ser roteirizados e sequenciados para fornecer prática aos trainees,
tornando cada vez mais difícil a discriminação entre a ocorrência e a não ocorrência do
(s) comportamento (s) alvo (s). O fato de os estagiários recolocarem as mesmas séries
de vinhetas pela segunda vez e comparar a confiabilidade de suas medidas fornece uma
avaliação da consistência com a qual os estagiários estão aplicando o sistema de
medições. Os estagiários permanecem nessa etapa até que seus dados atinjam critérios
de precisão e confiabilidade pré-estabelecidos. (Se o estudo envolveu a coleta de dados
de produtos naturais permanentes, como composições ou folhas de trabalho acadêmicas,
as Etapas 2 a 4 devem fornecer aos estagiários uma prática cada vez mais extensa e mais
difícil de obter exemplos.
Etapa 5 Praticar a coleta de dados no ambiente natural é a etapa final do treinamento do
observador. Um observador experiente acompanha o estagiário e mede de maneira
simultânea e independente os comportamentos-alvo. Cada sessão de prática termina
com o estagiário e o observador experiente comparando suas folhas de dados e
discutindo quaisquer instâncias questionáveis ou até então não vistas. O treinamento
continua até que um critério pré-estabelecido de concordância entre o observador
experiente e o estagiário seja alcançado (por exemplo, pelo menos 90% por três sessões
consecutivas).

FORNECENDO TREINAMENTO CONTÍNUO PARA MINIMIZAR O DESVIO


DE OBSERVADORES
Ao longo de um estudo, os observadores às vezes alteram, muitas vezes sem saber, a
maneira como eles aplicam um sistema de medição. Chamadas de desvio do observador,

15
essas alterações não intencionais na maneira como os dados são coletados podem
produzir erros de medição. O desvio do observador geralmente implica uma mudança
na interpretação do observador da definição do comportamento do alvo em relação à
usada no treinamento. O desvio do observador ocorre quando os observadores
expandem ou comprimem a definição original do comportamento alvo. Por exemplo, o
desvio do observador pode ser responsável pelos mesmos comportamentos de uma
criança que foram registrados por um observador como instâncias de não conformidade
durante a primeira semana de um estudo sendo pontuado como instâncias de
conformidade durante a última semana do estudo. Os observadores geralmente
desconhecem a deriva na sua medição.
O desvio do observador pode ser minimizado por sessões ocasionais de reciclagem ou
reforço durante a investigação. O treinamento contínuo oferece a oportunidade para os
observadores receberem feedback frequente sobre a precisão e a confiabilidade da
medição. O treinamento em andamento pode ocorrer em intervalos regulares e pré-
programados (por exemplo, todas as sextas-feiras) ou aleatoriamente.

Influências não intencionais nos observadores


Idealmente, os dados relatados pelos observadores foram influenciados apenas pelas
ocorrências e não ocorrências reais do (s) comportamento (s) alvo (s) que foram
treinados para medir. Na realidade, no entanto, uma variedade de influências
indesejadas e indesejadas sobre os observadores pode ameaçar a precisão e a
responsabilidade dos dados que eles relatam. As causas comuns desse tipo de erro de
medição incluem pressupostos que um observador pode manter sobre os resultados
esperados dos dados e a consciência de um observador de que outros estão medindo o
mesmo comportamento.

Expectativas do observador
As expectativas do observador de que o comportamento do alvo ocorra em um
determinado nível sob condições particulares ou que sejam alteradas quando uma
mudança no ambiente for realizada, representam uma grande ameaça à medição precisa.
Por exemplo, se um observador acreditar ou predizer que a implementação de uma
economia de token por um professor deve diminuir a frequência de comportamento
inadequado do aluno, ela poderá registrar menos comportamentos inadequados durante
a condição de reforço de token do que teria registrado sem segurando essa expectativa.

16
Os dados influenciados pelas expectativas ou esforços de um observador para obter
resultados que agradarão ao pesquisador são caracterizados pelo viés de medição.
A maneira mais segura de minimizar o viés de medição causado pelas expectativas dos
observadores é usar observadores ingênuos. Um observador totalmente ingênuo é um
observador treinado que não tem conhecimento do objetivo do estudo e / ou das
condições experimentais em vigor durante uma determinada fase ou período de
observação. Os pesquisadores devem informar aos estagiários que receberão
informações limitadas sobre o objetivo do estudo e por que motivo. No entanto, manter
a ingenuidade dos observadores geralmente é difícil e às vezes impossível.
Quando os observadores estão cientes do objetivo ou dos resultados hipotecados de uma
investigação, o viés de medição pode ser minimizado usando definições de
comportamento-alvo e procedimentos de registro que fornecerão uma imagem
conservadora do comportamento (por exemplo, registro de todo o intervalo do
comportamento na tarefa com intervalos de 10 segundos em vez de 5 segundos),
discussões francas e repetidas com os observadores sobre a importância de coletar dados
precisos e feedback frequente aos observadores sobre a extensão em que seus dados
concordam com valores verdadeiros ou dados obtidos por observadores. observadores
ingênuos. Os observadores não devem receber feedback sobre até que ponto seus dados
confirmam ou contrariam os resultados hipotéticos ou as metas de tratamento.

Reatividade do observador
O erro de medição resultante da consciência de um observador de que outras pessoas
estão avaliando os dados que ele relata é chamado de reatividade do observador. Como
a reatividade que pode ocorrer quando os participantes estão cientes de que seu
comportamento está sendo observado, o comportamento dos observadores (ou seja, os
dados que registram e relatam) pode ser influenciado pelo conhecimento de que outras
pessoas estão avaliando os dados. Por exemplo, sabendo o fato de o pesquisador ou
outro observador estar assistindo o mesmo comportamento ao mesmo tempo ou
monitorar a medição posteriormente em vídeo ou fita cassete pode produzir reatividade
do observador. Se o observador antecipar que outro observador registrará o
comportamento de uma certa maneira, seus dados poderão ser influenciados pelo que
ele antecipa que o outro observador possa registrar.
Monitorar os observadores da maneira mais discreta possível, em um cronograma
imprevisível, ajuda a reduzir a atividade do observador. Separar vários observadores por

17
distância ou partição reduz a probabilidade de que suas medidas sejam influenciadas
umas pelas outras durante uma observação. Em algumas pesquisas e ambientes clínicos,
os espelhos unidirecionais eliminam o contato visual entre os observadores primários e
secundários. Se as sessões forem gravadas em fita ou gravadas em vídeo, o observador
secundário pode medir o comportamento posteriormente e o observador primário nunca
precisa entrar em contato com o observador secundário. Nas configurações em que
espelhos unidirecionais não são possíveis e onde as filmagens de áudio ou vídeo podem
ser intrusivas, o observador secundário pode começar a medir o comportamento em um
momento desconhecido do observador primário. Por exemplo, se o observador primário
começar a medir o comportamento com o primeiro intervalo, o observador secundário
poderá começar a medir o comportamento após 10 minutos. Os intervalos utilizados
para as comparações começariam na marca dos 10 minutos, ignorando os intervalos que
o observador primário registrava previamente.

AVALIANDO A PRECISÃO E CONFIABILIDADE DA MEDIÇÃO


COMPORTAMENTAL
Após projetar um sistema de medição que produzirá uma representação válida do
comportamento do alvo e treinar os observadores para usá-lo de uma maneira que
provavelmente produza dados precisos e confiáveis, as próximas tarefas relacionadas à
medição do pesquisador estão avaliando até que ponto os dados são de fato, precisas e
confiáveis. Essencialmente, todos os procedimentos para avaliar a precisão e a
confiabilidade dos dados comportamentais envolvem alguma forma de "medir o sistema
de medição".

Avaliando a precisão da medição


A medição é precisa quando os valores observados (ou seja, os números obtidos pela
medição de um evento) correspondem aos valores reais do evento. A razão fundamental
para determinar a precisão dos dados é óbvia: ninguém quer basear conclusões da
pesquisa ou tomar decisões de tratamento em dados defeituosos. Mais especificamente,
a realização de avaliações de precisão serve quatro propósitos inter-relacionados.
Primeiro, é importante determinar no início de uma análise se os dados são bons o
suficiente para servir de base para a tomada de decisões experimentais ou de tratamento.
A primeira pessoa que o pesquisador ou praticante deve tentar convencer de que os
dados são precisos é ela mesma. Segundo as avaliações de precisão permitem a

18
descoberta e correção de instâncias específicas de erro de medição. As duas outras
abordagens para avaliar a qualidade dos dados a serem discutidas mais adiante neste
capítulo - avaliações de confiabilidade e concordância interobservador - podem alertar o
pesquisador sobre a probabilidade de erros de medição, mas nenhuma abordagem
identifica erros. Somente a avaliação direta da precisão da medição permite que
profissionais ou pesquisadores aplicados detectem e corrijam dados defeituosos.
Uma terceira razão para realizar avaliações de precisão é revelar padrões consistentes de
erro de medição, o que pode levar à melhoria geral ou calibração do sistema de
medição. Quando o erro de medição é consistente em direção e valor, os dados podem
ser ajustados para compensar o erro. Por exemplo, saber que o computador de bicicleta
de John obteve de forma confiável 68 milhas para uma rota com um valor real de 58
milhas levou não apenas os ciclistas a corrigir os dados em mãos (neste caso,
confessando um ao outro e a seu amigo Lee que eles não haviam percorrido tantas
milhas quanto reivindicado anteriormente), mas calibrando o instrumento de medição
para que medidas futuras fossem mais precisas (nesse caso, ajustando a circunferência
da roda no computador da bicicleta de John).
Calibrar qualquer ferramenta de medição, seja um dispositivo mecânico ou um
observador humano, compara os dados obtidos pela ferramenta com um valor
verdadeiro. A medida obtida pelo odômetro das rodas do Departamento de Transportes
serviu como o verdadeiro valor para calibrar o computador de bicicleta de John. A
calibração de um dispositivo de temporização, como um cronômetro ou cronômetro de
contagem regressiva, pode ser feita em relação a um padrão conhecido: o “relógio
atômico”. 4 Se nenhuma diferença for detectada ao comparar o dispositivo de
temporização com o relógio atômico, ou se as diferenças forem toleráveis para o
relógio. fins de medição pretendidos, a calibração é satisfeita. Se forem encontradas
diferenças significativas, o dispositivo de temporização precisará ser redefinido para o
padrão. Recomendamos avaliações de precisão frequentes nos estágios iniciais de uma
análise. Então, se as avaliações produziram alta precisão, podem ser realizadas
avaliações menos frequentes para verificar a calibração dos gravadores.
Uma quarta razão para realizar avaliações de precisão é garantir aos consumidores que
os dados são precisos. Incluir os resultados das avaliações de precisão nos relatórios de
pesquisa ajuda os leitores a julgar a confiabilidade dos dados oferecidos para
interpretação.

19
Estabelecendo verdadeiros valores
“Existe apenas uma maneira de avaliar a precisão de um conjunto de medidas -
comparando os valores observados com os verdadeiros. A comparação é relativamente
fácil; o desafio é obter medidas de comportamento que podem legitimamente ser
consideradas valores verdadeiros ”(Johnston & Pennypacker, 1993a, p. 138). Como
definido anteriormente, um valor verdadeiro é uma medida obtida por procedimentos
independentes e diferentes dos procedimentos que produziram os dados que estão sendo
avaliados e para os quais o pesquisador tomou “precauções especiais ou extraordinárias
para garantir que todos possíveis fontes de erro foram evitadas ou removidas ”(p. 136).
Valores verdadeiros para alguns comportamentos são evidentes e universalmente
aceitos. Por exemplo, obter os valores verdadeiros das respostas corretas nas áreas
acadêmicas, como matemática e ortografia, é direto. A resposta correta ao problema
aritmético 2 + 2 =? tem um valor verdadeiro de 4, e o Oxford English Dictionary é uma
fonte de valores verdadeiros para avaliar a precisão de medir a ortografia das palavras
em inglês.5 Embora não sejam universais, os valores verdadeiros para muitos
comportamentos socialmente significativos de interesse para pesquisadores e
profissionais aplicados podem ser estabelecido condicionalmente no contexto local. Por
exemplo, a resposta correta à pergunta “Nomeie os três amidos recomendados como
espessantes para o molho de panela” em um questionário para estudantes de uma escola
de culinária não tem um valor verdadeiro universal. No entanto, um verdadeiro valor
relevante para os alunos que fazem o teste pode ser encontrado nos materiais do curso
do instrutor.
Os valores reais para cada um dos exemplos anteriores foram obtidos através de fontes
independentes das medidas a serem avaliadas. Estabelecer valores verdadeiros para
muitos comportamentos estudados por analistas de comportamento aplicados é difícil,
porque o processo para determinar um valor verdadeiro deve ser diferente dos
procedimentos de medição usados para obter os dados que se deseja comparar com o
valor verdadeiro. Por exemplo, determinar valores verdadeiros para ocorrências de um
comportamento, como brincadeiras cooperativas entre crianças, é difícil, porque a única
maneira de atribuir valores ao comportamento é medi-lo com os mesmos procedimentos
de observação usados para produzir os dados. em primeiro lugar.
Pode ser fácil confundir valores verdadeiros com valores que parecem apenas valores
verdadeiros. Por exemplo, suponha que quatro observadores bem treinados e
experientes veem uma fita de vídeo das interações entre professor e aluno. Sua tarefa é

20
identificar o verdadeiro valor de todas as instâncias de elogios dos professores,
dependentes das realizações acadêmicas. Cada observador vê a fita independentemente
e conta todas as ocorrências de elogios contingentes dos professores. Depois de registrar
suas observações, os quatro observadores compartilham suas medições, discutem
discordâncias e sugerem razões para as discordâncias. Os observadores registram
independentemente os elogios contingentes pela segunda vez. Mais uma vez, eles
compartilham e discutem seus resultados. Após repetir o processo de gravação e
compartilhamento várias vezes, todos os observadores concordam que registraram todas
as instâncias de elogios dos professores. No entanto, os observadores não produziram
um valor real de elogios aos professores por duas razões: (1) os observadores não
puderam calibrar suas medições de elogios aos professores com um padrão
independente de elogios aos professores e (2) o processo usado para identificar todas as
instâncias de os elogios dos professores podem ser tendenciosos (por exemplo, um dos
observadores pode ter convencido os outros de que suas medidas representam o
verdadeiro valor). Quando valores verdadeiros não podem ser estabelecidos, os
pesquisadores devem confiar em avaliações de confiabilidade e medidas de
concordância interobservador para avaliar a qualidade de seus dados.

Procedimentos de avaliação da precisão


Determinar a precisão da medição é um processo direto de calcular a correspondência
de cada medida, ou dado, avaliado com seu verdadeiro valor. Por exemplo, um
pesquisador ou praticante que avalie a precisão da pontuação para o desempenho de um
aluno em um teste de ortografia de 30 palavras relatado por um aluno compararia a
pontuação do aluno em cada palavra no teste com o valor verdadeiro da palavra
encontrada em um dicionário. Cada palavra no teste que corresponde à sequência de
letras correta (isto é, ortografia) fornecida pelo dicionário e foi marcada como correta
pelo avaliador seria uma medida precisa do avaliador, assim como cada palavra
marcada incorretamente pelo avaliador que não coincidir com a ortografia do dicionário.
Se a pontuação original de 29 das 30 palavras do avaliador corresponder aos valores
reais dessas palavras, a medida do avaliador terá 96,7% de precisão.
Embora um pesquisador ou praticante individual possa avaliar a precisão dos dados que
ela coletou, vários observadores independentes são frequentemente usados. Brown,
Dunne e Cooper (1996) descreveram os procedimentos usados para avaliar a precisão da
medida em um estudo de compreensão da leitura oral da seguinte maneira:

21
Um observador independente analisou a fita de áudio de um aluno da recontagem oral
com atraso de um minuto a cada dia para avaliar nossa precisão da medição,
fornecendo uma avaliação da extensão em que nossas contagens de recontagens
atrasadas se aproximavam do valor real das gravadas com áudio recontagens corretas
e incorretas. O observador independente selecionou aleatoriamente a fita cassete de
cada dia, retirando o nome de um aluno de um chapéu, depois ouviu a fita e pontuou
recontagens corretas e incorretas usando as mesmas definições que o professor. Os
escores dos observadores foram comparados aos escores dos professores. Se houve
uma discrepância entre essas pontuações, o observador e o professor revisaram a fita
(ou seja, o valor verdadeiro) juntos para identificar a fonte da discrepância e
corrigiram o erro de contagem na folha de dados e no Gráfico de Celeração Padrão. O
observador também usou um cronômetro para cronometrar a duração da fita de áudio
para garantir a precisão dos tempos. Planejamos fazer com que o professor
recolocasse a apresentação ou recontasse e recalculasse a frequência por minuto para
cada discrepância de tempo de mais de 5 segundos. Todos os tempos, no entanto,
atenderam à definição de precisão de 5 segundos. (p. 392).

Relatórios de avaliações de precisão


Além de descrever os procedimentos usados para avaliar a precisão dos dados, os
pesquisadores devem relatar o número e a porcentagem de medidas que foram
verificadas quanto à precisão, o grau de precisão encontrado, a extensão do erro de
medição detectado e se essas medidas - erros de avaliação foram corrigidos nos dados.
Brown e colegas (1996) usaram a seguinte narrativa para relatar os resultados de sua
avaliação de precisão:

O observador independente e o professor alcançaram 100% de concordância em 23


das 37 sessões verificadas. O professor e o observador revisaram a fita juntos para
identificar a fonte dos erros de medição nas 14 sessões que continham discrepâncias de
medição e corrigiram os erros de medição. Os dados precisos das 37 sessões
verificadas novamente foram exibidos nos Gráficos Padrão de Celeração. A magnitude
dos erros de medição foi muito pequena, geralmente uma diferença de 1 a 3
discrepâncias. (p. 392)

22
Uma descrição e relatório completos dos resultados da avaliação da precisão ajudam os
leitores do estudo a avaliar a precisão de todos os dados incluídos no relatório. Por
exemplo, suponha que uma pesquisadora tenha relatado que ela conduziu verificações
de precisão em 20% dos dados selecionados aleatoriamente, achou essas medidas com
97% de precisão, com o erro de 3% sendo imparcial e corrigiu os dados avaliados
conforme necessário. Um leitor do estudo saberia que 20% dos dados são 100%
precisos e estaria bastante confiante de que os 80% restantes (ou seja, todas as medidas
que não foram verificadas quanto à precisão) são 97% precisos.
Avaliando a confiabilidade da medição
A medição é confiável quando gera os mesmos valores em medidas repetidas do mesmo
evento. A confiabilidade é estabelecida quando o mesmo observador mede os mesmos
dados repetidamente de produtos de resposta arquivados, como produtos audiovisuais e
outras formas de produtos permanentes. Quanto mais frequentemente um padrão
consistente de observação é produzido, mais confiável é a medição (Thompson et al.,
2000). Por outro lado, se valores observados semelhantes não forem alcançados com
observações repetidas, os dados serão considerados não confiáveis. Isso leva a uma
preocupação com a precisão, que é o principal indicador de medição da qualidade.
Mas, como apontamos repetidamente, dados confiáveis não são necessariamente
precisos. Como os três ciclistas descobriram, a medição totalmente confiável (isto é,
consistente) pode estar totalmente errada. Confiar na confiabilidade da medição como
base para determinar a precisão da medição seria, como observou o filósofo
Wittgenstein (1953): “Como se alguém comprasse várias cópias do jornal da manhã
para garantir a si mesmo que o que dizia era verdadeiro ”(p. 94).
Em muitos estudos de pesquisa e aplicações mais práticas, no entanto, não é possível ou
viável verificar a precisão de todas as medidas. Em outros casos, pode ser difícil
estabelecer valores verdadeiros para as medidas do comportamento-alvo. Ao confirmar
a precisão de cada dado não é possível ou prático, ou quando valores reais não estão
disponíveis, saber que um sistema de medição foi aplicado com um alto grau de
consistência contribui para a confiança na confiabilidade geral dos dados. Embora a alta
confiabilidade não possa confirmar a alta precisão, a descoberta de um baixo nível de
sinais de confiabilidade indica que os dados são suspeitos o suficiente para serem
desconsiderados até que os problemas no sistema de medição possam ser determinados
e reparados.

23
Avaliar a confiabilidade da medição comportamental requer um produto permanente
natural ou artificial, para que o observador possa medir novamente os mesmos eventos.
Por exemplo, a confiabilidade da medição de variáveis como o número de adjetivos ou
verbos de ação nos ensaios dos alunos pode ser alcançada com a realização de um
ensaio de escore de observador. A confiabilidade da medição do número e do tipo de
solicitações de resposta e declarações de feedback dos pais para os filhos na mesa de
jantar da família pode ser avaliada com a repetição de um observador e a classificação
das fitas de vídeo da hora da refeição da família e comparar os dados obtidos no duas
medições.
Os observadores não devem medir novamente o mesmo produto permanente logo após
medi-lo pela primeira vez. Isso pode resultar na influência das medidas da segunda
pontuação pelo que o observador lembrou da pontuação inicial. Para evitar essa
influência indesejada, um pesquisador pode inserir vários ensaios ou fitas de vídeo
previamente pontuados aleatoriamente na sequência de “novos dados” sendo gravados
pelos observadores.

Usando o Acordo Interobservador para Avaliar a Medição Comportamental


A concordância interobservador é o indicador de qualidade de medida mais comumente
usado na análise de comportamento aplicada. A concordância interobservador (IOA)
refere-se ao grau em que dois ou mais observadores independentes relatam os mesmos
valores observados após medir os mesmos eventos. Existem inúmeras técnicas para
calcular a IOA, cada uma das quais fornece uma visão um pouco diferente da extensão e
natureza da concordância e discordância entre os observadores (por exemplo, Hartmann,
1977; Hawkins & Dotson, 1975; Page & Iwata, 1986; Poling, Methot, & LeSage, 1995;
Repp, Dietz, Boles, Dietz e Repp, 1976).

Benefícios e usos do IOA


A obtenção e o relato de acordo entre observadores servem quatro propósitos distintos.
Primeiro, um certo nível de IOA pode ser usado como base para determinar a
competência de novos observadores. Como observado anteriormente, um alto grau de
concordância entre um observador recém-treinado e um observador experiente fornece
um índice objetivo da medida em que o novo observador está medindo o
comportamento da mesma maneira que os observadores experientes.

24
Segundo a avaliação sistemática da IOA ao longo de um estudo pode detectar a deriva
do observador. Quando observadores que obtiveram os mesmos, ou quase os mesmos,
valores observados ao medir os mesmos eventos comportamentais no início de um
estudo (ou seja, o IOA era alto) obtêm diferentes medidas dos mesmos eventos
posteriormente no estudo (ou seja, , O IOA agora está baixo), um dos observadores
pode estar usando uma definição do comportamento de destino que foi desviado. As
avaliações de deterioração do IOA não podem indicar com segurança quais dados do
observador estão sendo influenciados pela deriva (ou por qualquer outro motivo de
desacordo), mas as informações revelam a necessidade de uma avaliação mais
aprofundada dos dados e / ou de reciclagem e reciclagem. calibração dos observadores.
Terceiro, saber que dois ou mais observadores obtiveram dados semelhantes
consistentemente aumenta a confiança de que a definição do comportamento do alvo era
clara e inequívoca e que o código e o sistema de medição não eram muito difíceis.
Quarto, para estudos que empregam vários observadores como coletores de dados,
níveis consistentemente altos de IOA aumentam a confiança de que a variabilidade nos
dados não é uma função da qual os observadores estavam de plantão em uma
determinada sessão e, portanto, isso muda nos dados provavelmente refletem mudanças
reais no comportamento.
As duas primeiras razões para avaliar a IOA são proativas: ajudam os pesquisadores a
determinar e descrever até que ponto os observadores cumpriram os critérios de
treinamento e a detectar possíveis desvios no uso do sistema de medição pelos
observadores. Os dois primeiros propósitos ou benefícios da IOA são como descritores
sumativos da consistência da medição entre os observadores. Ao relatar os resultados
das avaliações da IOA, os pesquisadores permitem que os consumidores julguem a
credibilidade relativa dos dados como confiável e digna de interpretação.

Requisitos para a obtenção de medidas válidas de IOA


Uma avaliação válida da IOA depende de três critérios igualmente importantes. Embora
esses critérios sejam talvez óbvios, é importante torná-los explícitos. Dois observadores
(geralmente dois, mas podem ser mais) devem (a) usar o mesmo código de observação e
sistema de medição, (b) observar e medir os mesmos participantes e eventos e (c)
observar e registrar o comportamento independentemente de qualquer influência um do
outro.

25
Observadores devem usar o mesmo sistema de medição
As avaliações de concordância inter observadores, realizadas por qualquer um dos
quatro motivos mencionados anteriormente, exigem que os observadores usem as
mesmas definições do comportamento do alvo, procedimentos e códigos de observação
e dispositivos de medição. Além de usar o mesmo sistema de medição, todos os
observadores que participam das medidas de IOA usadas para avaliar a credibilidade
dos dados (em vez de avaliar o desempenho dos estagiários do observador) deveriam ter
recebido treinamento idêntico com o sistema de medição e alcançado o mesmo nível de
competência em usá-lo.

Observadores devem medir os mesmos eventos


Os observadores devem poder observar o (s) mesmo (s) sujeito (s), exatamente nos
mesmos intervalos e períodos de observação. O IOA para dados obtidos por medição
em tempo real requer que ambos os observadores estejam no cenário simultaneamente.
Os observadores em tempo real devem estar posicionados de modo que cada um tenha
uma visão semelhante do (s) assunto (s) e do ambiente. Dois observadores sentados em
lados opostos da sala de aula, por exemplo, podem obter medidas diferentes, porque os
diferentes pontos de vista permitem que apenas um observador veja ou ouça algumas
ocorrências do comportamento alvo.
Os observadores devem começar e terminar o período de observação exatamente ao
mesmo tempo. Mesmo uma diferença de alguns segundos entre os observadores pode
produzir desacordos significativos na medição. Para remediar essa situação, os
dispositivos de temporização podem ser iniciados simultaneamente e fora do cenário de
observação, mas antes do início da coleta de dados, com o entendimento de que a coleta
de dados seria realmente iniciada em um horário previamente combinado (por exemplo,
exatamente no início da o quinto minuto). Como alternativa, mas menos desejável, um
observador pode sinalizar para o outro no momento exato em que a observação deve
começar.
Um procedimento comum e eficaz é que ambos os observadores escutem com fones de
ouvido uma fita cassete de sinais pré-gravados, sinalizando o início e o fim de cada
intervalo de observação. Um dispositivo separador de baixo custo que permite que dois
fones de ouvido sejam conectados ao mesmo gravador permite que os observadores
recebam sinais simultâneos de forma discreta e sem depender um do outro.

26
Ao avaliar a IOA para dados obtidos de produtos permanentes, os dois observadores não
precisam medir o comportamento simultaneamente. Por exemplo, os observadores
podiam assistir e gravar dados do mesmo vídeo ou fita de áudio em momentos
diferentes. Entretanto, devem ser adotados procedimentos para garantir que cada
observador observe ou ouça as mesmas fitas e que eles iniciem e parem suas
observações independentes exatamente no (s) mesmo (s) ponto (s) das fitas. Garantir
que dois observadores meçam os mesmos eventos quando o comportamento-alvo
produz produtos permanentes naturais, como atribuições acadêmicas concluídas ou
widgets fabricados, incluiria procedimentos como marcar claramente o número da
sessão, data, condição e nome do sujeito no produzir e proteger os produtos de resposta
para garantir que eles não sejam perturbados até que o segundo observador tenha obtido
sua medida.
Os observadores devem ser independentes
O terceiro ingrediente essencial para uma avaliação válida de IOA é garantir que
nenhum observador seja influenciado pelas medições do outro. Devem existir
procedimentos para garantir a independência de cada observador. Por exemplo, os
observadores que realizam medições de comportamento em tempo real “devem estar
situados para que não possam ver nem ouvir quando o outro observa e registra uma
resposta” (Johnston e Penypyper, 1993a, p. 147). Os observadores não devem estar
sentados ou posicionados tão próximos uns dos outros que o observador possa detectar
ou ser influenciado pelas gravações do outro observador.
Dar as planilhas acadêmicas do segundo observador ou tarefas escritas que já foram
marcadas por outro observador violaria a independência dos observadores. Para manter
a independência, o segundo observador deve marcar fotocópias de planilhas ou tarefas
não adulteradas e não marcadas, conforme preenchido pelos sujeitos, sejam usadas
algumas vezes, a porcentagem de concordância entre os observadores é de longe a
convenção mais comum para relatar IOA na análise de comportamento aplicada.6
Portanto, fornecemos a fórmula para calcular uma porcentagem de concordância para
cada tipo de IOA.

IOA para dados obtidos pela gravação de eventos


Os vários métodos para calcular a concordância inter observador para os dados obtidos
pelo registro de eventos baseiam-se na comparação (a) da contagem total registrada por
cada observador por período de medição, (b) nas contagens registradas por cada

27
observador durante uma série de intervalos menores de tempo dentro do período de
medição, ou (c) a contagem de cada observador de 1 ou 0, numa base de tentativa a
tentativa.
Contagem total IOA. O indicador mais simples e bruto de IOA para dados de registro de
eventos compara a contagem total registrada por cada observador por período de
medição. Contagem total IOA é expresso como uma porcentagem de concordância
entre o número total de respostas registradas por dois observadores e é calculado
dividindo a menor das contagens pela maior e multiplicando por 100, conforme
mostrado nesta fórmula:
Contagem menor x 100 = contagem total de IOA%
Por exemplo, suponha que uma babá em um ambiente residencial registrou que
Mitchell, de 9 anos, usou linguagem profana 10 vezes durante um período de
observação de 30 minutos e que um segundo observador registrou que Mitchell jurou 9
vezes durante o mesmo período . A contagem total de IOA para o período de
observação seria de 90% (isto é, 9 : 10 × 100 = 90%).
Deve-se ter muita cautela na interpretação da contagem total de IOA porque um alto
grau de concordância não garante que os dois observadores registraram as mesmas
instâncias de comportamento. Por exemplo, a seguir, é uma das inúmeras maneiras
pelas quais os dados relatados pelos dois observadores que mediram o uso da linguagem
profana por Mitchell podem não representar algo próximo a 90% de concordância de
que eles mediram os mesmos comportamentos. A babá poderia ter registrado todas as
10 ocorrências de linguagem profana em sua folha de dados durante os primeiros 15
minutos do período de observação de 30 minutos, momento em que o segundo
observador registrou apenas 4 das 9 respostas totais que relatou.

Contagem média por intervalo IOA.


A probabilidade de que uma concordância significativa entre os dados de contagem dos
observadores signifique que eles medem os mesmos eventos pode ser aumentada (a)
dividindo o período total de observação em uma série de tempos de contagem menores,
(b) fazendo com que os observadores registrem o número de ocorrências do
comportamento dentro de cada intervalo, (c) calcular a concordância entre as contagens
dos dois observadores dentro de cada intervalo; e (d) usar os acordos por intervalo como
base para calcular o IOA para o período total de observação. Os dados hipotéticos
mostrados na Figura 2 serão usados para ilustrar dois métodos para calcular a IOA de

28
contagem por intervalo: contagem média por intervalo e contagem exata por intervalo.
Durante um período de observação de 30 minutos, dois observadores registraram
independentemente o número de vezes que cada um testemunhou uma instância de um
comportamento alvo durante cada um dos seis intervalos de 5 minutos.
Embora cada observador tenha registrado um total de 15 patrocínios no período de 30
minutos, suas folhas de dados revelam um alto grau de desacordo no período de
observação. Embora a contagem total de IOA para todo o período de observação tenha
sido de 100%, a concordância entre os dois observadores em cada intervalo de 5
minutos variou de 0% a 100%, resultando em uma média de IOA de contagem por
intervalo de 65,3%.

A média da contagem por intervalo de IOA é calculada por esta fórmula:

Contagem exata por intervalo IOA.


A descrição mais rigorosa de IOA para a maioria dos conjuntos de dados obtidos pela
gravação de eventos é obtida calculando-se o IOA de contagem por intervalo exato - a
porcentagem do total de intervalos em que dois observadores registraram a mesma
contagem. Os dois observadores cujos dados são mostrados na Figura 2 registraram o
mesmo número de respostas em apenas dois dos seis intervalos, uma IOA de contagem
por intervalo exata de 33%.
A fórmula a seguir é usada para calcular IOA de contagem por intervalo exato:

29
IOA Trial-by-Trial.
A concordância entre dois observadores que mediram a ocorrência ou não ocorrência de
comportamentos discretos de avaliação para os quais a contagem de cada tentativa ou
oportunidade de resposta pode ser apenas 0 ou 1 pode ser calculada comparando-se as
contagens totais dos observadores ou comparando-as numa base julgamento por
julgamento. O cálculo do IOA da contagem total para dados discretos de teste usa a
mesma fórmula que o IOA da contagem total para dados operacionais gratuitos: A
menor das duas contagens relatadas pelos observadores é dividida pela contagem maior
e multiplicada por 100, mas neste caso o número de tentativas para as quais cada
observador registrou a ocorrência do comportamento é a contagem. Suponha, por
exemplo, que um pesquisador e um segundo observador meçam independentemente a
ocorrência ou não ocorrência do comportamento de sorriso de uma criança durante cada
uma das 20 tentativas em que o pesquisador mostrou à criança uma imagem engraçada.
Os dois observadores comparam as fichas no final da sessão e descobriram que
registraram sorrisos em 14 e 15 tentativas, respectivamente. A contagem total de IOA
para a sessão é de 93% (ou seja, 14 ÷ 15 × 100 = 93,3%), o que pode levar um
pesquisador inexperiente a concluir que o comportamento alvo foi bem definido e está
sendo medido com consistência pelos dois observadores. Essas conclusões, no entanto,
não seriam justificadas.
O IOA de contagem total de dados de teste discretos está sujeito às mesmas limitações
que o IOA de contagem total de dados de operadores livres:

30
Tende a superestimar a extensão do acordo real e não indica quantas respostas, ou quais
respostas, tentativas ou itens, apresentaram problemas de acordo. A comparação das
contagens de 14 e 15 ensaios dos dois observadores sugere que eles discordaram da
ocorrência de sorrir em apenas 1 dos 20 ensaios. No entanto, é possível que qualquer
um dos 6 ensaios classificados como “sem sorriso” pelo pesquisador tenha sido
classificado como “sorriso” pelo segundo observador e que qualquer um dos 5 ensaios
registrados pelo segundo observador como “sem sorriso” tenha sido gravado como um
"sorriso" pelo experimentador. Assim, a contagem total de IOA de 93% pode
superestimar amplamente a consistência real com a qual os dois observadores mediram
o comportamento da criança durante a sessão.
Um índice mais conservador e significativo de concordância inter observador para
dados de ensaios discretos é o IOA ensaio a ensaio, calculado pela seguinte fórmula:

A IOA julgamento a estudo dos dados sorridentes dos dois observadores, se calculada
com o pior grau de concordância possível do exemplo anterior - ou seja, se todos os 6
ensaios que o observador primário marcou como “sem sorriso” foram registrados como
as tentativas de "sorriso" do segundo observador e todas as 5 tentativas marcadas pelo
segundo observador como "sem sorriso" foram registradas como tentativas de "sorriso"
pelo pesquisador - seriam 45% (ou seja, 9 tentativas marcadas de acordo com 20
tentativas × 100).

IOA para dados obtidos por tempo


A concordância inter observador para os dados obtidos por tempo de duração, latência
da resposta ou tempo de resposta (IRT) é obtida e calculada essencialmente da mesma
maneira que para os dados de registro de eventos. Dois observadores cronometram
independentemente a duração, latência ou IRT do comportamento alvo, e o IOA baseia-
se na comparação do tempo total obtido por cada observador para a sessão ou do tempo
registrado por cada observador por ocorrência do comportamento ( para medidas de
duração) ou por resposta (para medidas de latência e IRT).

Duração total IOA.

31
Duração total O IOA é calculado dividindo a menor das duas durações relatadas pelos
observadores pela maior duração e multiplicando por 100.

Assim como na contagem total de IOA para dados de registro de eventos, o IOA de
duração total alta não garante que os observadores registraram as mesmas durações para
as mesmas ocorrências de comportamento. Isso ocorre porque um grau significativo de
desacordo entre os tempos de resposta dos observadores pode ser cancelado na soma.
Por exemplo, suponha que dois observadores registrassem as seguintes durações em
segundos para cinco ocorrências de um comportamento:

A duração total do IOA para esses dados é talvez um formando 94% (isto é, 85 : 90 ×
100 = 94,4%). No entanto, os dois observadores obtiveram a mesma duração para
apenas uma das cinco respostas e seus horários de respostas específicas variaram em até
6 segundos. Embora reconheça essa limitação da duração total do IOA, quando a
duração total está sendo registrada e analisada como uma variável dependente, é
apropriado relatar a duração total do IOA. Quando possível, o IOA de duração total
deve ser complementado com o IOA de duração média por ocorrência, que será descrito
a seguir.
Duração média por ocorrência IOA.
A média da duração da ocorrência por IOA deve ser calculada para dados de duração
por ocorrência, e é uma avaliação mais conservadora e geralmente mais significativa da
IOA para dados de duração total. A fórmula para calcular o IOA de duração média por
ocorrência é semelhante à usada para determinar o IOA de contagem por intervalo
médio:

32
O uso desta fórmula para calcular o IOA de duração média por ocorrência para os dados
de tempo dos cinco observadores das cinco respostas apresentadas acaba de envolver as
etapas a seguir:
1. Porcentagem calculada da ocorrência de IOA para cada resposta: R1, 29 ÷ 35 = 0,83;
R2, 15 ~ 21 = 0,71; R3, 7 × 9 = 0,78; R4, 14 ~ 14 = 1,0; e R5, 14 × 17 = 0,82
2. Adicione as porcentagens individuais de IOA para cada ocorrência: 0,83 + 0,71 +
0,78 + 1,00 + 0,82 = 4,14
3. Divida a ocorrência de IOA individual pelo número total de respostas pelas quais dois
observadores mediram a duração: 4,14 ÷ 5 = 0,828
4. Multiplique por 100 e arredonde para o número inteiro mais próximo: 0,828 × 100 =
83%

Essa fórmula básica também é usada para calcular o IOA médio de latência por resposta
ou o IOA médio de IRT por resposta para dados de latência e IRT. Os tempos de
observador de latências ou IRTs em uma sessão nunca devem ser adicionados e o tempo
total comparado a um tempo total semelhante obtido por outro observador como base
para o cálculo de IOA para medidas de latência e IRT.
Além de relatar concordância média por ocorrência, a avaliação do IOA para dados
temporais pode ser aprimorada com informações sobre a gama de diferenças entre os
horários dos observadores e a porcentagem de respostas pelas quais os dois
observadores obtiveram medidas dentro de um determinado faixa de erro. Por exemplo:
O tempo médio de duração da ocorrência por ocorrência para o cumprimento do Temple
foi de 87% (intervalo entre as respostas, 63 a 100%) e 96% de todos os tempos obtidos
pelo segundo observador estavam dentro de +/– 2 segundos do primário. medidas do
observador.

IOA para dados obtidos por gravação com intervalo / amostragem de tempo
Três técnicas comumente usadas por analistas de comportamento aplicados para
calcular IOA para dados de intervalo são:
- IOA de intervalo a intervalo,
- IOA de intervalo marcado e;
- IOA de intervalo sem pontuação.
Intervalo por intervalo IOA. Ao usar um IOA de intervalo a intervalo (às vezes
chamado de método ponto a ponto e intervalo total), o registro do observador primário

33
para cada intervalo é comparado ao registro do observador secundário no mesmo
intervalo. A fórmula para calcular IOA intervalo a intervalo é a seguinte:

Os dados hipotéticos da Figura 3 mostram o método de intervalo por intervalo para o


cálculo da IOA com base no registro de dois observadores que registraram a ocorrência
(X) e a não ocorrência (0) de comportamento em cada um dos 10 intervalos de
observação. As folhas de dados dos observadores mostram que eles concordaram com a
ocorrência ou a não ocorrência do comportamento por sete intervalos (Intervalos 2, 3, 4,
5, 7, 9 e 10). O IOA de intervalo por intervalo para este conjunto de dados é de 70% (ou
seja, 7 × [7 + 3] × 100 = 70%).
É provável que a IOA de intervalo a intervalo superestime a concordância real entre
observadores que medem comportamentos que ocorrem a taxas muito baixas ou muito
altas. Isso ocorre porque a IOA intervalo a intervalo está sujeita a acordo aleatório ou
acidental entre os observadores. Por exemplo, com um comportamento cuja frequência
real de ocorrência é de apenas 1 ou 2 intervalos a cada 10 intervalos de observação, até
mesmo um observador pouco treinado e não confiável que perde algumas das poucas
ocorrências do comportamento e registra indevidamente o comportamento como
ocorrendo em alguns intervalos em que o comportamento não ocorreu provavelmente
marcarão a maioria dos intervalos como não-ocorrências. Como resultado desse acordo
de chance, é provável que o IOA intervalo a intervalo seja bastante alto. Dois métodos

34
de IOA que minimizam os efeitos de acordos de chance para dados de intervalo em
comportamentos que ocorrem a taxas muito baixas ou muito altas são IOA com
intervalo marcado e IOA com intervalo sem pontuação (Hawkins & Dotson, 1975).

Intervalo de pontuação IOA.


Apenas os intervalos em que um ou ambos os observadores registraram a ocorrência do
comportamento alvo são usados no cálculo do IOA com intervalo marcado. Um acordo
é contado quando os dois observadores registraram que o comportamento ocorreu no
mesmo intervalo, e cada intervalo em que um observador registrou a ocorrência do
comportamento e o outro registrou sua não ocorrência é contada como uma
discordância. Por exemplo, para os dados mostrados na Figura 4, apenas os Intervalos 1,
3 e 9 seriam usados no cálculo da IOA com intervalo marcado. Os intervalos 2, 4, 5, 6,
7, 8 e 10 seriam ignorados porque os dois observadores registraram que o
comportamento não ocorreu nesses intervalos. Como os dois observadores concordaram
que o comportamento ocorreu em apenas um (intervalo 3) dos três intervalos pontuados,
a medida IOA com intervalo marcado é de 33% (1 intervalo de concordância dividido
pela soma de 1 intervalo de concordância mais 2 intervalos) discordância × 100 = 33%).
Para comportamentos que ocorrem a taxas baixas, o IOA com intervalo marcado é uma
medida de concordância mais conservadora do que o IOA com intervalo a intervalo.
Isso ocorre porque o IOA com intervalo marcado ignora os intervalos nos quais é
altamente provável a concordância por acaso. Por exemplo, o uso do método intervalo a
intervalo para calcular o IOA para os dados da Figura 4 renderia um acordo de 80%.
Para evitar medidas exageradas e possivelmente enganosas de IOA, recomendamos o
uso de concordância inter observador com intervalo marcado para comportamentos que
ocorrem em frequências de aproximadamente 30% ou menos intervalos.

35
IOA de intervalo sem pontuação.
Somente intervalos nos quais um ou ambos os observadores registraram a não
ocorrência do comportamento alvo são considerados no cálculo da IOA de intervalo
sem pontuação. Uma concordância é contada quando ambos os observadores registram
a não ocorrência do comportamento no mesmo intervalo, e cada intervalo em que um
observador registra a não ocorrência do comportamento e o outro registra sua ocorrência
é contado como um desacordo. Por exemplo, apenas os Intervalos 1, 4, 7 e 10 seriam
usados no cálculo do IOA de intervalo não pontuado para os dados da Figura 5, porque
pelo menos um observador registrou a não ocorrência do comportamento em cada um
desses intervalos. Os dois observadores concordaram que o comportamento não ocorreu
nos Intervalos 4 e 7. Portanto, o IOA de intervalo sem pontuação neste exemplo é de
50% (2 intervalos de concordância divididos pela soma de 2 intervalos de concordância
mais 2 intervalos de discordância). × 100 = 50%).
Para comportamentos que ocorrem a taxas relativamente altas, a IOA de intervalo sem
pontuação fornece uma avaliação mais rigorosa da concordância inter observador do
que a IOA de intervalo a intervalo. Para evitar medidas de IOA superinfladas e
possivelmente equivocadas, recomendamos o uso de concordância inter observador sem
intervalo para comportamentos que ocorrem em frequências de aproximadamente 70%
ou mais dos intervalos.
Considerações sobre seleção, obtenção e relatório de acordo inter observador
As diretrizes e recomendações a seguir são organizadas sob uma série de perguntas
sobre o uso da concordância inter observador para avaliar a qualidade da medição
comportamental.
Com que frequência e quando o IOA deve ser obtido?

36
A concordância inter observador deve ser avaliada durante cada condição e fase de um
estudo e distribuída por dias da semana, horas do dia, locais e observadores. O
agendamento das avaliações de IOA dessa maneira garante que os resultados forneçam
uma imagem representativa (isto é, válida) de todos os dados obtidos em um estudo. A
prática atual e as recomendações dos autores dos textos dos métodos de pesquisa
comportamental sugerem que o IOA seja obtido por no mínimo 20% das sessões de um
estudo e, de preferência, entre 25% e 33% das sessões (Kennedy, 2005; Poling et al.
1995). Em geral, estudos usando dados obtidos por medição em tempo real terão IOA
avaliado para uma porcentagem mais alta de sessões do que estudos com dados obtidos
de produtos permanentes.
A frequência com que os dados devem ser avaliados por acordo inter observador variará
dependendo da complexidade do código de medição, do número e da experiência dos
observadores, do número de condições e fases e dos resultados das próprias avaliações
do IOA. Avaliações mais frequentes da IOA são esperadas em estudos que envolvam
sistemas de medição complexos ou novos, observadores inexperientes e inúmeras
condições e fases. Se métodos adequadamente conservadores para obter e calcular IOA
revelarem altos níveis de concordância no início de um estudo, o número e a proporção
de sessões nas quais a IOA é avaliada podem diminuir à medida que o estudo avança.
Por exemplo, a avaliação IOA pode ser realizada em cada sessão no início de uma
análise e, em seguida, reduzido a um cronograma de uma vez a cada quatro ou cinco
sessões.

Para quais variáveis o IOA deve ser obtido e relatado?


Em geral, os pesquisadores devem obter e relatar IOA nos mesmos níveis em que
relatam e discutem os resultados de seu estudo. Por exemplo, um pesquisador que
analise os efeitos relativos de duas condições de tratamento em dois comportamentos de

37
quatro participantes em dois ambientes deve relatar os resultados da IOA em ambos os
comportamentos para cada participante, separados por condição e ambiente de
tratamento. Isso permitiria que os consumidores da pesquisa julgassem a credibilidade
relativa dos dados em cada componente do experimento.

Qual método de cálculo de IOA deve ser usado?


Métodos mais rigorosos e conservadores de cálculo de IOA devem ser usados sobre
métodos que provavelmente superestimarão a concordância real como resultado do
acaso. Com os dados de registro de eventos usados para avaliar a precisão do
desempenho, recomendamos que você reporte a IOA geral, caso a caso ou item por
item, talvez complementado com cálculos separados de IOA para respostas corretas e
incorretas. Para dados obtidos por medição de intervalo ou tempo de amostragem,
recomendamos a adição de IOA de intervalo a intervalo com IOA de intervalo marcado
ou IOA de intervalo sem pontuação, dependendo da frequência relativa do
comportamento. Nas situações em que o observador primário pontua o comportamento
do alvo como ocorrendo em aproximadamente 30% ou menos intervalos, o IOA com
intervalo marcado fornece um complemento conservador para o IOA intervalo a
intervalo. Por outro lado, quando o observador primário pontua o comportamento alvo
como ocorrendo em aproximadamente 70% ou mais dos intervalos, a IOA de intervalo
sem pontuação deve suplementar a IOA de intervalo a intervalo. Se a taxa na qual o
comportamento alvo ocorre mudar de muito baixo para muito alto ou de muito alto para
muito baixo, nas condições ou fases de um estudo, pode ser necessário relatar IOA com
intervalo sem pontuação e intervalo com pontuação.
Em caso de dúvida sobre qual forma de IOA reportar, calcular e apresentar várias
variações ajudará os leitores a fazer seus próprios julgamentos em relação à
credibilidade dos dados. No entanto, se a aceitação dos dados para interpretação ou
tomada de decisão se basear na fórmula escolhida para o cálculo do IOA, existem sérias
preocupações sobre a confiabilidade dos dados que devem ser abordadas.

O que são níveis aceitáveis de IOA?


As avaliações de IOA cuidadosamente coletadas e conservadas aumentam cada vez
mais a credibilidade de um conjunto de dados quando o acordo se aproxima de 100%. A
convenção usual na análise de comportamento aplicada é esperar que observadores

38
independentes alcancem uma média de concordância não inferior a 80% ao usar o
registro observacional. No entanto, como Kennedy (2005) apontou, “Não há
justificativa científica para o motivo de 80% ser necessário, apenas uma longa história
de pesquisadores usando esse percentual como referência de aceitabilidade e obtendo
sucesso em suas atividades de pesquisa”.
Miller (1997) recomendou que o IOA fosse 90% ou mais para uma medida estabelecida
e pelo menos 80% para uma nova variável. Vários fatores no trabalho em uma
determinada situação podem tornar um critério de 80% ou 90% muito baixo ou muito
alto. A concordância inter observador de 90% sobre o número de palavras contidas nas
composições dos alunos deve levantar questões sérias sobre a confiabilidade dos dados.
É necessário um IOA próximo a 100% para aumentar a credibilidade dos dados de
contagem obtidos de produtos permanentes. No entanto, alguns analistas podem aceitar
dados com um IOA médio tão baixo quanto 75% para a medição simultânea de vários
comportamentos por vários indivíduos em um ambiente complexo, especialmente se for
baseado em um número suficiente de avaliações individuais de IOA com um faixa
pequena (por exemplo, 73 a 80%).
O grau de mudança de comportamento revelado pelos dados também deve ser
considerado ao determinar um nível aceitável de concordância inter observador. Quando
a mudança de comportamento de uma condição para outra é pequena, a variação nos
dados pode representar uma observação inconsistente mais do que uma mudança real no
comportamento. Portanto, quanto menor a mudança de comportamento entre as
condições, maior o critério para uma porcentagem aceitável de IOA (Kennedy, 2005).
Como o IOA deve ser relatado?
As pontuações de IOA podem ser relatadas em forma de narrativa, tabela e gráfico.
Qualquer que seja o formato escolhido, é importante observar como, quando e com que
frequência o acordo inter observador foi avaliado.
Descrição narrativa. A abordagem mais comum para relatar IOA é uma descrição
narrativa simples da média e do intervalo de porcentagens de concordância. Por
exemplo, Craft, Alber e Heward (1998) descreveram os métodos e resultados das
avaliações de IOA em um estudo em que quatro variáveis dependentes foram medidas
da seguinte forma:

Recrutamento de alunos e elogios de professores. Um segundo observador esteve


presente em 12 (30%) das 40 sessões do estudo. Os dois observadores observaram de

39
forma independente e simultânea os 4 alunos, registrando o número de respostas de
recrutamento que emitiram e os elogios dos professores que receberam. As anotações
narrativas descritivas registradas pelos observadores permitiram que cada episódio de
recrutamento fosse identificado para fins de acordo. A concordância interobservador
foi calculada episódio a episódio, dividindo o número total de acordos pelo número
total de acordos mais desacordos e multiplicando por 100%. A concordância com a
frequência de recrutamento de estudantes variou entre 88,2% e 100%; o acordo para a
frequência de elogios aos professores recrutados foi de 100% para todos os 4 alunos; A
concordância com a frequência de elogios não recrutados aos professores variou de
93,3% a 100%.
Conclusão e precisão do trabalho acadêmico. Um segundo observador registrou
independentemente a conclusão e a precisão do trabalho de cada aluno em 10 (25%)
sessões. A concordância entre servidores para conclusão e precisão nas planilhas de
ortografia foi de 100% para todos os quatro alunos.

Mesa. Um exemplo de relato de resultados de concordância inter observadores em


formato de tabela é mostrado na Tabela 1. Krantz e McClannahan (1998) relataram o
intervalo e a média da IOA calculada para três tipos de interações sociais por três
crianças em cada condição experimental.

Exibição gráfica
A concordância inter observador pode ser representada visualmente, plotando as
medidas obtidas pelo observador secundário em um gráfico dos dados do observador
primário, como mostra a Figura 6. Observar os dados de ambos os observadores no
mesmo gráfico revela a extensão da concordância entre os observadores e a existência
observador deriva ou viés. A ausência de desvio do observador é sugerida no estudo
hipotético mostrado na Figura 6 porque as medidas do observador secundário foram
alteradas em conjunto com as medidas do observador primário. Embora os dois
observadores tenham obtido a mesma medida em apenas 2 das 10 sessões em que a IOA
foi avaliada (Sessões 3 e 8), o fato de nenhum observador relatar consistentemente
medidas que eram maiores ou menores que o outro sugere a ausência do viés do
observador. A ausência de viés é geralmente indicada por um padrão aleatório de
superestimação e subestimação. Além de revelar o desvio e o viés do observador, uma
terceira maneira de exibir graficamente as avaliações da IOA pode aumentar a

40
credibilidade da medição é ilustrada pelos dados da Figura 6. Quando os dados relatados
pelo observador primário mostram uma clara mudança no comportamento. entre
condições ou fases e todas as medidas relatadas pelo observador secundário em cada
fase caem dentro da faixa de valores observados obtidos pelo observador primário,
aumenta a confiança de que os dados representam mudanças reais no comportamento
medido, em vez de mudanças no comportamento do observador primário devido a
deriva ou contingências extra experimentais.
Embora os relatórios de pesquisa publicados na análise de comportamento aplicada
raramente incluam exibições gráficas de medidas da IOA, criar e usar essas exibições
durante um estudo é uma maneira simples e direta para os pesquisadores detectarem
padrões na consistência (ou inconsistência) com a qual os observadores estão medir o
comportamento que pode não ser tão evidente na comparação de uma série de
porcentagens.

41
Qual abordagem deve ser usada para avaliar a qualidade da medição: precisão,
confiabilidade ou acordo inter observador?
As avaliações da precisão da medição, da confiabilidade da medição e da extensão em
que diferentes observadores obtêm as mesmas medidas fornecem indicações diferentes
da qualidade dos dados. Por fim, a razão para realizar qualquer tipo de avaliação da
qualidade da medição é obter evidências quantitativas que possam ser usadas com o
duplo objetivo de melhorar a medição durante o curso de uma investigação e julgar e
convencer os outros da confiabilidade dos dados.
Depois de garantir a validade do que eles estão medindo e como eles estão medindo, os
analistas de comportamento aplicados devem optar por avaliar a precisão da medição
sempre que possível, em vez de confiabilidade ou acordo inter observador. Se for
possível determinar que todas as medições em um conjunto de dados atendem a um
critério de precisão aceitável, perguntas sobre a confiabilidade da medição e a
concordância inter observador são discutíveis. Para que os dados confirmados sejam
precisos, é desnecessário realizar avaliações adicionais de confiabilidade ou IOA.
Quando a avaliação da precisão da medição não é possível porque os valores reais não
estão disponíveis, uma avaliação da confiabilidade fornece o próximo melhor indicador
de qualidade. Se produtos permanentes naturais ou inventados puderem ser arquivados,
os analistas de comportamento aplicados poderão avaliar a confiabilidade da medição,
permitindo que os consumidores saibam que os observadores medem o comportamento
de maneira consistente, de sessão a sessão, condição a condição e fase a fase.
Quando valores verdadeiros e arquivos permanentes de produtos não estão disponíveis,
o acordo inter observador fornece um nível de credibilidade para os dados. Embora o
IOA não seja um indicador direto da validade, precisão ou confiabilidade da medição,
ele provou ser uma ferramenta de pesquisa valiosa e útil na análise de comportamento

42
aplicada. O relato de concordância inter observador tem sido um componente esperado
e necessário da pesquisa publicada na análise de comportamento aplicada por várias
décadas. Apesar de suas limitações, “as medidas caseiras de concordância de
observadores tão amplamente utilizadas no campo são exatamente relevantes” (Baer,
1977, p. 119) aos esforços para desenvolver uma tecnologia robusta de mudança de
comportamento.
A porcentagem de concordância, no paradigma de gravação em intervalo, tem um
significado direto e útil: com que freqüência dois observadores que observam um sujeito
e equipados com as mesmas definições de comportamento o veem ocorrendo ou não nos
mesmos tempos padrão ? As duas respostas, “Eles concordam sobre sua ocorrência X%
dos intervalos relevantes e sobre sua não ocorrência Y% dos intervalos relevantes” são
extremamente úteis. (Baer, 1977, p. 118).
Não há motivos para impedir que os pesquisadores usem vários procedimentos de
avaliação para avaliar o mesmo conjunto de dados. Quando o tempo e os recursos
permitirem, pode até ser desejável incluir combinações de avaliações. Os analistas de
comportamento aplicado podem usar qualquer combinação possível da avaliação (por
exemplo, precisão mais IOA, confiabilidade mais IOA). Além disso, alguns aspectos do
conjunto de dados podem ser avaliados quanto à precisão ou confiabilidade, enquanto
outros são avaliados com IOA. O exemplo anterior de avaliação de precisão relatado por
Brown e colegas (1996) incluiu avaliações de precisão e IOA. Observadores
independentes registraram recontagens corretas e incorretas com atraso do aluno.
Quando o IOA era inferior a 100%, os dados para esse aluno e sessão eram avaliados
quanto à precisão. O IOA foi usado como uma avaliação para aumentar a credibilidade
e também como um procedimento para selecionar dados a serem avaliados quanto à
precisão.
SUMÁRIO
Indicadores de Medição Confiável
1. Para mais útil ciência, as medições devem ser válidas, precisas e confiáveis.
2. A medição válida no ABA não comporta elementos igualmente importantes: (a)
medindo diretamente um comportamento-alvo socialmente significativo; (b) medindo
uma dimensão do comportamento-alvo relevante para a pergunta ou preocupação sobre
o comportamento; e (c) garantindo que os dados sejam representados - positivo do
comportamento sob condições e nos períodos mais relevantes para o (s) motivo (s) para
sua mensuração.

43
3. A medição é precisa quando os valores observados, os dados produzidos pela
medição de um evento, correspondem ao estado verdadeiro ou aos valores reais do
evento.
4. A medição é confiável quando gera os mesmos valores na medição repetida do
mesmo evento.
Ameaças à validade da medição
5. A medição indireta - medir um comportamento diferente do comportamento de
interesse - ameaça a validade, porque exige que o pesquisador ou praticante faça
inferências sobre a relação entre as medidas obtidas e o comportamento real de
interesse.
6. Um pesquisador que emprega medição indireta deve fornecer evidências de que o
comportamento medido reflete diretamente, de alguma maneira confiável e
significativa, algo sobre o comportamento pelo qual o pesquisador deseja tirar
conclusões.
7. Medir uma dimensão do comportamento inadequada ou irrelevante para o motivo da
medição do comportamento compromete a validade.
8. Os artefatos de medição são apresentados como uma imagem justificada ou enganosa
do comportamento, devido à maneira como a medição foi realizada. Medições
descontínuas, observações mal programadas e escalas de medição insensíveis ou
limitantes são causas comuns de artefatos de medição.
Ameaças à precisão e confiabilidade da medição
9. A maioria das investigações em análise de comportamento aplicada usa observadores
humanos para medir o comportamento, e o erro humano é a maior ameaça à precisão e
confiabilidade dos dados.
10. Os fatores que contribuem para o erro de medição incluem sistemas de medição mal
projetados, treinamento inadequado do servidor e expectativas sobre a aparência dos
dados.
11. Os observadores devem receber treinamento e prática sistemática com o sistema de
medição e atender a critérios pré-determinados de precisão e confiabilidade antes de
coletar dados.
12. Desvio do observador - mudanças indesejadas na maneira como um observador usa
um sistema de medição ao longo de uma investigação - pode ser minimizado por
sessões de treinamento de reforço e feedback sobre a precisão e confiabilidade da
medição.

44
13. As expectativas ou o conhecimento de um observador sobre os resultados previstos
ou desejados podem prejudicar a precisão e a confiabilidade dos dados.
14. Os observadores não devem receber retorno sobre o que seus dados confirmam ou
contrariar os resultados hipotéticos ou os objetivos do tratamento.
15. O viés de medição causado pelas expectativas dos observadores pode ser evitado
usando observadores ingênuos.
16. A reatividade do observador é um erro de medição causado pela conscientização do
observador de que outras pessoas estão avaliando os dados que ele relata.
Avaliando a precisão e a confiabilidade da medição comportamental
17. Pesquisadores e profissionais que avaliam a precisão de seus dados podem (a)
determinar no início de uma análise se os dados são utilizáveis para tomar decisões
experimentais ou de tratamento, (b) descobrir e corrigir erros de medição, (c) detectar
padrões consistentes de erro de medição que podem levar a melhoria ou calibração do
sistema de medição e (d) comunicar a terceiros a relativa confiabilidade dos dados.
18. Avaliar a precisão da medição é um processo direto de calcular a correspondência
de cada medida, ou dado, avaliado com seu verdadeiro valor.
19. Verdadeiros valores de comportamentos de interesse dos analistas aplicados são
evidentes e universalmente aceitos ou podem ser estabelecidos condicionalmente pelo
contexto local. Os valores reais para alguns comportamentos (por exemplo, jogo
cooperativo) são difíceis porque o processo para determinar um valor verdadeiro deve
ser diferente dos procedimentos de medição usados para obter os dados que se deseja
comparar com o valor verdadeiro.
20. Avaliar até que ponto os observadores aplicam de maneira confiável um sistema de
medição válido e preciso fornece um indicador útil da confiabilidade geral dos dados.
21. Avaliar a confiabilidade da medição requer um produto permanente natural ou
artificial, para que o observador possa medir novamente os mesmos eventos
comportamentais.
22. Embora a alta confiabilidade não confirme a alta precisão, descobrir um baixo nível
de confiabilidade sinaliza que os dados são suspeitos o suficiente para serem
desconsiderados até que problemas no sistema de medição possam ser determinados e
reparados.
Usando o Acordo Inter observador para Avaliar a Medição Comportamental

45
23. O indicador de qualidade de medição mais comumente usado na ABA é a
concordância inter observador (IOA), o grau para os quais dois ou mais observadores
independentes relatam os mesmos valores observados após medir os mesmos eventos.
24. Pesquisadores e profissionais utilizam medidas do IOA para (a) determinar a
competência de novos observadores, (b) detectar desvio do observador, (c) julgar se a
definição do comportamento do alvo é clara e se o sistema não é muito difícil de usar e
(d) convencer os outros da credibilidade relativa dos dados.
25. A medição da IOA exige que dois ou mais observadores (a) usem o mesmo código
de observação e sistema de medição, (b) observem e meçam o mesmo participante (s) e
eventos, e (c) observem e registrem o comportamento independente de influência de
outros observadores.
26. Existem várias técnicas para calcular a IOA, cada uma das quais fornece uma visão
um pouco diferente da extensão e natureza do acordo e desacordo entre os observadores.
27. A porcentagem de concordância entre os observadores é a convenção mais comum
para relatar IOA na ABA.
28. O IOA para dados obtidos pelo registro de eventos pode ser calculado comparando
(a) a contagem total registrada por cada observador por período de medição, (b) as
contagens registradas por cada observador durante cada uma de uma série de intervalos
menores de tempo dentro do período de medição, ou (c) a contagem de cada observador
de 1 ou 0, experimentação por experimentação.
29. IOA de contagem total é o indicador mais simples e grosseiro de IOA para dados de
gravação de eventos, e IOA de contagem por intervalo exato é o mais rigoroso para a
maioria dos conjuntos de dados obtidos pela gravação de eventos.
30. O IOA para dados obtidos por duração de tempo, duração da resposta ou tempo de
resposta (IRT) é calculado essencialmente das mesmas maneiras que para os dados de
gravação de eventos.
31. A duração total da IOA é calculada dividindo a duração das duas durações relatadas
pelos observadores por mais tempo. A média da duração por ocorrência de IOA é mais
avaliação conservadora e geralmente mais significativa da IOA para dados de duração
total e sempre deve ser calculada para dados de duração por ocorrência.
32. Três técnicas comumente usadas para calcular IOA para dados intermediários são
IOA intervalo a intervalo, IOA com intervalo marcado e IOA com intervalo sem
pontuação.

46
33. Como é um assunto aleatório ou acaso entre observadores, é provável que a IOA
intervalo a intervalo superestime o grau de concordância entre os observadores que
medem comportamentos que ocorrem em taxas muito baixas ou muito altas.
34. O IOA com intervalo de pontuação é recomendado para comportamentos que
ocorrem em frequências relativamente baixas; O IOA de intervalo sem pontuação é
recomendado para comportamentos que ocorrem em frequências relativamente altas.
35. As avaliações de IO devem ocorrer em cada fase e fase de um estudo e ser
distribuídas por dias da semana, horas do dia, locais e observadores.
36. Os pesquisadores devem obter e reportar o IOA nos seguintes níveis nos quais
relatam e discutem os resultados de seu estudo.
37. Os métodos IOA mais conservadores devem ser usados sobre métodos que podem
superestimar a concordância como resultado do acaso.
38. A convenção de IOA aceitável foi de no mínimo 80%, mas não pode haver um
critério definido. A natureza do comportamento que está sendo medido e o grau de
mudança de comportamento revelado pelos dados devem ser considerados ao
determinar um nível aceitável de IOA.
39. As pontuações da IOA podem ser relatadas na forma narrativa, tabela e gráfica.
40. Os pesquisadores podem usar vários índices para avaliar a qualidade dos dados (por
exemplo, precisão mais IOA, confiabilidade mais IOA).

47

Você também pode gostar