Você está na página 1de 460

M489 Medida e avaliação do desempenho humano [recurso

eletrônico] / James R. Morrow Jr. ... [et al.] ; tradução:


Vagner Raso. – 4. ed. – Dados eletrônicos. – Porto
Alegre: Artmed, 2014.

Editado também como livro impresso em 2014.


ISBN 978-85-65852-50-0

1. Educação física. 2. Exercícios físicos. I. Morrow,


James R. Jr.

CDU 613.72

Catalogação na publicação: Ana Paula M. Magnus – CRB 10/2052

Morrow_iniciais_4ed_eletronica.indd ii 27/11/13 15:04


JAMES R. MORROW JR., PHD JAMES G. DISCH, PED
University of North Texas Rice University
ALLEN W. JACKSON, EDD DALE P. MOOD, PHD
University of North Texas University of Colorado

Tradução:
Vagner Raso
Professor-adjunto do Programa de Mestrado Profissional em Reabilitação do Equilíbrio Corporal e
Inclusão Social da Universidade Bandeirante de São Paulo (UNIBAN)
Professor-adjunto das Faculdades de Educação Física e de Medicina da Universidade do Oeste Paulista (UNOESTE)
Pós-doutorando pela Escola Paulista de Medicina da Universidade Federal de São Paulo (EPM-UNIFESP),
Doutor e Mestre pela Faculdade de Medicina da Universidade de São Paulo (FMUSP)

Versão impressa
desta obra: 2014

2014

Morrow_iniciais_4ed_eletronica.indd iii 27/11/13 15:04


Obra originalmente publicada sob o título
Measurement and Evaluation in Human Performance, 4th Edition.
ISBN 9780736090391

Copyright © 2011 by James R. Morrow, Jr., Allen W. Jackson, James G. Disch, and Dale P. Mood

All rights reserved. Except for use in a review, the reproduction or utilization of this work in any form or by any
electronic, mechanical, or other means, now known or hereafter invented, including xerography, photocopying, and
recording, and in any information storage and retrieval system, is forbidden without the written permission of the
publisher.

Translation authorized per arrangement with Human Kinetics,Inc.

Gerente editorial: Letícia Bispo de Lima

Colaboraram nesta edição:

Coordenadora editoral: Cláudia Bittencourt

Assistente editoral: André Luis de Souza Lima

Capa: Márcio Monticelli

Imagem da capa: ©iStockphoto.com / 4774344sean, 2010:


Close-up of a woman holding chronometer to measure performances

Preparação de originais: Heloísa Oliveira de Souza

Leitura final: Antonio Augusto da Roza

Editoração: Techbooks

Reservados todos os direitos de publicação, em língua portuguesa, à


ARTMED EDITORA LTDA., uma empresa do GRUPO A EDUCAÇÃO S.A.
Av. Jerônimo de Ornelas, 670 – Santana
90040-340 – Porto Alegre – RS
Fone: (51) 3027-7000 Fax: (51) 3027-7070

É proibida a duplicação ou reprodução deste volume, no todo ou em parte, sob quaisquer


formas ou por quaisquer meios (eletrônico, mecânico, gravação, fotocópia, distribuição na Web
e outros), sem permissão expressa da Editora.

Unidade São Paulo


Av. Embaixador Macedo Soares, 10.735 – Pavilhão 5 – Cond. Espace Center
Vila Anastácio – 05095-035 – São Paulo – SP
Fone: (11) 3665-1100 Fax: (11) 3667-1333

SAC 0800 703-3444 – www.grupoa.com.br

IMPRESSO NO BRASIL
PRINTED IN BRAZIL

Morrow_iniciais.indd iv 06/11/13 16:33


Autores

James R. Morrow Jr. é diretor do Department of Kinesiology, Health Pro-


motion, and Recreation, na University of North Texas, em Denton. Leciona
sobre medidas e avaliação em desempenho humano. É autor de mais de
150 artigos e capítulos sobre fisiologia do exercício, epidemiologia e uso
de computadores, e já realizou cerca de 300 apresentações profissionais.
Conduziu pesquisa significativa usando algumas técnicas apresentadas nes-
te livro. O Dr. Morrow foi presidente da American Academy of Kinesiology
and Physical Education e diretor científico do President’s Council on Phy-
sical Fitness and Sports. Recebeu fomento à pesquisa do Comitê Olímpi-
co Norte-americano, dos U.S. Centers for Disease Control and Prevention,
National Institutes of Health e do Cooper Institute. É fellow do American
College of Sports Medicine (ACSM), da American Alliance for Health, Phy-
sical Education, Recreation and Dance (AAHPERD) e da North American
Society of Health, Physical Education, Recreation, Sport and Dance Profes-
sionals (NASHPERSD). Foi diretor do AAHPERD Measurement and Eva-
luation Council, tendo sido agraciado com um prêmio de honra dessa ins-
tituição. Desenvolveu quatro softwares de testes em aptidão física, incluindo
o AAHPERD Health-Related Physical Fitness Test. Foi editor da Research Fotografia: Jonathan Reynolds,
Quarterly for Exercise and Sport de 1989 a 1993, e coeditor fundador do University of North Texas.
Journal of Physical Activity and Health. Gosta de jogar golfe, ler e viajar.

Allen W. Jackson é diretor do Department of Kinesiology, Health Pro-


motion, and Recreation, da University of North Texas, em que leciona ci-
nesiologia com pesquisa, estatísticas e aplicações no computador desde
1978. Publicou vários trabalhos sobre medida e avaliação, incluindo mais
de 100 textos e mais de 200 artigos científicos. Recebeu fomento à pesqui-
sa dos Centers for Disease Control and Prevention, do National Institutes
of Health, da Robert Wood Johnson Foundation e do Cooper Institute.
É revisor da Measurement in Physical Education and Exercise Science e tra-
balhou como editor associado e especialista estatístico para Medicine and
Science in Sport and Exercise. Também foi editor do Research Quarterly for
Exercise and Sport. O Dr. Jackson obteve seu EdD em 1978 na University
of Houston. É fellow do ACSM e AAKPE, membro do conselho científico
do President’s Council on Fitness, Sports & Nutrition e da AAHPERD. As
atividades favoritas de lazer do Dr. Jackson são jogging, levantamento de
peso e caminhada.

Cortesia de Allen Jackson.

Morrow_iniciais.indd v 06/11/13 16:33


vi Autores

James G. Disch é professor associado e diretor do Kinesiology Department, na


Rice University. De 1986 a 1991, foi professor da Richardson College em Rice.
O Dr. Disch é autor de inúmeros artigos, capítulos, manuais e livros nas áreas
de medida aplicada, prognóstico no esporte e ciência aplicada ao esporte. Foi
presidente, secretário e membro do conselho consultivo de medida e avaliação
da AAHPERD, da qual é membro desde 1974. Também é revisor do Research
Quarterly for Exercise and Sport e da Medicine and Science in Sport and Exercise.
Coordenou vários workshops e simpósios sobre medida e avaliação e, junto com
o Dr. Morrow, dirigiu o Third National Measurement and Evaluation Sympo-
sium, em Houston, em 1980. O Dr. Disch contribuiu para o desenvolvimento
das normas da aptidão física relacionada à saúde da AAHPERD em 1980 e tem
trabalhado como especialista e conselheiro de equipes olímpicas e profissionais.
Atualmente, faz parte do Educational Advisory Committee of USA Volleyball.
Em 1999, ganhou do National Measurement and Evaluation Council Honor
Award. Obteve seu PhD em biomecânica e medida pela Indiana University em
1973. Dirige várias clínicas esportivas para jovens e compete no beisebol mas-
Cortesia de James Disch.
culino de veteranos.

Dale P. Mood é professor e ex-reitor associado de artes e ciências na University


of Colorado, em Boulder. Tem ensinado medida e avaliação, estatística e mé-
todos de pesquisa desde 1970, bem como tem publicado extensivamente na
área, incluindo 47 artigos e cinco livros. Foi conselheiro de cinco times de fu-
tebol americano da NFL, presidente do Measurement and Evaluation Council
da AAHPERD e ex-presidente da American Association for Active Lifestyles and
Fitness (AAALF). É revisor da Medicine and Science in Sport and Exercise, da Me-
asurement in Physical Education and Exercise Science e do Research Quarterly for
Exercise and Sport. No tempo livre, o Dr. Mood gosta de ler, arbitrar encontros de
natação da liga de verão e participar de inúmeras atividades físicas.

Cortesia de Dale Mood.

Morrow_iniciais.indd vi 06/11/13 16:33


Colaboradores

Jacalyn L. Lund, PhD, é professora associada do Department of Kinesiology and Health,


na Georgia State University, em Atlanta. É educadora desde 1989 e tem 16 anos de expe-
riência de ensino em escolas públicas. Tem apresentado vários trabalhos sobre avaliação
em inúmeros workshops e ministrado várias aulas sobre avaliação em educação física. É
membro da National Association for Sport and Physical Education (NASPE) há mais de
30 anos. Ela participou do comitê que desenvolveu os padrões de conteúdo para a educa-
ção física da NASPE em 1995, tendo sido sua presidente. Em 2009, recebeu, da National
Association of Kinesiology and Physical Education, um prêmio por serviços prestados em
educação superior. Ela ama passar seu tempo com a família, dançar, ler e levar os cachorros
para passear.

Robert S. Weinberg, PhD, é professor de educação física, saúde e estudos sobre o esporte
na Miami University, em Oxford, Ohio. Weinberg tem mais de 30 anos de experiência em
psicologia do esporte, tanto nos aspectos acadêmicos como nos aplicados. Escreveu inú-
meros artigos científicos, incluindo mais de 140 artigos em revistas com política de análise
editorial, assim como livros, capítulos e artigos aplicados para treinadores, atletas e indi-
víduos que praticam exercício de forma recreacional. O Dr. Weinberg foi considerado por
seus colegas como um dos 10 principais psicólogos do esporte da América do Norte. É o
atual presidente da North American Society for Psychology of Sport and Physical Activity
(NASPSPA) e da Association for Applied Sport Psychology (AASP). É consultor certificado
pela AASP e está registrado para desenvolver trabalhos com atletas no comitê olímpico
norte-americano. Também foi nomeado acadêmico com distinção em psicologia do es-
porte pela Miami University em 2005. Além disso, foi editor do Journal of Applied Sport
Psychology e eleito membro ilustre na School of Education and Allied Professions, na Miami
University, em 1998. Em seu tempo livre, gosta de jogar tênis, viajar e fazer jardinagem.

Morrow_iniciais.indd vii 06/11/13 16:33


Agradecimentos

E
ste livro não poderia ter sido concluído sem a orientação, as muitas sugestões e o
encorajamento de vários profissionais. Nossa parceria com os profissionais da Hu-
man Kinetics vem sendo muito gratificante. Particularmente, agradecemos a Loarn
Robertson e Amanda Ewing. Joe Buck e Julie Denzer passaram muito tempo se esforçando
para projetar o leiaute e a apresentação gráfica deste livro, e Casey Gentis e Antoinette Po-
mata ajudaram a amarrar as informações para finalizá-lo. Reconhecemos seu esforço. Greg
George, Lisa Morgan e Coree Clark foram fundamentais na finalização do material on-line.
Valorizamos os profissionais de medida e avaliação com os quais aprendemos muito. Estes
(nossos mentores, amigos e estudantes) incluem ASJ, ATS, BAM, CHS, DJH, GVG, HHM,
HRB, JAS, JEF, JLW, JMP, KDH, LDH, LRO, LSF, MAL, MEC, MJL, MJS, MJS, MSB, MTM,
RGF, RWS, SSS, SNB, TAB, TMW, VWS e WBE. Allison S. Venuto manejou com muita
habilidade o material on-line. Minsoo Kang desenvolveu o banco de dados. Somos gratos
e reconhecemos suas valiosas contribuições. Agradecemos muito às nossas famílias, que
toleraram as diversas horas que trabalhamos em frente a nossos computadores. Nossos
esforços para influenciar o pensamento e as atividades em medida e avaliação são verdadei-
ramente um reflexo de nossos colegas de profissão e amigos. Muito obrigado!

Morrow_iniciais.indd ix 06/11/13 16:33


Prefácio

O
principal objetivo desta quarta edição de Medida e avaliação do desempenho humano
permanece o mesmo da primeira edição, desenvolvida há uma década, isto é, ser
um livro interativo e de fácil compreensão para os estudantes de graduação nas
áreas de desempenho humano, cinesiologia, ciências do exercício ou educação física.
Com este livro, os estudantes aprenderão conceitos de desempenho humano, cinesio-
logia, ciências do exercício e educação física que os autores acreditam ser muito importan-
tes. Compreendemos que os professores de comportamento motor, fisiologia do exercício e
biomecânica, assim como os de línguas, matemática e história, sintam o mesmo sobre suas
disciplinas. Não estamos sugerindo que alguma dessas áreas não seja importante ou seja
menos importante. No entanto, os conceitos de reprodutibilidade, objetividade e valida-
de que servem de foco neste livro transcendem todas as áreas e as fases da vida. Estamos
confiantes de que você quer tomar boas decisões em todas as esferas, tanto na vida pessoal
como na profissional. Na verdade, isso significa que você quer tomar decisões baseadas em
evidências fidedignas, verdadeiras e específicas para fazer um julgamento adequado. E é
exatamente isso que este livro proporcionará.
Aqui você descobrirá conceitos importantes que o auxiliarão em seu trabalho inde-
pendentemente de sua carreira ser em fisioterapia ou em outra profissão da área da saúde,
docência, treinamento esportivo, cinesiologia ou ciências do exercício, saúde e aptidão
física, estudos esportivos ou administração esportiva. Já é conhecido que a atividade física
está relacionada à qualidade de vida, assim como a uma ampla variedade de doenças e à
mortalidade. A capacidade de mensurar a atividade física, a aptidão física e a habilidade
física é fundamental para sua carreira, independentemente da área. É importante que você
compreenda e use propriedades de medidas sólidas para testar domínios psicomotores,
cognitivos ou afetivos.
É necessário confiança nos dados para que as tomadas de decisão sejam confiáveis quan-
do obtiver dados como resultado de algum tipo de teste ou questionário. Você pode contar
com esses dados? Eles estão corretos? Considere uma situação em que está testando o nível
de aptidão de uma pessoa ou receberá resultados médicos. Você deseja que esses resultados
sejam válidos para tomar decisões de vida importantes com base neles. Neste livro, o aju-
daremos a aprender como coletar e analisar os dados, interpretar os resultados e a sentir-se
confiante de que aquilo que aprendeu é valioso o suficiente para tomar boas decisões.
Os autores deste livro são professores universitários que, juntos, somam 150 anos de
experiência. Ministramos centenas de aulas e ensinamos a milhares de estudantes temas
relacionados ao conteúdo do livro. Temos recebido muitos comentários e feedback desses
estudantes. Tentamos incorporar todas essas importantes informações ao livro, e elas serão
interessantes, informativas, úteis e o entreterão. Temos conhecimento de que alguns (ou
muitos) estudantes são intimidados pelo conteúdo aqui apresentado. Acreditamos que po-
demos desvendar os mistérios dessa área e ajudá-lo a apreciar e aprender esse importante
conteúdo. O nível de matemática necessário aqui não é mais do que aquele exigido em um
curso introdutório de álgebra. Usamos esses conceitos introdutórios e os combinamos com

Morrow_iniciais.indd xi 06/11/13 16:33


xii Prefácio

a teoria da reprodutibilidade e da validade para que, desejamos, influencie sua vida pessoal
e profissional, de modo que, quando necessário, você imediatamente colete os dados e os
analise para tomar uma boa decisão. Isso não significa que necessariamente seja fácil. Po-
rém, com certeza não será tão difícil como alguns estudantes imaginam. No entanto, serão
necessários estudo, revisão e raciocínio lógico para ajudá-lo a associar todos os conceitos.
Nós acreditamos ter feito isso bem neste livro.

ATUALIZAÇÕES DA QUARTA EDIÇÃO


Nesta quarta edição, mantivemos elementos que funcionam bem, adicionamos alguns
pontos novos e retiramos informações desnecessárias, de modo a permitir aos professores
e aos estudantes a melhor compreensão do livro e a aplicação dos estudos na área e na
carreira. A principal mudança ocorreu na organização do material, haja vista que alguns
capítulos (ou seções) seriam desnecessários para direcioná-lo mais especificamente a me-
tas profissionais. Por exemplo, os dois últimos capítulos são direcionados às pessoas que
desejam ser professores de escolas públicas. Esses capítulos seriam desnecessários caso
os estudantes não estivessem buscando esse objetivo. As principais mudanças feitas na
quarta edição são:
• Os capítulos foram organizados em quatro partes.
• Os capítulos foram reorganizados em um formato que torna mais fácil aos estudan-
tes buscar o conteúdo específico às suas áreas de interesse.
• Além de continuarmos com a ideia principal do uso do Predictive Analytics Software
(PASW), anteriormente conhecido como Statistical Package for the Social Sciences
(SPSS), também incluímos um grande conteúdo do Microsoft Excel, com exemplos
em um apêndice para inserir direções, janelas e estruturas para calcular alguns pro-
cedimentos estatísticos. As estruturas do Excel estão localizadas nos Capítulos 5 e
7 do material on-line. No Capítulo 2, está disponível uma apresentação do Power
Point ilustrando o uso do Excel no material on-line.
• A quantidade de informações sobre avaliação da atividade física está maior em todos
os capítulos.
• Foram incluídos conjuntos de dados para revisão referentes a conceitos e métodos,
de modo que se possa ilustrar a importância das habilidades no uso do computador
para a medida e a avaliação. Observe que esses tópicos têm propósitos ilustrativos e
não necessariamente representam dados atuais de qualquer pesquisa.

ORGANIZAÇÃO DO LIVRO
O livro está dividido em quatro partes. A Parte I, Introdução aos testes e medidas em
desempenho humano, consiste em dois capítulos. O Capítulo 1 o introduz aos conceitos
em medida e avaliação do desempenho humano e aos campos em que serão utilizados
os conceitos e as ferramentas de medida e avaliação. O Capítulo 2, Uso da tecnologia
em medida e avaliação, é muito importante. Nós mesmos utilizamos essas informações
do livro em nossas vidas diárias. No entanto, a realização manual de todo esse trabalho
seria muito cansativa e suscetível a erros. O uso de programas de estatística não elimina
todos os erros (você pode inserir dados equivocados, analisar os dados de forma inade-
quada ou interpretar os resultados de maneira errada), mas economizará uma grande
quantidade de tempo. Usamos o Predictive Analytics Software (PASW) e o Microsoft
Excel para ajudá-lo a completar as análises. A introdução a essas ferramentas ocorrerá no

Morrow_iniciais.indd xii 06/11/13 16:33


Prefácio xiii

Capítulo 2, e os exemplos apresentados serão empregados no restante do livro. É impor-


tante aprender sobre testes e medidas? Você pode aprender sobre essas áreas e ser hábil
em usá-las? Pensamos que sim e esperamos que você concorde com isso após completar
a leitura da Parte I.
A Parte II, Conceitos básicos em estatística, consiste em três capítulos e traz o fun-
damento estatístico para muitas das decisões e das interpretações que serão encontradas
no restante do livro. Sua experiência será ampliada com o uso do PASW ou com o uso
do Microsoft Excel (ou ambos) nos Capítulos 3, 4 e 5 e continuará por todo o livro. Os
conceitos apresentados na Parte II representam a razão de alguns estudantes se referirem
a esse conteúdo do livro como “estatística”. Embora a estatística básica apresentada seja
importante, preferimos nos referir a isso como o elemento fundamental para as decisões
de reprodutibilidade e de validade. Novamente, o nível de conhecimento em matemática
exigido nessas áreas é de álgebra básica. É importante salientar que não somos matemá-
ticos e não esperamos que você seja. Somos, contudo, usuários da informação do livro e,
atualmente, usamos esse material em nossas vidas diárias. Tentamos manter a matemática
na forma simples e enfatizar os conceitos. Embora um forte fundamento matemático seja
vantajoso ao estudante, nosso material tem apenas o mínimo de matemática esperado
ou exigido. Além disso, o uso do PASW e do Microsoft Excel o ajudará, de forma muito
rápida e precisa, com tarefas que consomem tempo e com aquelas que contêm grande
número de observações. O Capítulo 3, Estatística descritiva e distribuição normal, ilustra
como descrever os resultados do teste e interpretar os gráficos e tabelas. O Capítulo 4,
Correlação e regressão, auxilia a compreender as associações entre as variáveis e como o
conhecimento de uma influencia o de outras. O Capítulo 5, Estatística inferencial, é usado
diariamente por pesquisadores em desempenho humano e auxilia a tomar decisões a par-
tir de resultados de estudo de pesquisa e a determinar a magnitude de generalização dos
resultados. É senso comum que a atividade física, a aptidão física e o dispêndio energético
influenciam a qualidade de vida, a saúde, a doença e o risco de morte. Muito do que sabe-
mos sobre a relação entre essas variáveis e qualidade de vida resulta do tipo de análise que
você aprenderá na Parte II. Você gostaria de ter seus resultados de teste apresentados de
maneira interessante e significativa? Gostaria de ser capaz de ler, interpretar, compreender
e usar a literatura científica relacionada a sua profissão? Você será capaz de fazê-lo após
concluir a Parte II.
A Parte III, Teoria da reprodutibilidade e da validade, apresenta conceitos importan-
tes. Tudo o que é feito em todos os capítulos pode ser aplicado ou deriva dos conceitos de
reprodutibilidade e validade. O Capítulo 6 apresenta a reprodutibilidade e a validade da
perspectiva da norma de referência, enquanto o Capítulo 7 o faz da perspectiva do critério
de referência. Os Capítulos 6 e 7 têm muitos pontos em comum. A principal diferença está
no nível de medida envolvido. No Capítulo 6, os resultados dos testes são contínuos em
natureza (gordura corporal ou consumo de oxigênio), enquanto, no Capítulo 7, são categó-
ricos (aprovação/reprovação ou vivo/morto). Além disso, os conceitos de reprodutibilidade
e validade estão em ambos os capítulos. Considere o mais recente teste que você realizou.
Pode ser na escola, no consultório, no trabalho ou em qualquer outro lugar. Como você
sabe se os resultados do teste foram confiáveis e refletiram precisamente seu verdadeiro
resultado? Você estará mais bem preparado para interpretar esses resultados após ter con-
cluído a Parte III.
A Parte IV, Aplicações do desempenho humano, consiste em sete capítulos de aplica-
ção. Seu objetivo é ilustrar situações práticas em que você usará os tipos de conhecimento
adquiridos até esse ponto do livro. O Capítulo 8, Desenvolvimento de testes escritos e de

Morrow_iniciais.indd xiii 06/11/13 16:33


xiv Prefácio

questionários, mostra como criar testes que discriminam indivíduos com diferentes níveis
de conhecimento. É muito difícil a tarefa de discriminar diferentes níveis de conhecimento.
Outra importante habilidade nessa área é o desenvolvimento de levantamentos e questio-
nários que reflitam de modo preciso o conhecimento ou a atitude de um indivíduo ou gru-
po. Os Capítulos 9 e 10 enfatizam o domínio psicomotor e ilustram a avaliação da aptidão
física e da atividade física em adultos (Capítulo 9) e de crianças e adolescentes (Capítulo
10). O Capítulo 11 aborda reprodutibilidade e validade quando se avaliam as habilidades
esportivas motoras. Muitos livros usam esse tipo de capítulo para listar diferentes testes
que podem ou deveriam ser empregados para avaliar determinada capacidade (p. ex., tênis
ou golfe) ou habilidade (p. ex., saltar ou lançar). Em vez de indicar o teste que poderia ser
usado, preferimos identificar conceitos importantes quando se escolhe um teste e se é apro-
priado às suas necessidades. Muito tem sido dito sobre nível de aptidão física e de atividade
física em adultos e jovens nos Estados Unidos e em todo o mundo. Quais medidas podem
ser tomadas para avaliar os níveis de aptidão física e de atividade física ou ambos? Suponha
que você queira mensurar as habilidades físicas ou o nível de estudantes, clientes ou atletas
com quem trabalha. Como poderia avaliar melhor suas capacidades e habilidades, e como
poderia interpretar e usar esses resultados? Você estará apto a empregar as técnicas de me-
dida para responder muitas dessas questões após estudar os Capítulos 9, 10 e 11.
O Capítulo 12, Medidas psicológicas em esporte e exercício, apresenta escalas que po-
dem ser utilizadas no domínio afetivo. As escalas estimam atitudes, confiança e conceitos
que normalmente não são percebidos, ainda que existentes. Por exemplo, é fácil pensar nos
indivíduos que têm “atitude em relação à atividade física”, mas como se avalia isso? Você
estará mais apto a interpretar os resultados obtidos no domínio afetivo depois de completar
o Capítulo 12.
Os dois capítulos finais, Classificação da sala de aula: uma avaliação somatória (Capítu-
lo 13) e Avaliação baseada em desempenho: estratégias alternativas para medida e avaliação
(Capítulo 14), são muito apropriados para aqueles com objetivos profissionais voltados
para o ensino em escolas públicas ou particulares. Os conceitos apresentados são impor-
tantes para a avaliação do desempenho nos domínios cognitivo e psicomotor, com ênfase
em pontos de justiça, liberdade de viés e fidedignidade da medida. Mesmo os estudantes
cujas opções de carreira não estão direcionadas a esses temas poderão aprender muito com
esses capítulos, de modo que poderão aplicar esse conhecimento às disciplinas que estão
cursando em sua graduação. Você está bem informado sobre os procedimentos de avaliação
de seu curso? Como poderia auxiliar seu professor a fazer uma avaliação mais justa? Os
Capítulos 13 e 14 o ajudarão a responder melhor a essas perguntas.
O Apêndice A, Aplicação do Microsoft Excel, fornece suporte para aqueles que não
têm acesso ao PASW. São apresentadas orientações sobre como calcular procedimentos
estatísticos de medida e avaliação com o Excel. Os resultados são similares àqueles obtidos
com o PASW. Também os modelos fornecidos em alguns casos (qui-quadrado e estatística
epidemiológica) podem ser usados.

RECURSOS PARA OS ESTUDANTES


O ponto mais importante desta edição é a ampla variedade de recursos que auxiliam os
estudantes na aprendizagem do conteúdo e em como aplicá-lo na tomada de decisão diária
em desempenho humano. Em cada capítulo, você encontrará muitos itens que o auxiliarão
na compreensão e na retenção da informação:

Morrow_iniciais.indd xiv 06/11/13 16:33


Prefácio xv

• Os objetivos dos capítulos mostram os principais pontos e os caminhos que devem


ser seguidos após a leitura do capítulo.
• Termos-chave são destacados no texto, e suas definições são fornecidas em um glos-
sário.
• Os itens de domínio testam seu conhecimento em determinado assunto. Esses itens
incluem atividades e problemas que o auxiliarão a confirmar o que você aprendeu.
Alguns itens de domínio requerem que a tarefa seja realizada em um computador;
o ícone do computador indica isso. Esse é um exemplo do ícone do computador:

• Os quadros Desafio em medida e avaliação introduzem e encerram os capítulos. O


de abertura apresenta um cenário em que o indivíduo enfrenta uma situação; o de
encerramento mostra como os conceitos abordados podem auxiliar na solução do
problema apresentado no cenário de abertura.
• As aplicações dos conjuntos de dados fornecem a oportunidade de praticar muitas
das técnicas apresentadas do Capítulo 2 até o 14. Estão disponíveis grandes con-
juntos de dados na seção de cada capítulo do material on-line (em inglês). Você terá
valiosas experiências usando o software de estatística seguindo as instruções do livro
e usando os dados do material on-line. As aplicações de dados são identificadas com
este ícone:

COMPLETE

Sugerimos que você complete todas as tarefas de casa, os itens de domínio e as atri-
buições fornecidas em cada capítulo. Isso o ajudará a compreender melhor os conceitos e
aplicá-los em sua carreira. De modo igualmente importante, eles o auxiliarão ao preparar-
-se para provas.

Material on-line (em inglês)


O material on-line (disponível em inglês no link deste livro em www.grupoa.com.br) é um
ótimo recurso. Existem elementos para estudo, questões em forma de quiz, tarefas para casa
e atividades de aprendizagem que irão melhorar a compreensão e a aplicação dos conceitos
apresentados no livro. Ao longo dos capítulos, ícones direcionam para esse material:

ESTUDE O leitor pode imprimir os tópicos apresentados no início de cada capítulo, a


fim de orientar seu estudo e fazer anotações durante as aulas.

COMPLETE Atividades que estimulam o raciocínio sobre determinada questão ou para


completar uma tarefa que irá auxiliar na compreensão do conteúdo do
capítulo.

Morrow_iniciais.indd xv 06/11/13 16:33


xvi Prefácio

Ao final de cada capítulo, o leitor é direcionado a tarefas de casa e questões


disponíveis no material on-line que auxiliarão na compreensão e fixação do
APRENDA
conteúdo do capítulo.

Ao deparar-se com um desses ícones, acesse o material complementar do livro (em inglês),
baixe a informação e complete as atividades.

Dicas úteis de estudo


Aqui estão algumas dicas que podem ajudá-lo a compreender e a usar o conteúdo do livro.
Francamente, a maioria dessas sugestões poderia ser aplicada para muitos cursos com co-
nhecimento em comum. A parte mais difícil é fazer de fato aquilo que você sabe que deve
ser feito. Essas são nossas sugestões:
Baixe os elementos do capítulo do material on-line.
1. Leia o “Desafio em medida e avaliação” no início do capítulo e reflita.
2. Mantendo o “Desafio em medida e avaliação” em mente, folheie o capítulo antes
de lê-lo. Destaque os pontos-chave de seu interesse.
3. Leia o capítulo. Destaque os pontos-chave com mais detalhes.
4. Tente fazer as tarefas.
5. Assista às aulas diariamente. Não sente próximo de seus amigos. Faça anotações
na aula. Pergunte.
6. Estude em grupos.
7. Refaça as tarefas.
8. Releia o capítulo.
9. Volte ao “Desafio em medida e avaliação” do início do capítulo e veja se você pode
determinar como a informação do capítulo o ajudou a analisar o desafio.
10. Trabalhe com os conjuntos de dados disponíveis em cada capítulo, começando
pelo Capítulo 2. Conduza a análise como sugerido, mas também de acordo com o
relacionado ao conjunto de dados.
11. Considere aprender com suas próprias questões. Olhe o capítulo, reveja as anotações.
Releia as tarefas e acesse o material on-line. Alguns professores sugerem: “pergunte
três vezes e então responda”. A ideia é perguntar aos colegas (ou outras fontes) sobre
suas questões. A interação o ajudará a aprender melhor a matéria. Se ainda continuar
com dúvidas após ter perguntado para três pessoas, pergunte ao professor.
Acreditamos que este é um livro acessível, interessante, informativo e fácil de ler. Nós o
aconselhamos a usar o livro e os outros recursos existentes. Temos observado que os estu-
dantes aplicados, que investem o tempo necessário para a aprendizagem, assistem às aulas,
estão preparados e seguem as sugestões precedentes têm maior compreensão da teoria de
reprodutibilidade e de validade, entendem melhor os conceitos e os aplicam mais em suas
carreiras do que aqueles que não usam tais técnicas, métodos e estratégias. Esperamos que
você: leia, estude, compreenda e, mais importante, use os conceitos de medida e avaliação
em sua vida acadêmica, pessoal e profissional.

Conteúdo on-line
O conteúdo on-line (em inglês) é um recurso valioso. Nele, os estudantes podem encontrar
informações específicas para cada capítulo, incluindo questões on-line, tarefas com proble-
mas e respostas, atividades de estudante e itens de domínio com múltiplas escolhas, além
de grandes conjuntos de dados que serão necessários para completar as atividades de apli-
cação do conjunto de dados nos capítulos.

Morrow_iniciais.indd xvi 06/11/13 16:33


Sumário

Parte I Introdução aos Testes e Medidas em Desempenho Humano . . 21


Capítulo 1 Conceitos em Testes e Medidas . . . . . . . . . . . . . . . . . . . . . . . . 23
Natureza da medida e da avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Objetivos da medida, do teste e da avaliação . . . . . . . . . . . . . . . . . . 29
Domínios do desempenho humano . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Capítulo 2 Uso da Tecnologia em Medida e Avaliação . . . . . . . . . . . . . . . 37


Uso do computador para analisar dados. . . . . . . . . . . . . . . . . . . . . . . 39
Uso do PASW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Baixando matrizes de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Parte II Conceitos Básicos em Estatística. . . . . . . . . . . . . . . . . . . . . . . . 55


Capítulo 3 Estatística Descritiva e Distribuição Normal . . . . . . . . . . . . . 57
Escalas de medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Somatória. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Registro dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Tendência central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Formas de distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Variabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Escore-padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Áreas de curva normal (tabela z) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Capítulo 4 Correlação e Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75


Coeficiente de correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Cálculo do r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
Correlação ou regressão múltipla. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

Capítulo 5 Estatística Inferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89


Teste de hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Variáveis independente e dependente. . . . . . . . . . . . . . . . . . . . . . . . . 93
Visão geral do teste de hipóteses e da estatística inferencial. . . . . 93
Selecionando os tratamentos estatísticos . . . . . . . . . . . . . . . . . . . . . 94
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .103

Morrow_iniciais.indd 17 06/11/13 16:33


18 Sumário

Parte III Teoria da Reprodutibilidade e da Validade . . . . . . . . . . . . . . . 105


Capítulo 6 Reprodutibilidade e Validade de Normas-Padrão
de Referência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .107
Reprodutibilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .109
Validade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .121
Reprodutibilidade aplicada e medidas válidas . . . . . . . . . . . . . . . . .128
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .131

Capítulo 7 Reprodutibilidade e Validade de Critérios de Referência . . . .133


Desenvolvimento de critérios-padrão de referência. . . . . . . . . . . .135
Desenvolvimento de testes de critério de referência . . . . . . . . . . .136
Análise estatística de testes de critério de referência . . . . . . . . . .139
Técnicas estatísticas para usar com testes de critério
de referência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .140
Exemplos de testes de critérios de referência . . . . . . . . . . . . . . . . .145
Aplicação de critério-padrão de referência à epidemiologia . . . . .150
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .155

Parte IV Aplicações do Desempenho Humano . . . . . . . . . . . . . . . . . . . 157


Capítulo 8 Desenvolvimento de Testes Escritos e
de Questionários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .159
Planejamento do teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .161
Construção e classificação do teste. . . . . . . . . . . . . . . . . . . . . . . . . .170
Administração do teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .190
Análise do teste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .193
Análise de item . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .195
Fontes de testes escritos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .200
Instrumentos (questionários) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .201
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .206

Capítulo 9 Avaliação da Aptidão Física e da Atividade Física


em Adultos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .207
Aptidão física relacionada à saúde. . . . . . . . . . . . . . . . . . . . . . . . . . .209
Estabelecimento do risco na avaliação da aptidão física . . . . . . . .211
Medida da capacidade aeróbia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .213
Medida da composição corporal. . . . . . . . . . . . . . . . . . . . . . . . . . . . .221
Medida de força e da endurance musculares . . . . . . . . . . . . . . . . . .231
Medida da flexibilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .239
Baterias de testes de aptidão física relacionada à saúde . . . . . . . .245
Avaliação da aptidão física em idosos . . . . . . . . . . . . . . . . . . . . . . . .246
Bateria de testes de aptidão física para idosos . . . . . . . . . . . . . . . .248
Populações especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .259
Medida da atividade física . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .259
Programas de certificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .264
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .264

Morrow_iniciais.indd 18 06/11/13 16:33


Sumário 19

Capítulo 10 Avaliação da Aptidão Física e da Atividade Física


em Jovens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .265
Aptidão física relacionada à saúde e aptidão motora. . . . . . . . . . .269
Normas versus critérios-padrão de referência . . . . . . . . . . . . . . . . .270
Dados normativos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .270
Baterias de testes de aptidão física para jovens . . . . . . . . . . . . . . .271
Aptidograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .275
Padrões variáveis em testes de aptidão física para jovens. . . . . . .286
Potencialização da reprodutibilidade e da validade
dos resultados de testes de aptidão física em crianças . . . . . . . . .287
Crianças especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .288
Medida da atividade física em jovens . . . . . . . . . . . . . . . . . . . . . . . .288
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .297

Capítulo 11 Avaliação das Habilidades Esportivas e Motoras . . . . . . . . .299


Diretrizes para os testes de habilidades esportivas
e de desempenho motor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .300
Procedimentos eficazes de testes . . . . . . . . . . . . . . . . . . . . . . . . . . .301
Desenvolvimento de testes psicomotores . . . . . . . . . . . . . . . . . . . .304
Pontos importantes em testes de habilidades esportivas . . . . . . .306
Classificação dos testes de habilidades esportivas . . . . . . . . . . . . .307
Teste de habilidades motoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .321
Aspectos da medida do domínio do desempenho humano . . . . . .323
Objetivos da análise do desempenho humano . . . . . . . . . . . . . . . .325
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .333

Capítulo 12 Medidas Psicológicas em Esporte e Exercício . . . . . . . . . . . .335


Psicologia do esporte: aumento do desempenho
e saúde mental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .336
Medidas traço e estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .337
Medidas gerais versus específicas ao esporte. . . . . . . . . . . . . . . . . .339
Cuidados na utilização de testes psicológicos . . . . . . . . . . . . . . . . .341
Medida quantitativa versus qualitativa . . . . . . . . . . . . . . . . . . . . . . .343
Escalas usadas em psicologia do esporte e do exercício. . . . . . . . .348
Escalas psicológicas gerais usadas no esporte e no exercício . . . .364
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .370

Capítulo 13 Classificação da Sala de Aula. . . . . . . . . . . . . . . . . . . . . . . . . .373


Avaliações e padrões. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .375
Processo de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .376
Determinação dos objetivos de instrução . . . . . . . . . . . . . . . . . . . .377
Consistência na classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .381
Mecanismos de classificação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .382
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .398

Morrow_iniciais.indd 19 06/11/13 16:33


20 Sumário

Capítulo 14 Avaliação Baseada em Desempenho . . . . . . . . . . . . . . . . . . .399


Desejo de desenvolvimento de um novo tipo de avaliação . . . . . .400
Tipos de avaliação baseada em desempenho. . . . . . . . . . . . . . . . . .405
Estabelecimento de critérios para a avaliação baseada
em desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .412
Subjetividade: uma crítica às avaliações baseadas
em desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .421
Seleção apropriada da avaliação baseada em desempenho . . . . .421
Pontos importantes referentes ao desenvolvimento
da avaliação baseada em desempenho . . . . . . . . . . . . . . . . . . . . . . .425
Melhora das práticas de avaliação em educação física. . . . . . . . . .427
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .430

Apêndice A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .431
Glossário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .457
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .461
Índice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .468

Morrow_iniciais.indd 20 06/11/13 16:33


PARTE I
Introdução aos
Testes e Medidas
em Desempenho
Humano

T
odos queremos tomar boas decisões. Na Parte I, introduzimos os con-
ceitos de medidas e avaliação e explicamos sua importância na tomada
de decisão. Esses conceitos são fundamentais para o restante do livro.
O Capítulo 1 apresenta o fundamento e um panorama do uso da medida em
desempenho humano. O Capítulo 2 descreve os aplicativos de computador em
desempenho humano, com atenção específica ao uso para medidas, teste e ava-
liação; esse capítulo apresenta o que há de novo em tecnologia para aplicação
em muitos dos exercícios do livro. Especificamente, você usará a rede mundial
de computadores e softwares de estatística (Predictive Analytics Software [PASW]
e o MS Excel) para auxiliar na resolução de problemas em medidas e avaliação.
A Parte I apresenta grande parte do fundamento e das habilidades compu-
tacionais necessárias para tomadas de decisão de medida válidas. Por exemplo,
será possível aprender a criar tabelas de dados no PASW, ler arquivos do Micro-
soft Excel dentro do PASW e analisar um conjunto de dados usando procedi-
mentos apropriados. Esses procedimentos serão usados nos demais capítulos do
livro, tanto nos itens de domínio como em outras atividades.

Morrow_01.indd 21 28/02/13 10:54


1
Conceitos em Testes
e Medidas

Objetivos
Tópicos Após estudar este capítulo, você será capaz de:
Natureza da medida e da avaliação 25 ® definir os termos teste, medidas e avaliação;
Normas e critérios-padrão de referência 26 ® diferenciar normas e critérios-padrão de referência;
Avaliação formativa e somativa 28
® diferenciar avaliação formativa e avaliação somativa;
Objetivos da medida, do teste e da avaliação 29
® discutir a importância do processo de medida e avaliação;
Localização 29
® identificar os objetivos da medida e avaliação;
Diagnóstico 29
® identificar a importância de objetivos no processo de
Predição 30
tomada de decisão; e
Motivação 30
Desempenho 31 ® diferenciar entre os domínios cognitivo, afetivo e
Avaliação do programa 31 psicomotor e como se relacionam ao desempenho
humano.
Domínios do desempenho humano 31

ESTUDE A leitura dos tópicos no material


on-line (em inglês) o auxiliará a
identificar os principais conceitos
do capítulo.

Morrow_01.indd 23 28/02/13 10:54


24 Morrow, Jackson, Disch & Mood

Desafio em medida e avaliação


O estudo do processo de medidas e avaliação em desempenho humano inicia com a apresentação de uma visão
geral do que é abordado no livro. Esse primeiro desafio em medida e avaliação traz um cenário que relaciona muitos
dos capítulos e conceitos que você estudará. Primeiro, descrevemos o cenário e, então, ao final do capítulo, explica-
mos como você pode responder às questões que surgem nele.
Imagine que seu pai fala com você sobre a recente avaliação física dele. Faz alguns anos desde que o examina-
ram. O médico conduziu uma bateria de testes e perguntou sobre seu estilo de vida. Como resultado, o profissional
disse que seu pai está no grupo de risco para desenvolver doença cardiovascular. Foi dito que seu peso, pressão
arterial, nível de atividade física, colesterol, hábitos alimentares e nível de estresse aumentaram as chances de
desenvolver doença cardiovascular. Seu pai lhe disse que se sente muito bem, fora fisicamente ativo na escola e na
faculdade, parece melhor que a maioria das pessoas da mesma idade e não consegue se imaginar de fato em um
grupo de risco elevado. Por saber que você conhece os fatores de risco para doença cardiovascular, ele lhe pergunta:
1. Como alguém sabe se a medida é precisa? (validade e reprodutibilidade)
2. Que evidência sugere que essas características são realmente relacionadas ao desenvolvimento de doença
cardiovascular? (validade)
3. Qual é a probabilidade de o médico estar correto na avaliação?
4. Quais aspectos dos valores obtidos o posicionam em uma situação de risco aumentado? Por exemplo, a
pressão arterial sistólica de 140 mmHg estabelece o ponto de risco aumentado? Por que não 130 mmHg
ou 150 mmHg? Por que o risco tem sido reduzido de 140 para 130 e até mesmo para 120 mmHg? Ques-
tões similares poderiam ser levantadas sobre cada medida obtida.
5. Quais evidências sugerem que a mudança no fator diminuirá o risco?
Seu pai está preocupado por não saber o significado dos números. Da mesma forma, tanto ele como você es-
tão interessados na precisão daquelas medidas. Você gostaria de explicar a ele como interpretar aquele resultado e
encorajá-lo a fazer a mudança necessária de estilo de vida para reduzir o risco cardiovascular.
A interpretação dos resultados de medida e a determinação da qualidade das informações que o indivíduo
recebe são os pontos de discussão. A informação obtida auxiliará a concluir sobre a precisão e a fidedignidade das
medidas obtidas, bem como a tomar decisões baseadas nessas medidas. Em geral, a boa medida e a avaliação sub-
sequente deveriam conduzir a boas decisões, como mudar o estilo de vida do indivíduo para melhorar sua saúde.
Focaremos na medida obtida dos domínios cognitivo, psicomotor e afetivo.

P
or que o teste é importante? É realmente necessário dominar tantos conceitos es-
tatísticos? Que decisões estão envolvidas no processo de medida? A maneira como
você responde a essas questões é importante para o seu desenvolvimento como um
profissional competente em desempenho humano.
A tomada de decisão é importante em todas as fases da vida, independentemente de es-
tar relacionada a decisões profissionais ou pessoais. O modo como o indivíduo aborda a to-
mada de decisão afetará a qualidade de suas decisões. Os conceitos em estatística e medidas
apresentados neste capítulo fornecem a estrutura para tomar decisões confiantes e precisas.
Todos reunimos dados antes de tomar decisões, independentemente de o processo
de tomada de decisão ocorrer em pesquisa, em educação ou em outras atividades. Por
exemplo, você pode reunir informação sobre cursos de graduação, projetos de pesquisa ou
avaliação de aptidão física. Os pesquisadores reúnem dados sobre características de aptidão
física para analisar as relações entre aptidão física, atividade física, mortalidade, morbidade
e qualidade de vida. Os exemplos de medidas variáveis podem incluir a quantidade e o
tipo de atividade física, a pressão arterial e os níveis de colesterol. A perda e o controle do
peso são as principais preocupações em saúde, de modo que pode lhe interessar mensurar
o dispêndio energético para estimar o equilíbrio calórico. Da mesma forma, você reúne
dados sobre a temperatura antes de se aventurar para uma corrida matinal e ajusta seu

Morrow_01.indd 24 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 25

comportamento com base na informação obtida (p. ex., chuva, quente, escuro, frio). Antes
de comprar ações, você reúne dados da história da companhia, da liderança, dos ganhos e
dos objetivos. Tudo isso é exemplo de teste e medida. Em cada caso, tomar a melhor deci-
são possível baseia-se na coleta de dados relevantes e no uso destes para adotar a decisão
mais precisa.
O tema deste livro tem sido historicamente chamado de “testes e medidas”. Embora
alguns estudantes se referissem a ele como “estatística”, esse termo não descreve precisa-
mente o tema abordado. Alguns conceitos básicos de estatística são apresentados na Parte
II (Capítulos 3, 4 e 5); porém, o conhecimento necessário em estatística e matemática para
teste em medida não é extenso. Contudo, cada capítulo deste livro enfatiza alguns cami-
nhos com importantes pontos em reprodutibilidade e validade. Para tomar boas decisões,
você deve medir e avaliar com precisão. A tomada de decisão efetiva depende inicialmente da
obtenção de informação relevante. Considere as tendências de obesidade nos Estados Unidos.
Como a obesidade é mensurada, registrada e acompanhada? Veja a Figura 1.1, em que as
tendências são baseadas em evidências de dados do National Health and Nutrition Exami-
nation Survey (NHANES). Esses valores são seguros e válidos? As mudanças de comporta-
mento direcionadas ao estilo de vida podem ser baseadas nesses dados? Esse é o ponto em
que teste e medida entram em cena.

NATUREZA DA MEDIDA E DA AVALIAÇÃO


Os termos que usamos em medida e avaliação têm muitos significados específicos. Medi-
da, teste e avaliação referem-se ao elemento específico do processo de tomada de decisão.
Embora os três termos estejam relacionados, cada um tem um significado distinto e deve
ser usado corretamente. Medida é o ato de avaliar. Geralmente, isso resulta em atribuir um
número para mensurar a quantidade da característica que está sendo avaliada. Por exemplo,
pessoas podem ser solicitadas a registrar o número de dias por semana em que se engajam
em atividade física moderada a vigorosa (AFMV). De modo alternativo, poderiam ser soli-
citadas a relatar o número de minutos de AFMV por semana. O teste é um instrumento ou
uma ferramenta usada para fazer determinada medição. Essa ferramenta pode ser escrita,

20

18

16 Idade 2-5 anos


Idade 6-11 anos
14
Idade 12-19 anos
12
%

10

NHANES I 1971-1974 NHANES II 1976-1980 NHANES III 1988-1994 NHANES 2003-2004

Figura 1.1 Prevalência de sobrepeso na infância.


Reimpressa com permissão de Research Quarterly for Exercise and Sport, Vol. 80:696-701, Copyright 2009, by the American Alliance for Health, Physical
Education, Recreation and Dance, 1900 Association Drive, Reston, VA 20191.

Morrow_01.indd 25 28/02/13 10:54


26 Morrow, Jackson, Disch & Mood

oral, fisiológica ou psicológica, ou, ainda, um equipamento mecânico (tal como uma estei-
ra). Para determinar a quantidade de AFMV realizada na semana, é possível usar autorregis-
tro, observação direta, pedômetro ou sensor de movimento. A avaliação é uma declaração
de qualidade, mérito e valores referente às variáveis medidas. A avaliação implica tomadas
de decisão. Uma vez que determinamos o nível de atividade física de uma pessoa, podemos
compará-la com padrões nacionais ou internacionais, como, por exemplo, as diretrizes so-
bre atividade física do U.S. Department of Health and Human Services (USDHHS, 2008), e
ver se a pessoa é suficientemente ativa para obter benefícios à saúde.

É possível mensurar o consumo máximo de oxigênio (VO2máx, medida da potência
aeróbia) de uma pessoa de várias maneiras. O indivíduo pode realizar uma corrida máxima
em esteira rolante enquanto são coletados os gases expirados. Pode-se também coletar os
gases expirados em um protocolo máximo em cicloergômetro. Além disso, pode-se pedir
ao indivíduo para executar um exercício submáximo na esteira ou no cicloergômetro e en-

tão predizer o VO2máx por meio da frequência cardíaca ou da carga de trabalho. É possível,
ainda, medir a distância que uma pessoa percorre durante 12 minutos ou o tempo que leva
para completar correndo 2,4 km. Cada uma dessas ferramentas resulta em um número,
tal como porcentagem de O2 e CO2, frequência cardíaca, minutos ou metros. A medida do

VO2máx com uma dessas ferramentas não significa que você a avaliou. A obtenção e o regis-
tro dos dados têm pouco significado, a menos que se comparem os valores a uma referência. Esse
é o ponto em que a avaliação entra no processo.

Suponha que tenha testado o VO2máx de alguém. Além disso, suponha que o indi-

víduo tenha conhecimento do significado do VO2máx. Certamente, ele pode estar ciente
de que o teste na esteira é usado para a medida da aptidão física. No entanto, a primeira
questão que a maioria das pessoas levanta após completar algumas medidas é: Como fui?
∙ –1 –1
Está tudo bem? O simples relato “seu VO2máx é 30 mL·kg ·min ” representa pouco para
o indivíduo. É preciso fornecer uma avaliação. Uma declaração avaliativa sobre o desempenho
introduz o elemento de mérito ou qualidade, geralmente com base em conhecimento do dado nor-

mativo. Por exemplo, o VO2máx de 30 pode ser considerado muito bom para uma mulher de 70
anos, mas inadequado para um homem saudável de 25 anos.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 1.1.

Normas e critérios-padrão de referência


A tomada de decisão em avaliação depende da perspectiva de referência. É possível tomar
decisões avaliativas a partir da norma e do critério-padrão de referência. A decisão avaliati-
va baseada na norma-padrão de referência pressupõe que você compara o desempenho de
uma pessoa de acordo com o de outras (talvez de pessoas de mesmo sexo, idade ou classe).

Assim, como no exemplo anterior, você pode relatar que o VO2máx de 30 é relativamente
bom ou inadequado para alguém de acordo com a idade e o sexo do indivíduo. Contudo,
pode simplesmente relatar que o desempenho de determinada pessoa é relativo a um cri-

tério que você gostaria que ele alcançasse. Suponha que o VO2máx de 30 foi mensurado
em alguém que sofreu um infarto. O médico pode estar interessado em saber se o paciente
∙ –1 –1
alcançou o VO2máx de pelo menos 25 mL·kg ·min , que poderia indicar um nível fun-
cional de aptidão física cardiovascular. Esse é um exemplo de critério-padrão de referência.
Você não está interessado em compará-lo com o de outros; a comparação é com o padrão
ou critério. O critério, em geral, tem como base normas-padrão de referência e o melhor
julgamento dos especialistas na área.

Morrow_01.indd 26 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 27

Considere a medida de comportamento de atividade física com um pedômetro. Quan-


tos passos poderiam indicar um comportamento geral de atividade física e ser usado para
determinar se alguém é suficientemente ativo para obter benefícios à saúde? O fato de
que um indivíduo realiza mais passos do que outro não significa que o mais ativo seja
suficientemente ativo. A comparação do número de passos entre os indivíduos representa
uma comparação de norma-padrão de referência. Já a comparação do número de passos a
um mínimo específico representa um critério-padrão de referência. Por exemplo, Tudor-
-Locke e Bassett (2004) sugerem que dar de 7.500 a 9.999 passos por dia seria considera-
do como “pouco ativo”; ≥ 10.000 passos por dia, como “ativo”; e ≥12.500 passos por dia
como “altamente ativo”. Será possível aprender muito mais sobre padrões e sua validade
no Capítulo 7.
As mudanças no processo de avaliação da aptidão física de jovens nos últimos 30 anos
fornecem uma boa comparação entre norma-padrão de referência e critério-padrão de re-
ferência. Os escores de aptidão física utilizados seguem a norma-padrão de referência, isto
é, com relação aos colegas de sala de aula, de acordo com a idade e o gênero. Muitos testes
de aptidão física em jovens são agora critério-padrão de referência. A Tabela 1.1 traz um
exemplo da interpretação diferencial da norma e do critério-padrão de referência para um
menino de 12 anos que correu 1,6 km em 8 minutos 40 segundos. O escore (8:40) não
alcança o critério mínimo para a zona de aptidão física saudável do aptidograma (8:00). A
zona de aptidão física saudável representa um critério-padrão de referência. O resultado
referente a 8:40 coloca o menino no percentil 50 do President’s Challenge (uma comparação
de norma-padrão de referência).
A Tabela 1.2 fornece dados similares baseados em pesquisa de pedômetro de Tudor-Lo-
cke e Bassett (2004). Note que alguém poderia estar interessado em saber quantos passos
são realizados em comparação a outros (norma-padrão de referência), mas a informação
mais importante poderia ser se a pessoa realiza passos suficientes para obter benefícios à
saúde (critério-padrão de referência). Observe que nenhum critério nacional foi desenvol-
vido para caracterizar uma pessoa como saudável a partir da quantidade de passos dados
por dia. O estabelecimento de tal critério (e de muitos outros) é um desafio muito difícil
aos especialistas em medidas e avaliação.

Tabela 1.1 Critério e norma-padrão de referência para um garoto de 12 anos que correu 1,6 km
President’s Council on Physical Fitness and
Escore Critério do aptidograma Sports President’s Challenge
8:40 8:00 Percentil 50

Tabela 1.2 Padrões para passos por dia


<5.000 passos por dia Estilo de vida sedentário

5.000-7.499 passos por dia Muito pouco ativo

7.500-9.999 passos por dia Pouco ativo

≥10.000 passos por dia Ativo

≥12.500 passos por dia Altamente ativo

Morrow_01.indd 27 28/02/13 10:54


28 Morrow, Jackson, Disch & Mood

Item de domínio 1.1


As seguintes medidas costumam ser avaliadas a partir da perspectiva da norma ou do crité-
rio-padrão de referência?
• Pressão arterial
• Nível de aptidão física
• Colesterol sanguíneo
• Exame para carteira de motorista
• Desempenho em sala de aula

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 1.2.

Avaliação formativa e somativa


A avaliação ocorre em duas perspectivas: formativa e somativa. As avaliações formativas são
iniciais ou intermediárias, tais como a administração de um pré-teste e a subsequente ava-
liação do resultado. A avaliação formativa deveria ocorrer por meio de processo de instru-
ção, treinamento ou pesquisa. Medida, avaliação e feedback contínuos são essenciais para
o alcance dos objetivos em um programa de desempenho humano. Por exemplo, após
uma cirurgia no ombro, o objetivo pode ser recuperar a amplitude articular de movimento
(ROM) da articulação do ombro. O fisioterapeuta poderia medir a ROM e sugerir ativida-
des para melhorá-la. Essas avaliações contínuas não precisam envolver testes formais; a
simples sequência observação e feedback entre o estudante ou o participante e o instrutor
ou o líder costuma ser adequada. As avaliações somativas são avaliações que normalmen-
te ocorrem no final de um período de instrução ou de treino. Na qualidade de estudante,
você está interessado na avaliação somativa – a nota – que receberá no final do semestre.
A diferença entre avaliação formativa e somativa pode parecer meramente a diferença
na cronometragem dos dados; no entanto, é o uso dos dados coletados que distingue a ava-
liação formativa da somativa. Assim, em algumas situações, o mesmo dado pode ser usado
para a avaliação formativa e para a somativa.
Um programa de perda ou de controle de peso fornece um exemplo simples e útil
para aplicar a avaliação formativa e a somativa. Suponha que tenha medido o peso e a
porcentagem de gordura corporal de determinado indivíduo. A avaliação formativa indica
a porcentagem de gordura de 30% e a necessidade de perder 4,54 kg para se alcançar um
percentual de gordura desejado de 25%. É estabelecida uma dieta e indicado um programa
de exercícios para produzir a perda de peso de 0,454 kg por semana durante 10 semanas.
A cada semana você pesa o participante, determina a porcentagem de gordura e dá a ele
um feedback da avaliação formativa que está conduzindo. O participante sabe a magnitude
do progresso ou a falta do progresso que está ocorrendo a cada semana. No final das 10
semanas, você mede o peso corporal e a porcentagem de gordura e conduz uma simples
avaliação somativa. Os objetivos de perda de peso e de porcentagem de gordura foram
alcançados ao final do programa?
Considere novamente os passos medidos no pedômetro. É possível que alguém tenha o
objetivo a longo prazo de dar 10.000 passos por dia, mas, em curto prazo, a meta é aumen-
tar cerca de 500 por dia em um período de poucas semanas. Esse objetivo pode então ser
ajustado quando alguém se torna cada vez mais fisicamente ativo. As metas de curto prazo
podem ser vistas como formativas, e, em longo prazo, a meta final pode ser vista como
somativa. Você percebe como o uso das avaliações formativa e somativa está presente em
muitas de nossas decisões diárias, independentemente dos objetivos de carreira?

Morrow_01.indd 28 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 29

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 1.3.

OBJETIVOS DA MEDIDA, DO TESTE E DA AVALIAÇÃO


Os profissionais de cinesiologia, desempenho humano, atividade física e promoção da saú-
de, assim como a indústria da aptidão física, devem compreender teste, medida e avaliação
porque deverão tomar decisões avaliativas diariamente. Nossos estudantes, atletas, clientes
e colegas nos perguntam sobre a melhor ferramenta a utilizar e sobre como interpretar e
avaliar as medidas e o desempenho. Independentemente da área de interesse, as melhores
ferramentas e a forma de interpretar dados podem ser os pontos mais importantes de seus
estudos. Os conceitos relacionados à avaliação são objetividade (consistência do observa-
dor), confiabilidade (consistência), relevância (relacionamento) e validade (fidedignidade).
Esses termos são discutidos em detalhes nos Capítulos 6 e 7.
Existem muitas maneiras de usar o processo avaliativo em desempenho humano. Por
exemplo, considere a questão da responsabilidade. Seu empregador pode responsabilizá-lo
por um projeto, ou seja, você pode ser responsável por obter um resultado específico para
um indivíduo ou um programa. Testes, medidas e avaliação são usados para mostrar se os
objetivos foram alcançados. Obviamente, a avaliação deve refletir de modo preciso os resul-
tados do trabalho – supondo que tenha sido feito um bom trabalho! Certamente, se você se
tornar um professor, considerará seus alunos responsáveis por aprender e reter o conteúdo
que ensina. Da mesma forma, eles deveriam considerá-lo responsável por preparar da me-
lhor forma possível os testes para avaliar o desempenho em sala de aula.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 1.4.

Como você descobrirá, será preciso considerável conhecimento e habilidade para con-
duzir correta e efetivamente a medida e a avaliação. Como ocorre com todo esforço acadêmico
ou profissional, é importante ter uma compreensão completa do objetivo do processo de medida
e avaliação. Existem seis objetivos gerais de medida e avaliação: localização, diagnóstico,
predição, motivação, desempenho e avaliação do programa.

Localização
Um teste e uma avaliação iniciais permitem ao profissional unir os estudantes em grupos de
instrução ou de treinamento de acordo com suas habilidades. Em alguns casos, a instrução, o
treinamento e a aprendizagem em desempenho humano podem ser facilitados pelo agru-
pamento dos participantes de acordo com suas habilidades. Todos os participantes de um
grupo podem, então, ter um ponto de partida similar e melhorar em uma taxa consistente.
Obviamente, é difícil ensinar natação se metade dos estudantes não sabe nadar e a outra faz
parte da equipe de nadadores da instituição; mas mesmo que a diferença seja extremamen-
te pequena, ela pode afetar o ensino.

Diagnóstico
A avaliação dos resultados do teste geralmente é usada para determinar fraquezas ou de-
ficiências em estudantes, pacientes, atletas e participantes de programas de aptidão física.
Os cardiologistas podem administrar testes de esforço para obter eletrocardiograma em
exercício de cardiopatas a fim de diagnosticar a possível presença e magnitude de doença
cardiovascular. Lembre-se do desafio em medida e avaliação destacado no início do capítu-

Morrow_01.indd 29 28/02/13 10:54


30 Morrow, Jackson, Disch & Mood

As equipes esportivas são criadas reunindo-se atletas com habilidades similares para que sejam
motivados a alcançar determinado nível de desempenho. Localização, motivação e desempenho
são fatores importantes em medida e avaliação do desempenho humano.

lo. O médico faz o diagnóstico baseado em inúmeras medidas fisiológicas e comportamen-


tais. Isso foi possível devido ao conhecimento das relações entre as medidas e a incidência
de doença cardíaca. Existe, atualmente, muito interesse na atividade física moderada a
vigorosa (AFMV) e no comportamento sedentário. A quantidade de tempo em AFMV e de
atividades sedentárias pode “diagnosticar” o estilo de vida com relação a atividades físicas.

Predição
Um dos objetivos da pesquisa científica é predizer eventos futuros a partir de dados do
passado ou do presente. Isso também é um difícil objetivo de se alcançar em pesquisa.
Você provavelmente realizou testes de aptidão física quando estava na escola. Sua pontuação
pode ser vista como preditora de sucesso futuro e, talvez, também como parte do processo
de admissão usado para o colégio ou para a universidade. Os epidemiologistas do exercício
podem usar padrões de atividade física, medidas de endurance cardiovascular, pressão arte-
rial, gordura corporal ou outros fatores para predizer o risco de desenvolvimento de doenças
cardiovasculares.

Motivação
O processo de medida e avaliação é necessário para motivar os estudantes e os participantes do
programa. As pessoas precisam do desafio e do estímulo que recebem da avaliação de seu
desempenho. Não haveria quaisquer atletas se existissem apenas práticas e não jogos ou
competições. O que poderia motivá-lo a estudar e a aprender o conteúdo deste livro ou de
qualquer outro se soubesse que não seria avaliado e testado? É possível observar como a

Morrow_01.indd 30 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 31

simples medida do peso pode ser motivacional? Da mesma forma, saber o número de pas-
sos dados por dia pode motivar o aumento de comportamentos de atividade física.

Desempenho
Em um programa de treinamento ou instrução, um conjunto de objetivos deve ser esta-
belecido, de modo que os níveis de desempenho dos participantes sejam avaliados. Por
exemplo, em determinado curso, seu nível de desempenho final será avaliado, e uma nota
será atribuída de acordo com o conjunto de objetivos estabelecidos pelo instrutor. O desen-
volvimento do conhecimento e das habilidades necessárias para a classificação apropriada
representa um dos objetivos deste livro; os Capítulos 13 e 14 são dedicados aos tópicos de
avaliação e classificação. A melhora do desempenho humano é uma meta importante em
programas de instrução e treinamento, mas é muito difícil avaliá-la de forma justa e precisa.
A aprovação ou a reprovação serão julgadas com critérios ou normas-padrão de referência?
A avaliação do desempenho é uma tarefa somativa que requer medida e avaliação.

Avaliação do programa
No futuro, talvez você tenha de conduzir avaliações do programa para justificar tratamen-
to, instrução e treinamento. O objetivo da avaliação do programa é demonstrar (com evi-
dências) o desempenho bem-sucedido dos objetivos do programa aos seus superiores. Tal-
vez você tenha como objetivo aumentar a AFMV em sua comunidade. Você deseja medir
as mudanças de comportamento com o autorregistro de AFMV e a quantidade de passos
pelo pedômetro. Você mediria o comportamento de atividade física e tomaria as decisões
com base nos dados que obteve. De modo alternativo, caso seja um professor de educação
física, talvez tenha de demonstrar que seus estudantes estão recebendo experiências apro-
priadas de aptidão física. Poderá comparar os resultados dos testes de aptidão física dos
seus estudantes com os de outros estabelecimentos escolares ou com as normas nacionais.
É possível reunir a avaliação dos estudantes e dos pais no programa. Os profissionais da
comunidade, da corporação ou do centro de aptidão física podem avaliar seus programas
em termos de participação, resultados de testes, avaliações de participação e avaliação fisio-
lógica. Seu trabalho e seu futuro profissional podem depender da capacidade de conduzir
uma avaliação abrangente e efetiva do programa.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 1.5.

DOMÍNIOS DO DESEMPENHO HUMANO


Os objetivos discutidos estão relacionados aos objetivos do nosso programa. Os objetivos
são resultados específicos que se espera alcançar no programa. Esses resultados devem ser
mensuráveis para serem medidos precisamente. Os resultados mensuráveis são chamados
de objetivos comportamentais. Os objetivos na área de desempenho humano são classifica-
dos em três áreas: domínio cognitivo, domínio afetivo e domínio psicomotor. O estudante
de medida e avaliação em educação ou psicologia está preocupado com os objetivos das
duas primeiras áreas. Para os estudantes de desempenho humano, os objetivos distintos estão
relacionados ao domínio psicomotor. Bloom (1956) apresentou uma taxonomia (sistema de
classificação) de objetivos cognitivos (Tab. 1.3). A lista hierárquica dos níveis de Bloom
inclui conhecimento, compreensão, aplicação, análise, síntese e avaliação. Anderson e Kra-
thwohl (2001) modificaram a taxonomia original de Bloom e incluíram a “criação” como
o mais alto nível de esforços cognitivos. Os objetivos do domínio cognitivo lidam com a

Morrow_01.indd 31 28/02/13 10:54


32 Morrow, Jackson, Disch & Mood

informação baseada em conhecimento. Os objetivos do domínio afetivo referem-se a atri-


butos psicológicos e emocionais. Uma taxonomia desses objetivos, para Krathwohl, Bloom
e Masia (1964), é a que segue: recebimento, resposta, valorização, organização e caracteri-
zação por um valor complexo. Os objetivos afetivos com relação, por exemplo, a como as
pessoas percebem seu próprio desempenho são muito importantes, mas geralmente difíceis
de medir. Os objetivos afetivos em geral não são medidos para propósitos de classifica-
ção. O terceiro domínio dos objetivos é o domínio psicomotor (Harrow, 1972); abrange
movimentos reflexos, movimentos locomotores básicos, habilidades motoras perceptivas,
habilidades físicas, movimentos hábeis e movimentos não discursivos. As técnicas de medi-
das e conceitos associados ao domínio psicomotor diferenciam estudantes de desempenho
humano daqueles de outras áreas. Existem outras taxonomias para os domínios cognitivo,
afetivo e psicomotor; aqueles listados na Tabela 1.3 são apenas exemplos.
A medida e a avaliação de um teste específico deve considerar o domínio que os parti-
cipantes têm alcançado. Cada taxonomia é uma hierarquia; cada nível é baseado no alcance
dos níveis anteriores. Por exemplo, seria inapropriado tentar medir habilidades motoras
complexas em crianças de 7 anos de idade, em decorrência de a maioria ainda não ter
alcançado níveis anteriores da estrutura da taxonomia. Da mesma forma, é difícil, se não
impossível, aos participantes mais jovens alcançar objetivos cognitivos de um teste escrito
de alto nível.
A atividade física é um comportamento definido como movimento corporal. Pode va-
riar substancialmente, desde o crescente gasto energético até atividades leves, atividades de

Tabela 1.3 Taxonomia em domínios do desempenho humano


Taxonomia do domínio cognitivo Taxonomia do domínio afetivo Taxonomia do domínio psicomotor
(Bloom, 1956) (Krathwohl, Bloom e Masia, 1964) (Harrow, 1972)
Conhecimento Recebimento Movimentos reflexos
• Específico • Conhecimento • Reflexos segmentares
• De formas e meios de lidar com • Disponibilidade para receber • Reflexos intersegmentares
detalhes • Atenção controlada ou selecionada • Reflexos suprassegmentares
• Das características universais e Resposta Movimentos fundamentais básicos
abstrações de determinado campo • Consentimento para responder • Movimento locomotor
Compreensão • Disposição para responder • Movimento não locomotor
• Tradução • Satisfação em responder • Movimento manipulativo
• Interpretação Valorização Habilidades perceptivas
• Extrapolação • Aceitação de um valor • Discriminação cinestésica
Aplicação • Preferência para um valor • Discriminação visual
Análise • Compromisso • Discriminação auditiva
• De elementos Organização • Discriminação tátil
• De relações • Conceitualização do valor • Discriminação coordenada
• De princípios organizacionais • Organização de um sistema de Habilidades físicas
Síntese valores • Endurance
• Produção de comunicações únicas Caracterização de um complexo de • Força
• Produção de um plano para valores • Flexibilidade
operações • Conjunto generalizado • Agilidade
• Derivação de um conjunto de • Caracterização Movimentos hábeis
relações abstratas • Habilidade adaptativa simples
Avaliação • Habilidade adaptativa composta
• Decisões em termos de evidência • Habilidade adaptativa complexa
interna Movimentos não discursivos
• Decisões em termos de evidência • Movimento expressivo
externa • Movimento interpretativo

Morrow_01.indd 32 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 33

DOMÍNIO PSICOMOTOR: ATIVIDADE FÍSICA E APTIDÃO FÍSICA


Por muitos anos, educadores físicos, cientistas do exercício, personal trainers, técnicos de atletismo e líderes em saú-
de pública têm se preocupado com a definição, a medida confiável e válida e a avaliação da aptidão física em pes-
soas de todas as idades. Essa preocupação levou ao crescente número de testes e protocolos de aptidão física tanto
para pequenos como para grandes grupos. Por exemplo, o aptidograma do Instituto Cooper, o President’s Council on
Fitness, Sports and Nutrition, o President’s Challenge e o teste europeu, Eurofit, são baterias de testes de aptidão
física para jovens. Cada uma dessas baterias consiste em diferentes itens de teste, mas todas servem para avaliar
os níveis de aptidão física. Será possível aprender mais sobre essas baterias no Capítulo 10. Um grande número de
estudos tem sido realizado para demonstrar a viabilidade, a fidedignidade e a validade de tais testes de aptidão física.
Os levantamentos normativos têm sido conduzidos para estabelecer os níveis de aptidão física de várias populações.
Neste livro, dedicamos dois capítulos aos testes de aptidão física.
Na segunda metade do século XX, os aspectos da atividade física relacionados à saúde tornaram-se uma preo-
cupação dominante dos institutos de saúde pública. O ápice dessa preocupação foi apresentado no Physical Activity
and Health: A Report of the Surgeon General (USDHHS, 1996). Essa publicação, liderada pelo editor sênior científico
Steven Blair, apresenta casos detalhados dos benefícios à saúde decorrentes do estilo de vida, incluindo participação
consistente e regular em atividades físicas de intensidade moderada a vigorosa. Infelizmente, os relatórios indicam
que a maioria dos adultos nos Estados Unidos não é fisicamente ativa de modo suficiente para a boa saúde. Os Cen-
ters for Disease Control and Prevention utilizam medidas contínuas, tais como o Behavioral Risk Factor Surveillance
System (BRFSS) e o Youth Risk Behavior Surveillance System (YRBSS) para avaliar os comportamentos de atividade
física no país. O U.S. Department of Health and Human Services (2008) desenvolveu diretrizes nacionais para ati-
vidade física, resultando em muito interesse e em medidas do comportamento para a atividade física. Por fim, será
possível estudar, no Capítulo 10, muitos testes de aptidão física para grandes populações de jovens disponíveis nos
Estados Unidos, mas ainda há controvérsia se as crianças de hoje são fisicamente ativas e aptas ou se os níveis de
atividade física e de aptidão física declinaram nas últimas décadas. Morrow e colaboradores (Morrow, 2005; Morrow,
Zhu, Franks, Meredith e Spain, 2009) fornecem revisões referentes ao histórico dos testes e às medidas de aptidão
física em jovens.

fortalecimento ou mesmo inatividade física (ou seja, comportamentos sedentários). Esse


comportamento pode ocorrer durante atividades de lazer, transporte, ocupacionais e do-
mésticas. A aptidão física, contudo, é um conjunto de atributos que as pessoas têm ou alcan-
çam e está relacionada à habilidade de realizar atividade física. A atividade física é algo que
as pessoas fazem (ou seja, comportamento), enquanto a aptidão física é algo que as pessoas
têm ou alcançam. A hereditariedade desempenha um papel importante em ambos os fato-
res, mas é provavelmente mais importante na aptidão física. É mais difícil medir de maneira
fidedigna e válida a atividade física do que a aptidão. A medida de um comportamento ge-
ralmente é mais difícil que a medida de atributos.
Assim como há uma variedade de levantamentos referentes à atividade física (p. ex.,
BRFSS, YRBSS), testes de aptidão física e protocolos de testes para medir atributos especí-
ficos da aptidão física, existe também uma variedade de técnicas para medir a atividade e a
aptidão física. Essas técnicas incluem sensores de movimento, recordatórios, autorrelato e
biotelemetria da frequência cardíaca. As técnicas que funcionam para os adultos nem sem-
pre são apropriadas para as crianças. Um crescente corpo de literatura científica está surgin-
do sobre a reprodutibilidade e a validade das medidas de atividade física em diferentes po-
pulações e situações. Nos Capítulos 9 e 10, exploramos a medida e a avaliação da atividade
física e da aptidão física e os elementos no domínio psicomotor.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 1.6.

Morrow_01.indd 33 28/02/13 10:54


34 Morrow, Jackson, Disch & Mood

Desafio em medida e avaliação


As questões apresentadas sobre padrões, avaliação, objetivos e domínio do desempenho humano se relacionam
diretamente ao cenário sobre o seu pai. Por exemplo, em todo o livro abordaremos as ferramentas disponíveis
para responder às questões levantadas a respeito de seu pai. No Capítulo 2, será possível aprender sobre o acesso
à rede mundial de computadores para obter informação e calcular os riscos à saúde. Também serão introduzidos
os poderosos programas de computador que auxiliam a analisar dados e a tomar decisões; será possível usar esses
programas de computador por todo o livro. Dos Capítulos 3 ao 5, será possível compreender os procedimentos es-
tatísticos necessários para as tomadas de decisão com base em evidências. O Capítulo 3 apresenta informações so-
bre as distribuições das medidas. O Capítulo 4 apresenta informações sobre relação entre variáveis (p. ex., relacionar
o baixo nível de atividade física com o aumento do risco cardiovascular). O Capítulo 5 apresenta uma visão geral
dos métodos de pesquisa para auxiliar a decidir se determinada intervenção tem diferença significativa em um re-
sultado específico de interesse (p. ex., o exercício moderado reduz a gordura corporal?). O Capítulo 6 mostra como
determinar a precisão da medida. Será possível aprender como determinar a melhor medida, como interpretá-la e
quais os determinantes que influenciam as que medidas costumam estar presentes quando as medidas são obtidas.
O Capítulo 7 mostra como os padrões específicos de saúde são estabelecidos e como afetam as probabilidades ou
os riscos de desenvolver determinada doença.
O Capítulo 8 apresenta as ferramentas para a avaliação precisa do conhecimento. O conhecimento é neces-
sário, mas não é suficiente para mudar o comportamento. Por exemplo, seu pai sabe como ser fisicamente ativo
para obter os benefícios à saúde? Um simples teste de conhecimento de saúde pode relatar isso; no entanto, os
testes de conhecimento devem ser precisos. Você aprenderá como determinar se um teste de conhecimento é real-
mente preciso e fidedigno e se reflete o aprendizado. O Capítulo 9 mostra como medir fatores de risco associados
à doença cardiovascular. Por exemplo, você aprenderá sobre alguns testes simples de potência aeróbia, composição
corporal, aptidão física e atividade física. O Capítulo 10 ilustra a avaliação da aptidão física e da atividade física
na infância, valores que poderiam ser preditivos de futuro risco à saúde. O Capítulo 11 apresenta estratégias para
mensurar e avaliar as habilidades esportivas e as capacidades físicas. As capacidades físicas, tais como força e flexi-
bilidade, podem estar relacionadas ao risco à saúde do seu pai. O Capítulo 12 apresenta métodos para se medir os
níveis de estresse psicológico, que podem ser importantes no caso desse exemplo. O Capítulo 13, embora primeira-
mente preocupado com sistemas de classificação, contém importantes informações sobre a maneira apropriada de
relacionar várias medidas para se obter um escore composto. O Capítulo 14 traz exemplos de como obter medidas
alternativas. Por exemplo, explica como se poderia mensurar a atividade física por autorrelato, pedômetro ou ob-
servando diretamente o comportamento diário de uma pessoa.
Seu interesse, bem como o do seu pai, nas medidas realizadas estão no caminho certo. Mas como saber se elas
são precisas? Como saber se são realmente preditivas? Como saber se determinada intervenção ajuda a reduzir os
riscos? Essas e outras questões são parte de seu futuro aprendizado neste livro.

RESUMO
Como estudante, você sabe que quase toda decisão educacional está fundamentada no
processo de medida e avaliação. A Figura 1.2 ilustra a relação entre teste, medida e avalia-
ção e indica que, como profissional da área de desempenho humano, você terá de tomar
uma variedade de decisões sobre os métodos de coleta e interpretação dos dados no pro-
cesso de medida. Uma ampla variedade de instrumentos (testes) é utilizada para estimar
habilidades nos domínios cognitivo, psicomotor e afetivo. Você terá que determinar os
domínios em que deseja ter objetivos e então desenvolver objetivos específicos e sele-
cionar testes que produzam medidas objetivas, fidedignas, relevantes e válidas dos seus
objetivos. Uma vez que tenha coletado os dados, as decisões avaliativas podem ser tanto
relacionadas à norma como ao critério-padrão de referência. Na norma, o desempenho
do indivíduo é comparado com aquele de outros que foram testados. O critério-padrão

Morrow_01.indd 34 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 35

de referência é empregado para comparar o desempenho do indivíduo com um padrão


predeterminado relacionado a um comportamento ou a uma característica específicos. As
avaliações podem ser formativas (durante o programa ou em intervalos do programa) ou
somativas (no final do programa).

Avaliação

Norma- Critério- Formativo Somativo


-padrão de -padrão de
referência referência

Medida

Objetividade Reprodutibilidade Relevância Validade

Teste

Cognitivo Psicomotor Afetivo

Figura 1.2 Relação entre teste, medida e avaliação.

APRENDA Acesse o material on-line (em inglês) para realizar tarefas e preencher
questionários que o ajudarão a dominar o conteúdo deste capítulo.

Morrow_01.indd 35 28/02/13 10:54


2
Uso da Tecnologia
em Medida e
Avaliação

Objetivos
Tópicos Após estudar este capítulo, você será capaz de:
Uso do computador para analisar dados 39 ® identificar os potenciais usos do computador em sua área;
Uso do PASW 43 ® identificar softwares e hardwares para serem usados em
Começando 44 ciências do exercício e educação física;
Criar e salvar arquivos 45 ® apresentar exemplos de uso do computador em ciências
Baixando matrizes de dados 52 do exercício, educação física, academias e clínicas e
descrever como vários procedimentos de testes podem
ser facilitados com o uso da informática;
ESTUDE A leitura dos tópicos no material ® usar o PASW para criar e salvar arquivos;
on-line (em inglês) o auxiliará a ® usar o MS Excel para criar arquivos para serem usados no
identificar os principais conceitos PASW; e
do capítulo. ® usar PASW e MS Excel para analisar dados e estabelecer
o fundamento para a análise da reprodutibilidade e da
validade que segue nos capítulos subsequentes.

Morrow_02.indd 37 28/02/13 10:54


38 Morrow, Jackson, Disch & Mood

Desafio em medida e avaliação


Os computadores são onipresentes. Estão presentes nas casas e no trabalho e cabem até mesmo na palma de
sua mão. Usamos o computador para tomar decisões gerenciais de medidas e avaliação. Jéssica trabalha em uma
empresa de pesquisas que realiza intervenções destinadas ao aumento do engajamento à atividade física de inten-
sidade moderada a vigorosa (AFMV). Seu projeto atual envolve estratégias para estimular os indivíduos a caminhar
mais. Para se determinar a quantidade de AFMV realizada, os indivíduos foram convidados a usar sensores de mo-
vimento. A questão feita para a equipe do estudo é: “Quantos dias consecutivos de monitoramento são necessários
para se obter uma medida fidedigna de AFMV?”. Além disso, os pesquisadores se perguntam se um dia ou dois do
fim de semana são necessários. Os participantes do estudo vêm de toda a grande área metropolitana e represen-
tam o público em geral. A manipulação manual de tais dados seria muito demorada. A equipe planeja armazenar os
dados em um computador e tê-los prontamente disponíveis para análise.

O
s computadores estão se tornando comuns nas escolas. De fato, a grande maioria
das pessoas provavelmente tem um computador em casa. As tarefas que há poucos
anos eram desgastantes e consumiam muito tempo agora são feitas em poucos se-
gundos. Além disso, os computadores podem facilmente caber em uma maleta ou em sua
mão. A comunicação sem fio também está se expandindo rapidamente. Como a tecnologia
continua a se expandir, sua habilidade para usar um computador afetará sua carreira e suas
atividades de lazer.
Sem dúvida, os computadores pessoais foram um dos
mais importantes avanços tecnológicos dos últimos 30
anos. Originalmente, os computadores eram grandes má-
quinas que ocupavam salas inteiras (ou um andar inteiro)
em edifícios. Os usuários geralmente tinham que estar co-
nectados por meio de uma linha telefônica ou outra linha
eletrônica à estrutura principal, a qual era inacessível ao
público geral. No entanto, o desenvolvimento de micro-
processadores resultou em microcomputadores, mais po-
tentes e relativamente baratos. De fato, tem sido sugerido
que, se a mudança ocorrida na tecnologia da informática
nos últimos 50 anos também tivesse ocorrido na indústria
automobilística, os carros poderiam agora fazer milhões de
quilômetros com um galão de gasolina! No entanto, mesmo
agora que os computadores estão amplamente disponíveis,
muitos estudantes e profissionais que fazem medidas e ava-
liação em desempenho humano não têm aproveitado total-
mente as vantagens da informática.
Além disso, o desenvolvimento e o uso mundial da In-
ternet teve impacto significativo na obtenção de informa-
ção e na comunicação com outras pessoas. Em 1999, o Pew
Research Center relatou que a porcentagem de norte-ame-
ricanos que usa a internet passou de 23%, em 1996, para
O relógio de corrida deste atleta fornece com preci-
são a velocidade, a distância e o ritmo de passada. O
41%, em 1998. Cerca de um a cada cinco norte-americanos
acompanhamento do software permite baixar esses usa a internet para obter notícias e se informar sobre o cli-
dados para uma análise detalhada. Você também pode ma. A porcentagem de pessoas que usam a internet pelo
usar a tecnologia mais facilmente para analisar os da- menos uma vez por semana para ver notícias aumentou de
dos da pesquisa. 6%, em 1995, para 20%, em 1998, e para mais de 60% em

Morrow_02.indd 38 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 39

2002. Atualmente, mais de 90% de todos os estudantes universitários e 78% de todos os


adultos usam a rede mundial de computadores. O Pew Research Center informou que em
2008 o uso da internet declinou com a idade, mas ultrapassou os 50% na idade de 69 anos
(Pew, 2009). Mais de 80% dos usuários da internet estão tentando encontrar a resposta
para uma questão específica ou a usam como ferramenta de busca.
Existem inúmeros sites na internet específicos e valiosos para os estudantes de desem-
penho humano. Alguns são de organizações profissionais, como o American College of
Sports Medicine (ACSM; www.acsm.org), a American Alliance for Health, Physical Edu-
cation, Recreation and Dance (AAHPERD; www.aahperd.org) e a American Heart Associa-
tion (AHA; www.americanheart.org). As agências governamentais, como o U.S. Centers for
Disease Control e Prevention (www.cdc.gov) e o National Heart, Lung and Blood Institute
(www.nhlbi.nih.gov), fornecem importantes informações sobre saúde. O BRFSS (www.cdc.
gov/brfss) e o YRBSS (www.cdc.gov/HealthyYouth/yrbs), introduzidos no Capítulo 1, têm
recursos excelentes para o registro de dados. Outros fornecem informações científicas e de
conteúdo que podem estar relacionadas com suas responsabilidades profissionais (p. ex.,
cursos em que você possa ensinar e informação sobre aptidão física, saúde e treinamento
esportivo).

Item de domínio 2.1


Acesse o www.pubmed.gov (U.S. National Library of Medicine) e digite “pedômetro repro-
dutibilidade validade” (“pedometer reliability validity” [sem as aspas]) e veja algumas das
pesquisas em que foi utilizado o pedômetro.

É importante saber a diferença entre hardware e software. O hardware consiste em má-


quinas físicas que constituem o computador e seus acessórios. O software é o código do
computador, gerado por um programa, pelo qual é possível interagir com a máquina, in-
serir os dados e conduzir análises, assim como criar textos e desenhar gráficos. Não é
necessário ser programador para ser um usuário competente – a maioria dos usuários de
computador não faz programação.

USO DO COMPUTADOR PARA ANALISAR DADOS


A tecnologia do computador está agora difundida nas escolas e nas empresas. Muitas es-
colas e empresas exigem que os estudantes sejam capazes de utilizar o computador diaria-
mente no trabalho e no lazer. Algumas universidades exigem que os estudantes tenham um
computador, enquanto outras o fornecem ao estudante que paga uma taxa. Os computa-
dores têm grande influência no dia a dia (eles estão envolvidos em tudo, desde as compras
até os serviços bancários e o uso do telefone), e temos de ser capazes de usá-los. A compe-
tência em informática não exige a habilidade de um programador; a pessoa simplesmente
precisa ser capaz de usar o computador diariamente, como, por exemplo, para realizar
tarefas diárias ou para o lazer (i.e., “navegar” na internet).

Item de domínio 2.2


Acesse algum site de busca e digite um tópico especial em cinesiologia (p. ex., prevalência
de atividade física, mudanças de obesidade). Veja quantos fatores relacionados a esse tópico
você pode identificar. Considere como poderia usar essa informação em sala de aula ou em
sua carreira.

Os cientistas do exercício e educadores físicos precisam tomar muitas decisões em


medidas e avaliação que envolvem números; os computadores são particularmente adap-

Morrow_02.indd 39 28/02/13 10:54


40 Morrow, Jackson, Disch & Mood

tados para lidar com isso. Devido aos profissionais em exercício e desempenho humano
necessitarem diariamente de computadores, é preciso se familiarizar com suas caracterís-
ticas e seus usos específicos em seu campo de interesse, de modo que possa compreender
e usar os conceitos apresentados neste livro. Muitas das decisões que você deverá tomar
em sua área requerem análise de dados específicos. Assim, o PASW (Predictive Analytic
Software) é um poderoso programa de análise de dados que ajudará a salvar, recuperar e
analisar muitos dados de medida e avaliação que você encontrará diariamente. O PASW
faz cálculos numéricos rápidos, de maneira eficiente e quase sem esforço. Por exemplo, a
característica mais importante de muitos testes é a reprodutibilidade e a validade. Como
será aprendido nos Capítulos 3, 4, 6 e 7, os computadores podem gerar dados relacionados
a reprodutibilidade e validade em questão de segundos. Isso será mostrado em todo o livro.
Muitas estatísticas podem ajudá-lo a tomar decisões válidas. Os Capítulos 3 a 14 fornecem
muitas oportunidades para praticar o uso do PASW em cenários semelhantes aos que você
encontrará em sua profissão.
Além disso, apresentamos informações sobre como criar bancos de dados com o Mi-
crosoft (MS) Excel. Esses bancos de dados do Excel podem ser facilmente lidos com o
PASW. O benefício de criar seu banco de dados com o Excel é que ele é prontamente dispo-
nível nos computadores. Assim, você pode criar seu banco de dados no trabalho e, depois,
conduzir a análise com o PASW. Apresentamos mais informações sobre o uso do Excel no
Apêndice A. Aprenderemos mais sobre isso ao longo do Capítulo 2.
O uso do computador para medidas em desempenho humano, cinesiologia e educação
física inclui:
• Acesso à internet para obter informação relativa às suas responsabilidades espe-
cíficas de trabalho.
• Determinação da reprodutibilidade e validade. As estatísticas disponíveis nos Ca-
pítulos 3, 4 e 5 podem ser usadas para estimar a reprodutibilidade (consistência) e
a validade (veracidade) dos resultados dos testes nos domínios cognitivo, afetivo e
psicomotor. Os exemplos de PASW são fornecidos nos Capítulos 3 a 14.
• Avaliação dos resultados de testes cognitivos e desempenho fisiológico. Os com-
putadores podem auxiliar a avaliar e a registrar resultados de testes individuais. Da
mesma forma, você pode rapidamente recuperar, analisar e retornar os resultados
dos testes aos participantes do estudo. É possível estimar o risco de desenvolvimento
de diabetes por meio da American Diabetes Association (www.diabetes.org) e de
doença cardiovascular pela American Heart Association (www.americanheart.org).
• Condução da avaliação do programa. Os computadores podem calcular mudanças
no desempenho e na aprendizagem do estudante por meio de unidades de ensino
ou traçar alterações individuais no desempenho do indivíduo.
• Condução de atividades de pesquisa. É possível comparar um grupo experimental
com um controle para determinar se a nova intervenção teve efeito significativo no
desempenho cognitivo ou fisiológico.
• Desenvolvimento de apresentações. Os softwares especializados podem ser usados
para criar apresentações eficazes para estudantes, potenciais clientes, pacientes e
colegas de profissão. As apresentações podem incluir textos, fotos, vídeos, gráficos,
animações e sons para efetivamente apresentar sua mensagem.
• Estimativa do desempenho do estudante. Os estudantes e os clientes estão sempre
interessados em saber como se saem nos testes de desempenho, independente-
mente de os testes serem cognitivos, psicomotores ou fisiológicos. Os estudantes,
os professores e os médicos estão interessados em saber qual foi sua pontuação,

Morrow_02.indd 40 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 41

como interpretá-la, qual seu significado e que efeito produz. Os computadores


respondem facilmente a todas essas questões.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 2.1.

• Estoque de itens de teste. Os professores sempre têm de manter registros das notas
dos alunos. Os programas que permitem a entrada e a manipulação dos dados re-
gistrados dos estudantes são chamados de planilhas. As planilhas são versões essen-
ciais para as matrizes de dados com linhas e colunas de informação. Os nomes dos
estudantes são frequentemente encontrados na primeira coluna, e os demais dados
preenchem as colunas restantes. Ademais, cada linha representa um estudante dife-
rente e cada coluna contém escores de testes e outros. Caso o professor mantenha um
registro diário das notas da classe, então a média da classe, as notas finais, os relatórios
impressos, etc, podem ser gerados em poucos cliques. Da mesma forma, os profissio-
nais da saúde e da aptidão física podem manter registros de dados de treinamento e
mudanças no peso, na força muscular, na potência aeróbia e assim por diante.
• Criação de testes escritos. Os computadores podem servir como um banco para
criar testes escritos, em vez de desenvolver um novo teste a cada unidade ensinada.
Alguns programas de desenvolvimento de testes são muito sofisticados e permitem
escolher não somente um item pelo conteúdo, mas também pelo tipo de item, nível
de dificuldade ou pelos dados criados.
• Cálculo de números estatísticos. As medidas fisiológicas geralmente envolvem
equações para estimar valores. Por exemplo, as dobras cutâneas são usadas para
estimar a porcentagem de gordura corporal; a distância percorrida e a frequência
cardíaca são usadas para estimar o consumo de oxigênio. O computador pode aju-
dar muito no cálculo desses valores. Em vez de substituir cada número dentro de
uma equação e ir por meio de passos para completar o cálculo, é possível digitar a
fórmula uma única vez, e automaticamente calcular o valor desejado para cada pes-
soa. Por exemplo, veja o site do National Heart, Lung, and Blood Institute (NHLBI)
do National Institutes of Health (NIH) (www.nhlbisupport.com/bmi/) e calcule seu
índice de massa corporal.

Item de domínio 2.3


Pense em algumas tarefas que consomem tempo e que você precisa realizar regularmente.
Como o computador o auxiliaria a executá-las de maneira mais eficiente? O que a cinesiolo-
gia, as ciências do exercício ou a educação física podem fazer com um computador?

Os testes de aptidão física representam um componente importante na maioria dos


programas de educação física, cinesiologia e ciências do exercício. Há poucos anos, os re-
sultados dos testes de aptidão física eram relatados oralmente em registros preparados de
forma muito simples ou em cópias mimeografadas. Atualmente, os programas de aptidão
física para jovens usam software para analisar os resultados. O aptidograma do Cooper
Institute é um exemplo de um excelente software. A Figura 2.1 mostra o tipo de resultado
que o professor pode dar às crianças (e aos seus pais) para melhor informá-las de seu
progresso.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 2.2.

Morrow_02.indd 41 28/02/13 10:54


42 Morrow, Jackson, Disch & Mood

Joe Jogger
Está na 6ª série e tem 12 anos
Central School
Professor(a): Joanna Watson
Data Estatura Peso
Atual: 22/07/2010 163 cm 58,96 kg

Melhoras
Zona saudável
POTÊNCIA AERÓBIA

Necessárias
Elevado risco Baixo risco AVISOS
Potência aeróbia (VO2máx) Embora seu escore de potência aeróbia esteja na zona
Atual: 41,3 saudável de aptidão física, você não está fazendo ativi-
dade física suficiente. Tente fazer mais atividades
moderadas ou vigorosas (pelo menos 60 minutos por dia)
Seu escore para potência aeróbia é baseado no número de para se sentir bem e permanecer saudável.
voltas no PACER e no seu IMC. Ele mostra sua capacidade
para realizar atividades como corrida, ciclismo e esportes Sua força abdominal, de tronco e de membros superiores está
em um nível mais elevado.
na zona saudável. Para manter sua aptidão física, esteja certo
Voltas no PACER IMC de que suas atividades de fortalecimento incluem exercícios
Corrente: 20 22,3 com pesos para todo o corpo. Os exercícios abdominais e de
tronco deveriam ser realizados de 3 a 5 dias na semana.
FORÇA MUSCULAR, ENDURANCE E FLEXIBILIDADE

Melhoras As atividades de fortalecimento para outras partes do corpo


Necessárias
Zona saudável deveriam ser realizadas 3 dias por semana.
Abdominal A melhora da flexibilidade ocorrerá por meio de alongamento
durante 3 a 4 dias por semana, mantendo cada
Atual: 25 exercício por 20 a 30 segundos.
Joe, temos boas notícias. Seu escore de composição corporal
está na zona saudável, mas você não realiza atividade física
suficiente. Para manter esse nível saudável, terá que fazer o
seguinte:
Extensão de tronco -Tentar fazer mais atividades físicas (pelo menos 60 minutos todos os dias).
Atual: 9 -Limitar seu tempo assistindo TV ou jogando videogame.
-Comer mais frutas e vegetais.
-Limitar os alimentos gordurosos e com açúcar.

Zona saudável para garotos com 12 anos


Potência aeróbia: ≥ 40,3 mL·kg-1·min-1
Flexão de braço Abdominal: ≥ 18 repetições
Extensão de tronco: 9 a 12 movimentos
Atual: 12 Flexão de tronco: ≥ 10 repetições
Flexibilidade: pelo menos 8 movimentos
Porcentagem de gordura: 8,4 a 23,6%

Teste de sentar e alcançar


Atual: 7,00, 7,00
COMPOSIÇÃO CORPORAL

Porcentagem de gordura
Melhoras
Zona saudável Necessárias
Baixo risco Elevado risco

Atual: 16,0

Estar muito abaixo ou acima do peso, pode ser um sinal


de risco de (ou levar a) problemas de saúde.
Número
Para ser saudável e fisicamente apto, é importante fazer atividade física
de dias todos os dias. Os exercícios aeróbios são bons para o coração e para
Em quantos dos últimos sete dias você participou
3 a composição corporal. Os exercícios de força e flexibilidade são bons
de atividades físicas por um total de 30 a 60 minutos
ATIVIDADES

para os músculos e para as articulações.


ou mais a cada dia?
Em quantos dos últimos sete dias você participou de 3 Bom trabalho! Você está fazendo algumas atividades
atividades físicas de fortalecimento muscular? aeróbias e de força. Adicione alguns exercícios de
flexibilidade para melhorar sua aptidão física.
Em quantos dos últimos sete dias você participou de 1
atividades físicas de relaxamento muscular? © The Cooper Institute, 2010.

Figura 2.1 Avaliação do aptidograma, fornecida aos pais e estudantes para ilustrar o desempenho do estudante.
Reimpressa com permissão do Cooper Institute for Aerobics Research, 2010, FITNESSGRAM (Champaign, IL: Human Kinetics).

Morrow_02.indd 42 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 43

SEU LIVRO E A REDE MUNDIAL DE COMPUTADORES


Na confecção deste livro, aproveitamos a internet para ajudá-lo a melhorar seu aprendizado, a prática e o uso da
informação apresentada. Se o seu professor tem um site pessoal, ele pode até mesmo ter um link para o material
on-line deste livro (em inglês). Os principais quesitos que podem ser obtidos nesse material on-line incluem:
• elementos associados a cada capítulo do livro;
• respostas a itens de domínio selecionados;
• atividades estudantis adicionais similares aos itens de domínio do livro;
• tarefas para praticar em casa, com respostas selecionadas; e
• questionários.
O material on-line foi organizado de modo que você acesse o site, escolha o capítulo do qual gostaria de obter
informação e clique no respectivo link. Uma vez acessado o capítulo, você terá vários links para obter recursos para
ajudá-lo na preparação de aulas, material de revisão, questionários práticos, problemas práticos completos e prepa-
ratório para exames. Vá ao site, veja o conteúdo e examine os recursos.

USO DO PASW
Muitas decisões que você terá tomar sobre reprodutibilidade e validade, independente-
mente de ser cinesiologista, fisioterapeuta, médico, treinador, instrutor ou educador, serão
baseadas em dados estatísticos. Mas não se assuste! Este não é um livro de estatística, mas
de medidas e avaliação. No entanto, as estatísticas apresentadas nos Capítulos 3, 4 e 5 for-
necem a estrutura para muitas decisões tomadas em medidas e avaliação em desempenho
humano. Embora usemos o PASW (sofisticado programa de estatística amplamente dispo-
nível em muitos campos universitários) e o MS Excel para auxiliar em cálculos estatísticos
usados em reprodutibilidade e validade, seu professor talvez escolha realizar as análises
em outro tipo de software. De qualquer forma, os cálculos serão quase idênticos (dentro da
margem de arredondamento), e a interpretação dos resultados será exatamente a mesma,
independentemente do programa de estatística usado. Quase tudo que é apresentado neste
livro está disponível nas versões do PASW. O PASW é atualizado com frequência, e no-
vas versões estão disponíveis. Talvez você precise ser um pouco flexível quando acessar o
PASW porque esse programa é frequentemente atualizado, e o método específico que você
usa para acessar o PASW em um lugar talvez não seja o mesmo em outros locais.
O PASW é um software desenvolvido para analisar números (p. ex., calcular a média
ou desenhar um gráfico). No entanto, ele necessita de um banco de dados para a condu-
ção da análise. Assim, cada análise realizada pelo PASW é executada em um conjunto de
dados criados e salvos por meio do editor de dados do PASW. O editor de dados do PASW
permite criar uma base de dados (também chamada de matriz de dados) que consiste em
“n” linhas de pessoas com “p” colunas de variáveis (“id” número 1 a 10) com seis variáveis
(“id”, “gênero”, “idade”, “peso em kg”, “estatura em cm”, “milissegundos”). O peso é medi-
do em quilogramas (kg), e a estatura, em centímetros (cm); milissegundos é o número total
de segundos necessários para completar 1,6 km de caminhada.
O PASW permite tabular e manipular dados e conduzir análises que resultam em uma
variedade de números, tabelas e gráficos. Cada uma das tabelas de dados usadas neste livro
está localizada no link deste livro no site da editora. É possível fazer o download pelo PASW
ou no formato MS Excel. Você aprenderá mais sobre isso nos parágrafos seguintes.

Morrow_02.indd 43 28/02/13 10:54


44 Morrow, Jackson, Disch & Mood

Tabela 2.1 Amostra de banco de dados (matriz de dados)


id gênero idade peso (kg) estatura (cm) milissegundos
1 0 20 50 165 500

2 0 24 51 160 600

3 0 21 62 173 700

4 0 19 59 178 650

5 0 23 43 145 450

6 1 22 86 193 480

7 1 25 65 183 400

8 1 24 61 178 420

9 1 28 75 173 390

10 1 20 70 178 350

Começando
Localize e dê um clique duplo no ícone do PASW na área de trabalho de seu computador.
De modo alternativo, talvez você tenha que passar pelo menu iniciar no canto inferior es-
querdo da tela para localizar o PASW. Isso será diferente dependendo do seu computador.
Depois de localizado e inicializado o PASW, note que aparecerá uma matriz de dados em
branco. O canto superior esquerdo tem o nome “Untitled – PASW Statistics Data Editor”. O
editor de dados permite definir e inserir os dados (Fig. 2.2).

Figura 2.2 Captura de tela do PASW.

Morrow_02.indd 44 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 45

Observe que existem duas abas na parte inferior esquerda da janela do PASW. Uma se
refere à exibição de dados, e a outra, às variáveis. A janela de exibição dos dados apresenta
os dados tabulados ou fornece uma planilha que permite tabulá-los. A janela de variáveis
permite definir e nomear as próprias variáveis, e também identificar títulos das variáveis,
títulos dos valores e células em branco, ilustrados nos parágrafos seguintes. Note também
que existem vários menus na parte de cima da matriz de dados. Estes geralmente fornecem as
seguintes funções:
• Arquivo (File) – Entre outras funções, permite criar uma nova matriz de dados,
abrir uma matriz de dados previamente salva, salvar a matriz de dados atual, impri-
mir a matriz de dados atual ou os resultados da análise e sair do programa.
• Editar (Edit) – Permite desfazer um comando anterior; cortar, copiar ou colar algu-
ma informação da janela; inserir variáveis ou casos; ou encontrar partes específicas
de dados.
• Exibição de dados (View) – Permite mudar a fonte na qual seus dados aparecem e
mudar a aparência da matriz dos dados e assim por diante.
• Dados (Data) – Entre outras funções, permite classificar os dados e selecionar casos
específicos.
• Transformar (Transform) – Permite modificar suas variáveis de diversas formas.
Você usará a função compute com frequência.
• Análise (Analyze) – Você se familiarizará com esse menu ao longo das lições. Ele lis-
ta a variedade de procedimentos estatísticos disponíveis. Não se preocupe – existem
muitas listas, mas não usaremos todas elas. Note que cada uma das opções desse
menu tem uma seta ao lado. A seta indica que submenus adicionais estão disponí-
veis para determinado procedimento estatístico. Você se tornará muito familiarizado
com esses submenus ao longo do livro.
• Gráficos (Graphs) – Lista os vários tipos de gráficos que podem ser usados para
apresentar os dados. Usaremos um número limitado dessas opções no livro.
• Utilitários (Utilities) – Permite modificar a sua matriz de dados de diversas manei-
ras. Não usaremos esse menu no livro.
• Janela (Window) – Permite minimizar a janela de dados quando está executando
vários programas ao mesmo tempo e alternar entre a janela de dados e a janela de
saída do PASW quando realizadas as análises. A janela de dados poderá ser dividida
para facilitar a preparação das colunas de leitura.
• Ajuda (Help) – Fornece uma variedade de recursos para ajudar na execução do
PASW. Você poderá achar os tópicos nos submenus de ajuda (e no índice) muito
úteis.
Existem funções adicionais, que você pode achar muito úteis, mas fornecemos aqui
as informações necessárias para o uso do PASW neste livro. Encorajamos você a investigar
os vários menus e usar a janela de ajuda para aprender o PASW. A interatividade com o
PASW o auxiliará mais na compreensão e na capacidade de usar e realizar seu trabalho mais
facilmente. As instruções do PASW estão baseadas na versão 17.0. Essas instruções podem
mudar com as atualizações do software. Apresentamos conjuntos de dados de amostra no
PASW em cada capítulo do livro.

Criar e salvar arquivos


Use as etapas do item de domínio 2.4 para criar e salvar seu primeiro arquivo no PASW (ta-
bela 2-1). Uma vez familiarizando, você será capaz de passar por essas etapas rapidamente.

Morrow_02.indd 45 28/02/13 10:54


46 Morrow, Jackson, Disch & Mood

Por enquanto, confie em nossas orientações e siga passo a passo os procedimentos. Note
que terá que salvar as matrizes de dados como tabela 2-1 (com hífen e não com ponto).
Isso ocorre porque o computador poderia interpretar o ponto como uma “extensão de
arquivo”, podendo causar dificuldade ao tentar acessar a tabela em algum ponto seguin-
te. Então, quando criar e salvar suas tabelas, nomeie com o seguinte estilo: o número do
capítulo-número da tabela. Por exemplo, no Capítulo 2, a segunda tabela poderia ser tabela
2-2, a terceira tabela no Capítulo 2 poderia ser 2-3, e assim por diante.
Os nomes das variáveis no PASW devem começar com uma letra e ter menos de 64
caracteres. Você não pode usar espaços nos nomes e deve evitar caracteres especiais quando
nomear uma variável. Temos usado um nome mnemônico para identificar nossas variáveis.
Assim, “pesoKg” significa peso em quilogramas (kg). O mnemônico ajuda a lembrar exata-
mente qual é a variável e a unidade em que está sendo mensurada (Fig. 2.3).

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 2.3.

b
Figura 2.3 Captura de tela do PASW: (a) janela de variáveis e (b) janela de exibição dos dados.

Morrow_02.indd 46 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 47

Item de domínio 2.4


Siga os procedimentos passo a passo para criar um arquivo do PASW nomeado tabela 2-1
e salve em uma unidade de armazenamento de dados (p. ex., disco rígido, pendrive, etc.).
Criando e salvando um arquivo no PASW (usuários de Excel, ver Apêndice A)
1. Tenha em mãos um dispositivo de armazenamento de dados antes de iniciar essa tare-
fa. Em alguns sistemas, talvez seja preciso salvar seus dados em uma conta eletrônica.
2. Coloque o dispositivo na máquina e observe sua localização.
3. Localize o ícone PASW e clique nele (talvez você tenha que ir ao botão iniciar no canto
inferior esquerdo do computador e localizar o PASW entre os programas listados no
menu iniciar).
4. Primeiro, nomeie as variáveis e, em seguida, as defina; o importante é construir um “li-
vro de códigos” (i.e., uma legenda) que o ajude a lembrar das variáveis.
5. Clique na guia “ver variável” (Variable View) no canto inferior esquerdo e note que a
janela agora mostra aquilo que está ilustrado na Figura 2.3a, mas sem a informação nela
contida.
6. Nomeie cada uma das variáveis na primeira coluna. Note que o nome da variável deve
começar com uma letra, não deve conter caracteres especiais e não deve ter mais que
64 caracteres.
7. Por enquanto, pule o “tipo” (type), a “largura” (widht) e as colunas “decimais” (deci-
mals).
8. Você poderá expandir os nomes das variáveis na coluna “rótulo” (label).
9. Clique na borda direita da coluna “valores” (values) para a segunda variável (ou seja,
gênero). Observe que receberá uma caixa para ajudar a definir os valores associados
com números de gênero. Em nosso caso, classificamos as mulheres como 0 e os homens
como 1. Digite esses valores, clique no botão “adicionar” (add) cada vez, e então clique
em “OK”. Você terá definido suas variáveis e estará pronto para começar a tabulação.
10. Clique na guia “ver dados” (data view) para chegar à janela dos dados.
11. Digite os dados da Tabela 2.1 no PASW. Seus resultados deverão ser parecidos com os
da Figura 2.3b.

Figura 2.4 Captura de tela do PASW mostrando como salvar um arquivo.

Morrow_02.indd 47 28/02/13 10:54


48 Morrow, Jackson, Disch & Mood

12. Agora você está preparado para salvar os dados na unidade de armazenamento. Esteja
certo de que a unidade foi corretamente inserida. Vá para o menu “arquivo” (file) e, em
seguida, “salvar como” (save as) (veja a Fig. 2.4).
13. Na caixa “nome do arquivo” (file name), digite “tabela 2-1” (sem as aspas).
14. Salve os dados na unidade de armazenamento (não no disco rígido). Vá para a caixa
“salvar em” (save in), na parte superior da tela, e clique na seta apontando para baixo. Vá
para o local onde você acabou de colocar a unidade de armazenamento e a selecione.
15. Agora clique em “salvar” (save). Seus dados na tabela 2.1 agora estão salvos na unidade
de armazenamento.
16. Vá para o menu “arquivo” (file) e clique em “sair do PASW” (exit PASW). Você irá sair do
PASW.

Item de domínio 2.5


Agora que criou e salvou os dados, vamos recuperá-los e conduzir uma análise usando os
procedimentos a seguir. Use a tabela 2-1 que criou com o PASW. Primeiro, vá para a unidade
de armazenamento e localize a tabela 2-1. Dê um duplo clique e inicie o PASW.
1. Vá para o menu “análise” (analyze).
2. Vá para “estatística descritiva” (descriptive statistic) e clique em “descritiva” (descriptives).
3. Quando a janela descritiva aparecer, use a seta para mover “idade”, “pesoKg”, “estatura-
cm”, e “milissegundos” dentro da caixa variáveis.
4. Clique em OK e depois compare seus resultados com aqueles apresentados na Figura 2.5.
5. Caso o resultado seja diferente, volte à tabela 2.1 e compare os dados com o que você
tabulou no editor do PASW.

Nosso próximo exemplo demonstrará uma das funções mais poderosas do PASW – a
capacidade de manipular dados facilmente. Usaremos as informações seguintes para criar
algumas novas variedades para os 10 indivíduos na tabela 2.1. Usaremos o peso e a esta-
tura para calcular o índice de massa corporal (IMC) de cada um dos sujeitos. O IMC será
discutido no Capítulo 9; o usaremos aqui porque ele fornece um excelente exemplo de
modificação de dados no PASW.
Usando demonstrações para calcular no PASW
1. Acesse sua tabela de dados 2-1 como foi feito no item de domínio 2.5.
2. Vá ao menu transformar (transform) e clique em calcular (compute), aparecerá a
janela calcular uma nova variável (compute variable).

Estatística descritiva
Desvio-
N Mínimo Máximo Média -padrão
Idade em anos 10 19 28 22,60 2,757
Peso em 10 43 86 62,20 12,709
quilogramas
Estatura em 10 145 193 172,60 13,293
centímetros
Tempo dos 1,6 km 10 350 700 494,00 118,340
em segundos
N válido 10
(listwise)
Figura 2.5 Estatística descritiva para o item de domínio 2.5.

Morrow_02.indd 48 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 49

3. Digite “pesolb” na caixa variável alvo (target variable).


4. Coloque “pesokg” na caixa expressão numérica (numeric expression) usando a
seta para movê-la.
5. Vá ao teclado na janela e clique em “*” para multiplicação.
6. Coloque o cursor ao lado do “*” na caixa expressão numérica (numeric expres-
sion) e digite 2.2 (lembre-se que para calcular o peso em libras a partir do peso em
quilogramas, basta multiplicar o peso em quilogramas por 2.2).
7. Clique em OK.
8. Note que uma nova variável, “pesolb”, foi criada e adicionada em uma coluna à
direita da variável “milissegundos”.
9. Faça o mesmo para alterar a estatura em centímetros para polegadas. Note que a
altura em centímetros deve ser dividida por 2,54 para obter a estatura em pole-
gadas.
Calcular o IMC envolve mais procedimentos matemáticos. O IMC representa o peso
em quilogramas dividido pela estatura em metros ao quadrado. O IMC pode ser calculado
a partir de kg e cm ou por libras e polegadas. Façamos passo a passo.
1. Use o submenu cálculo (compute) (sob transformar [transform]) para criar uma
variável chamada IMC.
2. Use a instrução calcular (compute) para criar o “IMC” a partir de “pesolb” e esta-
tura em polegadas. A fórmula é pesolb/(estatura * estatura) * 703. Coloque essa
fórmula na caixa “expressão numérica” (numeric expression) ao lado direito e
clique em OK.
3. Salve a versão revisada da tabela 2-1 da sua unidade de armazenamento com o
comando salvar (save) do menu arquivo (file).

Item de domínio 2.6


Calcule a média do IMC que você acabou de criar e confirme se o valor médio é 20.6524.
Caso não tenha obtido esse número, verifique os números originais tabulados e as variáveis
criadas passo a passo. Caso encontre uma variável incorreta, basta destacar a coluna para
essa variável e pressionar a tecla delete. A coluna será removida do conjunto de dados e será
possível recriá-la.

Nem sempre será possível ter o PASW disponível no computador com o qual você está
trabalhando. Nesse caso, você poderá usar o MS Excel para inserir seus dados e depois o
PASW para ler o arquivo do Excel. Fornecemos um exemplo de como fazer isso com os
dados da tabela 2-1. Siga estes passos para criar um banco de dados da tabela 2-1 no Excel
e leia os dados no PASW:
1. Abra o Excel em seu computador. Você verá uma planilha de dados em branco,
como aquela apresentada na Figura 2.6.
2. Digite os nomes das variáveis na primeira linha. Continue a usar as restrições do
PASW nos nomes das variáveis. Cada nome de variável deve começar com uma
letra, não conter caracteres especiais e não ter mais que 64 caracteres.
3. Coloque o cursor na célula a2 e comece a tabular os dados da tabela 2-1. Depois
de ter tabulado todos os dados, seu arquivo de dados do Excel deve ser parecido
com aquele apresentado na Figura 2.7.
4. Vá para o menu arquivo do Excel e salve a versão Excel da tabela 2-1 na sua uni-
dade de armazenamento do mesmo modo como foi instruído a fazer com a versão
PASW da tabela 2-1.

Morrow_02.indd 49 28/02/13 10:54


50 Morrow, Jackson, Disch & Mood

Figura 2.6 Planilha de dados em branco do Excel.

Figura 2.7 Arquivo de dados do Excel para a tabela 2-1.

Agora você está pronto para acessar seus dados no Excel com o PASW. O PASW é capaz
de ler os dados do Excel e disponibilizá-los para análise. Faça o seguinte para ler no PASW
os dados arquivados no Excel:
1. Abra o PASW conforme instruído anteriormente.
2. Vá para o menu arquivo (file) e role o cursor do mouse para baixo para abrir (open)
a outra tela para os dados (data); você verá a tela apresentada na Figura 2.8.

Morrow_02.indd 50 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 51

Figura 2.8 Abrindo um arquivo de dados do Excel no PASW.

3. Será apresentada a janela abrir arquivo (open file). Vá ao “Tipo de arquivo” (files
of type) perto da parte inferior da janela, clique na seta para baixo e, então, você
poderá iluminar o indicador “Excel (*.xls)”. Isso indicará que você deseja impor-
tar um arquivo do Excel para o PASW, conforme ilustrado na Figura 2.9.

Figura 2.9 Acessando um banco de dados do Excel para leitura no PASW.

Morrow_02.indd 51 28/02/13 10:54


52 Morrow, Jackson, Disch & Mood

4. Localize o arquivo Excel que você quer ler no PASW. Clique no nome do arquivo
e ele aparecerá na caixa “nome do arquivo” (file name). Clique em abrir (open).
5. Você verá uma janela de abertura do Excel (opening Excel data source). Clique
no quadro que tem “Nome das variáveis de leitura da primeira linha de dados”.
Lembre-se que você colocou os nomes das variáveis na primeira linha de arquivo
de dados do Excel. Clique em OK. Essa tela é apresentada na Figura 2.10.
Os seus dados serão automaticamente colocados dentro do PASW. Compare os resul-
tados que importou com aqueles apresentados na Figura 2.3b, onde você inseriu os dados
diretamente no PASW. Note que apenas as variáveis de nomes e dados têm sido importadas
no PASW. Você terá que ir para a aba “visualizar variável” (variable view) e digitar os títulos
e os valores como fez originalmente com o PASW.

BAIXANDO MATRIZES DE DADOS


Como mostrado anteriormente, as tabelas e os dados selecionados a partir de muitos dos
capítulos deste livro estão disponíveis no link no site da editora. Vamos ilustrar como você
pode baixar os dados para usá-los nas aulas, na prática e no aprendizado. Vamos começar
os estudos e logar seu livro on-line para o Capítulo 3. Quando chegar ao local no qual você
encontra as matrizes de dados, vai notar que existem duas colunas com essencialmente os
mesmos nomes. As diferenças estão nas extensões de arquivos (o lado esquerdo da coluna
contém arquivos de dados do PASW, e o lado direito contém arquivos de dados do MS Ex-
cel). Para baixar um arquivo, simplesmente clique no nome do arquivo. Dependendo das
configurações do seu computador, o arquivo será automaticamente aberto no formato de
arquivo específico (p. ex., PASW ou Excel) ou você poderá salvá-lo na unidade de armaze-
namento preferida.

Figura 2.10 Abertura de um arquivo do Excel no PASW.

Morrow_02.indd 52 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 53

• Baixar arquivo do PASW. Quando você baixar um arquivo PASW, receberá todos
os dados da tabela, assim como tudo na janela visualizar variáveis (variable view)
que define e descreve as variáveis. Caso o computador não tenha o PASW, você não
será capaz de ver as matrizes de dados. Não se preocupe. Simplesmente pegue sua
unidade de armazenamento e a insira em um computador que tenha o PASW e, em
seguida, clique duas vezes no arquivo de dados PASW para abri-lo.
• Baixar arquivo do MS Excel. O processo para baixar arquivos do Excel é o mesmo
que o do PASW. No entanto, lembre que o arquivo Excel tem apenas os nomes e os
dados das variáveis, não apresentando nada que represente o “código de livro” (le-
genda) encontrado no visualizar variável (variable view) do PASW.

PROCEDIMENTOS DO MS EXCEL
O Apêndice A deste livro contém passos do MS Excel para cada um dos procedimentos ilustrados no Capítulo 2. Os
estudantes sem acesso ao PASW podem usar o MS Excel para conduzir os procedimentos de estatísticas. O PASW
será usado e ilustrado ao longo do restante do livro. No entanto, cada procedimento é também ilustrado no Apên-
dice A por capítulo específico. Temos fornecido estruturas no link do livro para alguns dos procedimentos do Excel
(particularmente os Capítulos 5 e 7) devido ao número de passos necessários para calcular essas estatísticas ser
grande e bastante complexo. Os usuários do Microsoft Excel serão bem servidos para a revisão do Apêndice A neste
momento e ao longo do livro para conduzir as análises. Cada vez que o PASW for apresentado em um capítulo, os
usuários do Excel deverão ver o Apêndice A e usar os passos apropriados. É importante que você esteja ciente de que
os procedimentos estatísticos aprendidos nos primeiros capítulos são generalizados para capítulos posteriores, de
modo que alguns procedimentos são usados repetidamente.

PROGRAMA OPCIONAL PARA O SPSS E PASW


Um programa de código aberto chamado PSPP imita alguns, mas nem todos os procedimentos do SPSS e do PASW
usados no livro. O programa está publicamente disponível e parece muito similar ao SPSS e ao PASW. Os usuários
sem acesso ao SPSS e ao PASW podem usar o PSPP para realizar muitas das análises ilustradas neste livro. A abertura
das fontes significa que os usuários podem continuamente fazer atualizações recomendadas no código de fonte do
computador. Assim, é possível que o PSPP seja expandido para conduzir análises adicionais no SPSS e PASW. Busque
o PSPP no Google para localizar o site de download e a documentação.

Desafio em medida e avaliação


Jéssica pode usar o PASW, o Excel ou algum outro programa de estatística para ajudá-la a concluir sobre quantos
participantes do estudo realizam AFMV. Use a base de dados do Capítulo 2 disponível no link do livro no site da
editora. Suponha aquela contagem de passos do pedômetro para uma pequena amostra (N = 100) de participantes
do estudo de Jéssica. Use o PASW para determinar o número de passos que são registrados na segunda-feira, na
quarta-feira e no sábado. Vá para Análise (Analyze) → Estatística descritiva (Descriptive Statistics) → Descritiva
(Descriptives) e mova os dias para a direita e então clique em OK. Como esses resultados influenciam a decisão de
Jéssica sobre quantos passos por dia devem ser registrados? Imagine que Jéssica precisa analisar seus dados para
um estudo completo. O programa de estatística e o computador podem fazer essas tarefas muito mais facilmente.

Morrow_02.indd 53 28/02/13 10:54


54 Morrow, Jackson, Disch & Mood

RESUMO
A velocidade e a capacidade dos computadores continuam mudando muitos aspectos de
nossas vidas. As tarefas que anteriormente consumiam horas agora levam apenas segundos.
Independentemente se para pesquisas, testes, avaliação, ensino ou classificação, os compu-
tadores – em conjunto com softwares de estatísticas – podem ajudar muito os usuários de
medidas e avaliação para desenvolver dados para tomadas de decisão. Os softwares especia-
lizados estão disponíveis para desenvolver testes escritos e para avaliar a aptidão física de
adultos e jovens.
As habilidades em informática, embora talvez difíceis de aprender rapidamente, são
algumas das muitas que um profissional deve ter. O desenvolvimento da rede mundial de
computadores tem implicações para a aquisição e a transmissão de conhecimento que afe-
tam todos os educadores, profissionais da saúde e instrutores de aptidão física.
Um excelente recurso para ajudar na aprendizagem dos métodos de estatística que
serão estudados nos Capítulos 3, 4 e 5 pode ser encontrado na internet, no Rice Virtual
Lab in Statistics (http://onlinestatbook.com/rvls.html). Os vários exemplos e as simulações
disponíveis nesse site representam uma excelente ferramenta de aprendizagem.

APRENDA Acesse o material on-line (em inglês) para realizar tarefas e preencher
questionários que o ajudarão a dominar o conteúdo deste capítulo.

Morrow_02.indd 54 28/02/13 10:54


PARTE II
Conceitos Básicos
em Estatística

F
oi enfatizada, tanto no Prefácio como no Capítulo 1, a importância das
tomadas de decisão com base em medidas precisas e válidas. Nesta parte,
destaca-se a importância da estatística como ferramenta para auxiliar nas
tomadas de decisão. Em geral, a estatística auxilia na determinação da probabili-
dade de ocorrência de um evento. O conhecimento da probabilidade pode ser um
importante fator para a tomada de decisão. No Capítulo 3 (Estatística descritiva
e distribuição normal), será possível aprender a descrever distribuições. Nesse
capítulo, você aprenderá a descrever a distribuição dos comportamentos de ativi-
dade física (p. ex., minutos de atividade física moderada a vigorosa [AFMV] por
semana). No Capítulo 4 (Correlação e regressão), você aprenderá sobre a relação
entre as variáveis e a possibilidade de se predizer uma a partir da outra. Também
aprenderá como diferentes medidas de atividade física podem estar relacionadas
(p. ex., existe associação entre os autorregistros semanais de minutos de atividade
física moderada a vigorosa e as medidas tomadas em uma única semana?). No
Capítulo 5 (Estatística inferencial), será possível aprender a testar as hipóteses
científicas de diferenças entre grupos. Por exemplo, a medida da atividade física.
Por fim, nesse capítulo, você aprenderá como testar as diferenças no comporta-
mento de atividade física depois de uma intervenção desenvolvida para aumentar
o nível de atividade física. Por exemplo, qual é a probabilidade de que a média de
minutos semanais de AFMV de dois grupos (150 a 140 AFMV) seja realmente di-
ferente? Ou seja, qual é a probabilidade de que essa diferença ocorra simplesmen-
te por acaso? Se essa probabilidade é extremamente pequena, podemos concluir
que o primeiro grupo estava envolvido em alguma forma de atividade que resul-
tou em aumento da quantidade de AFMV por semana. Embora o envolvimento
da estatística seja grande, o nível de habilidades matemáticas necessárias para os
Capítulos 3, 4 e 5 é apenas de álgebra colegial. A matemática não é difícil, mas
os conceitos podem ser. A chave para usar estatística na decisão das medidas é
a compreensão sobre o raciocínio e os conceitos básicos e, subsequentemente, a
aplicação dos procedimentos estatísticos apropriados. Assim, a leitura e a prática
cuidadosa (incluindo o uso do PASW) dos conceitos apresentados nesta parte
auxiliarão no restante do livro.

Morrow_03.indd 55 28/02/13 10:54


3
Estatística Descritiva
e Distribuição
Normal

Objetivos
Tópicos Após estudar este capítulo, você será capaz de:
Escalas de medida 58 ® ilustrar os tipos de dados e as escalas de medidas
Somatória 60 associadas;
Registro dos dados 60 ® calcular a estatística descritiva dos dados;
Tendência central 62 ® apresentar gráficos e dados; e
Formas de distribuição 63 ® usar o software PASW em análises de dados.
Variabilidade 65
Amplitude 65
Variância 65
Desvio padrão 67
Escore-padrão 68
Áreas de curva normal (Tabela z) 69

ESTUDE A leitura dos tópicos no material


on-line (em inglês) o auxiliará a
identificar os principais conceitos
do capítulo.

Morrow_03.indd 57 28/02/13 10:54


58 Morrow, Jackson, Disch & Mood

Desafio em medida e avaliação


James, estudante universitário, recentemente fez uma avaliação completa de saúde e aptidão física na Cooper Cli-
nic, em Dallas, no Texas. Parte da avaliação exigiu que ele corresse na esteira até a exaustão. O estudante correu por
·
24 minutos e 15 segundos. Usando o tempo dele na esteira, seu VO2máx foi estimado em 50 mL · kg–1·min–1. Como
James interpreta esse valor? Esse resultado é alto, médio ou baixo? Como ele se saiu em comparação a outros da
mesma idade e do mesmo sexo? Os conceitos neste capítulo ajudarão James a melhor interpretar os resultados
estatísticos para qualquer tipo de teste que ele tenha realizado.

O
s pesquisadores e os educadores muitas vezes trabalham com grandes quantidades
de dados. Os dados podem consistir em caracteres alfabéticos comuns (tais como
o nome de um estudante), mas em geral são numéricos. Neste capítulo, aborda-
mos os conceitos básicos de análise de dados para ajudá-lo a desenvolver o conhecimento
necessário em medidas e avaliação. A compreensão da análise estatística básica é necessária
para alcançar esse objetivo. Se você pode adicionar, subtrair, multiplicar, dividir e (com
a calculadora) extrair a raiz quadrada, você tem o conhecimento matemático necessário
para completar muitos trabalhos em teorias de medidas. De fato, com o programa PASW
introduzido no Capítulo 2, o computador faz a maior parte do trabalho. No entanto, você
deve compreender os conceitos de análise de estatísticas, saber quando usá-los e como
interpretar os resultados.
A estatística descritiva fornece um resumo matemático do desempenho (p. ex., o
melhor resultado) e suas características (p. ex., tendência central, variabilidade). Também
permite descrever características das distribuições, tais como simetria ou amplitude.

ESCALAS DE MEDIDA
Fazer uma medida costuma resultar na atribuição de um número para representá-la, como
o peso, a estatura, a distância ou o tempo. No entanto, nem todos os números são os “mes-
mos”. Alguns tipos de números podem ser adicionados e subtraídos, e o resultado tem
determinado significado. Já com outros tipos de números, o resultado diz muito pouco.
Um método de classificação dos números consiste em usar escalas de medida, como apre-
sentado aqui:
• Nominal – Nome ou classificação, tais como uma posição no futebol (zagueiro, defe-
sa ou ataque), sexo (masculino ou feminino) ou tipo de carro (esportivo, caminhão,
SUV). Uma escala nominal é categórica em natureza; identifica coisas mutuamente
exclusivas em algumas características. Não envolve noção de ordem, magnitude ou
tamanho.
• Ordinal – Uma posição, como o lugar ao final de uma corrida. “As grandezas” são
classificadas em ordem, mas as diferenças entre as posições não são comparáveis
(p. ex., a diferença entre a posição do número um e do número dois talvez seja
bem pequena, mas entre a posição dos números quatro e cinco talvez seja muito
grande). Considere as posições do futebol. A diferença entre os times classificados
em primeiro e segundo lugares poderia ser muito pequena, enquanto entre os times
classificados em décimo e décimo primeiro poderia ser considerável. Independen-
temente do caso, a primeira posição é “superior” à segunda, e a décima, “superior”
à décima primeira.

Morrow_03.indd 58 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 59

• Escala/contínuo – Diz-se que os números são contínuos em natureza caso possam


ser adicionados, subtraídos, multiplicados ou divididos e os resultados tenham sig-
nificado. Os números contínuos podem ser intervalares ou como razões em sua
forma original.
• Intervalo – O uso de uma unidade de medida comum ou igual, tal como a
temperatura (°F ou °C) ou o QI. O ponto zero é arbitrariamente escolhido, ou
seja, o valor zero apenas representa um ponto em uma linha numérica. Isso
não significa que algo não exista. Por exemplo, na escala de temperatura em
graus Celsius, 0° C não indica a ausência de calor, mas a temperatura em que a
água congela. É possível ter temperaturas inferiores, as quais são referidas como
“abaixo de zero”.
• Razão – Igual ao intervalo, exceto pela existência de um zero absoluto (verdadei-
ro), tal como o peso corporal ou o arremesso de peso a distância. Com um zero
verdadeiro, as razões são possíveis. Por exemplo, se uma pessoa mede 1,82 m de
altura e outra 0,91 m, a primeira pessoa é duas vezes mais alta que a segunda.
Para ajudá-lo a colocar essas escalas em perspectiva, considere a atividade física. Você
pode estar interessado na quantidade de passos dados por homens e mulheres (o sexo
é uma variável nominal). Pode estar interessado em atividade
física moderada versus vigorosa (uma variável ordinal em de-
corrência de vigoroso ser mais intenso que moderado, mas
nem toda atividade física moderada ou vigorosa representa a
mesma coisa). Pode, ainda, estar interessado na quantidade de
passos realizados por dia (uma razão variável, porque, se você
der 5.000 passos por semana, e sua irmã, 10.000, então ela terá
dado mais passos que você).
Um conceito importante a lembrar é que certas característi-
cas devem existir antes das operações matemáticas serem con-
duzidas. Os números podem ser percebidos dentro de uma escala
que vai de nominal para ordinal, daí para intervalo e então para
razão. As escalas de medida são hierárquicas, uma vez que seu
desenvolvimento ocorre em função dos níveis anteriores ou de
determinado nível anterior. Ou seja, se um número é ordinal,
também é nominal; se o número é caracterizado como interva-
lar por escalas, também transmite informação ordinal e nomi-
nal; e se o número é uma razão, também transmite todos os três
níveis menores de informação – nominal, ordinal e intervalar.
Apenas números intervalares e de razão podem ser submetidos a
operação matemática (p. ex., adição, divisão). As pessoas geral-
mente usam escalas de medida – ordinal e nominal – como se
fossem escalas intervalares ou de razão. Por exemplo, é inapro- Quais são as escalas de medida nominal, ordinal e
priado calcular uma média a partir de dados ordinais. A mé- contínua que podem ser identificadas nesta ceri-
dia normalmente será a classificação central. Essa é outra razão mônia de entrega de medalhas?
porque é importante distinguir o nível de medida dos dados
antes de aplicar os testes estatísticos.

Item de domínio 3.1


Os escores de mergulho e ginástica estão em qual escala de medida?

Morrow_03.indd 59 28/02/13 10:54


60 Morrow, Jackson, Disch & Mood

SOMATÓRIA
Para representar aquilo que querem realizar matematicamente, os matemáticos desenvolveram
um sistema taquigráfico chamado somatória. Embora a somatória possa se tornar bastante
complexa, para os objetivos atuais, você precisa aprender apenas um pequeno conceito.
Três pontos são importantes: n é o número de pessoas, X é qualquer variável observada que
você pode medir (p. ex., estatura, peso, distância), e ∑ (o símbolo grego de sigma) significa
soma. A somatória ∑X = X1 + X2 +... Xn, onde n representa a última observação. Lê-se isso
da seguinte maneira: “A somatória de todo valor X é igual a X1 mais X2 mais... Xn”.
Lembre-se da ordem das operações quando usar a somatória. As principais regras são
referentes a parênteses e expoentes. Lembre-se que você faz todas as operações dentro dos
parênteses antes sair deles. Se não houver parênteses, as regras procedentes de operações
matemáticas são: primeiro, realize qualquer exponencial, seguido por multiplicação e di-
visão e, então, adição e subtração. Por exemplo, ∑X é lido como “a somatória dos valores
2

2
de X ao quadrado”, enquanto (∑X) é “o quadrado da somatória de X”. Essa distinção é
importante devido aos dois termos representarem valores diferentes.

Item de domínio 3.2


Use os seguintes números para calcular a somatória dos valores indicados: 3, 1, 2, 2, 4, 5, 1,
4, 3, 5.
Confirme que ∑X é = 30.
Confirme que ∑X2 é =110.
Confirme que a seguinte equação resulta em 2,22.

REGISTRO DOS DADOS


Você pode ter interesse em saber quantos passos dá por semana (ou dia). Ou, após medir
seus alunos ou indivíduos em determinada variável, talvez queira saber sobre o desempe-
nho deles. Geralmente você não quer saber como se saiu em um teste? Caso seu professor
lhe dissesse apenas sua pontuação, você saberia pouco sobre como foi seu desempenho.
Se fosse informado apenas sobre o número de passos que deu por semana ou dia, mas
não tivesse comparação (ou seja, norma ou critério-padrão de referência), somente a pon-
tuação não teria sentido. Você precisa de algumas informações adicionais. Muitas vezes,
as pessoas querem se comparar com outras que tenham realizado um teste similar. A
norma-padrão de referência permite isso. Isto é, ela informa seu desempenho com relação
a todos aqueles que realizaram os testes. É importante comparar seu desempenho com o
de outros de seu grupo.
Uma maneira de comparar seu desempenho com o dos demais é desenvolver a fre-
quência de distribuição dos resultados dos testes. A frequência de distribuição é um mé-
todo para organizar dados que envolve a observação da frequência em que várias pontua-

ções se repetem. Os resultados para o teste de VO2máx para 65 estudantes são apresentados
∙ –1 –1
na Tabela 3.1. Observe-os e suponha que seu VO2máx foi 46 mL∙kg ∙min . Você se saiu
bem? É difícil determinar isso quando os números estão apresentados como na tabela.
Contudo, a frequência de distribuição pode esclarecer como sua pontuação se compara
com outras (p. ex., norma-padrão de referência). De modo alternativo, você pode querer

Morrow_03.indd 60 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 61

·
Tabela 3.1 65 valores de VO2máx
48 45 50 49 46 47 47 49 50 50

45 51 51 48 49 46 44 44 52 53

48 43 48 41 48 49 47 49 51 54

51 43 53 45 48 47 51 46 49 50

48 48 45 46 49 48 46 48 52 54

52 50 51 47 45 47 43 47 49 50

44 55 48 50 53

tomar uma decisão baseada em critério-padrão de referência. Você aprenderá sobre essas
interpretações mais tarde.

Item de domínio 3.3


Use o PASW para obter a frequência de distribuição e os percentis para os 65 valores apresen-
tados na Tabela 3.1. Confirme sua análise com os resultados apresentados na Figura 3.1. Os
comandos do PASW para obter a frequência de distribuição e os percentis são os seguintes:
1. Inicie o PASW.
2. Abra os dados da Tabela 3.1 do material on-line (em inglês).
3. Clique no menu análise (analyse).
4. Clique em estatística descritiva (descriptive statistics) e em frequência (frequencies).
·
5. Ilumine a variável “VO2máx” e coloque-a na caixa de variáveis (variable) clicando com
a seta.
6. Clique em OK.

Estatística
VO2máx
N Válido 65
Perdido 0

VO2máx

Porcentagem Porcentagem
Frequência Porcentagem válida cumulativa
Válido 41 1 1,5 1,5 1,5
43 3 4,6 4,6 6,2
44 3 4,6 4,6 10,8
45 5 7,7 7,7 18,5
46 5 7,7 7,7 26,2
47 7 10,8 10,8 36,9
48 11 16,9 16,9 53,8
49 8 12,3 12,3 66,2
50 7 10,8 10,8 76,9
51 6 9,2 9,2 86,2
52 3 4,6 4,6 90,8
53 3 4,6 4,6 95,4
54 2 3,1 3,1 98,5
55 1 1,5 1,5 100,0
Total 65 100,0 100,0
·
Figura 3.1 VO2máx para 65 estudantes.

Morrow_03.indd 61 28/02/13 10:54


62 Morrow, Jackson, Disch & Mood

Você talvez faça a seguinte pergunta a si mesmo: por que isso? Lembre-se que estáva-
mos interessados em determinar seu desempenho com relação ao restante do grupo. Seu

VO2máx de 46 aparece abaixo da metade da distribuição. A quinta coluna, porcentagem
cumulativa da frequência de distribuição, é um percentil. O percentil é obtido por meio
da soma das porcentagens (“porcentagem”, terceira coluna) dos valores iguais ou abaixo do
percentil que está sendo calculado. O percentil representa a porcentagem de observações iguais
ou abaixo de determinado valor. Isso é norma-padrão de referência. Esse conceito é extre-
mamente importante porque os resultados dos testes, como um vestibular, costumam ser
reportados em percentis. Se você alcançar o percentil 90 (P90), isso simplesmente significa

que tem um VO2máx superior ao de 90% das pessoas que foram testadas. No entanto, se

pontuou no percentil 10 (P10), 90% das pessoas que fizeram o teste têm um VO2máx mais

alto que o seu. Seu VO2máx de 46 está no percentil 26,2, isto é, 26,2% das pessoas têm

valores iguais ou inferiores ao seu, e, portanto, 73,8% têm maior valor de VO2máx. Con-

tudo, você pode estar interessado em determinar se o seu VO2máx é alto o suficiente para
reduzir o risco de doença cardiovascular. Vários estudos sugerem que os homens com um
∙ ∙
VO2máx ≥ 35 são suficientemente aptos para obter benefícios à saúde. O VO2máx de 46
excede esse “critério”.
A apresentação na Figura 3.1 presume que uma pontuação elevada é melhor que uma
baixa. Isso nem sempre é o caso. Se baixos valores são melhores – como, por exemplo,
no golfe ou em um evento cronometrado em que um tempo mais rápido é melhor – você
precisa refletir sobre isso em sua interpretação dos escores. Por exemplo, se os dados apre-
sentados na Tabela 3.1 fossem pontos no golfe por nove buracos, sua pontuação “menor”
de 46 representaria o percentil 73,8 (100 – 26,2 = 73,8).

Aplicação do conjunto de dados


Agora é hora de tentar isso com um conjunto de dados maior. Acesse o material on-line
(em inglês) e use o PASW para calcular percentis para o número médio de passos dados
por semana pelas 250 pessoas do banco de dados do Capítulo 3. Quando você executar a
COMPLETE “frequência”, será possível observar que a tela de resultados é muito maior (e talvez difícil
de manejar para você). Para reduzir, clique em “estatística” (statistics), na janela “frequência”
(frequencies), e em seguida na próxima caixa “ponto de corte para” (autopoints for); você
terá 10 grupos iguais na tela de resultados. Clique em “continuar” (continue) e depois em
“OK”. Note que a primeira parte dos resultados é em “decil” – em grupos de 10. Você verá os
passos por semana associados com os percentis 10, 20, 30 e assim por diante.

TENDÊNCIA CENTRAL
Agora você sabe onde se encaixa a distribuição. Vamos considerar como pode interpretar
seu escore. Um caminho é comparar com a pessoa “típica” que fez o teste. Basicamente,
você está observando que os escores tendem a centralizar – tendência central. Nós breve-
mente descreveremos três medidas de tendência central.
• Média – A média aritmética, a soma dos valores dividida pelo número de casos. A
partir da somatória, essa definição pode ser representada como:

(3.1)
onde M é a média, X é o valor de cada observação e N é o número de observações.
Cada valor é usado para determinar a média – é a medida mais estável da tendência
central. Usando os quatro escores (4, 3, 2, 5), a média é (4 + 3 + 2 + 5)/4 = 3,5.

Morrow_03.indd 62 28/02/13 10:54


Medida e Avaliação do Desempenho Humano 63

• Mediana – O valor central; o percentil 50. Para obter a mediana, ordene os escores
do mais alto até o mais baixo e encontre o do meio. O valor central para os dados
apresentados na Tabela 3.1 é 48, que é a mediana. Note que a mediana é um percen-
til específico: P50. É o valor mais “típico” na distribuição. Metade das pessoas pontua
acima e metade pontua abaixo.
• Moda – O escore que aparece mais vezes. A moda é a medida mais instável das me-
didas de tendência central, mas mais facilmente estimada. Você poderá confirmar na
Figura 3.1 que a moda é 48 (ocorreu 11 vezes).

Aplicação do conjunto de dados


Use o banco de dados disponível no Capítulo 3 no guia de estudos on-line e aprenda sobre
média, mediana e moda para cada variável no banco de dados. Sugerimos usar as opções:
Análise (Analyse) → Estatística descritiva (Descriptive statistics) → Frequência (Frequen-
cies) → Opções (Options) e clique na caixa “Tendência central” (Central tendency). COMPLETE

FORMAS DE DISTRIBUIÇÃO
O simples fato de se conhecer medidas de distribuição de tendência central não diz tudo
sobre os valores. Nem todas as distribuições têm a mesma forma. A Figura 3.2 mostra vá-
rias formas que as distribuições podem assumir. O termo estatística para a forma (ou sime-
tria) de uma distribuição é obliquidade. Os valores de simetria geralmente variam de +1 a
–1. A distribuição com obliquidade positiva tem uma “cauda” em direção ao polo positivo
(direito) da linha numérica, e uma distribuição com obliquidade negativa tem uma “cauda”
em direção ao polo negativo (esquerdo) da linha numérica. As distribuições com pouca
obliquidade são caracterizadas por valores próximos a zero.
Existe outra propriedade da forma que está associada com a distribuição. Na Figura
3.3, todas as três distribuições são curvas simétricas com valores idênticos de média, me-
diana e moda. No entanto, existe uma diferença óbvia nas amplitudes (ou pico) das distri-
buições. O pico de uma curva é referido como curtose. O ápice da curva (normal) é cha-
mado de mesocúrtico (i.e., uma quantidade média). A curva mais plana é conhecida como
platicúrtica (plano), e a curva íngreme, como leptocúrtica (pico). As curvas leptocúrticas
têm curtose positiva, e as platicúrticas, curtose negativa. A curva normal é uma distribuição
sem obliquidade que é mesocúrtica.

Aplicação do conjunto de dados


Use o banco de dados disponível no material on-line (em inglês) do Capítulo 3 e aprenda
quais são a obliquidade e a curtose para cada uma das variáveis no banco de dados. Suge-
rimos usar as opções Análise (Analyse) → Estatística descritiva (Descriptive statistics) →
Frequência (Frequencies) → Estatística (Statistics) e clique na caixa “distribuição” (distribui- COMPLETE
tion) para “obliquidade” (skewness) e “curtose” (kurtosis). Você pode identificar qual é mais
positiva, qual é mais leptocúrtica, e assim por diante?

Obliquidade negativa Normal Obliquidade positiva

Figura 3.2 Formas de distribuição.

Morrow_03.indd 63 28/02/13 10:54


64 Morrow, Jackson, Disch & Mood

Mesocúrtica

Platicúrtica

Leptocúrtica

Média

Figura 3.3 Três curvas simétricas.

Uma boa maneira de determinar a forma de distribuição que você está trabalhando
é desenvolver um histograma. O histograma é um gráfico que consiste em colunas para
representar as frequências com que os vários escores são observados nos dados. Ele lista os
escores no eixo horizontal e a frequência no vertical.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 3.1.

Item de domínio 3.4


Use os dados da Tabela 3.1 para criar 12
um histograma dos 65 valores de Média = 48,31
· Desvio-padrão = 2,989
VO2máx (Fig. 3.4). Os comandos do 10 n = 65
PASW para se obter um histograma
são: 8
Frequência

1. Inicie o PASW.
2. Abra os dados da Tabela 3.1. 6
3. Clique no menu análise (Analyse).
4. Vá para a estatística descritiva 4
(Descriptive statistics) e clique
em frequência (Frequencies).
· 2
5. Coloque a variável “VO2máx” na
caixa de variáveis (Variables), cli-
0
cando com a seta. 40 45 50 55 60

6. Clique na opção gráficos (Charts). VO2máx
7. Clique na opção histograma
(Histograms). Figura 3.4 Histograma para 65 escores.
8. Clique em continuar (Continue).
9. Clique em Ok.

Morrow_03.indd 64 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 65

Aplicação do conjunto de dados


Antes você usou o PAWS para determinar quais variáveis no banco de dados do Capítulo 3
foram mais oblíquas. Crie alguns histogramas para confirmar visualmente como essas distri-
buições parecem. No PASW, vá em Gráficos (Graphs) → Diálogo (Legacy dialogs) → Histo-
grama (Histogram) e coloque as variáveis de interesse na caixa Variáveis (Variables). A seguir, COMPLETE
clique sobre a opção “Mostrar a curva normal” (Display normal curve). Você pode confirmar
os resultados anteriores com esses histogramas?

VARIABILIDADE
Uma curtose leva diretamente para a próxima medida descritiva importante de um con-
junto de dados. A curva platicúrtica na Figura 3.3 contém mais dados heterogêneos (dife-
rentes), enquanto a curva leptocúrtica, mais homogêneos (similares). A amplitude de uma
distribuição de escores é refletida em várias medidas de variabilidade. Apresentamos três
medidas de variabilidade: amplitude, variância e desvio-padrão.

Amplitude
A amplitude é a diferença entre o valor mais alto e o mais baixo. É a medida menos está-
vel de variabilidade porque depende apenas de dois escores e não revela como os demais
escores são distribuídos.

Variância
A variância (s2) é a medida de dispersão de um conjunto de escores com base no desvio
quadrado de cada escore com relação à média. É usada muito mais frequentemente que a
amplitude para reportar a heterogeneidade de escores. A variância é a medida mais estável de
variabilidade. Dois conjuntos de escores que têm amplitudes muito diferentes terão variâncias
muito diferentes. Muitos tipos de variância (tais como a variância observada, a variância verdadei-
ra, o erro de variância, a variância de amostra, a variância inter e a intrapassos) se tornarão impor-
tantes quando as questões relacionadas às medidas e à avaliação forem apresentadas ao longo do livro.
Considere os seguintes escores como ilustração do cálculo da variância: 3, 1, 2, 2, 4, 5,
1, 4, 3, 5 (Tab. 3.2).

Tabela 3.2 Cálculo da variância


X (escore observado) – M (média) = X (diferença) X2 (diferença ao quadrado)
3 – 3 = 0 0
1 – 3 = –2 4
2 – 3 = –1 1
2 – 3 = –1 1
4 – 3 = 1 1
5 – 3 = 2 4
1 – 3 = –2 4
4 – 3 = 1 1
3 – 3 = 0 0
5 – 3 = 2 4
Total 0 20

Morrow_03.indd 65 28/02/13 10:55


66 Morrow, Jackson, Disch & Mood

Os passos para calcular manualmente a variância são os seguintes:


1. Calcule a média.
2. Subtraia a média de cada escore.
3. Eleve cada diferença (desvio) ao quadrado.
4. Adicione os resultados e divida pelo número de escore menos 1.
A Equação 3.2 (fórmula didática) é usada para ilustrar a variância.

(3.2)
Ou seja, a variância é a média dos quadrados dos desvios da média (por isso, o termo
quadrado da média é às vezes usado para a variância). Note que devemos dividir por n – 1,
e não por n, então isso não é exatamente a média. Você deve usar a seguinte fórmula para
obter a variância de um conjunto de dados, pois ela costuma ser mais fácil de usar:

(3.3)
Deve-se confirmar que o uso da fórmula resulta no mesmo valor para a variância que a
fórmula didática. (Dica: ∑X = 110; ∑X = 30). Note que, quando todos os escores são idênticos,
2

a variância é zero. Normalmente, isso não é algo que se deseja em medidas. A variação entre os
dados é preferível. As razões para isso serão mostradas ao longo do livro.
Volte à página 65 e veja se realmente já aprendeu a calcular a variância dos dados que
foram fornecidos. Você simplesmente usou a somatória que aprendeu.
A variância em geral pode ser ilustrada com um quadrado, como na Figura 3.5. O qua-
drado (variância total) é dividido em dois tipos de variância: variância verdadeira e erro de
variância. Pense nos valores de um teste recente como tendo os três tipos de variância. Nem
todos os escores são os mesmos, então existe uma variância do escore total ou do escore
observado. Nem todos possuem o mesmo conhecimento “verdadeiro” sobre o conteúdo
do teste, então existe uma variância do escore verdadeiro.
Por último, existe um “erro” no teste, mas nem todo mundo tem a mesma quantidade
de erros refletida em seu escore, de modo que existe uma variação do escore errado (o erro
pode resultar de várias fontes, tais como a seleção aleatória de determinada alternativa [chute]

Erro de variância

Variância
total
(observada)
Variância verdadeira

Figura 3.5 Três tipos de variância.

Morrow_03.indd 66 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 67

ou um escore desenvolvido de maneira equivocada pelo professor). Esses conceitos impor-


tantes serão discutidos no Capítulo 6, quando será abordada a teoria da reprodutibilidade.
Os tipos de variância se tornam progressivamente importantes ao longo livro, mas
é fundamental que você já tenha compreendido seu conceito a esta altura. Embora re-
presente um número calculado, abordaremos a variância em termos conceituais (ou seja,
variabilidade). Pode ser útil lembrar o quadrado na Figura 3.5 e o fato de que nem todos
os escores são idênticos.

Desvio-padrão
Enquanto a variância é importante, um número relacionado – o desvio-padrão – é fre-
quentemente usado na estatística descritiva para ilustrar a variabilidade do conjunto de
dados. O desvio-padrão é a raiz quadrada da variância. É útil pensar no desvio-padrão como
uma medida linear de variabilidade. Considere o quadrado (Fig. 3.5) usado para mostrar
a variância. Quando entrar a raiz quadrada de um quadrado, você terá uma medida linear.
O mesmo conceito vale para o desvio-padrão. O desvio-padrão é importante por ser usado
como medida de variabilidade linear para um conjunto de escores. O conhecimento do
desvio-padrão de um conjunto de dados pode nos informar sobre a heterogeneidade ou a
homogeneidade dos escores.
2
Use a fórmula (Equação 3.3) para calcular o desvio-padrão. Basta calcular s e extrair a
raiz quadrada. Observe que o desvio-padrão a partir dos dados na Tabela 3.2 é 1,49 (i.e.,
).

Aplicação do conjunto de dados


Use o banco de dados do material on-line (em inglês) do Capítulo 3, e aprenda o significa-
do da variância e do desvio-padrão para cada uma das variáveis no banco de dados. Dica:
use Análise (Analyse) → Estatística descritiva (Descriptive statistics) → Frequência (Fre-
quencies) → Opções (Options) e clique na opção “dispersão” (dispersion). Você consegue COMPLETE
identificar quais são as variáveis mais heterogêneas ou homogêneas? Crie histogramas para
visualizar as variabilidades.

Por que o desvio-padrão é tão importante e o que exatamente ele significa? Por exem-
plo, em uma distribuição normal, em forma de sino, com distribuição simétrica da pro-
babilidade (Fig. 3.6), o conhecimento do desvio-padrão reflete muito sobre a distribuição.
Em qualquer distribuição normal à qual você adicione ou subtraia o valor de um desvio-
-padrão, será possível obter um intervalo que abrange cerca de 68,26% das observações.
Se a mesma estratégia for usada com dois desvios-padrão, o intervalo abrangerá cerca de
95,44% das observações, e 99,74% das observações no caso de três desvios-padrão. Isso
é verdadeiro independentemente da média e do desvio-padrão quando a distribuição é
normal. Para resumir:

M ± 1s → 68,26% de observações
M ± 2s → 95,44% de observações
M ± 3s → 99,74% de observações

Por meio do uso das informações obtidas sobre a média e o desvio-padrão para um
conjunto de dados, será possível aproximar o percentil para qualquer observação. Obser-
vando novamente a Figura 3.6, suponha que ela ilustre as observações de um recente teste
∙ –1 –1
de consumo máximo de oxigênio (VO2máx) com média de 60 mL·kg ·min e desvio-

Morrow_03.indd 67 28/02/13 10:55


68 Morrow, Jackson, Disch & Mood

0,13% 2,15% 13,59% 34,13% 34,13% 13,59% 2,15% 0,13%


Percentil 0, 1 2, 3 16 50 84 97, 7 99, 9
VO2máx 45 50 55 60 65 70 75
s –3 –2 –1 0 1 2 3
escore z –3 –2 –1 0 1 2 3
escore T 20 30 40 50 60 70 80

Figura 3.6 Distribuição normal dos dados.

-padrão de 5 mL·kg–1·min–1 e que os valores sejam distribuídos normalmente. Use a figura



para aproximar os percentis para os valores de VO2máx de 50, 55, 60, 65 e 70. Qual seria
∙ –1 –1
a probabilidade de se obter um VO2máx maior que 70 mL·kg ·min em um indivíduo si-
milar? A Figura 3.6 confirma as informações referentes a dois desvios-padrão. Será possível
aprender sobre escores-padrão a seguir.

ESCORE-PADRÃO
O conhecimento da média e do desvio-padrão facilita o cálculo do escore-padrão. O es-
core-padrão representa o conjunto de observações com relação a determinada média e ao desvio-
-padrão. O escore-padrão mais tradicional é o escore z. É calculado assim:

(3.4)
Em outras palavras, é possível obter o escore z de qualquer observação ao subtrair
a média, M, do escore observado, X, e dividir essa diferença pelo desvio-padrão, s. Caso
repita esse procedimento para todas as observações do conjunto de dados, você obterá um
conjunto de escores que tem a média de 0 e o desvio-padrão de 1 (ou seja, eles foram pa-
dronizados). Observe que incluímos o escore z na Figura 3.6 e que o escore z sempre tem
uma média de 0 e um desvio-padrão de 1.
Outro escore-padrão comumente usado é o escore T, que é calculado da seguinte
forma:

(3.5)
A média no escore T para todas as observações em um conjunto de dados é sempre
50, e o desvio-padrão é sempre 10. Observe que, em uma distribuição normal, 99,74%
dos escores estão entre o escore z de –3 e +3 e entre os escores T de 20 e 80. Por que isso
ocorre? (Dica: veja a Fig. 3.6).
Talvez você esteja se perguntando: para que serve o escore-padrão? Para responder
isso, vamos supor que você seja um profissional de Educação Física que ensine basquete
e que está prestes a classificar os alunos em somente duas habilidades (não estamos re-
comendando isso!). Suponha que acredite que arremessar e driblar são duas habilidades

Morrow_03.indd 68 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 69

importantes para o basquete e que você pode validá-las e medi-las. Para o arremesso, irá
mensurar o número de cestas que um aluno faz em um minuto; para o drible, medirá a
quantidade de tempo que o aluno tem para driblar uma série de obstáculos. Suponha que
driblar e arremessar são habilidades igualmente importantes no basquete (provavelmente
não concordamos com você!), de modo que deseje pesá-las igualmente. Um rápido olhar
para os escores mostra que você não pode simplesmente adicionar essas duas pontuações
para cada grupo de alunos a fim de encontrar o melhor jogador de basquete. As pontuações
mais altas são melhores no teste de arremesso, mas as pontuações mais baixas são melhores
no teste de drible. Além disso, cada pontuação é medida em unidades diferentes (ou seja,
número de cestas feitas e número de segundos de cada drible realizado).
É nesse ponto exato que o escore-padrão pode ajudá-lo. Para que os pesos das duas
habilidades se equivalham nesse teste, você primeiro converte os pontos de cada pessoa
para uma forma-padrão, como os escores z ou T. Note que o teste de drible é cronome-
trado, por isso deve-se corrigir o escore z obtido, de modo que o resultado do tempo
mais rápido seja um escore z maior. É possível fazer isso mudando o sinal do escore z
(p. ex., 2 torna-se –2; –1,5 torna-se 1,5). É possível, então, somar os dois escores de
cada estudante e obter um único escore z com base no fato de que cada teste agora tem o
mesmo peso. Não seria possível fazer isso usando apenas os escores originais, tampouco
com qualquer conjunto de escores a partir de variâncias desiguais. Em geral, o con-
junto de escores com maior variância receberia maior peso no total caso simplesmente
fossem adicionados dois escores para cada estudante. Mas se você os converter em um
único escore-padrão, todos terão o mesmo peso em decorrência de possuírem o mesmo
desvio-padrão (lembre-se que o escore z sempre tem um desvio-padrão igual a 1,0).
Você também pode levar esse exemplo mais adiante caso decida associar ao teste de
arremesso o dobro do peso do teste de drible. Para isso, simplesmente multiplique por dois
o escore z para o teste de arremesso e o adicione ao escore z do teste de drible. O conceito-
-chave é que o teste com maior variabilidade terá o maior peso. De fato, se não houver
variabilidade na avaliação (ou seja, se todos tiverem o mesmo escore), a avaliação não con-
tribuirá absolutamente em nada para diferenciar o desempenho dos alunos. Esse conceito
será reforçado mais adiante, no Capítulo 13.
A Tabela 3.3 resume importantes informações sobre a média e o desvio-padrão dos
escores z e T. Observe que a média e o desvio-padrão desses escores padronizados nunca
mudam. Você poderá ver isso também na Figura 3.6.

ÁREAS DE CURVA NORMAL (TABELA z)


Ao analisar a Equação 3.4, é possível observar que a conversão de um dado para um escore
z expressa a distância do escore de sua própria média e unidades de desvio-padrão. Ou
seja, um escore z indica o número de desvios-padrão que um escore está abaixo ou acima
da média. Além de quantificar o desempenho em graus, o escore z pode ser usado para inúmeros
outros objetivos, principalmente na determinação do (a) percentil e da (b) porcentagem de ob-

Tabela 3.3 Média e desvio-padrão dos escores padronizados


Média Desvio-padrão
Escore z 0 1

Escore T 50 10

Morrow_03.indd 69 28/02/13 10:55


70 Morrow, Jackson, Disch & Mood

servações que se enquadram em uma determinada área sobre a distribuição normal. Considere
novamente a distribuição normal apresentada na Figura 3.6. A área sob a distribuição é
representada como um total de 100%. Um estudante que se posicionou na média alcançou
o percentil 50 (ou seja, teve escore melhor que 50% do grupo) e obteve o escore z de zero
(e o escore T de 50).
Apenas os escores observados podem expressar muito pouco sobre o desempenho (e,
de fato, não é possível expressar nada sobre o desempenho relativo). No entanto, caso o
professor registre seus dados na forma de escore z e tenha um escore z positivo, será ime-
diatamente possível identificar que você alcançou algo melhor que a média; um escore z
negativo indica que pontuou abaixo da média. Por meio do uso do escore z e da tabela das
áreas de curva normal (Tab. 3.4), é possível determinar o percentil associado a quaisquer
escores z para os dados que são distribuídos normalmente.
Os valores ao longo do lado esquerdo da Tabela 3.4 são escores z em números inteiros
e décimos, e os números da parte superior representam o escore z para o centésimo lugar
(p. ex., para um escore z de 1,53, encontramos 1,5 na esquerda e 0,03 para a coluna).
Os números da tabela representam porcentagens de observações que se encontram entre
a média e qualquer desvio-padrão que se distancia da média. Verifique que 34,13% dos
escores estão na média e que um desvio-padrão está acima da média (ou seja, um escore
Z de 1,00). Note que nenhum escore z negativo é apresentado na tabela, eles não são ne-
cessários devido à distribuição normal ser simétrica. Portanto, 34,13% das observações
também estão entre a média e o desvio-padrão abaixo da média (ou seja, um escore z de
–1,00). Observe que o desvio-padrão ±1 é 68,26% (34,13 + 34,13). Veja se pode deter-
minar a porcentagem de escores que estão entre 1 e 1,5 desvio-padrão acima da média. A
Figura 3.7 fornece uma ilustração dessa área. Use a Tabela 3.4 e a Figura 3.7 para auxiliar
na determinação da resposta (43,32 – 34,13 = 9,19%).
Em resumo, é importante lembrar destes pontos quando se usa a tabela de área de
curva normal:
• o ponto de referência é a média;
• os escores z são apresentados com a aproximação de um centésimo; e
• os números no corpo da tabela estão em porcentagem.
Use a Tabela 3.4 para confirmar que um escore z de 1,23 representa (aproximada-
mente) o percentil 89. Lembre-se que o ponto de referência é a média e que o percentil
representa todas as pessoas que pontuaram igual ou abaixo de determinado valor. (Dica:
isso inclui aqueles escores abaixo da média se o seu escore observado está acima da média,
o percentil é maior que 50 ou o escore z é maior que 0,00).
Use a Tabela 3.4 para confirmar que um escore z de –1.23 representa (aproximada-
mente) o percentil 11. Você pode fazer isso usando o seguinte método:
1. Encontre 1,2 na coluna à esquerda da tabela e 0,03 no topo. Eles se cruzam no
percentil de 39,07.
2. Lembre-se que esse número significa que 39,07% dos dados se encontram entre a
média e o escore z, ou seja, +1,23 ou –1,23.
3. Lembre-se que 50% dos dados estão abaixo da média.
4. Assim, 50 – 39,07 fornece o “restante” da área abaixo de um escore z de –1,23; a
resposta é 10,93 (ou aproximadamente o percentil 11).

Morrow_03.indd 70 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 71

Tabela 3.4 Área de curva normal


z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 00,00 00,40 00,80 01,20 01,60 01,99 02,39 02,79 03,19 03,59

0,1 03,98 04,38 04,78 05,17 05,57 05,96 06,36 06,75 07,14 07,53

0,2 07,93 08,32 08,71 09,10 09,48 09,87 10,26 10,64 11,03 11,41

0,3 11,79 12,17 12,55 12,95 13,31 13,68 14,06 14,43 14,80 15,17

0,4 15,54 15,91 16,28 16,64 17,00 17,36 17,72 18,08 18,44 18,79

0,5 19,15 19,50 19,85 20,19 20,54 20,88 21,23 21,57 21,90 22,24

0,6 22,57 22,91 23,24 23,57 23,89 24,22 24,54 24,86 25,17 25,49

0,7 25,80 26,11 26,42 26,73 27,04 27,34 27,64 27,94 28,23 28,52

0,8 28,81 29,10 29,39 29,67 29,95 30,23 30,51 30,78 31,06 31,33

0,9 31,59 31,86 32,12 32,38 32,64 32,90 33,15 33,40 33,65 33,89

1,0 34,13 34,38 34,61 34,85 35,08 35,31 35,54 35,77 35,99 36,21

1,1 36,43 36,65 36,86 37,08 37,29 37,49 37,70 37,90 38,10 38,30

1,2 38,49 38,69 38,88 39,07 39,25 39,44 39,62 39,80 39,97 40,15

1,3 40,32 40,49 40,60 40,82 40,99 41,15 41,31 41,47 41,62 41,77

1,4 41,92 42,07 42,22 42,36 42,51 42,65 42,79 42,92 43,06 43,19

1,5 43,32 43,45 43,57 43,70 43,83 43,94 44,06 44,18 44,29 44,41

1,6 44,52 44,63 44,74 44,84 44,95 45,05 45,15 45,25 45,35 45,45

1,7 45,54 45,64 45,73 45,82 45,91 45,99 46,08 46,16 46,25 46,33

1,8 46,41 46,49 46,56 46,64 46,71 46,78 46,86 46,93 46,99 47,06

1,9 47,13 47,19 47,26 47,32 47,38 47,44 47,50 47,56 47,61 47,67

2,0 47,72 47,78 47,83 47,88 47,93 47,98 48,03 48,08 48,12 48,17

2,1 48,21 48,26 48,30 48,34 48,38 48,42 48,46 48,50 48,54 48,57

2,2 48,61 48,64 48,68 48,71 48,75 48,78 48,81 48,84 48,87 48,90

2,3 48,93 48,96 48,98 49,01 49,04 49,06 49,09 49,11 49,13 49,16

2,4 49,18 49,20 49,22 49,25 49,27 49,29 49,31 49,32 49,34 49,36

2,5 49,38 49,40 49,41 49,43 49,45 49,46 49,48 49,49 49,51 49,52

2,6 49,53 49,55 49,56 49,57 49,59 49,60 49,61 49,62 49,63 49,64

2,7 49,65 49,66 49,67 49,68 49,69 49,70 49,71 49,72 49,73 49,74

2,8 49,74 49,75 49,76 49,77 49,77 49,78 49,79 49,79 49,80 49,81

2,9 49,81 49,82 49,82 49,83 49,84 49,84 49,85 49,85 49,86 49,86

3,5 49,98

4,0 49,997

5,0 49,99997
Baseada em Lindquist 1942.

Morrow_03.indd 71 28/02/13 10:55


72 Morrow, Jackson, Disch & Mood

–2 –1 0 1 1,5 2
z

Figura 3.7 Área de curva normal entre os desvios-padrão 1 e 1,5 acima da média.

Use a Tabela 3.4 para confirmar que 14,98% de um conjunto de observações normal-
mente distribuídas estão entre um escore z de 0,50 e 1,00. (Faça um desenho para ajudá-
-lo.) Algumas dicas para completar esses tipos de itens são as seguintes:
• faça um desenho da questão (comece com a distribuição normal);
• considere se o escore z é útil (costuma ser);
• a tabela z (Tab. 3.4) pode ajudá-lo? (Geralmente sim.)

Item de domínio 3.5


Use a Tabela 3.4 para confirmar que, se o ponto de corte para conseguir um A neste curso é
um escore z de 1,35, seria de se esperar que 8,85% das pessoas receberam nota A.

Caso um escore seja registrado na forma de escore T, simplesmente transforme-o em


escore z e em seguida estime o percentil. Para mudar de um escore T para um escore z,
basta substituir a média do escore T (50) e o desvio-padrão (10) na fórmula do escore z.
Caso seu escore T seja 30, seu escore z poderia ser (30 – 50)/10 = –2,0.

Item de domínio 3.6


Verifique se o percentil associado com um escore T de 68 é 96,41.

Embora possa usar a Tabela 3.4 para converter de escore z para percentil, você também
poderá usá-la para converter de percentil para escore z para dados normalmente distri-
buídos. Isso pode ser útil caso queira criar uma somatória de escore z para determinar o
melhor desempenho, como em nosso exemplo anterior referente ao basquete. Imagine que
seu desempenho esteja no percentil 69 em um teste. Você pode determinar seu escore z no
teste conforme veremos a seguir:
1. Calcule 69% – 50% = 19% para obter a área entre o seu percentil e a média.
2. Encontre o número 19 no corpo da tabela – o valor mais próximo é 19,15.
3. Encontre o valor de escore z que corresponde a 19,15 indo até a margem esquer-
da e a linha superior. O escore z é 0,50. (É positivo porque seu desempenho está
acima da média.)
Caso queira confirmar que esse é um escore T de 55, simplesmente substitua 0,50 den-
tro da fórmula de escore T (Equação 3.5).

Morrow_03.indd 72 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 73

Item de domínio 3.7


Use o PASW para calcular o escore z para os dados da Tabela 3.1.
1. Inicie o PASW.
2. Abra a tabela de dados 3.1.
3. Clique no menu análise (analyse). COMPLETE
4. Vá até estatística descritiva (descriptive statistics) e clique em descritiva (descripti-
ves).
·
5. Marque a variável “VO2máx” e coloque-a na caixa de variáveis (variables), clicando com
a seta.
6. Clique em salvar valores padronizados como variáveis (save standardized values as
variables).
7. Clique em OK.
·
Os escores são convertidos em escore z, e uma nova coluna de escore z (ZVO2máx) é
adicionado ao arquivo. Salve o arquivo modificado, porque você necessitará dos escores z no
próximo item de domínio.

Item de domínio 3.8


Use o PASW para calcular o escore T.
1. Inicie o PASW.
2. Abra a tabela de dados 3.1.
3. Clique na opção transformar (transform). COMPLETE
4. Clique em calcular (compute).
5. Na caixa de variável alvo (target variable), digite “escore T”.
·
6. Na opção expressão numérica (numeric expression), digite “50 + 10*ZVO2máx”.
7. Clique em OK.
8. Agora os escores T foram adicionados ao seu arquivo de dados. Salve o arquivo.

Item de domínio 3.9


Use os dados criados e o PASW para verificar se a média e o desvio-padrão para os escores z
e T são 0 e 1 e 50 e 10, respectivamente.

Desafio em medida e avaliação


O que James aprendeu neste capítulo que o ajudará na interpretação dos resultados do seu teste em esteira? James
·
pode comparar seu VO2máx com o de um indivíduo de mesmo sexo e idade. Ele pode determinar seu percentil com
·
base em seu escore, o escore médio e a variabilidade no VO2máx. James aprendeu a desenvolver e a interpretar
·
os escores com base em distribuição e normas de escores. Ao constatar que o VO2máx médio para um homem de
–1 –1 –1 –1
mesma idade é 45 mL·kg ·min com desvio-padrão de 5 mL·kg ·min , James pode facilmente verificar que seu
desempenho está no percentil 84. Apenas 16% das pessoas da mesma idade e do mesmo sexo têm valores de
·
VO2máx superiores a 50 mL·kg–1·min–1.

Morrow_03.indd 73 28/02/13 10:55


74 Morrow, Jackson, Disch & Mood

RESUMO
A estatística descritiva apresentada neste capítulo é o fundamento para o restante do livro.
É de extrema importância que você compreenda e saiba usar os conceitos de tendência
central e de variabilidade, além de usar e interpretar a curva normal e as áreas das seções
da distribuição normal. Caso esteja mais interessado nos métodos estatísticos, veja Glass e
Hopkins (1996). Thomas, Nelson e Silverman (2009) apresentam excelentes exemplos de
aplicações de pesquisa e de estatística em desempenho humano.
A esta altura, você deve ser capaz de realizar as seguintes tarefas:
1. Diferenciar entre os quatro níveis de medida e fornecer exemplos de cada um.
2. Calcular e interpretar a estatística descritiva.
3. Calcular e interpretar os escores-padrão.
4. Usar a tabela de área de curva normal (tabela z) para estimar percentis.
5. Usar o PASW para inserir dados, gerar e interpretar:
a. a distribuição de frequências e os percentis associados com os escores obser-
vados;
b. os histogramas para escores observados;
c. a estatística descritiva (média, desvio-padrão) das variáveis; e
d. os escores z e T.

APRENDA Acesse o material on-line (em inglês) para realizar tarefas e preencher
questionários que o ajudarão a dominar o conteúdo deste capítulo.

Morrow_03.indd 74 28/02/13 10:55


4
Correlação e
Regressão

Objetivos
Tópicos Após estudar este capítulo, você será capaz de:
Coeficiente de correlação 76 ® calcular as estatísticas necessárias para determinar as
Cálculo do r 79 relações entre as variáveis;
Coeficiente de determinação 80 ® calcular e interpretar o coeficiente de correlação linear de
Correlações negativas 80 Pearson (CLP);
Limitações do r 81 ® calcular e interpretar o erro-padrão de estimativa (EPE);
Regressão 82 ® usar os diagramas de dispersão para interpretar a relação
Linha reta 83 entre as variáveis;
Regressão linear simples 83 ® diferenciar entre correlação simples e múltipla; e
Erros de predição 85 ® usar o PASW e o Excel na análise de dados tanto para
Correlação ou regressão múltipla 86 correlação como para regressão.

ESTUDE A leitura dos tópicos no material


on-line (em inglês) o auxiliará a
identificar os principais conceitos
do capítulo.

Morrow_04.indd 75 28/02/13 10:55


76 Morrow, Jackson, Disch & Mood

Desafio em medida e avaliação


Agora que sabe como calcular a estatística descritiva, você está preparado para aprender outros importantes pro-
·
cedimentos estatísticos. No Capítulo 3, o técnico de James registrou o VO2máx de 50 mL·kg–1·min–1. No entanto,
·
James recentemente leu que o VO2máx deveria, na verdade, ser medido por meio da coleta e análise do conteúdo
de oxigênio e dióxido de carbono. Mas esse procedimento não foi realizado em seu teste de esteira. Ele lembra que
·
seu técnico lhe disse: “James, seu tempo na esteira é associado com o VO2máx de 50 mL·kg–1. min–1”. James agora
·
sabe que seu tempo na esteira estava associado com o VO2máx. Os procedimentos de correlação são usados para
determinar a relação entre as variáveis. De fato, as predições e as estimativas de uma variável a partir de outra são
comuns em cinesiologia, desempenho humano e ciências do esporte e do exercício. Por exemplo, no caso de James,
·
o tempo na esteira foi usado para estimar seu VO2máx sem ter que coletar o conteúdo de oxigênio e de dióxido de
carbono expirado.

C
omo duas variáveis se relacionam? Se o desempenho de uma variável aumenta, o
da outra se altera? A relação entre variáveis é estatisticamente analisada pelo coe-
ficiente de correlação. As correlações podem ajudá-lo a descrever as relações
e, em alguns casos, podem predizer determinados resultados; são muito úteis na área de
medidas.

COEFICIENTE DE CORRELAÇÃO
No Capítulo 3, foi possível aprender como descrever dados por meio
das medidas de tendência central e de variabilidade, além de se ter
discutido sobre uma variável ou teste em uma única vez. No entanto,
professores, médicos e pesquisadores frequentemente medem mais do
que uma variável. Esses profissionais estão interessados em descrever
e relatar a relação – associação estatística – entre essas variáveis. Essa
é uma tarefa fundamental para analistas de dados, cinesiologistas, pro-
fessores, médicos e pesquisadores. Um exemplo poderia ser: Qual é a
relação entre os testes de força no supino e no leg press? Ou seja, essas me-
didas de força têm algo em comum? Para medir essas relações, podería-
mos calcular o coeficiente de correlação, especificamente o coeficiente
de correlação linear de Pearson, simbolizado por r.
O coeficiente de correlação é um índice na relação linear entre
duas variáveis (uma associação que pode ser mais bem retratada por
uma linha reta). Isso indica a magnitude, ou quantidade de relação, e a
direção da relação. A Figura 4.1 mostra esses aspectos do coeficiente de
correlação. Como pode ser observado, o coeficiente de correlação pode ter
direção positiva ou negativa e magnitude entre –1,00 e +1,00.
Os termos alto e baixo são subjetivos e influenciados pela forma
como a correlação foi obtida, pela medida das pessoas, pela variabili-
dade dos dados e pelo modo como a correlação será usada. Não existe
Os coeficientes de correlação são usados nada de ruim sobre um r negativo. O significado do r simplesmente
para observar a relação entre determina- indica como as duas variáveis covariam (ou seja, andam juntas). Um r
das variáveis, como frequência cardíaca
positivo indica que aquelas pessoas pontuando acima da média em uma
durante exercício submáximo no cicloer-
· variável, X, provavelmente também estarão acima da média em uma
gômetro e o VO2máx.
segunda variável, Y. Um r negativo indica que aqueles escores acima da

Morrow_04.indd 76 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 77

Negativo Positivo

–1,0 –0,7 –0,3 0 0,3 0,7 1,0


Perfeito Alto Baixo Zero Baixo Alto Perfeito

Figura 4.1 Atributos de r.

média em X em geral estarão abaixo da média em Y. Então, uma correlação de –0,5 não é
inferior a uma de +0,5. De fato, elas são iguais em força, mas opostas em direção.

Item de domínio 4.1


Se você calcular um coeficiente de correlação e obtiver o resultado +1,5, o que deve ter
acontecido?

Examinemos a direção e a magnitude do coeficiente de correlação. A Tabela 4.1 apre-


senta os escores para 10 estudantes em três medidas: estatura, flexão de braço na barra com
pegada em pronação e flexão de braço na barra com pegada em supinação. Como você
pode ver ao analisar os dados, os baixos valores de flexão de braço na barra com pegada
em pronação são geralmente pareados com baixos valores de flexão de braço na barra com
pegada em supinação. Caso a correlação fosse calculada entre esses valores, seria possível
encontrar um r indicando uma relação direta (relação positiva). Contudo, analisando o
peso corporal pela flexão de braço na barra com pegada em supinação, será possível ob-
servar que o elevado peso corporal é geralmente pareado com baixos escores de flexão de
braço na barra com pegada em supinação. Essas medidas têm relação indireta (negativa
ou inversa). As Figuras 4.2 e 4.3 mostram os diagramas de dispersão dessas relações. Um
diagrama de dispersão é uma representação gráfica da correlação entre duas variáveis.
(É possível criar um diagrama de dispersão marcando os eixos com nomes e unidades de
medidas. Então, cada par de eixo dos escores representa um sujeito.)

Tabela 4.1 Correlação de dados da amostra

Flexão de braço na barra Flexão de braço na barra


Sujeito Peso corporal com pegada em pronação com pegada em supinação
1 59 10 8

2 59 9 7

3 63,6 15 12

4 68 9 10

5 68 7 6

6 73 5 3

7 73 3 4

8 73 8 7

9 77 4 5

10 77 6 3

Morrow_04.indd 77 28/02/13 10:55


78 Morrow, Jackson, Disch & Mood

Flexão de braço na barra com pegada em pronação


20

15

(número de execuções)
10

0 5 10 15
Flexão de braço na barra com pegada em supinação
(número de execuções)

Figura 4.2 Diagrama de dispersão de correlação entre as flexões de braço na barra com pegada
em supinação e com pegada em pronação.
Flexão de braço na barra com pegada em supinação

15
(número de execuções)

10

54,5 59 63,6 68 73 77 82

Peso (kg)

Figura 4.3 Diagrama de dispersão entre peso corporal e flexão de braço na barra com pegada
em supinação.

É importante estar ciente de que o coeficiente de correlação é um índice de relação


linear. Todos os pontos pareados devem estar em uma linha reta para a correlação ser
perfeita, –1 ou +1. O diagrama de dispersão não apresentaria formato de linha caso duas
variáveis tivessem um coeficiente de correlação correspondente a zero (correlação zero);
ao contrário, seria observado um círculo de pontos. A Figura 4.4 mostra um diagrama de
dispersão para uma correlação zero.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 4.1.

Morrow_04.indd 78 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 79

Y 4

0 2 4 6 8 10

Figura 4.4 Diagrama de dispersão de correlação zero.

CÁLCULO DO r
Uma vez desenvolvidas a compreensão dos princípios do coeficiente de correlação e a habili-
dade para ilustrar correlações com diagramas de dispersão simples, avancemos ao cálculo do
r. Utilize os dados da Tabela 4.2 para calcular o coeficiente de correlação entre flexão de braço
na barra com pegada em pronação e flexão de braço na barra com pegada em supinação.

Tabela 4.2 Cálculo do coeficiente de correlação


Flexão de braço na barra com pegada em Flexão de braço na barra com pegada em
pronação supinação
2
Sujeitos X X Y Y2 XY
1 10 100 8 64 80

2 9 81 7 49 63

3 15 225 12 144 180

4 9 81 10 100 90

5 7 49 6 36 42

6 5 25 3 9 15

7 3 9 4 16 12

8 8 64 7 49 56

9 4 16 5 25 20

10 6 36 3 9 18

Σ 76 686 65 501 576

Morrow_04.indd 79 28/02/13 10:55


80 Morrow, Jackson, Disch & Mood

Passos para o cálculo do r


1. Organize os dados em colunas pareadas (aqui, X é o número de flexão de braço
na barra com pegada em pronação, e Y, o número de flexão de braço na barra com
pegada em supinação).
2. Eleve cada valor de X e de Y ao quadrado e coloque os resultados em duas colunas
2 2
adicionais, X e Y .
3. Multiplique cada X pelo seu correspondente Y e coloque os resultados em uma
nova coluna (chamada produto cruzado, ou XY).
4. Some cada coluna (X, Y, X2, Y2, XY).
5. Use a seguinte fórmula para calcular o r:

(4.1)
Note que todos os indivíduos devem ter dois escores. Caso um estudante faça apenas
um teste, seus escores não podem ser usados para calcular o r.

Item de domínio 4.2


Como seria possível descrever a magnitude de correlação calculada entre o exercício de
flexão de braço na barra com pegada em pronação e supinação? (Dica: veja as Figuras
4.1 e 4.2).

COMPLETE Acesse o material on-line (em inglês) e complete as atividades 4.2, 4.3 e 4.4.

Coeficiente de determinação
Uma estatística adicional que fornece mais informações sobre a relação entre duas medidas
é r2. O quadrado da correlação é chamado de coeficiente de determinação. Esse valor
representa a proporção de variância compartilhada entre as duas medidas. Para entender
a variância compartilhada, examinemos um exemplo específico. Caso a correlação entre o
∙ 2
teste de distância percorrida e o VO2máx seja r = 0,9, então r seria 0,81; a porcentagem da
variância compartilhada seria 0,81 × 100 = 81%. Isso significa que o desempenho na dis-

tância percorrida representa 81% da variação dos valores de VO2máx. Dezenove por cento

da variância nos valores de VO2máx (100% – 81%) representam a variância não predita no

VO2máx que não é explicada pelo desempenho na distância percorrida. Assim, 19% é o
erro ou a variância residual, ou seja, é a variância restante após ter usado um preditor (X)
para explicar a variação variável (Y) critério. O coeficiente de determinação é importante
em estatística e em medidas uma vez que reflete a quantidade de variação encontrada em

uma variável que pode ser predita de outra. A Figura 4.5 mostra a variação no V O2máx
que pode ser predita da distância percorrida. Observe nesse caso a similaridade com aquela
variância apresentada no Capítulo 3.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 4.5.

Correlações negativas
Duas medidas podem ter uma correlação negativa por uma de duas razões. Primeiro, a
correlação negativa pode resultar de duas variáveis com escores opostos. Por exemplo, a

Morrow_04.indd 80 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 81

Variação NÃO explicada pela distância


percorrida (19%) (ou seja, erro)

Variação explicada pela distância


percorrida (81%)

·
Figura 4.5 Variação no VO2máx explicada pela distância percorrida quando r= 0,9.

distância percorrida em 12 minutos de corrida e o tempo necessário para correr 2,4 km


poderiam ser negativamente correlacionados. Os corredores mais aptos vão percorrer uma
distância maior e terão maior pontuação na distância percorrida de 12 minutos; os mes-
mos corredores correrão os 2,4 km em menos tempo. Os menos aptos terão resultados
negativos. Observe que essa correlação negativa indica uma conotação positiva, porque os
“melhores” e os “piores” escores para cada teste estão associados uns aos outros.
Uma segunda razão para uma correlação negativa é que as duas variáveis podem apre-
sentar uma relação verdadeiramente negativa. Um bom exemplo disso é a medida das
variáveis peso corporal e flexão de braço na barra apresentadas na Tabela 4.1. As pessoas
mais pesadas levam mais tempo para se movimentar ou se deslocar do que aquelas pessoas
com menos peso corporal.

Item de domínio 4.3


Qual seria o motivo para uma correlação negativa entre os tempos de corrida de maratona
·
e o VO2máx?

Limitações do r
O coeficiente de correlação é um índice de relação linear entre duas variáveis. Caso duas
variáveis tenham uma relação curvilínea, como aquela apresentada na Figura 4.6 entre
excitação e desempenho, o coeficiente de correlação seria próximo a zero, indicando a
inexistência de relação linear entre as duas variáveis. No entanto, seria incorreto dizer que
não existe relação entre as variáveis. Tanto escores baixos como elevados de excitação estão
relacionados com menor desempenho, enquanto escores médios de excitação estão asso-
ciados com alto desempenho. Essa limitação do r é uma razão para a representação gráfica
das relações entre variáveis por meio do diagrama de dispersão.
Outra limitação do r é o fato de que as correlações não são necessariamente uma
indicação de relação causa e efeito. Mesmo quando o coeficiente de correlação para duas
variáveis é +1 ou –1, também é incorreto concluir, com base apenas no r, que uma variá-
vel é a causa de um efeito mensurável da outra. Uma terceira variável talvez seja a causa
da relação detectada para um elevado valor de r. Por exemplo, caso o coeficiente de
correlação entre o peso corporal e a potência seja +1 e assuma-se uma relação de causa
e efeito, é possível tentar utilizar uma das seguintes lógicas: (a) o maior peso corporal
causa maior potência, portanto (b) todos os atletas que precisam de potência deveriam
ganhar peso. Os atletas podem, então, tornar-se tão pesados que haveria decréscimo da
potência.

Morrow_04.indd 81 28/02/13 10:55


82 Morrow, Jackson, Disch & Mood

Desempenho (unidades arbitrárias)


4

0 2 4 6 8 10

Excitação (unidades arbitrárias)

Figura 4.6 Gráfico de relação curvilínea.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 4.6.

Outra limitação do r é o efeito da variância ou da amplitude dos dados na magnitude


do r. As variáveis com maiores variâncias tendem a ter maiores valores de r do que as va-
riáveis com menor variância ou amplitude. A Figura 4.7 apresenta esse fenômeno. O valor
de r tanto nos pontos sólidos como nos abertos é muito menor que o valor de r para o
conjunto combinado dos dados. Isso se deve ao fato de a variância ser maior no conjunto
completo de dados do que em qualquer subconjunto.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 4.7.

REGRESSÃO
Em ciência, um dos resultados de pesquisa mais significativos é a previsão bem-sucedida.
O uso mais intrigante das correlações está na predição, ou seja, estimar o valor de uma

X
Figura 4.7 Exemplo de correlação de amplitude restrita.

Morrow_04.indd 82 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 83

variável a partir de uma ou mais variáveis. Do ponto de vista matemático, se existe uma
relação entre X e Y, então X pode ser predito de Y em algum grau e vice-versa. No entanto,
isso não significa que X e Y estão casualmente relacionados. Para estabelecer a relação de
causa e efeito entre X e Y, é necessário outro tipo de estudo e análise (ou seja, estabelecer e
testar uma hipótese com um estudo experimental).

Linha reta
Como você deve lembrar da geometria do ensino médio, qualquer ponto em um plano
marcado em um eixo X e Y pode ser identificado pelas coordenadas no plano (X,Y), e uma
linha reta pode ser definida pela equação = bX + c, onde b é a inclinação da linha e c
representa o ponto em que a linha intercepta o eixo Y. A inclinação indica a magnitude em
que Y altera de acordo com uma mudança de unidade em X. O intercepto de Y representa
o valor de Y quando X = 0. Na Figura 4.8, são marcados cinco pontos coordenados: (0,1),
(1,2), (2,3), (3,4) e (4,5); esses pontos se encaixam em uma linha reta. Na Figura 4.8, o
intercepto de Y é 1, e a inclinação da linha é 1. Quando todos os pontos pareados não se
encaixam na linha reta, uma linha de melhor ajuste será traçada por meio do conjunto de
pontos – isso é chamado de regressão (ou também linha de melhor ajuste ou de predição).

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 4.8.

Regressão linear simples


A regressão linear simples, também chamada de regressão, é um método estatístico usado
para predizer o critério, resultado ou variável dependente, Y, a partir de um único pre-
ditor ou variável independente, X. Caso as duas variáveis estejam correlacionadas, o que
indica certa quantidade de relação linear, então é possível calcular uma equação de regres-
são. A equação de regressão tem a mesma forma que a equação de linha reta em geometria.

(4.2)

5
4
(3, 4)
3
2

X
–5 –4 –3 –2 –1 0 1 2 3 4 5
–1
–2
–3
–4
–5

Figura 4.8 Apresentação de uma linha reta.

Morrow_04.indd 83 28/02/13 10:55


84 Morrow, Jackson, Disch & Mood

Devemos pensar em termos de , uma vez que, a menos que a correlação entre X e Y
seja –1 ou +1, é apenas uma estimativa de Y. Geralmente, não é igual a Y. As seguintes
fórmulas são usadas para calcular b e c:

(4.3)

(4.4)
Por exemplo, por meio dos dados da Tabela 4.1, é possível calcular b e c e apresentar
a equação de regressão para predizer a flexão de braço na barra a partir do peso corporal.
Note que a linha de predição apresentada na Figura 4.9 representa a equação de regressão
e também ilustra o erro da predição.

Escore atual de três indivíduos


Flexão de braço na barra com pegada em supinação

14
(140, 12)
12
Yˆ = (–0,128 • 140) + 25,888 = 7,97
(execuções realizadas)

E = 12 – 7,97 = 4,03
10

8
(140, 7,97)
6

4 Escore predito
de três indivíduos
2

0
120 130 140 150 160 170 180
Peso (lb)

Figura 4.9 Escores de erros (residuais). 1 libra = 453,59 gramas

Item de domínio 4.4


Usando a equação fornecida na Figura 4.9, encontre o valor de Y para X = 160.

Getchell, Kirkendall e Robbins (1977) mostram um ótimo exemplo de uso da regres-


são linear simples em desempenho humano. Eles descobriram que o coeficiente de corre-

lação entre VO2máx e o tempo de corrida de 2,4 km para jovens corredoras foi de 0, 915.

Eles calcularam uma equação de regressão linear para predizer o VO2máx em função do
tempo de corrida de jovens corredoras. A equação é a seguinte:

VO2máx predito = –4,182X + 98,3
onde –4,182 é a inclinação, 98,3 é o intercepto Y, e X é o tempo de corrida de 2,4 km. As
∙ –1 –1
unidades de VO2máx de tempo de corrida são mL ·kg ·min e minutos, respectivamente.

Item de domínio 4.5


Use os dados da Tabela 4.1 para calcular b e c e fornecer a equação preditiva do número de
flexões de braço na barra a partir do peso corporal.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 4.9.

Morrow_04.indd 84 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 85

Erros de predição
A menos que o coeficiente de correlação seja –1 ou +1, não será necessariamente igual a
Y. A equação fica assim:

(4.5)
O E (erro) representa a imprecisão da predição de Y baseada na equação de predição. A
Figura 4.9 fornece uma demonstração de erro ou escore residual. O indivíduo 3 executa 12
flexões de braço na barra, mas a equação de regressão prediz 7,97 flexões para um sujeito
pesando 63,6 kg. Então, para esse indivíduo, o escore residual (ou erro) é 4,03. Os escores
residuais são importantes por várias razões. Primeiro, representarão ao erro puro de estima-
tiva ou regressão. Caso possa ser minimizado, a predição pode ser melhorada. Segundo, o
escore residual pode representar falta de ajuste, o que significa que as variáveis dependentes
não predizem uma parcela do critério (Y). Os preditores deveriam ser analisados para redu-
zir esse problema. Talvez mais preditores devessem ser adicionados para reduzir o erro (isso
será discutido mais adiante). Finalmente, os escores residuais poderiam representar uma
medida pura de uma característica com o preditor removido estatisticamente. No exemplo
anterior da correlação entre flexão de braço na barra e peso corporal, a flexão de braço pode
ser predita em função do peso. O escore residual resultante é interpretado como a habilida-
de do indivíduo em executar flexões de braço na barra com controle estatístico do peso cor-
poral. Ou, em outras palavras, se todos tivessem o mesmo peso corporal, quantas flexões de
braço na barra você poderia fazer? Os escores residuais positivos indicariam que você realiza
mais flexões por unidade de peso do que o predito pela equação. Um ponto importante a
lembrar é que E tem uma correlação zero com X. Isso significa que a equação de regressão
é igualmente acurada (ou inacurada) em qualquer ponto ao longo da escala de escores X.
O erro-padrão de estimativa (EPE), também chamado de erro-padrão de predição
(EPP) ou simplesmente de erro-padrão (EP), é a estatística que reflete a quantidade média
de erro no processo de predição de Y em função de X. Tecnicamente, é o desvio-padrão do
erro ou escore residual. A fórmula usada para esse cálculo é:

(4.6)
O sy é o desvio-padrão do escore Y. Caso os dados da Tabela 4.1 sejam usados, o erro-
-padrão de estimativa para predizer o número de flexões de braço na barra (Y) em função
do peso corporal (X) seria:

Por ser um desvio-padrão do erro ou do escore residual, isso poderia ser usado da se-
guinte forma: se predizemos 7,97 flexões de braço na barra para alguém que pesa 63,6 kg,
cerca de 95% das pessoas que pesam 63,6 kg realizariam aproximadamente 4 a 12 flexões
de braço na barra. Lembre-se que em cerca de 95% das vezes o escore está localizado em
±2 desvios-padrão da média de uma distribuição normal, e pressupõe-se que os escores
do erro estejam normalmente distribuídos. Aqui, o desvio-padrão é, na verdade, o erro-
-padrão da estimativa, uma vez que esse fator (i.e., o erro-padrão da estimativa) representa
o desvio-padrão dos erros da estimativa. Também observe que o número predito de 7,97
flexões em função do peso de 63,3 kg representa o valor médio de flexões na barra para
aqueles com peso de 63,6 kg.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 4.10.

Morrow_04.indd 85 28/02/13 10:55


86 Morrow, Jackson, Disch & Mood

CORRELAÇÃO OU REGRESSÃO MÚLTIPLA


A correlação e a regressão são dois tópicos inter-relacionados baseados no pressuposto de
que duas variáveis tenham uma relação linear. Temos analisado a noção de que a regressão
linear simples tem um preditor, X, do critério, Y. Uma predição mais complexa de Y pode
ser desenvolvida com mais de um preditor: X1 e X2, e assim por diante. Isso é chamado de
correlação múltipla, predição múltipla ou regressão múltipla. A matemática dessa aborda-
gem é muito complicada. Se X e Y têm relação curvilínea, então a regressão não linear pode
ser usada para predizer Y em função de X. Embora a matemática envolvida nessas técnicas
esteja além do escopo deste livro, e por isso não será discutida aqui, providenciamos um
breve exemplo de uma equação de regressão múltipla. Jackson e Pollock (1978) publi-
caram equações de predição que combinam regressão múltipla e regressão não linear. A
equação prediz a densidade corporal (DC) medida hidrostaticamente (variável dependen-
te) de homens em função: da idade (A), da soma de dobras cutâneas (SD) e do quadrado
2
da somatória das dobras cutâneas (SD ). Os três preditores (variável independente) são os
preditores múltiplos, e a soma de dobras cutâneas ao quadrado é o componente não linear
na predição. Veja a seguinte equação:
2
DC = 1,10938 – 0,0008267 (ΣSD) + 0,0000016 (ΣSD ) – 0,0002574(A)
Usando DC, é possível estimar a porcentagem de gordura corporal.

Aplicação do conjunto de dados


·
Volte à Figura 4.5. Essa figura mostra a relação entre VO2máx e distância percorrida. Con-
sidere o que aconteceria com a variação explicada (e com a variação do erro resultante) se
variáveis adicionais fossem incluídas na equação de regressão. Suponha que tenham sido
COMPLETE adicionados sexo e idade. O que aconteceria com a quantidade de erros mostrada na figura?
Por que aconteceria isso? Que outras variáveis você poderia incluir no modelo para diminuir
a quantidade de erros?
Use os dados do Capítulo 4 disponíveis no material on-line (em inglês) para mos-
trar as correlações. Calcule a correlação (Análise (Analyse) → Correlacionar (Correlate) →
Bivariável (Bivariate) e mova todas as variáveis para a direita) para determinar quais va-
riáveis estão mais relacionadas com a contagem de passos semanais. Interprete a matriz
de correlação resultante. Crie diagramas de dispersão para mostrar as relações. (Gráficos
(Graphs)→ Diálogos (Legacy dialogs) → Diagramas de dispersão (Scatter dot), clique em
“dispersão simples” (simple scatter) e então em “definir” (define). Selecione os eixos Y e X,
assim como as variáveis, e clique em OK.) Crie uma correlação múltipla (Análise (Analyse)
→ Regressão (Regression) → Linear (Linear)) e relacione a quantidade de passos semanais
com sexo e IMC. Coloque “passos semanais” na célula “Dependente” (Dependent) e “Sexo”
e “IMC” na célula “independente(s)” (Independent) e clique em OK. O que acontece com a
correlação (e a habilidade para predizer) e o EPE ao adicionar preditores? Explique por quê.
Agora, adicione o peso à equação de regressão. Explique o que acontece com a habilidade
de predição, além daquela com apenas sexo e IMC. Será que você precisa ou deseja adicio-
nar o peso à equação de regressão? Por quê?

RESUMO
A correlação e a regressão apresentadas neste capítulo estabelecem as bases e fornecem o
conhecimento necessário para o processo de medida e avaliação. Como será observado,

Morrow_04.indd 86 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 87

Desafio em medida e avaliação


·
James agora compreende o método estatístico usado para a estimativa do VO2máx em função do tempo na esteira.
O tipo de teste que realizou é chamado de protocolo de Balke. Os protocolos em esteira estão descritos no Capí-
·
tulo 9. Os estudos têm mostrado que a correlação entre o tempo de esteira no protocolo de Balke e o VO2máx é >
· ·
0,90. A equação de predição é VO2máx = 14,99 + 1,444 X (minutos em forma decimal). Note que o VO2máx é, na
realidade, (ou seja, o valor predito de Y, baseado em X). Então, James, que correu por 24 minutos e 15 segundos
·
(ou seja, 24,25 minutos), teve VO2máx predito de 14,99 +1,444 X (24,25) = 50 mL·kg–1·min–1. No entanto, ele tam-
bém percebeu que existe algum erro na equação de predição devido à correlação não ser perfeita (ou seja, ±1,00).
O erro-padrão de estimativa (EPE) reflete a quantidade de erro na equação de regressão. Com essa equação, o EPE
·
é cerca de 3 mL·kg–1·min–1. Então, James pode estar 68% confiante de que o valor correspondente ao seu VO2máx
esteja entre 47 e 53 mL·kg–1·min–1 (o EPE do escore predito é ±1,00).

essas habilidades são necessárias para a área de medidas, assim como para a aplicação dos
conceitos de reprodutibilidade e validade para os problemas práticos em exercício e desem-
penho humano.
A esta altura, você deve ser capaz de realizar as seguintes tarefas:
1. Calcular e interpretar medidas de correlação.
2. Calcular e interpretar uma equação de regressão.
3. Calcular o erro-padrão da estimativa.
4. Usar o PASW ou Excel para tabular dados, gerar e interpretar:
a. os coeficientes de correlação,
b. os diagramas de dispersão e
c. as equações de regressão linear simples.

APRENDA Acesse o material on-line (em inglês) para realizar tarefas e preencher
questionários que o ajudarão a dominar o conteúdo deste capítulo.

Morrow_04.indd 87 28/02/13 10:55


5
Estatística Inferencial

Objetivos
Tópicos Após estudar este capítulo, você será capaz de:
Teste de hipótese 90 ® compreender o método científico e as hipóteses
Variáveis independente e dependente 93 associadas;
Visão geral do teste de hipóteses e da estatística ® realizar análise estatística inferencial para testar uma
inferencial 93 hipótese; e
Selecionando os tratamentos estatísticos 94 ® usar programas selecionados do PASW ou do Excel na
Qui-quadrado (χ )
2
94 análise de dados.
Teste t de Student para duas amostras
independentes 95
Teste t de Student para grupos pareados 98
ANOVA One-Way (análise de variância) 100

ESTUDE A leitura dos tópicos no material


on-line (em inglês) o auxiliará a
identificar os principais conceitos
do capítulo.

Morrow_05.indd 89 28/02/13 10:55


90 Morrow, Jackson, Disch & Mood

Desafio em medida e avaliação


James está fazendo um curso em medida e avaliação do desempenho humano. Ele também está inscrito em um
curso intitulado “Bases fisiológicas do desempenho humano”. O professor pediu para que os alunos lessem um
artigo científico. No artigo, o autor desenvolveu a hipótese de que a bebida à base de carboidrato diluído em água
poderia melhorar o desempenho no ciclismo, além do que resultaria da ingestão apenas de água. O estudo com-
parou dois grupos de ciclistas de endurance. Um dos grupos bebeu apenas água; o outro bebeu água que continha
uma solução de 4% de carboidrato. Os ciclistas foram então avaliados para verificar por quanto tempo poderiam
pedalar com determinada carga.
Um teste t de Student indicou que o grupo que recebeu a bebida com carboidrato pedalou “significativamente
(p < 0,05)” mais que aquele que bebeu apenas água. James quer entender o que é um teste t de Student e o que
“significativo” representa nesse contexto. Além disso, quer saber o que significa p < 0,05. Isso significa que os pes-
quisadores provaram que a bebida com carboidrato foi mais eficaz do que a ingestão apenas de água para melhorar
a endurance no ciclismo? Será possível descobrir como interpretar esses e outros resultados e aprender sobre ou-
tros métodos estatísticos neste capítulo.

A
técnica de estatística descritiva apresentada até aqui é a que você mais utilizará nos
problemas em medidas. Existem, no entanto, diversas outras técnicas estatísticas
que precisará usar em várias situações de medidas. As mais comuns analisam di-
ferenças entre grupos. Chamamos esses testes de estatística inferencial quando são usados
para relacionar as características de um pequeno grupo (amostra) às de um grande grupo
(população). Muitas pesquisas em desempenho humano são conduzidas usando estatísti-
ca inferencial.

TESTE DE HIPÓTESE
O método científico utiliza a estatística inferencial para obter o conhecimento. O método
científico requer o desenvolvimento de uma hipótese científica e de um teste estatísti-
co inferencial dessa hipótese versus outras hipóteses conflitantes. Uma hipótese é uma
afirmação de uma suposta relação entre pelo menos duas variáveis em determinada po-
pulação. Uma população representa todo grupo de indivíduos ou de observação (p. ex.,
idosos) em questão. Uma medida de interesse na população é chamada de parâmetro.
Inevitavelmente, devido ao fato de as populações inteiras serem muito grandes e difíceis
de manejar (imagine o levantamento de todos os universitários dos Estados Unidos),
você estuda hipóteses sobre determinada população por meio do uso de um subgrupo da
população, denominado amostra. A medida da variável de interesse na amostra é deno-
minada estatística. Por meio do uso de várias técnicas, é possível fazer uma inferência

Tabela 5.1 Símbolos estatísticos


Medida Parâmetro populacional Estatísticas referentes à amostra
Média μ M

Desvio-padrão σ s

Correlação ρ r

Morrow_05.indd 90 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 91

– mas não uma afirmação absoluta – sobre toda a população a partir da amostra do tra-
balho. (A Tabela 5.1 contém os símbolos comumente usados para distinguir estatísticas
amostrais dos parâmetros populacionais.)
Considere os seguintes exemplos. Um professor está interessado nos minutos de ati-
vidade física realizados em uma típica aula de Educação Física (parâmetro) no quinto ano
do ensino fundamental. Havia 200 alunos da 5ª série (população). O professor selecionou
aleatoriamente 50 alunos (amostra), e eles tinham que usar o pedômetro para indicar os
minutos de atividade física moderada a vigorosa (AFMV). Os minutos de AFMV foram ana-
lisados, e os valores da amostra (p. ex., a média) foram considerados como representativos
da população. Da mesma forma, as pesquisas realizadas antes das eleições presidenciais
usam amostras para estimar a porcentagem de pessoas que preferem determinado candi-
dato. Note, no entanto, que existe erro nessa técnica, como será possível aprender mais
adiante neste capítulo.

Item de domínio 5.1


Crie um problema de pesquisa relacionado a algo do seu interesse. Identifique o seguinte: (a)
população, (b) amostra, (c) parâmetro e (d) estatística.

A hipótese é a ferramenta que permite pesquisar questões que devem ser exploradas. Uma
hipótese pode ser de vários tipos:
• Hipótese de pesquisa – o que o pesquisador realmente acre-
dita que irá ocorrer. Por exemplo, suponha que você acredite
que o método de treinamento está relacionado ao consumo de
oxigênio. A hipótese de pesquisa é: haverá diferenças no consu-
mo de oxigênio baseado no tipo de treino aeróbio. É possível inves-
tigar a hipótese com o teste t de Student ou a ANOVA.
• Hipótese nula (Ho) – representa uma afirmação de que não
existe relação (associação, relação ou diferença) entre as va-
riáveis (μ1 = μ2). Nesse exemplo, a hipótese nula será o fato
de que o consumo médio de oxigênio não é diferente para os
grupos que usam métodos distintos de treinamento. Essa é a
hipótese que você realmente irá testar (e, espera-se, desacredi-
tar) usando as técnicas da estatística inferencial.
• Hipótese alternativa (H1) – representa a afirmação de que
existe uma relação entre as variáveis (associação, relação ou
diferença), normalmente o inverso de (H0). Aqui, sua hi-
pótese alternativa é μ1 ≠ μ2, onde μ1 é a média populacio-
nal para o grupo 1, e μ2, para o grupo 2. Lembre-se que
você obtém dados somente de amostras, e depois infere o
resultado para a população. Neste exemplo, a hipótese de
pesquisa é H1.
Antes de realizar o teste estatístico apropriado, é selecionado o Os níveis de estudantes fisicamente ativos
nível de probabilidade a partir do qual os resultados são considera- podem ser medidos com pedômetros de
dos como “estatisticamente significativos”. Esse valor de probabilida- baixo custo. Os dados podem ser usados
de é chamado de significância ou nível alfa (α) e permite testar a para levantar hipóteses sobre os níveis dis-
probabilidade de ocorrência atual do resultado. O nível alfa é fixado tintos de atividades.

Morrow_05.indd 91 28/02/13 10:55


92 Morrow, Jackson, Disch & Mood

convencionalmente em 0,05 ou 0,01 (ou seja, 5% ou 1%). Por exemplo, caso o investiga-
dor estabeleça o nível alfa em 0,05, significa que a probabilidade de obter significância ao
acaso deve ser menor que 5 vezes em 100, antes de decidir se a hipótese nula não é sus-
tentável. Você deve se recordar, do Capítulo 3, que 5% está na extremidade (2,5% em cada
lado) da curva normal. De fato, não é possível supor nenhuma relação entre as variáveis até
ter evidência do contrário. Os dados estatísticos podem fornecer essa evidência.
É importante lembrar da curva e da distribuição normais apresentadas no Capítulo 3.
Preste atenção especial à Figura 3.6 e observe que cerca de 2,5% da distribuição está fora
de ± 2 desvios-padrão. No entanto, o pesquisador pode chegar a uma conclusão incorreta
(ou seja, estabelecer que existe uma relação ou diferença quando, na verdade, não existe).
A probabilidade de cometer tal erro se chama nível alfa. Esse erro é referido como erro
tipo I. O nível alfa é estabelecido a 0,05 ou 0,01 para que a probabilidade de erro tipo I
seja extremamente pequena. É possível também cometer um segundo tipo de erro, o erro
tipo II, que seria concluir que não existe relação entre as variáveis na população quando,
na verdade, existe. Essa breve introdução para testar a significância será expandida nas
próximas seções deste capítulo.
O programa PASW (ou outro software de estatística) irá calcular o nível alfa. Caso a
probabilidade seja menor do que o nível alfa de 0,05 ou 0,01, será possível concluir que
existe relação significativa entre as variáveis. Assim, Ho é rejeitado, e H1 é aceito. A Figura
5.1 mostra os tipos de decisões e erros que poderão acontecer. Pode-se nunca saber “o es-
tado verdadeiro da hipótese nula” na população, de modo que sempre existe o risco de se
cometer um erro tipo I ou tipo II. Não é possível fazer ambos os tipos de erros no mesmo
estudo. Você pode olhar na Figura 5.1 e dizer por quê?

Item de domínio 5.2


Um treinador deseja estudar a melhor estratégia para desenvolver a capacidade de saltar.
Ele aleatoriamente divide a equipe em três grupos: treinamento de força, pliometria e salto.
Escreva a hipótese nula e a alternativa apropriada para esse problema.

Estado verdadeiro na população

H0 é verdadeiro H0 é falso
H1 é falso H1 é verdadeiro

Rejeita H0, Erro tipo I Decisão


(alfa) correta
aceita H1

Sua
decisão

Aceita H0, Decisão Erro tipo II


correta (beta)
rejeita H1

Figura 5.1 Erros tipo I e II.

Morrow_05.indd 92 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 93

A seleção da técnica estatística adequada é baseada na questão de pesquisa e no nível de


medida das variáveis. O número de grupos e a característica das variáveis determina a esta-
tística apropriada. Alguns dos mais comuns são os seguintes:
• χ2 (teste qui-quadrado) – usado para analisar associações em variáveis nominais.
• Teste t de Student – usado para analisar a diferença em uma variável contínua (in-
tervalo ou relação) dependente entre somente dois grupos.
• ANOVA (análise de variância) – usada para analisar diferenças em uma variável
contínua dependente (intervalo ou relação) entre mais de dois grupos.

VARIÁVEIS INDEPENDENTE E DEPENDENTE


A diferença entre variável dependente e independente é importante. A variável dependente
é a variável “critério”; sua existência é a razão da pesquisa. A variável independente existe
unicamente para determinar se esta está relacionada (ou influencia) a variável dependente.
Existem diversos modos pelos quais as variáveis dependentes ou independentes podem ser
caracterizadas, conforme apresentado na Tabela 5.2.
Caso a variável dependente seja classificada de forma nominal, as diferenças entre os
gupos (ou células) são mensuradas por frequências ou proporções. Caso esteja lidando
com variáveis contínuas (intervalo ou relação), as diferenças nos valores médios serão fre-
quentemente analisadas. Por exemplo, suponha que você queira analisar a diferença entre
o efeito induzido pelo treinamento em circuito comparado ao da dança. A variável selecio-

nada para mensurar o efeito do treinamento é o VO2máx. Este é a variável dependente. A
variável independente é o método de treinamento e tem dois níveis: circuito e dança.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 5.1.

VISÃO GERAL DO TESTE DE HIPÓTESES E DA ESTATÍSTICA


INFERENCIAL
Todo teste de estatística inferencial segue os mesmos processo e raciocínio:
1. Desenvolver hipótese de pesquisa sobre a relação entre variáveis (p. ex., existe re-
lação entre o tipo de exercício em que você se engaja [moderado ou vigoroso] e o

Tabela 5.2 Classificação de variável


Independente Dependente
Causa presumida Efeito presumido

A antecedente A consequência

Manipulada ou medida pelo pesquisador Resultado (medida)

Predita em função de Predita para

Preditor Critério

X Y

Morrow_05.indd 93 28/02/13 10:55


94 Morrow, Jackson, Disch & Mood

∙ ∙
VO2máx). De modo alternativo, poderia ser dito que existe diferença no VO2máx
que depende de a atividade física ser de intensidade moderada ou vigorosa.
2. Descreva uma hipótese nula (Ho) que não reflita relação (ou diferença) (p. ex.,

NÃO existe relação [ou seja, diferença] entre o tipo de exercício e o VO2máx).
3. Descreva uma hipótese alternativa (H1); isso é o oposto da nula. É um reflexo di-
reto da hipótese de pesquisa do tópico 1.
4. Colete os dados e analise-os com base na questão de pesquisa e na característica
das variáveis.
5. Tome a decisão com base na probabilidade de a hipótese nula estar correta a partir
dos dados coletados.

Note que, se a hipótese nula é verdadeira, então o V O2máx médio para os grupos
moderado e vigoroso seria o mesmo. Ou seja, não existe relação entre tipo de exercício

e VO2máx; nesse caso, a diferença entre as duas médias seria zero! Lembre-se que o zero
está no centro da curva normal. No entanto, caso a hipótese nula não seja verdadeira, então

a diferença entre os VO2máx de intensidade moderada e vigorosa será diferente de zero.
Considere que o valor diferente de zero está em um ponto extremo da distribuição normal.
Isso sugere que o achado diferente de zero foi extremamente raro, caso a hipótese nula seja
verdadeira. Portanto, pode-se concluir que a hipótese nula não é verdadeira e que a hipó-
tese alternativa é a correta.
Essa mesma lógica é utilizada independentemente do teste estatístico conduzido (ou
seja, χ , teste t de Student ou ANOVA). O χ (qui-quadrado), o teste t de Student (t) e a
2 2

ANOVA (F) usam diferentes distribuições, mas estão relacionados à distribuição normal.
Talvez você pense que o χ , o t e o F são escores z. Não são, mas estão intimamente rela-
2

cionados. Quando existe um grande escore z (positivo ou negativo), existe uma ocorrência
rara (fora do caminho da distribuição). Então, no teste de hipótese, caso obtenha um χ ,
2

t ou F que seria muito raro (ou seja, menos de 5 vezes em 100), é possível concluir que a
hipótese nula não é verdadeira. Os softwares apresentam, essencialmente, a probabilidade
associada com χ , t ou F. Isso é interpretado como a probabilidade de se obter um valor
2

“extremo” caso a hipótese nula seja verdadeira. O pesquisador rejeitaria a hipótese nula e
relataria que existe relação significativa (ou diferença) entre os níveis da independente e da
dependente caso a probabilidade seja baixa (frequentemente < 0,05 ou 0,01).
Essa lógica pode ser estendida às mais sofisticadas inferências estatísticas. De fato, mui-
tos estudos em desempenho humano usam essa lógica. É muito comum relatar as probabi-
lidades nas pesquisas. Efetivamente, o pesquisador estabelece uma hipótese “falsificável” (a
nula) e então coleta e analisa dados, decidindo sobre a verdade do nulo (ou sua alternativa)
com base nos dados da amostra.

SELECIONANDO OS TRATAMENTOS ESTATÍSTICOS


Os tópicos seguintes são testes estatísticos que analisam as associações ou as diferenças entre
grupos. As técnicas selecionadas representam os testes inferenciais básicos mais comuns.

Qui-quadrado (χ2)
Objetivo: Determinar a existência de associação entre níveis (células) de uma ou mais
variáveis nominais.
Exemplo: Um professor de aeróbica ministra duas aulas: dança e circuito. Ele quer
saber se a proporção de homens e mulheres é igual para ambas. A hipótese nula é a de

Morrow_05.indd 94 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 95

que não existe associação (relação) entre o sexo e o tipo de aula em que se está inscrito.
A hipótese alternativa é de que existe. É possível rejeitar a hipótese nula e acreditar
que a hipótese alternativa seja a verdadeira na população quando a probabilidade de a
hipótese nula ser verdadeira for muito pequena (ou seja, < 0,05) com base nos dados
de amostra. Os dados são apresentados na Tabela 5.3. Use-os em conjunto com os
seguintes comandos do PASW para calcular o χ2 e conferir os resultados com aqueles
apresentados na Figura 5.2. (Existe um modelo do Excel disponível no material on-line
dos Capítulos 5 e 7).
1. Inicie o PASW.
2. Abra a Tabela 5.3.
3. Clique no menu Análise (Analyse).
4. Vá para Estatística descritiva (Descriptive statistics) e clique em Tabelas cruza-
das (Crosstabs).
5. Coloque “classes” na linha e “gênero” na coluna usando as setas.
6. Clique em Estatística (Statistics).
Habilite χ .
2
7.
8. Clique em Continuar (Continue).
9. Clique em OK.
O relatório resultante do PASW é apresentado na Figura 5.2. Nosso interesse é no χ ,
2

embora vários cálculos estatísticos sejam feitos. O valor observado de χ é 22,5. Pense no
2

χ2 como se fosse um escore z (não é, mas está relacionado). Onde está o escore z de 22,5?
Na extremidade da distribuição normal. É uma ocorrência muito improvável, particular-
mente se a hipótese nula for verdadeira e não existir relação entre gênero e classe. A pro-
babilidade associada é de 0,000 (intitulado como “significância assintótica [bicaudal]”) na
opção tabelas cruzadas. Essa é a probabilidade de a distribuição das células ocorrer como
se a hipótese nula fosse verdadeira. No entanto, nunca se pode ter uma probabilidade de
0. Esse é simplesmente o caso em que o programa de computador calcula a probabilidade
(ou seja, significância) para três casas decimais. Em qualquer caso, você deveria interpretar
isso como 0,001. Por causa dessa probabilidade extremamente pequena, o professor pode
concluir que existe associação entre sexo e tipo de classe. A hipótese nula (H0) de nenhuma
associação é rejeitada, e conclui-se que existe associação entre sexo e tipo de aula. A Figura
5.2 mostra que 10 dos 12 homens estão registrados no circuito, enquanto todas as mulhe-
res estão registradas nas aulas de dança. Essa associação pode ajudar o professor a planejar
o tipo de atividade para as aulas.

Teste t de Student para duas amostras independentes


Objetivo: Analisar a diferença em uma variável dependente contínua entre duas (e
apenas duas) amostras independentes. As amostras independentes são grupos que não
estão relacionados de nenhuma forma.
Exemplo: O treinador de vôlei do colégio está selecionando jogadores para a equipe
principal e está empregando a precisão de saque como fator de seleção. Após a equipe
ser selecionada, o treinador quer quantificar as diferenças na precisão de saque entre os
jogadores da equipe principal e da secundária. Os escores de saque são apresentados
na Tabela 5.4.
A hipótese experimental é que existirá diferença na precisão de saque entre os jogadores
da equipe principal (v) e os da secundária (sv). A hipótese nula é que os escores de saque dos

Morrow_05.indd 95 28/02/13 10:55


96 Morrow, Jackson, Disch & Mood

Tabela 5.3 Exemplo de tabulação de dados para o χ2


Id Gênero Classe
1 1 1

2 1 1

3 1 1

4 1 1

5 1 1

6 1 1

7 1 1

8 1 1

9 1 1

10 1 1

11 1 2

12 1 2

13 2 2

14 2 2

15 2 2

16 2 2

17 2 2

18 2 2

19 2 2

20 2 2

21 2 2

22 2 2

23 2 2

24 2 2

25 2 2

26 2 2

27 2 2

28 2 2

29 2 2

30 2 2
Nota: código de sexo: 1 = homem, 2 = mulher. Código de classe 1 = circuito, 2 = dança.

Morrow_05.indd 96 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 97

Resumo de processamento de casos


Casos
Válido Perdido Total
N Porcentagem N Porcentagem N Porcentagem
Inscrição nas aulas* 30 100,0% 0 0,0% 30 100,0%
Sexo dos sujeitos

* Tabela cruzada da inscrição nas aulas com o sexo do sujeito


Contagem
Sexo dos sujeitos
Masculino Feminino Total
Inscrição Circuito 10 10
Dança 2 18 20
Total 12 18 30

Teste qui-quadrado

Significância Significância Significância


Graus de
Valor assintótica exata exata
liberdade
(bicaudal) (bicaudal) (unicaudal)

χ2 de Pearson 22,500b 1 0,000


Correção de continuidadea 18,906 1 0,000
Razão de verossimilhança 27,377 1 0,000
Teste exato de Fisher 0,000 0,000
Associação linear 21,750 1 0,000
Número de casos válidos 30
a. Computado somente para uma tabela de contingência 2 x 2.
b. Uma célula 1 (25,0%) teve contagem menor que 5. A contagem mínima esperada é 4,00.

Figura 5.2 Relatório de tabelas cruzadas do PASW.

jogadores da equipe principal sejam similares aos dos atletas da equipe secundária (ou seja,
não existe diferença entre os dois grupos):

(5.1)
A hipótese experimental é de que a média de escores de saque para os jogadores da
equipe principal não é similar a dos jogadores da equipe secundária:

(5.2)
Para o objetivo do treinador, o nível alfa é estabelecido em 0,05. O procedimento do
PASW para teste t pode ser usado para analisar os dados. Use os dados da Tabela 5.4 para
calcular o teste t para amostras independentes e confirmar os resultados com aqueles apre-
sentados na Figura 5.3.
1. Inicie o PASW
2. Abra a Tabela 5.4.
3. Clique no menu Análise (Analyse).
4. Clique em Comparar médias (Compare means) e, então, em Teste t para amos-
tras independentes (Independent-samples t test).
5. Na caixa Variáveis (Variables), clique na seta para inserir o “escore”.

Tabela 5.4 Escores de saque


Principal 20, 18, 17, 19, 20, 16, 18, 19

Secundária 16, 15, 17, 14, 15, 13, 14, 12

Morrow_05.indd 97 28/02/13 10:55


98 Morrow, Jackson, Disch & Mood

Estatística dos grupos

Nível da equipe N Média Desvio-padrão Erro-padrão da média

Escore da Equipe principal 8 18,38 1,408 0,498


habilidade
Equipe secundária 8 14,50 1,604 0,567
de saque

Teste para amostras independentes

Teste de Levene para a igualdade


das variâncias Teste t para a igualdade das médias

Intervalo de
confiança da
diferença de 95%
Sig. Diferença Erro-padrão
F Sig. T GL (bicaudal) média da diferença Inferior Superior

Escore da Assume 0,095 0,763 5,136 14 0,000 3,88 0,754 2,257 5,493
habilidade variâncias iguais
de saque 5,136
Assume variâncias 13,769 0,000 3,88 0,754 2,254 5,496
diferentes

Figura 5.3 Relatório do teste t: estatísticas dos grupos e teste de amostras independentes.

6. Na caixa Grupos (Groups variable), clique na seta para inserir o “grupo”.


7. Clique em Definir grupos (Define Groups).
8. Insira “1” na caixa Grupo 1 (Group1) e “2” na caixa Grupo 2 (Group2).
9. Clique em Continuar (Continue).
10. Clique em OK.
O relatório do PASW é exibido na Figura 5.3. A análise das médias indica que os joga-
dores da equipe principal (grupo 1, média = 18,38) têm maior precisão de saque (Signifi-
cância [bicaudal] = 0,000) que os jogadores da equipe secundária (grupo 2; média = 14,50).
Inúmeros cálculos estatísticos apresentados no relatório estão além do escopo deste livro.
Para os nossos objetivos, ignore os resultados do teste de Levene para a igualdade das vari-
âncias. Foque sua atenção nas áreas abaixo de “teste t para a igualdade das médias”. Observe
o t apresentado com um valor de 5,136 (na verdade, é apresentado duas vezes). Pense no t
como se fosse um escore z que aprendeu no Capítulo 3. Novamente, não é um escore z, mas
é muito parecido. Caso o escore z fosse grande (p. ex., maior do que três no valor absoluto),
a probabilidade de encontrar um valor maior seria muito pequena. O mesmo raciocínio pode
ser feito para o “valor t”. Assim, é possível observar que o t está relativamente distante do
final da distribuição. Esse t é geralmente uma ocorrência rara. O mais importante é a caixa
intitulada “Significância (bicaudal)”. Essa é a probabilidade de que a hipótese nula seja ver-
dadeira de acordo com os dados. Em decorrência de a probabilidade ser menor que 0,05, o
treinador rejeitaria a hipótese nula e aceitaria a alternativa. Esse é um exemplo de um teste t
com grupos independentes. Suponha que o treinador queira analisar a precisão do saque do
time principal na pré-temporada. Um teste t pareado seria usado em virtude de ser o mesmo
grupo nos dois pontos no tempo. Esse teste t dependente será mostrado a seguir.

Teste t de Student para grupos pareados


Objetivo: Comparar dois grupos pareados em uma variável dependente. Os grupos
podem ser pareados de acordo com algumas características externas (p. ex., irmãos) ou
ao medir o mesmo grupo duas vezes (ou seja, pré e pós-desempenho).

Morrow_05.indd 98 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 99

Exemplo: Vamos ampliar o exemplo anterior do teste t independente. O treinador está


interessado em verificar a precisão do saque para a equipe principal na pré-temporada e
ao final da temporada. O treinador avalia os jogadores no início e no final da tempora-
da. A hipótese é que existe diferença na precisão do saque na pré e na pós-temporada.
A hipótese nula é que não existe diferença ao longo da temporada. Para testar a hipótese
nula, o teste t do PASW será usado novamente. No entanto, os dados serão tabulados
de maneira diferente com relação ao exemplo anterior, em virtude de cada pessoa ter
sido testada duas vezes (compare as Tabelas 5.4 e 5.5). Isso permite ao PASW parear os
dados de maneira adequada, de modo que o resultado correto seja calculado.
Use os dados da Tabela 5.5 para calcular o teste t pareado (dependente) e confirme os
resultados com aqueles apresentados na Figura 5.4.
1. Inicie o PASW.
2. Abra a Tabela 5.5.
3. Clique no menu Análise (Analyse).
4. Clique em Comparar médias (Compare Means) e em Teste t para amostras pa-
readas (Paired-samples t teste).
5. Coloque “pré-temporada” e “pós-temporada” na caixa Variáveis paliativas (Pai-
red variables) usando a seta.
6. Clique em OK.
A diferença média entre a pós-temporada e a pré-temporada foi de 3,38. O valor t obser-
vado foi de 9,000, com uma probabilidade associada (nível alfa) próxima a 0 (significância
[bicaudal]). Agora, pense no valor de t como se fosse um escore z. O escore z de 9 está bas-
tante fora da curva, uma ocorrência muito improvável. Então, a hipótese nula é rejeitada, e
a hipótese alternativa é aceita. O treinador pode concluir que existe diferença na precisão de
saque desde o início da temporada e que isso não se deva apenas ao acaso.
Note que a diferença na precisão de saque poderia ter sido causada por inúmeros
fatores. Por causa de um erro ocorrido entre a primeira e a segunda medida, a diferença
poderia ter sido atribuída ao crescimento, à maturação ou a algum outro fator que não
estava sob o controle do pesquisador. Em um experimento, esses fatores deveriam ter sido
controlados.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 5.2.

Tabela 5.5 Formato dos dados para o teste t de Student pareado


Pré-temporada Pós-temporada
18 20

20 24

17 20

16 19

15 20

18 22

19 21

17 21

Morrow_05.indd 99 28/02/13 10:55


100 Morrow, Jackson, Disch & Mood

Estatística de amostras pareadas

Média N Desvio-padrão Erro-padrão da média

Par Desempenho 20,88 8 1,553 0,549


1 pós-temporada
Desempenho 17,50 8 1,604 0,567
pré-temporada

Correlações de amostras pareadas

N Correlação Significância

Par Desempenho 8 0,775 0,024


1 pós-temporada e
desempenho
pré-temporada

Teste de amostras pareadas

Diferenças pareadas

Intervalo de
confiança de 95%

Desvio- Erro-padrão Graus de Significância


Média -padrão da média Inferior Superior T liberdade (bicaudal)

Par Desempenho 3,38 1,061 0,375 2,49 4,26 9,000 7 0,000


1 pós-temporada e
desempenho
pré-temporada

Figura 5.4 Relatório do teste t: estatística de amostras pareadas, correlações de amostras pareadas e teste de amostras
pareadas.

ANOVA One-Way (análise de variância)


Objetivo: Avaliar diferentes grupos entre uma variável contínua dependente e uma
variável nominal independente. Ao contrário do teste t, a ANOVA pode manipular
variáveis independentes com mais de dois níveis de dados (grupos).
Exemplo: Os dados para esse exemplo foram coletados em um time de beisebol ju-
venil. Os jogadores foram avaliados com relação aos lançamentos e classificados de
acordo com sua habilidade de defesa. Neste exemplo, a variável independente é a ha-
bilidade defensiva (classificada como 1, 2 e 3), e a variável dependente é a distância do
lançamento em metros. O problema a ser analisado é sobre a existência de diferenças
no lançamento em três grupos de habilidades de defesa.
A hipótese nula é que a média da distância de lançamento para os três grupos de habi-
lidade de defesa equivale a:

(5.3)
A hipótese alternativa é que as médias não são equivalentes (pelo menos para uma das
médias):

(5.4)
O nível alfa foi fixado em 0,01, indicando que o pesquisador procurou reduzir a
probabilidade de cometer um erro tipo I e aumentar a confiança de que, caso existam

Morrow_05.indd 100 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 101

diferenças entre as médias, estas não se devam ao acaso. Os dados para esse problema
são apresentados na Tabela 5.6.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 5.3.

A informação-chave apresentada na Figura 5.5 é a Significância (significância ou pro-


babilidade). A outra informação é usada para obter a significância. Para ANOVA, o teste
de significância é uma razão F. Novamente, pense no valor de F como se fosse um escore
z que você aprendeu no Capítulo 3. Não é um escore z, mas é parecido. Os valores altos
são raros, e a probabilidade de se obter um valor alto é reduzida quando os grupos não se
diferenciam muito. Devido ao fato de o nível de probabilidade para os eventos observados
ser menor do que 0,01 (o computador fornece como 0,000), a hipótese nula é rejeitada, e
a hipótese alternativa é mantida.
A análise da média do grupo na Figura 5.5 indica que os jogadores em grupos de ha-
bilidade elevada (grupo 1) lançam mais longe (M = 88.2 ft [26,9 m]); jogadores de nível
baixo (grupo 3) lançam a distâncias mais curtas (M = 53 ft [16,2 m]); e jogadores de nível
médio (grupo 2) lançam a uma distância média (M = 64.6 ft [19,7 m]). Testes estatísticos
chamados de testes de múltipla comparação existem para comparar grupos específicos
entre si; no entanto, estão além do escopo deste texto.

Aplicação do conjunto de dados


Use os dados do Capítulo 5 disponíveis no material on-line (em inglês) para analisar as
diferenças na quantidade de passos no pedômetro para os indivíduos listados. Os dados da
amostra incluem a quantidade de passos de garotos e garotas em idade escolar da América
COMPLETE
Tabela 5.6 Formato de entrada dos dados para a ANOVA One-Way
Id Grupo Lançamento
1 1 93

2 1 90

3 1 95

4 1 75

5 1 88

6 2 48

7 2 70

8 2 72

9 2 68

10 2 65

11 3 70

12 3 57

13 3 40

14 3 48

15 3 50

Morrow_05.indd 101 28/02/13 10:55


102 Morrow, Jackson, Disch & Mood

Estatística descritiva
Distância de lançamento
Intervalo de confiança
da média de 95%

Desvio- Erro-padrão Limite Limite


N Média Mínimo Máximo
-padrão da média inferior superior
Alta 5 88,2000 7,8549 3,5128 78,4468 97,9532 75,00 95,00
Média 5 64,6000 9,6333 4,3081 52,6387 76,5613 48,00 72,00
Baixa 5 53,0000 11,2694 5,0398 39,0072 66,9928 40,00 70,00
Total 15 68,6000 17,6141 4,5479 58,8456 78,3544 40,00 95,00

ANOVA
Distância de lançamento

Soma dos Graus de Quadrado


F Significância
quadros liberdade da média
Inter-grupos 3217,600 2 1608,800 17,145 0,000
Intra-grupos 1126,000 12 93,833
Total 4343,600 14

Figura 5.5 Resultados da ANOVA One-Way.

do Norte, da Europa e da Ásia. Responda às seguintes questões baseando-se nos dados.


Calcule a média e o desvio-padrão de ambos os sexos e, depois, para garotos e garotas
separadamente (Capítulo 3). Os garotos e as garotas são diferentes (use um teste t inde-
pendente)? Os resultados para as três regiões do mundo são diferentes (use ANOVA)? Na
verdade, a melhor forma de analisar esses dados poderia ser com a ANOVA Two-Way (sexo
por região), mas isso está além do escopo deste livro. Por fim, use as variáveis sexo e “passos
dados 8.500” para ver se existe associação entre sexo e atividade física com base na média
de pelo menos 8.500 passos por dia (χ2).

Desafio em medida e avaliação


James aprendeu que o teste t foi utilizado no artigo científico pois existia uma única variável independente, con-
sistindo de um grupo-controle que bebeu apenas água e de um experimental que bebeu uma solução à base de
carboidrato. Também aprendeu que o pesquisador desenvolveu a hipótese de que a duração no ciclismo (variável
dependente) fosse uma função da bebida consumida. Ele agora sabe que p < 0,05 significa que uma hipótese nula
foi rejeitada e que a alternativa foi aceita. Ele percebe que o pesquisador pode ter cometido um erro tipo I, mas a
probabilidade de isso ter ocorrido é inferior a 5 vezes em 100.
Então, é muito provável que a bebida com carboidrato melhore o desempenho da maioria dos ciclistas, mas isso
não é uma certeza, haja vista que um erro tipo I pode ter sido cometido. Em virtude de a hipótese nula ter sido
rejeitada, é impossível que o pesquisador tenha cometido um erro tipo II. Os testes inferenciais fornecem evidência
apenas para apoiar ou não as hipóteses; portanto, James aprendeu que a hipótese do pesquisador sobre a influência
da bebida com carboidrato poderá jamais ser totalmente comprovada com testes de hipóteses.

Morrow_05.indd 102 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 103

RESUMO
Este capítulo apresentou um breve panorama dos testes utilizados em estatística inferen-
cial; no entanto, muitas suposições a respeito dessas técnicas não foram discutidas. Os
testes estatísticos de significância frequentemente obscurecem diferenças práticas. Não
existe nenhum substituto para a mistura de resultados estatísticos com a lógica intuitiva.
Abordagens mais aprofundadas de métodos estatísticos podem ser encontradas em Glass
e Hopkins (1996). Thomas, Nelson e Silverman (2009) fornecem um ótimo exemplo de
pesquisa em desempenho humano.
A esta altura, você deve ser capaz de realizar as seguintes tarefas:
1. Compreender e interpretar os métodos científicos.
2. Escrever e interpretar as hipóteses nula e alternativa.
3. Usar o PASW para:
a. teste qui-quadrado;
b. teste t de Student para amostra dependente e independente; e
c. usar a ANOVA One-Way.

APRENDA Acesse o material on-line (em inglês) para realizar tarefas e preencher
questionários que o ajudarão a dominar o conteúdo deste capítulo.

Morrow_05.indd 103 28/02/13 10:55


PARTE III
Teoria da
Reprodutibilidade e
da Validade

N
esta terceira parte, o conteúdo aprendido sobre estatística básica e os
programas na Parte II será estendido e aplicado a questões relacionadas
à tomada de decisão válida. Todos tomamos decisões na vida, e cada um
tenta tomar a melhor decisão possível. No campo do desempenho humano, você
pode decidir sobre a capacidade aeróbia, a força muscular ou a quantidade de
atividade física diária de determinada pessoa. Você pode também ter de tomar
decisões válidas sobre conhecimento cognitivo, registros ou níveis de desem-
penho dos estudantes, clientes ou participantes do programa. Ou, ainda, pode
precisar avaliar seu programa. As boas decisões são baseadas em dados, que re-
fletem as características de reprodutibilidade, validade e objetividade. Você usará
as habilidades do PASW que aprendeu nas Partes I e II para realizar tarefas espe-
cíficas relacionadas a essas características. Cada capítulo fornece a oportunidade
de usar os procedimentos do PASW para ilustrar e analisar os problemas de
medidas.
O Capítulo 6 apresenta passos importantes para julgar a qualidade de dados
de normas de referência. Para as tomadas de decisão precisas sobre indivíduos ou
grupos, você tem de usar dados suficientemente confiáveis, válidos e objetivos.
Por exemplo, quando registrar a capacidade aeróbia de determinado indivíduo,
precisará ter certeza de que o valor é verdadeiro. Dados inválidos podem resultar
em decisões inapropriadas. Os Capítulos 6 e 7 auxiliam na análise de dados, de
modo que você possa reportá-los de forma que as interpretações e decisões sejam
válidas. Nenhuma técnica de medida é perfeitamente confiável ou válida, mas é
preciso saber como interpretar a reprodutibilidade e a validade refletidas em seu
protocolo de medida para que a tomada de decisão seja apropriada. O Capítulo
7 aborda essas questões sob uma perspectiva dos critérios de referência. Na ver-
dade, os Capítulos 6 e 7 têm muito em comum. A diferença fundamental está na
forma como as medidas são feitas e registradas. No Capítulo 6, as medidas são

Morrow_06.indd 105 28/02/13 10:55


106 Morrow, Jackson, Disch & Mood

contínuas; já no Capítulo 7, os registros são nominais em natureza (ou seja, categóricos).


Por sua vez, os conceitos de reprodutibilidade (consistência) e validade (fidedignidade) são
bastante consistentes nos dois capítulos.

Morrow_06.indd 106 28/02/13 10:55


6
Reprodutibilidade
e Validade de
Normas-Padrão
de Referência

Objetivos
Tópicos Após estudar este capítulo, você será capaz de:
Reprodutibilidade 109 ® discutir os conceitos de reprodutibilidade e validade;
Escores observado, verdadeiro e erro 109 ® diferenciar os tipos de reprodutibilidade e como calculá-los;
Calculando o coeficiente de reprodutibilidade 112
® identificar os tipos de validade que podem ser usados
Erro-padrão de medida 120
para fornecer informações sobre fidedignidade e calcular a
Validade 121 estatística apropriada;
Validade de conteúdo 122 ® descrever a relação entre reprodutibilidade e validade e
Validade de critério 122 comentar o motivo de esses conceitos serem importantes
Validade de construto 126 para a área de medidas;
Reprodutibilidade aplicada e medidas válidas 128 ® avaliar as evidências normalmente apresentadas para
reprodutibilidade e validade na área de medida do
desempenho humano; e
ESTUDE A leitura dos tópicos no material ® usar o PASW e o Excel para calcular a reprodutibilidade e
on-line (em inglês) o auxiliará a a validade.
identificar os principais conceitos
do capítulo.

Morrow_06.indd 107 28/02/13 10:55


108 Morrow, Jackson, Disch & Mood

Desafio em medida e avaliação


·
Kelly é diretora da academia Y e quer avaliar a aptidão física cardiovascular (i. e., VO2máx) de adultos jovens. Ela
ouviu falar que a melhor forma de fazê-lo é realizando um teste com corrida até a exaustão sobre uma esteira. Isso
requer a coleta de gases durante a corrida e, como consequência, considerável investimento em equipamento. Por
causa disso, ela está interessada em usar uma medida alternativa (um teste de campo), tal como o teste de step de
três minutos da YMCA (ver o Capítulo 9). Kelly sabe que os modelos sem exercício podem ser usados para estimar o
·
VO2máx. Nesse sentido, ela investiga a possibilidade de usar esse método para economizar tempo e dinheiro, além
de reduzir os riscos à saúde associados aos testes. No entanto, existe a preocupação de que o teste de campo não
tenha a mesma precisão que o da esteira. Como ela poderá saber se a medida que está sendo obtida por meio do
teste de campo é reproduzível (ou seja, consistente) e válida (i. e., verdadeira)?

S
empre será necessário tomar decisões com base nos dados coletados, independente-
mente da área do desempenho humano em que se trabalhe. Muitas vezes, essas decisões
requerem que você faça comparações entre diferentes pessoas ou relate os resultados de
testes para alguém. Por exemplo, Kelly pode ter de relatar os resultados do seu trabalho ao
diretor ou ao conselho de diretores para manter os investimentos em determinado programa
específico de aptidão física. Por isso, é importante que suas decisões e relatórios sejam pre-
cisos. A precisão das suas decisões se relaciona com as características da norma-padrão de
referência das variáveis. Como aprendido no Capítulo 1, as características mais importantes
de medida são reprodutibilidade, objetividade e validade (lembre-se que a norma-padrão de
referência é um nível de associação relativa a um subgrupo claramente definido).
A reprodutibilidade e a validade são os mais importantes conceitos apresentados nes-
te livro. Os muitos exemplos computacionais, teóricos e práticos aqui apresentados podem
ser fundamentados nesses conceitos. A reprodutibilidade refere-se à consistência ou repetição
de determinada observação; é o grau em que medidas repetidas de um mesmo teste ou medida são
reproduzidas, mantendo-se as mesmas condições. A reprodutibilidade também pode ser des-
crita como acurácia, consistência, dependência, confiabilidade, estabilidade e precisão. Um
teste é considerado confiável se obtém o mesmo escore (ou quase o mesmo) cada vez que
é administrado ao mesmo indivíduo, nas mesmas condições. Como pode ser observado, a
reprodutibilidade será extremamente importante para Kelly determinar o teste de campo
que será administrado.
A validade é o grau de veracidade do resultado do teste ou da medida. Ou seja, uma vez re-
produzível, o resultado do teste ou da medida reflete precisamente aquilo que se pretendeu
testar ou medir? A validade é dependente de duas características: reprodutibilidade e relevância.
A relevância é o grau em que o teste ou a medida refletem seus objetivos. Então, para uma
medida ser válida, ela deve medir consistentemente determinada característica ou habilida-
de e ser relevante. Ou seja, o instrumento, o teste ou a medida devem estar relacionados à
característica a ser testada ou medida.
Assim, pode ser observado que tanto a reprodutibilidade como a validade são impor-
tantes pontos para Kelly. Ela deve estar certa de que o teste de campo produz resultados

consistentes a cada tentativa, além de estimar com precisão o valor de VO2máx que seria
observado na esteira.

Item de domínio 6.1


Quais variáveis Kelly poderia obter se considerasse um modelo sem exercício para estimar o
·
VO2máx? Certifique-se de considerar a reprodutibilidade e a validade das variáveis.

Morrow_06.indd 108 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 109

Um teste pode ser válido em determinadas circunstâncias, mas não em outras. Existem
muitos testes que têm suficiente reprodutibilidade, mas pouca validade. Por exemplo, a
avaliação do peso corporal total é, essencialmente, uma medida muito fidedigna. Altera
pouco de dia para dia; além disso, dois avaliadores diferentes provavelmente relatariam
o mesmo ou quase o mesmo valor. No entanto, o peso corporal total não é uma medida
válida para a adiposidade corporal, em virtude de o peso corporal total ser constituído de
ossos, gordura e tecido magro. Assim, o peso do indivíduo depende das proporções relati-
vas desses componentes corporais.
A objetividade é um tipo especial de reprodutibilidade. Objetividade é o coeficiente
interavaliador. Você provavelmente já foi submetido a testes “objetivos” (múltipla escolha)
e “subjetivos” (questões abertas). Esses testes são classificados de acordo com o tipo de
sistema de escore utilizado quando se classifica a avaliação. Os itens de múltipla escolha,
verdadeiro ou falso e de combinação são caracterizados como objetivos, em decorrência de
apresentarem elevada reprodutibilidade interavaliador. Ou seja, o escore desses tipos de
itens é muito consistente de um aluno para outro, independentemente do avaliador, pelo
fato de existir um sistema de escores bem definido para a resposta correta (ou mais apro-
priada). No entanto, um teste pode ser objetivo por natureza, ainda que não seja preciso,
tampouco reproduzível. A múltiplia escolha pode ser uma medida incerta ou inválida de
conhecimento caso as questões sejam inadequadamente redigidas. As questões abertas ten-
dem a ser subjetivas – diferentes leitores podem fornecer distintas respostas –, mas existem
caminhos para se aumentar a objetividade dessas questões (veja o Capítulo 8).

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 6.1.

REPRODUTIBILIDADE
Muitos dos conceitos básicos de estatística apresentados nos Capítulos 3, 4 e 5 ajudam a de-
terminar se um teste é confiável e válido. Em geral, professores e pesquisadores precisam de
evidências específicas sobre a reprodutibilidade e a validade dos testes, e não simplesmente
alusões gerais sugerindo a reprodutibilidade e a validade de determinada avaliação ou medi-
da. Alguns números são usados para fornecer evidências de reprodutibilidade e validade. A
variância (apresentada no Capítulo 3) e o coeficiente de correlação linear de Pearson (apresentado
no Capítulo 4) são usados para fornecer evidências da reprodutibilidade e da validade e, portanto,
precisam ser muito bem compreendidos. No entanto, antes de entrar no processamento de nú-
meros associados à reprodutibilidade e à validade, é preciso considerar esses conceitos a par-
tir de perspectivas teóricas para se obter a compreensão exata dos seus significados. A partir
de uma compreensão mais aprofundada, será possível determinar quais são os procedimentos
estatísticos necessários, assim como interpretar os resultados.

Escores observado, verdadeiro e erro


Considere o escore obtido em uma recente aferição da pressão arterial (Tab. 6.1). Cada
um dos 10 indivíduos tem a pressão arterial observada registrada; no entanto, é possível
que erros de medida tenham entrado no sistema de registro, de modo que o escore obser-
vado não seja o valor verdadeiro da pressão arterial do indivíduo. Por exemplo, o escore
observado pode estar errado em decorrência do nível de experiência do avaliador, do pro-
cedimento e do momento da medida, do tipo de instrumento utilizado, de acontecimentos
antes da medida, e assim por diante.
Embora seja improvável que possamos saber exatamente (nem um erro sequer) a
pressão arterial de uma pessoa, imagine que possamos desenvolver um método para aferir

Morrow_06.indd 109 28/02/13 10:55


110 Morrow, Jackson, Disch & Mood

Tabela 6.1 Pressão arterial sistólica de 10 pessoas


Pressão arterial Pressão arterial
Indivíduo observada verdadeira Escore de erro
1 103 105 –2

2 117 115 +2

3 116 120 –4

4 123 125 –2

5 127 125 +2

6 125 125 0

7 135 125 +10

8 126 130 –4

9 133 135 –2

10 145 145 0

Soma (Σ) 1.250 1.250 0

Média (M) 125,0 125,0 0

Desvio-padrão (S) 11,6 10,8 4,1


2
Variância (S ) 133,6 = 116,7 + 16,9
Nota: unidades em mmHg.
Dados baseados em um exemplo de Sax, 1980.

com mais precisão do que é geralmente feito em um laboratório ou clínica. Por exemplo,
poderia ser colocado um aparelho sensível à pressão diretamente na artéria do indivíduo
para determinar a pressão exercida durante a sístole. (Obviamente, teríamos de ignorar o
fato de que tal procedimento alteraria a leitura da pressão arterial de uma pessoa.) Suponha
que tenhamos feito esse procedimento para os indivíduos cujas pressões estão registradas na
Tabela 6.1. Será possível notar que apenas dois indivíduos têm a pressão arterial observada
igual à verdadeira. A leitura da pressão arterial tem inúmeros erros associados. Alguns resul-
tam em superestimativa da pressão arterial verdadeira, enquanto outros, em subestimativa.
Alguns pontos-chave podem ser observados na Tabela 6.1:
• O escore observado de cada pessoa representa a soma do escore verdadeiro e do
erro. O escore verdadeiro teoricamente existe, mas é impossível de se medir, e pode
ser caracterizado pelo nível de conhecimento e de prática em determinado teste ou
medida; sem erro. É possível pensar nisso com a média de um número infinito de
administrações do teste em que não se obtém qualquer melhora em virtude da expe-
riência prática ou qualquer piora em decorrência de fadiga. De certo modo, o escore
verdadeiro não tem alteração em determinado ponto do tempo, sendo perfeitamente
reproduzível. O erro resulta de qualquer coisa que faça com que o escore observado
seja diferente do verdadeiro; é um valor verdadeiro que teoricamente existe, mas é
impossível de se medir. As fontes de erros incluem variabilidade individual, impre-
cisão de instrumento, fraude, condições do teste, e assim por diante.
• Existe variação nos escores observados e verdadeiros e no erro (o desvio-padrão e a
variância são calculados para você).
• O erro pode ser positivo (aumento do escore observado) ou negativo (diminuição
do escore observado).

Morrow_06.indd 110 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 111

• Os erros contribuem relativamente pouco para a variação observada.


• A média de erro é zero.
• A variância do escore observado (133,6) é igual à soma da variância do escore ver-
dadeiro (116,7) mais a variância do erro (16,9).
Ao se usar a variância dos escores observados (total) e verdadeiros e do erro, a repro-
dutibilidade (rxx’) é definida como a proporção de variância do escore observado que repre-
senta a variância do escore verdadeiro (ou seja, a variância do escore verdadeiro dividida
pela variância do escore observado [total]):

(6.1)
2 2
onde s t representa a variância do escore verdadeiro, so é a variância do escore observado
2
(total) e se é a variância do erro. Na Tabela 6.1, a reprodutibilidade é 116,7/133,6 = 0,87.
Em teoria, o escore verdadeiro é perfeitamente fidedigno, com um valor de 1,00. (Cer-
tamente, caso existam alterações do escore verdadeiro, são alterações no fenômeno a ser
mensurado, mas, em qualquer ponto do tempo, o escore verdadeiro é visto como perfei-
tamente fidedigno e, portanto, não contém erro.) Então, um teste é considerado fidedigno
na medida em que a variação do escore observado é constituída da variação do escore
verdadeiro.
É importante notar que o escore observado é igual à soma da variância do escore ver-
dadeiro e do erro, e o conhecimento de qualquer uma dessas duas variâncias resulta na
habilidade de calcular (ou estimar) o terceiro. Ao usar a Equação 6.1, é possível verificar
que os limites da reprodutibilidade são zero e 1,00. A reprodutibilidade será zero caso o
escore observado não seja constituído por nenhuma variação do escore verdadeiro, e 1,00
caso o escore observado seja formado apenas pela variação do escore verdadeiro. Geral-
mente, não ocorre nenhum desses dois casos; no entanto, para um teste ser válido, ele deve
ser reproduzível, por isso é tão importante registrar a reprodutibilidade de determinado
teste. Em geral, espera-se uma reprodutibilidade > 0,80, dependendo da natureza das tomadas
de decisão a partir dos resultados do teste. O escore de 0,80 representa uma meta, mas podem ser
aceitos outros resultados com reprodutibilidade inferior ou superior a 0,80. Considere o radar de
um policial. É fidedigno? Mais importante: é uma leitura válida da velocidade?
Agora retorne ao desafio original de medida e avaliação. Kelly está interessada em
aprender a reprodutibilidade do teste de campo que usará porque ele lhe dirá se os resul-
tados obtidos são consistentes de um período de testes para o outro. Os resultados devem
variar pouco de uma sessão de teste para outra se o teste for bom. Além disso, as diferenças

observadas no VO2máx obtidas do teste de campo devem refletir as diferenças verdadeiras

no VO2máx, e não simplesmente representar uma função dos erros de medida.
As seguintes implicações práticas surgem do que foi apresentado:
• A variância do escore deveria ser observada. (Caso contrário, a reprodutibilidade é
indefinida – em virtude da divisão por zero.)
• A variância do erro deve ser relativamente pequena com relação à variância total.
• Geralmente, os testes longos são mais reproduzíveis que os curtos. Isso é verdadeiro
porque, à medida que o teste se alonga, existe aumento na variância do escore ob-
servado, que é mais provavelmente uma função do aumento na variância do escore
verdadeiro do que na variância do erro. (Isso pressupõe que, embora ambos os tes-
tes sejam constituídos de “itens bons”, os testes longos são formados com melhores
itens que os curtos.)

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 6.2.

Morrow_06.indd 111 28/02/13 10:55


112 Morrow, Jackson, Disch & Mood

É possível que você esteja se perguntando neste momento: “Isto é tudo muito bom,
mas como ninguém nunca sabe o escore verdadeiro de uma pessoa?”. Isto é absolutamente
correto: nunca se sabe o escore verdadeiro da pessoa. No entanto, o escore observado está
prontamente disponível, e existem maneiras de se estimar a variação do erro para um con-
junto de escores. Portanto, como indicado ao lado direito da Equação 6.1, é possível esti-
mar a reprodutibilidade por meio da variância do escore observado e da variância do erro.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 6.3.

Calculando o coeficiente de reprodutibilidade


Retornemos ao cálculo real do coeficiente de reprodutibilidade. Os coeficientes de repro-
dutibilidade são classificados dentro de dois tipos amplos: coeficiente interclasse (baseado
no coeficiente de correlação linear de Pearson apresentado no Capítulo 4) e coeficiente
intraclasse (baseado na análise de variância [ANOVA] apresentada no Capítulo 5).

Reprodutibilidade interclasse
Primeiro, vejamos os métodos de reprodutibilidade interclasse: reprodutibilidade teste e
reteste, reprodutibilidade de equivalência e reprodutibilidade da metade.
Reprodutibilidade teste e reteste
Considere a forma mais simples de determinar se o teste é reproduzível ou consistente.
Poderíamos simplesmente fornecer o teste aos sujeitos em duas ocasiões (p. ex., no mesmo
dia) e depois correlacionar os dois conjuntos de observações usando o coeficiente de corre-
lação linear de Pearson e verificar se a correlação é alta. Isso é exatamente o que é feito com
o coeficiente de reprodutibilidade de teste e reteste. Observe os dois conjuntos de dados
de abdominais apresentados na Tabela 6.2. O coeficiente de correlação linear de Pearson é
calculado para ser 0,927, um nível elevado o suficiente para considerar o teste fidedigno.
O coeficiente sugere que 92,7% da variância do escore observado representa a variância
do escore verdadeiro. Caso o período de tempo entre as ocasiões dos testes seja distante
(p. ex., dias ou semanas), o coeficiente de reprodutibilidade de teste e reteste pode ser cha-
mado de reprodutibilidade estável. Ou seja, a medida é consistente ou estável ao longo
do tempo. É importante frisar que o método de reprodutibilidade interclasse só deveria ser
usado quando não existe qualquer mudança entre os dois momentos de coleta. É possível
testar as diferenças médias nas duas ocasiões com o teste t de Student pareado, apresentado
no Capítulo 5. Caso existam vários ensaios, a ANOVA para medidas repetidas apresentada
no Capítulo 5 será usada para testar as diferenças.

Item de domínio 6.2


Use o PASW para confirmar a reprodutibilidade apresentada na Tabela 6.2. (Dica: use o PASW
para calcular o coeficiente de correlação como mostrado no Capítulo 4.) Crie um diagrama
de dispersão para a representação gráfica dos dados. É possível observar uma relação elevada
e o motivo de isso ser interpretado como um coeficiente de reprodutibilidade?

Reprodutibilidade de equivalência
Uma segunda forma de determinar a reprodutibilidade interclasse é por meio do uso do
coeficiente de reprodutibilidade de equivalência. Considere que um professor esteja preo-
cupado com fraudes na prova escrita. Ele desenvolve duas formas paralelas ou equivalentes
de um mesmo exame e distribui os testes na classe de modo que dois alunos próximos um

Morrow_06.indd 112 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 113

Tabela 6.2 Conjunto de dados para o teste abdominal em 10 indivíduos


Indivíduo Teste 1 Teste 2
1 45 49

2 38 36

3 54 50

4 38 38

5 47 49

6 39 38

7 39 43

8 42 43

9 29 30

10 42 42

Soma(∑) 413 418

Média (M) 41,3 41,8

Desvio-padrão (s) 6,6 6,5


2
Variância (s ) 43,6 41,7

rxx’ = 0,927

do outro não recebam o mesmo modelo. No entanto, como o professor poderia classificar
as diferentes provas? Devem existir dois procedimentos diferentes de classificação para a
mesma classe? Será que o desempenho dos alunos depende do tipo de exame? Esse profes-
sor deve primeiro determinar a equivalência dos dois exames. Por isso, um grupo de teste
assume cada um dos exames (ambas as formas) em condições quase idênticas. Metade dos
indivíduos poderia ter realizado o exame no formato A e metade no formato B, de modo
que nenhum efeito da ordem afete os escores. Deve ser feita a suposição de que os testes
são paralelos e de que a realização do primeiro não prejudica, tampouco ajuda, o estudante
que realizou o segundo teste. Os resultados das duas administrações são, então, correla-
cionados para determinar se existe reprodutibilidade ou consistência entre as duas formas.
Observe novamente que este é simplesmente o cálculo do coeficiente de correlação linear
de Pearson, em que as duas variáveis correlacionadas são os escores das respectivas formas
de testes. É um coeficiente de reprodutibilidade de equivalência.
Você poderá pensar que ambos os exemplos de reprodutibilidade interclasse sejam
exagerados, em virtude de que é improvável que algum professor administre diferentes
testes em mais de uma ocasião (que é um requisito para se determinar a reprodutibilidade
de um teste). Você está correto! O professor normalmente aplica apenas um teste, por causa
da restrição de tempo e da fadiga provocada pelo exame, que podem afetar negativamente
a pontuação nas provas subsequentes. Além disso, a prática também pode afetar a pon-
tuação subsequente e, assim, a reprodutibilidade. No entanto, existem maneiras de fazer
pequenos ajustes nos métodos de equivalência e ainda assim chegar a uma conclusão em
relação à reprodutibilidade do teste. Considere como o professor pode criar duas formas
“equivalentes” de um único teste. É possível criar duas formas equivalentes após o teste ter
sido administrado para atribuir a cada pessoa um escore em duas metades do teste (p. ex.,

Morrow_06.indd 113 28/02/13 10:55


114 Morrow, Jackson, Disch & Mood

um escore para os pares e outro para os ímpares). Assim, as porções par e ímpar podem ser
percebidas como formas equivalentes.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 6.4.

Reprodutibilidade da metade
O coeficiente de correlação linear de Pearson pode ser calculado entre os escores da metade
do teste e ser empregado como estimativa da reprodutibilidade deste. A Tabela 6.3 apresen-
ta um conjunto de dados para o cálculo da reprodutibilidade da metade. A reprodutibilida-
de da metade usa o coeficiente de correlação linear de Pearson, que é 0,639. Em virtude de
ter sido anteriormente sugerido que a reprodutibilidade > 0,80 é desejável, é possível rejei-
tar o valor de 0,639 como não fidedigno para o teste, cujos escores são mostrados na Tabela
6.3. No entanto, um aspecto adicional dos valores apresentados precisa ser considerado.
A reprodutibilidade para o conjunto de dados da Tabela 6.3 representa a correlação entre
duas metades do teste (vamos presumir que cada metade consiste em 13 itens, definindo
o total do ensaio em 26 itens). Anteriormente, foi comentado que testes longos costumam
ser mais fidedignos. Agora, é necessário estimar a reprodutibilidade dos 26 itens do teste
original, uma vez que o valor de 0,639 foi obtido com base em um teste de 13 itens. É
incorreto pensar que seria possível multiplicar a reprodutibilidade por dois. Observe que
isso resultaria em 1,278. Lembrando que a reprodutibilidade não pode exceder 1,0 (veja a
Equação 6.1), então certamente multiplicar por dois é incorreto. A fórmula de predição de
Spearman-Brown (Equação 6.2) é empregada para estimar a reprodutibilidade de um teste
quando o comprimento do teste é modificado:

(6.2)
onde rkk representa o coeficiente de reprodutibilidade (predito) quando o comprimento do
teste é modificado k vezes, k é o número de vezes em que o comprimento do teste é modi-
ficado, sendo definido como:
o número de itens em que uma estimativa da reprodutibilidade é desejada
o número de itens em que a reprodutibilidade foi calculada
e r11 é a reprodutibilidade previamente calculada. Então, para estimar a reprodutibilidade
para os 26 itens do teste, obtemos o seguinte:

Então, a reprodutibilidade estimada para os 26 itens originais de testes é 0,78. É dito


que a reprodutibilidade foi ajustada com a fórmula de predição de Spearman-Brown. Ob-
serve que a quantidade de itens não faz diferença, pois a reprodutibilidade predita será a
mesma quando o número de itens ou ensaio for dobrado (ou seja, k = 2). Se a reprodutibi-
lidade de 0,639 fosse obtida para 50 itens, o rkk predito ainda seria de 0,78 mesmo que se
dobrasse os itens para 100.
Esse número também pode ser estimado a partir da Tabela 6.4, que mostra os valores
de rkk a partir da Equação 6.2, usando os números de r11 (coluna esquerda) e k (títulos de
coluna). O número de vezes que se deseja alterar o comprimento do teste (k) está listado
no topo da Tabela 6.4 (0,25-5,0). É possível determinar a reprodutibilidade predita (rkk) ao

Morrow_06.indd 114 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 115

Tabela 6.3 Escores pares e ímpares para 10 indivíduos


Indivíduo Escores pares Escores ímpares
1 12 13

2 9 11

3 10 8

4 9 6

5 11 8

6 7 10

7 9 9

8 12 10

9 5 4

10 8 7

Soma(∑) 92 86

Média (M) 9,2 8,6

Desvio-padrão (s) 2,2 2,6


2
Variância (s ) 4.8 6,7

rxx’ = 0,639

se interseccionar a linha com a coluna apropriada. Por exemplo, caso a reprodutibilidade


(r11) seja 0,40 e se aumente o comprimento do teste para um fator de cinco, a reprodutibi-
lidade estimada será de 0,77.
Será possível notar que existem valores de k menores que 1 listados na Tabela 6.4. Isso
indica que o instrutor pode estimar a reprodutibilidade para um teste menor. Por exemplo,
suponha que o instrutor tenha uma prova escrita de 100 itens com reprodutibilidade de
0,92. Caso o teste fosse dividido aleatoriamente em partes iguais, com 50 itens cada, cada
um deles resultaria em duas provas com reprodutibilidade predita de 0,85. Isso reduziria
o tempo para administrar e corrigir o exame (e tornaria os alunos mais felizes), dando ao
professor a oportunidade de ter duas formas do teste. A fórmula de predição de Spearman-
-Brown pode ser usada para estimar a reprodutibilidade de um teste quando o comprimen-
to deste é alterado. Pode também ser usada com a reprodutibilidade interclasse estimada
ou com a reprodutibilidade intraclasse, que será considerada a seguir.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 6.5.

Reprodutibilidade intraclasse
A reprodutibilidade interclasse, baseada na correlação entre duas medidas, é diferente da
reprodutibilidade intraclasse, que é fundamentada na ANOVA. Suponha que você tenha
mensurado a dobra cutânea de um grupo de sujeitos três vezes. É possível estimar a repro-
dutibilidade das três medidas. No entanto, o modelo interclasse permite que correlacione
apenas duas medidas, em decorrência de o coeficiente de correlação linear de Pearson ser
usado para correlacionar apenas duas medidas de cada vez. O modelo intraclasse, entre-
tanto, permitirá estimar a reprodutibilidade para mais de duas medidas. Isso é importante

Morrow_06.indd 115 28/02/13 10:55


116 Morrow, Jackson, Disch & Mood

Tabela 6.4 Valores de rkk a partir da fórmula de predição de Spearman-Brown


k (mudança no comprimento do teste)
r11 0,25 0,33 0,50 1,50 2,00 3,00 4,00 5.00
0,10 0,03 0,04 0,05 0,14 0,18 0,25 0,31 0,36
0,12 0,03 0,04 0,06 0,17 0,21 0,29 0,35 0,41
0,14 0,04 0,05 0,08 0,20 0,25 0,33 0,39 0,45
0,16 0,05 0,06 0,09 0,22 0,28 0,36 0,43 0,49
0,18 0,05 0,07 0,10 0,25 0,31 0,40 0,47 0,52
0,20 0,06 0,08 0,11 0,27 0,33 0,43 0,50 0,56
0,22 0,07 0,09 0,12 0,30 0,36 0,46 0,53 0,59
0,24 0,07 0,09 0,14 0,32 0,39 0,49 0,56 0,61
0,26 0,08 0,10 0,15 0,35 0,41 0,51 0,58 0,64
0,28 0,09 0,11 0,16 0,37 0,44 0,54 0,61 0,66
0,30 0,10 0,12 0,18 0,39 0,46 0,56 0,63 0,68
0,32 0,11 0,13 0,19 0,41 0,48 0,59 0,65 0,70
0,34 0,11 0,15 0,20 0,44 0,51 0,61 0,67 0,72
0,36 0,12 0,16 0,22 0,46 0,53 0,63 0,69 0,74
0,38 0,13 0,17 0,23 0,48 0,55 0,65 0,71 0,75
0,40 0,14 0,18 0,25 0,50 0,57 0,67 0,73 0,77
0,42 0,15 0,19 0,27 0,52 0,59 0,68 0,74 0,78
0,44 0,16 0,21 0,28 0,54 0,61 0,70 0,76 0,80
0,46 0,18 0,22 0,30 0,56 0,63 0,72 0,77 0,81
0,48 0,19 0,23 0,32 0,58 0,65 0,73 0,79 0,82
0,50 0,20 0,25 0,33 0,60 0,67 0,75 0,80 0,83
0,52 0,21 0,26 0,35 0,62 0,68 0,76 0,81 0,84
0,54 0,23 0,28 0,37 0,64 0,70 0,78 0,82 0,85
0,56 0,24 0,30 0,39 0,66 0,72 0,79 0,84 0,86
0,58 0,26 0,31 0,41 0,67 0,73 0,81 0,85 0,87
0,60 0,27 0,33 0,43 0,69 0,75 0,82 0,86 0,88
0,62 0,29 0,35 0,45 0,71 0,77 0,83 0,87 0,89
0,64 0,31 0,37 0,47 0,73 0,78 0,84 0,88 0,90
0,66 0,33 0,39 0,49 0,74 0,80 0,85 0,89 0,91
0,68 0,35 0,41 0,52 0,76 0,81 0,86 0,89 0,91
0,70 0,37 0,44 0,54 0,78 0,82 0,88 0,90 0,92
0,72 0,39 0,46 0,56 0,79 0,84 0,89 0,91 0,93
0,74 0,42 0,48 0,59 0,81 0,85 0,90 0,92 0,93
0,76 0,44 0,51 0,61 0,83 0,86 0,90 0,93 0,94
0,78 0,47 0,54 0,64 0,84 0,88 0,91 0,93 0,95
0,80 0,50 0,57 0,67 0,86 0,89 0,92 0,94 0,95
0,82 0,53 0,60 0,69 0,87 0,90 0,93 0,95 0,96
0,84 0,57 0,63 0,72 0,89 0,91 0,94 0,95 0,96
0,86 0,61 0,67 0,75 0,90 0,92 0,95 0,96 0,97
0,88 0,65 0,71 0,79 0,92 0,94 0,96 0,97 0,97
0,90 0,69 0,75 0,82 0,93 0,95 0,96 0,97 0,98
0,92 0,74 0,79 0,85 0,95 0,96 0,97 0,98 0,98
0,94 0,80 0,84 0,89 0,96 0,97 0,98 0,98 0,99
0,96 0,86 0,89 0,92 0,97 0,98 0,99 0,99 0,99

Morrow_06.indd 116 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 117

para estimar a reprodutibilidade de mais de duas medidas em virtude de a reprodutibilida-


de geralmente aumentar à medida que se incrementa o número de medidas.
Além disso, se existe diferença constante entre duas medidas (ou seja, o escore aumen-
ta ou diminui na mesma magnitude), a reprodutibilidade interclasse poderia ser 1,00, mas,
de uma perspectiva teórica, os resultados não seriam consistentes. Por exemplo, ao avaliar
a dobra cutânea, as medidas poderiam tornar-se menores a cada medida, caso a dobra
cutânea ainda estivesse comprimida devido à medida anterior. Outro exemplo de mudança
constante é demonstrado na Tabela 6.5, em que o coeficiente de correlação linear de Pear-
son é perfeito (rxx’ = 1,00), contudo, a reprodutibilidade (ou seja, a medida de consistên-
cia), é falha devido a cada escore aumentar 10 pontos na segunda avaliação. O modelo de
reprodutibilidade intraclasse pode resolver esse problema. As diferenças médias significativas
necessitam de análise minuciosa nas mudanças ao longo das avaliações. Pode ser que o apren-
dizado do sujeito ou a fadiga estejam afetando a reprodutibilidade.
Os nomes mais comuns utilizados para os modelos de reprodutibilidade intraclasse
são o coeficiente alfa de Cronbach, a fórmula 20 de Kuder-Richardson (KR20) e a reprodu-
tibilidade com a ANOVA. Cada um desses é calculado essencialmente da mesma forma.
A variância total dos escores é dividida em três fontes de variação: indivíduo, avaliação e
indivíduo-avaliação. A variância dos indivíduos representa a variância do escore observado
(total) entre os indivíduos. A variância da avaliação é baseada na variância entre as avalia-
ções. Pense nisto: se a medida é reproduzível, seria esperada pouca variação entre as ava-
liações. Então, a variação entre as avaliações pode ser considerada como “erro”. A variação
indivíduo-avaliação é baseada no fato de que nem todos os indivíduos têm o desempenho
igualmente diferente nas avaliações. A variância dos indivíduos é considerada como variân-
cia total. A variância indivíduo-avaliação e a da avaliação são consideradas como variâncias

Tabela 6.5 Efeito da mudança constante nas medidas


Indivíduo Teste 1 Teste 2
1 15 25

2 17 27

3 10 20

4 20 30

5 23 33

6 26 36

7 27 37

8 30 40

9 32 42

10 33 43

Soma (∑) 233 333

Média(M) 23,3 33,3

Desvio-padrão(s) 7,7 7,7


2
Variância (s ) 59,1 59,1

rxx’ = 1,00

Morrow_06.indd 117 28/02/13 10:55


118 Morrow, Jackson, Disch & Mood

do erro. A reprodutibilidade é estimada ao se subtrair a variância do erro pela variância


total (observada) e dividir o resultado pela variância total (observada).
Considere a Equação 6.1, em que a reprodutibilidade pode ser estimada pela variân-
cia do escore observado e pela variância do erro. A variância do indivíduo é a variância
observada. A variância indivíduo-avaliação pode ser vista como variância do erro, ou toda
variância não atribuída ao indivíduo (ou seja, a variância avaliação e indivíduo-avaliação)
pode ser percebida como erro. As estimativas da variância observada e do erro permitem o
uso da Equação 6.1 para estimar a reprodutibilidade dos escores.
O coeficiente alfa é calculado da seguinte forma:

(6.3)
onde k é o número de avaliações, ∑s avaliações representa a soma da variância de cada avalia-
2

2
ção e s total é a variância da soma de todas as avaliações.
A Tabela 6.6 apresenta um exemplo de cálculo do coeficiente alfa. Os cálculos de va-
riância são idênticos àqueles aprendidos no Capítulo 3. Note que a reprodutibilidade alfa
estima a reprodutibilidade para o escore total (ou seja, a soma de todas as avaliações). Por-
tanto, é possível usar esses resultados na fórmula de predição Spearman-Brown (Equação
6.2) para estimar a variação no coeficiente de reprodutibilidade caso o número de avalia-
ções aumente ou diminua.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 6.6.

Item de domínio 6.3


Use a fórmula de Spearman-Brown para estimar a reprodutibilidade de seis avaliações para
os dados na Tabela 6.6. Note que k é = 2 (6/3), e r11 é o obtido com o coeficiente alfa (0,60).

Tabela 6.6 Cálculo do coeficiente alfa


Indivíduo Teste 1 Teste 2 Teste 3 Total
1 3 5 3 11

2 2 2 2 6

3 6 5 3 14

4 5 3 5 13

5 3 4 4 11

∑X 19 19 17 55

∑X
2
83 79 63 643
2
s 2,70 1,70 1,30 9,50

k/(k – 1) × (1 – [∑s avaliações/s total])


2 2

3/(3 – 1) × (1 – [2,70 + 1,70 + 1,30]/9,50)


3/2 × (1 – 5,7/9,50)
1,5 × (1 – 0,60)
1,5 × 0,40 = 0,60 = coeficiente alfa

Morrow_06.indd 118 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 119

Item de domínio 6.4


Use o PASW para confirmar a reprodutibilidade estimada para os dados na Tabela 6.6. Cal-
culamos o coeficiente alfa de duas maneiras com o PASW. A primeira usa a variância e a
Equação 6.3. A segunda aproveita o PASW para calcular diretamente o alfa.
1. Baixe os dados da Tabela 6.6 disponível no material on-line (em inglês).
2. Vá para Analisar (Analyse) → Estatísticas descritivas (Descriptive statistics) → Descriti-
vas (Descriptives).
3. Coloque todas as três avaliações e o total na caixa Variável (eis) (Variable).
4. Clique em Opções (Options).
5. Selecione APENAS a caixa Variância (Variance) em Dispersão (Dispersion).
6. O relatório apresenta as quatro variâncias necessárias para substituir na Equação 6.3.
A segunda maneira tira vantagem dos comandos do PASW para calcular o coeficiente alfa.
1. Baixe a Tabela 6.6 disponível no material on-line (em inglês).
2. Inicie o PASW.
3. Clique no menu Analisar (Analyse).
4. Vá para a Escala (Scale) e clique sobre Análises de reprodutibilidade (Reability analysis).
5. Selecione “teste 1” (trial 1), “teste 2” (trial 2) e “teste 3” (trial 3) e use a seta para
colocá-los na caixa de Itens (Item). Nota: NUNCA inclua o total nessa lista. O PASW
calculará o total para você.
6. Clique em OK.

O coeficiente alfa também pode ser usado quando os dados são considerados como “cor-
retos” (1) ou “errados” (0). Nesse caso, o coeficiente alfa é referência para a fórmula 20 de
Kuder-Richardson (KR20). Será possível perceber, no entanto, que o coeficiente alfa e o KR20
são matematicamente equivalentes. Você aprenderá mais sobre esses tópicos no Capítulo 8.
Jackson, Jackson e Bell (1980) fornecem uma ótima abordagem sobre o coeficiente alfa.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 6.7.

Item de domínio 6.5


Aqui estão algumas atividades que ilustram as reprodutibilidades interclasse e intraclasse,
assim como a fórmula de Spearman-Brown. Acesse o material on-line (em inglês) e baixe o
banco de dados de reprodutibilidade do Capítulo 6. Esses dados representam quatro sema-
nas consecutivas de contagem com o pedômetro. Faça o seguinte:
1. Análise (Analyse) → Correlacione (Correlate) → Bivariada (Bivariate) e coloque todas
as variáveis na caixa à direita. Note que se trata de correlações intraclasses ilustrando a
consistência de passos por semana pareadas. Revise as correlações e veja que variam de
0,55 a 0,76 com uma mediana de 0,70. Note também que a semana 1 se correlaciona
menos com as demais semanas.
2. Análise (Analyse) → Escala (Scale) → Análise de reprodutibilidade (Reability analysis) e
coloque as quatro semanas na caixa “Itens” (Item). Note que o coeficiente alfa para to-
das as quatro semanas é 0,885. Essa é a reprodutibilidade de todo o período das quatro
semanas.
3. Como seria possível estimar a reprodutibilidade para uma única semana com o coefi-
ciente alfa 0,885? Use a Tabela 6.4 para estimar esses valores.
4. Use o valor estimado de 0,70 obtido por uma única semana (pelo passo um) e o subs-
titua na fórmula de Spearman-Brown (ou use a Tabela 6.4). Note que o valor indicado
(0,90) é muito similar ao obtido com o coeficiente alfa (0,885).

Morrow_06.indd 119 28/02/13 10:55


120 Morrow, Jackson, Disch & Mood

Índice de reprodutibilidade
Outra estatística importante para a interpretação do coeficiente de reprodutibilidade é o
índice de reprodutibilidade. O índice de reprodutibilidade é a correlação teórica entre os es-
cores observados e os escores verdadeiros, sendo calculado como a raiz quadrada do coeficiente de
reprodutibilidade (Equação 6.4).

(6.4)
A raiz quadrada da porcentagem da variância do escore observado representada pela va-
riância do escore verdadeiro (ou seja, a reprodutibilidade ou rxx’) é a correlação teórica entre os
escores observados e os verdadeiros. Então, se a reprodutibilidade de um teste é 0,81, a corre-
lação teórica entre o escore observado e o verdadeiro é 0,90. Note que se a reprodutibilidade
for 1,0, existe uma correlação perfeita entre o escore observado e o verdadeiro. Entretanto, se
a reprodutibilidade for 0,0, a correlação entre os escores observados e verdadeiros é 0,0!

Erro-padrão de medida
A reprodutibilidade obviamente lida com o escore verdadeiro de um indivíduo. Embora o
escore verdadeiro não possa de fato ser determinado, como sugerimos anteriormente, isso
pode ser pensado como a média de um número infinito de administrações de determinado
teste (em que nem a fadiga nem a prática afetam o escore). Assim, para qualquer teste, a me-
lhor estimativa do escore verdadeiro é o escore obtido.
Caso o teste seja administrado duas vezes, a média seria a melhor estimativa do escore
verdadeiro. Teoricamente, os erros aleatórios positivos e negativos irão se equilibrar ao
longo do processo. Com certeza existirão alguns erros associados, independentemente do
escore. Em outras palavras, é improvável, em um cenário da vida real, ter um escore que
esteja totalmente isento de erro. Assim, é esperado que o escore de um indivíduo altere
de teste para teste. O erro-padrão da medida reflete o grau em que o escore observado flutua
como resultado do erro de medida. Não confunda o erro-padrão de medida (EPM) com
o erro-padrão de estimativa apresentado no Capítulo 4. Existem diferenças, embora os
dois tenham interpretações similares (e pareçam bem similares): o erro-padrão de medida
refere-se à reprodutibilidade da medida, enquanto o erro-padrão de estimativa refere-se à
validade da estimativa.
O EPM é calculado da seguinte forma:

(6.5)
onde s representa o desvio padrão do teste e rxx’ é a reprodutibilidade.
Suponha que um teste teve desvio padrão de 100 e reprodutibilidade de 0,84. O EPM
é calculado como:

Caso um indivíduo obtenha o escore 500 em um teste cujo EPM era 40, é possível
colocar um limite de confiança no escore observado na tentativa de estimar o escore verda-
deiro. O erro-padrão de medida, assim como o erro-padrão de estimativa, é interpretado
como um desvio-padrão. O erro-padrão de medida é o desvio-padrão dos erros de medida em
torno do escore observado. Isso reflete o nível de alteração do escore observado de teste para
teste como resultado do erro da medida. É esperado que 68% dos escores estejam no in-
tervalo de ±1 do erro-padrão da medida, em virtude de ser esperado que os escores de erro
sejam distribuídos normalmente. Em nosso exemplo, no entanto, existem 68% de chances
de que o escore verdadeiro esteja entre 460 e 540 (ou seja, 500 ± 40). Note que seria pos-

Morrow_06.indd 120 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 121

sível usar a Tabela 3.4 para estabelecer intervalos de confiança em torno de determinado
escore observado. É possível colocar um intervalo de confiança de 95% em torno do escore
observado somando-se e subtraindo-se dois erros-padrão de medida do escore observado.
Isso se deve, como aprendido no Capítulo 3, ao fato de o escore médio mais ou menos dois
desvios-padrão capturar aproximadamente 95% dos escores na distribuição normal.

Item de domínio 6.6


Verifique que aproximadamente 95% dos escores verdadeiros estão dentro do intervalo de
420 e 580 quando o escore observado é 500 e o EPM é de 40 pontos (ou seja, ± 2 do erro-
-padrão de medida).

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 6.8.

Um teste ou uma medida não necessariamente têm reprodutibilidade em todas as si-


tuações. Dizendo de outra forma, a reprodutibilidade de um teste ou de uma medida é
específica à situação. Os escores são reproduzíveis sob circunstâncias especiais, administrados de
determinada maneira e com um grupo específico de pessoas. Não é apropriado supor que sim-
plesmente porque os escores são fidedignos para um grupo de pessoas (p. ex., mulheres),
eles automaticamente o serão para outro grupo (p. ex., homens). A seguinte lista fornece os
fatores que podem afetar a reprodutibilidade de um teste ou medida.
• Fadiga – Costuma diminuir a reprodutibilidade.
• Prática – Costuma aumentar a reprodutibilidade. Assim, tentativas práticas durante
o ensino e o treinamento devem ser incentivadas.
• Variabilidade do sujeito – Quanto maior a variabilidade do indivíduo avaliado,
maior a reprodutibilidade.
• Tempo intertestes – A reprodutibilidade geralmente diminui à medida que o tempo
entre as administrações dos testes aumenta.
• Circunstâncias que afetam os períodos de teste – A reprodutibilidade costuma au-
mentar quanto maior a similaridade entre os períodos de teste.
• Nível apropriado de dificuldade para o teste – O teste não deveria ser nem muito
difícil nem muito fácil.
• Precisão da medida – A acurácia do instrumento de medida deve ser assegurada.
Por exemplo, a corrida com obstáculos poderia ser medida com precisão de décimos
de segundos, mas seria muito mais preciso fazê-lo em centésimos de segundos.
• Condições ambientais – Fatores como barulho, calor excessivo e pouca iluminação
podem afetar o processo de medida.
Os avaliadores precisam ser sensíveis aos fatores que poderiam afetar a reprodutibilida-
de de um teste ou de uma medida.

VALIDADE
Investimos bastante tempo nos procedimentos de desenvolvimento da estimativa da repro-
dutibilidade do teste em decorrência do importante papel que a reprodutibilidade exerce na
validade do teste. Um teste deve primeiro ser reproduzível para que seja válido – para que de fato
meça o que se propõe a medir. A validade pode ser subdividida em vários tipos diferentes, dos
quais três serão discutidos: validade de conteúdo, validade de critério e validade de constru-
to. Essas são resumidas a seguir e estão bem detalhadas no American Psychological Association’s
Standards for Educational and Psychological Testing (1999). A validade também pode ser ampla-

Morrow_06.indd 121 28/02/13 10:55


122 Morrow, Jackson, Disch & Mood

A reprodutibilidade de um teste ou de uma medida deve ser considerada de acordo com muitos
fatores, pois qualquer um deles poderia distorcer a reprodutibilidade.

mente classificada como de natureza lógica ou estatística. Sempre existe um tipo de critério,
independentemente do tipo de procedimento de validação envolvido. O critério pode ser
percebido como a medida mais verdadeira que você está tentando medir.

Validade de conteúdo
A validade de conteúdo é uma evidência de veracidade baseada em tomada de decisão e
interpretação lógicas. Os termos validade e validade lógica são frequentemente usados para
a validade de conteúdo. O universo de interesse ou o universo de conteúdo para deter-
minado teste precisa ser bem definido. Por exemplo, os itens que aparecem em um dado
teste cognitivo devem refletir o conteúdo de conhecimento apresentado no semestre. Um
teste de habilidade no basquetebol deve, teoricamente, incluir itens que constituam o jogo
de basquetebol (arremesso, drible, passe, salto, e assim por diante). Isto é, o teste deveria
mensurar o conteúdo apresentado em aula.
O fato de um teste refletir a validade do conteúdo, no entanto, não o torna necessaria-
mente válido. Por exemplo, considere alguém que está fazendo medidas de dobras cutâneas
para estimar a porcentagem de gordura corporal. Certamente, as medidas de dobras cutâneas
mensuram de maneira válida a porcentagem de gordura corporal. Contudo, se a pessoa que
está realizando as medidas não tem qualificação para isso (talvez não esteja bem treinada
para o uso do compasso) ou faz a medida no local errado (p. ex., faz a medida da panturrilha
posterior em vez da panturrilha medial), a medida pode parecer válida, mas não é. O critério
para a validade de conteúdo existe na mente do interpretador. Os especialistas de conteúdo,
juízes, colegas e autores de livros didáticos podem servir como fontes para a validação do
conteúdo de instrumentos. Os professores que desenvolvem testes cognitivos elaboram itens
escritos que refletem o conteúdo do curso (então os itens são conteúdos válidos).

Validade de critério
A validade de critério é baseada na disponibilidade de uma medida de critério verdadeira.
A validade tem por base a determinação da relação sistemática entre o critério e outras me-

Morrow_06.indd 122 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 123

TIPOS DE EVIDÊNCIA DE VALIDADE


Agora, serão ilustrados os três tipos de validade mencionados (validade de conteúdo, validade de critério e validade
de construto).

Evidência baseada em conteúdo


A evidência baseada em conteúdo representa a evidência de que as características do teste são representativas do
universo de itens potenciais que pode ter sido usado. Por exemplo, os itens de um teste escrito ao final de um se-
mestre poderiam refletir o material apresentado nesse período; os testes físicos exigidos para um emprego devem
refletir os tipos de tarefas que poderiam ser desenvolvidas no trabalho.

Evidência baseada nas relações com outras variáveis


A evidência baseada nas relações com outras variáveis demonstra que os escores do teste são sistematicamente
relacionados ao critério. Um critério de medida é obtido, e os escores do teste são correlacionados (frequentemente
usando o coeficiente de correlação linear de Pearson) com o critério. Por exemplo, as dobras cutâneas medem com
·
validade a porcentagem de gordura corporal (critério), e a distância percorrida estima com validade o VO2máx (critério).

Evidência baseada em processos de resposta


A evidência baseada em processos de resposta enfatiza o escore do teste como uma medida de características não
observáveis de interesse. As atitudes, as características de personalidade e as características não observáveis, ain-
da que existentes em teoria, são muitas vezes validadas com evidência relacionada ao construto. Por exemplo, as
atitudes relativas à atividade física teoricamente existem; os estudantes podem, teoricamente, avaliar a eficácia do
ensino conduzido em uma sala.

didas usadas para estimar o critério. Em resumo, a validade de critério é a evidência de que
um teste tem relação estatística com a característica que está sendo medida. Outros termos
para validade de critério são validade estatística e correlacional; esses termos são usados em
decorrência de a evidência relacionada ao critério ser baseada no coeficiente de correlação
linear de Pearson entre determinado teste e o critério. Por exemplo, voltemos à situação de

Kelly apresentada no desafio em medida e avaliação; ela necessita medir o VO2máx para
adultos jovens. Kelly sabe que a melhor maneira de fazer isso é permitir que cada pessoa
complete um teste de exercício máximo em esteira, cicloergômetro, piscina ou outro tipo
de ergômetro. No entanto, ela não tem o equipamento e os recursos necessários para con-
duzir um teste máximo em cada pessoa. Portanto, está procurando medidas alternativas

que podem ser usadas para estimar o VO2máx – testes submáximos, corrida a distância e
modelos sem exercício. Essas medidas alternativas devem primeiro ser validadas com as
medidas de critério. Para tal, em algum momento, as pessoas devem completar o teste cri-
tério e o teste alternativo (muitas vezes chamado de teste de campo) para estimar o critério.
Caso uma forte relação seja encontrada entre o critério e o teste alternativo, os futuros alu-
nos não precisarão completar a medida de critério, tendo seus valores do critério estimados
pela medida alternativa (ou seja, de campo) ou substituta.
Ademais, a evidência relacionada ao critério é muitas vezes subdividida em validade
concorrente e validade preditiva. Ambas são baseadas no coeficiente de correlação linear
de Pearson. A principal diferença entre elas é o momento em que o critério é medido. Para
a validade concorrente, o critério é mensurado aproximadamente ao mesmo tempo que a

medida alternativa. O uso da distância percorrida para estimar o VO2máx é um exemplo
de validade concorrente. O critério é medido “no futuro” com a validade preditiva. Para
estabelecer a validade preditiva, o critério pode ser avaliado em muitas semanas, meses ou
mesmo anos depois de o teste original ter sido conduzido. A predição de desenvolvimento

Morrow_06.indd 123 28/02/13 10:55


124 Morrow, Jackson, Disch & Mood

futuro de doença cardíaca é baseada nos procedimentos de validade preditiva: o critério – o


desenvolvimento de doença cardíaca – não é medido até que muitos anos se passem. No
entanto, foi demonstrado que a falta de exercício, a alta taxa de gordura corporal, o tabagis-
mo, o aumento do colesterol e a hipertensão arterial são fatores preditores de futura doença
cardíaca. (Evidentemente, essas mesmas variáveis podem ser usadas para predizer se uma
pessoa sofre de doença cardíaca no momento. Então, o momento em que o critério é men-
surado e a interpretação da correlação auxiliam a identificar se a evidência relacionada ao
critério é concorrente ou preditiva em natureza.) A lista a seguir fornece alguns exemplos
de validade concorrente e preditiva em ciências do exercício, cinesiologia e educação. O
critério é seguido por uma lista de possíveis preditores.
Validade concorrente

• VO2máx (critério: consumo de oxigênio)
• Distância percorrida (p. ex., 1,6 km, 2,4 km; 2 km; 9 min, 12 min; 20 m lança-
mento)
• Submáximo (p. ex., cicloergômetro, esteira, natação)
• Modelos sem exercício (p. ex., relatório de atividade física)
• Gordura corporal (critério: DEXA, pesagem hidrostática)
• Pletismografia
• Dobras cutâneas
• Medidas antropométricas (p. ex., perímetros, circunferências, larguras e compri-
mentos)
• Habilidades esportivas (critério: desempenho no jogo e avaliações de especialistas)
• Teste de habilidades esportivas (p. ex., teste de vôlei, teste de precisão e teste de
movimento corporal)
• Avaliação de especialistas com relação ao desempenho
Validade preditiva
• Doença cardíaca (critério: desenvolvimento da doença cardíaca no decorrer da vida)
• Dieta atual, comportamento para a atividade física, pressão arterial, história fami-
liar de doença cardiovascular ou questões relacionadas à saúde
• Sucesso na graduação (critério: média de notas ou nível de graduação)
• História escolar
• Média de pontos na graduação
• Capacidade de trabalho (critério: desempenho bem-sucedido no trabalho)
• Habilidades físicas
• Habilidades cognitivas
Os testes de habilidades esportivas são bons exemplos de procedimento de validade de
critério. Green, East e Hensley (1987); Hensley, East e Stillwell (1979); Hensley (1989); e
Hopkins, Schick e Plack (1984) fornecem ótimos exemplos dos procedimentos utilizados
para validar testes de habilidades esportivas. Primeiro, uma medida de critério deve ser de-
senvolvida e, depois, uma variedade de testes de habilidades (p. ex., uma bateria de testes)
correlacionados com a medida de critério para determinar quais deles são válidos e mais
úteis para estimar o critério. Se uma série de testes é usada para determinar o critério, os
procedimentos de múltipla correlação (veja no Capítulo 4) são usados em vez do simples
coeficiente de correlação linear de Pearson. No entanto, a lógica é a mesma. É feita uma
tentativa para considerar a variação (ou seja, aumentar o coeficiente de determinação) na
medida de critério a partir de mais de uma medida. Considere um teste de golfe. O critério
poderia ser a média de pontos para várias rodadas. Então, um estudo poderia ser conduzi-

Morrow_06.indd 124 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 125

do de modo que todos completassem várias rodadas de golfe para obter o critério de medi-
da. Cada pessoa, então, completaria uma variedade de testes de habilidade (p. ex., rebater,
tacos longos, tacos curtos, tacada), os quais são correlacionados com a medida de critério
para determinar a medida ou a combinação de medidas que melhor fornece uma estimativa
da medida de critério. Observe que sempre ocorrerá algum erro em todas as medidas (tanto
no critério como nos estimadores).
A interpretação do coeficiente de validade de critério depende do seu valor absoluto.
Em virtude do coeficiente de validade de critério ser um simples coeficiente de correlação
linear de Pearson, ele varia entre -1,00 e +1,00. No entanto, quanto mais próximo o valor
absoluto da validade estiver de 1,00, maior é a validade. Por exemplo, observe a Tabela 6.7,
em que o critério é “jogar golfe”. Os valores sob “jogar golfe” representam o coeficiente de
validade concorrente. O segundo coeficiente de validade concorrente mais alto listado na
Tabela 6.7 é -0,65 (tacada); o mais elevado é 0,66 (tacada em média distância). Os outros
valores na Tabela 6.7 são coeficientes de correlação entre outros itens do teste de habilida-
des no golfe.
Retornemos ao erro-padrão da estimativa (EPE) apresentado no Capítulo 4, que é fre-
quentemente registrado como coeficiente de validade concorrente. Por exemplo, consi-

dere determinado teste submáximo que estima o VO2máx para um tempo de distância
–1 –1 ∙
percorrida de 1,6 km, cujo EPE seja 4 mL·kg ·min . Se alguém tem seu VO2máx predito
–1 –1
em 50 mL·kg ·min , é possível colocar limites de confiança em torno do escore predito:

é possível ter 68% de certeza de que o VO2máx atual está entre 46 e 54 (ou seja, 50 ± 4)
–1 –1
mL·kg ·min . Note que o EPE reflete a precisão de estimativa do escore com relação à
medida de critério; em outras palavras, é uma estatística da validade.
O desenvolvimento da medida de critério é extremamente importante na evidência da
validade relacionada ao critério. Alguns exemplos de como a medida de critério pode ser
obtida incluem:
• Participação verdadeira – Alguém que realmente possa completar a tarefa de cri-
tério (p. ex., jogar golfe, atirar com arco, conduzir atividades relacionadas ao tra-
balho).
• Validade de critério conhecida – Alguém que possa usar o critério (p. ex., corrida na
esteira, medir o peso dentro da água) previamente comprovado como válido.
• Julgamento de especialistas – Especialistas julgam a qualidade do critério. Isso é
muito usado em atividades de equipe (p. ex., voleibol) nas quais é difícil ou impos-
sível obter um número que reflita o desempenho na tarefa que está sendo medida.

Tabela 6.7 Matriz de correlação para o desenvolvimento de um teste de habilidades no golfe


Jogar golfe Long putt Chip shot Pitch shot Middle-distance shot Drive shot
Jogar golfe 1,00

Long putt 0,59 1,00

Chip shot 0,58 0,47 1,00

Pitch shot 0,54 0,37 0,35 1,00

Middle-distance shot 0,66 0,55 0,61 0,40 1,00

Drive shot –0,65 –0,62 –0,48 –0,52 –0,79 1,00


Reimpressa com permissão de Research Quarterly for Exercise and Sport, Vol. 58, p. 72-76, Copyright 1987, by the American Alliance for Health,
Physical Education, Recreation and Dance, 1900 Association Drive, Reston, VA 20191.

Morrow_06.indd 125 28/02/13 10:55


126 Morrow, Jackson, Disch & Mood

• Participação em torneio – As classificações das capacidades podem ser determina-


das com todos os participantes (melhor usada quando o evento especializado é um
esporte individual).
• Teste de validade conhecida – As pessoas conseguem completar um teste que foi
validado previamente.

Validade de construto
A validade de construto é muitas vezes usada para validar medidas que não são observáveis, mas
que existem teoricamente. Por exemplo, o quociente de inteligência (QI) existe na teoria, mas
o QI não é algo que possa ser mensurado prontamente. O mesmo se aplica às medidas de
atitude. Certamente, cada um de nós possui atitudes sobre vários comportamentos (p. ex.,
exercícios, dieta e atividade física), mas é difícil medi-las diretamente. É nesse ponto que
entra a validade de construto. A validade de construto é, essencialmente, um casamento entre
a lógica (conteúdo) e os procedimentos de validade de estatística. Para fornecer a evidência da
validade de construto para determinada medida, deve-se reunir uma variedade de infor-
mações estatísticas que, quando vistas em conjunto, adicionam evidências à existência do
construto teórico que está sendo medido.
O trabalho de hipótese poderia ser desenvolvido da seguinte maneira quando se está
coletando a evidência de validade de construto: se, na teoria, o construto é válido, então tais
e tais coisas deveriam ocorrer. Em seguida, experimente para ver se realmente acontecem.
A parte lógica da validade de construto refere-se ao que poderia ocorrer. A parte estatística
consiste nos dados coletados. A coleta contínua de informação que confirme a teoria adi-
ciona a evidência para a existência do construto. Quando aquilo que deveria ocorrer não é
confirmado pela coleção de dados, existem dois aspectos a serem considerados: pode ser
que o construto não exista ou que a relação lógica (se x, então y) tenha sido imprecisa. O
desenvolvimento da validade de construto é altamente relacionado ao método científico
apresentado no Capítulo 5. Uma hipótese é gerada, um método é desenvolvido, os dados
são coletados e analisados, e uma decisão é tomada com base na evidência obtida.
Muitas vezes, você ouvirá as palavras evidência “convergente” ou “discriminante”. Em
geral, esses conceitos são baseados nas correlações entre as variáveis. As variáveis que teo-
ricamente deveriam se correlacionar (seja positiva ou negativamente, dependendo da escala
usada) fornecem provas de evidência convergente, e as variáveis que, em teoria, não deve-
riam ter correlação fornecem provas discriminantes (i. e., elas medem aspectos diferentes).
Kenyon (1968a, 1968b) desenvolveu um instrumento multidisciplinar para medir as
atitudes com relação à atividade física. É fato que existem diferentes atitudes com relação
à atividade física. Algumas pessoas gostam de se exercitar, outras não. Mas como pode-
mos medir essas atitudes percebidas? Kenyon fornece evidências de que existem muitas
razões pelas quais as pessoas gostam ou não (ou comprometem-se ou não) de atividade
física (ou seja, as atitudes com relação à atividade física representam um construto mul-
tidimensional).
As dimensões não observáveis, mas teoricamente existentes, sugeridas por Kenyon in-
cluem:
• Experiência estética
• Catarse
• Saúde e aptidão física
• Experiência social
• Busca da vertigem (“excitação pela vitória”)
• Experiência ascética

Morrow_06.indd 126 28/02/13 10:55


Medida e Avaliação do Desempenho Humano 127

Considere a dimensão estética, que indica que algumas pessoas gostam de atividade física
pela beleza da expressão do movimento em atividades como dança, balé, ginástica, mergulho
e skate. Para fornecer a evidência de construto de que essa dimensão existe, podemos medir
as atitudes com relação à atividade física em grupos de pessoas com diferentes tipos de com-
portamentos. A hipótese seria que a dimensão de estética existe e que as pessoas que participam de
eventos de dança, balé e ginástica devem obter uma pontuação significativamente diferente quanto à
valorização da dimensão estética em comparação às pessoas que não participam de tais atividades.
É exatamente assim que se obtém a evidência de construto para tais medidas não observáveis.
A evidência de construto pode ser usada para fornecer evidências adicionais à evidência
da validade de critério. Considere o teste de golfe descrito anteriormente. Uma hipótese de
trabalho seria: se este é um teste de golfe válido, o seguinte deveria ocorrer: os alunos que nunca
jogaram golfe devem ter uma pontuação mais baixa; os jogadores iniciantes devem ter melhores pon-
tuações; os mais experientes devem ter uma pontuação mais alta; e os atletas de uma equipe de golfe
devem ter as melhores pontuações. Isso é conhecido como método de diferença de grupo de vali-
dade de construto. A realização de tal estudo e a análise das diferenças nas médias dos grupos
(veja a ANOVA no Capítulo 5) poderiam fornecer evidência de construto para o teste de golfe.

Aplicação do conjunto de dados


Acesse o banco de dados do Capítulo 6, no material on-line (em inglês). O banco de dados
contém inúmeras variáveis que podem ser relacionadas com a pesagem hidrostática. Use a
informação aprendida no Capítulo 4 para determinar quais variáveis estão mais ou menos
relacionadas à gordura corporal determinada hidrostaticamente. É possível calcular também COMPLETE
o erro-padrão de estimativa das variáveis?

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 6.9.

A Figura 6.1 ilustra as relações entre os vários aspectos de validade abordados.


Muitas das informações apresentadas neste capítulo estão relacionadas ao coeficiente
de correlação linear de Pearson introduzido no Capítulo 4. Em alguns casos, esse coefi-

Validade

Objetividade Reprodutibilidade Relevância

Interclasse Intraclasse Conteúdo Critério Construto

ANOVA

Teste e reteste Equivalência Concorrente Preditiva

Alfa KR20
Divisão das metades

Figura 6.1 Diagrama de termos de validade e reprodutibilidade.

Morrow_06.indd 127 28/02/13 10:55


128 Morrow, Jackson, Disch & Mood

ciente é interpretado como um coeficiente de reprodutibilidade. Em outros, poderia ser um


coeficiente de objetividade ou um coeficiente de validade de critério (ou concorrente ou
preditiva). Em todos os casos, o coeficiente de correlação linear de Pearson é calculado da
mesma forma, apresentada no Capítulo 4. A diferença na interpretação depende de como
as duas variáveis estão correlacionadas. Isso está descrito na Figura 6.2. Essencialmente, se
duas medidas estão correlacionadas, mas as avaliações foram realizadas em diferentes mo-
mentos, então, o coeficiente de correlação linear de Pearson é interpretado como um coe-
ficiente de reprodutibilidade (estabilidade). Caso dois diferentes avaliadores sejam correla-
cionados quando se realiza o mesmo teste, esse coeficiente de correlação linear de Pearson
é interpretado como um coeficiente de objetividade. Isso seria interavaliadores (entre ava-
liadores) se mais de um avaliador estiver envolvido e intra-avaliador (o mesmo avaliador)
para o mesmo avaliador em mais de uma ocasião. Uma estimativa de equivalência ocorre
quando duas diferentes formas para o mesmo teste são correlacionadas. Caso uma das
medidas que estão sendo correlacionadas seja um critério, então se está trabalhando com
validade. Se o coeficiente de correlação linear de Pearson calculado representa um coefi-
ciente concorrente ou de validade preditiva, depende de como o critério foi mensurado.
Isso ilustra o uso generalizado do coeficiente de correlação linear de Pearson para estimar a
reprodutibilidade, a objetividade e a validade. É importante que você saiba distinguir essas
diferentes correlações. Veja Odom e Morrow (2006) para mais ilustrações desses conceitos
e sobre como interpretar o coeficiente de correlação.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 6.10.

REPRODUTIBILIDADE APLICADA E MEDIDAS VÁLIDAS


Observemos alguns exemplos de reprodutibilidade e validade para as áreas de exercício,
ciências do esporte e cinesiologa. Lembre-se que a Tabela 6.7 mostra uma matriz de corre-
lação utilizada para desenvolver um teste de habilidade no golfe. A Tabela 6.7 tem informa-
ções válidas e nenhum resultado de reprodutibilidade. Lembre-se que, para estimar a repro-
dutibilidade, você deve administrar o mesmo procedimento em pelo menos duas ocasiões.
A Tabela 6.8 apresenta várias baterias de teste de golfe. As baterias foram determinadas

C o r r el a ç ã o Aplicação ou interpretação
X Y

Prova 1 Prova 2 Reprodutibilidade estimada

Avaliador 1 Avaliador 2 Objetividade estimada

Forma A Forma B Equivalência estimada

Teste Critério
Validade concorrente estimada
concorrente

Teste Critério
Validade preditiva estimada
futuro

Figura 6.2 Aplicações do coeficiente de correlação linear de Pearson em reprodutibilidade e


validade.

Morrow_06.indd 128 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 129

Tabela 6.8 Validade concorrente para o teste de golfe


Bateria de 2 itens Bateria Bateria de 4 itens
Middle-distance shot Middle-distance shot Middle-distance shot

Pitch shot Pitch shot Pitch shot

Validade = 0,72 Long putt Long putt

Validade = 0,76 Chip shot

Validade = 0,77
Reimpressa com permissão de Research Quarterly for Exercise and Sport, Vol. 58, p. 72-76, Copyright 1987, by the
American Alliance for Health, Physical Education, Recreation and Dance, 1900 Associaton Drive, Reston, VA 20191.

Tabela 6.9 Medidas de reprodutibilidade para habilidades esportivas e testes de aptidão física
Autor Item de teste Reprodutibilidade (rxx’)
Engelman & Abdominal tradicional (meninos) 0,83 a 0,92
Morrow (1991) Abdominal tradicional (meninas) 0,91 a 0,92
Abdominal modificado (meninos) 0,68 a 0,83
Abdominal modificado (meninas) 0,77 a 0,83

Green, East, & Golf—chip shot (meninas) 0,85


Hensley (1987) Golf—long putt (meninos) 0,86
Golf—long putt (meninas) 0,87
Golf—short putt (meninos) 0,93
Golf—short putt (meninas) 0,54
0,46

Hensley, East, Tacada curta no raquetebol (meninos) 0,77


& Stillwell Tacada curta no raquetebol (meninas) 0,86
(1979) Tacada longa no raquetebol (meninos) 0,85
Tacada longa no raquetebol (meninas) 0,82

Hensley (1989) Serviço no tênis (meninos) 0,86 & 0,95


Serviço no tênis (meninas) 0,79 & 0,88
Saque no tênis (meninos) 0,70 & 0,72
Saque no tênis (meninas) 0,69 & 0,79

Hopkins, Arremesso no basquete (meninos) 0,84 a 0,95


Schick, & Plack Arremesso no basquete (meninas) 0,87 a 0,95
(1984) Passe no basquete (meninos) 0,88 a 0,96
Arremesso no basquete (meninas) 0,82 a 0,91

Nelson, Yoon, & Flexão de braço modificada (meninos) 0,78 a 0,89


Nelson (1991) Flexão de braço modificada (meninas) 0,77 a 0,91

Rikli, Petray, & Meia milha (meninos) 0,65 a 0,82


Baumgartner Meia milha (meninas) 0,32 a 0,77
(1992) Três quartos de milha (meninos) 0,48 a 0,94
Três quartos de milha (meninos) 0,58 a 0,83
Uma milha (meninos) 0,44 a 0,87
Uma milha (meninas) 0,34 a 0,90

Schick & Berg Tacada de número cinco no golfe 0,90


(1983)
Nota: todas as reprodutibilidades são intraclasse.
N. do T.: Putter: taco específico usado no putting green para colocar a bola no buraco.
1 milha = 1,6 quilômetros.

Morrow_06.indd 129 28/02/13 10:56


130 Morrow, Jackson, Disch & Mood

·
Tabela 6.10 Medidas de validade concorrente para o VO2máx
Erro-padrão
da estimativa
Autor Critério Preditor(es) Validade (r) (mL·kg–1· min–1)
·
Getchell, VO2máx Corrida de 1,5 milha 0,92 2,38
Kirkendall &
Robbins (1977)
·
Kline et al. VO2máx Caminhada de uma milha 0,88 5,00
(1987) Sexo
Idade
Peso corporal
·
Murray et al. VO2pico Corrida de 20 minutos em condição estável 0,68 5,32
·
(1993) VO2pico Corrida de 20 minutos em condição estável
·
VO2pico Sexo
Corrida de 20 minutos em condição estável 0,73 4,96
Sexo
Peso corporal 0,79 4,45

Jurca et al. Aptidão Sexo 0,76-0,81 6,90-5,08


(2005) cardiorrespiratória Idade
máxima IMC
Frequência cardíaca de repouso
Relatório de atividade física
·
Wier et al. VO2máx Sexo 0,80 4,90
(2006) Código de atividade
Idade
IMC
Nota: IMC = Índice de massa corporal.
1 milha = 1,6 quilômetros.

com técnicas de regressão múltipla (veja o Capítulo 4), a fim de verificar os melhores itens
de testes utilizados para explicar a variação na medida de critério (habilidades no golfe).
O administrador do teste necessitará determinar se vale a pena o tempo e o esforço para
medir as quatro habilidades (validade = 0,77) em vez de três (validade = 0,76). A Tabela
6.9 contém exemplos de coeficiente de reprodutibilidade para vários testes de habilidades
esportivas; lembre-se que a reprodutibilidade é uma função do grupo a ser testado e espe-
cífica à situação. A Tabela 6.10 fornece coeficientes de validade concorrente para estimar

o VO2máx por meio de uma variedade de medidas. Alguns dos autores listados utilizaram

uma medida única para estimar o VO2máx, enquanto outros, a regressão múltipla. Veja
os resultados de Murray e colaboradores (1993) apresentados na Tabela 6.10. É possível
explicar o fato de a correlação aumentar com os itens adicionados? É possível explicar tam-
bém o fato de o erro-padrão da estimativa diminuir com o aumento do número de itens?

COMPLETE Acesse o material on-line (em inglês) e complete as atividades 6.11 e 6.12.

Morrow_06.indd 130 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 131

Desafio em medida e avaliação


Você deve ser capaz de determinar os passos que Kelly deve tomar para selecionar e administrar um teste de campo
de capacidade aeróbia fidedigno. Ela precisa, primeiro, determinar se o teste selecionado é reproduzível. Ou seja, os
resultados são consistentes de uma administração a outra, presumindo que os participantes não tenham mudado o
treinamento ou o nível de atividade física? Kelly precisa ser sensível ao erro-padrão de medida. Em seguida, precisa
determinar a validade concorrente entre o teste de campo proposto e o desempenho na esteira. Tal informação
pode estar disponível na literatura, ou talvez ela precise trabalhar com um pesquisador para obter essa informação
vital. Deveria se preocupar com os tipos de participantes avaliados e aqueles usados no processo de validação. Se
forem similares, ela deveria sentir-se confiante de que o resultado do teste de campo fornecerá uma estimativa
bastante precisa da capacidade aeróbia dos indivíduos. O teste de campo não fornecerá uma medida exata da ca-
pacidade aeróbia. Assim, Kelly precisa estar ciente de que o erro-padrão da estimativa representa uma estimativa
·
real do VO2máx para a medida substituta (ou seja, de campo).

RESUMO
As questões referentes a reprodutibilidade, objetividade e validade são as mais importan-
tes na área de avaliação do desempenho humano, independentemente de o desempenho
ser cognitivo, afetivo ou psicomotor. Os coeficientes de reprodutibilidade representam a
consistência de resposta e variam de 0 (não pode ser reproduzível) a 1,00 (perfeitamente
reproduzível). Da mesma forma, a objetividade (reprodutibilidade interavaliador) varia de
0 a 1,00. O erro-padrão da medida, uma estatística de reprodutibilidade, reflete o grau em
que o escore de um indivíduo mudará em função dos erros de medida. O coeficiente de
validade representa o grau em que a medida se correlaciona com o critério. Os coeficientes
de validade variam de -1,00 a +1,00. O valor absoluto do coeficiente de validade é impor-
tante. Um valor de zero indica nenhuma validade; 1,00 representa correlação perfeita com
o critério. O erro-padrão da estimativa, uma estatística da validade, indica o grau em que o
escore predito irá variar a partir do escore de critério.
Por fim, tenha em mente que os escores de reprodutibilidade e de validade não são
tipicamente generalizados. A reprodutibilidade ou a validade obtida é específica ao grupo
avaliado, ao ambiente do teste e aos procedimentos utilizados. Deve-se estudar se os resul-
tados de reprodutibilidade e validade obtidos podem ser inferidos para outra população ou
adequá-los antes de fazer tal inferência. Agora que está familiarizado com os conceitos rela-
cionados à avaliação da reprodutibilidade e da validade, você deve estar apto para melhor
avaliar os instrumentos que pode usar na avaliação do desempenho humano.

APRENDA Acesse o material on-line (em inglês) para realizar tarefas e preencher
questionários que o ajudarão a dominar o conteúdo deste capítulo.

Morrow_06.indd 131 28/02/13 10:56


7
Reprodutibilidade e
Validade de Critérios
de Referência

Objetivos
Tópicos Após estudar este capítulo, você será capaz de:
Desenvolvimento de critérios-padrão ® definir um teste de critério de referência;
de referência 135
® explicar as abordagens para o desenvolvimento de
Desenvolvimento de testes de critério critérios-padrão de referência;
de referência 136 ® explicar as vantagens e as limitações das medidas de
Análise estatística de testes de critério critério de referência;
de referência 139 ® selecionar testes estatísticos apropriados para a análise de
Técnicas estatísticas para usar com testes testes de critério de referência;
de critério de referência 140 ® interpretar estatísticas associadas à medida de critério de
Reprodutibilidade de testes de critério referência;
de referência 142 ® discutir e interpretar estatísticas epidemiológicas; e
Validade de testes de critério de referência 144 ® usar o PASW e o Excel para calcular as estatísticas
Validade de critério 144 relacionadas aos critérios de referência.
Exemplos de testes de critério de referência 145
Aplicação de critério-padrão de referência à
epidemiologia 150

ESTUDE A leitura dos tópicos no material


on-line (em inglês) o auxiliará a
identificar os principais conceitos
do capítulo.

Morrow_07.indd 133 28/02/13 10:56


134 Morrow, Jackson, Disch & Mood

Desafio em medida e avaliação


Christina trabalha com reabilitação no esporte. Ela recentemente se deparou com um número crescente de indi-
víduos com rompimentos dos músculos isquiotibiais. Atualmente, existe a especulação de que esse aumento no
risco de lesão poderia estar relacionado ao uso de creatina. Christina gostaria de obter mais informação científica
referente à associação entre o rompimento dos músculos isquiotibiais e o uso dessa substância. No entanto, sua
preparação profissional foi fundamentada apenas na aprendizagem de técnicas de medidas de norma de referência.
Ela está confusa sobre a maneira adequada de se abordar essa questão e interessada em determinar a existência
de provável associação entre o uso da creatina e a incidência de rompimento dos músculos isquiotibiais. Christina
decide ir à biblioteca e consultar a literatura para verificar as técnicas que permitam a análise dessa questão.

N
a área de desempenho humano, somos privilegiados com muitas variáveis contínuas
(intervalo e relação) (veja o Capítulo 3). A velocidade que a pessoa corre, a distância
que pula e o número de passos gravados com o pedômetro são medidas contínuas
comuns. Algumas variáveis podem não se caracterizar dessa forma e, são registradas como
classificação ou aprovação/reprovação ou, ainda, suficiente/insuficiente. Os jogadores podem
ser classificados de acordo com sua habilidade total ou com relação a uma habilidade espe-
cífica. Outras variáveis, como sexo e etnia, podem ser mensuradas apenas categoricamente,
sendo chamadas de variáveis nominais, conforme aprendido do Capítulo 3. Algumas variá-
veis podem ser medidas de mais de uma forma. Por exemplo, a estatura é uma variável con-
tínua normalmente registrada em metros ou centímetros. No entanto, presumamos que um
professor queira igualar em altura as equipes de basquetebol. Ele poderia classificar os alunos
do mais alto ao mais baixo e determinar as equipes com base na classificação do jogador, bem
como reunir os alunos em grupos com base na altura. Os jogadores mais altos podem jogar
contra os mais altos, enquanto os mais baixos seriam combinados com os de estatura similar.
Este último exemplo representa o estabelecimento dos pontos de corte para criar ca-
tegorias. Os pontos de corte são importantes quando existe interesse em determinado nível
de desempenho alcançado; por exemplo, o mínimo de atividade física necessária para se
manter a saúde. A aprovação/reprovação ou suficiente/insuficiente são classificações ba-
seadas em pontos de corte. As estatísticas básicas convencionais não podem ser aplica-
das quando as variáveis são medidas dessa forma; por exemplo, o cálculo da média e do
desvio-padrão seria inapropriado na análise de categorias. Portanto, técnicas específicas
aplicadas à medida nominal devem ser utilizadas (como visto no Capítulo 5). Os testes de
critérios de referências são apropriados para essa situação.
Tecnicamente, não existe grande diferença entre o conhecimento adquirido no Capítu-
lo 6 e aquele que será obtido neste. A primeira diferença está no nível de medidas usadas
para descrever o desempenho. No Capítulo 6, as variáveis tinham natureza contínua. As
variáveis apresentadas neste capítulo 7 são de natureza categórica. No entanto, os conceitos
de reprodutibilidade e validade apresentados no Capítulo 6 podem ser facilmente adap-
tados para as variáveis apresentadas neste capítulo. Apresentaremos informações sobre a
reprodutibilidade de critério e a validade de critério. O foco no Capítulo 6 foi sobre o
escore do indivíduo. Aqui, o foco está na classificação. Um teste de critério de referência é
construído para produzir medidas que são diretamente interpretadas em termos de padrão
de desempenho. Os padrões de desempenho costumam ser específicos no estabelecimento
de uma classe ou de domínio de tarefas que devem ser realizados pelo indivíduo (Nitko,
1984, p. 12).

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 7.1.

Morrow_07.indd 134 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 135

Os testes de critérios de referência são usados para tomar


decisões categóricas, tais como aprovar ou reprovar, ou para
classificar os indivíduos como os que alcançam e os que não
alcançam determinado padrão. Testes de critério de referên-
cia específicos bem definidos podem melhorar as medidas de
reprodutibilidade e de validade do item de interesse. Os testes
de critério de referência não estão limitados à medida nominal.
Frequentemente, as variáveis contínuas podem ser utilizadas
com métodos de testes de critérios de referência. Por exemplo,
os desempenhos de flexão de braço ou abdominal podem ser
avaliados utilizando pontos de corte baseados no critério, em
vez de métodos de norma de referência. Historicamente, a ins-
trução programada centrada nos objetivos comportamentais
– especificamente objetivos escritos com instruções de como
podem ser obtidos – era bem apropriada para esse tipo de me-
dida. Os instrumentos de domínio baseados em objetivos com-
portamentais são mais bem exemplificados por meio de testes
que envolvem licenciamento, tais como o teste para a carteira
de motorista e, na área de desempenho humano, os padrões
da Cruz Vermelha para salva-vidas e a certificação de natação.
É fácil observar nesses exemplos que um padrão mínimo deve
ser obtido antes que a competência seja divulgada e a licença
seja garantida. Nesses casos, os pontos de corte representam Antes de se tornar salva-vidas licenciado, é neces-
um padrão de referência baseado em um nível teórico mínimo sário passar por muitos testes para demonstrar pa-
de desempenho. O alcance do padrão (ou o ponto mínimo do drões de desempenhos específicos. Esses tipos de
corte) fornece evidência de que o avaliado está qualificado ou é testes são conhecidos como testes de critério de
suficiente de alguma maneira. referência.

DESENVOLVIMENTO DE
CRITÉRIOS-PADRÃO DE REFERÊNCIA
Quatro abordagens básicas são usadas para desenvolver critérios-padrão de referência para
os testes de desempenho humano (Safrit, Baumgartner, Jackson e Stamm, 1980):
• A abordagem de julgamento é baseada na experiência dos especialistas. Isso reflete
o que eles acreditam ser um nível apropriado a partir da formação e da experiência
em testes e avaliação do desempenho humano. Por exemplo, muitos treinadores de
voleibol requerem que os jogadores estejam aptos a dar o saque com a mão acima do
ombro para jogar na equipe principal. O treinador pode definir um ponto de corte,
tal como colocar 8 dos 10 saques com a mão acima do ombro dentro da quadra.
• A abordagem normativa usa dados de norma de referência para estabelecer padrões;
alguns critérios teoricamente aceitos são escolhidos. As diretrizes para a classificação
da aptidão física para jovens do The President’s Challenge (veja o Capítulo 10) são
um exemplo da aplicação do critério de referência de dados normativos. Para se
qualificar, um estudante precisa atingir o percentil 50 ou 85 em todos os itens do
teste. Esse critério foi baseado não apenas nas opiniões dos especialistas, mas tam-
bém nas normas disponíveis.
• A abordagem empírica depende da disponibilidade de uma medida externa no crité-
rio atribuído. Os pontos de corte são diretamente estabelecidos com base nos dados
disponíveis nesse atributo externo. Essa abordagem é a menos arbitrária das quatro.

Morrow_07.indd 135 28/02/13 10:56


136 Morrow, Jackson, Disch & Mood

No entanto, não é muito utilizada, por causa da falta de um critério externo dire-
tamente mensurável. Um exemplo é um bombeiro que precisa escalar uma parede
de 1,5 m para cumprir suas obrigações. Esse é um exemplo concreto de um item
aprovado ou reprovado que é baseado em abordagem empírica. Outro ótimo exem-
plo dessa abordagem é o trabalho de Cureton e Warren (1990), apresentado mais
adiante neste capítulo.
• O método de combinação envolve a utilização de todas as fontes disponíveis: espe-
cialistas, experiência anterior, dados empíricos e normas. Geralmente, as opiniões
dos especialistas e as normas representam a base para tomar decisões de critérios de
referência em desempenho humano. Os padrões do aptidograma referentes à zona
de aptidão física saudável (veja o Capítulo 10) foram estabelecidos dessa forma.

COMPLETE Acesse o material on-line (em inglês) e complete as atividades 7.2 e 7.3.

DESENVOLVIMENTO DE TESTES DE CRITÉRIO DE REFERÊNCIA


O uso específico do termo testes de critério de referência é geralmente atribuído a um ar-
tigo de Robert Glaser e D.J. Klaus publicado em 1962. Glaser e Klaus criaram esse termo
por causa de um número de limitações que acreditavam ser inerentes a testes de norma de
referência; a deficiência primária é que tais testes eram construídos para ter um conteúdo
válido sobre uma ampla gama de objetivos instrucionais e filosóficos. Consequentemente,
os testes de norma de referência mais específicos se tornaram menos comercializáveis. Por
essa razão, esses testes não são bem adequados para a avaliação de objetivos específicos.
Por exemplo, se uma abordagem de norma de referência é usada para determinar quem
merece receber a carta de motorista, então sua habilidade para ser “aprovado” no teste seria
baseada em apenas um conjunto de itens, e não na sua habilidade geral de dirigir um carro.
O objetivo primário do teste de norma de referência é estabelecer uma série de comporta-
mentos para discriminar entre níveis de conhecimento, habilidade ou desempenho. Se um
certo nível de desempenho for necessário, então o teste de norma de referência não fornece
essa informação da forma mais eficiente. Os testes de critério de referência, ao contrário,
costumam ser estruturados para avaliar um número muito menor de objetivos do que um
teste tradicional de norma de referência e, portanto, podem ser configurados para identifi-
car objetivos especificamente enumerados para os itens de comportamento. Por exemplo,
quantos abdominais um garoto de 10 anos deve ser capaz de realizar para ser considerado
fisicamente apto?
A diferença primordial entre testes de norma de referência e de critério de referência é que es-
tes últimos são avaliados categoricamente. As técnicas de estatísticas tradicionais usadas para
estabelecer a reprodutibilidade e a validade de testes de norma de referência, apresentadas
no Capítulo 6, não podem ser usadas com os testes de critério de referência. Portanto, é ne-
cessário escolher técnicas específicas que melhor estimem a reprodutibilidade e a validade
de medidas de critério de referência. Os índices de reprodutibilidade associados aos testes
de critério de referência são chamados de índices de dependência. Os métodos usados
para se determinar a dependência são baseados na teoria clássica dos testes ou na teoria da
generabilidade. Os índices permitem a determinação não apenas da proporção de concor-
dância (P) (que se refere à consistência com que o desempenho é classificado por meio de
métodos ou provas), mas também a consistência com que as decisões são tomadas. Alguns
exemplos específicos de índices de dependência são apresentados neste capítulo.
Cureton e Warren (1990) resumem as vantagens e as limitações de medidas de critérios
de referência:

Morrow_07.indd 136 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 137

Vantagens
• Os critérios-padrão de referência representam níveis específicos de desempenho de-
sejados que são explicitamente associados a um critério.
• Pelo fato de serem padrões absolutos, são independentes da proporção da popula-
ção que alcança o padrão. O padrão ainda é válido independentemente do número
de indivíduos que alcança esse padrão.
• Avaliações diagnósticas específicas podem ser feitas para melhorar o desempenho ao
nível do critério caso os padrões não sejam alcançados.
• Em virtude de o grau de desempenho não ser importante, as competições são ba-
seadas em alcançar o padrão, e não em melhorar o nível de desempenho do sujeito.
As seguintes vantagens também são importantes:
• O desempenho está associado a resultados específicos.
• Os indivíduos sabem exatamente o que é esperados deles.
Limitações
• Os pontos de corte sempre envolvem algum julgamento subjetivo. As diretrizes filo-
sóficas podem afetar drasticamente a seleção do critério de desempenho em virtude
de poucos critérios serem claramente definidos. As autoridades, muitas vezes, dis-
cordam sobre os níveis exatos, então os pontos de corte são, algumas vezes, arbitra-
riamente determinados.
• Os erros de classificação podem ser graves. Considere uma situação hipotética em
que um médico está prescrevendo os medicamentos com base em um critério-pa-
drão de referência. A classificação equivocada do indivíduo poderia trazer sérias
consequências a sua saúde.
• Aqueles indivíduos que alcançam o nível do ponto de corte podem não estar moti-
vados a continuar melhorando em decorrência da necessidade de definir os pontos
de corte em algum nível. Ao mesmo tempo, os indivíduos que nunca atingem o
ponto de corte podem ser desencorajados e perder o interesse.
Para analisar algumas dessas limitações, Cureton e Warren (1990) estudaram os crité-
rios-padrão de referência para o teste de corrida de uma milha (1,6 km), para os quais o
aptidograma (Cooper Institute for Aerobics Research, 1987) e o Physical Best (AAHPERD,
1988) fornecem critérios-padrão de referência. Para analisar a validade desses padrões,
esses autores desenvolveram um critério externo:

O critério foi definido como o menor nível de VO2máx associado à boa saúde, risco
mínimo de doença e capacidade funcional adequada de crianças e adolescentes para
realizar as atividades da vida diária. Em virtude de nenhum dado empírico identificar

de forma específica o nível mínimo, o critério do VO2máx foi baseado primariamente
na evidência indireta relacionando a capacidade aeróbia ao risco saúde/doença.
Essencialmente, Cureton e Warren determinaram a velocidade de caminhada/corrida no

teste de uma milha que corresponde aos níveis de critério do VO2máx e converteram essas
velocidades em termos de tempo de corrida da milha. Os autores avaliaram os dados de 581
meninos e meninas com idade entre 7 e 14 anos, de acordo com o critério do aptidograma
e da Physical Best. Esses resultados são apresentados na Figura 7.1, que indica que 496
dos 581 casos (85%) foram adequadamente classificados pelos padrões do aptidograma, ao
passo que 357 (61%) o foram pelos padrões da Physical Best. Quinze por cento (11% + 4%)
foram erroneamente classificados no aptidograma, e 39% (35% + 4%), no Physical Best.
Essa análise demonstra a importância do estabelecimento adequado de pontos de corte.

Morrow_07.indd 137 28/02/13 10:56


138 Morrow, Jackson, Disch & Mood

Aptidograma (a)
· ·
Abaixo do critério para o VO2máx Acima do critério para o VO2máx

NÃO alcançou o padrão de 24 21


caminhada/corrida (4%) (4%)

ALCANÇOU o padrão de 64 472


caminhada/corrida (11%) (81%)

Physical Best (b)


· ·
Abaixo do critério para o VO2máx Acima do critério para o VO2máx

NÃO alcançou o padrão de 130 23


caminhada/corrida (22%) (4%)

ALCANÇOU o padrão de 201 227


caminhada/corrida (35%) (39%)

Figura 7.1 Comparação dos padrões do (a) aptidograma e do (b) Physical Best para o tempo
no teste de uma milha.

Outro exemplo de critérios-padrão de referência representa os níveis de colesterol de-


finidos pelas associações profissionais. A American Heart Association e o National Heart,
Lung, and Blood Institute têm estabelecido o ponto de corte para os níveis de colesterol
relacionado ao risco de doença cardiovascular, como segue:
• Risco baixo: < 200 mg/dL
• Risco moderado: > 200 mg/dL ou < 240 mg/dL
• Risco elevado: > 240 mg/dL
Um médico aconselhando um indivíduo sobre o risco de doença cardíaca coronariana
usaria os resultados do exame de sangue deste e os compararia com o padrão. Ele poderia
aconselhar o seguinte:
• Não existe necessidade de preocupação (nível do indivíduo = 180 mg/dL).
• Aumentar os níveis de atividade física e restringir a ingestão de alimentos calóricos
(níveis do indivíduo = 215 mg/dL).
• Aumentar os níveis de atividade física, restringir a ingestão de alimentos calóricos e
tomar medicamentos prescritos (níveis do indivíduo = 300 mg/dL).
O Physical Activity Guidelines for Americans 2008 (USDHHS, 2008) fornece outro exem-
plo de teste de critério de referência. As diretrizes indicam que os adultos realizem 150
minutos de atividade física de intensidade moderada a vigorosa semanalmente para a ob-
tenção de benefícios à saúde. As atividades vigorosas representam o dobro de minutos; por
exemplo, o indivíduo também atende às diretrizes caso realize 75 minutos de atividade físi-
ca vigorosa (ou seja, 75 x 2 = 150 minutos). As atividades físicas de intensidade moderada
a vigorosa podem ser combinadas com os minutos das atividades vigorosas (ou seja, 50 de
vigorosa x 2 + 50 de moderada = 150 minutos de atividade física de intensidade modera-
da a vigorosa). O importante é acumular um total de 150 minutos de atividade física de
intensidade moderada a vigorosa semanalmente. Os 150 minutos são o critério. Se alguém
não atende ao critério, sugestões e prescrições específicas podem ser feitas para ajudá-lo a
alcançar essas diretrizes. Entretanto, uma pessoa que realiza 150 minutos pode simples-
mente estar desmotivada a fazer atividade física adicional em virtude de observar o mínimo
como objetivo. As diretrizes de atividade física afirmam que benefícios adicionais à saúde

Morrow_07.indd 138 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 139

são alcançados com mais atividade física (essencialmente, uma dose-resposta). Então, o
critério serve como um bom propósito (um objetivo), mas também pode ser problemático
(desmotivante para fazer além da quantidade mínima).

ANÁLISE ESTATÍSTICA DE TESTES DE CRITÉRIO DE REFERÊNCIA


São critérios não apenas os procedimentos para determinar os pontos de corte, mas tam-
bém a seleção dos testes estatísticos para analisar a adequação dos critérios. A seleção
dos testes estatísticos a serem utilizados para analisar os testes de critérios de referência
é baseada nos mesmos princípios da seleção dos testes de normas de referência. O pri-
meiro fator a considerar é o nível de medida das variáveis envolvidas. Com os testes de
critério de referência, será possível caracterizar os dados em variáveis nominais; portanto,
é possível selecionar testes estatísticos apropriados para esse nível de medida. Lembre-se
que as variáveis nominais são categóricas em natureza. Para que testes medidos em escala
contínua sejam avaliados com instrumentos de critérios de referência, os escores devem
inicialmente ser classificados acima e abaixo do critério do ponto de corte. Para o teste de
critério de referência, a principal ferramenta para a análise é a técnica estatística que utiliza
a tabela de contingência (qui-quadrado 2 x 2; veja a Fig. 7.2) para identificar quais esco-
res estão acima e quais estão abaixo do ponto de corte. A Figura 7.2 mostra a estabilidade
(dependência) dos testes de critérios de referência ao longo de dois dias. Os indivíduos
classificados como abaixo do padrão (n1) em ambos os dias ou como alcançando o padrão
(n4) em ambos os dias são consistentemente classificados. Aqueles classificados como al-
cançando o padrão em um dia e abaixo dele no outro (n2) ou vice-versa (n3) são equivoca-
damente classificados. As marginais representam a soma de observações para uma linha
(n1 + n2 ou n 3 + n4) ou coluna (n1 + n3 ou n2 + n4) específica da tabela de contingência
(veja a Fig. 7.2).
O próximo fator a considerar na análise é a situação da medida específica. As situações
de medidas são as mesmas associadas ao teste de norma de referência. Para estabelecer a re-
produtibilidade do teste de critério de referência, deve-se determinar se o interesse está na
equivalência ou na estabilidade do teste. Para medir a validade, é preciso ter uma medida
de critério. A medida de critério reflete o verdadeiro estado das circunstâncias com relação
ao melhor teste que está sendo investigado. Lembre-se do desafio de Christina no início

Dia 1
Linhas
NÃO alcança ALCANÇA marginais
o padrão o padrão

NÃO alcança n1 n2 n1 + n2
o padrão

Dia 2

ALCANÇA n3 n4 n3 + n4
o padrão

Colunas n1 + n3 n2 + n4
marginais

Figura 7.2 Tabela de contingência 2 x 2 para um teste de critério de referência feito em dois dias.

Morrow_07.indd 139 28/02/13 10:56


140 Morrow, Jackson, Disch & Mood

deste capítulo. Ela está interessada na relação entre o rompimento dos músculos isquioti-
biais e o uso da creatina. O critério é se a pessoa teve ou não rompimento do músculo, e a
variável preditora é se a pessoa estava tomando ou não creatina.

TÉCNICAS ESTATÍSTICAS PARA USAR COM TESTES DE CRITÉRIO


DE REFERÊNCIA
Existem várias estatísticas disponíveis e usadas para estimar a reprodutibilidade e a valida-
de de testes de critério de referência. Este livro apresenta as técnicas de qui-quadrado (Ca-
pítulo 5), proporção de concordância (P), coeficiente de contingência (na verdade, um
coeficiente de correlação linear de Pearson entre duas variáveis dicotômicas) e o Kappa (K).
Existem técnicas que refletem associação e concordância e podem ser usadas com dados
mensurados em escala nominal.
Como mostrado no Capítulo 5, o qui-quadrado é um teste de associação entre variáveis
nominais. Logicamente, seria desejável uma associação entre a primeira tentativa de um teste
de critério de referência e a segunda tentativa. Essa é uma ilustração de reprodutibilidade do
teste de critério de referência. Da mesma forma, seria desejável que houvesse uma associação
entre o modo como se faz um teste de campo de uma medida e como se poderia tornar uma
medida mais verdadeira (ou seja, o critério) com relação às características que estão sendo
mensuradas. Essa é uma ilustração de validade de teste de critério de referência. Lembre-se,
conforme o Capítulo 5, que a hipótese nula em ambos os testes significa que não existe as-
sociação (ou relação), mas rejeitar a hipótese nula resulta na decisão de que existe associação
entre as variáveis. Certamente, seria desejável que houvesse relação entre a forma como o indi-
víduo é classificado nas múltiplas vezes em que realiza o mesmo teste de critério de referência.
Note que as variáveis são classificadas como 0 ou 1 para ambas as medidas. Será pos-
sível calcular o coeficiente de correlação linear de Pearson (Capítulo 4) entre as variáveis
com pontuação dicotômica. Esse caso especial do coeficiente de correlação linear de Pear-
son é chamado de coeficiente de contingência. O coeficiente de contingência tem limites
de -1,00 e +1,00, com o valor mais próximo de 1,00 indicando aumento na associação, e o
valor mais próximo de zero indicando que não existe associação.
O PASW produz o qui-quadrado e o coeficiente de contingência como opção estatística
dentro da rotina tabelas cruzadas (crosstabs). Isso será mais bem ilustrado mais adiante
no capítulo.
A proporção de concordância (P) é estabelecida acrescentando proporções nas células
que são consistentemente classificadas; então P é igual ao número de concordâncias (n1 +
n4) dividido pelo número total (n1 + n2 + n3 + n4). Na Figura 7.2, é estimado pela seguinte
fórmula:
P = (n1 + n4) / (n1 + n2 + n3 + n4) (7.1)
As variações P vão de 0 a 1,00, e quanto mais alto o valor, mais intimamente os dados
são atribuídos às células de modo consistente (e correto). O problema com P é que os valo-
res acima de 0,50 podem ocorrer simplesmente por acaso.
O Kappa (K) é uma técnica muito utilizada que permite a correção das concordâncias
ao acaso. É intimamente associada ao coeficiente de contingência (␾), que é o coeficiente
de correlação linear de Pearson calculado com dados nominais. O K é mais apropriada-
mente utilizado para avaliar a concordância interobservador, mas pode ser usado em si-
tuações teste-reteste ou para analisar a concordância entre o preditor e o critério que são
nominalmente representados.
Embora a proporção de concordância seja uma estimativa irregular de concordância ou
associação entre duas variáveis nominais, o principal problema com essa estatística é que

Morrow_07.indd 140 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 141

ela não considera o fato de que algumas dessas concordâncias poderiam ser simplesmente
esperadas devido ao acaso. O K considera a concordância por acaso e, portanto, propor-
ciona uma estimativa mais conservadora na associação entre duas variáveis nominais. A
fórmula para K é:
K = (P – Pc) / (1 – Pc) (7.2)
onde P é a proporção de concordância observada e Pc é a proporção de concordância devida
ao acaso. Considere o seguinte exemplo: 400 estudantes do ensino fundamental correram
uma milha (1,6 km) em duas oportunidades distribuídas em dois dias. O professor deseja-
va saber se o teste poderia medir consistentemente a capacidade dos estudantes de alcançar
o ponto de corte estabelecido no aptidograma. A Tabela 7.1 apresenta esses dados. Note
que esse é um exemplo de reprodutibilidade em virtude de ser o mesmo teste em mais de
uma ocasião.
Para esse exemplo, o P é calculado como:
(250 + 80) / 400 = 330 / 400 ou 0,825
O K é calculado para corrigir o acaso. O P (0,825) foi estimado anteriormente. Os va-
lores do acaso (Pc) são os seguintes:

(130) x (100) / (400 × 400) = 0,081


e
(270) x (300) / (400 x 400) = 0,506
Isto é, multiplique as marginais e as divida por n2. A soma dessas propriedades é 0,587.
Portanto, K = (0,825 – 0,587) / (1 – 0,587) = 0, 238/0,413 = 0,576. Esse valor é subs-
tancialmente mais baixo que o valor P de 0,825. Portanto, sugere-se que qui-quadrado,
coeficiente de contingência, porcentagem de concordância e os valores de Kappa sejam
calculados para fornecer a informação mais importante sobre a associação envolvida.
Então, dada a tabela de contingência 2 x 2, determine a proporção da concordância
observada (P) somando o número de concordâncias que aparecem na diagonal da tabela e
dividindo pelo número total de observações pareadas. Determine a proporção da concor-
dância ao acaso (Pc) para cada célula na diagonal ao calcular as marginais para cada linha
e coluna. Quando essas marginais são multiplicadas cruzadas, os valores resultantes para
cada célula representam os valores esperados atribuíveis ao acaso. Então, obtenha a pro-

Tabela 7.1 Exemplo de reprodutibilidade teste-reteste de teste de critério de referência


Dia 2
NÃO alcança o ALCANÇA o
Dia 1 padrão padrão Total
NÃO alcança o padrão 80 20 100

ALCANÇA o padrão 50 250 300

Total 130 270 400

χ = 137,13
2

GL = 1
p < 0,001
coeficiente de contingência = 0,586
P = (80 + 250)/400 = 0,825
Kappa = 0,576

Morrow_07.indd 141 28/02/13 10:56


142 Morrow, Jackson, Disch & Mood

porção de concordância ao acaso (Pc) dividindo os valores esperados atribuíveis ao acaso


pelo número total de observações. Finalmente, some essas proporções por todas as células
para obter uma proporção total de concordância ao acaso.
Por conseguinte, substitua a proporção de concordância e a proporção de concordân-
cia ao acaso dentro da fórmula do Kappa. Os valores de K podem teoricamente variar de
-1,00 para +1,00; no entanto, um valor negativo de K implica proporções de concordân-
cia resultantes do acaso maiores do que aquelas atribuídas à concordância observada. Por
essa razão, K praticamente varia de 0 para 1,00. A magnitude de K é interpretada como
qualquer outro coeficiente de reprodutibilidade ou validade; quanto mais altos os valores,
melhor. No entanto, em virtude do ajustamento para a concordância ao acaso, os valores
raramente excedem 0,75. Kappas de < 0,20 representam concordância fraca. Os valores
de 0,61 a 0,80 são geralmente substanciais, considerando que de 0,41 a 0,60 são com
frequência considerados moderados (Viera e Garrett, 2005). O K é uma estatística extre-
mamente útil e não pode ser usada apenas para avaliar a concordância interobservador,
mas também a estabilidade da medida em um teste-reteste e a equivalência ou a validade
do teste.
Uma desvantagem séria do K refere-se à elevada sensibilidade para valores baixos nas
marginais e para tabelas de contingência pequenas, em decorrência de os valores ao acaso
serem altos. Ele também é limitado às tabelas quadradas de contingência. Novamente, o
PASW pode fornecer o coeficiente do Kappa como uma das opções de estatística dentro da
rotina tabelas cruzadas (crosstabs).

Reprodutibilidade de testes de critério de referência


Em geral, os mesmos tipos de reprodutibilidade e de validade que existem para os testes de
critérios de referência servem para os dados de norma de referência. As reprodutibilidades
de equivalência e de estabilidade podem ser estimadas (veja Capítulo 6).

Reprodutibilidade de equivalência
Mahar e colaboradores (1997) analisaram a reprodutibilidade do critério de referência e da
norma de referência de uma corrida/caminhada de uma milha (1,6 km) e o teste PACER
(ambos são usados no aptidograma). A amostra consistia de 266 crianças de 4ª e 5ª séries.
Elas foram submetidas a dois testes PACER e a uma corrida/caminhada de uma milha. A
reprodutibilidade de equivalência foi analisada entre a corrida/caminhada de uma milha
e entre cada teste PACER de acordo com a amostra total e o sexo. Ambos os valores P e K
foram calculados para todos os casos. Os resultados são apresentados na Tabela 7.2.
A análise dos resultados indica que os valores de P são bem elevados (0,65 ⱕ P ⱕ 0,83)
e estão associados com níveis variados de K (0,30 ⱕ K ⱕ 0,65). Lembre-se que é esperado
que os valores de K sejam mais conservadores que os de P. Enquanto a reprodutibilidade
de equivalência parece ser no mínimo aceitável para a amostra total e para os meninos, os
valores para as meninas são muito mais baixos (valores de P de 0,66 e 0,65 e os valores de
K de 0,33 e 0,30). Isso enfatiza não somente a natureza da estimativa da reprodutibilidade
do teste de critério de referência, mas também a importância em se analisar situações espe-
cíficas de reprodutibilidade.

Reprodutibilidade de estabilidade
Rikli, Petray e Baumgartner (1992) analisaram a reprodutibilidade do teste de corrida para
as crianças do jardim da infância até a 4ª série. A estimativa da reprodutibilidade do teste-
-reteste estimada utilizando tanto as técnicas de normas de referência (reprodutibilidade
intraclasse) como as de critério de referência (P) foram calculadas.

Morrow_07.indd 142 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 143

Tabela 7.2 Reprodutibilidade de equivalência do critério de referência entre a corrida/


caminhada de uma milha e o PACER
Teste Amostra total Meninos Meninas
Teste 1

P 0,76 0,83 0,66

K 0,51 0,65 0,33

Teste 2

P 0,71 0,76 0,65

K 0,43 0,52 0,30


Nota: para a prova 1, n = 126 meninos, n = 95 meninas e o total (ambos) n = 221; para a prova 2, n = 122 meninos, n =
91 meninas e o total (ambos) n = 213.

Os dados dos testes de corrida/caminhada de uma milha, três quartos de milha e meia
milha foram a princípio coletados no outono (em 1.229 crianças: 621 meninos e 608 me-
ninas) e posteriormente na primavera (1.050 crianças – 543 meninos e 507 meninas). O
valor de P para esses dados foi calculado usando os pontos de corte do Physical Best e do
aptidograma. Os resultados são apresentados na Tabela 7.3.
As análises dos resultados indicam que todas as estimativas de reprodutibilidade estão
dentro da variação aceitável (P ⱖ 0,70), exceto os padrões do aptidograma para meninas
com 5 anos de idade (outono = 0,69, primavera = 0,51) e para meninos (P = 0,66) e me-
ninas (P = 0,45) com 6 anos. Esses valores de critérios de referência são consistentemente
mais altos do que os valores de normas de referência, o que é compreensível em virtude de
os valores de P não terem sido corrigidos ao acaso. Rikli e colaboradores (1992) também
explicam isso da seguinte maneira: “Os valores mais altos para o Physical Best não são sur-
preendentes em decorrência de o P ser sempre maior quando existe grande porcentagem
de escores que alcançam ou não o padrão no teste-reteste” (p.274).

Tabela 7.3 Estimativa da reprodutibilidade de critérios de referência


Idade
5 6 7 8 9

O P O P O P O P O P

Physical Best
½ milha M 0,79 0,86 0,98 0,95 0,92 0,86 0,97 0,83 0,89 0,90

F 0,88 0,74 0,98 0,90 0,89 0,91 0,96 0,91 0,92 0,75

1 milha M 0,70 0,70 0,94 0,89 0,95 0,92 0,90 0,94 0,95 0,93

F 0,75 0,88 0,88 0,73 0,81 0,87 0,95 0,94 0,92 0,90

Aptidograma
1 milha M 0,75 0,70 0,76 0,66 0,85 0,77 0,91 0,85 0,86 0,83

F 0,69 0,51 0,71 0,45 0,81 0,85 0,90 0,84 0,83 0,94
Nota: O é outono; P é primavera.
Reimpressa com permissão de Research Quarterly for Exercise and Sport, Vol. 63, p. 270-276, Copyright 1974, by the
American Alliance for Health, Physical Education, Recreation and Dance, 1900 Association Drive, Reston, VA 20191.

Morrow_07.indd 143 28/02/13 10:56


144 Morrow, Jackson, Disch & Mood

Validade de testes de critério de referência


A validade dos testes de critério de referência é geralmente estabelecida com algum tipo de si-
tuação relacionada ao critério, seja concorrente, seja preditiva. A validade do construto pode
ser demonstrada ao se analisar a sobreposição de dois grupos medidos em um continuum.

Validade de critério
Um exemplo da abordagem de validade de critério, nesse caso, validade concorrente,
pode ser observado no trabalho de Cureton e Warren (1990). Lembre-se de que Cureton e
Warren estudaram os padrões de critérios de referência para o teste de corrida/caminhada
de uma milha. Foram utilizados os testes do aptidograma (Cooper Institute for Aerobics
Research, 1987) e do Physical Best (AAHPERD, 1988). Ambos os protocolos fornecem
critérios-padrão de referência. Os dados podem ser vistos na Figura 7.1.
Os resultados desses dois exemplos de testes de critérios de referência são apresentados
na Figura 7.4. Esses resultados ilustram alguns dos problemas da interpretação dos resul-
tados de testes de critérios de referência. Ambos os testes têm resultados significativos no
qui-quadrado; o coeficiente de contingência é maior para os padrões do Physical Best; a
porcentagem de concordância e o coeficiente Kappa são maiores para o aptidograma.
Agora, observe novamente a Figura 7.1a, que mostra que 85% dos indivíduos foram
corretamente classificados no aptidograma. Onze por cento atingiram o padrão no teste

corrida/caminhada, mas estavam abaixo do critério de VO2máx. Esses são resultados falso-
-negativos, ou seja, o participante é considerado bom no teste de campo (i.e., corrida/cami-
nhada), mas, na verdade (i.e., critério), está abaixo do padrão. Observe também que 4% (n
= 21) dos indivíduos não alcançam o padrão do teste de campo, mas estão acima do critério

para o VO2máx. Esses indivíduos são considerados como falso-positivos em decorrência de
seus resultados do teste de campo indicarem que não estão no padrão, mas seus desempe-
nhos no critério estarem acima do padrão. Compare os resultados falso-negativo e falso-
-positivo para os resultados do aptidograma e do Physical Best na Figura 7.1. O impacto do
falso-negativo e do falso-positivo pode ser importante na determinação do teste de campo
que pode ser usado. Para ajudá-lo a diferenciar entre falso-negativo e falso-positivo, consi-
dere um teste de colesterol que envolve a perfuração do dedo para obter uma gota de san-
gue. O método ou o critério para estimar o colesterol seria a retirada de sangue venoso. Os
resultados da perfuração do dedo (ou seja, o teste de campo) podem ser precisos (você foi
identificado corretamente como tendo um nível de colesterol bom ou não) ou imprecisos.
Caso o teste de campo relate que o nível de colesterol está saudável quando, na verdade, não
está, o resultado é falso-negativo. Caso o resultado do teste de campo indique que o nível de
colesterol está alto quando, na verdade, está em um bom nível, o resultado é falso-positivo.

Validade de construto
O ajuste dos pontos de corte é um empreendimento difícil. O método de grupo divergente
pode ser utilizado como procedimento de validação de construto. Como apresentamos na

Tabela 7.4 Comparação da validade de dois testes de critérios de referência


Aptidograma Physical Best
Qui-quadrado χ2 = 55,35, df = 1, p <0,001 χ2 = 66,41, df = 1, p < 0,001

Coeficiente de contingência 0,309 0,338

Porcentagem de concordância (P) 0,85 0,61

Kappa 0,288 0,277

Morrow_07.indd 144 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 145

Figura 7.3, o conceito é utilizado para encontrar dois grupos que são claramente diferentes
um do outro. Para estabelecer o ponto de corte utilizando essa técnica, as distribuições dos
escores para os grupos divergentes são apresentadas. O ponto nas curvas em que os escores
se sobrepõem é utilizado como critério do ponto de corte. Esse método é explicado em
mais detalhes por Plowman (1992). A aplicação teórica dessa abordagem poderia ser sele-
cionar dois grupos de adultos (ou crianças). Um desses grupos seria fisicamente ativo para
obter os benefícios à saúde, enquanto o outro não seria suficientemente ativo. A obtenção
de dados referentes à quantidade de atividade física para cada um dos grupos e, então, a
confecção do gráfico auxiliariam na montagem de um ponto de corte para uma quantidade
mínima de atividade física necessária para se obter os benefícios à saúde.
Um estudo recente de Tarter e colaboradores (2009) apresenta um exemplo de valida-
de de construto utilizando os critérios de referência da abordagem e testes de critérios de
referência relacionados ao construto chamado de análise receptora de curva de operação
(ROC). Os autores estavam analisando o uso de um conjunto de medidas de desempenho
chamado de índice de aptidão física composta para predizer a capacidade para jogar na
National Hockey League. Jogar na National Hockey League foi definido como estar em,
pelo menos, cinco jogos dentro de um período de quatro anos após o draft. O ROC maxi-
miza o número de discriminações entre os que alcançaram o critério e aqueles que não o
fizeram. Foi verificado que o estabelecimento do ponto de corte no percentil 80 do índice
de aptidão física composta para os homens de defesa rendeu uma probabilidade de 70%
de sucesso, enquanto o mesmo percentil rendeu uma probabilidade de apenas 50% para
os atacantes. Quando os escores do índice de aptidão física composta foram ajustados no
percentil 90 houve a probabilidade de defensores e atacantes deslocaram-se para 72 e 61%,
respectivamente. Esse estudo novamente aponta para a importância de se fixar de modo
apropriado os pontos de corte.

EXEMPLOS DE TESTES DE CRITÉRIOS DE REFERÊNCIA


A lógica por trás do uso e da interpretação dos procedimentos de reprodutibilidade e de
validade com testes de critérios de referência é similar àquela com medidas de normas de
referência apresentadas no Capítulo 6. A reprodutibilidade de estabilidade está estimada
quando dois testes da mesma medida são administrados. Nos testes de critérios de referên-
cia, isso representa a reprodutibilidade ou a dependência da classificação. Isto é, a equi-
valência está sendo mensurada caso dois testes diferentes estejam sendo comparados para
medir a mesma variável. Com os testes de critérios de referência, a equivalência representa
a magnitude em que os dois testes resultam em classificações equivalentes para os indiví-
duos que estão sendo avaliados. Não existe analogia à reprodutibilidade da consistência

Insuficientemente ativo Suficientemente ativo

Ponto de corte teórico

Figura 7.3 Exemplo teórico do método de grupo divergente.

Morrow_07.indd 145 28/02/13 10:56


146 Morrow, Jackson, Disch & Mood

interna (ou seja, reprodutibilidade alfa) com os testes de critérios de referência. Caso uma
das medidas seja o critério, o assunto a ser investigado é a validade. Como já consideramos
várias vezes neste capítulo, determinar o critério com os testes de critérios de referência
é o aspecto mais difícil de estabelecer. No entanto, quando a análise visa determinar se
a medida é significativamente associada ao critério, a validade do teste é investigada. Os
exemplos a seguir apresentam aplicações específicas de técnicas selecionadas para avaliar a
reprodutibilidade e a validade por meio do uso dos testes de critérios de referência. Tente
calcular o P e o K para os itens de domínio a seguir.

Item de domínio 7.1


Suponha que dois testes de aptidão física relacionados ao critério tenham sido desenvolvi-
dos para estabelecer pontos de corte para o abdominal. Para o teste um, os estudantes exe-
cutam o abdominal com as mãos no peito. Para o teste dois, a execução é feita com as mãos
atrás da cabeça. Os testes são equivalentes? Ambos os testes são administrados a um grupo
de estudantes, e uma tabela de contingência 2 x 2 é desenvolvida para determinar se existe
equivalência na classificação dos dois testes. Os dados são apresentados na Tabela 7.5. Siga
os seguintes passos para obter o qui-quadrado, o coeficiente de contingência e o K. O PASW
não calcula o P, então você terá de fazer isso manualmente a partir do relatório do PASW
(um modelo do Excel está disponível no material on-line (em inglês) dos Capítulos 5 e 6).
1. Faça o download da Tabela 7.5 do guia de estudos on-line.
2. Inicie o PASW.
3. Clique no menu Análise (Analyse).
4. Vá para a Estatística descritiva (Descriptive statistics) e entre em Tabelas cruzadas
(Crosstabs) e clique.
5. Coloque “mão no peito” nas linhas e “mão na cabeça” nas colunas utilizando as setas.
6. Clique em Estatísticas (Statistics).
7. Habilite as caixas Qui-quadrado e Kappa.
8. Clique em Continuar (Continue).
9. Clique em OK.

Item de domínio 7.2


Os especialistas em desempenho humano utilizam a reprodutibilidade teste-reteste – esta-
bilidade de administrações sucessivas do teste – mais frequentemente do que a de equiva-
lência para determinar a reprodutibilidade dos testes de critérios de referência. Suponha que
selecionamos um teste que será administrado na sexta-feira (dia 1) e, posteriormente, para o
mesmo grupo de estudantes, na segunda-feira seguinte (dia 2). Estamos preocupados com a
consistência da classificação nos dois períodos de teste. Os dados são apresentados na Tabe-
la 7.6. Use os comandos do PASW do item de domínio anterior para calcular as estatísticas.

Item de domínio 7.3


A partir do ponto de vista da validade (quer seja validade preditiva, concorrente ou de cons-
truto), a aplicação da tabela de contingência 2 x 2 é apropriada. Por exemplo, vamos admitir
que temos um padrão para a flexibilidade e suspeitamos que, caso atinjam um certo grau
de flexibilidade, as pessoas podem reduzir a incidência de lesão na coluna lombar. Portanto,
queremos constatar se o teste de sentar e alcançar discrimina adequadamente aqueles que
possuem história de dores lombares daqueles que não possuem. Os dados são apresentados
na Tabela 7.7. Utilize os mesmos comandos do PASW apresentados no item de domínio 7.1
e interprete a validade do teste de sentar e alcançar para predizer as dores lombares.

Morrow_07.indd 146 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 147

Tabela 7.5 Exemplo de reprodutibilidade de equivalência


Indivíduo Mãos no peito Mãos na cabeça
1 1 1
2 1 1
3 1 1
4 1 1
5 1 1
6 1 1
7 1 1
8 1 1
9 1 1
10 1 1
11 1 1
12 1 1
13 1 1
14 1 0
15 1 0
16 1 0
17 1 0
18 1 0
19 1 0
20 1 0
21 0 0
22 0 0
23 0 0
24 0 0
25 0 0
26 0 0
27 0 0
28 0 0
29 0 0
30 0 0
31 0 0
32 0 0
33 0 0
34 0 0
35 0 1
36 0 1
37 0 1
38 0 1
39 0 1
40 0 1
Nota 0 = reprovado, 1 = aprovado.

Morrow_07.indd 147 28/02/13 10:56


148 Morrow, Jackson, Disch & Mood

Tabela 7.6 Exemplo de reprodutibilidade de estabilidade


Indivíduo Sexta-feira Segunda-feira
1 1 1
2 1 1
3 1 1
4 1 1
5 1 1
6 1 0
7 1 0
8 1 0
9 1 1
10 1 1
11 1 1
12 1 1
13 1 1
14 1 1
15 1 1
16 1 1
17 1 1
18 1 1
19 1 0
20 1 0
21 0 0
22 0 0
23 0 0
24 0 0
25 0 0
26 0 0
27 0 0
28 0 0
29 0 0
30 0 0
31 0 1
32 0 1
33 0 0
34 0 0
35 0 0
36 0 0
37 0 0
38 0 1
39 0 1
40 0 1
Nota: 0 = não alcança o critério, 1 = alcança o critério.

Morrow_07.indd 148 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 149

Tabela 7.7 Exemplo de reprodutibilidade estatística


Indivíduo Dores lombares Sentar e alcançar
1 1 1

2 1 1

3 1 1

4 1 1

5 1 1

6 1 1

7 1 1

8 1 1

9 1 1

10 1 1

11 1 1

12 1 1

13 1 1

14 1 1

15 1 1

16 1 1

17 1 1

18 1 1

19 1 1

20 1 1

21 1 0

22 1 0

23 1 0

24 1 0

25 1 0

26 1 0

27 1 0

28 1 0

29 1 0

30 1 0

31 0 0

32 0 0

33 0 0

(continua)

Morrow_07.indd 149 28/02/13 10:56


150 Morrow, Jackson, Disch & Mood

Tabela 7.7 Exemplo de reprodutibilidade estatística (continuação)


Indivíduo Dores lombares Sentar e alcançar
34 0 0

35 0 0

36 0 0

37 0 0

38 0 0

39 0 0

40 0 0

41 0 0

42 0 0

43 0 0

44 0 0

45 0 0

46 0 0

47 0 0

48 0 1

49 0 1

50 0 1

51 0 1

52 0 1

53 0 1

54 0 1

55 0 1

56 0 1

57 0 1

58 0 1

59 0 1

60 0 1
Nota: Para coluna lombar: 0 = ausência de dores lombares, 1 = presença de dores lombares; para sentar e alcançar:
0 = aprovado, 1 = reprovado.

APLICAÇÃO DE CRITÉRIO-PADRÃO DE REFERÊNCIA À


EPIDEMIOLOGIA
A epidemiologia é uma ferramenta que se torna cada vez mais conhecida na área de medi-
das do desempenho humano. Ela está intimamente relacionada aos testes de critérios de
referência em virtude de as variáveis serem com frequência nominais em natureza e algu-

Morrow_07.indd 150 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 151

mas das estatísticas utilizadas serem aquelas calculadas a partir de uma tabela contingente
2 x 2. O critério medido é categórico; por exemplo, vivo ou morto; tem doença ou não tem
doença. As variáveis “preditoras” podem ser nominais (p. ex., ser suficientemente ativo ou
não) ou contínuas (p. ex., peso). Quando tanto as variáveis preditoras como as de critério
são nominais, as estatísticas epidemiológicas são mais similares aos testes de critérios de re-
ferência (e podem mesmo ser calculadas com as Tabelas Cruzadas (crosstabs) ou Excel).
A epidemiologia é o estudo de distribuição e determinantes do estado e de eventos
relacionados à saúde da população, bem como das aplicações desse estudo para o controle
de problemas de saúde (após 1992). É a ciência fundamental da saúde pública, usando o
teste de hipótese, estatística e métodos de pesquisa para desenvolver a compreensão da fre-
quência e distribuição de mortalidade (morte) e morbidade (doença ou lesão) e, de modo
mais importante, os fatores de risco que estão casualmente relacionados a mortalidade e
morbidade (Stone, Armstrong, Macrina e Pankau, 1996). Na área da atividade física, as
pesquisas modernas em epidemiologia têm claramente descoberto o aumento do risco para
inúmeras doenças crônicas relacionadas ao sedentarismo ou ao estilo de vida fisicamente
inativo (Ainsworth e Matthews, 2001; Caspersen, 1989; USDHHS 1996, 2008).
A área descritiva da epidemiologia considera a frequência e a distribuição de morta-
lidade e morbidade de acordo com o tempo, o lugar e a pessoa. Por exemplo, qual foi a
taxa de câncer de mama em mulheres adultas nos Estados Unidos na década de 1990? A
epidemiologia também pode auxiliar a identificar os fatores de risco de mortalidade e mor-
bidade. A área analítica da epidemiologia persegue as causas e a prevenção de mortalidade
e morbidade. Por exemplo, a obesidade aumenta o risco de câncer de mama em mulheres?
Em mulheres que são obesas, a migração para uma faixa de peso saudável reduz o risco de
câncer de mama? As potenciais abordagens de pesquisa estão fundamentadas na predição
de resultados para o futuro e na investigação retrospectiva, observando os dados previa-
mente coletados. Para tanto, a epidemiologia usa uma variedade de delineamentos de pes-
quisa, alguns dos quais são ilustrados na Tabela 7.8. (O modelo do Excel disponibilizado
no material on-line calcula essas estatísticas.)

Tabela 7.8 Delineamentos de pesquisa em epidemiologia


Tipo Descrição
Experimental
Ensaio clínico randomizado Aleatoriamente divide os indivíduos em grupos de
tratamento ou exposição

Ensaio comunitário Aleatoriamente divide a comunidade em grupos de


tratamento ou exposição

Observacional
Série de casos Observa casos em determinado momento ou lugar

Transversal Analisa um ou mais grupos em determinado ponto


no tempo

Estudo de mortalidade ou morbidade Compara os resultados de um grupo com relação à


proporcional população

Caso-controle Compara casos conhecidos de mortalidade e


morbidade com casos não combinados

Coorte Longitudinal, geralmente acompanha populações ao


longo de um tempo

Morrow_07.indd 151 28/02/13 10:56


152 Morrow, Jackson, Disch & Mood

A epidemiologia é uma ciência que requer o uso de estatísticas avançadas e modelos


multivariados complexos para a compreensão da relação entre fatores de risco, mortalidade
e morbidade, controlando os fatores de confusão ou as variáveis intervenientes. No entanto,
a lógica é similar àquela apresentada no Capítulo 5, e são tomadas decisões sobre a hipótese
nula. Enquanto a estatística pode ser diferente, a lógica é idêntica. São usados complexos
modelos estatísticos, como regressão logística e riscos proporcionais, na análise da relação
entre o estado da doença e os preditores do estado da doença. Esses tipos de análises estão
fora do escopo deste livro, e não é necessário que os conheçamos no momento. Contudo,
precisamos conhecer alguns procedimentos básicos e estatísticas para compreender qual é
o papel dos critérios-padrão de referência na epidemiologia. Duas estatísticas básicas repre-
sentam o cálculo de incidência e prevalência.
• Incidência – O número, a proporção, a taxa ou a porcentagem de novos casos de
mortalidade e morbidade. A incidência poderia ser calculada em um ensaio clínico
randomizado ou em um estudo prospectivo de coorte longitudinal.
• Prevalência – O número, a proporção, a taxa ou a porcentagem de um total de casos
de mortalidade ou morbidade. A prevalência é calculada no estudo transversal.
Os valores de incidência e prevalência são frequentemente expressos como uma taxa,
que representa o número de casos por unidade na população. Um exemplo poderia ser
10 casos por 1.000 na população ou 100 mortes por 100.000 na população. A expressão
numérica tanto da incidência como da prevalência no formato de uma taxa permite que
duas populações de tamanhos muito diferentes sejam comparadas. Por exemplo, a taxa de
mortalidade em Dallas, Texas, pode ser comparada com a de Nova York.
Na epidemiologia analítica, convertemos as medidas de incidência ou prevalência em
estimativas de risco.
• Risco absoluto – O risco (proporção, porcentagem, taxa) de mortalidade ou morbi-
dade em determinada população que é exposta ou não ao fator de risco.
• Risco relativo – A relação de risco entre as populações exposta ou não. É calculada
com as medidas de incidência.
• Odds ratio – Uma estimativa de risco relativo usado em estudos de prevalência.
• Risco atribuível – O risco de mortalidade e morbidade diretamente relacionado ao
fator de risco. Pode ser pensado como a redução do risco relacionado com a remo-
ção do fator de risco.
Combinemos os padrões de critérios de referência com um exemplo de uma simples
análise epidemiológica. O colesterol elevado é definido como > 240 mg·dL pela American
Heart Association e pelo National Heart, Lung, and Blood Institute. Portanto, o critério-
-padrão de referência para o colesterol total elevado é igual ou superior a 240 mg·dL. Agora,
examinemos os resultados de um hipotético estudo epidemiológico sobre a relação entre o
colesterol elevado e a mortalidade por infarto. Analise a Tabela 7.9, que é uma tabela de con-
tingência 2 x 2. Convenientemente, rotulamos cada célula como A, B, C ou D. Isso tornará
mais simples todos os cálculos descritivos e analíticos. Também podemos conduzir a análise
com base na incidência e na prevalência. Nesse estudo, 56 indivíduos com colesterol acima
e 44 indivíduos com colesterol abaixo desse critério são comparados. Todos os sujeitos têm
história de doença coronariana. Note que ambas as variáveis são categóricas nesse exemplo.
Caso analise todos os resultados na Figura 7.4, será possível observar o seguinte:
• Todos os cálculos podem ser feitos com fórmulas simples, usando os identificadores
de células A, B, C e D.
• O risco absoluto de morte por infarto foi 32% para o total de indivíduos; 45% para
os sujeitos com colesterol elevado; e 16% para aqueles sem colesterol elevado.

Morrow_07.indd 152 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 153

Tabela 7.9 Resultados de um estudo hipotético relacionando colesterol e mortalidade


por infarto
Resultado
Mortalidade referida a outro
Exposição Mortalidade por infarto fator que não infarto
Colesterol elevado A B
25 31

Sem colesterol elevado C D


7 37

• O risco relativo de 2,81 indica que o colesterol elevado aumenta o risco de mortali-
dade por infarto 2,81 vezes caso o indivíduo tenha colesterol elevado.
• A odds ratio indica 4,26 vezes mais risco de mortalidade por infarto caso o indivíduo
tenha colesterol elevado.
• O risco atribuído indica que o colesterol elevado contribui em 64% para o risco de
mortalidade por infarto. Então, o infarto poderia ser reduzido em 64% caso a popu-
lação não apresentasse mais colesterol elevado.
O exemplo usado na Tabela 7.9 e na Figura 7.4 foi planejado para servir como uma
simples demonstração de conceitos e análises básicos em epidemiologia. No entanto, estu-
dos que usam métodos epidemiológicos têm demonstrado relações muito fortes entre nível
de atividade física, aptidão física e inúmeros desfechos de morbi-mortalidade para doenças
crônicas. No Capítulo 9 serão discutidas mais detalhadamente algumas dessas descobertas.

Item de domínio 7.4


1. Acesse o material on-line (em inglês) do Capítulo 7 e baixe os dados da Tabela 7.9.
2. Assegure-se de que possa calcular a odds ratio e o risco relativo por meio das Tabelas
Cruzadas (Crosstabs).

A+C 25 + 7 32
Total = = = = 0,32 ou 32%
A+B+C+D 25 + 31 + 7 + 37 100

A 25 25
Alto = = = = 0,45 ou 45% Risco absoluto
A+B 25 + 31 56

C 7 7
Não alto = = = = 0,16 ou 16%
C+D 7 + 37 44

A ÷ (A + B) 0,45
RR = = = 2,81 Risco relativo
C ÷ (C + D ) 0,16

AD 25 * 37 925
OR = = = = 4,26 Odds ratio
BC 7 * 31 217

[A ÷ (A + B)] – [C ÷ (C + D)] 0,45 – 0,16


RA = = = 0,64 ou 0,64% Risco atribuído
A ÷ (A + B) 0,45

Figura 7.4 Análises estatísticas de dados epidemiológicos da Tabela 7.9

Morrow_07.indd 153 28/02/13 10:56


154 Morrow, Jackson, Disch & Mood

3. Para fazer isso, execute: Analise “Estatísticas Descritivas” Tabelas Cruzadas (Analyze
“Descriptive Statistcs” Crosstabs) e coloque “colesterol” na linha e “infarto” na coluna.
4. Depois, vá para Estatísticas (Statistics) e clique em Risco (Risk).
5. Quando revisar os resultados no PASW, será possível observar que a odds ratio e os
valores de risco relativos são apresentados no relatório.

Item de domínio 7.5


Na Tabela 7.10, uma tabela de contingência 2 x 2, são apresentados os resultados de um
estudo conduzido por Bungum, Peaslee, Jackson e Perez (2000). O estudo analisou a relação
da atividade física durante a gravidez e o risco de cesárea em comparação ao parto normal.
Realize as análises apresentadas na Figura 7.4 com esses dados.

Aplicação do conjunto de dados


O banco de dados do Capítulo 7, disponível no material on-line (em inglês) consiste em dados
de composição corporal do aptidograma de crianças em idade escolar. O aptidograma permite
a determinação da zona saudável de aptidão física para o índice de massa corporal e para as
COMPLETE dobras cutâneas (para estimar a porcentagem de gordura corporal). Teoricamente, não deveria
fazer qualquer diferença utilizar um ou outro teste. Uma pessoa que está com sobrepeso ou
sob risco poderia ser identificada como tal em cada um desses parâmetros. Isso é um exemplo
de reprodutibilidade de equivalência. Os resultados são “equivalentes” independentemente do
método? Use o PASW para calcular o qui-quadrado, o coeficiente de contingência e o Kappa.
Será preciso calcular a porcentagem de acordo com a tabela 2 x 2 feita no PASW. Qual a in-
terpretação dos resultados desses dois procedimentos? São equivalentes? Seria possível obter
resultados similares se fossem conduzidas análises separadas para os meninos e as meninas?

Tabela 7.10 Resultados de um estudo de Bungum e colaboradores (2000)


Resultados
Exposição Parto cesárea Parto normal
Sedentário A B
26 67

Ativo C D
7 37

Desafio em medida e avaliação


Quando Christina chegou à biblioteca, ela leu Medida e avaliação do desempenho humano, quarta edição, e achou
que precisaria selecionar ferramentas de medida de critério de referência para analisar a relação entre o rompimento
dos músculos isquiotibiais e o uso da creatina. Ela decidiu perguntar aos atletas duas simples questões:
Questão um: nos últimos 12 meses, você sentiu dores na musculatura isquiotibial?
Questão dois: durante os últimos 12 meses, você usou creatina?
As respostas seriam simplesmente sim ou não. A medida de critério é “o rompimento dos músculos isquioti-
biais”, e o preditor é “o uso de creatina”. Observe que ambas as variáveis são nominais (com duas categorias: sim
ou não).
A partir da leitura, Christina sentiu que poderia estudar a validade da utilização da creatina como preditor de
lesão dos músculos isquiotibiais ao analisar os valores de proporção de concordância (P) e o Kappa (K). Ela pergun-
taria a todos os indivíduos duas questões (não somente àqueles que tinham lesões nos isquiotibiais) e montaria
uma tabela de contingência 2 x 2. Ela usaria cada uma dessas estatísticas e as estatísticas epidemiológicas para
investigar os riscos de lesão dos músculos isquiotibiais associados com o uso da creatina. Ela espera, como resul-
tado do estudo, obter informação que também sirva para aconselhar os atletas quanto ao uso dessa substância.

Morrow_07.indd 154 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 155

RESUMO
Existem situações específicas de medida na área de desempenho humano que são bem
apropriadas para a medida do critério de referência; além disso, existem técnicas estatísti-
cas específicas que devem ser utilizadas com os testes de critérios de referência. O princi-
pal problema associado ao teste de critério de referência na área de desempenho humano
refere-se justamente ao estabelecimento do critério ou do ponto de corte. Em virtude de
poucos problemas na área de medida do desempenho humano apresentarem escores de
critério concretos associados, os pontos de corte têm que ser estabelecidos a partir da opi-
nião de especialistas ou de dados normativos. Com frequência, os pontos de corte podem
ser arbitrários, afetando a validade empírica. O estabelecimento desses escores também
afeta a reprodutibilidade e a validade do teste. Portanto, os escores de critério devem ser
estabelecidos com elevado grau de cautela.
Na área de testes de aptidão física para jovens, os padrões de critérios de referência têm
sido estabelecidos pelos idealizadores do teste (p. ex., aptidograma). Em outras áreas do
desempenho humano, tais como a de testes de habilidades esportivas, tais padrões não têm
sido estabelecidos. Na pesquisa e na prática epidemiológica, foram estabelecidos muitos
pontos de corte diretamente relacionados aos riscos à saúde. Veja Morrow e Zhu (2008)
para um resumo do emprego dos testes de critérios de referência com o aptidograma.
As técnicas estatísticas de critérios de referência são utilizadas para analisar dados. A
medida do critério de referência pode ser uma ferramenta valiosa para a análise da medida
de desempenho humano. O teste de critério de referência é o método de escolha quando as
variáveis são categóricas e quando um nível óbvio de habilidade deve ser atingido antes de
se passar ao próximo nível (p. ex., as habilidades de caminhar na água e flutuar precisam
ser aperfeiçoadas antes de se entrar na parte mais funda da piscina).
As estatísticas comumente utilizadas com a validade e a reprodutibilidade do teste de
critério de referência são o qui-quadrado, a proporção de concordância (P) e o Kappa (K),
que ajustam a proporção de concordância ao acaso.
Por fim, foi possível aprender como as estatísticas epidemiológicas estão intimamente
relacionadas aos procedimentos de testes de critérios de referência. A epidemiologia é um
método valioso para identificar os fatores de riscos para os desfechos de muitas doenças.

APRENDA Acesse o material on-line (em inglês) para realizar tarefas e preencher
questionários que o ajudarão a dominar o conteúdo deste capítulo.

Morrow_07.indd 155 28/02/13 10:56


PARTE IV
Aplicações do
Desempenho
Humano

A
Parte IV deste livro aborda suas atividades após sua formatura. Alguns
profissionais trabalharão em estabelecimentos de ensino, outros com
atletas, e outros, ainda, em uma ampla variedade de ambientes relacio-
nados ao desempenho humano, como centros de saúde, academias, programas
de bem-estar, hospitais e universidades. As medidas e as tarefas de avaliação irão
variar de acordo com o tipo de atividade profissional. No entanto, as questões
referentes a reprodutibilidade e validade são comuns em todas as carreiras.
Esta parte se inicia com uma breve descrição dos domínios que serão ilustra-
dos no restante do livro. Os domínios refletem as aprendizagens cognitiva, psico-
motora e afetiva que você irá avaliar após a graduação. Cada um desses domínios
reflete uma taxonomia (ver Cap. 1). Cada nível da taxonomia é construído com
base no nível anterior a ele. No domínio cognitivo, é necessário demonstrar co-
nhecimento antes de se exibir compreensão.
De modo similar, você não deve esperar que crianças alcancem um bom de-
sempenho em uma tarefa difícil (ou de ordem superior), e deve supor que todos
os atletas universitários atinjam uma pontuação elevada em uma tarefa motora
simples. Suas tarefas de medidas devem refletir o nível apropriado de aprendi-
zagem ou desempenho que se espera das pessoas com quem está trabalhando.
Portanto, os protocolos de medidas para cada domínio devem ser cuidadosa-
mente considerados. Um conceito-chave em medidas é ser capaz de delinear e
empregar protocolos que discriminem pessoas que estão em níveis diferentes de
conhecimento.
Na Parte I, foram apresentados testes e medidas, além do uso dos compu-
tadores para auxiliar nas tomadas de decisão em avaliação. Na Parte II, foram
introduzidos os conceitos básicos de estatística, incluindo estatística descritiva
(Cap. 3), correlação e regressão (Cap. 4) e estatística inferencial (Cap. 5). Es-
sas duas partes fornecem uma base para o uso das ferramentas necessárias para

Morrow_08.indd 157 28/02/13 10:56


158 Morrow, Jackson, Disch & Mood

tomar decisões reproduzíveis e válidas. Na Parte III, foram apresentadas as bases teóricas
da reprodutibilidade e da validade. Você usou o conhecimento das Partes I e II para tomar
essas decisões.
Portanto, você já tem a base, a teoria e a informação necessárias para tomar decisões
válidas. Na Parte IV, dirigimos sua atenção aos vários domínios necessários para essas to-
madas de decisão. O Capítulo 8, sobre o domínio cognitivo, traz informação sobre o de-
senvolvimento de testes e levantamentos válidos escritos. Os Capítulos 9, 10 e 11, rela-
cionados ao domínio psicomotor, analisam a avaliação válida em aptidão física e avaliação
da atividade física. A literatura médica e científica sobre as relações entre aptidão física
e atividade física e prevenção de doenças aumenta a cada ano. Portanto, os cientistas do
exercício devem compreender as tarefas de reprodutibilidade e validade e como elas se
relacionam com a avaliação do desempenho humano. A reprodutibilidade e a validade em
medida e avaliação da aptidão física adulta e da atividade física são discutidas no Capítulo
9, enquanto o Capítulo 10 aborda o assunto das medidas e avaliação da aptidão física e da
atividade física em jovens. O Capítulo 11 apresenta técnicas reproduzíveis e válidas para
a avaliação das habilidades esportivas e motoras no esporte e no desempenho humano. O
Capítulo 12, que aborda o domínio afetivo, fornece a diretriz para as tomadas de decisão
quando se usam as medidas psicomotoras em psicologia do esporte e do exercício. Os úl-
timos dois capítulos são direcionados especificamente àqueles estudantes que têm como
objetivo a carreira de ensino da educação física nas escolas. O Capítulo 13 analisa as toma-
das de decisão que levam à avaliação e ao registro de notas válido. O Capítulo 14 apresenta
exemplos de mecanismo de avaliação alternativa que fornecem maneiras adicionais de se
avaliar o desempenho do estudante.

Morrow_08.indd 158 28/02/13 10:56


8
Desenvolvimento de
Testes Escritos e de
Questionários

Objetivos
Tópicos
Após estudar este capítulo, você será capaz de:
Planejamento do teste 161
® planejar e confeccionar testes escritos com elevada
O que medir 162
qualidade;
Como medir 165
® desenvolver testes escritos com escores;
Construção e classificação do teste 170
® administrar testes escritos;
Questões semiobjetivas 170
Questões objetivas 172 ® analisar testes escritos; e
Questões dissertativas 184 ® compreender as preocupações associadas a planejamento,
Administração do teste 190 construção e melhoria do retorno dos questionários.
Análise do teste 193
Reprodutibilidade 193
Validade 195
Análise de item 195
Fontes de testes escritos 200
Instrumentos (questionários) 201
Divisão digital 201
Planejamento do questionário 202
Construção do questionário 202
Fatores que afetam a resposta ao questionário 204
Reprodutibilidade do questionário 205
Validade do questionário 205

ESTUDE A leitura dos tópicos no material


on-line (em inglês) o auxiliará a
identificar os principais conceitos
do capítulo.

Morrow_08.indd 159 28/02/13 10:56


160 Morrow, Jackson, Disch & Mood

Desafio em medida e avaliação


Kate é pesquisadora e está conduzindo um experimento sobre a eficácia do uso de computadores para o ensino de
conceitos estatísticos básicos. Ela dividiu aleatoriamente os alunos que cursam estatística básica entre três méto-
dos distintos de aulas. Um grupo aprenderá o método tradicional com palestra. No segundo grupo, todos usarão
o computador com uma abordagem multimídia recentemente desenvolvida. Esse grupo não assistirá às palestras.
O terceiro grupo assistirá às palestras e também realizará atividades de aprimoramento com o recurso multimídia.
Que decisões Kate precisa considerar e que passos precisa seguir para mensurar quão bem os alunos em cada grupo
aprenderão os conceitos básicos de estatística?

F
requentemente, o principal objetivo de um projeto de pesquisa ou do currículo de
educação física é aumentar o conhecimento e a compreensão dos indivíduos com
relação aos vários aspectos da atividade física. É necessário realizar medidas de domí-
nio cognitivo para determinar se o objetivo está sendo alcançado. O teste escrito é usado para
mensurar o nível de absorção dos objetivos cognitivos. Além disso, um objetivo comum é avaliar as
atitudes, as opiniões ou os pensamentos dos indivíduos sobre determinado assunto. Com frequência
se atinge esse objetivo por meio do uso de questionários. A construção e administração de um ques-
tionário preciso é algo muito mais complexo do que se pensa.
Existem muitos recursos para provas escritas. Os editores de livros didáticos (ou seja,
a editora) frequentemente fornecem testes ou bancos de dados com questões a partir das
quais você possa construir seus próprios testes. Na área de desempenho humano, no en-
tanto, as fontes externas de testes escritos são raras. Em educação física, a falta de testes
padronizados se deve em parte à grande variedade de atividades incluídas nos currículos
da disciplina e ao fato de que existem menos livros disponíveis sobre essa matéria do que
sobre gramática e matemática. Em nossa disciplina, as fontes mais comuns de testes escri-
tos e questionários são, sem dúvida, o pesquisador ou o professor interessado na medida
dos objetivos cognitivos. Isso não é ruim, porque a pessoa que faz o teste deveria ser capaz
de construir um instrumento de medida válido (que meça o que se pretende medir). No
entanto, saber o que medir é diferente de saber como medir. Existem cinco requisitos para
a construção efetiva de provas escritas:
• Você precisa conhecer as técnicas adequadas para a construção de testes escritos.
Vários tipos de questões têm diferentes eficácias e usos em determinadas situações.
• Você deve dominar a área do assunto a ser testado. Sem esse conhecimento, é difícil
construir questões significativas.
• Você precisa ter boa expressão escrita. As questões desenvolvidas por pessoas sem
boas habilidades de escrita são muitas vezes ambíguas. Essa ambiguidade reduz a
validade e a reprodutibilidade do teste escrito em razão de não existirem formas de
distinguir se a resposta é incorreta em virtude da falta de conhecimento ou de um
erro na interpretação da questão.
• Você precisa ter consciência do nível de compreensão do grupo que será avaliado
para que possa construir questões com nível de dificuldade apropriado. Isso (como
será explicado posteriormente) pode afetar a eficiência do teste.
• O indivíduo que confecciona testes deve estar disposto a investir tempo e esforço
consideráveis na tarefa. Testes escritos eficazes não são realizados da noite para
o dia.

Morrow_08.indd 160 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 161

Se você analisar cuidadosamente esses cinco requisitos, notará que os quatro últimos
também apresentam qualidades para quem quer se tornar um pesquisador cuidadoso ou
um professor dedicado. No entanto, neste capítulo (e livro), nos limitaremos a apresentar
a informação sobre o primeiro requisito, técnicas adequadas para a construção de um teste
escrito. Os testes devidamente confeccionados podem resultar em decisões reproduzíveis
e válidas sobre a habilidade que será avaliada. A informação a seguir pode ser usada por
Kate durante a confecção de um teste para mensurar o conhecimento das técnicas básicas
em estatística.

PLANEJAMENTO DO TESTE
Primeiro, considere as diferenças entre os testes de domínio
(testes de critérios de referência) e de desempenho (testes de
normas de referência). O teste de domínio é usado para de-
terminar se o aluno alcançou o conhecimento suficiente para
atender aos requisitos mínimos estabelecidos pelo avaliador.
Isso não é usado para se obter a classificação relativa das ha-
bilidades cognitivas do aluno, mas para determinar o cum-
primento ou a falta de cumprimento de cada aluno com um
padrão ou critério definido anteriormente. Um exemplo bem
conhecido de teste de domínio é o ditado ortográfico em que
a pontuação esperada é perfeita ou quase perfeita – todas as
palavras escritas corretamente. Outro exemplo comum é a
parte escrita do teste para se obter a carteira de motorista,
em que é preciso um mínimo de questões corretas para a
aprovação.
O objetivo do teste de desempenho, por sua vez, é dis-
criminar entre diferentes níveis de desempenho. A identifica-
ção do progresso de cada aluno rumo ao alcance dos objetivos
é de grande interesse, uma vez que não costuma ser razoável
esperar que cada aluno alcance 100% de todos os objetivos
cognitivos propostos. Na área de desempenho humano, am-
bos os tipos de testes são importantes. Por exemplo, em uma
atividade potencialmente perigosa, como ginástica ou nata-
ção, o uso do teste de domínio das normas de segurança pode
No domínio psicomotor, nem todo aluno será capaz
ser prudente. Em sua maior parte, no entanto, este capítulo
de dominar todas as habilidades necessárias para
aborda as várias fases de construção e uso dos testes de de-
jogar tênis; no domínio cognitivo, nem todo aluno
sempenho, que são mais comumente utilizados para a ava- será capaz de dominar todos os objetivos cogniti-
liação do desempenho humano do que os testes de domínio. vos. Em ambos os casos, os testes de desempenho
são importantes para se verificar o nível de desem-
penho de cada aluno.
COMPLETE Acesse o material on-line (em inglês) e
complete a atividade 8.1.

Há duas decisões importantes quando se planeja o teste escrito. A primeira e a mais


importante refere-se ao que será medido. Uma técnica para assegurar que o teste escrito
mensure o objetivo desejado e que seja dada a ênfase correta para cada objetivo é o desen-
volvimento de uma tabela de especificações. A segunda decisão fundamental no plane-

Morrow_08.indd 161 28/02/13 10:56


162 Morrow, Jackson, Disch & Mood

jamento do teste escrito envolve responder várias questões sobre como medir, incluindo
aquelas sobre a frequência e o tempo do teste, a quantidade e o tipo de questões, bem
como o formato e o procedimento de classificação.

O que medir
A questão referente ao que o teste medirá deve ser respondida antes de se iniciar a instru-
ção. Os objetivos de um curso e as experiências utilizadas para alcançar esses objetivos, além da
implementação e sequência dessas experiências, devem ser determinados com antecedência para
que uma instrução seja eficaz. É possível alterar esses elementos de acordo com o progresso
da instrução, mas mudanças radicais não deveriam ser necessárias. Em qualquer caso, o
teste permitirá mensurar o grau em que os objetivos de curso são alcançados, assim como
avaliar onde podem surgir problemas. Quando os objetivos avaliados estão no domínio
cognitivo, o passo inicial da criação de um teste é o desenvolvimento de uma tabela de
especificações.
A tabela de especificações tem para o indivíduo que confecciona o teste escrito o mes-
mo peso que teria a planta de uma casa para o engenheiro. Ela fornece os planos para a
construção. A tabela de especificações identifica a importância relativa de cada conteúdo
de área do teste por meio da atribuição de um valor percentual. É uma tabela com duas
direções, com os objetivos do conteúdo da unidade de instrução ao longo de um eixo e os
objetivos educacionais ao longo de outro. Os objetivos do conteúdo são metas específicas
determinadas pelo professor, e os educacionais são temas genéricos sugeridos por vários
especialistas. A tabela de especificações auxilia a garantir a validade do conteúdo de um
teste (até que ponto os itens do teste refletem a importância do tema e as habilidades que a
avaliação pretende medir).
Observemos o exemplo que demonstra o processo de formulação da tabela de especi-
ficações para um teste com 60 itens que será usado em uma unidade de instrução de bad-
minton. Os objetivos do conteúdo da unidade de instrução e a decisão do avaliador sobre a
importância relativa podem ser:
História 5%
Valores 5%
Equipamento 10%
Etiqueta 10%
Segurança 10%
Regras 20%
Estratégia 15%
Técnicas de jogo 25%
Total 100%
Os objetivos educacionais (veja também no Capítulo 1) e a ponderação do instrutor
para cada item podem ser:
Conhecimento 30%
Compreensão 10%
Aplicação 30%
Análise 20%
Síntese 0%
Avaliação 10%
Total 100%

Morrow_08.indd 162 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 163

Uma vez determinados os objetivos e a importância relativa, é possível confeccionar a


tabela de especificações.
Para esse exemplo, o resultado é mostrado na Tabela 8.1. Os objetivos do conteúdo
e a ponderação relativa estão localizados no eixo vertical, e os objetivos educacionais e a
respectiva ponderação relativa, no eixo horizontal. A ponderação associada a uma única cé-
lula da tabela é encontrada determinando-se o produto da interseção da linha e da coluna
apropriadas. Por exemplo, a ponderação para o conhecimento de história é determinada
multiplicando-se 5% (ponderação referente à história) por 30% (ponderação referente ao
conhecimento), resultando em 0,015, ou 1,5%. Esse produto para qualquer célula repre-
senta a expressão da porcentagem aproximada do teste, que deveria ser composta de itens
combinando os dois tipos de objetivos que cruzam essa célula. O número atual das ques-
tões de cada combinação é encontrado multicando-se a porcentagem proposta pelo com-
primento do teste. Nesse caso, para um teste de 60 itens, o conhecimento da história seria
obtido multiplicando-se 0,015 por 60, o que resulta em 0,9. Na Tabela 8.1, cada célula é
dividida em duas metades; o número superior representa a porcentagem de itens respon-
didos do teste com a combinação apropriada de objetivos, e o número inferior representa
o número de questões desse tipo com base em um comprimento total de teste de 60 itens.
Obviamente, não é possível incluir no teste 0,9 de uma questão de conhecimento em
história do badminton; os números da tabela de especificações estão sendo utilizados como
guia, e geralmente são necessários alguns arredondamentos e ajustes. Caso a tabela de es-
pecificações seja rigorosamente seguida, o teste resultante conterá questões em proporção
às porcentagens de ponderação para cada categoria.

Item de domínio 8.1


Com base nas especificações apresentadas na Tabela 8.1, quantas questões envolvendo a
análise de técnicas de jogos poderiam ser incluídas em um teste com 100 itens?

Vários educadores e especialistas na construção de testes identificaram objetivos edu-


cacionais que podem ser utilizados em tabelas de especificações. Os objetivos educacionais
descritos na Tabela 8.1 são de uma lista publicada sobre taxonomia dos objetivos educacio-
nais (Bloom, 1956). Conforme visto no Capítulo 1, a taxonomia consiste em conhecimen-
to, compreensão, aplicação, análise, síntese e avaliação. Brevemente, o conhecimento pode
ser definido como memorização e capacidade de lembrar fatos; a compreensão, como o ní-
vel mais baixo de entendimento; a aplicação, como o uso de abstrações em situações reais;
a análise, como a divisão do material em suas partes componentes para que se tornem
claras as relações entre estas e a maneira como são organizadas; a síntese, como a união de
elementos e partes do todo; e a avaliação, como o julgamento sobre o valor das ideias, das
obras, das soluções, dos métodos e dos materiais.
A seguinte lista de questões ou tarefas fornece uma ideia de como a taxonomia de
Bloom poderia ser aplicada em um teste escrito no basquete.
• Conhecimento: qual é a altura regulamentar do arco de basquete?
• Compreensão: qual é a área da quadra de responsabilidade dos atacantes em uma
defesa por zona?
• Aplicação: quais defesas poderiam ser usadas quando a equipe adversária é muito
mais rápida?
• Análise: priorize as seguintes habilidades de basquete para cada posição de jogo:
marcação, drible, passe e arremesso.

Morrow_08.indd 163 28/02/13 10:56


164 Morrow, Jackson, Disch & Mood

Tabela 8.1 Tabela de especificações para um teste escrito de 60 itens de badminton


Objetivos educacionais
Total para
Conhe- Com- Apli- os objetivos
cimento preensão cação Análise Síntese Avaliação de conteúdo
Peso 30% 10% 30% 20% 0% 10% 100%

Objetivos de História 5% 1,5% 0,5% 1,5% 1,0% 0% 0,5%


conteúdo
0,9 0,3 0,9 0,6 0 0,3 3

Valores 5% 1,5% 0,5% 1,5% 1,0% 0% 0,5%

0,9 0,3 0,9 0,6 0 0,3 3

Equipamento 10% 3,0% 1,0% 3,0% 2,0% 0% 1,0%

1,8 0,6 1,8 1,2 0 0,6 6

Etiqueta 10% 3,0% 1,0% 3,0% 2,0% 0% 1,0%

1,8 0,6 1,8 1,2 0 0,6 6

Segurança 10% 3,0% 1,0% 3,0% 2,0% 0% 1,0%

1,8 0,6 1,8 1,2 0 0,6 6

Regras 20% 6,0% 2,0% 6,0% 4,0% 0% 2,0%

3,6 1,2 3,6 2,4 0 1,2 12

Estratégia 15% 4,5% 1,5% 4,5% 3,0% 0% 1,5%

2,7 0,9 2,7 1,8 0 0,9 9

Técnica de jogo 25% 7,5% 2,5% 7,5% 5,0% 0% 2,5%

4,5 1,5 4,5 3,0 0 1,5 15

Total para 100% 18 6 18 12 0 6 Total do teste


os objetivos = 60
educacionais
Nota: O número mais alto em cada célula no corpo da tabela é a porcentagem de questões para o conteúdo combinado e os objetivos educacionais para
a respectiva célula; o número inferior é o número real de questões (com um total de 60) que a porcentagem representa.

• Síntese: projete uma rotina de treino para as três primeiras semanas da temporada
(5 dias por semana, 90 minutos por dia) para uma equipe de basquete de 35 alunos
do ensino médio que tem um ginásio com quatro cestas.
• Avaliação: apresente argumentos favoráveis e desfavoráveis para esta afirmação: a
escola deveria ter equipes mistas em vez de separá-las por sexo.
Em 2001, a taxonomia de Bloom foi ampliada por Anderson e Krathwohl (2001) para
combinar o processo cognitivo com as dimensões do conhecimento. Elas referem-se ao
mais alto nível de criação, e pequenas modificações foram feitas nas categorias. No entanto,
o conceito básico para a construção de uma tabela de especificações conforme descrito
permanece válido.
Outra lista de objetivos educacionais inclui as categorias de terminologia, informação
real, generalização, explicação, cálculo, predição e ações recomendadas (Ebel, 1965). Os

Morrow_08.indd 164 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 165

exemplos de Bloom e Ebel indicam alguns dos objetivos educacionais que podem ser uti-
lizados na confecção de uma tabela de especificações. Você também poderá elaborar suas
próprias listas.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 8.2.

Como medir
Conforme mencionado, a determinação de como mensurar geralmente envolve a resposta
de várias questões mecanicistas. As respostas muitas vezes são resolvidas por considerações
referentes a prazos ou práticas, mas com frequência requerem a compreensão dos resulta-
dos de vários procedimentos de testes.

Quando testar
As políticas institucionais podem estabelecer as regras sobre a realização de testes em um
sistema escolar. O tipo e a frequência do boletim, um requisito para definir os períodos de
determinada aula para o teste, e vários cronogramas práticos podem influenciar a decisão
sobre o momento do teste. Mais frequentemente, os testes são administrados durante o
período letivo ou perto do final de cada unidade de estudo (assunto), e o tamanho das uni-
dades é designado para coincidir com o período de provas. Essas práticas são justificáveis
para o teste de desempenho discutido neste capítulo. No entanto, talvez possam existir
razões válidas para a administração do teste em outros períodos de aulas.
Os prazos estabelecidos geralmente determinam o período de tempo adequado para se
administrar um teste escrito relacionado ao assunto que o aluno está estudando. O profes-
sor pode planejar avaliações cognitivas antes, na conclusão, ao longo do processo ou em
todas essas etapas, dependendo da hipótese que está sendo testada.
O teste com frequência é suficiente para garantir que se obtenham resultados fidedignos
sem utilizar desnecessariamente o tempo de ensino. Por razões óbvias, não existe uma quan-
tidade definida de tempo que você deveria reservar para mensurar determinados objetivos, mas
é provável que ocorram mais erros em decorrência de um menor tempo disponível para os testes.

Quantas questões
Geralmente, a reprodutibilidade de um teste de desempenho aumenta conforme aumenta o com-
primento do teste. Isso também ocorre porque, quanto menor a frequência com que a avalia-
ção de desempenho é feita, menor o efeito do acaso sobre os resultados. Jogar uma moeda
duas vezes e obter duas vezes cara é uma evidência pobre para apoiar a afirmação de que
a moeda tem dois lados representados por cara. No entanto, caso a moeda seja jogada 50
vezes e se obtenha 50 vezes cara, a disputa torna-se insustentável, porque a chance de um
evento como esse ocorrer com uma moeda normal é extremamente remota.
A duração do teste é uma função de outros fatores, além do desejo de resultados fide-
dignos. Três outros importantes fatores determinam o número de questões em um teste:
1. tempo disponível para o teste;
2. tipo de questões utilizadas; e
3. período de atenção dos alunos.
Na maioria das situações escolares, a duração do período de aula é o fator limitante na
realização de um teste de desempenho. Geralmente, dispõe-se apenas dos habituais 45 a 60
minutos de aula. O número de questões que podem ser respondidas nesse tempo depen-

Morrow_08.indd 165 28/02/13 10:56


166 Morrow, Jackson, Disch & Mood

de amplamente do tipo de questão utilizada, tais como a dissertativa, verdadeiro-falso ou


múltipla escolha. O tempo requerido pode variar consideravelmente não apenas de acordo
com o tipo de questão, mas também intratipo. Por exemplo, poucas questões dissertativas
que requerem respostas extensas podem ser completadas no período de uma aula, mas
muito mais questões dissertativas que requerem uma ou duas frases de resposta podem
ser incluídas. Um teste composto principalmente de itens de múltipla escolha referentes
a fatos pode incluir mais questões do que um teste composto de itens de múltipla escolha
que requer a análise do conhecimento aplicado a novas situações, porque as questões reais
envolvem sobretudo a memória, enquanto os itens de aplicação requerem pensamento
adicional e reflexão. Finalmente, as diferenças no nível de atenção influenciam a decisão de
quantas questões podem ser incluídas no teste. As escolas muitas vezes consideram as di-
ferenças em períodos de atenção ao ajustar a duração dos períodos de aula de acordo com
o nível dos alunos. O pesquisador tem mais flexibilidade do que o professor na extensão
do teste, de modo que o nível de atenção torna-se o nível limitante mais importante para
o pesquisador.
Outro aspecto a considerar quando se determina o número de questões do teste é que
nem todos os alunos possuem o mesmo ritmo. Qual é a porcentagem de alunos que serão
capazes de completar o teste? Em muitas situações, todos ou quase todos os indivíduos a
serem testados deveriam ser capazes de finalizar a avaliação. Com poucas exceções – tais
como um curso de arbitragem do esporte ou uma unidade de diagnóstico de emergência
em que o objetivo é adquirir a capacidade de tomar decisões rápidas e corretas –, geral-
mente é verdade que uma medida da capacidade de responder às questões corretamente é
mais valiosa do que uma medida da velocidade com que as respostas corretas podem ser
dadas. Além disso, a confecção de um teste que contém mais questões do que aquelas que
podem ser respondidas pela maioria dos alunos representa um uso ineficiente do tempo,
pois as questões próximas do final do teste raramente são respondidas.
As inúmeras combinações de fatores como tempo disponível, tipo de questão, atenção
e ritmo de trabalho tornam inevitável que certa quantidade de tentativas e erros ocorram na
determinação do número de questões de um teste. No entanto, sugerimos algumas orien-
tações gerais que podem se ajustar a cada situação. A maioria dos alunos do ensino médio
deve ser capaz de completar três questões de verdadeiro ou falso, três itens corresponden-
tes, uma ou duas questões de completar, duas questões de múltipla escolha por tipo de
reconhecimento ou um item de múltipla escolha por tipo de aplicação em um minuto. Para
os indivíduos mais jovens, essa estimativa deveria ser reduzida apropriadamente. Algumas
poucas orientações podem ser feitas a respeito do número de questões dissertativas; no en-
tanto, você deve dar tempo suficiente para o aluno organizar sua resposta. Além disso, de
modo geral, muitas questões dissertativas curtas mensuram o desempenho de modo mais
efetivo do que algumas longas.

Item de domínio 8.2


Aproximadamente quanto tempo poderia ser concedido a uma pessoa em idade universitá-
ria para completar um teste escrito contendo uma combinação de 25 questões de verdadei-
ro ou falso, 25 questões de múltipla escolha de reconhecimento e 25 questões de múltipla
escolha de aplicação?

Qual o tipo de formato do teste


Normalmente, os testes de desempenho são apresentados no formato oral, projetados em
tela ou impressos. A conveniência, as despesas, a minimização das possibilidades de frau-
des e a preocupação com relação aos deficientes auditivos, visuais ou indivíduos com ou-

Morrow_08.indd 166 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 167

tras deficiências afetam a decisão do formato a ser utilizado. O mais importante é que o
formato maximize a oportunidade de muitos indivíduos compreenderem e completarem as tarefas
ou afazeres requeridos.
A apresentação oral de questões de testes é, de forma geral, um procedimento insatisfa-
tório para muitos tipos de itens, com a possível exceção de questões de verdadeiro ou falso.
Embora o custo e o tempo de preparação para a formato sejam mínimos, todos os avaliados
são obrigados a trabalhar no mesmo ritmo, e existe pouca ou nenhuma oportunidade para
verificarem as respostas. A projeção do teste por meio de slides, filmes ou lâminas em um
retroprojetor ou computador tem basicamente as mesmas desvantagens da apresentação
oral. Além disso, esse formato apresenta elevada demanda de custo e tempo. Provavelmen-
te o método mais comum, eficiente e preferencial de apresentar os testes de desempenho seja o
formato escrito, em que cada avaliado recebe uma cópia das questões do teste. Se, por um lado,
esse método exige preparação prévia (a digitação, a revisão, a duplicação e possivelmente
a elaboração), por outro, maximiza a conveniência dos avaliados. Cada indivíduo pode
trabalhar no seu próprio ritmo; as respostas podem ser verificadas se o tempo permitir; e
as questões podem ser respondidas em qualquer ordem. Você está livre para monitorar a
avaliação.
Fique atento à maneira que dispõe do seu teste, pois isso pode ajudar a reduzir custos e
tempo de preparação, assim como aumentar a precisão das respostas. Quando um avaliado
realmente sabe a resposta certa para a questão, mas responde de modo incorreto devido a
uma cópia ilegível, a reprodutibilidade e a validade do teste são reduzidas. Além disso, a
leitura cuidadosa da prova antes da administração pode eliminar a necessidade da correção
de erros no momento da aplicação, fato que desperdiça valioso tempo no teste. Aqui estão
algumas dicas adicionais a serem consideradas:
• Proporcionar aos alunos com antecedência informação sobre o número e a natureza
dos itens do teste.
• Fornecer informações sobre como completar a avaliação (e revê-las um dia antes do
teste, se possível).
• Caso vários tipos de questões sejam usados em um teste, junte as do mesmo tipo para
reduzir a variação entre os tipos de processos mentais exigidos dos avaliados.
• Agrupe as questões de conteúdo similar (ou seja, área subjetiva) no teste de desem-
penho.
• Embora ordenar as questões do teste da mais fácil à mais difícil geralmente não seja
recomendado, a inclusão de uma ou duas questões relativamente simples no início
da avaliação pode beneficiar os alunos, reduzindo a ansiedade sobre o teste.
Duas interessantes variações no teste escrito são o uso de teste com consulta e a ava-
liação a ser feita em casa. Cada um tem vantagens e desvantagens, e em certas condições
podem ser utilizados de forma eficiente. O maior benefício de ambos é a redução da ansie-
dade dos alunos. Além disso, uma avaliação com consulta pode permitir que se solicitem
questões menos triviais e mais aplicadas; ela obriga você a inventar novas situações, em vez
de apresentar aquelas questões baseadas inteiramente em circunstâncias apresentadas no
livro ou em palestras. A avaliação com consulta também reduz a possibilidade de fraude
em virtude de permitir ao aluno o uso do livro, bem como de anotações e outros materiais.
Uma desvantagem da avaliação com consulta é a possível diminuição do incentivo ao
aluno para que possa aprender mais, assim como do tempo que ele dedica a sua prepara-
ção para o teste. Os avaliados tendem a confiar que são capazes de obter as respostas de
anotações e livros durante o teste e, então, investem menos tempo estudando. Devido ao
fato de que os avaliados podem procurar respostas, haverá necessidade de limitar o tempo
na avaliação com consulta, do contrário alguns avaliados (em geral aqueles despreparados

Morrow_08.indd 167 28/02/13 10:56


168 Morrow, Jackson, Disch & Mood

e estudando enquanto realizam o teste) levarão um tempo extraordinário para finalizar a


prova. Caso uma avaliação com consulta seja bem formulada, a maioria dos avaliados achará
que o livro e as anotações são de pequeno valor, exceto para procurar fórmulas e tabelas. Os
avaliados não deveriam ser capazes de responder os itens de uma avaliação com consulta
simplesmente indo a uma página específica do livro para encontrar as respostas.
As avaliações a serem realizadas em casa podem ser utilizadas em situações em que se
necessita de mais tempo para completar o teste do que o disponível em um ambiente con-
trolado. O principal problema consiste na impossibilidade de assegurar que cada pessoa
tenha realmente realizado seu próprio trabalho. Portanto, a avaliação a ser realizada em
casa não deveria ser utilizada para a medida do desempenho do aluno, mas apenas para
ilustrar o que as pessoas devem estudar e como tarefas em casa.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 8.3.

Quais tipos de questões


As questões podem ser classificadas em três categorias gerais: semiobjetivas, objetivas e disserta-
tivas. As questões semiobjetivas possuem características das outras duas categorias. Existem
três tipos de questões nessa categoria: resposta curta, complete e questões matemáticas.
Para essas questões, o avaliado deve compor a resposta correta; a resposta é tão curta que
pouca ou nenhuma organização é necessária. Alguma subjetividade pode estar envolvida
na correção (p. ex., a concessão de crédito parcial para procedimentos corretos, mas uma
resposta errada para um problema matemático, ou a ortografia incorreta na resposta corre-
ta). O procedimento de correção costuma ser similar àquele usado nas questões objetivas: a
resposta fornecida é comparada a uma resposta correta previamente determinada.
Caracteristicamente, a tarefa do avaliado em uma questão objetiva é selecionar a resposta
correta (ou melhor) em uma lista de duas ou mais possibilidades oferecidas. Esse tipo de
questão é considerado objetivo em virtude de o escore consistir da equivalência entre as
respostas do avaliado a uma resposta previamente correta; a correção é relativamente livre
de qualquer decisão subjetiva ou de julgamento. Os tipos de questões classificadas como
objetivas incluem verdadeiro ou falso, complete, múltipla escolha e itens de classificação.
Ao responder a uma questão dissertativa, a tarefa do indivíduo é compor a resposta cor-
reta. Normalmente, a questão fornece algumas direções ao incluir termos como comparar
ou explicar; ou pode restringir a resposta por meio da inclusão de frases como “Limite a sua
discussão a...” ou “Restrinja sua resposta ao ano de...”. As questões de desenvolvimento são
consideradas subjetivas devido ao fato de sua correção normalmente envolver decisões de
julgamento.
Várias diferenças entre as categorias – isto é, outras que não as caracterizadas como
objetiva versus subjetiva e a seleção de respostas versus complete – têm consequências para
qualquer instrutor ou avaliado. Para os avaliados, muito do tempo disponível para o teste
é consumido na parte escrita (questões dissertativas), na leitura (questões objetivas ou
semiobjetivas) ou em cálculos (problemas de matemática). Por isso, uma vez que a leitura
consome menos tempo do que a escrita ou os cálculos, normalmente um maior número de
questões objetivas pode ser incluído em um teste em comparação a questões relacionadas
às outras duas categorias. Além disso, os avaliados que são fracos em uma dessas áreas (es-
crita, leitura ou cálculo) podem ter uma desvantagem nos testes compostos principalmente
de questões que exigem essas habilidades em que são fracos. Um indivíduo que possui
pouca habilidade de leitura, por exemplo, pode ter pior desempenho em um teste objetivo
do que em um teste dissertativo sobre o mesmo assunto.

Morrow_08.indd 168 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 169

Do ponto de vista do profissional que confecciona o teste, as questões dissertativas e


semiobjetivas são mais fáceis de preparar do que as objetivas, porém mais difíceis de cor-
rigir. Além disso, a qualidade de um teste objetivo depende quase inteiramente da habili-
dade do profissional de confeccionar o teste do que na de corrigi-lo, enquanto a situação é
inversa no teste de questões dissertativas ou semiobjetivas. Assim, sua decisão sobre o tipo
de teste a ser confeccionado pode ser influenciada, em parte, pelo tempo de que dispõe
para confeccionar e corrigir o teste ou se você é mais hábil em criar ou corrigir avaliações.
É plausível que os indivíduos estudem de maneira diferente para diferentes tipos de
testes (embora não exista evidência segura para isso); por exemplo, alguns acreditam que
os testes objetivos promovem o estudo de conceitos factuais e gerais. No entanto, isso
se baseia principalmente na suposição equivocada de que questões objetivas não podem
medir a intensidade do desempenho. Embora seja mais difícil de se construir, um teste
composto de questões objetivas pode medir o desempenho de praticamente qualquer ob-
jetivo tão bem quanto testes compostos por questões dissertativas. Em poucas palavras, o
tipo de estudo promovido por um teste representa mais uma função da qualidade do que do tipo
das questões.
No entanto, evidentemente, um tipo de questão pode ser mais eficiente do que outro
em determinada situação. Seria difícil, por exemplo, conceber a ideia de que a qualidade
de redação de um indivíduo possa ser medida de forma eficiente com um teste objetivo ou
como a habilidade em solucionar problemas matemáticos possa ser mais bem mensurada
do que por um teste composto por problemas matemáticos. No entanto, o fato de que pode
ser mais eficiente usar questões objetivas para mensurar o conhecimento factual e questões
dissertativas para medir a organização e a integração do conhecimento tem estereotipado a
maneira como certas questões são empregadas. Além disso, outros fatores podem impedir
o uso do tipo de questão que parece ser mais eficiente. Por exemplo, muitas vezes é inviável
corrigir um teste dissertativo entregue a um grande número de indivíduos. Então, o teste
objetivo pode ser utilizado, mesmo que a medida envolva mais do que apenas informações
factuais. Embora muitos testes padronizados em nível nacional incluam algumas questões
dissertativas, a forte dependência de questões objetivas é um exemplo dessa situação.
Independentemente dos nomes das três categorias de questões, lembre-se que a sub-
jetividade é uma parte de todos os testes construídos. As decisões subjetivas são neces-
sárias na classificação de questões dissertativas e, em menor grau, nas semiobjetivas. A
subjetividade está presente na construção de todos os tipos de questões: as decisões na
determinação do tipo de questão e como redigi-la são de natureza subjetiva. Para aumentar
a reprodutibilidade dos testes escritos, reduza a quantidade de subjetividade envolvida na
construção e na classificação o máximo possível. As práticas referentes à formulação de
uma tabela de especificações e a consulta a colegas podem garantir isso.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 8.4.

Item de domínio 8.3


Reveja o termo objetividade apresentado no Capítulo 6. Como o conceito de objetividade
pode ser aplicado na administração de um teste escrito? É possível listar alguns dos procedi-
mentos utilizados na administração de testes de aptidão física que se destinam a aumentar
a objetividade?

Morrow_08.indd 169 28/02/13 10:56


170 Morrow, Jackson, Disch & Mood

Independentemente do(s) tipo(s) de questões utilizado(s) em um teste, a utilidade da pontua-


ção resultante depende de sua estabilidade (ou seja, reprodutibilidade). Um teste é projetado e
construído para medir se foram atingidos determinados objetivos, e a classificação resul-
tante da administração e correção do teste expressa o grau de desempenho. Se diferentes
construção, administração ou correção do teste realizadas por você ou outra pessoa resul-
tam em diferente pontuação e, assim, em diferente classificação dos avaliados, a estabilida-
de e, portanto, a utilidade da classificação seriam reduzidas. O tipo de questão incluído no
teste afeta a estabilidade dos escores de várias formas.
Por exemplo, se dois indivíduos fossem orientados a construir um teste sobre determi-
nado conhecimento, seria mais provável que os dois testes contivessem questões similares
caso os sujeitos fossem orientados a construir uma avaliação dissertativa em vez de objetiva
ou semiobjetiva. Entretanto, caso duas pessoas corrigissem um teste objetivo, semiobjetivo
ou dissertativo, seria muito mais provável um nível de concordância para o teste objetivo
do que para o semiobjetivo ou dissertativo.
A compreensão das semelhanças e diferenças sobre o tipo de questão e a ciência das
vantagens e desvantagens de cada um (veja a seção seguinte) são necessárias na seleção dos
tipos mais eficientes de questões para determinadas situações. Esse conhecimento, além
de competência nos requerimentos gerais da construção do teste, permitirá o desenvolvi-
mento de testes escritos de desempenho fidedignos.
Kate, a partir do desafio em medida e avaliação, decidiu desenvolver uma tabela de
especificações que garantisse a ênfase adequada e a quantificação de conceitos que seu teste
avaliará. Ela também provavelmente optará por um teste mais demorado e por questões de
múltipla escolha, problemas matemáticos ou uma combinação de ambos.

CONSTRUÇÃO E CLASSIFICAÇÃO DO TESTE


A maior parte do trabalho do professor ou pesquisador será na construção ou na correção
dos itens do teste escrito. Como discutido, as questões dissertativas são relativamente fáceis
de construir, mas consomem tempo para corrigir, enquanto as questões de múltipla esco-
lha se caracterizam pelo oposto. Existem muitos caminhos para construir e classificar os
vários tipos de questões, aumentando a eficiência.

Questões semiobjetivas
Os três tipos de questões semiobjetivas são: questões de respostas curtas, questões tipo com-
plete e problemas de matemática. A questão de resposta curta e a tipo complete são dife-
rentes apenas no formato: os itens referentes à questão tipo complete são apresentados
como uma afirmação incompleta (preencha o espaço em branco), enquanto o item de
resposta curta é apresentado como uma indagação. A tarefa exigida para responder os
problemas de matemática é especificada por símbolos ou palavras, bem como em uma
história-problema. Serão descritos os usos, as vantagens e as limitações, além de sugestões
de construção e de classificação para os três tipos de questões simultaneamente em virtude
de suas similaridades.

Usos e vantagens
As questões semiobjetivas são especialmente úteis para se mensurar materiais relativamente
factuais, como um vocabulário, datas, nomes, identificação de conceitos e princípios mate-
máticos. Também são adequadas para a avaliação de recordação em vez de reconhecimen-
to, em decorrência de o avaliado fornecer a resposta. As vantagens das questões semiobjetivas

Morrow_08.indd 170 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 171

incluem construção relativamente simples, redução quase completa da possibilidade de “chute” e


classificação simples e rápida.

Limitações
Em razão da quantidade limitada de informação que pode ser fornecida em uma questão
ou afirmação incompleta, muitas vezes é necessário incluir material adicional para evitar
que as questões semiobjetivas sejam ambíguas. O risco de ambiguidade não é comple-
tamente removido mesmo quando uma situação é explicada em detalhes, em caso espe-
cial dos itens de tipo complete. Ocasionalmente, um espaço deixado em branco pode ser
preenchido por uma palavra ou frase que pode ser definida como correta, mesmo que não
reflita com precisão o conhecimento desejado pelo indivíduo que confeccionou o teste. Por
exemplo, considere o seguinte item de complete: “O basquete foi inventado por ______“.
O nome “James Naismith” e as frases “um homem” ou “volta de 1900” são três possibilida-
des corretas para se completar a frase. Quando isso ocorre, o avaliador deve decidir se dará
ou não crédito. Com as questões matemáticas, o avaliador pode ter que decidir se concede
nenhum crédito, crédito parcial ou total a um aluno que seguiu os procedimentos corretos,
mas forneceu uma resposta errada. Decisões similares são necessárias quando a resposta
correta é fornecida, mas não está claro como foi obtida.
Essas situações introduzem algumas subjetividades e, então, a possibilidade de incon-
sistência no procedimento de correção. As técnicas específicas de construção podem ajudar
a reduzir (mas quase nunca eliminam completamente) esse problema.

Recomendações para a construção


É mais provável que ocorra a ambiguidade com questões do tipo complete dentre os três
tipos de questões semiobjetivas. A reformulação da sentença incompleta em uma questão –
ou seja, convertê-la em um item de resposta curta – muitas vezes resolve vários problemas.
No entanto, as sugestões a seguir podem reduzir algumas ambiguidades caso você prefira
uma questão do tipo complete.
• Evite ou modifique declarações indefinidas nas quais várias respostas podem ser
corretas e razoáveis. Faça isso, em parte, especificando na declaração incompleta o
tipo de resposta exigida. Por exemplo, a frase “O basquete foi inventado por ___”
pode ser reformulada para “O nome da pessoa que inventou o basquete é ___”. Um
método similar para a eliminação da ambiguidade na apresentação do item pode ser:
“O basquete foi inventado por ___ (nome da pessoa)”.
• Construa sentenças incompletas, quando possível, de modo que o espaço em branco
esteja próximo do final da confirmação. Essa técnica identifica melhor o tipo específico
de resposta exigida do que quando o espaço em branco está no início da instrução. Por
exemplo, no item “O sistema ___ de jogo de duplas no badminton é recomendado para
iniciantes”, a resposta correta desejada é “lado a lado”, mas o espaço em branco po-
deria logicamente ser preenchido com algo menos complexo em virtude de não estar
claro que se deseja o nome do sistema. A reformulação da instrução para que o espaço
em branco esteja próximo do final resolve esse problema: “O tipo de jogo de equipe
recomendado para iniciantes no badminton de duplas é chamado de sistema ___”.
• Não deixe muitos espaços em branco em uma afirmação, pois o item se torna indefi-
nido. Considere o último exemplo: “O nome de ___ que inventou ___ é ___”. Como
se pode observar, quanto mais espaços em branco na instrução, menos informação
é fornecida; a resposta da questão torna-se um jogo de adivinhação. Fornecer infor-
mação adicional é necessário, seja explicando o que é exigido, seja fazendo vários
itens a partir de um.

Morrow_08.indd 171 28/02/13 10:56


172 Morrow, Jackson, Disch & Mood

• Não dê dicas inadvertidas. Ocasionalmente, as frases de instrução ou o uso de um


artigo em particular (p. ex., “de” vs. “do”) ou verbo específico reduzem o número de
palavras ou frases possíveis que poderiam completar a afirmação. Use o seguinte for-
mato para o artigo indefinido: “O basquete foi inventado por um(a) ___ (nacionali-
dade)”. Caso exista mais de um espaço em branco, cada espaço deveria ter o mesmo
comprimento para evitar fornecer dicas sobre o tamanho da resposta correta.
• Indique a unidade e o grau de precisão desejados caso uma resposta numérica seja
requerida. Especificar essa informação simplifica a tarefa do avaliador e elimina uma
fonte de confusão para o avaliado.
• Use questões de respostas curtas quando possível para reduzir a ambiguidade. Por
exemplo, usar questões de respostas curtas como: “um atleta de qual país ganhou a
medalha de ouro no pentatlo dos Jogos Olímpicos de 2000?” em vez de o item tipo
complete: “A medalha de ouro no pentatlo nos Jogos Olímpicos de 2000 foi ganha
por ___” aumenta a probabilidade de que o campo seja identificado, em vez de ou-
tras possíveis informações. A consistência da classificação é aumentada em virtude
de a tarefa do avaliado ser mais claramente identificada do que com os itens de tipo
complete. Você deve redigir os itens de resposta curta de modo que os limites da
amplitude das respostas sejam óbvios.

Recomendações para a classificação


O processo de escore é simples, objetivo e fidedigno caso as questões semiobjetivas sejam
bem construídas e não se encontrem problemas (p. ex., quando duas ou mais respostas
são plausíveis para um item). As respostas podem ser facilmente corrigidas por quaisquer
outras pessoas além do próprio indivíduo que confeccionou o teste.
Também é possível preparar uma resposta-chave caso o teste seja composto de itens do
tipo complete, cortando de uma cópia do teste uma área retangular onde existe cada espaço
em branco. Escreva a resposta correta imediatamente abaixo ou adjacente à área retangular.
Quando a resposta-chave é sobreposta a um teste concluído, cada resposta pode ser rapi-
damente comparada à resposta-chave.
O uso de folhas de resposta separadas para itens de respostas curtas acelera o processo
de correção. Em virtude de apenas uma única palavra ou frase curta serem esperadas, você
pode distribuir, ao longo do questionário, uma folha de resposta previamente preparada,
com um número de espaços em branco, correspondentes a cada item do teste. Normalmen-
te, é possível colocar duas colunas de respostas em uma folha de papel de tamanho-padrão.
Para classificar as respostas curtas de maneira eficaz, construa uma resposta-chave, anote a
resposta correta em uma folha de resposta e a coloque ao lado de cada folha de respostas.
Esse procedimento elimina a necessidade de pesquisar as páginas de todos os cadernos de
teste para localizar as respostas.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 8.5.

Questões objetivas
As questões que requerem a seleção de uma de duas respostas fornecidas podem ser clas-
sificadas com o mínimo de julgamento subjetivo e, então, categorizadas como questões
objetivas. Embora existam muitas semelhanças entre os tipos de questões objetivas, forne-
ceremos considerações separadas para questões verdadeiro ou falso, questões de associação
ou correspondência e de múltipla escolha em virtude de suas peculiaridades.

Morrow_08.indd 172 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 173

Questões verdadeiro ou falso


Talvez infelizmente, as questões verdadeiro ou falso tenham sido muito usadas por professo-
res e outros profissionais, provavelmente em virtude de serem relativamente fáceis tanto na
confecção como na classificação. Embora também existam vantagens nesse tipo de questão
e situações em que seu uso é justificável, elas são o tipo menos adequado de questão obje-
tiva em razão de várias deficiências.
Usos e vantagens
Como as diversas questões semiobjetivas, os itens de tipo verdadeiro ou falso são adequa-
dos sobretudo para se mensurar materiais relativamente factuais, tais como nomes, datas
e palavras de vocabulário. As vantagens incluem a facilidade de construção, administração
e classificação, bem como o fato de que mais itens de tipo verdadeiro ou falso podem ser
respondidos em determinado período de tempo do que qualquer outro tipo de questão.
Limitações
Muitos dos principais pontos fracos relacionados às questões desse tipo surgem do fato
de que indivíduos despreparados podem responder corretamente a metade dos itens por
acaso. Isso dificulta a avaliação do nível de desempenho do indivíduo. A resposta correta
pode ser interpretada como uma indicação de compreensão completa dos conceitos, um
correto chute cego ou qualquer sombra de compreensão entre esses dois extremos. Além
disso, a influência extraordinariamente excessiva das chances de ocorrências do acaso diminui a
possibilidade de diferenciar entre indivíduos realmente bons e fracos, afetando, assim, a reprodu-
tibilidade do teste.
Para ser justo e evitar ambiguidade, o item verdadeiro ou falso deveria ser absoluta-
mente verdadeiro ou absolutamente falso. É difícil atender a esse requerimento, exceto
quando o conhecimento factual está envolvido. As questões desse tipo não são adequadas
para mensurar processos mentais complexos. Em virtude disso, o teste verdadeiro ou falso
construído de maneira inadequada pode incluir questões triviais e recompensar a memória
em vez da compreensão.
Recomendações para a construção
Geralmente, as boas questões verdadeiro ou falso evitam ambiguidade. Eis algumas suges-
tões específicas. Exemplos de questões boas e fracas desse tipo são fornecidos ao final da
seção.
• Evite o uso de um item cuja veracidade ou falsidade dependa de uma palavra ou
frase insignificante. Isso mensura a atenção, não o conhecimento.
• Tome cuidado com palavras ou frases indefinidas. Uma questão cuja resposta de-
penda da interpretação de tais palavras ou frases, como frequentemente, muitas ou na
maioria dos casos, normalmente é um item ruim.
• Inclua apenas a ideia principal em cada questão do tipo verdadeiro ou falso. A com-
binação de duas ou mais ideias em uma única instrução muitas vezes induz à ambi-
guidade. Caso a combinação apresente uma menor quantidade de falsidade em uma
instrução verdadeira, o avaliado deve decidir marcar verdadeiro ou falso com base
na quantidade de verdade em vez de fundamentado na verdade absoluta.
• Evite usar declarações extraídas diretamente de livros ou anotações. Fora do contex-
to, o significado do item resultante pode ser confuso. Pouquíssimas declarações de
textos ou anotações podem ser significativas quando usadas sem quaisquer outros
auxílios. Além disso, usar frases de livros para confeccionar questões do tipo verda-
deiro ou falso pode privilegiar a memorização.

Morrow_08.indd 173 28/02/13 10:56


174 Morrow, Jackson, Disch & Mood

• Use com moderação declarações negativas e evite completamente as duplas nega-


tivas. A inserção da palavra “não” em uma declaração verdadeira beira o truque e
pode resultar em uma medida mais da atenção do que do conhecimento. As decla-
rações contendo duplas negativas, especialmente caso sejam falsas, são em geral
desnecessárias, confusas e complexas.
• Tome cuidado com o fornecimento de dicas para a escolha correta de uma resposta
por meio de determinadores específicos ou do comprimento da frase. Os deter-
minadores específicos são palavras ou frases que inadvertidamente fornecem uma
indicação da veracidade ou falsidade da declaração. Por exemplo, os itens verdadei-
ro ou falso contendo palavras como absolutamente, todos, sempre, totalmente, todos,
impossível, inevitável, nunca ou nenhum têm maior probabilidade de serem falsos,
pois uma exceção em geral pode ser encontrada em tais generalizações. Já palavras
de qualificação como geralmente, frequentemente, às vezes ou normalmente são mais
comuns em declarações verdadeiras. Em virtude de ser necessário adotar várias es-
tratégias para fazer uma instrução absolutamente verdadeira, evite um padrão de
declarações, como, por exemplo, declarações longas para as afirmações verdadeiras
e curtas para as falsas.
• Inclua aproximadamente o mesmo número de declarações verdadeiras e falsas em
um teste. Muitas de um dos dois tipos (i.e., verdadeira ou falsa) podem provocar
viés. Existem algumas evidências de que as declarações falsas são um pouco mais
discriminantes, talvez porque um avaliado despreparado seja mais propenso a mar-
car verdadeiro. Por essa razão, pode ser vantajoso incluir uma porcentagem ligeira-
mente superior de declarações falsas.
• Não posicione um determinado padrão de respostas corretas. Regule o posiciona-
mento de afirmações verdadeiras e falsas ao acaso, para evitar a possibilidade de o
avaliado detectar um padrão de respostas.
• Peça a um colega que revise as questões antes de administrá-las. Isso pode ajudá-lo
a suprimir eventuais ambiguidades.
Modificações
Os indivíduos que confeccionam testes tentaram modificar as questões verdadeiro ou falso
a fim de reduzir as chances de se adivinhar ao acaso. Uma das estratégias é exigir que o
avaliado identifique a parte falsa de uma declaração não verdadeira. Outra modificação
requer a correção da parte imprecisa. Embora essas duas modificações eliminem parcial-
mente o efeito do acaso, simultaneamente introduzem outros problemas. Pode ocorrer
ambiguidade, como na seguinte afirmação: “James Naismith inventou o jogo de voleibol”.
A declaração é falsa, mas pode ser corrigida ao se substituir o nome James Naismith pelo
nome William Morgan ou pela substituição da palavra voleibol por basquete. Esses tipos de
questões verdadeiro ou falso podem introduzir alguma subjetividade na classificação. Além
disso, a vantagem da correção rápida é perdida.
Outra maneira de modificar as questões desse tipo envolve a alteração do procedimen-
to em sua resposta e de classificação para refletir o grau de confiança que o avaliado tem em
sua resposta. A intenção é discriminar entre aqueles que selecionam uma resposta errada
por não saberem a resposta correta e aqueles que sabem alguma coisa, mas não o suficiente
para evitar a escolha por “azar”. Vários sistemas de classificação têm sido desenvolvidos
para realizar tal ponderação na resposta de um item verdadeiro ou falso. No sistema apre-
sentado na Tabela 8.2, se o avaliado marcar A, por exemplo, e a resposta correta for “ver-
dadeiro”, o avaliado recebe dois pontos, mas se a resposta correta for “falso”, dois pontos
são descontados de sua pontuação. Essa modificação pode introduzir algumas variáveis

Morrow_08.indd 174 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 175

Tabela 8.2 Sistema de ponderação de respostas para testes verdadeiro ou falso


Questões: Procedimento de pontuação
Pontos concedidos ou subtraídos
Resposta Marca Certo Errado
Definitivamente verdadeiro A 2,0 –2,0

Provavelmente verdadeiro B 1,0 0,0

Omite ou não conhece C 0,5 0,5

Provavelmente falso D 1,0 0,0

Definitivamente falso E 2,0 –2,0

indesejáveis, apesar de aumentar o poder discriminatório do teste verdadeiro ou falso. Por


exemplo, as diferenças nas características de personalidade entre os avaliados (alguns mais
propensos a apostar do que outros) e a importância do conhecimento sobre o assunto que
está sendo testado, assim como a conscientização do seu conhecimento, se tornam fatores
que influenciam os resultados finais do teste. Portanto, essas modificações podem aumen-
tar bastante a reprodutibilidade e o poder discriminatório de um teste verdadeiro ou falso,
mas, simultaneamente, reduzem sua validade.
Recomendações para a classificação
O uso de uma folha de resposta separada facilita o procedimento de correção em muitas
questões semiobjetivas e objetivas. Uma folha com as respostas preparada previamente, na
qual o avaliado pinte, circule ou sublinhe a resposta correta elimina problemas. As folhas
especiais de respostas, que podem ser corrigidas por máquinas, estão disponíveis para
muitas questões objetivas, inclusive questões verdadeiro ou falso. Você (ou até mesmo

EXEMPLOS DE QUESTÕES VERDADEIRO OU FALSO PARA O BASQUETE


Questões boas
1. Chutar a bola é uma falta da equipe. (Falso)
2. É geralmente melhor driblar do que passar. (Falso) (Conforme já comentado, “geralmente” é considerado um
determinador específico, e seu uso é desencorajado. No entanto, observe que nessa questão ele é usado em
uma declaração falsa, em vez de em uma verdadeira, como seria esperado.)
3. Ocorre uma dupla violação quando o jogador comete duas faltas ao mesmo tempo. (Falso)

Questões fracas
1. O basquete foi introduzido pela primeira vez em 1901. (Falso) (Muito trivial)
2. O passe acima da cabeça deve sempre ser utilizado por jogadores baixos. (Falso) (Uso do determinador
específico “sempre”)
3. O lançamento, a simulação e o passe de gancho são feitos com a bola em ambas as mãos. (Falso) (Parte da
afirmação é verdadeira e parte é falsa)
4. Em muitos casos, as equipes jogam com a defesa individual ou por zona. (Verdadeiro) (O uso da expressão
indefinida “em muitos casos”)
5. O tempo limite não deve ser desperdiçado quando a equipe não está em apuros. (Verdadeiro) (Dupla
negativa)

Morrow_08.indd 175 28/02/13 10:56


176 Morrow, Jackson, Disch & Mood

alguém que desconheça totalmente o assunto) pode corrigir à mão de modo eficaz o teste
marcando cada resposta na folha de resposta a partir de um gabarito escrito previamente.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 8.6.

Questões de associação
As questões de associação geralmente envolvem uma lista de questões e outra de possíveis
respostas. A tarefa do avaliado é associar a resposta correta com a questão apropriada. Às
vezes, em vez de envolver um formato pergunta-resposta, esse tipo de questão envolve
associar um item de uma lista com um de uma segunda lista.
Usos e vantagens
As questões de associação ou de correspondência são mais eficientes para se mensurar tipos
relativamente superficiais de conhecimento. As medidas de vocabulário, datas, eventos e
relações simples, tais como autores de livros, podem ser efetivamente obtidas com esse tipo
de questão. Basicamente, essas questões são usadas para mensurar como, o que, onde e quando em
vez de como ou por quê. Entre as vantagens desse tipo de questão estão a relativa facilidade de
construção e a rapidez, a precisão e a objetividade da classificação. Essas questões requerem
o desenvolvimento de um conjunto de questões e respostas similares. As mais discriminan-
tes questões de associação em geral são aquelas usadas em conjunto com gráficos, mapas,
diagramas ou dispositivos similares, em que rótulos sobre as ilustrações são associados ou
correspondidos com funções, nomes ou categorias similares de resposta.
Limitações
É difícil, embora não impossível, construir questões de associação que exijam do avaliado
processos mentais elevados. No entanto, o aspecto mais limitante desse tipo de questão
refere-se ao fato de que requer similaridade em cada uma das listas que compõem o item.
O poder de discriminação do item normalmente diminui quando a conformidade com essa
exigência diminui.
Recomendações para a construção
É mais fácil redigir questões que medem conhecimento relativamente superficial do que
aquelas que mensuram processos cognitivos mais elevados, tais como a aplicação, a análise
e a avaliação, que costumam se referir à tabela de especificações desenvolvida para um teste
quando se confecciona questões de associação. Isso garante que será alcançado o equilí-
brio desejado entre as áreas medidas. A menos que se tenha cuidado, um teste composto
principalmente de itens de associação pode se concentrar mais em material factual do que
o garantido por tabelas de especificações. Seguem algumas sugestões complementares à
confecção de questões de associação. Exemplos de questões boas e fracas são fornecidos ao
final da seção.
• Apresente instruções claras e completas. Em geral, inclua três detalhes nas instru-
ções:
• a base para marcar o item nas duas listas;
• o método para registrar as respostas; e
• se uma resposta na segunda coluna pode ser usada mais de uma vez.
• Uma instrução como “Associar as afirmações da primeira coluna com as da segunda”
não inclui qualquer um dos três pontos citados; contrasta com a seguinte instrução
completa: “Para cada tipo de atividade física listada na primeira coluna, selecione
o benefício físico da segunda coluna mais provavelmente associado a sua prática.

Morrow_08.indd 176 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 177

Registre sua escolha na linha ao lado do número da questão. Um item na segunda


coluna pode ser usado somente uma vez, mais de uma vez ou não ser usado”.
• Evite fornecer pistas. Todas as palavras ou frases em cada coluna devem representar
uma resposta lógica e gramaticalmente aceitável para todas as questões da outra.
Use o mesmo tempo verbal, singular ou plural, e os mesmos artigos, se possível, em
todas as questões.
• Evite a inclusão de muitas questões em um item associado. Para ser eficaz, a lista de
questões e a lista de respostas em um item de associação devem ser homogêneas. A
satisfação do requisito da homogeneidade torna-se cada vez mais difícil quando o
comprimento da lista de questões ou de respostas é aumentado. Em muitos casos, 5
ou 6 questões representam o limite prático para cada item encontrado.
• Certifique-se de que todas as questões e respostas aparecem na mesma página do
teste.
• Inclua um número maior de respostas do que de questões ou permita o uso repetido
de algumas respostas. Esse procedimento descarta a possibilidade de se usar o pro-
cesso de eliminação para se obter a resposta correta a determinada questão de um
item encontrado.
• Mantenha curtas, mas sem sacrificar a clareza, as partes das questões de associação.
O avaliado deve reler totalmente a lista de possíveis respostas ao responder cada
item. Respostas desnecessariamente longas consomem um tempo valioso.
• Organize as duas listas, de questões e de respostas, de forma aleatória. Não deve
existir qualquer padrão sequencial das respostas corretas.
• Coloque as respostas em ordem lógica (p. ex., em ordem alfabética, cronológica).
Isso permite ao avaliado localizar rapidamente a resposta.
Recomendações para a classificação
Organize os itens do teste de forma que um gabarito possa ser colocado ao lado da mar-
gem para tornar mais rápida a classificação, pois as questões de associação geralmente são
respondidas no próprio teste, em vez de em uma folha de resposta separada. A correção do
item de associação pode ser feita por alguém que não esteja familiarizado com o assunto
abordado.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 8.7.

Questões de múltipla escolha


Uma questão de múltipla escolha inclui duas partes: o enunciado, que pode ser na forma
de uma questão ou de uma afirmação incompleta, e pelo menos duas respostas, uma das
quais melhor responde ao item ou melhor completa a declaração. A tarefa consiste em sele-
cionar a resposta correta ou a melhor resposta do item apresentado no enunciado.
Usos e vantagens
As questões de múltipla escolha constituem uma grande parcela de quase todos os testes
escritos padronizados nacionalmente por várias razões:
• as questões podem ser classificadas e analisadas de forma eficiente, rápida e fide-
digna;
• costuma haver menos ambiguidade do que em outros tipos de questões;
• as questões com mais de duas respostas não são suscetíveis a erros de chances ao
acaso em virtude de escolhas feitas às cegas;

Morrow_08.indd 177 28/02/13 10:56


178 Morrow, Jackson, Disch & Mood

EXEMPLOS DE QUESTÕES DE ASSOCIAÇÃO

Questão boa
Para cada pessoa listada na coluna um, selecione na coluna dois o esporte pelo qual ela é mais conhecida. Registre
sua escolha na linha ao lado do número da questão. Um item na coluna dois pode ser usado nenhuma, uma ou mais
vezes.

___1. Aaron, Hank a. Beisebol


___2. Brown, Larry b. Basquete
___3. Williams, Serena c. Ciclismo
___4. Mickelson, Phil d. Futebol americano
___5. Karolyi, Bela e. Golfe
___6. Ruth, Babe f. Ginástica
___7. Hamm, Mia g. Futebol
___8. Armstrong, Lance h. Natação
i. Tênis
j. Caminhada

Questão fraca
Relacione a coluna um com a dois.

___1. Sentar e alcançar c. Fibras musculares


___2. 50 jardas h. Golfe
___3. Flexão de braço na barra f. Tênis
·
___4. Shuttle run a. VO2máx
___5. Protocolo de Balke em esteira rolante e. Agilidade
___6. Bloqueio no vôlei g. Força de membros superiores
___7. Lançamento de disco d. Velocidade
___8. Biópsia b. Flexibilidade
Essa é uma questão de associação fraca em virtude de:
• as instruções não indicarem a base para a correspondência, como registrar as respostas ou quantas vezes os
itens na coluna dois podem ser usados;
• os itens em cada coluna serem heterogêneos demais, tornando as respostas muito óbvias; e
• ambas as colunas conterem o mesmo número de itens, de modo que o último item poderia ser respondido
por eliminação.

• as questões podem ser usadas para mensurar processos cognitivos elevados, tais
como aplicação, análise, síntese e avaliação;
• as questões podem mensurar praticamente qualquer objetivo educacional;
• as questões podem ser analisadas para determinar sua contribuição à reprodutibili-
dade e validade do teste.
Uma vez que as questões de múltipla escolha são capazes de mensurar todos os níveis de com-
portamento cognitivo, sendo aplicadas em quase todos os assuntos ou séries, elas podem ser usadas
para mensurar praticamente qualquer objetivo educacional e em qualquer situação. As questões
de teste de múltipla escolha são mais eficientes em termos do tempo necessário para confec-
cionar, administrar, classificar e analisar caso se esteja testando um grande grupo de indiví-
duos ou planejando reutilizar um teste. Os testes de múltipla escolha são importantes para

Morrow_08.indd 178 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 179

feedbacks relativamente rápidos, uma vez que a correção desse tipo de questão é rápida e
precisa. De forma geral, é possível incluir um número bastante elevado de questões dessa na-
tureza em um teste devido ao fato de o tempo necessário para responder cada item ser curto.
Por essa razão, e em virtude de as questões de múltipla escolha poderem ser confeccionadas
para mensurar a maioria dos objetivos educacionais, é menos difícil de construir um teste
que se ajuste à tabela de especificações usando questões desse tipo do que de qualquer outro.
Por fim, a correção é rápida e pode ser realizada por alguém não familiarizado com o assunto.
Limitações
As questões de múltipla escolha, devido a sua versatilidade, não têm muitas fraquezas
intrínsecas. No entanto, o investimento de tempo necessário torna as questões de múlti-
pla escolha ineficientes para pequenos grupos ou para serem empregadas uma única vez.
Poucos objetivos não são mensurados de maneira eficiente pelas questões dessa natureza.
Por exemplo, a organização de uma resposta, a construção gramatical de frases e de outras
características de escrita são provavelmente mais bem mensuradas por questões dissertati-
vas (embora testes adequados de múltipla escolha pudessem ser desenvolvidos).
Recomendações para a construção
A confecção de boas questões escritas de múltipla escolha requer cuidadosa atenção em
muitos aspectos, tais como a construção do enunciado e das respostas, assim como a evi-
tação de pistas. Exemplos de questões boas e fracas de múltipla escolha são fornecidos ao
final da seção. As considerações gerais incluem:
• Fique atento à revisão de cada questão quando as estiver escrevendo.
• Crie um arquivo no computador para permitir a revisão e a inclusão de informações.
Registre os objetivos do curso e educacionais que cada questão mede para que você
possa determinar rapidamente seu posicionamento na tabela de especificações. Re-
gistre também a localização da fonte da ideia em torno da qual a questão está sendo
construída, haja vista que essa informação é muitas vezes perdida com o passar do
tempo.
• Fundamente cada questão em um conceito importante, significativo e útil. Geral-
mente, as questões de múltipla escolha mais bem-sucedidas são aquelas baseadas
em generalizações e princípios, e não em fatos e detalhes. Por exemplo, uma questão
que requer o conhecimento da organização geral da Taxonomia dos objetivos educacio-
nais de Bloom é melhor do que uma questão que exige do avaliado o conhecimento
de que a terceira categoria da taxonomia é a “aplicação”.
• Use novas situações quando possível. Geralmente, questões eficazes resultam de se
evitar o uso de materiais ilustrativos específicos de livros didáticos ou palestras e de
se aproveitar do uso de novas situações que requerem a aplicação de conhecimento.
• Redija cada questão de modo que uma resposta possa ser defendida como a melhor
das alternativas. Não é sempre necessário que a resposta-chave correta seja a melhor
de todas as respostas possíveis, mas deve-se poder defendê-la como a melhor das
opções listadas. Além disso, deve-se evitar fazer uma questão que solicite uma opinião,
porque isso resulta em uma situação para a qual não há melhor resposta. Por exemplo,
considere o seguinte item: “Para você, qual a melhor defesa contra um ataque rápido
no basquete?”. Devido ao fato de essa questão solicitar uma opinião, qualquer escolha
marcada deve ser considerada como correta, independentemente de concordar ou não
com as opiniões de autoridades de basquete.
• Redija cada questão de forma clara e concisa. O ideal seria construir o enuncia-
do com informações suficientes para que o avaliado compreenda o que está sendo
questionado e de modo breve o suficiente para que o tempo do teste não seja des-

Morrow_08.indd 179 28/02/13 10:56


180 Morrow, Jackson, Disch & Mood

perdiçado com a leitura de material desnecessário. Ocasionalmente, é necessário


incluir uma sentença ou duas para esclarecer a situação e evitar ambiguidade. No
entanto, evite a prática de “ensino sobre o teste”, incluindo informação desnecessá-
ria (chamado de “janela” por alguns especialistas em testes) ou linguagem floreada e
imaginativa. A linguagem floreada pode aumentar o número de possíveis interpreta-
ções, que, por sua vez, podem levar à ambiguidade.
• Evite a elaboração de questões com enunciados negativos. Quando usá-las, aproveite
ou sublinhe as palavras negativas. O objetivo de se fazer uma questão é determinar se
o avaliado sabe a resposta, e não saber quem lê de modo descuidado ou quem é capaz
de lidar com a confusão que às vezes surge em questões com enunciados negativos.
• Não inclua uma questão que todos os avaliados responderão correta ou incorreta-
mente, a menos que seja determinado que a questão deva ser incluída para aumentar
a validade do teste. Uma questão que todos os avaliados respondem de forma cor-
reta (ou incorreta) é de pequeno valor em um teste de desempenho em virtude de
não discriminar os resultados. Na verdade, pode ser demonstrado matematicamente
que a máxima discriminação só pode ocorrer quando uma questão é de dificuldade
média – isto é, quando cerca de metade dos avaliados a respondem de forma corre-
ta, e a outra metade, de modo incorreto. Apesar de ser difícil estimar a proporção de
avaliados que responderá corretamente uma questão usada pela primeira vez, deve-
-se tentar estruturar questões de múltipla escolha com nível médio de dificuldade.
(Lembre-se que um dos requisitos para escrever boas questões é estar ciente do
nível e da amplitude da compreensão do grupo que está sendo testado.) O nível de
dificuldade de uma questão de múltipla escolha é alterado de modo mais eficaz ao
se mudar a homogeneidade das respostas; o nível de homogeneidade é diretamente
proporcional ao de dificuldade da questão. Um método para se obter um índice de
dificuldade das questões de múltipla escolha é apresentado na página 196.
• Solicite a um especialista que revise as questões confeccionadas. Muitas vezes, um
revisor independente pode localizar ambiguidades, erros gramaticais, particularida-
des e dicas que podem afetar negativamente o teste. Caso não seja possível, solicite
a outras pessoas que revejam as questões, releia você mesmo e, após alguns dias,
as reescreva. (Uma implicação dessa sugestão é que as questões não deveriam ser
escritas na noite anterior à administração do teste. Um dos requisitos para escrever
boas questões é a vontade de investir uma quantidade considerável de tempo nelas.)
• Considere as características de formatação e impressão do teste. Liste cada resposta
em uma nova linha em vez de uma imediatamente após a outra. Além disso, a me-
nos que cada resposta seja longa (um evento improvável), imprima os itens em duas
colunas em vez de ao longo da página. Use letras em vez de números para identificar
as respostas (isso evita a confusão entre questões e respostas). Mantenha todas as
respostas de uma questão na mesma página em que está seu enunciado. Separe gru-
pos de questões relacionadas de outras questões por um espaço ou linha pontilhada.
• Revise os itens e as respostas de modo que uma opção de resposta não apareça com
frequência em uma série de questões e que as opções avaliadas sejam distribuídas
de forma bastante equilibrada ao longo de todas as questões. Os alunos começarão a
se questionar quando mais de 2 ou 3 respostas com alternativa B (ou qualquer que
seja) aparecerem em sequência. Eles podem pensar que a melhor opção, caso não
saibam a resposta, seja “escolher a C”. Portanto, espalhe as respostas.
Escrevendo o enunciado
Para que um item de múltipla escolha seja significativo e importante, tenha em mente um conceito
definido sobre o qual ele foi construído. Ao expressar esse conceito, a parte mais importante do
item de múltipla escolha é o enunciado, e essa é a primeira parte a ser construída.

Morrow_08.indd 180 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 181

O enunciado pode ter duas formas: uma questão direta ou uma frase incompleta. Cos-
tuma ser sensato (especialmente para indivíduos iniciantes, i.e., que ainda não têm expe-
riência na confecção das questões) usar questões em vez de enunciados incompletos, de
modo que a tarefa do avaliado seja definida com clareza. Independentemente da forma usada,
é importante que, quando o avaliado terminar de ler o enunciado, um problema definido tenha
sido identificado, de modo que a procura pela resposta correta possa começar. O enunciado tal
como “Os especialistas em badminton concordam que…” não é uma questão ou tarefa es-
pecífica, em virtude de os especialistas em badminton concordarem em muitos aspectos. O
avaliado é obrigado a ler todas as respostas e determinar o que exatamente está sendo inter-
pelado. Esse enunciado não seria aprimorado mudando-o para a questão: “Em que os es-
pecialistas de badminton concordam?”. Caso seja revisado para “Em que os especialistas de
badminton concordam com relação à aprendizagem da estratégia de rotação pelos jogadores
de badminton?”, o avaliado pode começar a ler as possíveis respostas tentando localizar a
correta em vez de determinar o que está sendo questionado. É mais provável que o uso de
enunciados incompletos resulte em especificações incompletas de tarefas do que o uso de
questões diretas. As sugestões fornecidas na seção “Recomendações para a construção” são
especialmente pertinentes para escrever enunciados de questões de múltipla escolha.
Escrevendo a resposta
Geralmente, são usadas 4 ou 5 palavras, frases ou orações conhecidas como respostas logo
após o enunciado de uma questão de múltipla escolha. Uma das respostas é predetermina-
da como a correta (geralmente chamada de resposta-chave). As respostas restantes são co-
nhecidas como distratores. A resposta-chave é escrita imediatamente depois que se escreve
o enunciado na construção de uma questão de múltipla escolha. Esse procedimento ajuda
a garantir que a questão se baseie em um conceito importante. No teste, evidentemente, a
posição da resposta-chave entre as respostas pode ser determinada aleatoriamente.
Não existe razão para que uma questão de múltipla escolha tenha determinado núme-
ro de respostas ou, ainda, que todas as questões desse tipo tenham o mesmo número de
respostas. Em geral, são usadas 4 ou 5 respostas em virtude de representarem um compro-
misso entre o problema de encontrar várias possibilidades adequadas e plausíveis e incluir
respostas suficientes para que, como acontece com questões verdadeiro ou falso, o acaso
não se torne um fator importante.
Os distratores, a última parte desenvolvida em uma questão de múltipla escolha, não
devem ser construídos com o objetivo de induzir o avaliado preparado a selecionar um
deles. No entanto, devem-se fazer os distratores “atrativos” para o avaliado despreparado.
Todas as respostas deveriam ser respostas plausíveis para o item. Muitas vezes, usar como dis-
tratores afirmações que são verdadeiras, mas não respondem à questão, ou empregar ins-
truções que incluam palavras ou frases estereotipadas são métodos efetivos que tornam o
item atrativo aos avaliados despreparados. O uso de distratores absurdos torna improvável
o item ser selecionado por qualquer avaliado.
Tome o cuidado para não descrever a resposta-chave de modo mais preciso do que
os distratores. Lembre-se que a resposta-chave precisa apenas ser a melhor das escolhas
listadas, não inequivocamente correta em qualquer circunstância. Mantenha a aparência,
isto é, o tamanho e a estrutura gramatical, de todas as respostas o mais semelhante possível,
para evitar a seleção de qualquer resposta por outras razões que não o fato de ser correta.
De modo similar ao que ocorre com o enunciado, mantenha as respostas simples, claras e
concisas, evitando ambiguidades e mantendo o tempo de leitura no mínimo. Caso exista
uma ordem natural entre as respostas (tais como datas), liste-as nessa ordem para eliminar
uma possível fonte de confusão.
Essencialmente, os distratores devem parecer igualmente corretos ao avaliado que não
está familiarizado com o conteúdo do item. No entanto, o avaliado que compreende em sua

Morrow_08.indd 181 28/02/13 10:56


182 Morrow, Jackson, Disch & Mood

totalidade o conceito que está sendo testado deveria ser capaz de determinar a resposta cor-
reta. Em outras palavras, é necessário que um item pareça ambíguo ao aluno mal preparado
(ou seja, ter ambiguidade extrínseca). Caso um item pareça ambíguo ao avaliado bem pre-
parado, ocorre a ambiguidade intrínseca. A ambiguidade extrínseca é desejável, enquanto
a intrínseca não. A Figura 8.1 retrata as diferenças entre esses tipos de ambiguidade.
Muitas vezes, quando é difícil confeccionar distratores plausíveis, é tentador usar
“nenhum(a) dos(as) anteriores” como a resposta final. Para evitar confusão, no entanto, não
use isso a menos que a resposta-chave seja absolutamente correta (como em um problema
matemático), e não apenas a melhor resposta. Quando todas as respostas são parcialmente
corretas (mesmo que uma seja mais correta que as outras), a resposta “nenhum(a) dos(as)
anteriores” pode ser defendida como correta, em decorrência de nenhuma das respostas
ser absolutamente correta. Sem a alternativa “nenhum(a) dos(as) anteriores”, a resposta
mais correta é justificavelmente a melhor alternativa. Um problema similar existe com a
alternativa “todas as anteriores”. Quando não existe resposta absolutamente correta e todas
as respostas contêm algum elemento de correção, a resposta “todas as anteriores” poderia
ser considerada a resposta-chave, mas o avaliado fica em uma posição difícil caso uma das
respostas seja um pouco mais correta do que as outras. Se utilizar respostas desse tipo, veri-
fique se ocasionalmente representam a resposta-chave (em especial no início do teste), para
que os avaliados percebam que devem considerá-las seriamente como possíveis respostas
corretas.
Indícios
De modo ideal, o avaliado responderá à questão de múltipla escolha de forma correta ape-
nas se souber a resposta e incorretamente se não souber. Dois fatores, no entanto, podem
adversamente afetar essa situação. O avaliado pode adivinhar às cegas a resposta correta
para determinada questão – não existe caminho para determinar se a resposta correta in-
dica conhecimento ou sorte. No entanto, a longo prazo, todos têm a mesma chance de ter
sorte, e os efeitos do acaso podem ser matematicamente explicados. O segundo e mais sério

A B A B A B

C D C D

C D

Item muito fácil Ambiguidade extrínseca Ambiguidade intrínseca

A resposta A (a resposta correta) A resposta A é a melhor resposta, Todas as respostas poderiam ser
é claramente demonstrada como mas as outras respostas são razoáveis consideradas como corretas, embora
a correta, estando dentro do círculo (têm algum grau de aceitação). Os a resposta A esteja representada como
maior, e as demais respostas são alunos despreparados encontrarão ligeiramente melhor que as outras.
claramente incorretas, estando fora do dificuldade para escolher entre as Esse tipo de item será ambíguo tanto
círculo. Este item será possibilidades, enquanto os preparados para os alunos bem preparados quanto
respondido corretamente por quase provavelmente irão selecionar a A, para os mal preparados, e provavelmente
todos os avaliados e, portanto, não terá percebendo essa alternativa como a não haverá discriminação entre eles.
potencial discriminatório. melhor entre as respostas.

Figura 8.1 A diferença entre ambiguidade intrínseca e extrínseca. “A” é a resposta correta em cada exemplo.

Morrow_08.indd 182 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 183

fator é o de que os indícios são incluídos nas questões de múltipla escolha. Em virtude de
os avaliados não serem igualmente hábeis para detectar os indícios, os efeitos desse fator
não são tão previsíveis como os do acaso. A única forma de eliminar o problema é eliminar
os indícios.
Alguns indícios são mais óbvios, outros, mais sutis. Por exemplo, normalmente é fácil
de se identificar o uso de uma palavra-chave que aparece tanto no enunciado como na
resposta correta, ou uma resposta-chave que é a única que gramaticalmente concorda com
o enunciado (p. ex., o enunciado exige uma resposta no plural, e todas as respostas, com
excessão de uma, estão no singular). As associações clang, palavras que soam como se per-
tencessem a outra, como bats and balls (i.e., morcegos e bolas), shoes and socks (i.e., sapatos
e meias), up and down (para cima e para baixo) são muitas vezes relativamente difíceis para
a construção do teste, e ambas as palavras fornecem indícios imediatos para os avaliados.
Sugerimos o uso de palavras ou frases estereotipadas como um método de garantir distra-
tores atraentes. No entanto, não as utilize na resposta correta, pois um aluno despreparado
pode selecioná-la por soar bem, e não por ser a resposta correta.
Ao fazer uma questão, os profissionais que constroem testes podem fornecer inad-
vertidamente informações que respondem outro item do teste. Tais questões interligadas
fornecem pistas àqueles avaliados com experiência na realização de provas. É mais provável
que isso aconteça se você constrói um teste selecionando várias questões de um arquivo
de possíveis perguntas ou adiciona novas questões – ou, ainda, revê as antigas – em um
teste subsequente. Para evitar itens interligados, leia o teste na íntegra após elaboradas as
questões.
Variações
Muitas variações de questões de múltipla escolha foram desenvolvidas para atender às
necessidades de determinada situação. Por exemplo, o item de classificação é uma forma
eficiente do formato de múltipla escolha caso o mesmo conjunto de respostas se aplique a
muitos itens. Veja a seguir um exemplo de um item de classificação:
Para as questões 89 a 92, determine o tipo de teste mais bem descrito em cada afirma-
ção ou frase. Para cada item, risque o espaço da resposta:
A. Se um teste dissertativo é descrito.
B. Se um teste verdadeiro ou falso é descrito.
C. Se um teste de associação é descrito.
D. Se um teste de classificação é descrito.
E. Se um teste de múltipla escolha é descrito.
89. O teste é limitado pela dificuldade de se garantir palavras ou frases de estímulos
suficientemente semelhantes. (C).
90. As respostas geralmente abrangem todas as categorias possíveis. (D)
91. A qualidade é determinada pela habilidade de leitura das respostas. (A)
92. O aluno pode responder mais itens por minuto. (B)
Uma outra variação na questão de múltipla escolha envolve o uso de imagens ou dia-
gramas, conforme ilustrado na Figura 8.2.
Você pode criar outras variações para servirem de funções específicas desde que o ava-
liado seja capaz de compreender sua tarefa na resposta. A maioria das sugestões apresenta-
das previamente pode ser aplicada a essas diversas variações.
Recomendações para a classificação
Normalmente, os avaliados registram suas respostas para questões de múltipla escolha na
própria prova ou em uma folha de resposta separada. Orientar os alunos a marcarem dire-

Morrow_08.indd 183 28/02/13 10:56


184 Morrow, Jackson, Disch & Mood

Caso o círculo sombreado represente uma vista superior de um jogador de tênis realizando
um golpe cruzado, em que local deve estar a bola quando for tocada pela raquete: A, B,
C ou D? (B)

A B C D

Figura 8.2 Amostra de um diagrama usado em um teste escrito.

tamente no teste reduz um pouco as chances de marcar errado e é conveniente para uma
discussão sobre a prova após sua administração. Caso esse procedimento seja utilizado,
é possível facilitar o processo de classificação organizando as questões de modo que suas
respostas sejam registradas ao longo das margens do teste e sejam usadas como respostas-
-chave de sobreposição para coincidir com cada página (um gabarito).
Embora não seja tão conveniente ao avaliado, o registro das respostas em uma folha
separada tem muitas vantagens para o avaliador. É possível corrigir as respostas de forma
rápida e precisa por meio da construção de um gabarito para uma das folhas de resposta.
Faça furos correspondentes às posições das respostas introduzidas na folha de resposta. É
possível contar o número de respostas corretas quando a chave é sobreposta em uma folha
de resposta do avaliado. É também possível usar folhas de respostas corrigíveis automati-
camente, as quais permitem que os dados sejam corrigidos e analisados por uma máquina
e um programa de computador.

Item de domínio 8.4


Usando as sugestões apresentadas, escreva cinco questões de múltipla escolha sobre um
assunto do seu interesse. Critique as questões de seus colegas.

Questões dissertativas
Para completar uma questão dissertativa, o avaliado deve ler o enunciado, conceber uma
resposta e escrevê-la. A questão dissertativa tem muitos usos, como exigir do avaliado
definições, interpretações, avaliações ou comparações e demonstrar conhecimento de re-
lações. Nesse tipo de questão, o avaliador deve conhecer o assunto para corrigir de modo
apropriado a resposta do avaliado.

Usos e vantagens
Apesar de praticamente qualquer tipo de questão mensurar de modo efetivo a capacidade
de organizar, analisar, sintetizar e avaliar informação, as questões dissertativas alcançam

Morrow_08.indd 184 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 185

EXEMPLO DE QUESTÕES DE MÚLTIPLA ESCOLHA PARA


O RAQUETEBOL E O HANDEBOL

O asterisco indica a resposta correta para as questões boas e fracas.

Questões boas
Observe que essas questões são impressas em duas colunas, com cada item incluso na coluna ou na página em que
inicia. Note também que as respostas são identificadas por letras.

1. Como se chama uma bola sacada que atinge o 4. Como é chamada uma bola sacada que atingiu o
parceiro do sacador, o qual está de pé na área sacador no rebote da parede frontal?
correta? A. Distribuída
A. Curta B. Obstruída
B. Falta C. Falta
C. Distribuída *D. Curta
*D. Bola morta
2. Quantas saídas existem na primeira entrada de 5. Como é chamada uma bola servida que bate no
um jogo de duplas? servidor de rebote da parede frontal?
A. Uma A. Curta
B. Duas B. Falta
*C. Três *C. Distribuída
D. Quatro D. Bola morta
3. Qual dos seguintes golpes é usado para man-
ter seu adversário em movimento no fundo da
quadra?
A. Gope mortal
B. Golpe de passagem
*C. Golpe limpo
D. Golpe em ângulo frontal

Questões fracas
1. No handebol
A. O impedimento da continuidade do jogo exclui o jogador. *B. O pulso pode ser usado para bater a bola.
C. Os recebedores podem marcar gols. D. O jogo pode ser realizado por apenas 2 ou 4 pessoas.
(O enunciado não permite a análise adequada da questão, e, assim, o avaliado deve ler todas as alternativas
para determinar o que está sendo questionado. Além disso, as respostas estão amontoadas e impressas ao
longo da página).
2. Como é chamada a situação em que uma bola servida que atinge a parede frontal, as paredes laterais, o
piso, a parede do fundo e a parede do outro lado não é devolvida pelo receptor?
1. Sorte *2. Ponto 3. 911 4. Strikeout
(Nenhum dos distratores representa uma resposta plausível. Do mesmo modo, a questão foi impressa ao
longo da página, os numerais estão sendo usados para identificar as respostas e as alternativas estão amon-
toadas e impressas ao longo da página).
3. Como é chamada a situação em que um jogador fica no caminho de seu oponente?
A. Ponto
B. Curto
C. Destruição
*D. Impedimento
(“Ficar no caminho de” e “impedimento” representam uma associação clang (associação por som). Uma maior
quantidade de avaliados poderia responder corretamente com pouco ou nenhum conhecimento do jogo).

Morrow_08.indd 185 28/02/13 10:56


186 Morrow, Jackson, Disch & Mood

4. Que termo é usado se, no recebimento do saque, a bola atingir o receptor antes de tocar na parede frontal
ou no chão?
A. Impedimento
B. Falta
C. Distribuição
*D. Ponto, pelo fato de que atingir o seu parceiro representa sua própria falta.
(Redigir mais precisamente a resposta-chave do que os distratores para assegurar sua exatidão permitirá
aos avaliados selecionar a alternativa correta mesmo que não tenham certeza da resposta.)
5. Qual é o melhor golpe para se usar no raquetebol?
A. Golpe de passagem
*B. Golpe teto
C. Golpe mortal
D. Nenhuma das anteriores
(“Nenhuma das anteriores” poderia ser defendida como a opção correta em virtude de não existir um golpe
absolutamente “melhor” em todas as situações.)

esse objetivo com mais facilidade. A afirmação de que as questões dissertativas promovem
o estudo de generalizações em vez de fatos parece razoável, mas não foi e provavelmente
não será fundamentada de modo conclusivo. As questões dissertativas podem medir de ma-
neira efetiva as opiniões e as atitudes; no entanto, raramente existe o interesse de mensurar
esses atributos em uma unidade de ensino. Os questionários costumam ser usados para
medir opiniões e também atitudes. As questões dissertativas são referidas como perguntas
abertas. A informação sobre questionários como instrumentos de medidas é apresentada ao
final deste capítulo. Em algumas situações, usar as questões dissertativas é mais eficiente
ou conveniente, independentemente dos processos mentais ou dos assuntos envolvidos.
Por exemplo, o tempo total necessário para confeccionar e revisar um teste dissertativo é
muitas vezes menor do que para outros tipos de questões.
Você também deveria considerar suas preferências pessoais. Caso esteja confiante em
sua capacidade de confeccionar e corrigir questões dissertativas, mas falte confiança para
usar outros tipos de questões, você provavelmente deveria usar os testes dissertativos. No
entanto, esteja ciente das limitações das questões dissertativas e de como você pode eli-
minar ou minimizar essas limitações. Por último, quando prazos e cronogramas deixam
pouco tempo para a confecção dos testes, mas tempo suficiente para a correção, use testes
dissertativos.

Limitações
Mesmo com preparo e correção cuidadosos, pelo menos três problemas podem surgir
quando as questões dissertativas são usadas.
Incapacidade de se obter uma ampla amostra de desempenho
Em virtude do tempo necessário para organizar e escrever as respostas, nem sempre é
possível incluir questões dissertativas em um teste para mensurar o desempenho de cada
conteúdo e objetivo educacional. Consequentemente, existe certa ausência de validade de
conteúdo. É possível minimizar esse problema por meio da construção de uma tabela de
especificações, usando várias questões dissertativas que exijam respostas relativamente pe-
quenas em vez de algumas perguntas que demandem respostas extensas, bem como reali-
zar testes com frequência para reduzir a quantidade de material mensurado.

Morrow_08.indd 186 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 187

Inconsistências nos procedimentos de classificação


O problema mais sério associado às questões dissertativas é a falta de confiabilidade nos pro-
cedimentos de classificação. Não apenas demora um tempo significativo para corrigir uma
questão apropriadamente, mas vários outros fatores causam inconsistências na classificação
obtida. Em função da liberdade do avaliado na confecção das respostas, muitas vezes é ne-
cessário decidir subjetivamente se o aluno alcançou o objetivo. Você pode reduzir (embora
não por completo) a subjetividade caso tenha amplo conhecimento no assunto tratado e
tenha deixado claro o que cada questão exige do avaliado.
Outro problema é o “efeito halo” ou generalização – a parte do escore do avaliado que
reflete a sua opinião geral sobre ele. Dar o benefício da dúvida em determinada questão
ao avaliado bem-sucedido em muitas das outras questões ou àquele que o impressionou
positivamente no passado é um exemplo desse fenômeno. A elaboração de um sistema
de códigos para que o nome do avaliado não apareça na folha de resposta e a correção de
questão em questão em vez de prova por prova representam estratégias que podem dimi-
nuir a consequência desse problema.
A escrita, a ortografia e a gramática, por exemplo, podem afetar positiva ou negati-
vamente a correção da resposta. A menos que existam objetivos específicos no teste, a
classificação não deveria refletir esses elementos, mas ser influenciada apenas pelo desem-
penho.
Dificuldades na análise da eficácia do teste
Após ter construído, administrado e corrigido o teste, você irá querer analisar quão bem a
prova mediu o conteúdo proposto, especialmente caso venha a usá-la novamente. A aná-
lise de um teste em geral inclui a obtenção de indicações de reprodutibilidade, validade e
objetividade do teste, bem como os pontos fortes e fracos de cada item do teste. Embora
algumas dessas características possam e devam ser investigadas, as questões dissertativas
não permitem esse tipo de análise minuciosa tão bem quanto as questões objetivas.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 8.8.

Recomendações para a construção


As sugestões a seguir o ajudarão a superar alguns dos pontos fracos e problemas associados
à classificação.
• Redija a questão de maneira que os processos mentais requeridos sejam claramente
evidentes. O objetivo de uma questão pode ser determinar se o domínio de elemen-
tos de fato ocorreu (p. ex., “quais as dimensões externas de um campo oficial de
tênis?”), definir o grau em que o aluno consegue aplicar o material aprendido a no-
vas situações (p. ex., “se as regras foram alteradas de modo a permitir que o círculo
de tiro seja colocado a dois pés [61 cm], isso aumentará ou diminuirá a distância
percorrida pelo tiro se todos os outros fatores forem mantidos iguais? Por quê?”)
ou avaliar a capacidade de organizar uma resposta de forma lógica (p. ex., “trace o
desenvolvimento dos testes de aptidão física de uma escola pública a partir do teste
sentar e alcançar do aptidograma.”). O avaliado deve ser capaz de reconhecer o tipo
de resposta necessário pela maneira que a questão foi construída.
• Use várias questões dissertativas que exijam respostas relativamente curtas em vez
de poucas que exijam respostas longas. Essa prática em geral leva a dois resultados
positivos: uma amostra mais ampla do conhecimento e um teste composto de per-

Morrow_08.indd 187 28/02/13 10:56


188 Morrow, Jackson, Disch & Mood

guntas relativamente específicas, cujas respostas normalmente podem ser corrigidas


de forma mais confiável.
• Elabore a questão de modo que a tarefa do avaliado seja especificamente identifi-
cada. Evite perguntar por opiniões quando se mede o conhecimento educacional.
Comece com as seguintes palavras ou frases: Explique como, Compare, Contraste e
Apresente argumentos a favor e contra. Não inicie com: Discuta, O que você acha sobre
ou Escreva tudo o que você pensa sobre. Além disso, não comece com Liste, Quem,
Onde ou Quando, a menos que o objetivo da questão seja mensurar o domínio de
material relativamente factual.
• Estabeleça diretrizes para indicar o escopo da resposta exigida. Construa fatores
limitantes dentro da questão, como: “Mostre, por meio de palavras e figuras, como a
aptidão física relacionada à saúde está associada com o conhecimento acadêmico...”
ou “Limitando sua resposta apenas a esportes coletivos, compare...”. O estabeleci-
mento da quantidade de tempo gasto na resposta, o número de palavras necessárias
para fornecer uma “melhor resposta” ou o tamanho do espaço no qual a resposta
deve ser escrita representam outras estratégias para esse fim. No entanto, fornecer
espaços diferentes para cada questão pode penalizar aqueles avaliados que têm le-
tras grandes.
• Prepare para si mesmo uma resposta ideal para a questão. Isso requer identificar
com exatidão o conteúdo que a questão pretende medir – assim, as ambiguidades
muitas vezes se tornam aparentes. Essa prática também aumenta a reprodutibilidade
no processo de classificação.
• Evite permitir a escolha da questão a ser respondida. Se o teste foi elaborado para
mensurar o grau de alcance dos objetivos em um grupo de alunos expostos ao mes-
mo conteúdo, todos os avaliados devem ser obrigados a responder às mesmas ques-
tões. A base comum de medida é perdida quando há a possibilidade de escolha da
questão. As questões opcionais adicionam outras variáveis e aumentam a possibili-
dade de imprecisão na avaliação.
• É melhor NÃO pedir aos alunos quaisquer opiniões. Uma vez que a intenção é clas-
sificar a resposta com base na fundamentação substancial fornecida por ela, é difícil
separar as opiniões verdadeiras (e quem pode dizer qual opinião é a melhor? – como
você pode imaginar, em geral a opinião do professor é percebida como a melhor).
• É possível indicar o número aproximado de palavras que o avaliado deveria escrever
(p. ex., 50 ou 150 palavras; um parágrafo) ou a quantidade de tempo que ele deve
gastar em cada item (p. ex., 5 ou 10 minutos).

Recomendações para a classificação


Certas práticas reduzem algumas das inconsistências inerentes ao processo de classificação
de uma resposta dissertativa. Vários desses processos estão relacionados ou derivam das
sugestões anteriores referentes à construção.
• Decida antecipadamente o que a questão pretende medir. Caso ela seja projetada
para medir a aplicação de fatos, a avaliação da resposta não deve considerar a orga-
nização, a ortografia, a gramática, a clareza ou outros padrões. Ignore elementos que
não lidem com o objetivo da questão.
• Use a resposta ideal previamente preparada como uma estrutura de referência para
a classificação. Isso é importante sobretudo para assegurar uma avaliação indepen-
dente da resposta (ver a p. 190 para mais detalhes).
• Determine o método de classificação. Use um desses sistemas:

Morrow_08.indd 188 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 189

• A classificação analítica envolve identificar fatos, pontos ou ideias específicos e


conceder crédito para cada item. A nota máxima deveria necessariamente incluir
todos os itens específicos presentes na resposta ideal. Esse tipo de classificação é
efetivo sobretudo quando o objetivo da questão é mensurar se o aluno adquiriu
o material factual.
• A classificação global consiste em ler a resposta e converter a impressão geral
obtida em uma nota. Teoricamente, a impressão geral representa uma função de
plenitude da resposta em comparação à resposta ideal. Dos três métodos de clas-
sificação, este é o mais subjetivo e um dos mais suscetíveis a influências externas.
• O escore relativo consiste da leitura de todas as respostas dos alunos para deter-
minada questão e consequente organização dos testes de acordo com sua adequa-
ção. É possível realizar isso por meio da criação de várias categorias (como bom,
adequado e fraco; ou excelente, acima da média, na média e abaixo da média) e
da atribuição de cada resposta a uma das categorias. Podem ser necessárias várias
leituras para a organização dos trabalhos em cada categoria, e, ocasionalmente,
também o deslocamento de uma para outra categoria. O resultado final é o or-
denamento de todos os trabalhos com relação à correção das respostas para a
questão avaliada. Depois da classificação, pode ser atribuído um escore a cada
resposta. Não há razão para atribuição de A ao melhor teste e F ao pior; as ava-
liações deveriam ser influenciadas pela comparação de cada resposta à resposta
ideal. Esse ordenamento das respostas aumenta a consistência no procedimento
de classificação, sendo eficaz sobretudo quando o objetivo de determinada ques-
tão é medir processos mentais relativamente complexos. Repita o procedimento
para cada uma das questões restantes.
• Desenvolva um sistema que não permita a você saber de quem é o teste que está sen-
do corrigido. Os avaliados poderiam assinar seus nomes em um pedaço de papel ao
lado de um número correspondente ao número em seu caderno de prova ou marcar
as suas cópias do teste com um desenho ou padrão únicos reconhecidos apenas por
eles. Usar uma folha diferente para cada questão também elimina o viés causado
pela visão da nota dada à resposta do item anterior. Registrar as notas atribuídas a
cada resposta em uma folha de papel separada ajudaria a eliminar o “efeito halo”
caso se tenha várias respostas em uma folha de resposta (como poderia ser o caso
diante da exigência de respostas curtas). Esse procedimento também é útil caso os
testes sejam recorrigidos para verificação da reprodutibilidade. O segundo leitor,
que pode ou não ser você, não será influenciado pela nota atribuída anteriormente.
• Avalie a resposta de todos para cada questão em vez de uma prova inteira de cada
vez. Esse processo é necessário caso utilize uma pontuação global ou relativa. Embo-
ra não seja necessário para uma classificação analítica, o processo normalmente leva
a uma classificação mais consistente, pois é mais fácil comparar todas as respostas de
uma questão quando as respostas das outras perguntas não intervêm.
• Organize uma segunda pontuação da questão. A garantia da reprodutibilidade e
da objetividade da correção de um teste dissertativo requer que cada resposta seja
corrigida duas vezes e que as duas notas sejam comparadas. De modo ideal, essas
duas notas deveriam ser atribuídas por dois avaliadores diferentes para garantir que
sejam independentemente obtidas. Se for possível convidar outro profissional com
conhecimento na área abrangida pelo teste para classificar a avaliação, forneça-lhe
as respostas ideiais às questões para que as duas notas obtidas tenham uma base
comum. No entanto, caso isso não seja possível, corrija você mesmo as respostas em
duas ocasiões diferentes, talvez com o intervalo de uma semana, em um esforço para

Morrow_08.indd 189 28/02/13 10:56


190 Morrow, Jackson, Disch & Mood

garantir alguma evidência sobre a consistência do procedimento de classificação


usado.
Como deve estar claro a esta altura, o processo de construção e de classificação de um
teste dissertativo pode ser entediante e consumir bastante tempo. No entanto, para ser jus-
to com os avaliados, os procedimentos aqui expostos devem ser seguidos caso se opte por
um teste dissertativo para medir objetivos cognitivos.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 8.9.

ADMINISTRAÇÃO DO TESTE
Como notado, existem problemas envolvidos no ato de testar. Antes e durante a sessão de
testes, o nível de ansiedade de alguns avaliados pode aumentar além do desejável; ao longo
da avaliação, podem ocorrer fraudes; e, depois, sentimentos de humilhação ou arrogân-
cia podem ser experimentados. No entanto, essas circunstâncias indesejáveis não precisam
ocorrer. As sugestões apresentadas aqui podem ajudar a eliminar ou reduzir muitas das
ocorrências desagradáveis frequentemente associadas à administração do teste. Embora a
avaliação propriamente dita e o procedimento de classificação usado tenham alguma influência
sobre essas ocorrências, é provável que a administração do teste propriamente dito tenha o maior
impacto sobre os problemas que surgem antes, durante e depois do teste.
Antes do teste
• Prepare os avaliados para o teste. Em geral, menos ansiedade está associada a
testes anunciados com bastante antecedência do que a avaliações surpresa, e a dis-
cussão do conteúdo de um teste próximo pode ajudar a reduzir essa apreensão. Não
é lógico (ou ético) incluir em um teste temas que não tenham sido considerados.
Itens como quais áreas gerais serão avaliadas, a quantidade aproximada de tempo
dedicada a cada área, os tipos de questões que cairão na prova (dissertativa, múltipla
escolha) e a duração do teste representam preocupações legítimas do avaliado. No
final das análises, um teste escrito, se devidamente construído, pode expressar com
precisão os objetivos da unidade de ensino. É difícil imaginar uma situação em que
o conhecimento desses objetivos deva ser negado aos avaliados.
• Elimine as vantagens do teste para alguns avaliados. Use técnicas apropriadas
de construção do teste com as ferramentas descritas anteriormente (evitando pistas
gramaticais, determinadores específicos, itens interligados, e assim por diante) e
forneça ao avaliado sugestões extraídas do teste. Por exemplo, as seguintes recomen-
dações podem ser feitas aos avaliados:
• Notem que todo o material mensurado por um bom teste não pode ser aprendi-
do na noite anterior ao teste. Aproveite esse momento revisando o material, não
aprendendo.
• Leiam as instruções do teste antes de começar a responder às questões. Saibam
como o teste será classificado. Estejam cientes de que (a) todas as questões têm o
mesmo peso; (b) que o capricho, a gramática e a organização serão considerados na
classificação; e (c) que uma fórmula de correção para evitar “chutes” será aplicada.
• Imprimam seu ritmo.
• Elaborem uma resposta antes de começar a escrevê-la.
• Vejam se estão escrevendo a resposta no lugar certo na folha de resposta.
• Verifiquem suas respostas se o tempo permitir.
• Veja a lista de habilidades exigidas para o teste nas páginas 192 e 193.

Morrow_08.indd 190 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 191

• Forneça quaisquer instruções incomuns ou longas antes do momento de admi-


nistração do teste.
Isso economizará tempo no dia do teste e, o mais importante, capacitará o avaliado
para começar o teste o mais rápido possível. Isso também reduz o tempo que ocasio-
na a ansiedade, especialmente para aqueles que se sentem pressionados pelo tempo.
• Reveja o teste antes de reproduzi-lo. Ler a prova ajuda a garantir que cada avalia-
do receberá uma cópia legível do teste, livre de erros de tipografia, ortografia, etc.
Isso também elimina ou reduz o tempo dispendido para esclarecimento de erros
desse tipo.
• Forneça um teste prático para reduzir a ansiedade do avaliado.
Durante o teste
• Organize um método eficiente para distribuir e coletar os testes. Com um pe-
queno grupo, isso raramente é uma preocupação. No entanto, em grupos maiores
(cerca de 60 avaliados espalhados em uma sala grande, um procedimento de dis-
tribuição eficiente será necessário para que todos os avaliados recebam simultanea-
mente o teste e tenham mais ou menos o mesmo tempo para completá-lo, assim
como um procedimento de coleta eficiente é vital para manter a segurança do teste.
• Auxilie os avaliados no ritmo deles. Isso pode ser feito marcando-se silenciosa-
mente em um quadro o tempo restante, assim como pela estimativa da parcela do
teste em que o avaliado deveria estar trabalhando.
• Responda a dúvidas individuais com cuidado e privacidade. Para evitar inco-
modar os demais, responda a uma dúvida individual na sua própria mesa ou na do
avaliado. No entanto, tenha cuidado para que sua resposta não forneça ao avaliado
qualquer vantagem sobre os demais.
• Controle de fraude. Obviamente, a fraude nega a validade de um conjunto de esco-
res. No entanto, mais sérias que isso são as atitudes negativas dirigidas àqueles que
trapaceiam, ao funcionário que não controla a fraude e ao teste em geral.
• Controle o ambiente. Na análise final, qualquer fator que impeça o avaliado de fa-
zer o seu melhor diminui a reprodutibilidade, a validade e a utilização do conjunto
de resultados. Alguns desses fatores – motivação do avaliado e hábitos de leitura
– não estão sob o controle direto do avaliador, embora possam ser influenciados.
É possível, no entanto, fornecer uma iluminação adequada, eliminar barulhos que
distraiam, manter uma temperatura agradável e dispor um espaço adequado para o
trabalho.
Depois do teste
• Corrija o teste e registre as notas o mais rápido possível. A rapidez dessa ope-
ração depende, é claro, do tipo e da duração do teste administrado. No entanto, o
avaliado geralmente aprecia resultados rápidos.
• Informe as notas de forma anônima. Deixe o avaliado decidir se gostaria que sua
avaliação fosse de conhecimento dos demais. Use um sistema confidencial de núme-
ro de identificação se você postou as notas.
• Evite o uso e a interpretação das notas do teste de forma equivocada. Ao seguir
essa sugestão, será possível melhorar a reprodutibilidade e a validade da prova. No
entanto, lembre-se que nenhum teste é perfeitamente fidedigno. Portanto, não as-
suma decisões cruciais com base nos resultados de um teste escrito. Por exemplo,
não interprete uma variação de um ponto entre duas notas como uma diferença
significativa entre os avaliados. (Consulte, no Capítulo 6, as informações sobre o
erro-padrão de medida para avaliar o nível de confiança que você pode ter sobre

Morrow_08.indd 191 28/02/13 10:56


192 Morrow, Jackson, Disch & Mood

ALGUMAS HABILIDADES EXIGIDAS PARA O TESTE


Preparando-se para o teste
• Programe seu tempo com antecedência – planeje o tempo de estudo disponível.
• Saiba quando, onde e como você será avaliado. Pergunte ao instrutor.
• Dirija-se ao instrutor quando encontrar dificuldades ou problemas no estudo.
• Esteja na melhor forma física e mental possível.
• Esteja motivado e positivo em sua atitude com relação ao teste.
• Esteja com o material preparado: lápis, seu espaço, texto, tabelas e anotações.
• Pratique, pratique e pratique realizando testes simulados. Geralmente, as pessoas que estão mais familiari-
zadas com os testes se saem melhor. Os esforços práticos costumam ser melhores em testes com limite de
tempo. Quanto menor o intervalo entre a prática e o teste, melhor o efeito da prática.
• Leia cuidadosamente os resumos de cada capítulo. Olhe o texto destacado, as figuras e as tabelas.
• Estude com os colegas.
• Evite aborrecimento.
• Saiba como realizar testes, mesmo que isso não possa lhe ajudar em testes bem desenvolvidos. Isso irá ajudá-
-lo em testes mal formulados.
• Caso esteja estudando para um teste escrito, pratique fazendo e respondendo a questões antes.
• Caso esteja estudando para um teste do tipo complete, descubra se a ortografia irá contar pontos.
• Se estudar para um teste de associação, descubra se você pode usar uma mesma resposta mais de uma vez.
• Se estiver se preparando para uma avaliação com consulta, anote as páginas ou destaque seções importantes
com um marcador para encontrar as respostas durante a avaliação.
• Caso esteja estudando para um teste para ser feito em casa, descubra quais fontes você pode usar.
• Examine cuidadosamente todo o material relacionado ao curso. (Mas não fique acordado a noite toda.)
• Tenha uma boa noite de descanso.
• Não use estimulantes ou tranquilizantes.
• Não beba ou coma muito antes do teste.
• Vá cedo ao local do teste e se familiarize com o ambiente.
• Evite fazer questões no último minuto. O pânico é contagioso. Não fale com os amigos imediatamente antes
do teste.
• Relaxe.

Começando e fazendo o teste


• Sente-se onde você se sinta bem e confortável – independentemente de estar próximo à janela, próximo à
saída ou onde você costuma se sentar. Não se sente próximo a pessoas desagradáveis.
• Leia e ouça as instruções cuidadosamente. Existem informações importantes nas instruções, que incluem
direções ou correções orais.
• Procure saber como o teste será classificado, se alguns itens valem mais do que outros, se a adivinhação (chu-
te) será penalizada e se o capricho conta.
• Saiba quanto tempo está disponível para completar o teste e esteja ciente do tempo restante durante a avaliação.
• Olhe rapidamente o teste antes de iniciá-lo, de modo a planejar e adequar seu tempo.
• Verifique o conteúdo de todas as páginas e itens antes de começar a avaliação.
• Estabeleça seu ritmo, organize seu tempo e não perca muito tempo em apenas um item.
• Concentre-se na avaliação; não se distraia olhando o que está acontecendo na sala.
• Pense positivamente.
• Mantenha-se calmo caso não saiba a resposta; estabeleça uma hipótese.
• Pergunte ao instrutor caso não tenha entendido algo.
• Caso não esteja conseguindo fazer uma questão, vá para a próxima e volte mais tarde. A atividade reduz a
ansiedade.
• Esteja ciente de quando o tempo estiver quase terminando para que possa revisar e checar a sua avaliação.
• Não se preocupe com os outros alunos (ou seja, se eles saírem ou finalizarem a tarefa antes de você).

Morrow_08.indd 192 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 193

• Se você usar uma folha de respostas separada, verifique várias vezes se está marcando na linha e na coluna
certas. Verifique se você respondeu a todas as questões. Se sobrar tempo, reveja as perguntas e suas respostas.
• Pouco antes de entregar a folha de respostas, conte o número de respostas assinaladas. Certifique-se de que
o número de respostas assinaladas seja igual ao de itens da avaliação.

Após realizar o teste


• Escreva tudo o que se lembrar sobre o teste.
• Caso ache que não foi bem na avaliação, vá à sala do avaliador e reveja a avaliação com ele.
• Argumente com o avaliador quando estiver certo sobre uma resposta corrigida de forma equivocada.

a precisão de pontuação de um teste.) Tal interpretação é um uso inadequado das


notas. Junto com outras formas de medidas, considere os resultados dos testes escri-
tos quando for avaliar os indivíduos, mas deixe que esses resultados influenciem as
avaliações apenas na medida permitida por sua precisão.

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 8.10.

ANÁLISE DO TESTE
Para determinar a quantidade de confiança atribuída a um conjunto de notas resultantes da
administração de um teste, examine a reprodutibilidade e a validade do teste. Isso se baseia na
similaridade (validade) e na consistência (reprodutibilidade) com que o teste realmente
mede o que se propõe. A evidência para a reprodutibilidade e a validade de um teste é tanto
global (desempenho geral do teste) como específica (qualidade das questões individuais).

Reprodutibilidade
Para um teste perfeitamente reproduzível, cada escore observado seria uma representação
exata do nível de desempenho do avaliado no que quer que o teste mensure. Cada escore
observado seria um ponto verdadeiro, não contaminado pelo erro. Na verdade, evidente-
mente, um escore observado consiste em duas partes: o escore verdadeiro e o erro (lembre-
-se do Capítulo 6). O escore erro pode ser positivo ou negativo, aumentando ou dimi-
nuindo o escore observado. Quando a porção de erro para o escore observado aumenta, a
reprodutibilidade diminui. Infelizmente, existem várias fontes de erro nos testes escritos:
• Amostragem inadequada. As questões que aparecem em um teste representam
apenas uma amostra do número infinito de possíveis questões que poderiam ter
sido selecionadas. O erro é introduzido caso a amostra selecionada não represente
adequadamente a população desejada de possíveis questões. Um exemplo de como
o erro de amostragem pode diminuir a reprodutibilidade do teste (e validade) seria a
falha em atribuir crédito ao examinado por sua compreensão de determinado assun-
to ou em penalizá-lo por não compreendê-lo em virtude de não haver no teste uma
questão que avaliasse tal tópico.
• Condição física e mental do avaliado. A doença, a ansiedade severa, o excesso de
confiança ou a fadiga podem alterar a pontuação e, portanto, diminuir a reproduti-
bilidade do teste.
• Condições do ambiente. Iluminação fraca, falta de controle da temperatura, barulho
excessivo ou muitas outras variáveis similares que afetam negativamente a concen-
tração podem fazer os escores observados não representarem os escores verdadeiros.

Morrow_08.indd 193 28/02/13 10:56


194 Morrow, Jackson, Disch & Mood

• Chute. É possível que o efeito total do chute seja equilibrado, não introduzindo o
erro devido ao fato de o avaliado ter, pelo menos em teoria, as mesmas chances para
a boa e a má sorte e em um teste objetivo. No entanto, uma única administração de
um teste não representa a situação como um todo, e a reprodutibilidade do teste
pode ser diminuída em virtude de alguns avaliados terem tido mais sorte em seus
chutes do que seus colegas.
• Mudança no campo. Algumas vezes o erro não é introduzido pelo instrumento
medido, mas pela instabilidade da variável mensurada. A falta de definição consis-
tente (p. ex., a discordância das autoridades na definição de “aptidão física”) e as
flutuações na magnitude do atributo a ser mensurado (p. ex., a atitude com relação à
atividade física pode mudar com o passar do tempo) tornam difícil a construção de
um teste reproduzível em algumas áreas.
Portanto, muitos fatores, alguns dos quais estão pelo menos em parte sob seu controle,
podem introduzir o erro e, consequentemente, reduzir a reprodutibilidade do teste escrito.
Assim como indicado no Capítulo 6, existem vários métodos para se calcular um coeficiente
que expresse a reprodutibilidade do teste, e cada um deles reflete uma ou mais das fontes de
erro. Caso as questões do teste sejam classificadas como corretas (1) ou incorretas (0), o coe-
ficiente alfa (identificado na fórmula de Kuder–Richardson 20, ou KR20) pode ser usado para
estimar a reprodutibilidade do teste. O KR20 é, na verdade, a média de todos os possíveis
coeficientes de reprodutibilidade e, como tal, uma estimativa relativamente conservadora da
reprodutibilidade do teste. A obtenção de um coeficiente de reprodutibilidade satisfatório
quando se usa um procedimento conservador é boa, pois o uso de outros procedimentos
menos conservadores resultaria em estimativas mais elevadas. O KR20 é definido como:

(8.1)
onde K é o número de itens da avaliação, s total é a variância dos escores do teste e ∑pq é
2

a soma da dificuldade (p) vezes q, o qual é definido como (1 – p). Será possível aprender
mais sobre o p (Dificuldade ou Dif.) adiante.
Outro método para se estimar a reprodutibilidade de um teste escrito, no qual pode-se
assumir que todos os itens da avaliação sejam igualmente difíceis, é o KR21. Sua fórmula é:

(8.2)
2
onde K é o número de questões no teste, s total é a variância dos escores, M é a média do
escore do teste e –p é a dificuldade média definida com M/K. Note a similaridade entre KR20,
KR21 e o coeficiente alfa (veja a Equação 6.3). O coeficiente alfa é, na verdade, equivalente
ao KR20. A estimativa da reprodutibilidade pelo KR21 é relativamente fácil de se calcular,
mas o pressuposto de equivalência de dificuldade dos itens não costuma ser verdadeiro.
A violação desse pressuposto resulta em uma subestimação da reprodutibilidade do teste
aplicando-se a fórmula; portanto, a fórmula KR21 é a estimativa mais conservadora da re-
produtibilidade do teste. Assim, o KR20 sempre será maior ou igual ao KR21. A obtenção
de um coeficiente de reprodutibilidade satisfatório quando se utiliza um procedimento
conservador é uma boa ideia, pois, como já dito, o uso de outros procedimentos menos
conservadores resulta em estimativas mais elevadas.

Item de domínio 8.5


Use a fórmula KR21 para estimar a reprodutibilidade de um teste de 60 itens, tendo a média
de 45 e um desvio-padrão de 6.

Morrow_08.indd 194 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 195

Aplicação do conjunto de dados


O conjunto de dados do Capítulo 8 consiste em 400 respostas a 10 itens. Acesse o conjunto
de dados do Capítulo 8, disponível no material on-line, e faça o seguinte:
1. Use Análise (Analysis) → Escala (Scale) → Reprodutibilidade (Reliability) para estimar o
KR20 para os 10 itens. COMPLETE
2. Use Análise (Analysis) → Estatísticas descritivas (Descriptive Statistics) → Descritiva
(Descriptives) e obtenha a variância (Capítulo 3) para cada um dos itens e para o escore
total. Substitua esses valores na fórmula KR20 recém-apresentada (ou o coeficiente alfa
no Capítulo 6).
3. Use os resultados do relatório do PASW para calcular KR21 usando a Fórmula 8.2.
4. Está satisfeito com a reprodutibilidade obtida? Caso contrário, o que faria? Como su-
gestão, volte à fórmula de Spearman-Brown (Capítulo 6).

Validade
Caso um teste escrito não mensure o que se propõe a medir (mesmo que às vezes possa
medir algo consistentemente), o escore dele resultante é de pequeno valor. Como observa-
do no Capítulo 6, existem vários tipos de validade e vários métodos de avaliá-las.
Para um teste escrito, um dos mais importantes tipos de validade é a do conteúdo. Isso
geralmente é determinado de forma subjetiva pela magnitude em que os itens individuais
do teste representam uma amostra suficiente de objetivos educacionais e de conteúdo in-
cluídos em um curso. Em outras palavras, para se avaliar a cópia de um teste, deve-se
determinar o grau de validade de conteúdo que o teste teve para aquela situação particular.
Adotar os procedimentos adequados para a construção de um teste escrito, em especial o
uso da tabela de especificações, ajuda a garantir que o teste terá validade de conteúdo.
As apresentações anteriores referentes ao teste de reprodutibilidade e de validade se
referem ao teste como um todo. Contudo, a qualidade do teste total é determinada pela
qualidade dos itens individuais. Voltaremo-nos agora para a análise de item, que nos ajuda-
rá a determinar a qualidade de itens individuais e como podem contribuir para a reprodu-
tibilidade e a validade geral do teste.

ANÁLISE DE ITEM
A análise da resposta dos itens do teste é importante por várias razões, mas sobretudo pelo
contínuo aprimoramento dos itens e, consequentemente, do teste. O nível de dificuldade
e o poder de discriminação (a capacidade da questão em discriminar indivíduos bons e
fracos) de cada item representam a chave de sua melhora. A análise de item também pode
melhorar sua instrução, uma vez que identifica a fragilidade nos avaliados como um grupo,
nos métodos de instrução ou no currículo. Isso também pode melhorar sua habilidade em
construir um teste escrito. Muitas das ilustrações e dos exemplos apresentados envolvem
questões de múltipla escolha em virtude de existirem métodos eficientes para analisá-las.
No entanto, é possível modificar muitos dos passos a seguir para outros tipos de itens ob-
jetivos e aplicar os princípios envolvidos em muitos tipos de questões. Os procedimentos
para o item de análise são:
• Passo 1 – Classifique os testes.
• Passo 2 – Organize as folhas de resposta em ordem decrescente de nota.
• Passo 3 – Separe as folhas de resposta em três subgrupos: (a) o grupo superior, que
consiste em 27% (aproximadamente) das folhas de resposta com melhores notas;
(b) o grupo médio, que consiste das 46% (aproximadamente) que ficaram na média;
e o (c) grupo inferior, que consiste do mesmo número de respostas do grupo supe-

Morrow_08.indd 195 28/02/13 10:56


196 Morrow, Jackson, Disch & Mood

rior. Serão utilizadas apenas as folhas de respostas dos dois grupos extremos – o su-
perior e o inferior – no item de análise. Os especialistas sugerem que, para se incluir
a maior quantidade possível de respostas e maximizar a diferença entre os tipos de
respostas, os grupos superior e inferior deveriam ser compostos de 27% das folhas
de resposta. Geralmente, uma vez que existe um número igual em cada um desses
grupos, use o número mais conveniente da folha de resposta entre 25 e 33%. Por
exemplo, caso estejam disponíveis 60 folhas de respostas para a análise, as 15 a 20
superiores e inferiores poderiam ser usadas.
• Passo 4 – Conte e registre para cada item a frequência da seleção de cada possível
resposta do grupo superior.
• Passo 5 – Conte e registre para cada item a frequência da seleção de cada possível
resposta do grupo inferior.
Os passos 4 e 5 são os que consomem mais tempo na análise de item. Vários procedi-
mentos podem reduzir o tédio dessa tarefa:
• Use “tabelas de pontos” previamente preparadas para cada item.
• Use um computador para acelerar o processo de registro das respostas (p. ex., atri-
bua cinco teclas adjacentes para cada cinco possíveis respostas, assim a resposta
pode ser mais rapidamente tabulada).
• Coopere com outro avaliador, de modo que uma pessoa leia e a outra faça os regis-
tros, ou use um escâner e um computador para realizar esses passos.
Um exemplo de uma possível organização dos dados resultantes é mostrado na Figura
8.3. (Esses dados foram obtidos para uma questão incluída no teste nacional de conheci-
mento em aptidão física administrado por professores universitários de educação física nos
Estados Unidos).
Ao concluir o passo 5, os dados necessários para calcular o índice de dificuldade e o
de discriminação de cada item estarão disponíveis. Os dados apresentados na Figura 8.3
ilustram o cálculo desses dois índices e como o padrão de resposta sugerido pode melho-
rar o item. No exemplo, o lado esquerdo da figura contém o registro inicial da questão e
o dado (como descrito previamente) resultante da administração de mais ou menos 185
avaliados. O lado direito contém a questão revisada e o dado resultante da administração
do teste a mais de mil pessoas.

Fonte: Handbook of Physical Fitness Assunto: Aptidão física

Primeiro registro: Na opinião de muitas autoridades, Revisão: Na opinião de muitas autoridades, três dos
três dos seguintes fatores têm contribuído para a seguintes fatores têm contribuído para a redução do
redução do nível nacional de aptidão física. Qual nível nacional de aptidão física. Qual deles NÃO teve
deles NÃO teve esse efeito? esse efeito?
A. Aumento no período de vida A. Aumento no número de idosos
B. Decréscimo no esforço físico necessário B. Redução do esforço físico necessário para
para a vida diária a vida diária
C. Aumento no número de ocupações que C. Aumento no número de ocupações que
envolvem atividades sedentárias envolvem atividades sedentárias
*D. Aumento na consolidação escolar *D. Aumento na consolidação escolar

Item 5 Teste: Forma inicial D Data: jun 68 n = 185 Item 25 Teste: Forma final A Data: set 00 n = 1.112
Respostas A B C D* E Omit Diff. Net D Respostas A B C D* E Omit Diff. Net D
Superior 27% = 50 28 2 1 19 0 Superior 27% = 300 69 10 5 216 0
Inferior 27% = 50 24 8 1 17 0 36% 4% Inferior 27% = 300 89 52 54 104 1 53% 37%

Figura 8.3 Forma de organizar dados para a análise de item.

Morrow_08.indd 196 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 197

• Passo 6 – Calcule e registre o índice de dificuldade para cada item; esta é a porcen-
tagem aproximada de avaliados que responderam corretamente ao item. A fórmula
é a seguinte:

(8.3)
onde Diff é o índice de dificuldade, Uc é o número de avaliados no grupo superior que
respondeu corretamente, Lc é o número de avaliados no grupo inferior que respondeu cor-
retamente e Ln é o número de avaliados no grupo inferior (lembre-se que Un = Ln).
A análise dessa fórmula revela que o índice de dificuldade representa a porcentagem de
avaliados que responderam corretamente; portanto, quanto mais alto o índice, mais fácil
é a questão. A avaliação seguinte mostra o uso da fórmula do índice de dificuldade (veja a
Figura 8.3).

Resultado da primeira análise: n =185; portanto Un = Ln = 185 × 0,27 = 50

Revisão dos resultados: n = 1.112; portanto Un = Ln = 1.112 × 0,27 = 300.

A quantidade máxima de discriminação só pode ocorrer quando um item tem um índice de


dificuldade de exatamente 50%. Se esse critério fosse alcançado por todas as questões em
determinado teste, o escore médio do teste seria igual à metade do número de itens do
teste. Por exemplo, o escore médio de um teste contendo 80 itens seria 40. No entanto,
isso supõe que nenhum elemento de sorte esteja envolvido. Em um teste com 80 itens de
múltipla escolha no qual cada item teve 4 possíveis respostas, a marcação aleatória da folha
de resposta deveria produzir aproximadamente 20 respostas corretas (ou seja, 1/4 × 80 =
20). Considerando o acaso, o escore médio no teste descrito seria 50. Esse valor é obtido ao
se determinar a posição do escore entre o escore de acaso e o mais alto escore possível (80
itens – 20 corretas por acaso/sorte = 60 itens; caso cada avaliado responda 50% desses 60
itens corretamente, teria 30 itens corretos, mais os 20 por sorte, resultando em um escore
de 50). Se o índice de dificuldade de cada um dos 80 itens foi 62,5%, o escore médio do
teste seria 50 (80 × 0,625 = 50).
Obviamente, não é possível, sobretudo na primeira versão, produzir um item com
exatamente o índice de dificuldade predeterminado. O importante é que, para se maximizar
o poder de discriminação de um item, deve-se tentar escrever cada item de tal forma que a metade
ou um pouco mais da metade dos avaliados responda corretamente. Outro ponto deveria ser
observado. A discriminação máxima só pode ocorrer para um item de dificuldade média,
mas atender essa condição não garantiria necessariamente que isso ocorresse. A Figura 8.4
descreve a relação entre discriminação e dificuldade e mostra que, quando se aumenta o
nível de dificuldade de 0 para 0,50, a discriminação potencial aumenta. No entanto, se a
dificuldade continuar a aumentar de 0,50 para 1,0, a discriminação potencial diminui.
• Passo 7 – Calcule e registre o índice de discriminação para cada item; esta é uma es-
timativa de quão bem um item de discriminação entre os avaliados foi categorizado
por um critério.

(8.4)

Morrow_08.indd 197 28/02/13 10:56


198 Morrow, Jackson, Disch & Mood

1,00

Discriminação potencial (validade)


0,50

0 0,25 0,50 0,75 1,00


Dificuldade

Figura 8.4 Relação entre discriminação e dificuldade.

onde Net D é o índice de discriminação. (Note que ou Un ou Ln podem ser usados como
denominadores.) O índice de discriminação apresentado, conhecido como Net D, é apenas
um dos quase 100 existentes. Os índices de discriminação citados com mais frequência são
técnicas de correlação para quantificar a relação entre o escore em determinado item e um
escore de critério (geralmente o escore total do teste). Os índices de Flanagan e de Davis,
a correlação bisserial e tetracórica são muito utilizados. No entanto, usamos o Net D em
virtude de ser relativamente simples para calcular, usar os mesmos dados para determinar
o índice de dificuldade e ser bastante simples para interpretar. O seguinte exemplo, nova-
mente usando os dados apresentados na Figura 8.3, ilustra o uso na fórmula Net D.

Resultados da primeira versão: n = 185; portanto Un = Ln = 50.

Resultados da revisão: n = 1.112; portanto Un = Ln = 300.

O critério geralmente usado para avaliar o poder de discriminação de um item é o es-


core total do teste em que o item aparece. De modo geral, se os avaliados bem-sucedidos
no teste em geral foram bem no item, e aqueles malsucedidos foram mal no item, este é
considerado um bom discriminador. O poder de discriminação de um item é considerado
baixo caso aproximadamente o mesmo número de avaliados “bons” e “fracos” o responda
corretamente. O discriminador pode, ainda, ser considerado negativo caso muitos avalia-
dos “fracos” (mais do que “bons”) respondam corretamente. O discriminador é a característi-
ca mais importante de um item. Um teste não pode ser reproduzível ou válido a menos que os itens
individuais discriminem os avaliados.
Note que existe uma relação proporcionalmente direta entre o valor de Net D e o poder
de discriminação e que a fórmula Net D poderia produzir um número negativo, indicando
um item que discrimina de forma negativa. Na verdade, o valor realmente obtido represen-
ta a porcentagem de discriminadores “bons”, ou positivos, alcançada por um item. A Figura
8.5 ilustra esse conceito.
Nenhuma discriminação ocorre entre Bill, Kelly, Pete, Alicia, Judy e Gregg, devido ao
fato de que todos responderam corretamente ao item. De modo similar, nenhuma discri-

Morrow_08.indd 198 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 199

Grupo Grupo
superior inferior

Nenhuma discriminação
Correto Correto
Dis
cri
Bill mi tiva Judy
na ga
Kelly çã
o ne Gregg
Pete
Alicia o po
çã sit
na iva
mi
cri
Dis

Nenhuma discriminação
Errado Errado

Fred Michelle
Dave
Stephanie

Figura 8.5 Discriminação positiva e negativa.

minação ocorre entre Fred, Michelle, Dave e Stephanie, uma vez que todos responderam
incorretamente. A discriminação que ocorreu entre Bill (ou Kelly, Pete ou Alicia) e Michelle
(ou Dave ou Stephanie) é considerada uma discriminação boa, ou positiva, por causa do
grupo em que esses avaliados foram postos de acordo com seus escores totais do teste.
Ocorreu um total de 12 (4 × 3) discriminações positivas. De forma contrária, a discrimina-
ção que ocorreu entre Fred e Judy (ou Gregg) é considerada uma discriminação ruim, ou
negativa, em virtude de Fred estar no grupo superior e Judy e Gregg estarem no inferior.
Ocorreu um total de duas (2 × 1) discriminações negativas.
O número máximo de discriminações possíveis com cinco avaliados em cada grupo é
25 (5 × 5). Dessas 25, 12 foram positivas, duas negativas e 11 não ocorreram. Ao se sub-
trair as duas discriminações negativas das 12 positivas tem-se 10 discriminações positivas.
A relação das discriminações positivas para o total possível (10/25) é 40%. Usando-se a
Equação 8.4 para calcular esses valores, obtém-se o mesmo resultado:

Tente manter o índice de discriminação de um item sobre o desempenho no teste o


mais alto possível. A maioria dos especialistas na construção de testes concorda que um
item com um índice de discriminação de 40% ou mais é muito bom. Os itens com um índi-
ce de discriminação abaixo de 20%, e especialmente aqueles com discriminação negativa,
são fracos e provavelmente deveriam ser desconsiderados em testes futuros. O índice de
discriminação entre 20 e 40% é aceitável, mas pode indicar a necessidade de revisão, em
especial quando os valores se aproximam de 20%.
• Passo 8 – Avalie o padrão de respostas para determinar como um item pode ser
melhorado.
De acordo com as sugestões anteriores para se reter e descartar questões com base em
seus índices de discriminação, a versão inicial de questões disponível na Figura 8.3 prova-
velmente deveria ter sido descartada. No entanto, o modelo de resposta do avaliado revela
uma possível solução. Embora geralmente seja difícil entender o fato de que certas respos-
tas sejam selecionadas ou ignoradas e mais difícil ainda determinar possíveis alterações
nas respostas ou no enunciado que melhorem um item, a avaliação do padrão da resposta
geralmente sugere possibilidades. Por exemplo, a resposta A para a primeira versão do item

Morrow_08.indd 199 28/02/13 10:56


200 Morrow, Jackson, Disch & Mood

exposto na Figura 8.3 foi escolhida por mais de 50% dos avaliados localizados nos grupos
superior e inferior, apesar de ser incorreta. A reformulação desse distrator na revisão resul-
tou no fato de a resposta-chave se tornar mais atrativa do que a primeira, especialmente
aos avaliados do grupo superior. A mudança positiva nos índices de dificuldade e de dis-
criminação indica que as alterações dessas respostas melhoram consideravelmente o item.

Item de domínio 8.6


Quantas folhas de respostas deveriam ser usadas no item de análise para um teste escrito
feito por 250 avaliados?

Item de domínio 8.7


Calcule os índices de dificuldade e de discriminação Net D para uma questão de múltipla
escolha respondida corretamente por 40 dos 60 avaliados no grupo superior e por 10 dos 60
avaliados no grupo inferior.

Item de domínio 8.8


Para demonstrar a relação entre a dificuldade e a discriminação potencial de um item, calcu-
le os índices de dificuldade e de discriminação para os seguintes itens:

Número do item Grupo superior n = 10 Grupo inferior n = 10


1 2 corretos 0 correto
2 5 corretos 5 corretos
3 10 corretos 5 corretos
4 10 corretos 0 correto
5 5 corretos 10 corretos

A Figura 8.6 ilustra os valores inferior, superior e o desejado para a dificuldade e a


discriminação.

FONTES DE TESTES ESCRITOS


Existem maiores chances de que a avaliaçào seja localmente construída quando um teste é
oferecido no campo da educação física. Em geral, o número de pesquisas para o teste es-
crito em determinada disciplina é relativamente limitada. Com algumas exceções, os testes
escritos padronizados nacionalmente não são disponíveis.
Costuma ser de grande auxílio analisar testes similares para se obter ideias de ques-
tões quando se constrói um teste escrito. Algumas possíveis fontes para testes similares

Índice de dificuldade Índice de discriminação


Inferior 0,00 (0%) –1,00 (–100%)
Superior 1,00 (100%) 1,00 (100%)
Desejado 0,50 (50%) 1,00 (100%)*

Figura 8.6 Os índices de dificuldade e de discriminação. *Como indicado no texto, os valores


acima de 0, 40 (40%) são considerados muito bons para a discriminação.

Morrow_08.indd 200 28/02/13 10:56


Medida e Avaliação do Desempenho Humano 201

são aqueles profissionalmente construídos, livros, periódicos, teses e dissertações. Zhu e


colaboradores (1999) publicaram um teste sobre conhecimento em aptidão física que foi
desenvolvido usando muitos dos conceitos apresentados neste capítulo.

INSTRUMENTOS (QUESTIONÁRIOS)
O questionário é um parente próximo do teste escrito. Esses dois instrumentos de dados
coletados requerem cuidado na construção e análise ponderada dos dados. No entanto,
o principal objetivo do teste escrito é avaliar o nível de conhecimento de um sujeito e
discriminar os indivíduos com base em seus comportamentos cognitivos, enquanto os
questionários são essencialmente usados para mensurar tópicos de domínio afetivo, como
atitudes, opiniões e comportamentos. Por exemplo, é possível conduzir um levantamento
para se determinar quantos minutos de atividade física de intensidade moderada a vigorosa
(AFMV) as pessoas realizam por semana a fim de descobrir se atendem às recomendações
de saúde pública.
As respostas dos questionários fornecem as variáveis dependentes e independentes
para o levantamento. Cox (1997) fornece uma extensiva apresentação de desenvolvimento
de questionários. Thomas, Nelson e Silverman (2009) listam oito passos para conduzir um
levantamento de pesquisa.
1. Determinar os objetivos
2. Delimitar a amostra
3. Construir o questionário
4. Conduzir o estudo-piloto
5. Escrever a folha de instruções
6. Enviar o questionário
7. Acompanhar (seguimento)
8. Analisar os resultados e preparar o relatório
O uso de questionário enviado pelo correio para coletar informação tem vantagens e
desvantagens. Do lado positivo, o questionário pode ser relativamente eficiente em termos
de custos e tempo. A análise dos dados coletados pode ser concluída em um período de
algumas semanas em virtude de o questionário ser enviado a todos os respondentes ao
mesmo tempo. Os respondentes podem estar espalhados em uma ampla área geográfica e
responder de forma conveniente. Caso seja importante, o anonimato pode ser garantido, e
cada indivíduo é exposto exatamente ao mesmo instrumento. Como alternativa, é também
possível usar a internet. É importante manter o levantamento em formato curto e específi-
co, bem como o anonimato, caso as questões o exijam.
Do lado negativo, o valor dos dados pode ser reduzido, é impossível esclarecer uma
questão que o indivíduo considere ambígua, e tem-se a possibilidade de questões não res-
pondidas, além da falta de segurança com relação ao questionário. Algumas dessas preocu-
pações podem ser analisadas por meio de cuidadoso planejamento, mas nunca podem ser
totalmente eliminadas.

Divisão digital
A internet tem se tornado um meio para aplicação de questionários. É importante ter co-
nhecimento da prevalência do uso da internet e das capacidades dos computadores. O uso
da internet é eficiente, mas a resposta pode não ser representativa da população que se
espera generalizar.

Morrow_08.indd 201 28/02/13 10:56


202 Morrow, Jackson, Disch & Mood

Planejamento do questionário
O tempo investido no planejamento de um questionário é incalculável. Antes de construir
um questionário, certifique-se do objetivo do instrumento e do estudo e formule hipóteses
relevantes, de modo que seja possível determinar especificamente quais dados o questioná-
rio pretende levantar. Infelizmente, essa ligação direta entre os itens do questionário e sua
finalização exata não é sempre cuidadosamente considerada, resultando em coleta de in-
formações desnecessárias, incapacidade de responder a algumas hipóteses ou ambas. Para
evitar isso, esteja ciente de como cada item do questionário será analisado. De forma geral,
se você não pode responder a essa questão para determinado item, ele deveria ser omitido.
Como acontece com a pergunta em um teste escrito, é difícil saber como um item em
um questionário funcionará na primeira vez que for usado. É por isso que é necessário
fazer alguns estudos-piloto antes de finalizar o questionário. Talvez o melhor conselho seja
conduzir um trabalho-piloto com o questionário à medida que ele está sendo desenvolvido. Ao
final da primeira coleta, peça a alguns colegas que avaliem itens potenciais com relação a
ambiguidade, particularidades e problemas no direcionamento dos indivíduos que respon-
dem. Após essa análise, forneça o feedback sobre o próximo plano de instrumento para uma
pequena amostra de indivíduos (um grupo focal) potencialmente respondentes. A tarefa
não é apenas responder ao questionário, mas também indicar prováveis problemas. Em
seguida, analise esses problemas e os dados para determinar se a informação correta para
a análise das hipóteses está sendo protegida, além de potenciais problema de entrada dos
dados (p. ex., itens com respostas múltiplas, respostas inapropriadas).

COMPLETE Acesse o material on-line (em inglês) e complete a atividade 8.11.