Você está na página 1de 40

O estado da arte (Reviso)

Teste de lngua e avaliao (Part 1)


J. Charles Alderson and Jayanti Banerjee, Universidade de Lancaster, Reino Unido
Introduo Este o terceiro de uma srie de artigos de reviso sobre o Estado da Arte, abordando testes de lngua nesta revista, tendo sido o primeiro escrito por Alan Davies em 1978 e o segundo por Peter Skehan em 1988/1989. Skehan observou que o teste revelou uma exploso de, pesquisas e publicaes nos dez anos desde o primeiro artigo de reviso, e vrios comentaristas fizeram observaes semelhantes. Podemos apenas concordar, e para corroborar quantitativamente remeteramos o leitor a Alderson (1991) e a Language Testing Association International (ILTA). Bibliografia 1990-1999 (Banerjee et al., 1999). Na ltima bibliografia, existem 866 entradas, divididas em 15 sees, a partir de Testes Ouvindo tica e Padres. O campo tornou-se to grande e to ativo, que praticamente impossvel fazer justia a ele, mesmo em uma reviso multi-part como esta sobre o Estado da Arte, e ele est mudando to rapidamente que qualquer previso de tendncias susceptvel de ser ultrapassada antes de ser impressa. Nesta reviso, portanto, ns no s tentamos evitar algo alm de previses bastante brandas, mas tambm reconhecemos a parcialidade de nossa escolha de tpicos e tendncias, assim, necessariamente, como nossa seleo de publicaes. Ns tentamos representar o campo de forma justa, mas tendemos a concentrar-nos em artigos, em vez de livros, com o fundamento de que estes so mais propensos a refletir o estado da arte do que os livros, que so mais extensos. Tambm nos referimos a outros comentrios similares publicados nos ltimos 10 anos ou mais, onde os julgamos relevantes. Ns geralmente comeamos nossa anlise com artigos impressos em 1988 ou perto dessa poca, a data da ltima reviso, cientes de que j faz 13 anos agora, mas tambm conscientes da necessidade de cobrir o perodo desde a ltima grande reviso neste jornal. No entanto, tambm inclumos, onde sentimos que era adequado, artigos publicados um pouco antes. Esta reviso dividida em duas partes, cada uma delas com extenso aproximadamente igual. A bibliografia para obras citadas em cada parte est publicada na parte a que diz respeito, em vez de uma bibliografia completa no final. Portanto, os leitores que pretendam ter uma completa bibliografia tero que juntar as partes. A justificativa para a organizao desta reviso que queramos comear com uma preocupao relativamente nova sobre testes de linguagem, pelo menos tanto quanto a publicao de pesquisa emprica se preocupa, antes de passar para mais preocupaes tradicionais constantes e terminar com aspectos do teste muitas vezes no abordados em revises internacionais, e problemas remanescentes. Assim, comeamos com um relato de pesquisa sobre efeito retroativo, o que em seguida nos leva tica, poltica e s normas. Em seguida, examinamos as tendncias em testes a nvel nacional, seguidas de testes para fins especficos. Depois ns levantamos trabalhos sobre testes baseados em computador antes de passar a olhar para a autoavaliao e para a avaliao alternativa. Finalmente, nesta primeira parte, examinamos uma rea relativamente nova: a avaliao de jovens alunos. Na segunda parte, abordamos novas preocupaes sobre a teoria de validade do teste, que defende a incluso de consequncias do teste no que hoje geralmente citado como uma teoria unificada da validade de constructo. Depois disso, lidamos com questes de validao de teste e desenvolvimento de testes, e examinamos com algum detalhe pesquisa mais tradicional sobre a natureza dos constructos (leitura, escuta, habilidades gramaticais, etc) que sustentam os testes. Finalmente discutimos uma srie de controvrsias remanescentes e quebra-cabeas a que chamamos, segundo McNamara (1995), Caixas de Pandora. Estamos muito gratos a muitos colegas por sua contribuio em nos ajudar a elaborar esta anlise, mas em particular gostaramos de agradecer a ajuda, os conselhos e o apoio do Grupo de Pesquisa em Testes de Lngua, de Lancaster, acima de tudo a Dianne Wall e Caroline Clapham, por seus comentrios inestimveis e perspicazes. Todas as falhas que permanecem so inteiramente de nossa responsabilidade.

Efeito Retroativo O termo efeito retroativo refere-se ao impacto que os testes tm sobre o ensino e a aprendizagem. Tal impacto normalmente visto como sendo negativo: os testes so usados para forar os professores a fazerem coisas que no necessariamente querem fazer. No entanto, alguns tm argumentado que os testes tambm so potencialmente alavancas de mudana no ensino de idiomas: com o argumento de que, se um teste ruim tem impacto negativo, um bom teste deveria ou poderia ter efeito retroativo positivo (Alderson, 1986b; Pearson, 1988). Curiosamente, Skehan, na ltima anlise sobre o Estado da Arte em Teste de Lngua (Skehan, 1988,1989), faz apenas breve referncia ao efeito retroativo, e mesmo assim, apenas s afirmaes de que a linguagem comunicativa do teste e os critrios adotados no teste provavelmente levam a um efeito retroativo melhor sem evidncia citada. A investigao sobre efeito retroativo nem sinalizada como um provvel desenvolvimento futuro importante dentro do campo de teste de linguagem. Aqueles que preveem as tendncias futuras o fazem por sua conta e risco! Nas sries da Anlise Anual de Lingustica Aplicada, da mesma forma, a nica referncia substancial a efeito retroativo por McNamara (1998), em um captulo intitulado: "Poltica e consideraes sociais na avaliao de linguagem '. Mesmo o captulo intitulado "A evoluo da linguagem testar "por Douglas (1995) no faz referncia retroativo. Dada a importncia atribuda a consequente validade e questes de conseqncias no literatura avaliao geral, especialmente desde que o popularizao da viso Messickian de um allencompassing validade de construto (ver Parte II), este notvel, e mostra o quanto o campo tem mudou nos ltimos seis ou sete anos. No entanto, uma recente reviso da teoria da validade (Chapelle, 1999) faz alguma referncia ao retroativo em construo validade, refletindo o aumento do interesse no tema. Embora a noo de que os testes tm impacto sobre ensino e aprendizagem tem uma longa histria , houve surpreendentemente pouca evidncia emprica para suportar tal noes at recentemente. Alderson e Wall (1993) foram entre os primeiros a problematizar a noo de teste retroativo no ensino de idiomas , e para pedir investigao sobre o impacto dos testes. Eles listam um nmero of'Washback hipteses " em uma tentativa de desenvolver um agenda de pesquisa. Uma retroativo hiptese , por exemplo , que os testes tm washback em que os professores ensinam ( a agenda de contedo) , enquanto que um em separado hiptese retroativo pode postular que os testes tambm ter impacto na forma como os professores ensinam ( a metodologia agenda ) . Alderson e Wall tambm a hiptese de que high-stakes testes - testes com consequncias importantes - Teria mais impacto do que low-stakes tests.They exortar os pesquisadores a alargar o mbito da sua inqurito , para incluir no apenas a medio atitude e as contas dos professores de retroativo , mas tambm classsroom observao. Eles argumentam que o estudo da retroativo beneficiariam de uma melhor compreenso do motivao dos alunos e da natureza da inovao na educao , uma vez que a noo de que testa automaticamente ter um impacto sobre o currculo e na aprendizagem

tem sido defendida atheoretically . Na sequncia a partir desta sugesto, Wall (1996) analisa os principais conceitos no campo da inovao educacional e espetculos como eles podem ser relevantes para a compreenso da se e como os testes tm retroativo. Lynch e Davidson (1994) descrevem uma abordagem para criterionreferenced controlo que implica praticando professores na traduo dos objetivos curriculares em especificaes de teste. Eles afirmam que essa abordagem pode fornecer um ligao entre o currculo, a experincia de professores e testes e pode, portanto, presume-se, melhorar a impacto de testes no ensino. Recentemente, um nmero de estudos empricos washback foram realizados (ver, por exemplo, Khaniyah , , 1990a , 1990b ; Shohamy , 1993; Shohamy et al , 1996; Wall & Alderson , 1993; Watanabe , 1996; Cheng, 1997) em uma variedade de configuraes. H um consenso geral entre os que testes de high-stakes , de fato, impacto sobre o contedo do ensino e da natureza dos materiais de ensino . No entanto, a evidncia de que elas impactam na forma como os professores ensinam muito escasso e mais complicado. Wall e Alderson (1993) no encontrou nenhuma evidncia de qualquer mudana nos professores ' metodologias antes e depois da introduo de um estilo novo exame em Ingls em abandono escolar Sri Lanka. Alderson e Hamp - Lyons (1996 ) mostram que os professores podem realmente mudar a forma como eles ensinam quando se ensina no sentido de um ensaio (neste caso , o TOEFL - Teste de Ingls como Lngua Estrangeira ), mas eles mostram tambm que a natureza da alterao e a metodologia adotada varia de professor para professor , uma concluso apoiada por descobertas de 1996 Watanabe . Alderson e Hamp - Lyons argumentam que no o suficiente para descrever se e como os professores podem adaptar seu ensino e do contedo de seu ensino de acordo com o teste. Eles acreditam que importante explicar por que os professores fazem o que fazem, se quisermos entender o efeito retroativo . Alderson (1998 ) sugere que os pesquisadores testam deve explorar a literatura na cognio professor e professor pensando em entender melhor o que motiva o comportamento dos professores. Cheng (1997) mostra que os professores s adaptar a sua metodologia lentamente , com relutncia e com dificuldade, e sugere que isso pode estar relacionado com as limitaes de professores e ensino do sistema educativo em geral . Shohamy et al . (1996 ) mostram que a natureza de retroativo varia de acordo com fatores como a estado da lngua a ser testado , e os usos do teste . Em suma , o fenmeno da retroativo lenta vindo a ser reconhecido como um assunto complexo , influenciado por muitos outros do que simplesmente a existncia factores de um teste ou a natureza desse teste. No entanto , Ainda no h grandes estudos foram efectuados para o efeito de preparao para o teste de desempenho do teste , que

notvel , dada a prevalncia , para high-stakes testes , pelo menos , de cursos de preparao para o teste . Hahn et al. (1989) conduziram um estudo em pequena escala dos efeitos no incio estudantes de alemo se eles foram ou no classificados em sua via oral desempenho nos primeiros seis meses de instruo. Embora nenhum efeito sobre o desenvolvimento de proficincia oral foram encontrados, as atitudes dos dois grupos eram diferentes: aqueles que tinham sido classificados considerado o experincia estressante e improdutivo, enquanto que o grupo que no tinha sido classificado gostaria de ter sido classificado. Moeller e Reschke (1993) tambm encontraram nenhum efeito da pontuao formal da sala de aula desempenho na proficincia dos alunos ou conquista. Mais estudos so necessrios pontos de vista dos alunos de testes e preparao para o teste.

H, de fato notavelmente poucos estudos sobre o impacto de testes sobre a motivao ou de motivao em preparao para o teste ou o desempenho no teste . Uma exceo recente Watanabe (2001 ) . Watanabe chama de seu estudo uma exerccio de gerao de hipteses , reconhecendo que a relao entre motivao e preparao para o teste susceptvel de ser complexo . ele entrevistou Estudantes universitrios japoneses sobre a sua preparao para o teste prticas. Ele descobriu que as atitudes para testar a preparao variada e que o impacto estava longe de ser uniforme, embora esses exames que os alunos pensavam mais importante para a sua carreira universitria futuros geralmente teve mais impacto do que os percebidos como menos crtico . Assim , se um exame por uma universidade que foi a primeira escolha do estudante continha gramtica tarefas de traduo , os alunos relataram que teve exerccios de gramtica - traduo estudados , enquanto que se um exame semelhante foi oferecido por uma universidade qual foi a sua segunda escolha, eles eram muito menos susceptveis de estudar exerccios de traduo . Curiosamente , os alunos estudado , em particular, aquelas partes do exame que perceberam a ser mais difcil, e mais exigente. Por outro lado essas sees percebido ser fcil teve menos impacto sobre sua preparao para o teste prticas : muito menos estudantes relataram a preparao para sees de exames fceis ou no discriminatrio . No entanto , aqueles alunos que perceberam uma seo de exame a ser muito difcil no se preocupou se preparando para isso . Watanabe conclui que washback causada pela interao entre o teste eo tomador de teste em um forma complexa , e ele enfatiza que o que vier ser o mais importante no a dificuldade objectiva de o teste, mas a percepo de dificuldade dos alunos. Recados ( 2000) fornece uma viso geral muito til e actualizao de estudos sobre o impacto dos testes no ensino, a partir do campo de instruo geral, bem como na linguagem

educao. Ela resume os resultados da investigao que mostram que o design de teste apenas um dos factores afetando retroativo , e listas como fatores que influenciam a natureza do teste retroativo : capacidade professor, professor entendimento do teste eo abord-lo foi baseada , condies de sala de aula , falta de recursos, prticas de gesto dentro da escola ... o estatuto do sujeito dentro dos mecanismos de currculo , de feedback entre o escolas ea agncia de testes , o estilo de professor, empenho e vontade de inovar , fundo de professores, o social geral e contexto poltico , o tempo decorrido desde que o teste foi introduzidos, bem como o papel dos editores na concepo de materiais e formao de professores ( 2000: 502) . Em outras palavras , o teste washback est longe de ser simplesmente uma questo tcnica do design e formato , e precisa ser entendido dentro de um muito mais amplo quadro . Muro sugere que esse quadro Seria til que vm de estudos e teorias de mudana educacional e de inovao , e ela resume os resultados mais importantes destas reas . Ela desenvolve uma estrutura derivada de Henrichsen (1989 ) , e devido ao trabalho algo Hughes (1993 ) e Bailey (1996 ) , e as mostras como esse quadro pode ser aplicado para a compreenso melhor as causas ea natureza do retroativo . Ela faz uma srie de recomendaes sobre o passos que os desenvolvedores de teste pode tomar no futuro em Para avaliar o grau de risco envolvido na a tentativa de trazer a mudana por meio de testes . Estes incluem a avaliao da viabilidade do exame reforma , estudando as condies " antecedentes " o que cada vez mais referido como um " estudo de base ' ( Weir & Roberts , 1994 , Fekete et al , 1999) , envolvendo professores em todas as fases de desenvolvimento do teste , assegurando a participao de outras partes interessadas , incluindo decisores polticos e instituies-chave , garantindo clareza e aceitao de especificaes de teste , e claro exemplificao de testes , tarefas e critrios de pontuao ; pilotagem completo de testes antes da implementao ; regulares monitoramento e avaliao no s da realizao do teste mas tambm de salas de aula , e uma compreenso que a mudana leva tempo. Inovando atravs de testes no uma soluo rpida se for para ser benfico. " Os decisores polticos e projetistas de teste no deve esperar significativa impacto para ocorrer imediatamente ou na forma que pretende . Eles devem estar cientes de que os testes por conta prpria no ter um efeito positivo se os materiais e prticas em que se baseiam no tm sido eficazes . Eles podem , no entanto , ter um impacto negativo e a situao deve ser monitorizada continuamente para permitir interveno precoce se ele toma um rumo indesejvel " ( 2000:507 ) . Consideraes semelhantes complexidade potencial do impacto dos testes no ensino e aprendizagem

tambm deve informar investigao sobre o retroativo de testes existentes . evidente que este um campo rico para posterior investigao. Marcos conceituais mais sofisticadas, que esto a desenvolver -se lentamente , luz da os resultados da investigao e estudos relacionados em inovao , pensamento teoria da motivao e professor, provvel que proporcionar uma melhor compreenso das razes retroativo e uma explicao de como os testes podem ser desenvolvido para contribuir para a engenharia de desejvel alterar . tica nos testes de linguagem Enquanto Alderson (1997) e outros tm argumentado que testers tm sido muito preocupado com questes de justia (conforme expresso no seu interesse em curso no validade e confiabilidade ) , e que luta por justia um aspecto do comportamento tico , outros se separaram a questo da tica de validade , como uma parte essencial da profissionalizao da avaliao lingustica como uma disciplina ( Davies , 1997) . Messick (1994) argumenta que toda teste envolve fazer juzos de valor e, portanto, testes de lngua est aberto a uma discusso crtica cujos valores esto sendo representados e servido ; este , por sua vez leva a uma reflexo sobre a conduta tica . Messick (1994 , 1996) redefiniu o escopo de validade para incluir o que ele chama conseqentes validade - as conseqncias da interpretao pontuao no teste e usar. Hamp - Lyons (1997) argumenta que a noo de retroativo muito estreita e deve ser alargado para abranger "impacto" , definido como o efeito de testes em toda a sociedade , e no apenas sobre os indivduos ou sobre do sistema educacional. No presente , ela est expressando um preocupao que tem crescido nos ltimos anos, com a questes ticas e polticas relacionadas que cercam utilizao de teste. Ambos McNamara (1998) e Hamp - Lyons (1998) levantamento da literatura emergente sobre o tema da tica , e destacar a necessidade para o desenvolvimento de padres de teste de idioma ( veja abaixo). tanto comentrio sobre um projecto de Cdigo de Prticas patrocinado pela Language Testing Association International ( ILTA , 1997) , mas onde Hamp - Lyons v -lo como um possvel caminho a seguir , McNamara mais crtica do que ele chama seu conservadorismo , e esse reconhecimento inadequada da fora dos debates atuais sobre o tica de testes linguagem. Davies (1997 ) argumenta que , desde os testes muitas vezes tm um prescritiva ou normativa papel, as suas consequncias sociais so potencialmente de grande alcance . Ele defende uma moralidade profissional entre os testadores de linguagem, tanto para proteger a profisso de membros, e para proteger os indivduos da utilizao indevida e abusiva de testes. No entanto, ele tambm argumenta que o argumento moral no deve ser levado muito a agora, para que no se levar paralisia profissional, ou cnico manipulao de cdigos de prtica.

Spolsky (1997 ) aponta que os testes e exames sempre foram usados como instrumentos de sociais poltica e controle, com a funo de gate -keeping de testes muitas vezes justificar sua existncia. Shohamy ( 1997a) afirma que os testes de linguagem que contm contedo ou empregar mtodos que no so justas para todos teste-compradores no so ticos , e discute formas de reduzindo vrias fontes de injustia . ela tambm argumenta que a utilizao de testes que exercem o controle e manipular as partes interessadas , em vez de fornecer informaes em nveis de proficincia tambm so antiticos , e ela defende a lngua of'critical desenvolvimento testando ' ( Shohamy , 1997b ) . Ela insta testadores para exerccio vigilncia para garantir que os testes que eles desenvolvem so justa e democrtica , no entanto, que podem ser definidos. Lynch (1997) tambm defende uma abordagem tica testes de linguagem e Rea - Dickins (1997) afirma que tendo plenamente em conta os pontos de vista e os interesses dos vrios grupos de interessados pode democratizar o teste processo , promover a equidade e, portanto, melhorar um abordagem tica . Um nmero de estudos de casos foram apresentados recentemente que ilustram o uso e abuso de testes de linguagem . Hawthorne (1997 ) descreve dois exemplos do mau uso de testes de linguagem : o uso de o teste de acesso para regular o fluxo de migrantes em Austrlia , eo teste de etapa , supostamente concebido para jogar um papel central na determinao dos requerentes de asilo " status residencial . Testes de lngua indito lore tem muitos outros exemplos , tais como o uso indevido do Componente de Formao Geral da Internacional Teste de Ingls Language Testing System (IELTS) com candidatos imigrao para a Nova Zelndia , eo uso do teste TOEFL e outros testes de proficincia para medir o desempenho e crescimento na instruo programas ( Alderson, 2001a) . de se esperar que a nova preocupao com a conduta tica ir resultar em mais contas de tais abusos . Norton e Starfield (1997 ) afirmam que , com base na um estudo de caso na frica do Sul , que uma conduta antitica evidente quando acadmico dos alunos de segunda lngua escrita implicitamente avaliadas por razes lingusticas enquanto ostensivamente a ser avaliado para os examinandos " compreenso de um assunto acadmico . eles argumentam que os critrios de avaliao devem ser explicitados e pblico se testadores devem se comportar eticamente . mais velho (1997) investiga vis teste , argumentando que a estatstica procedimentos utilizados para detectar a polarizao , como DIF ( Funcionamento diferencial do item ) no so neutros desde eles no questionam se o critrio utilizado para fazer comparaes entre os grupos justo e livre de valores . No entanto, em seu prprio estudo conclui que o que pode parecer ser polarizao pode ser realmente construir relevante varincia , na medida em que indica diferenas reais na

a capacidade de ser medido . Um estudo semelhante foi Chen e Henning (1985) , que comparou internacional desempenho dos alunos na UCLA ( Universidade da Califrnia, Los Angeles) Ingls como Segunda Lngua Teste de Nivelamento e descobriu que um certo nmero de pontos favorecer os Os alunos de lngua espanhola e contra Chinesespeaking alunos. Os autores argumentam , porm, que esse "vis" relevante para a construo desde o espanhol muito mais perto de Ingls tipologicamente e, portanto, tendenciosa em favor de falantes de espanhol , que seria espera-se encontrar muitos aspectos do Ingls tanto mais fcil de aprender do que os falantes de chins faria. Refletindo essa preocupao com a utilizao de teste tico , Cumming (1995) analisa o uso em quatro canadense configuraes de instrumentos de avaliao para monitorar alunos ' realizaes ou a eficcia dos programas , e conclui que este um mau uso de tais instrumentos, que devem ser utilizados principalmente para a colocao de estudantes Onto programas. Cumming (1994 ) pergunta se o uso de instrumentos de avaliao lngua para os imigrantes para o Canad facilita o seu sucesso participao na sociedade canadense. Ele argumenta que tal critrio deve ser utilizado para avaliar se prticas de avaliao so capazes de superar institucional ou barreiras sistmicas que os imigrantes podem encontrar , para dar conta da qualidade do uso da linguagem que pode ser fundamental para aspectos especficos da vida canadense , e para alertar populaes maioritrias e instrumentos para melhor acomodar as populaes minoritrias . No contexto acadmico , Pugsley (1988) problematiza a avaliao da necessidade de internacional alunos para pr e em -sesses formao lingustica luz dos resultados dos testes . As decises sobre se um aluno deve receber o benefcio de idioma adicional instruo so freqentemente feitas no ltimo minuto, e luz das demandas conflitantes sobre o aluno e em finanas. A formao em lnguas pode ser vtima de financiamento reduzido, e muitos acadmicos minimizar a importncia da linguagem na desempenho acadmico . Muitas vezes , professores e alunos perceber problemas de linguagem relacionada dos alunos de maneira diferente, ea questo da relevncia ou influncia do resultado do teste ento aumentada . Em outra investigao da interpretao pontuao e utilizao , Natal (1990 ) analisa o desempenho de assistentes de ensino internacionais, que tentam prever com base no TOEFL e Graduate Record Pontuaes exames Programa se os sujeitos deve ter recebido recomendaes positivas ou negativas estar ensinando assistentes. Os alunos que recomendaes negativas recebidas , de fato, ter pontuaes mais baixas em ambos os testes do que aqueles com positivo recomendaes , mas a relao entre

subseqente ponto de classe mdia ( GPA ) e positiva apenas recomendaes realizadas durante o primeiro ano de graduar estudo , no depois. As implicaes para a tomada de decises sobre a concesso de estgios de ensino so discutidas , e no so bvias tico implicaes sobre o perodo de tempo em uma pontuao de teste deve ser considerado vlido. Ambos os estudos de caso mostram a dificuldade na interpretao teste de idioma resultados, e da complexidade do questes que cercam as decises de manuteno de porto. eles tambm enfatizar que deve haver um limite para o informaes pode-se eticamente esperar um teste de lngua para entregar, e quais as decises que os resultados do teste pode, eventualmente, informar. Em parte como resultado deste aumento no interesse em tica eo papel dos testes na sociedade, McNamara ( 1998:313 ) prev no futuro: 1 . uma conscincia renovada ... da natureza socialmente construda de desempenho do teste e interpretao resultado do teste ; 2 . uma tomada de conscincia das questes levantadas para o teste no contexto de Ingls como lngua internacional ; 3 . uma reconsiderao do impacto social da tecnologia no entrega de exames ; 4 . uma considerao explcita de questes de justia em todas as fases de o ciclo de testes da linguagem e 5 . uma agenda ampliada para a pesquisa sobre a justia que acompanha desenvolvimento de testes . Ele conclui que estamos propensos a ver ' um alargamento da gama de questes envolvidas na pesquisa de testes lngua , aproveitando , no mnimo, as seguintes disciplinas e campos : filosofia , especialmente tica ea epistemologia da cincia social; teoria crtica , a poltica anlise , avaliao de programas e teoria da inovao ' (op. loc ) . A Linguagem Associao Internacional Testing ( ILTA ) desenvolveu recentemente um Cdigo de tica (ao invs de finalizar o projecto de Cdigo de Prticas referido acima) , que " um conjunto de princpios que baseia-se em filosofia moral e se esfora para orientar boa conduta profissional ... Todos os cdigos profissionais devem informar conscincia profissional e julgamento Idioma ... testers so independentes moral agentes e eles so moralmente o direito de se recusar a participar em procedimentos que violem pessoal convico moral. Testadores Idioma aceitar emprego posies onde eles prevem que pode ser chamado de ser envolvida em situaes em desacordo com os seus crenas tm a responsabilidade de informar o seu empregador ou empregador com este fato. Empregadores e seus colegas tm a responsabilidade de assegurar que esses testadores de linguagem no so discriminados em seu local de trabalho . " [ http://www.surrey.ac.uk/ELI/ ltrfile / ltrframe.html ] Estes so , de fato belas palavras eo tom moral e inteno deste Cdigo claro: os testadores devem seguir

prticas ticas e tm a responsabilidade moral de faz-lo. Se este Cdigo de tica ser aceitvel nos diversos ambientes em que a linguagem testadores de trabalho em todo o mundo continua a ser visto . Alguns podem at ver isso como a imposio de Valores culturais ou mesmo polticos ocidentais . poltica Os testes so freqentemente usados como instrumentos de educacional poltica , e eles podem ser muito poderosos - como atestada por Shohamy ( 2001a) . Inevitavelmente , por conseguinte , testes - especialmente high-stakes testes - um poltico atividade , e as recentes publicaes em lngua testes comearam a abordar a relao entre os testes e poltica, ea poltica de testes , talvez , em vez tardiamente, dada a tradio em avaliao educacional em geral . Brindley ( 1998,2001 ) descreve o uso poltico da avaliao por razes de accountabilty pblica baseada em teste, frequentemente no contexto de estruturas nacionais , normas ou benchmarking. No entanto, ele ressalta que as preocupaes polticas , em vez de profissionais so geralmente por trs de tais iniciativas , e muitas vezes esto em conflito com o desejo de avaliao formativa para ser intimamente relacionado com o processo de aprendizagem. Ele se dirige a um nmero de polticas, bem como tcnica e prtica problemas na utilizao da avaliao baseada em resultados para fins de prestao de contas , e defende a necessidade de aumento da consulta entre polticos e profissionais e para a investigao sobre a qualidade de associado instrumentos. A poltica pode ser definida como ao, ou atividades, para alcanar o poder ou para usar o poder, e como crenas sobre governamentais , atitudes ao poder, e ao uso de poder. Mas isso no precisa ser apenas no macro- poltico nvel de governo nacional ou local. nacional poltica educacional muitas vezes envolve inovaes em testes , a fim de influenciar o currculo , ou na ordem para abrir ou restringir o acesso educao e emprego - e at mesmo , como vimos nos casos da Austrlia e Nova Zelndia, para influenciar de imigrao oportunidades . Mas a poltica tambm pode operar em nveis mais baixos , e podem ser uma influncia muito importante no desenvolvimento de testes e implantao. A poltica pode ser visto como mtodos , tticas, intriga, manobra , dentro das instituies que no so eles prprios polticos, mas comercial, financeira e educacional. De fato, Alderson (1999 ) argumenta que a poltica com um "p" minsculo inclui no apenas poltica institucional , mas tambm poltica pessoal : a motivao dos atores a si mesmos e suas agendas. E a poltica pessoais pode influenciar tanto o desenvolvimento e teste de uso de teste. A experincia mostra que , na maioria das instituies , teste desenvolvimento um assunto complexo , onde indivduo e motivos institucionais interagem e se entrelaam .

No entanto, a literatura de testes lngua tem praticamente nunca abordou esses assuntos , at muito recentemente. A literatura , quando se trata de desenvolvimento de testes em todos os assuntos , o que no , muitas vezes, d a impresso de que o teste basicamente uma questo tcnica, preocupados com o desenvolvimento de adequada especificaes, a criao e reviso de adequada tarefas de teste e critrios de pontuao , bem como a anlise de resultados de pilotagem . Mas por trs dessa fachada uma complexa interao de personalidades, de institucional agendas , e da intriga . Embora a macro -poltica nvel de teste certamente importante , tambm precisa entender agendas individuais , preconceitos e motivaes. No entanto , este um aspecto da lngua testes que raramente v a luz do dia, e que faz parte do folclore do teste de linguagem. Explorando esses assuntos difcil por causa da sensibilidades envolvidos , e que difcil de publicar qualquer conta de motivaes individuais para propor ou resistir ao uso de teste e uso indevido. No entanto, isso no torn-lo o menos importante. Alderson ( 2001a) tem o ttulo : " O teste importante demais para ser deixada aos testers ' , e ele argumenta que os testadores de linguagem precisa ter em conta as diferentes perspectivas de vrios stakeholders: no apenas os professores de sala de aula , que so todos muitas vezes deixado de fora de considerao no desenvolvimento de teste, mas tambm decisores polticos e os polticos de modo mais geral . Apesar de existirem praticamente no existem estudos nesta rea no presente ( sendo excees Alderson et al , 2000a , Alderson , 1999 , 2001b , e Shohamy , 2001) , de se esperar que a prxima dcada ver essas questes discutidas muito mais abertamente em testes de linguagem, j que a poltica , a tica ea justia so bastante intimamente relacionados. Shohamy ( 2001b) descreve e discute o abuso potencial de testes como instrumentos de poder por agncias autoritrios , e defende testes mais democrtico e responsvel prtica. Como um exemplo da influncia da poltica , instrutivo considerar Alderson ( 2001b) . Na Hungria traduo ainda usado como uma tcnica de teste em o atual exames abandono escolar , e nos testes administrado pelo Estado Lngua Estrangeira Examinations Board ( SFLEB ) , uma quase- comercial preocupao . Os professores de lnguas h muito expressa sua preocupao com o uso continuado de um mtodo de teste que tem validade incerto ( isto no tenha sido estabelecido a data na Hungria ) , em que a marcao de tradues considerada subjetiva e altamente varivel , onde no existem critrios ou tabelas de marcao, e onde o efeito retroativo considerada negativa ( Fekete et al , 1999) . Novos exames de abandono escolar so devidos a ser introduzido em 2005 , eo inteno no usar a traduo como um mtodo de teste em futuro. No entanto, muitas pessoas, incluindo professores,

e tambm funcionrios do Ministrio , tm resistido a uma tal proposta, e recentemente foi declarado que o Prprio Ministro tomar a deciso sobre esta matria. No entanto, o ministro no um especialista em linguagem , sabe nada sobre o teste de linguagem, e no , portanto, tecnicamente competente para julgar . Muitos suspeitam que o SFLEB , que pretende manter a traduo, fazendo lobby junto ao ministro a insistir que a traduo seja retido como um mtodo de ensaio . Alm disso, muitos suspeitam que o SFLEB teme que os exames de lngua estrangeira, o que necessariamente no utilizam a traduo como um mtodo de teste, pode assumir o mercado teste de lngua na Hungria, se a traduo no mais necessria ( por lei) como uma tcnica de teste . Alderson ( 2001b) sugere que a traduo pode estar a ser usado como um arma na causa do protecionismo comercial. Padres em testes Uma rea de crescente preocupao em testar os conhecimentos lingusticos tem sido o de padres . A palavra " normas " tem vrios significados na literatura , como o Grupo de Trabalho sobre Normas Language Testing criado pelo ILTA descoberto ( http://www.surrey.ac.uk/ELI/ilta/tfts_report.pdf ) . Um significado comum usado pelos entrevistados para a Levantamento ILTA era a de procedimentos para garantir qualidade, padres a serem defendidos ou cumpridos, como em "cdigos de prtica ' . Um segundo significado que foi de ' nveis de proficincia ' - ' o que voc tem padro chegou ? " Um terceiro significado relacionado, a que consta em ' teste padronizado ' a frase, que tipicamente significa um teste cujo nvel de dificuldade conhecida , o que foi adequadamente pilotados e analisados, os resultados das quais podem ser comparados com os de um norming populao : testes padronizados so tipicamente normreferenced testes . Nos ' normas ' ltimo contexto equivalente a 'normas' . Nos ltimos anos , o teste lngua tem procurado estabelecer padres no primeiro sentido ( cdigos de boas prticas ) e investigar se os testes so desenvolvidos seguindo procedimentos profissionais. Groot (1990) argumenta que a padronizao de procedimentos para a construo de testes e validao fundamental para o comparabilidade e permutabilidade dos resultados dos testes em diferentes contextos de ensino diferentes. Alderson e Buck (1993 ) e Alderson et ai . (1995 ) descrevem procedimentos amplamente aceitos para o desenvolvimento e teste relatrio sobre uma pesquisa com a prtica da British EFL examinar placas. Os resultados mostraram que a corrente ( no incio de 1990 ), a prtica estava querendo . prtica e procedimentos entre as placas variava muito , ainda informao (no publicado) estava disponvel, que poderia atestaram a qualidade dos exames. exame placas pareceu no se sentem obrigados a seguir ou na verdade, para entender os procedimentos aceitos , nem eles parecem ser responsveis perante o pblico para o

qualidade dos testes que eles produziram . Fulcher e Bamford (1996 ) argumentam que o teste corpos nos EUA conduzir e relatar estudos de confiabilidade e validade em parte por causa de uma exigncia legal para garantir que todos os testes satisfazer standards.They tcnica concluem que Bancas examinadoras britnicos devem estar sujeitos a semelhante presses de litgio , alegando que a sua testes no so fiveis , invlida ou tendenciosa. No Alemo contexto, Kieweg (1999) faz um apelo para comum padres de examinar EFL , alegando que, dentro escolas h litde ou nenhuma discusso apropriada mtodos de ensaio ou de procedimentos para garantir a qualidade dos testes de linguagem . Possivelmente como resultado de tais presses e publicaes , as coisas parecem estar mudando na Europa, uma exemplo disso a publicao do ALTE (Associao de testes na Europa) Cdigo de Prtica , que visa garantir um trabalho de qualidade em desenvolvimento de testes em toda a Europa . " A fim de estabelecer nveis comuns de proficincia , os testes devem ser comparveis em termos de qualidade, bem como nvel , e normas comuns necessitam , portanto, de ser aplicado a sua produo " ( ALTE , 1998). At o momento, nenhum mecanismo existe para monitorar se essas normas na verdade, esto sendo aplicadas , mas a mera existncia de tal Cdigo de Conduta um passo em frente no estabelecimento de a responsabilizao pblica dos desenvolvedores de teste. Exemplos de como tais normas so aplicadas na prtica so, infelizmente, raro, ser uma exceo Alderson et al . (2000a ), que apresenta uma conta de o desenvolvimento de novos exames de abandono escolar na Hungria. Trabalhar em padres no terceiro sentido , ou seja, "normas" para as populaes de teste diferentes , foi menos comumente publicada na ltima dcada . Baker (1988 ) discute os problemas e os procedimentos de produo de teste normas para populaes escolares bilnges , desafiando a priori o procedimento usual de classificar populaes em lngua materna e segunda lngua grupos . Empregando uma srie de medidas estatsticas, Davidson (1994 ) examina a appropriacy da utilizao de um teste padronizado nacionalmente normado em Ingls nativo alto-falantes, quando usado com os alunos que no falam Ingls . Embora ele conclui que um tal uso da o teste pode ser defensvel estatisticamente , adicional medidas , no entanto, pode ser necessrio para uma populao diferente do grupo norming . Os of'standards significado " como" nveis de proficincia " ou " nveis certificados por concurso pblico " tem sido um problema por um tempo considervel , mas tem recebido novo impulso , tanto com os recentes desenvolvimentos em Europa Central e com a publicao do Conselho de Quadro Europeu Comum da Europa (Conselho da Europa , 2001). Trabalhar na dcada de 1980 por Oeste e Carroll , levou ao desenvolvimento do

Ingls Falando da Unio Quadro ( Carroll & Oeste, 1989) , mas este no foi amplamente aceita, provavelmente por causa de rivalidades comerciais no Britnico EFL examinando indstria. Milanovic (1995 ) relatrios sobre o trabalho para o estabelecimento de comum nveis de proficincia por ALTE , que desenvolveu suas prprias definies de cinco nveis de proficincia , baseia-se uma inspeco e comparao do exames de seus membros. Este teve mais aceitabilidade , possivelmente porque foi desenvolvida pela cooperando entidades examinadoras , ao invs de organismos concorrentes . No entanto , um tal quadro de nveis ainda no visto por muitos como sendo neutra : ela , afinal de contas, associado com o principal comercial europeu prestadores de teste de idioma. O Conselho de Quadro Europeu Comum da Europa , no Por outro lado , no s visto como independente de qualquer possvel interesse , ele tambm tem um longo pedigree, originrio mais de 25 anos no desenvolvimento de o nvel de Threshold ( van Ek, 1977) , e, portanto, ampla aceitabilidade em toda a Europa garantida. Alm disso , as escalas de vrios aspectos da proficincia na lngua que esto associados com o quadro tm sido amplamente pesquisados e validados por o Language Portfolio Projeto suo (North & Schneider , 1998) . de Jong (1992) previu que as normas internacionais para testes de linguagem e procedimentos de avaliao , e normas internacionalmente interpretveis de proficincia seria desenvolvido , com o efeito de que testes de lngua internacionalmente comparveis seria estabelecida . No sculo 21 , que a previso tornando realidade. agora claro que a comum Quadro Europeu vai se tornar cada vez mais influente por causa da crescente necessidade internacional reconhecimento de certificados na Europa , a fim para garantir a mobilidade educacional e de emprego. Qualificaes nacionais de linguagem, sejam eles fornecidos pela Estado ou por organizaes quase- privadas , atualmente variam em seus padres - os padres de qualidade e normas como a comparabilidade internacional de levels.Yet certificados tornou-se uma econmico , bem como um imperativo educacional , especialmente aps a Bolonha Declarao de 1999 ( http://europa.eu.int/comm/ educao / socrates / erasmus / bologna.pdf ) , ea disponibilidade de um quadro transparente, independente como o quadro europeu comum crucial para a tentativa de estabelecer uma escala comum de referncia e comparao . Alm disso, o quadro no apenas um conjunto de escalas , tambm um compndio do que sabe sobre a aprendizagem de lnguas , o uso da linguagem e proficincia na lngua . Como um guia essencial para programa construo , bem como para o desenvolvimento de testes especificaes e critrios de avaliao, que obrigado a ser utilizado para a produo de design de materiais e livros didticos , como

bem como na formao de professores . O quadro tambm o ponto de ancoragem para o Europeu de Lnguas Carteira, e para os novos testes de diagnstico como DIALANG ( ver abaixo ) . O quadro particularmente relevante para pases na Europa Oriental e Central , onde muitos educacional sistemas esto actualmente a rever os seus procedimentos de avaliao . A inteno que os exames reformadas deve ter reconhecimento internacional , ao contrrio dos exames de abandono escolar em curso. Calibrar os novos testes contra o quadro essencial, e no h atualmente uma grande quantidade de atividade no desenvolvimento de testes de desempenho de abandono escolar no regio ( para uma conta de tal desenvolvimento, ver Alderson et ah , 2000a) . Estamos confiantes de que vamos ouvir muito mais sobre o Europeu Comum Quadro , nos prximos anos , e ser cada vez mais tornar-se um ponto de referncia para a linguagem exames em toda a Europa e alm. exames nacionais O desenvolvimento de testes de idioma nacional continua a ser o foco de muitas publicaes , embora muitos so ou simplesmente descries de desenvolvimento de testes ou discusses de controvrsias , em vez de relatrios sobre pesquisas feitas em conexo com o teste desenvolvimento . No contexto do Reino Unido , Neil (1989 ) discute deve ser includo em um sistema de avaliao para estrangeiros idiomas no sistema secundrio Reino Unido, mas os relatrios nenhuma pesquisa . Roy (1988) afirma que as tarefas de escrita para as lnguas modernas deve ser mais relevante, taskbased e autntico , mas critica a nfase na carta escrita, e defende outras formas de escrita , como pargrafo escrito. Mais uma vez , nenhuma pesquisa relatado. Pgina ( 1993) discute o valor ea validade da ter perguntas do teste e rubricas no alvo linguagem e afirma que a autenticidade de tais tarefas est em dvida. Ele argumenta que o uso da meta lngua em questes torna -se mais difcil provar o currculo de forma adequada , e afirma que a mais comunicativo e autntico das tarefas em exames se tornam, mais Ingls (a me lngua ) tem de ser utilizado no papel de exame em a fim de salvaguardar a validade ea autenticidade da tarefa . Nenhuma pesquisa emprica sobre esta problema relatado. Richards e Chambers (1996) e Chambers e Richards (1992) examinar a confiabilidade e validade das avaliaes de professores em produo oral tarefas no GCSE abandono escolar (Certificado Geral de Educao Secundria ) exame francs , e encontrar problemas particularmente na classificao critera , que eles possuem deve ser baseada em um princpio modelo de proficincia de lngua e de ser informado por uma anlise do desenvolvimento comunicativo. Hurman (1990 ) semelhante crtico do imprecisa

especificaes dos objetivos, tarefas e os critrios para avaliar a capacidade de falar em francs a nvel GCSE . Barnes e Pomfrett (1998 ) constataram que os professores precisam formao , a fim de estar em conformidade com as boas prticas em avaliar alemo para alunos no Key Stage 3 (14 anos). Buckby (1999 ) relata uma comparao emprica de exames recentes e mais antigas GCSE , para determinar se padres de realizao esto caindo, e conclui que, embora a evidncia de que os padres na verdade, esto a ser mantida , existe uma necessidade para uma gama de diferentes tipos de perguntas , a fim de permitir candidatos para demonstrar as suas competncias . Barnes et al . (1999) consideram a recente introduo do uso de dicionrios bilnges em exames escolares, reaes positivas dos professores do relatrio a este inovao , mas a chamada de mais pesquisas sobre o uso eo impacto dos dicionrios no desempenho dos alunos em exames . Pesquisa semelhante nos Pases Baixos ( Jansen & Peer, 1999) relata um estudo do recentemente introduzido uso de dicionrios nos exames de lngua estrangeira holandeses e mostra que o uso do dicionrio no tem qualquer efeito significativo sobre os resultados dos testes . No entanto , alunos so muito positivas sobre ser permitido usar dicionrios , alegando que reduz a ansiedade e aumenta sua compreenso do texto . Tambm no Holanda , Welling - Slootmaekers (1999) descreve a introduo de uma srie de perguntas abertas em exames nacionais de capacidade de leitura em lnguas estrangeiras , argumentando que estes iro melhorar a avaliao da capacidade de linguagem ( as perguntas devem ser respondidas em holands , e no a estrangeira alvo lngua ) , van Elmpt e Loonen (1998) pergunta a suposio de que responder perguntas do teste no lngua-alvo uma desvantagem , ea pesquisa relatrio que mostra os resultados para ser semelhantes , independentemente de candidatos responderam s perguntas de compreenso em Holands ( lngua materna ) ou em Ingls ( o alvo lngua ) . No entanto, Bhgel e Leijn (1999) relatrio pesquisa que apresentaram baixa confiabilidade entre em marcao estes novos tipos de itens e que eles chamam de melhorou a prtica de avaliao . Guillon (1997 ) avalia a avaliao de Ingls nas escolas secundrias francesas , critica o tempo necessrio atravs de uma avaliao baseada em teste e da qualidade tcnica dos testes , e faz sugestes para melhor profiling pupila. Mundzeck (1993 ) critica semelhante muitas das provas objetivas em uso na Alemanha para avaliao oficial da escola de lnguas modernas , argumentando que eles no refletem a comunicativa aproximar a linguagem exigida pelo programa . ele recomenda que as tarefas mais abertas ser usado , e que os professores sejam treinados para o uso confivel de critrios vlidos para a marcao subjetiva , em vez de sua

prtica atual de apenas contando os erros na produo. Kieweg (1992) apresenta propostas para a melhoria da avaliao de Ingls em alemo escolas , e para a comparabilidade das normas dentro e em todas as escolas.
for focusing and organising learning activities and find them motivating and useful for the feedback they provide to learners. In the USA, one example of concern with schoolbased assessment is Manley (1995) who describes a project in a large Texas school district to develop tape-mediated tests of oral language proficiency in French, German, Spanish and Japanese, with positive outcomes. These descriptive accounts of local and national test development contrast markedly with the literature surrounding international language proficiency examinations, like TOEFL, TWE (Test of Written English), IELTS and some Cambridge exams. Although some reports of the development of international proficiency tests are merely descriptive (for example, Charge & Taylor, 1997, and Kalter & Vossen, 1990), empirical research into various aspects of the validity and reliability of such tests is commonplace, often revealing great sophistication in analytic methodology. This raises a continuing problem: language testing researchers tend to research and write about largescale international tests, and not about more localised tests (including school-leaving achievement tests which are clearly relatively high-stakes). Thus, the language testing and more general educational communities lack empirical evidence about the value of many influential assessment instruments, and research often fails to address matters of educational political importance. However, there are exceptions. For example, in connection with examination reform in Hungary, research studies have addressed issues like the use of sequencing as a test method (Alderson et al., 2000b), the pairing of candidates in oral tests (Csepes et al., 2000), experimentation with procedures for standard setting (Alderson, 2000a), and evidence informing ongoing debates about how many hours per week should be devoted to foreign language education in the secondary school system (Alderson, 2000b). In commenting on the lack of international dissemination of national or regional test development work, we do not wish to deny the value of local descriptive publications. Indeed, such descriptions can serve many needs, including necessary publicity for reform work, helping teachers to understand developments, their rationale and the need for them, persuading authorities about a desired course of action or counselling against other possible actions. Publication can serve political as well as professional and academic purposes. Standard setting data can reveal what levels are achieved by the school population,

including comparisons of those who started learning the language early with late-starters, those studying a first foreign language with those studying the same language as their second or third foreign language, and so on.

Dollerup et al . (1994) descrevem o desenvolvimento de Dinamarca de uma proficincia em leitura lngua Ingls teste que reivindicada para ajudar a diagnosticar deficincias de leitura na graduao. Mais adiante , na Austrlia, Liddicoat (1996) descreve a linguagem oral, Perfil componente interao que v e escuta oralidade como interdependentes e avalia escola capacidade dos alunos para participar com sucesso na espontnea conversa. Liddicoat (1998) critica a Diretrizes do Territrio da Capital da Austrlia para a avaliao de proficincia em lnguas como o chins , Japons e Indonsia , bem como francs, alemo, Espanhol e italiano. Ele argumenta que, com base em dados empricos descries da conquista de alunos de essas lnguas diferentes devem informar a reviso dos descritores de diferentes nveis nos perfis de realizao. Em Hong Kong , a insatisfao com a graduao nveis de proficincia na lngua dos alunos resultou nos planos para controles de sada de instituio de ensino superior da lngua. Li (1997 ), descreve os planos e discute um gama de questes problemticas que precisam resolver antes podem ser introduzidas medidas vlidas . Coniam (1994 , 1995) descreve a construo de um comum escala que as tentativas de cobrir a gama de Ingls capacidade de linguagem de Hong Kong secundrio alunos da escola em Ingls . Um item Theorybased Response banco de testes - o TeleNex - foi construdo para fornecer aos professores tanto com pontos de referncia para nveis de habilidade e ajuda em testes na escola . Uma preocupao semelhante com nveis ou padres de proficincia evidenciada por Peirce e Stewart ( 1997), que descrever o desenvolvimento da Lngua canadense Avaliao referencial ( CLBA ) , que se destina para ser usado em todo o Canad para colocar os recm-chegados em apropriada programas de ensino de ingls, como parte de um movimento para estabelecer um quadro comum para a descrio de proficincia em lngua ESL adulto . Os autores do um relato da histria do projeto eo desenvolvimento dos instrumentos. No entanto , Rossiter e Pawlikowsska - Smith (1999 ) so crticos da utilidade do CLBA pois baseia-se em diferenas muito de banda larga em proficincia entre os indivduos e insensvel menores, mas importantes, diferenas de proficincia . Eles argumentam que o CLBA deve ser complementada por instrumentos de posicionamento mais adequadas. Vandergrift e Belanger (1998) descrevem o fundo a e desenvolvimento de instrumentos de formao para avaliar o desempenho no Canadian National

Programas franceses Core e argumentam que a pesquisa mostra que as reaes aos instrumentos so positivas. Ambos os professores e os alunos consideram como teste Lngua benfico pode informar debates em linguagem educao em geral. Exemplos disso incluem estudos de base associado reforma exame que tentam descrever a prtica corrente na lngua salas de aula ( Fekete et al , 1999). que tal estudos revelaram foi utilizado em servio e estudos de formao de professores pr-servio e de base Tambm pode ser referido em estudos de impacto para mostrar a efeito de inovaes e, para ajudar educadores a lngua para entender como fazer as coisas de forma mais eficaz . Washback estudos tambm foram utilizados em professor formao, tanto para influenciar preparao para o teste prticas , mas tambm para encorajar os professores a refletir sobre as razes para as suas prticas ea dos outros . Teste LSP O desenvolvimento de testes de modo especfico , ou seja , ensaios em que o contedo de teste e mtodo de ensaio est derivada de um contexto particular o uso da linguagem , em vez de situaes mais uso geral da linguagem, pode ser rastreada para a Avaliao de matrcula temporrias Board ( TRAB ), introduzido pelos britnicos General Medical Council , em 1976 ( ver Rea - Dickins , 1987) e para o desenvolvimento da Lngua Ingls Teste de unidade para o Desenvolvimento ( ELTDU ) Balanas ( Douglas , 2000). A dcada de 1980 viu a introduo de Ingls para Fins Acadmicos (EAP ) testa e estes que posteriormente dominou a pesquisa e agenda de desenvolvimento . importante notar , no entanto, que Idioma para Fins Especficos (LSP) testes no so o oposto diametral de propsito geral testes . Pelo contrrio, elas geralmente caem em um continuum entre os testes de uso geral e os de contextos altamente especializados e incluem testes para fins acadmicos (por exemplo, o Ingls Internacional Sistema Language Testing , IELTS ) e para profissionais ou fins profissionais (por exemplo, o profissional Teste de Ingls , OET ) . Douglas ( 1997, 2000 ) identifica dois aspectos que normalmente distinguir teste LSP de propsito geral testes.O primeira a autenticidade das tarefas , ou seja , o tarefas de teste partes principais caractersticas com as tarefas que um teste taker pode encontrar na situao de uso da lngua -alvo. A suposio aqui que, quanto mais de perto o teste e tarefas " da vida real " esto ligados , o mais provvel que o desempenho dos examinandos " na tarefa de teste reflicta o seu desempenho na situao -alvo. A segunda caracterstica distintiva do teste LSP a interao entre o conhecimento de lnguas e especfico knowledge.This contedo talvez a diferena mais crucial entre o teste de propsito geral e LSP teste , pois no primeiro caso, qualquer tipo de fundo

conhecimento considerada uma varivel de confuso que contribui varincia construto - irrelevante o resultado do teste . No entanto , no caso do teste de LSP , conhecimento de fundo constitui parte integrante do que est a ser testado , uma vez que a hiptese de que conhecimento de lnguas, os examinandos " tem desenvolvido dentro do contexto de seu campo acadmico ou profissional e que estaria em desvantagem atravs de um teste com base no teor de fora daquele plano . O desenvolvimento de um teste de LSP comea tipicamente com uma anlise aprofundada do uso da lngua -alvo situao , talvez usando a anlise de gnero ( ver Tarone , 2001) . Presta-se ateno s caractersticas situacionais gerais como tpicos , lxico tpico e estruturas gramaticais. As especificaes so ento desenvolvidos, que tm em conta as caractersticas da linguagem especfica contexto , bem como situaes tpicas que ocorrem ( por exemplo , Plakans e Abraham , 1990; Stansfield et al , 1990; Scott et al , 1996; Stansfield et al , 1997; et Stansfield ai . , 2000) . As reas especficas de preocupao , muito compreensivelmente , tendem a se relacionar com questes de fundo conhecimento e tema escolha (por exemplo , Jensen e Hansen, 1995; Clapham , 1996; Fox et al , 1997; Celestine & Cheah , 1999; Jennings et al , 1999; Papajohn , 1999; Douglas, 2001a) e autenticidade de tarefa, de entrada ou , de facto , a sada ( por exemplo , Lumley & Brown , 1998; Moore & Morton, 1999; Lewkowicz , 2000; Elder, 2001; Douglas, 2001a ; Wu & Stansfield , 2001) e estes reas de interesse tm sido um dos principais focos de pesquisa ateno na ltima dcada . Os resultados , embora um pouco misto ( cf. Jensen & Hansen , 1995 e Fox et al , 1997) , sugerem que o fundo conhecimento e da linguagem do conhecimento interagem de forma diferente dependendo da proficincia na lngua de o tomador de teste . (1996) em pesquisa de Clapham sujeitotestes de leitura especficos ( pesquisa que realizou durante e depois do projeto de reviso ELTS ) mostra que, pelo menos no caso de seus dados, as dezenas de nem menores nem maiores examinandos proficincia parecia influenciado pelo seu conhecimento de fundo. ela hypothesises que para a ex- isso foi porque eles estavam mais preocupados com a decodificao do texto e para o ltimo que era porque seu lingustica conhecimento foi suficiente para que eles sejam capazes de decodificar o texto com que sozinho. No entanto, as pontuaes de proficincia mdia examinandos foram afetados pela seu conhecimento de fundo. Na base destas descobertas ela argumenta que os testes especficos de um assunto no so igualmente vlida para os examinandos em diferentes nveis de linguagem proficincia. Fox et al . (1997 ) , que examina o papel de fundo conhecimentos no mbito da audio seo de um teste integrado de Ingls Acadmico Fins ( a Carleton Ingls Acadmico teste ,

CAEL ) , relatam uma ligeira variao sobre esse achado. eles tambm encontrar uma interao significativa entre a linguagem proficincia e conhecimento de fundo com o dezenas de examinandos baixo de proficincia mostram nenhum benefcio de conhecimento de fundo. No entanto , o pontuao dos candidatos de alta proficincia e anlise de seus protocolos verbais indicam que fez usar de seu conhecimento de fundo para processar o ouvir tarefa. Clapham (1996 ) mostrou , ainda, que fundo conhecimento um conceito extremamente complexo . Ela revela dilemas , incluindo a dificuldade de identificar com preciso a especificidade absoluta de uma passagem de entrada e da impossibilidade de perto sendo certo sobre o conhecimento de fundo examinandos ' ( sobretudo tendo em conta que os examinandos muitas vezes ler fora do seu campo acadmico escolhido e pode at ter estudado em uma rea acadmica diferente no passado) . Isto particularmente preocupante quando os testes so topicbased e todos os sub-testes e tarefas se relacionam com um nico rea de tpico . Jennings et al . (1999 ) e Papajohn (1999 ) olhar para o possvel efeito da tpico , no caso de o ex , para a CAEL e , no caso do ltimo , em o teste de qumica TEACH para o ensino internacional assistentes . Eles argumentam que a presena de efeito tpico comprometeria a validade de construto do teste se os examinandos so oferecidos a escolha do tema durante administrao do teste ( como com o CAEL ) ou no . Papajohn encontra esse tpico tem um papel em qumica ENSINAR os resultados dos testes e alerta para o perigo de assumindo esse assunto especificidade garante automaticamente tema de equivalncia. Jennings et al . so aliviados denunciar que a escolha do tema no parece afetar desempenho tomador de teste no CAEL . No entanto , eles note que h um padro nas escolhas feitas por examinandos de diferentes nveis de proficincia e sugerir que necessria mais investigao sobre as implicaes de estes padres para o desempenho no teste . Outra preocupao especial dos desenvolvedores de teste LSP tem sido autenticidade ( de tarefa, de entrada e / ou sada) , um exemplo do cuidado de assegurar que o teste materiais esto sendo autntico Wu e Stansfield de (2001) descrio do procedimento de construo de testes para o ( a ouvir traduo resumo LSTE - Taiwan exame) . No entanto Lewkowicz (1997) um tanto puts o gato entre os pombos quando ela demonstra que nem sempre possvel identificar com preciso textos autnticos daqueles especialmente construdo para fins de teste . Ela problematiza ainda mais a valorizao da autenticidade em seu estudo de um grupo de teste percepes dos tomadores de um teste de EAP , achando que eles parecia indiferente sobre se os materiais de ensaio foram situationally autntica ou no. Na verdade , eles pode at considerar testes de mltipla escolha a ser testes autnticos da lngua , ao contrrio dos testes de

lngua que faz f ( Lewkowicz , 2000). ( Para mais discusso deste tpico , consulte a Parte Dois desta reviso . ) Outras preocupaes com o desenvolvimento de ensaio , no entanto , so muito parecido com os de pesquisadores desenvolvendo testes em diferentes sub- habilidades. De facto , os investigadores a trabalhar em Testes LSP tm contribudo muito para a nossa compreenso de uma srie de questes relacionadas com o teste de leitura, escrita , fala e escuta . parte de se preocupar com a melhor forma de extrair amostras da linguagem para a avaliao ( Read, 1990) , eles investigaram a influncia do interlocutor comportamento no desempenho examinandos ' em falar testes (por exemplo, Brown & LunJey , 1997; McNamara & Lumley , 1997; Reed & Halleck , 1997). eles tm tambm estudaram as hipteses subjacentes s escalas de avaliao ( Hamilton et al. , 1993 ), bem como o efeito de variveis avaliadores sobre os resultados dos testes ( Brown , 1995; Lumley & McNamara , 1995) e a questo de quem deve especialistas lingusticos ou assunto - performances de teste taxa especialistas ( Lumley , 1998). Houve tambm preocupaes relacionadas com a interpretao dos resultados dos testes . Assim como no uso geral testes , os desenvolvedores de teste LSP esto preocupados com minimizar e responsvel por construir - irrelevante variveis . No entanto , isto pode ser particularmente espinhosa problema no teste LSP desde construo de variveis irrelevantes pode ser introduzida como resultado da situao autenticidade das funes de teste . Por exemplo , na sua estudo do teste de qumica ensina, Papajohn (1999) descreve a dificuldade de identificar quando um ensinamento habilidades de ensino de assistentes ( e no na lngua habilidades) esto contribuindo para a sua / seu desempenho no teste . Ele argumenta que os comportamentos de teste , tais como a prestao de exemplos acessveis ou bom uso do quadro-negro no so facilmente distinguidas como o ensino ou a lngua aptides e isto pode resultar na variao construto - irrelevante sendo introduzidos no resultado do teste . ele sugere que os examinandos devem ser dadas instrues especficas sobre a forma de apresentar seus temas, ou seja , dicas de ensino para que que as habilidades de ensino no variam muito entre performances. Stansfield et al . (2000) deram um semelhante abordagem no desenvolvimento das LSTETaiwanese . A avaliao comea com uma instruo seo sobre as habilidades de sntese necessrio para o teste com o objetivo de assegurar que os desempenhos dos testes so no indevidamente influenciado por uma falta de compreenso de as exigncias da tarefa . Deve-se notar , entretanto, que , por causa da necessidade de uma anlise aprofundada do uso da lngua -alvo situao , os testes de LSP so demorados e caros para produzir . Tambm discutvel se Ingls para Fins Especficos (ESP) testes so mais informativos do que um teste de uso geral . Alm disso , cada vez mais claro o quo ' especfico ' um teste LSP

ou pode ser. De fato, mais de uma dcada se passou desde Alderson (1988 ), primeiro perguntou a questo crucial de como os testes ESP especfica poderia comear. esta questo reformulado por Elder (2001) trabalhar em testes para LSP professores quando ela pergunta se por todo o seu ' teacherliness ' estes testes provocar linguagem que essencialmente diferente daquela provocada por um teste de lngua geral. Uma preocupao adicional a constatao de que construir variveis relevantes, tais como conhecimento de fundo e estratgias compensatrias interagem de forma diferente com conhecimento da lngua , dependendo do idioma proficincia do tomador de teste (por exemplo, Halleck & Moder , 1995; Clapham , 1996) . Como conseqncia da (1996) a pesquisa de Clapham , o teste IELTS atual no tem textos de leitura de assuntos especficos e cuidado tomado para garantir que os insumos no so distorcidos por ou contra os examinandos de diferentes disciplinas . embora na medida em que esta falta de polarizao foi alcanado discutvel ( ver Celestino & Cheah , 1999), ele ainda pode -se argumentar que a tentativa de fazer textos acessveis , independentemente do conhecimento de fundo tem resultou no teste IELTS ser fracamente muito especfico. Suas pretenses de especificidade (e reivindicaes de fato semelhantes por muitos testes EAP ) , unicamente no facto de que testar as competncias lingusticas genricos necessrios acadmica contexts.This deixa desprotegido contra sugestes como de Clapham (2000a) , quando ela questiona a solidez terica da avaliao de conhecimentos discurso que o tomador de teste , registrando-se para um grau ministradas em Ingls , pode ser , sem dvida, com a esperana de aprender e que mesmo um falante nativo de Ingls pode faltar . Recentemente, o Conselho Mdico Geral britnico tem abandonou o seu teste de propsito especfico , o profissional e Linguistic Assessment Board ( PLAB , uma revista verso do theTRAB ) , substituindo-o por um de dois estgios processo de avaliao , que inclui o uso do IELTS teste para avaliar a proficincia lingustica. estes desenvolvimentos representar a extremidade mais fina da cunha . embora o IELTS ainda um teste de propsito especfico , -se menos de modo que o seu precursor o Teste de Ingls System ( ELTS ) e certamente menos do que o PLAB . E assim, o questionamento continua. Davies (2001) juntou-se ao debate , desbancar o terico justificativas normalmente apresentadas para explicar Teste LSP , em particular o princpio de que diferentes campos exigem diferentes habilidades lingusticas. ele argumenta que este princpio se baseia muito mais em diferenas de contedo e no em diferenas de idioma (consulte tambm Fulcher , 1999a) . Ele tambm questiona a viso de que reas de contedo so discretos e heterogneo. Apesar de todos os rumores de descontentamento , Douglas (2000) mantm-se firmemente por reivindicaes feitas muito mais cedo em dcada que em contextos de linguagem altamente especficas de campo , um teste de linguagem especfica de campo melhor preditor

de desempenho do que um teste de uso geral ( Douglas & Selinker , 1992) . Ele admite que muitos desses contextos ser pequena escala educacional , profissional programas de formao profissional ou em que o nmero de examinandos pequeno, mas mantm ( Douglas, 2000:282 ) : se queremos saber como os indivduos podem usar a lngua em contextos especficos de uso, vamos exigir uma medida que leva em em conta tanto o seu conhecimento de lnguas e os seus antecedentes conhecimento, e seu uso da competncia estratgica em relacionar o caractersticas mais marcantes da situao de uso da lngua -alvo para a sua habilidades de linguagem finalidade especfica. s por faz-lo ... que ns podemos fazer interpretaes vlidas de performances de teste. Ele tambm sugere que o problema pode no ser com os testes de LSP ou com a sua especificao do domnio uso da lngua -alvo, mas com a avaliao critrio aplicado . Ele argumenta ( Douglas, 2001b ), que apenas Ao analisar a situao de uso na lngua-alvo Para desenvolver o contedo do teste e mtodos, deve explorar essa fonte quando desenvolvemos o critrios de avaliao . Isso pode nos ajudar a evitar esperando uma perfeio do tomador de teste que no manifestada em performances autnticas no alvo uso da linguagem situao. Mas talvez o verdadeiro desafio para o campo est em identificar quando absolutamente necessrio saber quo bem algum pode se comunicar em um especfico contexto ou se a informao que est sendo procurado igualmente obtidas atravs de um teste de lngua de uso geral . A resposta a esse desafio pode no ser to facilmente alcanada como por vezes presumida. Testes baseados em computador Testes baseados em computador tem testemunhado um crescimento rpido na ltima dcada e os computadores so agora usados para entregar testes de linguagem em muitas configuraes. A computerbased verso do TOEFL foi introduzido em um base regional , no vero de 1998 , os testes so agora disponvel em CD-ROM e na Internet cada vez mais utilizado para entregar os testes para os utilizadores . Alderson (1996 ) aponta que os computadores tm muito a oferecer testes de linguagem : no apenas para entrega de teste, mas tambm para construo de testes , a compilao de teste, captao de resposta, pontuao teste , clculo e entrega de resultados, e teste anlise . Eles podem tambm , evidentemente , ser utilizado para armazenar testes e detalhes de candidatos . Em suma , os computadores podem ser usados em todas as fases do desenvolvimento de teste e processo de administrao . a maioria trabalho relatado na literatura , no entanto , as preocupaes a compilao , entrega e pontuao de testes por computador . Fulcher ( 1999b ) descreve a distribuio de um teste de nivelamento idioma Ingls atravs da Web e Gervais (1997) relata os resultados mistos de transferncia um teste de papel e lpis de diagnstico para o computador . Tais artigos definir o cenrio para estudos de

testes baseados em computador que comparar a preciso do teste baseado em computador com um paperand tradicional teste do lpis , abordando as vantagens de um computador de teste entregue em termos de acessibilidade e velocidade dos resultados e possveis desvantagens em termos de preconceito contra aqueles que no tm familiaridade computador, ou com atitudes negativas para os computadores . Essa preocupao com a polarizao um tema recorrente na literatura , e inspirou um estudo em grande escala pelo Servio Educational Testing (ETS) , os desenvolvedores do a verso baseada em computador do TOEFL, que necessrios para mostrar que um tal teste no seria inclinado contra aqueles que no tm conhecimentos de informtica . Jamieson et ah (1998 ) descrevem o desenvolvimento de um computerbased tutorial destina-se a treinar examinandos para tomar o TOEFL computadorizado. Taylor et al . (1999 ) examinam a relao entre a familiaridade computador e TOEFL , mostrando que aqueles com alta familiaridade computador tendem a pontuao mais elevada no TOEFL tradicional. Eles comparam examinandos com familiaridade alta e baixa do computador em termos da sua desempenho no tutorial computador e no computadorizada TOEFL como reivindicao tasks.They que nenhuma relao foi encontrada entre familiaridade computador e desempenho nas tarefas informatizadas depois controle de proficincia em Ingls . eles Conclui-se que no h nenhuma evidncia de vis contra candidatos com baixa familiaridade computador, mas tambm se consolar com o fato de que todos os candidatos sero capaz de tomar o tutorial computador antes de tomar uma TOEFL operacional baseado em computador. O uso mais comum de computadores em linguagem teste entregar os testes de forma adaptativa (por exemplo, Young et al. , 1996) . Isto significa que o computador ajusta a itens a serem entregues a um candidato , luz da que o sucesso ou o fracasso candidatos em itens anteriores. Se o candidato no um item de difcil , s / ele apresentado com um item mais fcil, e se ele / ela recebe um item correto, s / ele apresentado com um item mais difcil. Isto tem vantagens : em primeiro lugar , os candidatos so apresentados com itens em seu nvel de habilidade , e no so confrontados com itens que so ou muito fcil ou muito difcil, e em segundo lugar , testes de computador - adaptativas (gatos) so tipicamente mais rpido para entregar, e segurana um problema menor uma vez que diferentes candidatos so apresentados com diferentes itens . Muitos autores discutem as vantagens de gatos ( Laurier , 1998; Brown , 1997; Chalhoub -Deville & Deville , 1999; Dunkel , 1999) , mas tambm enfatizar questes que testam os desenvolvedores e os usurios devem marcar enderear ao desenvolver ou utilizar CATs . quando concepo de tais testes , os desenvolvedores tem que ter um nmero de decises : o que o nvel de entrada de ser, e como isso melhor determinado para uma dada populao ? Em que ponto deve testar cessar ( a assim chamada

ponto de sada ) eo que deve ser os critrios que determinar isso ? Como o contedo equilbrio melhor ser assegurado em testes onde o princpio fundamental para adaptao psicotcnico ? Quais so as consequncias de no permitir que os usurios a ignorar itens , e pode estes consquences ser melhorados ? Como garantir que alguns itens no so apresentados muito mais frequendy do que os outros ( exposio item) , por causa da sua instalao, ou o seu contedo ? Brown e Iwashita (1996) ressaltar que os itens gramaticais , em particular, ir variar em dificuldade de acordo com o fundo lngua dos candidatos, e eles mostram como um computador -adaptvel teste de japons resultou no item muito diferente dificuldades para falantes de Ingls e Chins . assim a CAT tambm pode precisar de ter em conta a lngua fundo de candidatos ao decidir quais itens para apresentar, pelo menos em testes de gramtica, e concebivelmente tambm em testes de vocabulrio. Chalhoub -Deville e Deville (1999 ) apontam que , apesar das vantagens evidentes de computerbased testes, testes baseados em computador depende esmagadoramente em resposta seleccionado ( tipicamente MultipleChoice perguntas) tarefas discreto pontos , em vez de itens com base no desempenho e, assim, baseado em computador teste pode ser restrito a testar conhecimentos lingusticos ao invs de habilidades comunicativas . No entanto , muitos testes baseados em computador incluem testes de leitura, que certamente uma habilidade comunicativa. a questo se o teste baseado em computador oferece qualquer acrescentou valor sobre testes de leitura de papel e lpis : adaptabilidade uma possibilidade , apesar de alguns promotores de teste so preocupado que, desde testes de leitura tipicamente presentes vrios itens em um texto - o que conhecido no jargo como testlet - eles podem no ser adequados para computer- adaptatividade . Esta preocupao com a inerente conservadorismo de testes baseados em computador tem uma longa histria ( ver Alderson, 1986a , 1986b , por exemplo) , e algumas inovaes reclamadas , por exemplo, gerado por computador testes cloze e de mltipla escolha ( Coniam , 1997, 1998 ) foram efetivamente implementadas to cedo quanto dcada de 1970, e foram muitas vezes criticado na literatura para arriscar a suposio de validade automtica. mas desenvolvimentos recentes oferecer alguma esperana. Burstein et al . (1996) defendem a importncia das novas tecnologias em inovao no design de teste , construo, experimentao , entrega , gesto, pontuao, anlise e relatrios. Eles analisam formas em que novos dispositivos de entrada (por exemplo, voz e reconhecimento de escrita ) , a sada dispositivos ( por exemplo , vdeo, realidade virtual ) , software como ferramentas de autoria , e sistemas baseados em conhecimento para anlise da linguagem poderia ser usada , e explorar avanos no uso de novas tecnologias no computador materiais de aprendizagem assistida. No entanto , uma vez que apontam fora ", as inovaes aplicadas a lag avaliao de linguagem atrs de seus colegas de ensino ... a situao

criado em que uma linguagem relativamente rico apresentao seguida por uma produo limitada avaliao. " ( 1996:245 ) . Sem dvida , isto , em grande parte devido ao facto de que o computador os testes com base requer que o computador marcar respostas . No entanto , Burstein et al . (1996 ) argumentam que sistemas de pontuao humanos assistida poderia reduzir este dependncia. ( Sistemas de pontuao Humano assistidas so sistemas baseados em computadores onde a maior pontuao da respostas feito por computador, mas que a resposta programas no so capazes de marcar so dados aos seres humanos para classificao. ) Eles tambm do detalhes de pontuao sem resposta ferramentas que so capazes de marcar as respostas se 15 palavras de comprimento que se correlacionam altamente com humano julgamentos ( coeficientes de entre 0,89 e 0,98 so relatado ) . O desenvolvimento de tais sistemas para SHORTANSWER perguntas e para questes dissertativas , desde ento, ido em ritmo acelerado. Por exemplo , a ETS desenvolveu um sistema automatizado para a avaliao da linguagem produtiva habilidades , chamadas de ' e- avaliador " . e- avaliador usa linguagem natural tcnicas de processamento para duplicar o desempenho Classificao dos seres humanos ensaios abertas. J, a sistema utilizado para avaliar GMAT ( Graduate Management Teste de Admisso ) ensaios e investigao est em curso para outros programas, incluindo segunda / estrangeira situaes de teste de idioma. Burstein et al . concluir que " as barreiras para o sucesso do uso da tecnologia para testes de linguagem so menos tcnico do que conceitual " (1996 : 253) , mas o progresso desde que o artigo foi publicado extremamente promissor. Um exemplo do uso de TI para avaliar os aspectos de a capacidade de falar da segunda lngua estrangeira / alunos de Ingls PhonePass . PhonePass ( www. ordinate.org ) entregue por telefone, e os candidatos so convidados a ler textos em voz alta , repita ouvido frases, dizer palavras opostas em significado ao ouvido palavras , e dar respostas curtas s perguntas . O systern usa a tecnologia de reconhecimento de voz para taxa respostas , comparando o desempenho candidato a modelos estatsticos de desempenho nativas e no-nativas nas tarefas . O sistema d uma pontuao que reflete a capacidade do candidato de compreender e responder adequadamente a descontextualizado falada material, com 40 % da avaliao reflectindo o fluncia ea pronncia das respostas . Alderson ( 2000c ) relata que coeficientes de confiabilidade de 0,91 Foram encontrados, bem como as correlaes com o Teste de Ingls falado (TSE ) de 0,88 e com uma ILR ( Inter- agncia Language Roundtable ) Oral Proficiency Interview ( OPI ) de 0,77 . um interessante caracterstica que a amostra marcou seja mantida em um banco de dados , classificadas de acordo com as vrias dezenas atribudo . Isso permite que os usurios acessem a amostra de fala , a fim de fazer seus prprios julgamentos sobre

o desempenho para seus propsitos particulares , e comparar a forma como o seu candidato se apresentou com outras amostras de fala que foram classificadas quer a mesma , ou maior ou menor . Alm de e- avaliador e PhonePass h uma srie de iniciativas promissoras no uso de computadores em teste . A seco de escuta do computador TOEFL baseado usa fotos e grficos para criar contexto e suporta o contedo dos minilectures , produzindo estmulos que mais de perto se aproximam situaes do mundo real " em que as pessoas fazem mais do que apenas ouvir vozes. Alm disso , os candidatos usam fones de ouvido, pode ajustar o controle de volume, e so permitido controlar quanto tempo a prxima pergunta apresentada . Uma inovao no mtodo de teste que candidatos so obrigados a selecionar uma parte visual ou de um visual, em algumas questes os candidatos devem selecionar dois escolhas, geralmente fora de quatro, e em outros candidatos so convidados a combinar ou ordenar objetos ou textos. Alm disso , os candidatos ver e ouvir as perguntas do teste antes as opes de resposta aparecer. ( Curiosamente , Ginther , prxima , sugere , no entanto , que o uso de recursos visuais no TOEFL no Computador escuta teste deprime pontuao um pouco , em comparao com tradicionalmente entregue testes . Mais pesquisas so claramente necessrio. ) Na seco de leitura candidatos devem selecionar uma palavra , frase, frase ou pargrafo no texto em si , e outras questes convidar os candidatos para inserir uma frase onde ele se encaixa melhor . embora estes tcnicas tm sido utilizadas em outros lugares em papel - andpencil testes , uma vantagem do seu formato de computador que o candidato pode ver o resultado de sua escolha no contexto, antes de tomar uma deciso final. embora estas inovaes podem no parecer muito emocionante, Bennett (1998) afirma que a melhor maneira de inovar em testes baseados em computador o primeiro a montar no computador j que pode ser feito em papel e lpis formato , com possveis pequenas melhorias permitidas por o meio , a fim de assegurar que o software de base funciona bem , antes de inovar no mtodo de teste e construir. Uma vez que os mecanismos de prestao de trabalho, argumenta-se, em seguida, as entregas baseadas em computador pode ser desenvolvido que incorporam inovaes desejveis . DIALANG ( http://www.dialang.org ) um conjunto de testes diagnsticos baseados em computador ( financiados pelo Unio Europeia ), que esto disponveis na Internet, capitalizando , assim, sobre as vantagens de Internetbased parto ( ver abaixo ) . DIALANG usa auto-avaliao como parte integrante de diagnstico . dos usurios auto-avaliaes so combinados com resultados objetivos de teste a fim de identificar um ensaio adequado para a difcil usurio. DIALANG d aos usurios um feedback imediato , no s em seus resultados de teste , mas tambm na relao entre os resultados do teste e sua auto -avaliao.

DIALANG tambm d conselhos extensivo aos usurios sobre como eles podem evoluir a partir de seu nvel atual de o prximo nvel de proficincia na lngua , baseando esta conselhos sobre o Quadro Europeu Comum (Conselho da Europa , 2001). A interface e suporte linguagem , ea linguagem de auto-avaliao e de realimentao , pode ser escolhida pelo utilizador a partir de uma lista de teste de 14 lnguas europeias. Os usurios podem decidir qual habilidade ou aspecto da linguagem ( leitura, escrita , compreenso auditiva, gramtica e vocabulrio ) que deseja ser testado em , em qualquer um dos mesmos 14 idiomas europeus. atualmente mtodos de teste disponveis consistem de mltipla escolha, gapfilling e perguntas de resposta curta , mas DIALANG manifestaes j produziu baseada em CD , de 18 de diferentes tipos de itens experimentais que poderiam ser implementadas no futuro , eo CD demonstra o uso de ajuda , indcio, dicionrio e de vrias tentativas recursos. Embora DIALANG limitado em sua capacidade de avaliar as habilidades de linguagem produtivos dos usurios, o experimental tipos de itens incluem uma combinao promissora de auto-avaliao e benchmarking. Tarefas para o elicitao de falar e escrever performances so administrado aos candidatos piloto e performances so avaliado por performances judges.Those humanos sobre os quais avaliadores alcanar o maior acordo so escolhidos como ' benchmarks ' . Um utilizador DIALANG apresentado com o mesma tarefa , e , no caso de um processo de escrita , responde atravs do teclado . O desempenho do usurio ento apresentado na tela ao lado dos pontos de referncia pr- classificados. O usurio pode comparar seu desempenho com os valores de referncia . Alm disso , uma vez que os valores de referncia so pr- analisado , o usurio pode optar por ver os comentrios dos avaliadores em vrias caractersticas dos valores de referncia, em forma de hipertexto , e considerar se eles poderiam produzir uma qualidade semelhante de tais caractersticas. No caso de Falando tarefas , o candidato simplesmente pediu para imaginar como reagiriam tarefa , ao invs de na verdade, para gravar o seu desempenho. Eles so ento presenteado com performances de referncia registou , e pede para estimar se eles poderiam fazer melhor ou pior do que cada apresentao. Uma vez que os desempenhos so classificados , uma vez que os candidatos tm auto- avaliado se contra uma srie de performances , o sistema pode dizer-lhes mais ou menos o nvel prprio ( imaginada) desempenho provvel que seja . Estes desenvolvimentos ilustrar algumas das vantagens de avaliao baseado em computador , o que fazer testes baseados em computador no s mais user-friendly , mas tambm mais compatvel com a pedagogia da linguagem. No entanto , Alderson ( 2000c ) discute a necessidade para uma agenda de pesquisa , que enfrentar o desafio das oportunidades oferecidas pela baseado em computador testes e os dados que podem ser acumulados . tal

agenda iria investigar as vantagens comparativas eo valor de cada forma de avaliao acrescentou - ITbased ou no baseada em TI. Isto inclui questes como a efeito de fornecer feedback imediato , o apoio instalaes, segundo as tentativas , a auto -avaliao , a confiana teste , e semelhantes . Acima de tudo, pretende-se lanar mais luz sobre a natureza das construes que podem ser testados por testes baseados em computador : O que necessrio acima de tudo a pesquisa que ir revelar mais sobre a validade dos testes, que nos permitir estimar os efeitos do mtodo de ensaio e meio de entrega , a investigao que proporcionar insights sobre os processos e estratgias de teste -compradores usar ; estudos que permitiro a explorao das construes que so ser medido, ou que possa ser medido ... E ns precisamos pesquisa sobre o impacto do uso da tecnologia na aprendizagem , sobre os alunos e sobre o currculo . ( Alderson, 2000c : 603) A auto-avaliao A seo anterior mostrou como computerbased testes podem incorporar auto-avaliao examinandos ' de suas habilidades na lngua-alvo . at as referncias dos anos 1980 para a auto-avaliao eram raros , mas desde ento, o interesse em auto-avaliao tem aumentado. Este aumento pode , pelo menos em parte, ser atribudo a um aumento do interesse em envolver o aluno em todas as fases do processo de aprendizagem e no incentivo aluno autonomia e tomada de deciso em (e fora) da aula de lngua (por exemplo , Blanche e Merino, 1989). A introduo de auto-avaliao era vista como promissora por muitos, especialmente na avaliao formativa contextos ( Oscarson , 1989). Foi considerado incentivar crescente sofisticao na conscincia do aluno , ajudar os alunos a: ganho de confiana na sua prprio julgamento ; adquirir uma viso de avaliao que cobre todo o processo de aprendizagem , e ver os erros como algo til . Ele tambm foi visto como potencialmente til para professores, fornecendo informaes sobre a aprendizagem estilos , em reas que necessitam de correo e feedback sobre ensino ( Barbot , 1991). No entanto, a auto-avaliao tambm se reuniu com considervel ceticismo, em grande parte devido a preocupaes sobre a capacidade dos alunos para fornecer julgamentos precisos de sua realizao e proficincia. Por exemplo , azul (1988), apesar de reconhecer que a auto -avaliao um elemento importante na aprendizagem auto-dirigida e que os alunos podem desempenhar um papel activo na avaliao de sua prpria aprendizagem de lnguas, argumenta que os alunos no pode auto-avaliar nu. Tomar a auto-avaliao os dados recolhidos a partir de estudantes em uma EAP pr -sesses programa , ele relata uma baixa correlao entre as avaliaes dos professores dos alunos e sua prpria auto-avaliaes . Ele tambm mostra que, em multicultural grupos como aqueles tpicos de pr -sesses EAP cursos , superestimativa de proficincia na lngua so mais comum do que subestima . Finalmente, ele argumenta que learners'lack de familiaridade com metalinguagem

e com a prtica de discutir a linguagem proficincia em termos de seus prejudica as habilidades de composio a capacidade para identificar a sua linguagem precisa necessidades de aprendizagem . Essas preocupaes , no entanto, no arrefeceu o entusiasmo para as investigaes nesta rea e pesquisa na 1980 estava preocupado com o desenvolvimento da auto-avaliao instrumentos e sua validao (por exemplo, Oscarson , 1984; Lewkowicz & Moon , 1985). Consequentemente , uma variedade de abordagens foram desenvolvidas incluindo cartes de progresso dos alunos , dirios de aprendizagem, de log livros, escalas de avaliao e questionrios . Na ltima dcada, o foco da pesquisa mudou para melhorar a nossa compreenso das tcnicas de avaliao que j existiam por continuou exerccios de validao e aplicando auto-avaliao em novos contextos ou de novas maneiras. Por exemplo , Blanche (1990 ) utiliza padronizado testes de desempenho e proficincia oral, tanto para testes e para fins de auto-avaliao , argumentando que esta abordagem ajuda a contornar os problemas de formao que esto associados com questionrios de auto -avaliao. Hargan (1994 ) documenta o uso de um 'do- it-yourself instrumento, para fins de colocao , relatando que resulta em grande parte da mesma colocao nveis , como sugerido por um de mltipla escolha tradicional teste . Hargun argumenta que o teste de colocao para a grande os nmeros em seu contexto resultou na aplicao de mltipla escolha tradicional grammarbased teste de colocao e uma conseqente nfase na ensinar habilidades de gramtica analticas. Ela acredita que o instrumento 'do- it-yourself - colocao "pode ajudar para corrigir a nfase na gramtica e conter a negligncia da leitura e escrita em sala de aula. Carton (1993) discute como a auto-avaliao pode tornar-se parte do processo de aprendizagem. Ele descreve seu uso de questionrios para incentivar os alunos a refletir em seus objetivos de aprendizagem e modos preferenciais de aprendendo. Ele tambm apresenta uma abordagem para monitoramento aprendizagem que envolve os alunos na elaborao de seu critrios prprios , uma abordagem que defende ajuda os alunos para tornar-se mais conscientes do seu prprio cognitivo processos . Uma abordagem tpica para validar a auto-avaliao instrumentos tem sido obter validade concorrente estatsticas por correlacionar a medida de auto -avaliao com uma ou mais medidas externas de desempenho dos alunos ( por exemplo , Shameem , 1998; Ross , 1998) . outro abordagens incluram o uso de multi- trao multi- mtodo projetos ( MTMM ) e anlise fatorial ( Bachman & Palmer , 1989) e uma tcnica de split- cdula ( Heilenman , 1990) . Em geral, esses estudos ter encontrado a auto-avaliao a ser um mtodo robusto para a recolha de informaes sobre a proficincia do aluno e

que o risco de fraude baixa ( ver Barbot , 1991). No entanto, eles tambm indicam que algumas abordagens para coleta de dados de auto-avaliao so mais eficazes do que outros. Bachman e Palmer (1989 ) relatam que alunos eram mais capazes de identificar o que eles encontraram difcil de fazer em uma linguagem que o que encontraram fcil. Portanto, 'pode fazer ' perguntas foram os menos tipo de pergunta eficaz dos trs usaram em sua Estudo MTMM , enquanto que a pergunta mais eficaz tipo parecia ser o que perguntou sobre o alunos ' dificuldades percebidas com os aspectos do lngua . Alm disso , a experincia do aluno da auto-avaliao procedimento e / ou a habilidade de linguagem sendo avaliada foi encontrada para afetar a auto-avaliao . Heilenman (1990 ) , num estudo do papel da resposta efeitos, os relatrios tanto um efeito aquiescncia (a tendncia para responder positivamente a um item , independentemente da seu contedo ) e uma tendncia a superestimar a capacidade , essas tendncias sendo mais acentuada entre os menos alunos experientes. Ross (1998 ) concluiu que o confiabilidade das auto-avaliaes dos alunos afetado pela sua experincia da habilidade que est sendo avaliada . ele sugere que quando os alunos no tm memria de um critrio , eles recorrem a lembranas de seu general proficincia , a fim de fazer o seu julgamento . este processo mais susceptvel de ser afectada pelo mtodo do instrumento de auto-avaliao e por fatores como auto- bajulao . Ele argumenta , portanto, para a concepo de instrumentos que so expressos em termos que oferecem aprendizes um ponto de referncia , tais como contedo curricular especfico. Em uma descoberta semelhante Shameem (1998) relatrios que a auto-avaliao de sua proficincia oral dos respondentes em Fiji Hindi so menos confiveis ao mais alto nveis da escala de auto- avaliao. Como Ross, ele atribui esse deslizamento na preciso dos entrevistados ' falta de familiaridade com a medida critrio. Oscarson (1997) resume os progressos nesta rea, lembrando-nos de que a pesquisa em auto-avaliao ainda relativamente novo. Ele reconhece que enigmas permanecem . Por exemplo , os objetivos do aluno e interpretaes precisa ser conciliado com os imperativos externos. Tambm auto-avaliao no auto-explicativo , mas devem ser introduzidos lentamente e os alunos precisam estar guiados e apoiados no seu uso dos instrumentos. Alm disso, especialmente quando se utiliza a auto-avaliao em grupos multiculturais , importante considerar as influncias culturais sobre a auto-avaliao . No entanto , ele considera a investigao at agora para ser promissor. Apesar das preocupaes residuais sobre a preciso das auto-avaliao , a maioria dos estudos relatam favorvel resultados e j aprendi muito sobre a metodologia adequada a utilizao para a captura auto-avaliaes . No entanto , como pontos Oscarson

fora , necessrio mais trabalho, tanto no estudo de fatores que influenciam avaliaes de auto-avaliao em vrios contextos e na seleo e concepo de materiais e mtodos de auto-avaliao. assessnnent Alternativa A auto-avaliao um exemplo de que cada vez mais chamado "avaliao alternativa" . Avaliao Alternativa ' geralmente entendida como procedimentos de avaliao que so menos formais do que os testes tradicionais , que so recolhidas ao longo de um perodo de tempo , em vez de ser tomada em um ponto no tempo , que so geralmente formativa em vez de sumativa na funo, so muitas vezes low-stakes em termos de consequncias e so reivindicados ter efeitos benficos washback . embora tais procedimentos pode ser demorada e no muito fcil de administrar e pontuao, suas vantagens reivindicadas so eles que fornecem informaes de fcil compreenso , eles so mais integrativa do que os testes tradicionais e eles so mais facilmente integradas em sala de aula. McNamara (1998) faz o ponto que alternativa procedimentos de avaliao so muitas vezes desenvolvidos em um tente fazer o teste e avaliao mais gil e responsvel para alunos individuais , para promover aprender e para melhorar o acesso ea equidade na educao (1998 : 310) . Hamayan (1995 ) apresenta uma justificativa detalhada para avaliao alternativa , descreve diferentes tipos de tal avaliao , e discute procedimentos para a criao de avaliao alternativa . ela tambm fornece uma bibliografia muito til para referncia futura. Uma edio especial do recente Language Testing , guestedited por McNamara ( Vol. 18 , 4 , Outubro de 2001) relatrios sobre um simpsio para discutir os desafios para a mainstream atual na pesquisa de testes da linguagem, abrangendo questes como a avaliao como prtica social , avaliao democrtica , a utilizao dos resultados com base avaliao e processos de avaliao em sala de aula . Tais discusses de perspectivas alternativas esto estreitamente ligada aos chamados perspectivas crticas (o que Shohamy chama testes linguagem crtica ) . O movimento de avaliao alternativa , se pode ser denominado tal, provavelmente comeou por escrito de avaliao, onde as limitaes de um one-off improvisado nico escrevendo tarefa so aparentes. Os alunos normalmente so dadas apenas um, ou no mximo duas tarefas , mas generalizaes sobre a escrita de capacidade atravs de uma variedade de gneros so frequentemente feitas . Alm disso , evidente que no caso mais escrita, certamente, para fins acadmicos , mas tambm em ambientes de negcios , realiza-se ao longo do tempo , envolve muito planejamento , a edio , reviso e reformulao, e, geralmente, envolve a integrao de entrada a partir de uma variedade de fontes ( normalmente escritas ) . Isto , em claro contraste com o ensaio tradicional, que geralmente tem um curto rpida, d aos alunos a entrada mnima, tempo mnimo para o planejamento e praticamente nenhuma oportunidade

reformular ou rever o que eles tm produzido sob circunstncias muitas vezes, com prazos estressantes. em Nessas situaes , a defesa de carteiras de peas da escrita tornou-se um lugar-comum , e um todo movimento avaliao de portflio tem desenvolvido , especialmente nos EUA para a escrita primeira lngua ( Hamp Lyons & Condon, 1993, 1999 ), mas tambm cada vez mais para a avaliao escrita ESL ( Hamp - Lyons , 1996) e tambm para a avaliao de lnguas estrangeiras (Francs , Avaliao de espanhol, alemo, etc ) escrito. Embora a avaliao da carteira em outro assunto reas ( arte , design grfico , arquitetura, msica) no nova , em carteiras de ensino de lnguas estrangeiras tem foi saudado como uma grande inovao , supostamente superao os inconvenientes da avaliao tradicional . A exemplo tpico Padilla et al. (1996 ), que descrevem a concepo e implementao da avaliao de portflio em japons , chins, coreano e russo , a avaliar o crescimento de proficincia em lngua estrangeira . eles fazer uma srie de recomendaes prticas para ajudar os professores que desejam utilizar carteiras em andamento avaliao. Hughes Wilhelm (1996) descreve como portflio avaliao foi integrado com o critrio -referenciada graduao em Ingls pr-universitrio para acadmico programa de fins , em conjunto com a utilizao do contrato classificao e reviso colaborativa de classificao critrios . Alega-se que tal regime de avaliao incentiva controle do aprendiz , mantendo padres de desempenho . Curto (1993) discute a necessidade de uma melhor avaliao modelos de ensino onde o contedo e linguagem instruo so integrados. Ela descreve exemplos da implementao de uma srie de alternativas medidas de avaliao , tais como listas de verificao, carteiras, entrevistas e desempenho de tarefas -, em elementar e escola secundria de contedo integrado e linguagem aulas . Alderson ( 2000d ) descreve uma srie de alternativas procedimentos de avaliao de leitura, incluindo checklists , conferncias professor- aluno, aluno dirios e revistas , inventrios de leitura informal , sala de aula sesses de leitura em voz alta , carteiras de livros lidos , selfassessments de progressos na leitura , e semelhantes . Muitos dos relatos de avaliao alternativa so para avaliao em sala de aula , muitas vezes para avaliar progredir atravs de um programa de instruo. Gimenez (1996) d conta do uso de avaliao do processo em um curso de ESP ; Bruton (1991) descreve o uso de uma avaliao contnua ao longo de um completo ano letivo na Espanha , para medir a realizao de objetivos e progresso do aluno . Haggstrom (1994 ) descreve maneiras que ela tem usado com sucesso um vdeo cmera e atividades baseadas em tarefas para fazer classroombased

teste oral, mais comunicativo e realista , menos para o professor demorado , e mais agradvel e menos estressante para os alunos. Lynch (1988 ) descreve um sistema experimental de avaliao pelos pares atravs de questionrios em uma pr -sesses EAP vero programa , para avaliar recursos de fala . ele conclui que esta forma de avaliao teve um efeito significativo sobre a medida em que os oradores levou seu pblico em conta. Lee (1989) discute como a avaliao pode ser integrado com o processo de aprendizagem , ilustrando seu argumento com um exemplo , onde os alunos se preparar, prtica e executar uma tarefa conjunto em espanhol juntos. Ela oferece dicas prticas sobre como os professores pode reduzir a quantidade de burocracia envolvida na avaliao em sala de aula deste tipo. Sciarone (1995 ) discute as dificuldades de aprendizagem com acompanhamento grandes grupos de estudantes (em contraste com a de indivduos ) e descreve o uso , com 200 alunos de holands, de uma ferramenta de monitoramento simples ( um personal computador) para acompanhar o desempenho do indivduo alunos em uma variedade de tarefas de aprendizagem . Tpico destas contas , no entanto , o facto de que eles so descritivos e persuasivo, em vez de baseados em pesquisa, ou empricos estudos sobre as vantagens e desvantagens of'alternative avaliao . marrom e Hudson (1998 ) apresentam uma viso crtica da tais abordagens , criticando a maneira evanglica que os defensores afirmam o valor e de fato validade de seus procedimentos , sem qualquer evidncia para apoiar suas afirmaes . Eles apontam que no existe tal coisa como validade automtica, uma reivindicao muitas vezes feito pelos defensores da avaliao alternativa . em vez de "avaliao alternativa" , propem o termo ' alternativas em avaliao ' , apontando que h muitos diferentes mtodos de ensaio disponveis para avaliar a aprendizagem dos alunos e realizao. eles apresentar uma descrio destes mtodos , incluindo tcnicas de resposta seleccionada , - resposta construdo tcnicas e tcnicas de resposta pessoal . Portfolio e outras formas de avaliao of'alternative ' so classificados na ltima categoria, mas Brown e Hudson enfatizar que eles devem ser sujeitos a os mesmos critrios de confiabilidade, validade e praticidade como qualquer outro procedimento de avaliao , e deve ser criticamente avaliados quanto sua " adequao finalidade " , que Bachman e Palmer ( 1996 ) called'usefulness ' . Hamp - Lyons (1996) conclui que a carteira de pontuao menos confivel do que a classificao tradicional escrita; pouco ensino e avaliadores podem julgar o escritor tanto quanto a escrita . Brown e Hudson enfatizar que as decises de uso de qualquer procedimento de avaliao devem ser informados por consideraes de conseqncias ( retroativo ), a importncia e necessidade para , eo valor de retorno com base na avaliao

resultados , bem como a importncia do uso de mltiplas fontes de informaes na tomada de decises com base em informaes sobre a avaliao . Clapham ( 2000b) faz o ponto que muitos procedimentos de avaliao de alternativas no so pr- testados e testado , suas tarefas e esquemas de marca so, portanto, de desconhecidos ou mesmo de qualidade duvidosa , e apesar de enfrentar validade , eles no podem dizer ao usurio muito em tudo sobre as habilidades dos alunos. Em suma, como Hamayan (1995) admite, alternativa procedimentos de avaliao ainda no foram " atingiu a maioridade " , no apenas em termos de demonstrao indubitvel sua utilidade , em termos de Bachman e Palmer , mas tambm em termos de ser implementado no ensino regular avaliao, em vez de na avaliao informal baseada em classes . Ela argumenta que a consistncia na aplicao avaliao da alternativa ainda um problema , que os mecanismos de profunda auto-crtica e avaliao de procedimentos de avaliao de alternativas esto faltando, que algum grau de padronizao de tais procedimentos ser necessrio , se eles so para ser usados para altas apostas avaliao, e que a viabilidade financeira e logstica de tais procedimentos ainda no foi demonstrada. Avaliando jovens aprendizes Finalmente, nesta primeira parte da nossa anlise , consideramos desenvolvimentos recentes na avaliao de jovem alunos , uma rea onde muitas vezes argumentado que alternativa procedimentos de avaliao so mais adequados do que procedimentos formais de teste . Normalmente consideraaplicam-se avaliao de crianas entre as idades de 5 e 12 ( mas incluindo tambm muito mais jovem e crianas um pouco mais velhas ) , a avaliao do jovem alunos remonta dcada de 1960. Entretanto, a pesquisa interesse nesta rea relativamente nova ea ltima dcada testemunhou uma infinidade de estudos (por exemplo, baixa et ah , 1993; McKay et ai , 1994; Edelenbos & Johnstone , 1996; Breen et ai , 1997; Leung & Teasdale , 1997; TESOL , 1998; Blondin et al , 1998) . Esta tendncia pode ser em grande parte atribuda a trs fatores. Em primeiro lugar, segundo o ensino de lnguas (em particular Ingls ) para crianas na pr -primria e primria faixas etrias , tanto dentro ensino regular e por organizaes comerciais , cresceu rapidamente . Em segundo lugar , reconhecido que as salas de aula tm tornar-se cada vez mais multi- cultural e , particularmente no contexto da Austrlia , Canad , Estados Unidos e Reino Unido, muitos alunos so falantes de Ingls como uma segunda lngua adicional / (em vez de herana falantes de Ingls ). Em terceiro lugar, a dcada viu um aumento da proliferao , no ensino regular , dos padres de ensino e aprendizagem (por exemplo, o National Diretrizes Curriculares na Inglaterra e Pas de Gales ) e exigncias de prestao de contas para as partes interessadas . A pesquisa que resultou cai amplamente em trs reas: a de avaliao de atraso de linguagem e / ou

deficincia , a avaliao de jovens aprendizes com Ingls como segunda lngua adicional / , eo avaliao de lnguas estrangeiras no ensino primrio / elementar escola. Alteraes na medio de atraso de linguagem e / ou deficincia tm sido atribudas a terica e avanos prticos na fala e linguagem terapia . Alega-se que estes avanos tm , em por sua vez , as mudanas operadas no mbito do que envolvido na avaliao de linguagem e nos mtodos por que ela ocorre (Howard et ah , 1995). Resultando pesquisa incluiu reflexo sobre a validade preditiva de testes envolvendo produo de linguagem que so usados como triagem padro para a linguagem atraso em crianas a partir dos 18 meses ( especialmente luz de evidncias de pesquisas que produo e compreenso no so funcionalmente discreto antes de 28 meses ) ( Boyle et ah , 1996). outro pesquisa , no entanto, olhou para a natureza do 230 distrbio de linguagem. Windsor (1999) investiga a efeito de inconsistncia semntica na frase gramaticalidade julgamentos de crianas com e sem deficincia de aprendizagem de lnguas (LD) , achando que as crianas com LD diferiam mais de seu cronolgica pares de grupos etrios na identificao de ungrammatical Frases e que importante a considerar o efeito sobre o desempenho de competir informao lingustica na tarefa . Holm et al (1999 ) desenvolveram um procedimento de avaliao fonolgica para bilnge crianas , usando esta avaliao para descrever a desenvolvimento fonolgico , em cada lngua , de desenvolvimento normal as crianas bilnges , bem como de duas crianas bilnges com distrbios da fala . eles concluir que o desenvolvimento fonolgico normal de crianas bilnges difere monolingue o desenvolvimento de cada uma das lnguas e que o produo fonolgica de crianas bilnges com distrbios da fala reflete uma nica dficit subjacente. Os resultados destes estudos tm implicaes para a a concepo dos instrumentos de avaliao , bem como para a necessidade para identificar as normas adequadas contra o qual a medir o desempenho nas avaliaes . Tais questes , em especial a identificao de normas adequadas de desempenho, tambm so importantes em estudos de prontido dos jovens alunos para o acesso ensino regular em um idioma diferente do seu lngua de herana . Uma pesquisa recente envolvendo alunos de Ingls como segunda lngua ou segunda ( EAL / ESL) beneficiou de trabalho na dcada de 1980 (por exemplo, Stansfield , 1981; Cummins, 1984a , 1984b ; Barrs et ah , 1988; Trueba , 1989) que o problematizada uso de testes padronizados que foram normalizados em alunos monolnges de Ingls . As consideraes de equidade

eles levantaram , particularmente o diagnstico falso positivo de alunos EAL / ESL como tendo aprendizagem deficincia , resultou no desenvolvimento de EAL / ESL aluno "perfis" (tambm chamados de padres / benchmarks / escalas) ( ver NLLIA , 1993; australiano Conselho de Educao , 1994; TESOL , 1998). pesquisa tambm tem focado na prestao de orientao para professores quando Monitorizao e reporte do aluno progresso ( ver McKay & Scarino , 1991; Genesee & Hamayan , 1994; Law & Eckes , 1995). Curriculumbased tarefas de nvel de idade tambm foram desenvolvidos para ajudar os professores a observar de desempenho e colocar os alunos relativa a um quadro / padro comum ( Lumley et ah , 1993) . No entanto , estas indicaes , embora produtiva , ainda no foi problemtica , at porque eles implica (e de fato encorajar ) a avaliao diferencial para os alunos EAL / ESL em ordem para o indivduo necessidades dos alunos a ser identificadas e tratadas . este pode resultar em tenso entre as preocupaes do sistema educacional para facilitar a administrao, aparncias da equidade e prestao de contas e as de professores de apoio no ensino e aprendizagem (ver Brindley , 1995) . De fato , Austrlia e Inglaterra e Pas de Gales j apresentaram testes padronizados para todos os alunos , independentemente do fundo linguagem. Os dois ltimos pases so supostamente seguinte uma poltica de direitos para todos, mas , como McKay (2000 ) argumenta , seus motivos so muito mais propensos a ser para simplificar / racionalizar relatrios , a fim de fazer comparaes entre as escolas e sobre os quais predicar financiamento. Alm disso , e um pouco paradoxalmente, como Leung e Teasdale (1996) tm estabelecida, o uso de metas de cumprimento padronizados no resulta em um tratamento mais equitativo dos alunos , porque os professores implicitamente aplicar nativo - falante normas em juzos de EAL / ESL aluno performances . Ultimamente , a pesquisa concentrou-se em em sala de aula avaliao dos professores , procurando , no caso de Rea Dickins e Gardner (2000 ) , nas construes subjacente avaliao formativa e sumativa e, no caso de Teasdale e Leung (2000 ) , no epistmica e desafios prticos de avaliao alternativa. A concluso de ambos os estudos substituindo que " investigao insuficiente tem sido feito para estabelecer o que, eventualmente , elementos de avaliao para a aprendizagem e avaliao como medio so compatveis ' ( Teasdale E Leung , 2000: 180 ) , sem dvida, uma preocupao partilhada pelos pesquisadores que estudam a introduo da avaliao de lnguas estrangeiras nas escolas primrias / elementares. Com efeito , a tendncia para introduzir uma lngua estrangeira ao nvel da escola primria tem resultou em um crescimento paralelo do interesse na forma como este

aprendizagem precoce pode ser avaliada . Esta pesquisa se concentra em ambos formativa ( por exemplo , Hasselgren , 1998; Gattullo , 2000; Hasselgren , 2000; Zangl , 2000) e sumativa avaliao ( Johnstone, 2000; Edelenbos & Vinje , 2000) e est principalmente preocupado com a forma como jovens competncias em lnguas estrangeiras dos alunos pode ser avaliada , com nfase em identificar o que os alunos podem fazer. Motivado em muitos casos, por uma necessidade de avaliar a eficcia dos programas de lngua (por exemplo, Carpenter et al , 1995; . Edelenbos & Vinje , 2000) , estes estudos documentam os desafios da concepo testes para jovens estudantes . Ao faz-lo eles citam , entre outros fatores : necessidade dos alunos para a fantasia e diverso , o efeito potencialmente nocivo de percepo "fracasso" na aprendizagem de lnguas futuro, a necessidade de criar tarefas que so adequadas ao desenvolvimento e comparveis para crianas de diferentes habilidades de linguagem que estudaram em programas diferentes escolas / idioma eo problema potencial inerente em tarefas que incentivar as crianas a interagir com um desconhecido adulto na situao de teste ( ver Carpenter et al , 1995; . Hasselgren , 1998,2000 ) Os estudos tambm refletir um desejo de compreender como os professores implementar avaliao ( Gatullo , 2000) , bem como uma necessidade de induzindo os professores nas prticas de avaliao em contextos onde no h tradio de avaliao ( Hasselgren , 1998) . Nos ltimos anos tambm tm visto um fenomenal aumento do nmero de linguagem comercial aulas para jovens estudantes com uma consequente mercado para a certificao do progresso. As mais recentes adies certificados disponveis so o Saxoncourt Testes forYoung Aprendizes de Ingls ( STYLE ) ( http://www.saxoncourt . com.br / publishing.htm ) e um conjunto de testes para alunos jovens desenvolvidos pela Universidade de Cambridge Examinations Syndicate local ( UCLES ) : Starters , Movers e Flyers ( http://www.cambridgeefl . org / exame / jovem / bg_yle.htm ) No desenvolvimento deste ltimo , o cognitivo desenvolvimento de jovens aprendizes tem sido supostamente tidas em conta e, embora os certificados so emitidos , estes se destinam a premiar jovens aprendizes para o que eles podem fazer. Ao adotar esta abordagem , espera-se que os testes sero utilizados para descobrir o que os alunos j sabem / aprenderam e para verificar se o ensino objectivos foram alcanados ( Wilson , 2001) . claro que , apesar da preferncia declarada para avaliao formativa baseada no professor, pesquisa recente na avaliao jovens aprendizes documenta um crescimento em avaliao formal e exemplifica de investigao em curso o movimento rumo a uma maior padronizao dos atividades de avaliao e medidas de realizao . Alm disso , a expanso da avaliao formal tem levou ao aumento da especificao das metas de idiomas

jovens aprendizes pode ser plausivelmente dever atingir e indica que a propagao da central especificada objetivos curriculares . Parece que o campo se moveu em frente na sua compreenso das necessidades de avaliao de jovens aprendizes ainda foi pressionado por volta econmico consideraes. O desafio na prxima dcada talvez mentir para enfrentar a tenso entre essas agendas concorrentes. Nesta primeira parte da reviso de duas partes da linguagem teste e avaliao , revisamos relativamente novas preocupaes em testes de linguagem , a partir com o relato de pesquisa em retroativo , e , em seguida, passar para discutir questes da tica e da poltica dos testes de linguagem e no desenvolvimento de normas para testes de linguagem . Depois de descrever as tendncias em testes em um nvel e desenvolvimentos nos exames nacionais para fins especficos , pesquisamos desenvolvimentos em testes baseados em computador antes de discutir auto-avaliao e avaliao alternativa. finalmente, revisaram a avaliao de jovens aprendizes. Na segunda parte desta reviso , para aparecer em abril 2002, descrevem os desenvolvimentos no que so, basicamente, preocupaes bastante tradicionais em testes de linguagem investigao , olhando para as grandes construes de linguagem ( leitura, audio , e assim por diante ) , mas , no contexto da uma nova abordagem para a validade e validao , s vezes conhecido como a abordagem Messick , ou constructo validao .