Você está na página 1de 30

Rumo a concepções mais acessíveis de inferência

estatística
Resumo. Há um caso convincente, com base na pesquisa em educação estatística, para
que os primeiros cursos em inferência estatística sejam sustentados por um caminho de
desenvolvimento em etapas. De preferência, ao longo de vários anos, os alunos devem
começar a trabalhar com formas precursoras de inferência estatística, muito mais cedo
do que agora. Um benefício colateral é oferecer aos alunos mais jovens maneiras mais
diretas e satisfatórias de responder a perguntas interessantes do mundo
real.  Discutimos as questões que estão envolvidas na formulação de versões
precursoras de inferência e, em seguida, apresentamos algumas propostas específicas e
altamente visuais. Elas se baseiam em novas maneiras de experimentar a variação da
amostragem e têm conexões intuitivas com os métodos formais padrão de fazer
inferências nos primeiros cursos universitários de estatística. Nossa proposta usa
comparações visuais para permitir que a etapa inferencial seja feita sem tirar os olhos
dos gráficos relevantes dos dados. Isso permite que o tempo e as distâncias conceituais
entre questões, dados e conclusões sejam minimizados, de modo que as ligações mais
críticas possam ser feitas. Nossa abordagem foi planejada para uso em escolas de
segundo grau, mas também é relevante para a educação de adultos e alguns cursos
introdutórios de terceiro grau.

1. Introdução
Este artigo trata do desenvolvimento em etapas das grandes ideias de inferência
estatística ao longo de um período de anos. Foi motivado pela necessidade dos autores
de tornar as ideias inferenciais acessíveis aos alunos de escolas da Nova Zelândia com
idade entre 14 e 17 anos, mas muito de sua discussão também é relevante para a
educação de adultos e cursos introdutórios de estatística em faculdades e
universidades. O público que mais desejamos envolver inclui estatísticos acadêmicos e
profissionais. Os outros públicos desejados para este artigo são pesquisadores em
educação estatística e professores. Nossa maior dificuldade em tentar envolver
estatísticos acadêmicos e profissionais em tópicos como esse é uma atitude comum que
diz: 'Não nos importamos com as coisas da escola'. Devemos confrontar isso antes de
prosseguirmos.

Já ouvimos muitas vezes estatísticos acadêmicos reclamarem que a estatística nas


escolas é mal ensinada, que a maioria dos professores de matemática tem pouco ou
nenhum treinamento em estatística e que as estatísticas ensinadas na escola
desestimulam os alunos. 'Qual é o ponto? De qualquer forma, tudo tem que ser refeito
do zero na universidade. As escolas deveriam se concentrar apenas em estabelecer bases
matemáticas sólidas sobre as quais possamos construir na universidade. ' Existem boas
razões pelas quais os estatísticos acadêmicos e profissionais deveriam se preocupar
profundamente em incluir mais e melhores estatísticas nos currículos escolares. A
mudança está em andamento e grandes desenvolvimentos curriculares estão em
andamento em muitos países. Não estamos falando sobre continuar ‘business as usual’.
O que os estatísticos deveriam estar fortemente envolvidos é em recriar o que poderia
ser um curso de estatística escolar mais interessante e valioso.

Por que os estatísticos deveriam se preocupar? Em primeiro lugar, existe o valor


inerente, mas pouco explorado, de nosso produto. Há um tesouro de lições de
habilidades para a vida dentro das estatísticas de valor na vida futura dos alunos,
independentemente do que eles acabem fazendo. Em segundo lugar, há perigos para a
sociedade no fato de os estatísticos não se engajarem. Pode algum estatístico realmente
acreditar que é desejável que a sociedade e seus tomadores de decisão sejam formados
por pessoas cujas mentes foram condicionadas por anos de determinismo implacável e
que não têm facilidade no pensamento estocástico e nenhuma avaliação de seus
benefícios? Terceiro, existe o futuro da disciplina. Os programas de pós-graduação em
estatística tradicionalmente contam com a conversão de pessoas que começaram nos
programas de graduação em matemática. O declínio do número de inscritos em
programas de matemática em muitos países significa que não se pode mais confiar nessa
estratégia. Devemos desenvolver interesse em estatísticas antes que os alunos decidam
em que se formar na universidade. Na maioria das jurisdições, isso significa que
devemos desenvolver o interesse pelas estatísticas enquanto os alunos ainda estão na
escola. Se não fizermos isso, devemos de alguma forma chamar a atenção de alguém
que não tem consciência do que as estatísticas têm a oferecer, e que provavelmente já
está planejando ir para outra área, e então reverter essa decisão a nosso favor. Não
mostramos nenhum talento particular para tais conversões no passado, então por que
apostaríamos o futuro de nossa disciplina em um tiro tão improvável?

A tecnologia oferece possibilidades empolgantes para mudar o panorama da educação


estatística nas escolas de maneiras que podem torná-la irreconhecível. As inspiradoras
palestras 'Tecnologia, entretenimento, design' de Hans Rosling (disponíveis
em http://www.ted.com/ ), nas quais histórias complexas envolvendo dados
multidimensionais foram tornadas acessíveis a um público geral por meio de gráficos
inteligentes, deixou isso bem claro. Na mesma linha, o trabalho realizado no SMART
Center of Durham University ( Ridgway et al. , 2007a, b) mostra que, com ferramentas
de visualização adequadas, adolescentes comuns podem descobrir e compreender
padrões que envolvem interações em dados quadridimensionais. Para o ensino de
estatística, a tecnologia é a virada de jogo definitiva. Suas maiores implicações
pedagógicas vêm do fato de que nos permite conceituar, de maneiras que antes não
estavam disponíveis, potencialmente fornecendo acesso a conceitos em estágios muito
anteriores de desenvolvimento. Com abordagens criativas, as estatísticas de nível
escolar podem se tornar muito mais ambiciosas, estimulantes e úteis. Determinar como
uma paisagem mudada poderia ser, no entanto, exigirá o engajamento criativo da
academia e da profissão. Embora existam núcleos de verdade por trás das objeções que
alguns estatísticos acadêmicos levantam sobre as estatísticas de nível escolar, essas
verdades são simplesmente evidências de que existem dificuldades que exigirão uma
grande quantidade de criatividade para serem superadas, que precisamos de mais e mais
envolvimento de mais e melhores pensadores. As dificuldades não devem ser tomadas
como justificativa para o abandono do campo de batalha.

Em um artigo lido na Royal Statistical Society, Holmes (2003) brilhantemente narrou a


história do ensino de estatística nas escolas inglesas e extraiu lições importantes a serem
aprendidas com isso. O principal interesse de Holmes estava na jornada em direção à
estatística como uma matéria prática ensinada em contextos práticos para uso prático,
para usar algumas de suas frases recorrentes. Esta é a estatística ensinada para permitir
que os alunos entendam melhor o mundo real em que vivem, e mais cedo ou mais tarde,
em contraste com uma empresa rarefeita que simplesmente estabelece blocos de
construção matemáticos para uso futuro. Um relatório presciente de um comitê da Royal
Statistical Society presidido por ES Pearson ( Royal Statistical Society, 1952) foi um
marco inicial importante nesta jornada. Infelizmente, foi necessário esperar quase 30
anos para qualquer implementação séria por meio do Projeto do Conselho de Escolas
sobre Educação Estatística (1975-1980), que foi liderado pelo próprio Peter Holmes. O
Projeto do Conselho de Escolas, por sua vez, ajudou a informar o influente Projeto de
Alfabetização Quantitativa da American Statistical Association da década de 1980, que
foi um divisor de águas para desenvolvimentos paralelos nos EUA (RL Scheaffer,
comunicação pessoal; ver também Scheaffer (1990)). O relatório do Statistics Focus
Group patrocinado pelo Projeto de Ação Curricular da Associação Matemática da
América em 1991 foi similarmente um divisor de águas para desenvolvimentos
relacionados a cursos introdutórios em universidades. O principal impulso das
recomendações do Focus Group sobreviveu para formar a base das seis recomendações
que foram concretizadas no relatório da faculdade de 2005 'Diretrizes para avaliação e
instrução em educação estatística' (GAISE) da American Statistical Association, a
saber: enfatizar a alfabetização estatística e desenvolver pensamento estatístico; usar
dados reais; enfatizar a compreensão conceitual em vez de mero conhecimento de
procedimentos; fomentar (promover) a aprendizagem ativa na sala de aula; usar
tecnologia para desenvolver compreensão conceitual e análise de dados; e usar
avaliações para melhorar e avaliar a aprendizagem dos alunos. Esses sentimentos
também permeiam o relatório GAISE pré-K-12 (Franklin et al., 2007). Ambos os
relatórios estão disponíveis em http://www.amstat.org/education/gaise/. Vemos nossos
desenvolvimentos como próximos passos nessa mesma jornada.

As realidades atuais estão muito aquém das metas valiosas que foram desenvolvidas na
Royal Statistical Society e na American Statistical Association. As estatísticas de nível
escolar para a maior parte dos alunos sofreram e estagnaram por muitos anos sob uma
mentalidade computacional pejorativamente denominada 'modo mediano médio' e a
síndrome de 'construir um gráfico' ( Friel et al. , 2006 ). Isso foi ainda agravado pela
'univariatite' ( Shaughnessy, 1997 ; Wild, 2006 ) e um foco na construção das
ferramentas de estatística ao invés de processos de raciocínio estatístico, resultando em
uma disciplina que é percebida por muitos alunos e professores como enfadonha com
pouca substância intelectual ( Ridgway et al. , 2007a). Frequentemente, a estatística
descritiva tem sido a única dieta para alunos até o penúltimo ano do ensino médio,
seguida por uma tentativa de forçar a inferência estatística, com seus fundamentos
matemáticos, conceitos e raciocínio no último ano. Não foi totalmente assim em todos
os momentos em todos os lugares, mas esta tem sido a tendência geral além de 'um oásis
criativo ocasional em um deserto em grande parte vazio' (adaptando Scheaffer (2002) ).

O aumento do uso de dados reais abordando problemas interessantes e conjuntos de


dados multivariados que permitem que os próprios alunos apresentem diferenças
interessantes e outras relações a serem investigadas são novas tendências importantes. A
promoção do envolvimento do aluno na exploração de dados como um 'detetive de
dados' (análise exploratória de dados) é um desenvolvimento extremamente positivo no
ensino de estatística que elimina parcialmente os problemas acima. Dentro dele,
entretanto, estão as sementes de um novo problema. Ao investigar questões
interessantes, as relações vistas nos dados levam naturalmente a querer tirar conclusões
que se aplicam a um universo além dos dados. Colocado de forma mais concisa, os
dados que abordam questões motivacionalmente atraentes imploram por
inferências. Impedir a extrapolação inferencial faz com que todo o exercício estatístico
pareça inútil. Mas, embora bons dados e boas perguntas façam os alunos quererem fazer
afirmações inferenciais, eles atualmente não têm bases racionais sobre as quais fazer
isso até que finalmente encontrem inferência formal. Além disso, a pesquisa sobre
'inferência informal' que foi revisada em Wild et al.  (2010) mostra que os alunos
tendem a apreendê-la de maneiras incoerentes. Quando os alunos fazem afirmações,
eles, e muitas vezes os professores, não têm uma ideia clara se se referem aos dados ou
à população parental. Além disso, a pesquisa sugere fortemente (por
exemplo, Chance et al. (2004)) que um grande número de alunos não consegue
compreender a inferência estatística formal quando a encontra na escola ou no nível
universitário introdutório, e que continuará a fazê-lo, a menos que seja feito um trabalho
muito melhor de estabelecer as bases conceituais essenciais durante um período de anos
antes que qualquer tentativa de ensinar inferência formal seja feita. Caso contrário,
simplesmente haverá muitas ideias para serem compreendidas e interligadas de uma só
vez.
O trabalho sobre inferência informal está em andamento na comunidade de pesquisa em
educação estatística, como resultado da série de raciocínio estatístico, pensamento e
alfabetização de fóruns de pesquisa internacionais bienais iniciados por Joan Garfield e
Dani Ben ‐ Zvi em 1999. Inicialmente, os fóruns abordaram diferentes tipos de
raciocínio estatístico, mas os pesquisadores do fórum de 2005 chegaram a um consenso
de que os alunos deveriam aprender a fazer inferências, inicialmente de maneira
informal. Consequentemente, o quinto fórum em 2007 foi focado na inferência
estatística informal (ver, por exemplo, os artigos de Pratt e Ainley, Rossman, Pratt et
al. , Zieffler et al. , Watson, Paparistodemou e Meletiou-Mavrotheris, Beyth-Marom et
al. e Bakker et al.no volume 7, número 2, 2008, do Statistics Education Research
Journal ( http://www.stat.auckland.ac.nz/serj ) e por Makar e Rubin no
volume 8, número 1, 2009). Konold e Kazak (2008) comentaram que o
reconhecimento de que os alunos precisam de um entendimento mais profundo da
inferência é um movimento em direção à aceitação de que o acaso ou o comportamento
de amostragem devem ser abordados. Também é digno de nota, tendo em vista os
desenvolvimentos deste artigo, que o fórum de 2011 se concentrará em novas
abordagens para desenvolver o raciocínio sobre amostras e amostragem no contexto de
inferência estatística informal. Para uma revisão desta literatura e alguns de seus
antecedentes, consulte Wild et al.  (2010) .

Nosso próprio desafio, que se tornou urgente pelas demandas da implantação iminente
do novo currículo de estatística na Nova Zelândia, tem sido o de conceber versões mais
simples de inferência estatística de uma forma que estabeleça bases conceituais sólidas
sobre as quais construir uma inferência mais formal a longo prazo, enquanto fornece aos
alunos ferramentas inferenciais simples, com propriedades operacionais razoáveis, que
eles podem usar imediatamente. Além disso, queríamos que os conceitos fossem
construídos de forma encenada ao longo de vários anos, para que houvesse tempo de
serem revisitados várias vezes para começarem a funcionar corretamente.

O restante deste artigo não tenta abordar aspectos gerais da estatística, sobre o que deve
ser ensinado e quando, nem para ilustrar a análise exploratória de dados com dados
reais. Trata-se de experiências educacionais que visam especificamente a inferência
estatística e, dentro desse contexto, o desenvolvimento de esquemas conceituais
integrados e ferramentas que ajudarão os alunos a fazer inferências quando eles estão
explorando dados reais e interessantes.

2. Objetivos e princípios pedagógicos


2.1. Preliminares
'A inferência estatística vai além dos dados em mãos para tirar conclusões sobre algum
universo mais amplo, levando em consideração que a variação está em toda parte e as
conclusões são incertas' ( Moore (2007) , página xxviii).

Como é convencional em estatística, empregamos o termo 'inferência estatística' para


nos referir ao território que é tratado por intervalos de confiança, valores críticos, p‐
Valores e distribuições posteriores. Ela aborda um tipo particular de incerteza, a saber,
aquela causada por ter dados de amostras aleatórias, em vez de ter um conhecimento
completo de populações, processos ou distribuições inteiras. Adicionaremos
considerações sobre a atribuição aleatória mais tarde. Não aborda questões de desenho e
execução do estudo, qualidade dos dados, relevância dos dados, importância prática e
assim por diante, embora devamos prestar atenção a todos esses elementos para
empregar a inferência estatística de forma produtiva no mundo real. Este artigo
concentra-se simplesmente na construção das ideias de inferência estatística em seu
sentido convencional. E, como o foco está na construção de um determinado conjunto
de conceitos que se mostraram um verdadeiro desafio no passado, devemos proceder de
forma a reduzir as distrações concorrentes.

Uma série de discussões a seguir referem-se à Fig. 1 , que exibe dados sobre as alturas
de uma amostra de 30 meninos e de uma amostra de 30 meninas de 12 anos retirados do
banco de dados CensusAtSchool New Zealand. Esta exibição de dados combina um
boxplot e um gráfico de pontos por razões que são fornecidas na Seção 2.6. A
motivação para comparar as alturas de meninos e meninas nessa idade é o folclore do
professor que diz que, por amadurecer mais cedo, as meninas tendem a ser mais altas do
que os meninos por um curto período de tempo por volta dessa idade. A altura média
para meninas de 12 anos em nosso banco de dados é 1 cm maior do que para
meninos. Isso não é detectável mesmo com amostras bastante grandes. O efeito aparente
em amostras de tamanho 30 tem meninos mais altos do que meninas em quase 50% das
amostras coletadas. Também podemos alcançar algo muito parecido com isso
comparando as alturas de amostras de meninas de 13 e 14 anos, por exemplo, onde
frequentemente a amostra de meninas mais novas parecerá mais alta, em média. Isso
pode ser útil para criar uma assim chamada dissonância cognitiva entre o que os alunos
veem em seus dados e o que eles sabem ser verdade, explorando isso como uma
motivação para inferência.
figura 1 Comparando as alturas de meninos e meninas aos 12 anos

2.2. Metas
Queremos chegar a concepções de inferência estatística que sejam acessíveis à maioria
dos alunos e não apenas a uma elite intelectual . Precisamos nos basear no que sabemos
da pesquisa sobre o raciocínio intuitivo dos alunos. Como a maioria dos alunos não é
adepta da abstração, devemos tentar manter tudo o que fazemos o mais concreto
possível. Por "concreto" queremos dizer que está intimamente ligado a experiências
físicas reais, ou a ideias e representações simples que já são bem compreendidas pela
vasta maioria dos alunos. Precisamos identificar um conjunto mínimo das maiores
ideias de inferência estatística e integrar a inferência para iniciantes dentro de uma
visão holística do ciclo investigativo ( Wild e Pfannkuch (1999) , seção 2). Por que
precisamos de um conjunto mínimo de grandes ideias?: simplesmente porque os alunos
não conseguem resolver muitos problemas simultaneamente. Para iniciantes, devemos
nos restringir a tentar fazer apenas aquelas poucas conexões conceituais que mais
importam. Para fazer isso, devemos reduzir a desordem mental e a separação de tempo
entre as coisas que mais queremos conectar, evitar as distrações de questões
concorrentes que levam à sobrecarga cognitiva e eliminar o 'trabalho agitado' (ver Wild
(2007) , seção 2 , para discussão e referências).

Nossa abordagem básica consiste em colocar uma imagem aproximada grande com
segurança no lugar inicialmente e então, ao longo de um período de anos, refinar
iterativamente os detalhes, adicionar sutilezas e até mesmo fazer correções. Os alunos
estão bastante acostumados com esta estratégia, uma vez que é amplamente utilizada na
ciência para construir gradualmente concepções de realidades complexas. Isso se
encaixa com a estratégia proposta no relatório GAISE, que se baseia nos conceitos de
variabilidade nos níveis A, B e C, como parte de um processo de desenvolvimento que
se baseia na alfabetização estatística, não na idade ( Franklin et al. (2007 ), página
13). O nível B destina-se a ajudar os alunos a 'interpretar os resultados visando a
inferência para uma população' (página 58), enquanto o nível C começa a descrever
como tirar conclusões dos dados.
Embora a motivação e a construção de ideias inferenciais levem um tempo
considerável, queremos que esse desenvolvimento leve a uma implementação na qual o
equivalente a uma decisão de significância estatística possa ser tomada com extrema
rapidez. Acreditamos que, no contexto de uma investigação particular que um aluno está
fazendo, a mecânica da etapa inferencial não deve ser exigente . Sempre que os alunos
têm que lutar com detalhes de implementação, o quadro geral se perde ( Cobb (1997),
página 80), levando consigo qualquer consciência de por que estão fazendo o que estão
fazendo e o que tudo isso significa depois de terminar. Idealmente, complementando
experiências detalhadas mais lentas, como trabalho de projeto, queremos que os alunos
sejam capazes de ter muitas experiências em que possam fazer uma pergunta, obter os
dados, obter os gráficos, fazer comentários descritivos e conjecturas inferenciais, fazer
uma conexão sobre algo como a direção de uma diferença de grupo e escrever toda a
história - tudo dentro de um período de aula de uma hora. Os alunos precisam de
experiências repetidas nas quais todos esses grandes passos possam ser realizados em
um período de tempo muito curto para que o quadro geral seja visto como um todo e
para que as conexões entre seus elementos principais sejam feitas com força. Tal
abordagem também enfatiza que a etapa de inferência não é "do que se trata a
estatística", mas uma pequena etapa em um conjunto muito maior, mais profundo e mais
rico de atividades estatísticas focadas em dar sentido ao mundo.

Nosso ideal é uma abordagem totalmente visual apoiada (ver Pfannkuch et al. (2010) )


por uma linguagem que reforça e comunica a essência do que está sendo visto,
experimentado e pensado. Nossa abordagem visual tentará minimizar as distâncias
conceituais entre as realidades concretas, incluindo experiências práticas precursoras, e
as imagens dinâmicas previstas. Nosso ideal, além disso, tem a etapa inferencial capaz
de ser realizada sem que os alunos tirem os olhos de seus gráficos de modo que as
conexões entre pergunta, dados e respostas sejam mantidas o mais imediatas e óbvias
possível. Na pior das hipóteses, queremos que qualquer processamento estatístico "fora
do gráfico" seja reduzido a um mínimo absoluto. Acreditamos que quaisquer diretrizes
inferenciais propostas devem ter propriedades operacionais razoáveis em amostragem
repetida. E, como nosso objetivo é desenvolver um caminho para a inferência formal,
segue-se que as concepções a que se chega devem ter conexões intuitivas com os
métodos mais formais a serem usados posteriormente .

Em suma:

a) devemos trabalhar a partir de um conjunto mínimo das maiores ideias de


inferência estatística;
b) a mecânica da etapa inferencial não deve ser exigente;
c) as inferências devem poder ser realizadas sem que os alunos tirem os olhos dos
gráficos;
d) os métodos devem ter conexões com os métodos mais formais a serem usados
posteriormente.

Assumimos um estágio de desenvolvimento em que as ideias básicas do centro já foram


estabelecidas e os alunos já experimentaram os gráficos de pontos e boxplots.

2.3. Descrição versus inferência


Não podemos construir inferência estatística sem primeiro construir uma apreciação da
amostra versus população, da descrição versus inferência e das características das
amostras, dando-nos estimativas das características das populações. Em relação à
amostra versus população, a concepção mais geralmente útil da distribuição que é
gerada por um processo, ao invés da população, é provavelmente muito sutil para
iniciantes ( Wild, 2006 ). Adaptando a analogia de Pratt et al.  (2008) de dois jogos
sendo jogados nas estatísticas, também precisamos começar com uma distinção clara
entre quando estamos jogando o jogo de descrição e quando estamos jogando o  jogo de
inferência. Quase qualquer pessoa com algum treinamento estatístico, ao olhar para
gráficos como a Fig. 1 , se perguntará 'Essas duas coisas são diferentes?'. Ao fazer isso,
eles estão pulando direto para a inferência. De volta ao jogo de descrição, a resposta à
pergunta é claramente óbvia. É claro que eles são diferentes e diferentes em uma
miríade de maneiras, mesmo que às vezes possam parecer muito semelhantes no
geral. 'Que jogo estou jogando atualmente?' é muito importante porque jogos diferentes
têm objetivos e regras diferentes.

2.4. Variação da amostragem: a razão de ser da


inferência estatística
Embora esses elementos forneçam alguns dos antecedentes necessários para a
inferência, o elemento crítico - o elemento que a inferência estatística foi desenvolvida
para confrontar - é a variação da amostragem. Assim, qualquer abordagem conceitual
para inferência estatística deve fluir de alguns entendimentos essenciais sobre a natureza
e o comportamento da variação da amostragem.

A conotação da língua inglesa de 'variação de amostragem' é a ideia de que vemos algo


diferente cada vez que fazemos uma nova amostra. Em outras palavras, sugere
diferenças de amostra para amostra, em vez do fato de que as amostras deturpam suas
populações parentais em maior ou menor grau. Quando fazemos inferências, estamos
tentando permitir a incerteza devido ao fato de termos dados de uma amostra, em vez de
termos toda a população (ou processo ou distribuição). Mas obtemos nossa imagem da
extensão em que os dados da amostra tendem a representar e deturpar uma população
parental, olhando para as propriedades das características dos dados (por exemplo,
médias) ao longo da coleta repetida de amostras, ou seja, investigando os padrões de
variação da amostragem. A frase 'incerteza devido à variação de amostragem' é na
verdade um código para incerteza devido ao fato de termos amostrado, onde o grau de
incerteza que devemos permitir é estimado usando lições aprendidas com o estudo de
padrões de variação de amostragem.

A pesquisa mostrou (ver Chance et al. (2004) e Makar e Confrey (2004) ) que as


experiências que temos dado de amostragem de variação de meios, incluindo animações
de computador, são muito difíceis de entender. É virtualmente impossível fazer com que
os alunos os invoquem de forma confiável ao olhar para algo como a Fig. 1 . Isso levou
alguns a sugerir que a variação da amostragem é muito difícil de ensinar para
iniciantes. No entanto, no contexto de uma sala de aula onde cada aluno obtém sua
própria amostra pessoal de uma determinada população, é óbvio para todos os
envolvidos que todos obterão gráficos diferentes. Portanto, não é a ideia de variação de
amostragem em si que é difícil de entender. Os problemas que até agora se mostraram
intratáveis são os problemas de construir nos alunos uma propensão confiável para
invocar as ideias de variação de amostragem sempre que olham para algo como a Fig.
1 .

2.5. O que pertence a outros conjuntos de experiências e


o que podemos deixar para depois?
O que podemos eliminar para que as maiores questões abordadas pela inferência
estatística fiquem expostas? Uma vez que a inferência estatística (usada em seu sentido
convencional) é projetada para lidar com incertezas sobre o verdadeiro estado da
natureza devido à variação de amostragem, acreditamos que as experiências que são
projetadas para construir e cimentar as ideias de inferência estatística devem se
concentrar apenas na variação de amostragem . Outros tipos de variação (ver seção
3 de Wild e Pfannkuch (1999)), como erros de medição 'aleatórios', embora
estatisticamente indistinguíveis em alguns modelos importantes, são complicações
injustificadas. Questões de 'Estou medindo a coisa certa?' são muito diferentes mais uma
vez e, juntamente com erros não amostrais e questões de relevância e qualidade dos
dados, pertencem a módulos de aprendizagem complementares nos quais o foco
principal é o planejamento e a crítica de investigações e não a introdução de ideias de
inferência estatística. As questões de experimento versus estudo observacional, ou
causalidade versus associação, embora de importância crucial, são suficientemente
tangenciais às preocupações da inferência estatística formal que devem ser abordadas
separadamente. Questões de inferência em exploratório versus configurações de
confirmação estão diretamente relacionadas, mas são enfeites para muito mais tarde no
desenvolvimento do aluno. A verificação das suposições é importante para a inferência
formal, mas, uma vez que nenhuma suposição distributiva é feita explicitamente em
nossas formas precursoras de inferência, a verificação das suposições também cai na
categoria de enfeites futuros. Qualquer distinção entre significância prática e estatística
também deve ser adiada. Tentar fazer tudo de uma vez cria confusão e, logicamente,
essa distinção só pode ser feita para quem já sabe algo sobre o que é significância
estatística.

Em pesquisas relatadas sobre inferência informal, as experiências de ensino envolvendo


raciocínio sobre diferenças nos centros muitas vezes se basearam no conhecimento da
matéria do contexto ( Watson, 2008 ), criando mais uma complicação para o que os
alunos estão fazendo com descrição e inferência. A maneira como fazemos inferências
estatísticas formais baseia-se apenas em padrões de dados. A crítica da plausibilidade de
uma inferência baseia-se no conhecimento externo do contexto, assim como qualquer
consideração da importância prática das diferenças vistas. Mas não devemos colocar
todas essas coisas na mistura muito cedo. Nossas propostas para inferência informal se
basearão apenas em padrões de dados.

Voltemos à Figura 1 e à pergunta 'Eles são diferentes?'. É a pergunta que todo mundo
que fez um curso de estatística de nível superior aprende a fazer. Quando solicitado, no
entanto, todo estatístico reconhece que geralmente não é uma pergunta significativa. Em
termos de populações, não faz sentido algum. É claro que eles serão diferentes se
medidos com precisão suficiente. Por que nós sempre esperamos que as médias de
diferentes populações sejam exatamente as mesmas? Claro que um será maior que o
outro. As perguntas que fazem sentido são 'Qual é o maior?' e 'Quanto maior?'. Para ser
justo, 'eles são diferentes' faz muito mais sentido em um experimento aleatório, onde
pode ser pelo menos plausível que uma intervenção experimental não faça nenhuma
diferença para o resultado em estudo - embora quem faria o estudo sem uma forte
suspeita de uma diferença real?

Então, por que todo mundo é ensinado a se limitar a esta questão de "eles são
diferentes?" e a formular hipóteses 'não há diferença?’ Em grande parte, tem sido um
dispositivo que nos permite calcular (ou estimar) probabilidades e produzir uma medida
de incerteza numérica. Infelizmente, 'suponha que não haja diferença, calcule e então
interprete algo como um p-valor ' não é um modo de pensar que vem naturalmente para
as pessoas. Ao contrário, é como olhar para o mundo de ponta-cabeça (para uma
discussão sobre as dificuldades dos alunos, consulte as seções 5–7 de Rossman
(2008) e Cobb e Moore (1997) , seção 3.5 ). Essas considerações nos levaram a tentar
eliminar ' pensar sob o nulo ' de nossas experiências iniciais de inferência . Onde não
podemos fazer uma conexão para o que é maior porque não temos certeza da direção
dos padrões da população, dizemos 'Está muito perto para ligar: não consigo saber qual
é o maior'. Em contraste, o uso dos termos diferença ou igual incentiva os alunos, e
muitas vezes seus professores, a fazer afirmações equivocadas de que duas populações
são iguais (aceitando o nulo).

2.6. Em fundações de concreto


As propostas que fazemos na Seção 3 são apresentadas em termos de amostragem de
populações. Elas dependem de boxplots que fornecem uma ponte entre o raciocínio
inteiramente de gráficos para o raciocínio de resumos em formas que convergem,
qualitativamente, para o teste t de duas amostras. Elas são motivadas pelo uso de
concepções particulares de variação de amostragem transmitidas por meio de novas
formas de animação por computador. Em todos os lugares ao longo dessa jornada, há o
perigo de os alunos se perderem em abstrações mistificadoras. Portanto, em todos os
estágios, precisamos maximizar as ligações com realidades concretas e, em seguida,
com coisas que podem ser facilmente vistas em gráficos. Nosso foco neste artigo está no
fluxo conceitual, não nos detalhes da implementação em sala de aula. Nosso grupo
também tem trabalhado em implementações de sala de aula que enfatizam a
aprendizagem por descoberta, mas isso será relatado em outro lugar (o primeiro artigo
desse tipo é Arnold e Pfannkuch (2010) ).

Começamos com a amostragem de populações finitas, como os alunos nos bancos de


dados do CensusAtSchool New Zealand
(http://www.censusatschool.org.nz/). Isso é muito mais concreto para
iniciantes do que ter que imaginar uma população conceitual ou dados sendo gerados
por um processo. É incomensuravelmente mais concreto do que amostrar a partir de
distribuições teóricas como a distribuição normal. Isso não nos impede de aplicar os
métodos obtidos para lidar com a incerteza a uma faixa mais ampla de dados do que os
dados de população finita, mas o fluxo de ideias inferenciais é desenvolvido neste
contexto simples.

Muitos equívocos e erros na interpretação das estatísticas de resumo surgem porque as


estatísticas de resumo são introduzidas em termos de algoritmos e apresentadas
divorciadas de seu papel como recursos de resumo de distribuições. Podemos continuar
lembrando os alunos dos dados e distribuições que as estatísticas resumidas resumem,
apresentando-os continuamente como anotações de gráficos de pontos simples de dados.

As formas de resumo que se relacionam da forma mais visualmente óbvia com os


pontos representados em um gráfico de pontos são a mediana, os quartis e os extremos -
em outras palavras, os ingredientes do boxplot básico. É muito fácil estimar e desenhar
um boxplot à mão no topo de um gráfico de pontos e, de fato, fazer isso é
provavelmente a melhor maneira de obter uma apreciação do que realmente é um
boxplot. O box plot fornece uma ponte natural entre operar inteiramente em termos do
que é visto nos gráficos e raciocinar usando resumos. Em configurações de análise de
dados, sempre apresentamos boxplots para iniciantes em conjunto com os gráficos de
pontos subjacentes porque o boxplot isoladamente é uma entidade muito abstrata. A
retenção dos pontos, como feito na Fig. 1, fornece um lembrete de que o boxplot está
apenas resumindo os dados brutos, preservando assim uma conexão com bases mais
concretas.

Os desenvolvimentos que são propostos na Seção 3 são construídos a partir de


concepções particulares de variação de amostragem construídas por meio de gráficos
animados baseados em simulação por computador. Esta é a única maneira viável de
demonstrar os efeitos da variação da amostragem com um grande número de
repetições. Usadas sozinhas, a simulação e as animações resultantes podem ser apenas
mágica de computador - não apenas irreal e não convincente, mas muitas vezes nem
mesmo compreendida (ver Wild (2007) ). Chance e Rossman (2006) enfatizaram a
importância de começar com simulações físicas práticas que depois se tornam
automatizadas usando simulações de computador como um meio de garantir que os
alunos entendam completamente o que uma animação por computador está
fazendo. Nosso trabalho de implementação em sala de aula incorpora esta estratégia
(Arnold e Pfannkuch, 2010).

3. Uma proposta para as primeiras formas de


inferência
3.1. Uma metáfora motivacional
Nossa metáfora de configuração de cenário para inferência estatística começa com a
ideia de que olhar o mundo usando dados é como olhar através de uma janela com
ondulações no vidro ( Fig. 2) 'O que vejo em meus dados não é bem a forma como
realmente é nas populações de onde eles vêm.' Essa ideia fundamental deve ser
internalizada antes que a inferência estatística possa fazer sentido. Os padrões a serem
vistos nos dados são versões distorcidas dos padrões que estão presentes nas populações
ou processos de onde eles vêm. Às vezes, as distorções podem até ser tão grandes que
os padrões que pensamos ver são apenas artefatos causados pelas ondulações no
vidro. Para fazer inferências a partir dos dados, precisamos avaliar como essas
distorções surgem, quando provavelmente serão grandes e quando provavelmente serão
pequenas. Onde os iniciantes estão engajados em um módulo que é focado na inferência
estatística, nós limitamos a atenção às distorções que são produzidas pelo ato de
amostragem e variação da amostragem ( Fig. 3).
Figura 2 'O que eu vejo não é bem do jeito que realmente é'

Figura 3 Distorções devido à amostragem

Usando experiências físicas com amostragem e variação de amostragem que levam a


experiências de animação por computador, procuramos construir a apreciação ( Fig. 4 )
de que com pequenas amostras podemos obter grandes distorções (cf. vidro muito
ondulado), mas com grandes amostras obtemos apenas pequenas distorções (cf. vidro
ligeiramente ondulado). As Figs 2–4 são metáforas gerais para inferência estatística.

Figura 4 Distorções relacionadas ao tamanho da amostra

3.2. Uma nova abordagem visual para variação de


amostragem
A próxima etapa é vincular gráficos como a Fig. 1 a representações de variação de
amostragem que ocupam o mesmo espaço visual que os gráficos de destino usando
animações de computador. O movimento fornece um meio poderoso de exibir a
natureza da variação. Também chama a atenção, fato que os produtores de anúncios
online estão explorando cada vez mais. Porque a experiência de uma animação é
impossível de transmitir em um jornal estático, jornal impresso, uma página da Web foi
criada em http://www.censusatschool.org.nz/2009/informal‐
inference/WPRH/ contendo todas as animações que são descritas neste
artigo. Faremos também o nosso melhor para transmitir as ideias principais
verbalmente.

Simplesmente animar o processo repetido de amostragem e exibição, exibindo


brevemente cada par de amostras sequencialmente, é uma excelente primeira etapa
(consulte os painéis 1 (a), 1 (b) e 2 (a) da página da Web). Essas animações mostram
claramente a variação nos centros, propagações etc., conforme pegamos novas amostras,
e o efeito do tamanho da amostra sobre esses recursos (consulte os painéis 1 (b) e 2 (b)
da página da Web). No entanto, os quadros de tal animação não retêm nenhuma
memória do que aconteceu antes e, portanto, não deixam uma impressão duradoura da
extensão da variabilidade. Em nossas animações de acompanhamento, todos os boxplots
que são vistos ao longo do tempo deixam 'pegadas' com o enredo mais recente
sobreposto ao conjunto de pegadas. Usamos cores para distinguir entre as caixas atuais e
históricas, e a mediana versus o resto da caixa.

O que se acumula com o tempo são as imagens que se parecem com as da Fig.
5 (animadas no painel 3 (b) da página da Web). Na Fig. 5 , uma vez que a cor não está
disponível para nós, os boxplots do passado são cinza com as medianas impressas um
pouco mais escuras do que o resto da caixa. O que se acumula é uma imagem borrada
com a última caixa sobreposta, impressa em preto. Quando animada, a caixa preta
parece vibrar em posição (e largura) e deixa um registro da extensão da variação de
amostragem nas medianas e no resto da caixa. Os alunos devem ser levados a perceber
que, quando em uma investigação, eles coletam seus próprios dados e constroem seu
próprio conjunto de boxplots, o que eles possuem é o equivalente a um único quadro
deste filme. Notamos que embora o efeito do tamanho da amostra seja visível na Fig.
5 é transmitida de forma muito mais dramática pela Fig. 6 (ver também os painéis 1 (b)
e 2 (b) da página da Web). Recomendamos que o leitor acesse a página da Web porque
os efeitos de cor e movimento são os principais ingredientes dessas telas.
Figura 5 Boxplots com memória sobre amostragem repetida (animações
em http://www.censusatschool.org.nz/2009/informal‐
inference/WPRH/ , painel 3 (b))

Figura 6 Efeito do tamanho da amostra: amostragem de uma única população


(animações em http://www.censusatschool.org.nz/2009/informal‐
inference/WPRH/ , painel 2 (b))

Para lembrar aos alunos que as amostras estão sendo retiradas de populações, mantendo
a ênfase principal no que está acontecendo com as amostras (animadas), representamos
as populações na metade superior da Fig. 5 . No início da animação, um pouco antes de
as amostras começarem a aparecer, transformamos as populações em cinza para
empurrá-las para o fundo visual e rotulá-las de 'o mundo invisível'. Uma vez que o que
está acontecendo nas animações é compreendido, lembrar a variação de amostragem
com boxplots reduz a recordar os boxplots vibrantes como na Fig. 7 , junto com 'Eu
tenho que levar em consideração este tipo de incerteza sobre onde as verdadeiras caixas
estão quando eu fizer minhas comparações'. Este é um salto conceitual
consideravelmente menor do que conectar os boxplots na Fig. 1com representações
tradicionais do erro de amostragem da média. As representações tradicionais ocorrem
em uma dimensão visual totalmente separada dos gráficos de dados e, portanto, não têm
nenhuma conexão óbvia com os gráficos que os alunos estão tentando interpretar.
Figura 7 Hábito mental desejado (animação em
http://www.censusatschool.org.nz/2009/informal‐
inference/WPRH/ , parágrafo 1)

As animações mostram os efeitos do tamanho da amostra claramente (ver painéis 2 (a) e


2 (b) da página da Web). Além disso, quando amostramos meninas de 13 e 14 anos
como na Fig. 5 , todos sabem a direção da verdadeira diferença. Conforme avançamos
pelos filmes lentamente quadro a quadro, vemos que a direção da amostra da diferença é
frequentemente oposta à direção verdadeira quando temos amostras de tamanho
moderado, mas virtualmente nunca na direção errada quando temos amostras
grandes. As reversões de efeito em amostras de tamanho moderado podem ser usadas
para criar uma dissonância cognitiva entre o que os alunos veem nos gráficos dos dados
e o que sabem ser verdade sobre as alturas de crianças de 13 e 14 anos.

3.3. Fazendo a conexão e estimando tamanhos de efeito


Podemos concluir da Fig. 1 que as meninas tendem a ser mais altas do que os meninos
nas populações das quais fizemos a amostragem? Sabemos que as caixas que vemos não
estão exatamente nos lugares certos ('o que vejo não é bem como realmente é'). As
imagens de variação de amostragem, especialmente os boxplots vibrantes ( Figs 5 e 6 ),
experiências de amostras contando a história oposta do que realmente está acontecendo
nas populações, ou a história oposta à trama de um aluno vizinho, e experiências do
efeito do tamanho da amostra, nos leva às ideias básicas que são apresentadas na Fig.
8 . Este diagrama lida genericamente com 'Posso concluir que os valores de B tendem a
ser maiores do que os valores de A na(s) população(ões)?'.
Figura 8 Quando posso dizer que B tende a fornecer valores maiores do que A?

A ideia básica subjacente à Fig. 8 é que só devemos fazer a conexão se a mudança de
localização que vemos entre nossas caixas for suficientemente grande para superar as
incertezas que são ilustradas na Fig. 7 sobre onde as caixas reais estão. Os níveis de
incerteza serão grandes com amostras menores e pequenos com amostras muito
grandes. Se acharmos que não podemos fazer a conexão, nossa resposta é 'Não tenho
dados suficientes para saber qual tende a ser maior', ou seja, 'Não sei dizer'.

Qual deve ser o tamanho da mudança (subindo a Fig. 8 ) antes de ser suficientemente
grande para que possamos fazer a conexão? Precisamos de maneiras de operacionalizar
essa ideia básica que sejam suficientemente simples para os alunos manipularem,
envolvam grandes ideias sobre os efeitos da propagação e do tamanho da amostra,
tenham propriedades operacionais razoáveis em amostragem repetida e possam ser
refinadas ao longo do tempo para se tornarem cada vez mais como métodos que são
aceitos por estatísticos.

Embora este artigo simplesmente proponha diretrizes, nosso trabalho de implementação


com Pip Arnold concentra-se em levar os alunos a descobrirem por si mesmos que
precisam de algum tipo de diretriz de decisão e a apresentar ideias de diretrizes que se
aproximam das apresentadas aqui. As diretrizes de decisão que criamos para apoiar o
novo currículo de estatística do ensino médio da Nova Zelândia são ilustradas na Fig.
9, onde um marco geralmente será direcionado por ano de escolaridade, com o marco 4
ocorrendo no último ano.
Figura 9 Como fazer a conexão por nível de desenvolvimento

Como as diretrizes parecerão desconhecidas, damos ao leitor um ponto de referência


seguro, observando que o teste do marco 3 é um pequeno ajuste da técnica de boxplots
entalhados de Tukey para fazer inferências visuais ( McGill et al. , 1978 ). Ao operar
essas diretrizes para análise de dados, os alunos devem trabalhar a partir de gráficos
obtidos de software. Por consumir muito tempo, desenhar plotagens à mão é um
trabalho árduo que obstrui as conexões mentais que estamos tentando fazer (e são
extremamente fáceis de criar usando a tecnologia apropriada).

Observe que as concepções representadas na Fig. 8 permanecem constantes em todos os


quatro níveis e são continuamente reforçadas. O que muda em nossa proposta à medida
que avançamos pelos marcos ( Fig. 9 ) é um refinamento gradual de como determinar se
uma mudança observada é grande o suficiente para fazer a conexão. Os professores não
devem se sentir constrangidos a seguir todos os níveis de desenvolvimento descritos
na Fig. 9 . Ressaltamos que os níveis de marcos podem, e devem, ser pulados sempre
que os alunos já possuam a maturidade estatística necessária. Aqui, simplesmente
elaboramos as definições das diretrizes, com as discussões de seus fundamentos e
propriedades operacionais sendo adiadas para a Seção 3.4 .

Uma abordagem intuitiva do teste do marco 1 é que podemos fazer a conexão se a


mediana de uma amostra estiver além da 'grande pancada' da outra amostra. Ele pode
ser operado quase instantaneamente a partir do gráfico. O tamanho da amostra não é
levado em consideração e os professores são solicitados a se limitar a tamanhos de
amostra em torno de 20–40. Isso tem a vantagem de simplificar o procedimento à custa
de limitar sua utilidade. Essa compensação parece apropriada, dados os vários conceitos
que estão sendo introduzidos e desenvolvidos.

Para operar o teste do marco 2, defendemos que os alunos usem a versão mais próxima
dos tamanhos de amostra que possuem e simplesmente façam uma subdivisão rápida à
mão livre de uma linha que representa a distribuição visível total em terços ou quintos e
façam a conexão com base nisso. Queremos que o foco esteja nas grandes ideias e não
queremos que isso degenere em um exercício sobre a precisão da aplicação dos cortes
de 1/3 e 1/5.

É um passo bastante curto das versões do boxplot vibratório das Figs 5 e 6 colocar


algum tipo de intervalo de incerteza em torno da mediana dos dados para tentar capturar
a mediana da população. As fórmulas para o marco 3 são simples e os alunos devem
calcular e adicionar essas linhas três ou quatro vezes aos gráficos produzidos por
software. Ficaríamos totalmente felizes se isso fosse feito usando valores aproximados
para a mediana e as larguras das caixas lidas nos gráficos, pois a única razão para fazer
qualquer cálculo manual é ajudar a estabelecer a ideia. Posteriormente, é desejável que
as anotações sejam feitas por software. As intuições a serem apeladas para o marco 3
decorrem de pensar nessas linhas grossas como intervalos de incerteza - "Estou
pensando que a verdadeira mediana provavelmente está aqui em algum lugar". Se não
houver sobreposição entre onde eu acho que a verdadeira mediana B está e onde eu
acho que a verdadeira mediana A está, então posso fazer a conexão.

As diretrizes nesta sequência de três etapas são suficientemente simples para os alunos
operarem. Os marcos 1 e 2 podem ser operados sem nenhum processamento de 'olhos
fora do gráfico', assim como os marcos 3 com a modesta assistência do software. Não
requer muito processamento de 'olhos fora do gráfico', mesmo na ausência de tal
assistência. As diretrizes para o marco 2 e além de envolver as grandes ideias sobre os
efeitos do tamanho da amostra e da distribuição dentro da amostra, sendo esta última
refinada sem dor pelos gráficos.

O mero fato de saber qual é a direção de uma diferença é uma forma mínima e
insatisfatória de inferência. O gráfico do marco 3 e a intuição sobre 'onde eu acho que as
verdadeiras medianas A e B estão' prontamente se prestam a construir visualmente um
intervalo de confiança informal para a verdadeira diferença nas medianas da população
usando o método representado na Fig. 10 . (Se houvesse sobreposição entre as linhas
grossas na Fig. 10 , o limite de confiança inferior seria negativo.) Isso fornece uma base
intuitiva para intervalos de confiança formais para diferenças nas médias no marco 4,
seja a partir de procedimentos baseados nos t alunos ou reamostragem .

Figura 10 Leitura de um intervalo de confiança para uma verdadeira diferença

As ferramentas de análise que implementam os gráficos descritos neste documento


estão disponíveis gratuitamente no site CensusAtSchool New Zealand
( http://www.censusatschool.org.nz/ ) e na página da
Web http://www.censusatschool.org.nz/2009/ inferência
informal / WPRH / . Os boxplots usados para análise de dados retêm os gráficos
de pontos subjacentes e têm anotações de marco 3 como uma opção. Apenas omitimos
os pontos dos boxplots e figuras animadas que têm como objetivo transmitir ideias
sobre como ler informações inferenciais dos boxplots.

3.4. Fundamentos e justificativas
3.4.1. Marco 1
As grandes lições sobre inferência estatística que queremos que nossos alunos aprendam
no nível do marco 1 são

a) que as amostras podem nos dar imagens aproximadas úteis do que está
acontecendo nas populações,
b) a capacidade de ver mudanças aproximadas de localização em gráficos de
pontos ou boxplots,
c) uma apreciação de que a história que os dados sugerem sobre a população pode
estar errada (por exemplo, uma reversão da realidade induzida por variação de
amostragem),
d) uma apreciação de que a mudança que é vista nos dados deve ser razoavelmente
substancial antes que possamos inferir com bastante segurança a direção de um
efeito de população a partir da direção de um efeito de dados e
e) uma maneira simples de implementar a ideia anterior.

Quando os estatísticos olham para algo como a Fig. 1 , eles fazem a varredura
horizontal e veem a caixa, ou conjunto de pontos pertencentes a um único grupo, como
uma entidade. Recursos como mudanças de localização nos atingem imediatamente. Há
evidências de pesquisas (Cliff Konold, comunicação pessoal) de que os alunos do
ensino médio examinam esses gráficos de maneira bem diferente dos especialistas: que
desejam olhar verticalmente e comparar os detalhes de um grupo com os detalhes de
outro. (As considerações horizontal-vertical são simplesmente invertidas se
executarmos os gráficos de outra maneira). A Pesquisa (por exemplo, Bakker et
al. (2005)) mostrou que os alunos irão comparar com bastante naturalidade as medianas
e quartis, etc. dos boxplots de um grupo com os do outro, e que não são apenas as
características correspondentes que eles comparam. Aproveitamos isso para o nosso
nível do marco 1. Para essas primeiras exposições, queremos mais facilitar os alunos
para que vejam as mudanças e começar a pensar que podemos fazer a conexão se a
mudança for suficientemente grande em relação à propagação. Isso é auxiliado por
enfatizar a sobreposição primeiro, ao invés das diferenças nos centros, pois o último
convida a olhar para as diferenças de forma absoluta e não relativa. Adiamos a criação
de uma característica do efeito do tamanho da amostra até o marco 2, depois que a
capacidade de ver o deslocamento e a sobreposição já estiver bem estabelecida.

Simulações com dados normais fornecem taxas de erro tipo I para nosso teste de marco
1 de aproximadamente 15% para amostras de tamanho 20 em cada grupo, 7% para
amostras de 30, 3% para amostras de 40 e 0,4% para amostras de tamanho 100. Assim,
de acordo com as diretrizes, os alunos farão a conexão aproximadamente em linha com
as práticas convencionais de inferência estatística.

3.4.2. Desempacotando o teste t de duas amostras


A ideia básica do teste t de duas amostras, ou o teste de Welch, é basear uma decisão de
significância na distância entre os centros das duas amostras expressa como um múltiplo
do erro padrão desta diferença. O erro padrão da diferença é uma medida combinada das
distribuições das duas amostras deflacionadas pelo tamanho da amostra de raiz
quadrada. Da mesma forma, ele faz a conexão se a distância entre os centros como uma
proporção da dispersão dentro da amostra exceder um corte que depende dos tamanhos
da amostra - com valores de corte maiores sendo usados para amostras menores. Nossas
diretrizes de decisão agora começam a convergir para essa ideia.

3.4.3. Marco 2
No nível do marco 2, todos os pontos (a) - (e) do marco 1 devem ser reforçados. Dois
novos ingredientes são enfatizados no marco 2: primeiro, que o tamanho da amostra é
importante ao fazer a conexão e segundo, um movimento de atenção em direção à
distância entre os centros como uma proporção de uma propagação. Nossa primeira
tentativa nesta diretriz comparou a distância entre as medianas com a soma dos
intervalos interquartis, mas fomos informados pelos professores que estávamos
consultando que isso era muito difícil para seus alunos e essa conversa nos levou à ideia
de 'propagação visível geral' isso é mostrado no diagrama. Obtivemos as proporções de
corte muito simples que são representadas usando simulações com dados normais. As
taxas de erro tipo I são de cerca de 8% nos tamanhos de amostra âncora. Há uma
compensação entre taxas de erro tipo I mais convencionais em tamanhos de amostra
memoráveis (30 é o 'tamanho de sala de aula tradicional') e ter uma regra extremamente
simples. Demos mais peso a este último. Os tamanhos de amostra de número redondo
com taxas de erro tipo I de aproximadamente 5% são n = 40 para 1/3, n = 80 para 1/4
e n = 125 para 1/5. As taxas de erro tipo I com dados da distribuição x 24 fortemente
enviesada e da distribuição t 4 de cauda pesada são muito semelhantes àquelas da
distribuição normal nos tamanhos de amostra âncora. Apesar das diretrizes do marco 2
serem transitórias no que diz respeito aos testes de significância formal, elas têm valor
duradouro como regras básicas para análise exploratória de dados.

3.4.4. Marco 3
O Marco 3, que continua nossa convergência em direção à grande ideia da estatística t ,
é uma modificação muito pequena da ideia de boxplots entalhados de Tukey. Usamos
um multiplicador ligeiramente menor, mas eminentemente mais memorável, a saber,
1,5. Isso aumenta a taxa de erro tipo I de grande amostra com dados normais
ligeiramente de cerca de 2% em tamanhos de amostra moderados para cerca de 2,5%
(com comportamento essencialmente idêntico para normal, x 24- e t 4
- distribuições). Além disso, usamos uma linha horizontal espessa no lugar de um
entalhe. Achamos que isso funciona melhor visualmente como um meio de transmitir
incerteza sobre onde está a verdadeira mediana. Na verdade, as linhas horizontais
grossas são intervalos de confiança de aproximadamente 90%.

Alguns estatísticos podem se sentir desconfortáveis em usar a não sobreposição de


intervalos de incerteza individuais para indicar significância. Afinal, a leitura do
significado da sobreposição versus a não sobreposição de intervalos de confiança é algo
que os alunos e pesquisadores que estão fora das estatísticas naturalmente desejam fazer
e algo que muitos professores de cursos elementares em universidades gastam muita
energia para eliminar. Não é que esse procedimento esteja realmente errado. É
simplesmente que, ao operar dessa forma, você está trabalhando com taxas de erro do
tipo I para testes de significância para uma diferença que é muito menor do que as taxas
de erro de cobertura para os parâmetros individuais, um fato que é exemplificado pelos
números dados no parágrafo anterior. Se quiser que essas taxas de erro concordem, você
deve fazer algo um pouco diferente. Independentemente do que fizermos, os professores
de níveis mais avançados terão que enfrentar esse problema de qualquer maneira, seja
em termos de taxas de erro ou o erro padrão da diferença não sendo a soma dos erros
padrão. Acreditamos que esta seja uma distinção mais sutil, uma questão de refinamento
posterior ao invés de uma questão fundamental. E, quando os professores confrontarem
o problema, será apenas este pequeno problema que eles poderão resolver sozinhos, em
vez de misturá-lo com outras considerações gerais.

3.4.5. Marco 4
No marco 4, que está além do escopo do presente artigo, podemos trazer coisas como a
noção de uma hipótese nula, níveis de comportamento variacional sob o nulo devido à
amostragem ou randomização, modelos de distribuição normal, uma mudança de ênfase
para medidas de localização e propagação da mediana e intervalo interquartil para a
média e desvio padrão motivados por argumentos de eficiência sob modelos normais e
métodos formais de inferência baseados em testes t , randomização ou reamostragem.

3.4.6. Paralelos históricos
Chris Triggs chamou nossa atenção para os paralelos entre nosso trabalho aqui e uma
literatura nas décadas de 1940 e 1950 sobre formas mais simples de inferência e, em
particular, Tukey (1959) em que apresentou uma alternativa mais simples para o teste- t
de duas amostras. Este teste foi baseado no número de observações na amostra A que
estão abaixo de todas as observações na amostra B mais o número na amostra B que
estão acima de tudo na amostra A e as tabelas estatísticas associadas foram
fornecidas. As citações a seguir são particularmente interessantes no contexto atual,

'… As necessidades de certos usuários para tal procedimento que seria muito mais fácil
de usar (e ensinar) do que aqueles disponíveis até agora.'

'Um' 'teste de bolso' 'do tipo atual tem usos bastante definidos. Deve ser usado '' como
regra de rodapé '', '' no chão '', '' no campo '' etc. '

'Simplicidade significa portabilidade prática - a capacidade do estatístico de transportar


o procedimento para qualquer lugar, armazenado em uma parte muito pequena de sua
memória.'

3.5. Extensões
3.5.1. Variáveis categóricas
Quando os alunos se acostumarem ao método do marco 3 para fazer a conexão na Fig.
9 e puderem ler intervalos de confiança para tamanhos de efeito como na Fig. 10 ,
podemos então estender o mesmo modo de pensamento para gráficos de barras para
variáveis categóricas. Os gráficos na Fig. 11 referem-se à amostragem repetida do
banco de dados e ao uso da variável 'ir para a escola'. A animação é produzida da
seguinte maneira. Sempre que pegamos uma nova amostra, marcamos as posições de
cada um dos topos do conjunto de barras mais recente com uma linha azul horizontal
(cinza na Fig. 11 ). Com o tempo, isso deixa o conjunto de 'pegadas' que são mostradas
na Fig. 11. Quando tocados rapidamente, os topos da caixa preta parecem vibrar
(verticalmente) sobre o conjunto de pegadas que se acumulam. A Fig. 11 é do quadro
final de nossos 'filmes de animação' em que as caixas das porcentagens da população
são sobrepostas no topo das pegadas.

Figura 11 Variação de amostragem com uma variável de categoria única, 'Como você
vai para a escola?' (animações em
http://www.censusatschool.org.nz/2009/informal-
inference/WPRH/, painel 4 (a)): (a) amostras de tamanho 50; (b) amostras de
tamanho 200; (c) amostras de tamanho 1000

Isso sugere a superposição de intervalos de incerteza quando obtemos um conjunto de


barras de um único conjunto de dados obtido em um estudo como na Fig. 12 (a) . Eles
são desenhados (usando métodos a serem discutidos posteriormente) para permitir que
os alunos façam uma conexão 'o que é maior' ao comparar categorias e para obter
intervalos de confiança aproximados para diferenças; cf. Fig. 10. Podemos fazer o
mesmo ao comparar duas amostras como na Fig. 12 (b). Isso nos permite comparar, por
exemplo, a proporção de alunos de Auckland que vão de bicicleta para a escola com a
proporção de alunos de Christchurch que andam de bicicleta. Este último é obviamente
consideravelmente maior, mesmo permitindo a variação da amostragem. Um possível
fator explicativo é que Auckland é uma cidade montanhosa e Christchurch tem um
terreno muito mais plano.
Figura 12 Gráficos de barras com intervalos de incerteza projetados para lidar com
diferenças: (a) comparações dentro de uma amostra; (b) comparar duas amostras (  ,
Auckland;  Christchurch)

Os intervalos de incerteza desenhados nas Figs. 12 (a) e 12 (b) não são as barras de erro


padrão usuais ou intervalos de confiança que são frequentemente adicionados a tais
gráficos. Seus comprimentos são calculados de modo que os intervalos de confiança
visual para diferenças que são obtidas como na Fig. 10 se aproximam dos intervalos
normais baseados em aproximação normal, usando um método a ser publicado em outro
lugar. Como não existe uma intuição acessível aos alunos do ensino médio em nossa
construção dos intervalos, eles deveriam ser adicionados apenas por software. No
entanto, uma versão bruta atribui ± 1,5√ { p (1− p ) / n } às caixas como na Fig. 12
(b). Aqui, as comparações naturais são coisas como comparar as proporções de
motociclistas entre Auckland e Christchurch, ou seja, proporções de amostras separadas
ou independentes. A fórmula ± 1.5√ { p (1− p ) / n } poderia ser apresentada para alunos
mais brilhantes, com atenção voltada para a forma como os intervalos aumentam
conforme p se aproxima de 0 ou 1 e, conforme o tamanho da amostra aumenta, imitando
o comportamento que vemos na Fig. 11 . A obtenção de intervalos para a Fig. 12 (a) é
muito menos direto. Inferências para essa configuração raramente são apresentadas,
mesmo em estatísticas introdutórias em nível universitário, porque essas proporções não
são independentes, portanto, temos as complicações de explicar a estrutura de
correlação. Na verdade, o anexo bruto de ± 2,2 [√ { p (1− p ) / n } −0,1 / √ n ] funciona
surpreendentemente bem para quase todas as comparações, exceto aquelas envolvendo
probabilidades muito pequenas (para as quais os intervalos assintóticos padrão têm um
desempenho ruim de qualquer maneira) Existem ferramentas de análise online que
implementam esses métodos em http://www.censusatschool.org.nz/ , no
sistema de análise de dados iNZight
( http://www.stat.auckland.ac.nz/~wild/iNZight) e uma biblioteca R
disponível em http://www.stat.auckland.ac.nz/~wild/VisDiffs .
3.5.2. Experimentos randomizados
Atribuições aleatórias repetidas podem produzir padrões de variação muito semelhantes
à amostragem aleatória quando visualizada com gráficos como a Fig. 5 . Estamos
perfeitamente à vontade com os alunos neste estágio de seu desenvolvimento, aplicando
os métodos que foram desenvolvidos para amostragem aleatória a dados
experimentais. Isso nos coloca na mesma empresa que todos aqueles que aplicam testes
t e testes F a dados experimentais: uma empresa bastante grande! Nossa intenção é adiar
qualquer foco no contraste da amostragem aleatória com a atribuição aleatória até o
marco 4. Para um diagrama que relaciona concisamente as características da
amostragem aleatória, atribuição aleatória e o consequente escopo da inferência,
consulte Ramsey e Shafer (2002) , página 9.

4. Discussão
Muitos dos problemas com as estatísticas de aprendizagem dos alunos decorrem de
muitos conceitos que precisam ser operacionalizados quase simultaneamente. Dominar
e interligar muitos conceitos é demais para a maioria dos alunos. Não podemos lançar
um grande número de mensagens em um curto período de tempo, não importa o quão
críticas sejam para a boa prática estatística, e esperarmos alcançar qualquer coisa,
exceto confusão. Precisamos de estratégias de redução de complexidade. Uma delas é
agrupar os conceitos em conjuntos menores e mais gerenciáveis que compartilham
esferas de influência bem definidas. Neste artigo, nos concentramos no agrupamento de
conceitos relacionados à inferência estatística (no sentido tradicional do termo). Mesmo
aqui, nossa principal preocupação é com o excesso de ideias, em vez de poucas. Claro,
um conjunto de conceitos não pode se sustentar sozinho, não importa o quão bem ele
esteja conectado internamente. Também precisamos de estratégias para construir pontes
entre agrupamentos ou para ativar o agrupamento certo no momento certo, mas isso está
além do escopo deste artigo.

Nas abordagens atuais de inferência informal, os argumentos usados como 'evidências'


pelos alunos são frequentemente incoerentes e não fazem parte de um desenvolvimento
incremental planejado. A inferência informal não deve ser apenas uma questão de fazer
tudo o que puder para alcançar um objetivo ambicioso sem andaimes. Liberar os alunos
pode ser uma abordagem excelente para pesquisar os padrões de pensamento dos alunos
em vários estágios de seu desenvolvimento, mas não é pedagogia e não os ajuda a
aprender a organizar formas mais coerentes de evidência. Qualquer abordagem de
inferência acessível a iniciantes será inevitavelmente "simples
demais". Frequentemente, as técnicas ultrapassarão os limites de onde funcionam bem
quando os alunos tentarem obter respostas satisfatórias para problemas reais e
interessantes - o que é necessário para tornar as estatísticas vibrantes! Além
disso, nenhuma abordagem acessível pode abordar todos os problemas que um
profissional abordaria. Mas tudo isso é aceitável, acreditamos, contanto que estejamos
construindo intuições importantes e estejamos em um caminho de desenvolvimento
planejado para algo melhor.

Uma possível crítica à abordagem adotada aqui é que “os alunos não deveriam aprender
material que eles precisam desaprender”. Nossa sequência de diretrizes para fazer uma
conexão pode parecer violar isso. No entanto, nossas diretrizes não precisam ser
desaprendidas. Cada uma é estatisticamente válida, mas com uma gama limitada de
aplicabilidade. Passamos de um nível para o outro para ampliar a gama de
aplicabilidade. As diretrizes serão úteis para o resto de suas vidas. Por exemplo, a
diretriz do marco 2 fornece dicas visuais úteis ao observar gráficos que não são
complementados por informações inferenciais. A vida estatística de todo profissional é
uma viagem de descoberta, de 'tudo bem até onde vai, mas tem suas limitações', esbarrar
nessas limitações e depois encontrar um caminho a seguir. Acreditamos que as
experiências de ensino devem refletir isso. Se as regras de vida estatisticamente forem
simplesmente recebidas "gravadas em tábuas de pedra", qualquer esmagamento e
substituição aparentemente caprichosa dessas tábuas é perturbador. Mas isso não se
aplica a lições extraídas como parte de um processo de aprendizagem por
descoberta. Os ingredientes para tal processo podem incluir a sequência necessidade →
ideia → funciona? → simule e veja → se parece funcionar, então use, seguido mais
tarde por encontrar um conjunto de situações em que uma metodologia claramente não
está mais funcionando como deveria, levando a ideias sobre como proceder, nos
remetendo de volta à sequência de etapas anterior. 

Quando começamos a explicar nosso trabalho, alguns amigos e colegas perguntaram


'Por que não apenas fazer testes de randomização e reamostragem de
bootstrap?' (cf. Cobb (2007) e Rossman (2008)) 'Certamente isso resolve tudo. Eles
envolvem muito pouca maquinaria'. Rejeitamos isso como uma receita para as primeiras
experiências pelas seguintes razões. A realização de testes de randomização envolve
uma quantidade considerável de tempo sem que os dados sejam vistos. Envolve entrar
em outro paradigma de pensamento e retornar novamente. Mas, o mais importante,
esses testes têm as ideias intrinsecamente difíceis de 'pensar sob o nulo' em seu cerne
conceitual. Isso é ainda mais agravado quando construímos intervalos de confiança, e há
muito menos discussão pelos proponentes da aleatorização deste elemento essencial. A
obtenção de intervalos de confiança é um processo que requer a organização dos
mistérios conceituais de inverter um teste. Isso torna a inferência de randomização
intrinsecamente mais difícil do que nossas propostas, então nossa preferência é que a
inferência de randomização siga os desenvolvimentos aqui, e essa é a maneira que foi
encenada no novo currículo da Nova Zelândia. Temos reservas semelhantes quanto à
introdução do bootstrap muito cedo. Parece-nos que é uma receita para a confusão
mexer com ideias de amostragem da amostra para a mistura no momento em que os
alunos estão apenas começando a entender as ideias e implicações da amostragem de
uma população. A randomização e a inferência bootstrap serão introduzidas no último
ano do ensino médio (marco 4). No momento, estamos trabalhando para isso. 

Decidimos planejar um caminho de desenvolvimento, começando no início do ensino


médio, que estabeleceria algumas bases conceituais intuitivas e gerais sólidas a serem
construídas no último ano do ensino médio, quando aprendessem métodos formais de
fazer inferências estatísticas. Em termos dos problemas práticos que podem ser
resolvidos usando nossos métodos no marco 3, conseguimos ir quase tão longe quanto a
média do primeiro curso de estatística de graduação usando apenas um número muito
pequeno de ideias bastante simples. Conseguimos evitar 'pensar sob o nulo'. Nossa
abordagem altamente visual para "fazer a conexão" e obter intervalos de confiança pode
ser operada tão rapidamente que deveria ser no máximo um pequeno impedimento para
experimentar todas as etapas principais do ciclo investigativo, incluindo escrever sobre
o que foi aprendido, em um curto período de tempo.

A apresentação na Seção 3 concentrou-se nas formas visuais precursoras de inferência


estatística e na natureza das diretrizes, que são basicamente regras de decisão. Muitos
pesquisadores em educação estatística não gostam de regras e desejam distanciar a
educação estatística delas. Quando se trata de fazer um tipo de conexão de
"significância estatística" para saber se B tende a fornecer valores maiores do que A, no
entanto, ou para fornecer algum tipo de estimativa de intervalo, os métodos que os
estatísticos reais usam são essencialmente regras, sejam eles bayesianos ou frequentista,
com base em suposições paramétricas ou randomizações. A insatisfação dos
pesquisadores em educação estatística com as regras vem, acreditamos, de um horror
apropriado às práticas de ensino generalizadas que visam 'fazer os alunos passarem pelo
teste' por um caminho de menor resistência. Isso leva à aplicação cega de regras, que
estão desinformadas por qualquer insight sobre o que está sendo feito e o porquê, e com
todos os vestígios de bom senso desvinculados. Em outras palavras, as preocupações
básicas são sobre regras como um substituto para o pensamento, até mesmo como uma
barreira ao pensamento, em vez de regras como auxílios ao pensamento que podem
ajudar a controlar nosso bom senso. Na Nova Zelândia, estamos montando um ataque
em três frentes contra esse problema raiz. Em primeiro lugar, estamos planejando
caminhos de aprendizagem por descoberta que levam à compreensão da necessidade de
diretrizes, ideias sobre como elas podem ser e incluindo a investigação de propriedades
operacionais. Em segundo lugar, estamos incorporando a operação prática das regras
como uma pequena parte dentro de uma abordagem holística para a comunicação de
dados (ver Pfannkuch et al.  (2010)). Em terceiro lugar, novas avaliações nacionais que
estão sendo elaboradas impossibilitarão a obtenção de boas notas pela aplicação cega de
testes. As notas altas exigirão a demonstração de compreensão e percepção.

Começamos este artigo com um apelo para que mais estatísticos acadêmicos e
profissionais se inspirassem em comunicadores talentosos de histórias de dados como
Hans Rosling e se envolvessem na reconceituação de como uma estatística escolar mais
fascinante, valiosa e ambiciosa poderia ser. A tecnologia da computação mudou
totalmente o mundo. Portanto, vamos tentar trabalhar a partir essencialmente de lousas
em branco e ver se podemos criar novas maneiras criativas de os alunos interagirem e
aprenderem com os dados, e novas maneiras de conceituar as grandes ideias da
estatística. Tentamos um pouco disso aqui e esperamos que muitos outros se juntem a
este empreendimento.

Reconhecimentos
Os autores agradecem os comentários úteis sobre os rascunhos deste artigo de Alan
Agresti, Alasdair Noble, Anthony Harradine, Arthur Bakker, Bill Finzer, Cliff Konold,
Richard Scheaffer, Ilze Ziedins, Joan Garfield, Mike Camden, Rob Gould, Roxy Peck,
Sandy Madden, Sandy Pollatsek, Tom Louis, a equipe editorial e os árbitros. Esses
reconhecimentos não devem, no entanto, ser interpretados como significando que todos
os listados estão de acordo com o que escrevemos. Este trabalho foi parcialmente
financiado por uma bolsa da 'iniciativa de pesquisa de ensino e aprendizagem' da Nova
Zelândia ( http://www.tlri.org.nz ).

Você também pode gostar