Escolar Documentos
Profissional Documentos
Cultura Documentos
SUMÁRIO
INTRODUÇÃO ................................................................................... 03
INTRODUÇÃO
Por tudo isso, esperamos que você desenvolva seus conhecimentos, acerca
do tema proposto e que faça, também, uma excelente leitura, obtendo o sucesso que
almejas.
A palavra Estatística surge, pela primeira vez, no séc. XVIII. Alguns autores
atribuem esta origem ao alemão Gottfried Achemmel (1719-1772), que teria utilizado
6
pela primeira vez o termo statistik, do grego statizein; outros dizem ter origem na
palavra estado, do latim status, pelo aproveitamento que dela tiravam os políticos e o
Estado.
Inicialmente, no século XVI, pensada pelos ingleses como uma ciência política,
destinava-se a descrever características de um país, tais como população, área,
riquezas e recursos naturais. Deste papel histórico, origina-se a sua função de
caracterização numérica de uma série de informações populacionais. Com esta
abordagem, o termo é utilizado no plural, como as “estatísticas de saúde”, as
“estatísticas de mortalidade”, as “estatísticas do registro civil”, entre outras.
Outra estatística referida pelos investigadores foi feita no ano 1400 a.C.,
quando Ramsés II mandou realizar um levantamento das terras do Egito.
A partir dos anos 40, a pesquisa Estatística se volta para solucionar problemas
envolvendo variados aspectos da inferência, cada um tendo a sua aplicação a situações
específicas. Os testes de hipóteses para médias, variâncias e proporções, a teoria dos
testes uniformemente mais poderosos, o processo de inclusão (exclusão) de variáveis nos
modelos de regressão são algumas das formas de inferência de uso consagrado.
matemática que diz: “Um gráfico bem construído equivale a mil palavras”. Essa nova
linguagem passa a demandar das pessoas o entendimento e o domínio de novos códigos
diferentes do “ler e escrever” tradicionais. É nessa perspectiva que o mundo moderno
12
caminha, com tecnologias voláteis, otimizando espaços, tempo, recursos, e fazendo uso
intenso dos argumentos estatísticos.
Nesse contexto, a escola não pode ignorar essas novas linguagens tão presentes
no mundo dos educandos.
Destacamos essas questões dado o fato de que as atividades propostas nos livros
didáticos serem permeadas por uma concepção de ensino de estatística e probabilidade
bastante compartimentalizada, como se os conceitos probabilísticos e estatísticos não
se relacionassem. Essa forma de olhar o ensino desses temas se contrapõe ao trabalho
15
A Estocástica possibilita a ruptura com uma visão linear de currículo por sua
própria natureza interdisciplinar, pois ao explorarmos uma determinada situação-
problema, envolvemos diferentes conceitos matemáticos e estabelecemos distintas
relações, sem nos prendermos à limitação do conteúdo proposto para cada série
(LOPES, 1998).
Em vista disso, podemos afirmar que esses objetivos não serão alcançados, haja
vista que, atingi-los passa por trabalhar situações-problema nas quais o conteúdo
estatístico compareça como estratégia, na obtenção de respostas a perguntas de
interesse dos alunos. O que observamos é que a concepção de estatística que permeia
os livros da 1ª à 8ª séries ou do 1º ao 9º anos, é de um fazer empobrecido, por não inserir
a construção dos conceitos estatísticos e probabilísticos na metodologia da resolução de
problemas.
16
Ledo engano nosso, posto que, nas séries finais, usando a estatística como um
fazer que enseje a utilização de conteúdos matemáticos, encontramos menção às
possibilidades em abordagens lúdicas, sem nenhuma outra função que não seja a sua
listagem por si mesma. É preciso perceber que, ao listar possibilidades, estamos apenas
trabalhando conceitos matemáticos. Se avaliássemos essas possibilidades através de
experimentos, aí sim, estaríamos atribuindo um valor estatístico a essas atividades uma
vez que a construção das possibilidades deveria estar motivada por uma necessidade
de avaliação de chance.
Ao longo da aprendizagem com números, deveria ser trabalhado a organização
dos dados através do ramo-e-folhas, que é uma representação gráfica fácil, simples,
elegante e que requer menos conhecimentos anteriores. Esse tipo de representação
permite a ordenação de um conjunto de dados com maior facilidade, assim como a
introdução de moda e mediana.
Veja os exemplos:
17
Temos 35 ursos, fêmeas, observados, porém, somente 20 puderam ter sua idade
estimada. Para visualizar a distribuição dos valores de idade dessas fêmeas, usaremos
um diagrama de ramo-e-folhas, já que um histograma resumiria mais ainda algo que já
está resumido.
8 9 11 17 17 19 20 44 45 53 57 57 57 58 70 81 82 83 100 104
8 9
11 17 17 19
20
44 45
53 57 57 57 58
70
81 82 83
100 104
Como muitos valores em cada linha têm as dezenas em comum, podemos colocar
as dezenas em evidência, separando-as das unidades por um traço. Ao dispor os dados
dessa maneira, estamos construindo um diagrama de ramo-e-folhas (Figura 1). O lado
com as dezenas é chamado de ramo, no qual estão dependuradas as unidades,
chamadas folhas.
18
Se a idade estivesse medida em dias, por exemplo, usando esse mesmo ramo-e-
folhas, poderíamos estabelecer que o ramo representaria as centenas e as folhas, as
dezenas. Assim, 0|8 seria igual a 80 dias e 10|4 seria igual a 1040 dias.
Observando a Figura 2, notamos que os ursos machos são, em geral, mais jovens
do que os ursos fêmeas, embora possuam dois ursos bem idosos em comparação com
os demais.
A questão acima é elucidada pela nossa preocupação com o erro mais frequente,
encontrado nos livros didáticos do ensino fundamental, que é a representação gráfica
por barras não adjacentes no tratamento das variáveis contínuas.
Trabalhar esse conceito com os estudantes não seria uma tarefa tão difícil se
deixarmos que os alunos experimentem e convivam com a variabilidade. Consideremos
que se tivermos em 100 bolas, 50 pretas e 50 brancas, e perguntarmos ao aluno, em
uma amostra de 10 bolas, quantas se teria de cada cor, muito provavelmente, no contexto
de aprendizagem de porcentagem, ele responderá que em 10 bolas amostradas
21
ocorreriam 5 de cada cor. Esse é um conceito que urge ser trabalhado, para que seja
aplicado, corretamente, na resolução de problemas estatísticos.
Ainda nesse momento, encontramos a média quase como para checar habilidades
de soma, divisão, ou resolução de equações. Quando apresentada a partir de tabelas de
frequências, a média aparece, inadequadamente, chamada de ponderada. Se feita a
partir dos dados em rol bruto é média, se feita a partir dos dados agrupados então é
ponderada. Esse é outro problema comum de erro conceitual, pois a simples aplicação
da propriedade associativa da adição não muda o peso de cada valor correspondente a
cada indivíduo. No caso da média aritmética, cada indivíduo ou cada valor tem o mesmo
peso, enquanto que em média ponderada, esses pesos devem diferir e ser conhecidos
a priori.
Talvez a média chame mais a atenção do que a moda e a mediana devido ao
paradigma da distribuição gaussiana e de todos os enganos e mal-entendidos do
teorema central do limite que parece magicamente transformar tudo em normal, o sonho
de todo pesquisador para seus dados.
22
Assim, o ensino conjunto da média, mediana e moda, bem como explorar suas
posições relativas no ensino de formas gráficas deve ser utilizado sob pena de repetirmos
o erro de tratar tudo sob a perspectiva de distribuições de erros...
A experiência com amostragem pode ser feita em população finita, por exemplo,
os alunos da classe e retiradas de amostras casuais simples, sua organização,
representação e análise. Neste processo, pode-se inserir operacionalizações que gerem
vícios por intencionalidade ou casualidade em sub- populações. Nesse contexto, a noção
23
contextos próximos dos interesses dos alunos, mas que, simultaneamente, lhes
permitam desenvolver competências que os tomem cidadãos mais críticos e
participativos na sociedade do próximo milênio, o que também é realçado por autores de
outros países (PEREIRA MENDONZA E SWIFT, 1989).
Apesar das diversas recomendações que têm sido feitas por investigadores e que
aparecem referidas nos documentos de política educativa, a literatura mostra que,
mesmo nos anos de escolaridade básica, a maioria dos alunos não aprende Estatística
de acordo com essas sugestões (SHAUGHNESSY, 1992). Verifica-se, ainda, que muitos
alunos revelam dificuldades na compreensão do significado matemático dos conceitos
estatísticos trabalhados durante este período (BATANERO ET AL., 1994; CARVALHO,
1996, 1998; HAWKINS, JOLLIFFE E GLICKMAN, 1991).
Uma distinção de inspiração vygotskiana é feita por Douady (1985) quando afirma
que um conceito matemático pode ser encarado como uma ferramenta, “quando o nosso
interesse se foca na sua utilização para resolver problemas” (p. 35) ou como um objeto,
quando o encaramos como “um objeto cultural que faz parte de um corpo científico de
conhecimentos”, o que implica também o ser socialmente reconhecido (p. 35). Neste
caso, considera-se um objeto qualquer definição matemática, bem como os exemplos,
26
Ou seja, este conhecimento não pode ser dado à criança, pois é ela quem tem de
apreendê-lo, dar-lhe um sentido próprio, uma vez que ele já é partilhado por outros
sujeitos de uma mesma cultura.
Porém, como qualquer professor sabe, uma tarefa não é igualmente problemática
para todos os alunos, no sentido de desencadear uma variedade rica de conflitos
sociocognitivos. Cada um tem conhecimentos, experiências vivenciais, sentimentos e
expectativas diferentes quando é confrontado com uma mesma tarefa. Este fato pode
ser, de acordo com Yackel et al. (1990), uma limitação, pois o professor não pode
garantir, à partida, que todas as crianças se envolvam na tarefa da mesma maneira.
Porém, pode ser também uma vantagem, já que pode ser interpretado como uma forma
de valorizar a diversidade, de acordo com os objetivos da escola inclusiva e da
27
“Matemática para Todos”. Para estes autores, as diferenças que cada criança traz para
a sala de aula quanto aos conhecimentos e competências que possui permitem gerar
diferentes soluções e interpretações de uma mesma tarefa, o que pode ser visto, pelo
professor, como algo positivo e enriquecedor, ao contrário do que é tradicional fazer na
sala de aula e que aparece descrito por diversos autores que estudaram os
desempenhos matemáticos de alunos em diferentes contextos (CARRAHER,
CARRAHER E SCHLIEMANN, 1989; SAXE, 1989).
É neste sentido que qualquer aluno, quando tenta resolver uma tarefa, tem de lhe
atribuir um significado em função dos seus conhecimentos e, só depois, é que está pronto
para o fazer. “Na verdade, o aluno dá significado às coisas a partir daquilo que sabe, de
toda a sua experiência anterior, e não necessariamente a partir da lógica interna dos
conteúdos ou do sentido que o professor atribui às mesmas coisas” (ABRANTES,
SERRAZINA E OLIVEIRA, 1999, p. 24). Quando um aluno atribui significado a uma tarefa
não nos podemos esquecer se ela tem ou não marcação social (Doise e Mugny, 1981;
Mugny e Doise, 1983), ou seja, se o quotidiano em que o aluno vive lhe permite
interpretá-la mais facilmente, sendo capaz de lhe atribuir um significado, pelo que
consegue resolvê-la. Assim, o grau de dificuldade de uma tarefa não pode ser
determinado apenas pelo nível operatório a que faz apelo, tem de ser sempre visto de
uma forma contextualizada.
Yackel et al. (1990) sublinham que o professor não deve dar aos alunos tarefas
fechadas, como os tradicionais exercícios, mas antes atividades abertas, onde seja
possível o trabalho em díade ou em pequenos grupos, levando os dois alunos
cooperarem na co-construção de estratégias de resolução. No caso da Estatística, têm
sido vários os documentos e os autores a manifestarem que “estes conteúdos devem ser
trabalhados em pequenos grupos e em projetos” (Godino, Batanero, Cañizares, 1996, p.
54), o que realça a necessidade de os alunos conseguirem encontrar uma
intersubjetividade comum (Wertsch, 1991), pois sem ela o diálogo entre os pares não
seria possível.
Mas, para que tudo o que foi exposto seja uma realidade e não apenas uma
intenção, é necessário aprendermos a observar e analisar detalhadamente as estratégias
de resolução e os raciocínios dos alunos, para podermos situar-nos, enquanto
investigadores e professores, para além do nível das aparências que iludem.
29
A mídia impressa, em especial, utiliza, muitas vezes, gráficos para noticiar os mais
variados assuntos, usando-os como ferramenta para defender seus argumentos
jornalísticos, com isso, é possível entender a afirmação presente nos PCN (Brasil, 1997)
que afirma que “só está alfabetizado quem sabe ler e interpretar dados numéricos
dispostos de forma organizada”.
Para o aluno, uma avaliação deve representar seus ganhos e apontar onde estão
suas dificuldades a fim de melhorar seu conhecimento; para o professor, ela deve levá-
lo a perceber onde sua pedagogia é falha e, a partir dessa constatação, ele deve estar
pronto para modificá-la. É importante salientar que:
A avaliação é do interesse do aluno, dos pais e da comunidade, porque
tradicionalmente todo processo de aprendizagem pressupõe formas de aferição
para garantir a confirmação dos conhecimentos que o aluno aprendeu e daqueles
que não conseguiu compreender. A aprendizagem não é um processo individual
e isolado, mas um processo coletivo, social e cultural. Só que agora o maior
interesse na avaliação é dos governos no sentido de inserir a escola no mercado
(BASTOS, 2001, p.128).
Segundo Versieux (2005, p.3) “não existe uma maneira „correta‟ de definir
avaliação, uma maneira que, se encontrada poria fim à argumentação sobre como ela
deve proceder e quais são os seus propósitos”. Assim, podemos observar que cabe a
cada instituição desenvolver sua avaliação formativa, em sua Proposta Pedagógica.
Segundo a LDB, em seu artigo 26, conforme citado pelas Diretrizes para Avaliação da
Aprendizagem,
os currículos do Ensino Fundamental e do Ensino Médio devem ter uma Base
Nacional Comum, a ser completada, em cada sistema de ensino e
estabelecimento escolar, por uma Parte Diversificada, exigida pelas
características regionais e locais da sociedade, da cultura, da economia e da
clientela. (Diretrizes para Avaliação da Aprendizagem, 2006)
E esta parte diversificada pode ser inserida de forma interdisciplinar, tendo como
essência a reflexão das experiências vividas pelo aluno. Podem-se contextualizar
conceitos, existentes no currículo da Base Nacional Comum, preparando, assim, o aluno
para sua vida futura, trabalho e exercício da cidadania. Devem voltar-se, então, ao
controle para a qualidade e excelência, com parâmetros de eficiência, envolvendo custo
e benefício, metas e resultados quantitativos.
A avaliação tem que ser exigida, mas, ainda, precisa ser melhorada na sua forma
de aplicar e divulgar resultados. É ela que mostra onde estão os problemas na educação
de nosso país e não podemos esquecer que,
Com essas diversas questões em mente, após realizar uma pesquisa bibliográfica
acerca de avaliações educacionais, para mapear o estado da arte de como estão sendo
analisados os dados e divulgados seus resultados especialmente no que se refere aos
conteúdos de Estatística nelas contidos, desenvolvemos algumas sequências didáticas
com temas geradores do cotidiano, buscando desenvolver o raciocínio combinatório e
probabilístico conforme as sugestões dos PCN e, também, apresentar a você professor
ou futuro professor de estatística, um material didático diferenciado que o auxilie no ensino
de combinatória e probabilidade.
Gato
Cachorro
34
Onça
Macaco
Golfinho
Cavalo
Bode
Total
Atividade
Um centro de zoonose da região metropolitana de Campinas divulgou os dados da
Tabela 1.
Dez./06 4 0 0 11
Jan./07 2 0 1 10
Fev./07 2 0 7 13 22
Mar./07 6 15 61
Abr./07 14 12 24 67
Mai./07 15 46 20 28
Jun./07 17 48 35 124
Total 75 117 86 129
2. Você seria capaz de avaliar o impacto que as castrações públicas trazem para sua
cidade? Compare e explicite o motivo das castrações serem realizadas em animais
machos e fêmeas.
3. Imagine que cada animal fêmea da tabela 1 não tenha sido castrado e gere 5
filhotes, dos quais 3 são fêmeas nos cães e 4 são fêmeas nos gatos. Quantos novos
animais existirão quando todos os animais tiverem dado cria? Quantos machos e
quantas fêmeas?
36
5. Imagine ainda que cada filhote gerado entra no período de reprodução a partir do
sexto mês. Utilizando os dados dos exercícios 3 e 4, calcule o total de novos animais
gerados no decorrer de um ano pelas fêmeas da tabela 1.
3 PRINCÍPIOS DE ESTATÍSTICA
Estatística é uma ciência exata que visa fornecer subsídios ao analista para
coletar, organizar, resumir, analisar e apresentar dados. Trata de parâmetros extraídos
da população, tais como média ou desvio padrão.
Exemplo:
Ao chegarmos a uma churrascaria, não precisamos comer todos os tipos de
saladas, de sobremesas e de carnes disponíveis, para conseguirmos chegar à conclusão
de que a comida é de boa qualidade. Basta que seja provado um tipo de cada opção
para concluirmos que estamos sendo bem servidos e que a comida está dentro dos
padrões.
3.1 População e Amostra
Exemplo:
38
Masculino 28%
Feminino 13%
Total 41%
3.1.1 Recenseamento
Sondagem
Por vezes não é viável nem desejável, principalmente quando o número de
elementos da população é muito elevado, inquirir todos os seus elementos sempre
que se quer estudar uma ou mais características particulares dessa população.
39
Amostragem
Amostragem é o processo que procura extrair da população elementos que
através de cálculos probabilísticos ou não, consigam prover dados inferenciais da
população-alvo.
Não Probabilística
Acidental ou conveniência
Intencional
Quotas ou proporcional
Desproporcional
Tipos de Amostragem
Probabilística
Aleatória Simples
Aleatória Estratificada
Conglomerado
3.1.3 Não Probabilística
Acidental ou conveniência
Indicada para estudos exploratórios. Frequentemente utilizados em
supermercados para testar produtos.
Intencional
O entrevistador dirige-se a um grupo em específico para saber sua opinião.
Por exemplo, quando de um estudo sobre automóveis, o pesquisador procura
apenas oficinas.
40
Quotas ou proporcional
Na realidade, trata-se de uma variação da amostragem intencional.
Necessita-se ter um prévio conhecimento da população e sua proporcionalidade.
Por exemplo, deseja-se entrevistar apenas indivíduos da classe A, que representa
12% da população. Esta será a quota para o trabalho. Comumente também
substratifica-se uma quota obedecendo a uma segunda proporcionalidade.
Desproporcional
Muito utilizada quando a escolha da amostra for desproporcional à
população. Atribui-se pesos para os dados, e assim obtêm-se resultados
ponderados representativos para o estudo.
Exemplo:
Em um mercado de telefones celulares, considerando uma fatia de mercado
meramente ilustrativa, obteve-se os resultados conforme descritos a seguir:
Ericson 0,8 40
Gradiente 0,6 30
Philips 0,2 10
3.1.4 Probabilística
Aleatória Simples
Aleatória Estratificada
Conglomerado
A proporção (q) será sempre 1 - p. Neste exemplo q, será 0,4. O erro é representado
por d.
Para casos em que não se tenha como identificar as proporções confere-se 0,5 para
p e q.
NOTAS FREQUÊNCIA
2 1
3 1
4 1
5 2
6 1
7 1
8 2
9 1
10 1
Percebemos aqui que é preciso colocar título no gráfico e nome nos eixos.
nota 2 nota 3 nota 4 nota 5 nota 6 nota 7 nota 8 nota 9 nota 10 notas
14
13
12
14
46
13
12
12
13
14
16
13
14
14
14
“ “
15
15
17
16
14
12
11
12
Dada a amostra:
Função Intervalos de
Estatística células
Máximo 17
Mínimo 11
Cont. Números 22
Cont. Valores 23
47
A função Mínimo = 11
E a função Cont. Valores que é relacionada com o número de observações, mesmo sendo
células que estão vazias “ “.
Após este procedimento, clicar em série (na parte superior desta caixa).
49
Em Rótulo dos eixos das categorias X, selecione Rótulos do eixo das categorias,
a matriz_bin: F15:F21.
50
51
25
20
15
10
0
11 12 13 14 15 16 17
valores das amostras
Assistente de gráfico;
Tipos personalizados;
Lins-Cols em 2 eixos;
50 34 65 59 58 45 67
56 54 43 78 49 56 54
76 67 67 67 60 56 45
Teremos então:
Ou
Descobrindo o Máximo= 78
%
Bloco Frequência cumulativo
5 0 0,00%
34 1 4,76%
43 1 9,52%
45 2 19,05%
49 1 23,81%
50 1 28,57%
54 2 38,10%
56 3 52,38%
59 2 61,90%
56
60 1 66,67%
65 1 71,43%
67 4 90,48%
76 1 95,24%
78 1 100,00%
Mais 0 100,00%
Classes Frequência
34-43 1
43-52 5
52-61 8
61-70 5
70-79 2
57
Histograma
Exemplo:
Exemplo:
6,3 6,3 6,3 6,4 6,4 6,4 6,5 6,5 6,6 6,7
7,3 7,4 7,5 7,5 7,6 7,6 7,6 7,7 7,7 7,8
10,4 10,6 10,8 10,9 11,2 11,5 11,8 12,3 12,7 14,9
59
80 100%
Média aritmética
para dados
agrupados
Média aritmética
ponderada
1) Se n é impar, o valor é central, 2)
Mediana se n é par, o valor é a média dos
dois
valores centrais
Valor que ocorre com mais
Moda frequência.
Média geométrica
Média harmônica
Quartil
Sendo a média uma medida tão sensível aos dados, é preciso ter
cuidado com a sua utilização, pois pode dar uma imagem distorcida dos dados.
Pode-se mostrar, que quando a distribuição dos dados é “normal”, então a
melhor medida de localização do centro, é a média.
62
3.8 Moda
Define-se moda como sendo: o valor que surge com mais frequência se os
dados são discretos, ou, o intervalo de classe com maior frequência se os dados são
contínuos.
Assim, da representação gráfica dos dados, obtém-se imediatamente o valor
que representa a moda ou a classe modal
Esta medida é especialmente útil para reduzir a informação de um conjunto de
dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais
não se pode calcular a média e por vezes a mediana.
3.9 Mediana
3.11.1 Variância
3.11.2 Desvio-padrão
1 4,3
2 4,5
3 9
4 6
5 8
6 6,7
7 7,5
8 10
9 7,5
10 6,3
11 8
12 5,5
13 9,7
14 9,3
15 7,5
Total 109,8
Média 7,32
Observamos no exemplo, que a média das provas, foi estimada em 7,32 com
desvio padrão em 1,77. Concluímos que a maioria das notas concentrou-se em 9,09
e 5,55.
Exemplo:
As alturas de grupo de crianças são tidas como normais em sua distribuição,
com desvio padrão em 0,30m e média em 1,60. Qual a probabilidade de um aluno
medir (1) entre 1,50 e 1,80, (2) mais de 1,75 e menos de 1,48?
(1) z1= (1,50-
1,60)/0,30=-0,33 z2=
(1,80-1,60)/0,30= 0,67
Então, z1 (0,1293) + z2 (0,2486) = 37,79%
(2) z1= (1,75-
1,60)/0,30=0,30
0,500-0,1915 = 30,85%
(3)
Z1= (1,48-1,50)/0,30 =-0,4
0,500-0,1554 = 34,46%
68
BUNCHAFT, Guenia; OLIVEIRA, Kellner Sheilah de. Estatística sem mistérios. 2 ed.
Petrópolis: Vozes, 1998. 4 vol.
CRESPO, Antônio Arnot. Estatística fácil. 15 ed. São Paulo: Saraiva. 1997.
69
GAL, I; GINSBURG, L. The role of beliefs and attitudes in learning statistics: towards
an assessment framework. Journal of Statistics Education. Disponível em:
www.archieve,jse.ncsu.edu. Acesso em: 5 mar. 2011.
HOEL, Paul Gerhard, et al. Estatística elementar. São Paulo: Atlas. 1981.
LEVIN, Jakc. Estatística aplicada as ciências humanas. 2 ed. São Paulo: Harbra,
1985.
STUART, M. Changing the Teaching of Statistics. The Statistician, 44(1), 45-54. 1995.
ANEXOS
2. Tipos de dados
A interpretação das listas de números a olho é muito difícil. Ao invés disso, nós deveríamos
produzir um resumo verbal ou numérico e/ou usar métodos gráficos para descrever os pontos
principais dos dados.
O método mais apropriado dependerá da natureza dos dados, e aqui podemos distinguir
dois tipos principais:
As distinções são menos rígidas do que a descrição acima insinua. Por exemplo, em geral nós
trataríamos idade como uma variável contínua, mas se a idade for registrada pelo ano mais próximo,
podemos trata-la como discreta, e se separarmos a amostra em ``crianças”, ``adultos jovens”, ``idade
média”, ``velhos”, por exemplo, então temos faixa etária como uma variável ordenada categórica. No
entanto, em geral é recomendado manter os dados em sua forma original, categorizando os dados
somente para propósitos de apresentação.
2.2 Dados qualitativos
Num relatório, a segunda coluna não seria mostrada, e os dados seriam sumarizados num
formato mais simples como mostrado abaixo. Se o maioria dos dados caem em poucas
categorias, então é conveniente colapssar algumas das categorias com somente uma ou
duas observações em outra categoria chamada “outros”.
Tabelas simples como esta são na maioria das vezes suficientes para descrever dados
qualitativos especialmente quando existem somente duas ou três categorias.
A mediana, bem como a moda, podem ser calculadas para dados ordenados. Este
é valor do “meio”, mais comumente usado para dados quantitativos. A mediana não
faz sentido para os dados “woodlice”. Para os dados de abundância, a categoria
mediana é “Frequente”, porque 50% dos dados estão em categorias superiores, e
menos do que 50% estão em categorias inferiores. A mediana é mais robusta do
que a moda pois é menos sensível à categorização adotada.
2.2.3 Gráficos de Barras
2.3.1 Histograma
Gráfico de Ramos-e-Folhas
Um método gráfico que merece ser mais amplamente utilizado quando a quantidade
de dados não é muito grande é o gráfico de ramos-e-folhas como ilustrado a seguir.
Exemplo. Um estudo geoquímico realizado utilizando amostras compostas de
sedimentos de corrente com granulometria de 100-150 mesh e profundidade de
40cm, provenientes de riachos correndo sobre granulitos, revelou os seguintes
resultados em ppm de Cr
Uma vez que a escala tenha sido determinada, a qual define os “ramos” à esquerda
da linha vertical, podemos facilmente escrever os dados no gráfico de ramos-e-
folhas como no diagrama esquerdo; como um refinamento podemos então ordenar
as ``folhas” no diagrama à direita:
9 4
10 6 0
11 5 4 1 8
76
12 5 9 6 0
13 7 0 7 6 5
14 1 3 0 7
15 2 4 8 8
16 5 6 6
17 4 0
18 2 4
9 4
10 0 6
11 1 4 5 8
12 0 5 6 9
13 0 5 6 7 7
14 0 1 3 7
15 2 4 8 8
16 5 6 6
17 0 4
18 2 4
Acima os ramos são números inteiros e as folhas são valores depois do ponto
decimal, mas isto não é essencial em geral; por exemplo, os ramos podem
representar centenas e as folhas dezenas (com unidades arredondadas para o
77
decimal mais próximo; as folhas devem ter um único dígito). Nota: é importante
escrever as folhas em colunas igualmente espaçadas, caso contrário pode resultar
uma figura distorcida.
O gráfico de ramos-e-folhas fornece um resumo visual dos dados sem que haja de fato
a perda de qualquer informação.
Compare-o com um histograma para os mesmos dados:
onde `
ou até mesmo
A segunda versão é mais fácil de ser calculada, embora muitas calculadoras têm
funções prontas para o cálculo de variâncias, e é raro ter que realizar todos os
passos manualmente. Comumente as calculadoras fornecerão a raiz quadrada da
variância, o desvio padrão, i.e.
Uma informação útil é que para qualquer conjunto de dados, pelo menos 75% deles
A média ,
é
a variância é
.
e o desvio padrão é
Uma outra forma de sumarizar dados é em termos dos quartis ou percentis. Essas
medidas são particularmente úteis para dados não simétricos. A mediana (ou
percentil 50) é definida como o valor que divide os dados ordenados ao meio, i.e.
metade dos dados têm valores maiores do que a mediana, a outra metade tem
valores menores do que a mediana. Adicionalmente, os quartis inferior e superior,
Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e três
quartos, respectivamente, dos dados. Estes três valores são frequentemente usados
para resumir os dados juntamente com o mínimo e o máximo. Eles são obtidos
ordenando os dados do menor para o maior, e então conta-se o número apropriado
, e
de observações: ou seja é para o quartil inferior, mediana e
quartil superior, respectivamente. Para um número par de observações, a mediana é
a média dos valores do meio (e analogamente para os quartis inferior e superior).
2.3.6 A moda
A moda é 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderíamos
adicionar mais informação separando a amostra e dizendo que daqueles que
tomaram cerveja a mediana foi de 3 copos.
Para mais do que duas variáveis, pode-se produzir gráficos entre todos os pares
possíveis para produzir uma matriz de gráficos de pontos.
2.4.2 Gráfico temporal
Um caso especial de um gráfico de pontos é um gráfico temporal onde „tempo' está
no eixo x. As medidas são feitas ao longo do tempo. Nestes casos é usual unir
pontos sucessivos por retas, e é em geral uma boa prática deixar o eixo x mais longo
do que o eixo y.
Abaixo mostramos as temperaturas diárias médias em Philadelphia, USA nos dois
primeiros meses de 1980.
82
É muito mais fácil ver do gráfico do que da tabela que os pássaros tendem a
engordar, e que aqueles que não engordaram tenderam a ser os maiores que
provavelmente não necessitam de uma engorda extra.
83
2.5 Exercícios 1
30 35 37 40 40 49 51 54 54 55
57 58 60 60 62 62 65 67 74 89
0 0 0 0 0 0 0 1 1 1
2 2 3 3 4 5 5 5 8 45
0 1 11 0 0 0 2 12 0 0
12 1 0 0 0 0 12 0 11 0
Faça um gráfico destes dados, e use o gráfico para ajudar a avaliar se o acidente
provocou um aumento significativo nos níveis do poluente no afluente.
A informação pretendida sobre U é então obtida a partir de uma observação limitada a uma
amostra «conveniente». As amostras convenientes, permitindo inferências válidas para a totalidade
do universo, são amostras aleatórias (Mello, 1997). Ou seja, o problema básico da Inferência
Estatística é descobrir, face aos dados das observações, qual é a distribuição populacional, mais
precisamente: qual é a distribuição da variável aleatória que caracteriza (define) a população
(Vairinhos, 1995). Em suma, inferir significa, portanto, deduzir como consequência, conclusão ou
probabilidade.
ajustamento de nenhuma reta, o que significa que r Diz-se, então, que não
existe nenhuma relação entre as variáveis da Distribuição Bidimensional.
Correlação Negativa Forte - quando a reta de regressão, obtida a partir do
Diagrama de Dispersão, tem declive negativo. A correlação é negativa quando r
Anexo 04 - Fórmulas
Amplitude
Para um intervalo do conjunto de dados de [a,b], onde x1= a e xn= b
Quando o índice i dos x i não é um número inteiro, calculam-se como nos exemplos
seguintes:
onde
Somatório
onde gi(x) representa uma expressão, cuja variável é x, que varia consoante o índice
i varia de 1 até n.
95