Escolar Documentos
Profissional Documentos
Cultura Documentos
Instituto de Matemática
Departamento de Estatística
MAT222
ANÁLISE DESCRITIVA
E EXPLORATÓRIA DE DADOS
Novembro de 2002
1
I - INTRODUÇÃO
1. INFORMAÇÕES HISTÓRICAS1
1Texto reproduzido de: TORANZOS, Fausto I. Estatística. Ed. Mestre Jou, São Paulo, 1969. p. 1 - 4.
UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
2
que ela habita, com tudo quanto se encontra de ativo e efetivo; a Estatística ocupa-se dos
fenômenos que podem favorecer ou defender a prosperidade do Estado”, e acrescenta: “a
política ensina como devem ser os Estados, a Estatística explica como o são realmente”. Esta
definição condensa o pensamento da corrente conhecida com o nome de “Estatística
universitária”, caracterizada por considerar a Estatística como método descritivo, que consiste
na recontagem de dados, e criada para servir às necessidades dos Estados.
2°) O segundo antecedente histórico encontramo-lo nos meados do século XVII. Os estudos
estatísticos recebem uma contribuição de suma importância, que se pode considerar como
ponto de partida da atual estruturação da Estatística como método de investigação dos
fenômenos coletivos. Referimo-nos aos trabalhos realizados por John GRAUNT (1620 -
1674), vendedor de tecidos de Londres, homem de modesto preparo, mas dotado de grande
inteligência, graças à qual pôde realizar trabalhos que lhe valeram a honra de ser incorporado
como membro da Sociedade Real.
4°) Juntamente com o Cálculo das probabilidades e a ele ligado, desenvolveu-se a teoria dos
erros, especialmente por obra de GAUSS, BESSEL e do próprio LAPLACE, que chegaram a
estabelecer o método dos mínimos quadrados como processo matemático para resolver o
problema fundamental da teoria dos erros.
Os capítulos mais importantes da Estatística moderna são, além dos já citados das
séries de freqüências, a teoria da correlação e regressão, a teoria das amostras e a teoria das
séries do tempo e dos processos estocásticos. Estas teorias tiveram início nos trabalhos da
escola estatística inglesa, devendo citar-se, especialmente dentro dela, os nomes de GALTON,
PEARSON e R. A. FISHER, cujos trabalhos marcam o ponto de partida das correntes de
investigação que levaram a Estatística ao alto grau de desenvolvimento em que hoje se
encontra. Os três atuaram sucessivamente; GALTON criou, entre outras teorias, a de
regressão, que com a de correlação, desenvolvida por PEARSON, constituem um dos mais
fecundos capítulos nas aplicações da Estatística. Nos últimos anos do século passado, e mais
intensamente nos primeiros do presente, apareceram os trabalhos de PEARSON, que
configuram uma obra variada e mui extensa, deixando estampado o selo da genialidade em
todos os capítulos da Estatística, aperfeiçoando teorias existentes e contribuindo com
numerosas criações, entre as quais citaremos, por sua importância, o sistema de curvas que
leva seu nome, para o estudo das séries de freqüências; a contribuição capital que constitui sua
teoria sobre provas de significância e outras contribuições que serviram para configurar a
estrutura da teoria das amostras, teoria que se estruturou a partir de seus trabalhos e dos seus
discípulos.
Ao redor dos três nomes citados, numerosos discípulos na Inglaterra e outros países
têm trazido importantes colaborações, especialmente nos Estados Unidos, na Suécia, na
França, na Rússia e na Alemanha.
2. CONCEITO DE ESTATÍSTICA2
O objeto dos estudos estatísticos está nos fenômenos que se referem a populações mui
numerosas, formada por indivíduos semelhantes com respeito a um atributo. Por populações
entendemos um conjunto qualquer de objetos, pessoas ou acontecimentos. Verifica-se amiúde,
que se desejamos estudar o comportamento de populações numerosas, a respeito de uma
propriedade ou característica, os métodos deterministas são inaplicáveis em face da extrema
complexidade do fenômeno, pelo que se costuma dizer que este se acha regido ou influído
pelo acaso. É então quando a Estatística, apoiada no Cálculo das probabilidades, se faz
presente, e mediante um esforço de síntese, que é característico de seus métodos, introduz
estudos referentes ao comportamento médio do indivíduo, logrando, dessa forma, superar a
indeterminação que se manifesta nos casos particulares. Desta forma, a Estatística e o Cálculo
das probabilidades chegaram a constituir-se no caminho eficaz para investigar o
comportamento dos fenômenos de massa. A esse respeito diz DARMOIS: “A Estatística tende
a recolher, caracterizar numericamente e coordenar grupos de fatos, grupos geralmente
numerosos, fatos geralmente complexos”.
3. O CONHECIMENTO ESTATÍSTICO3
O método tradicional das ciências físico-naturais nos apresenta a lei científica como
uma relação entre os fenômenos, concebida dentro do esquema determinista causal, que se
baseia num encadeamento em que a relação causa-efeito pressupõe nexos definidos em forma
unívoca e imutável. Este método deu resultados muito interessantes, permitindo que a ciência
2Texto reproduzido de: TORANZOS, Fausto I. Estatística. Ed. Mestre Jou, São Paulo, 1969. p. 5.
3Texto reproduzido de: TORANZOS, Fausto I. Estatística. Ed. Mestre Jou, São Paulo, 1969. p. 5.
UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
6
chegasse ao estado em que se conheceu no século passado. Não obstante, muitos fenômenos
que se referem ao comportamento de populações numerosas não são suscetíveis de tratamento
por este método; ao contrário, manifestam-se insubmissos a leis sistemáticas ou, em outras
palavras, estão regidos ou influídos pelo acaso; são fenômenos aleatórios. O característico dos
fenômenos aleatórios é que, em situações idênticas, é possível obter-se comportamentos
diversos dos indivíduos, ao contrário do princípio determinista, que exige idênticos resultados
como conseqüência de situações iguais. Nesse momento se fazem presentes os métodos
probabilísticos ou estocásticos, que não buscam a lei dos comportamento dos indivíduos,
senão no que corresponde ao termo médio de uma grande massa de indivíduos, e ali
encontram leis estáveis, que podem constituir base de uma estruturação científica mais ampla
que a determinista causal.
4. POPULAÇÃO E AMOSTRA
Exemplos:
i) Deseja-se estudar os salários mensais pagos no setor industrial baiano no ano de 2002.
População ou universo – conjunto de todos os trabalhadores alocados nas indústrias
localizadas no Estado da Bahia em 1994.
Característica que interessa analisar - salários pagos a esses trabalhadores.
ii) Estudo sobre a incidência do vírus HIV em adolescentes na cidade de Salvador nos dez
últimos anos.
População ou universo – conjunto de todos os adolescentes residentes em Salvador no
período citado.
Característica que interessa analisar - ser ou não soropositivo do HIV.
4Até na Literatura a Estatística tem apresentado uma situação destacada. Curiosos trabalhos estatísticos,
estudando a extensão dos períodos, as coincidências, as pontuações e o estilo, permitiram identificar de forma
insofismável KEMPIS, e não GERSON, como autor da “Imitação de Cristo”. (Informação extraída de
VIVEIROS DE CASTRO, Lauro Sodré. Pontos de Estatística. Ed. Didática e Científica, Rio de Janeiro, 18a.
Edição. p. 19)
UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
8
Exemplos:
ii) População infinita - as pressões atmosféricas ocorridas nos diversos pontos do Continente
em determinado momento.
Em virtude desta definição, a idéia que se tem dos resultados divulgados por um
censo é que estes são precisos, ou seja, isentos de erros. Porém, à medida que passam a ser
considerados alguns aspectos envolvidos nestes levantamentos, constata-se de imediato que
esta idéia é errônea e que os resultados divulgados por um levantamento censitário estão
sujeitos a erros. Os erros mais freqüentes em levantamentos censitários são os relacionados à
identificação correta da área onde o recenseador trabalha e ao levantamento das informações
desejadas.
Visto que um censo pode não fornecer informações exatas, além do alto custo
envolvido para sua realização, da demora na divulgação dos resultados e de outros fatores, o
levantamento por amostragem começou a ser pensado como forma alternativa de
levantamento.
As implicações para aplicação de um destes dois métodos devem ser bem avaliadas e
compreendidas. Segundo Bussab (2000), o uso de censo é recomendado quando a população é
pequena, quando a coleta das informações é barata ou quando existe um alto custo em tomar
decisões erradas. O bom senso deve prevalecer em algumas decisões. Por exemplo, quando a
população for pequena e a precisão estatística desejada sugerir uma amostra maior do que a
metade da população é bem razoável fazer um censo desde que os custos permitam. Em
contraposição, deve-se usar amostragem quando a população é muito grande e/ou o custo (em
dinheiro ou tempo) de obter a informação é alto.
Os conjuntos de dados podem ser classificados de duas maneiras: pela sua natureza e
pela forma de mensuração. Na disiciplina MAT221 – Estatística Básica foi apresentada apenas
a classificação pela natureza que aqui será revisada rapidamente no item 6.1.. A seguir serão
apresentadas as diversas formas de mensuração dos dados.
Nominal
Qualitativa
Ordinal
Tipos de variáveis
Quantitativa Discreta
Contínua
Variável qualitativa ordinal – quando existe uma certa ordenação nos possíveis
resultados das observações efetuadas. Exemplos: grau de escolaridade (1° grau; 2°
grau; e 3° grau); classe social (alta, média e baixa); porte de uma empresa (micro,
pequena, média e grande); etc..
Para resumir as informações levantadas durante uma pesquisa usaremos a técnica mais
apropriada, a depender do tipo de variável que estamos analisando. Essas técnicas serão vistas
durante o Curso de Estatística.
Escala nominal ou classificadora - “Quando números ou outros símbolos são usados para
identificar os grupos a que vários objetos pertencem, esses números ou símbolos constituem
uma escala nominal ou classificadora.”6 Ou seja, quando os números ou símbolos não têm
significado quantitativo. Esta escala nominal envolve apenas relações de igualdade e diferença
entre grupos e não é possível fazer comparações dentro de em mesmo grupo.
Exemplos:
• sexo (masculino, feminino);
• tipo de voz (grave, aguda);
• bom - mau;
• sim – não.
Escala ordinal - Como na escala nominal, a escala ordinal permite verificar semelhanças e
diferenças entre grupos. Porém, pode ocorrer que os grupos de classificação não sejam apenas
diferentes mas também apresentem uma certa relação entre eles do tipo: mais alto do que;
preferível a; mais difícil do que; etc.. Se a relação “maior do que” (simbolizada como >), é
válida para todos os pares de classes temos um escala ordinal.
Exemplos:
• classe social (alta, média e baixa) - a relação maior status social é válida para
qualquer par de classe e os membros de uma classe têm o igual status social;
• intensidade do som (lento, normal, rápido)
6SIEGEL, p.23.
UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
12
Embora ainda um método simples de mensuração, a escala ordinal permite fazer uma
ordenação por categorias dando maior robustez a este tipo de escala. Novamente, as
estatísticas não-paramétricas são as mais indicadas.
Escala intervalar - “Quando a escala tem todas as características de uma escala ordinal, e
quando, além disso, se conhecem as distâncias entre dois números quaisquer da escala, então
consegue-se uma mensuração consideravelmente mais forte que a ordinal. Obtém-se, nesse
caso, uma mensuração no sentido de uma escala intervalar. Isto é, se nossa fixação das
diversas classes de objetos é tão precisa a ponto de sabermos exatamente quão grandes são os
intervalos (distâncias) entre todos os elementos da escala, então atingimos o grau de
mensuração por intervalos. (…) Em uma escala intervalar, o ponto zero e a unidade de medida
são arbitrários.”7 O ponto zero ser arbitrário significa que não existe o zero absoluto.
Exemplos:
• a medição da temperatura – 40o C não é duas vezes mais quente do que 20o C;
• o calendário – o ano zero é um ano arbitrário;
• a distância entre duas cidades.
Escala de razões - “Quando uma escala tem todas as características de uma escala de
intervalos e, além disso, tem um verdadeiro ponto zero como origem, é chamada de escalas de
razões. Em uma escala de razões, a razão de dois pontos quaisquer da escala é independente
da unidade de mensuração.”8
Exemplos:
• a medição da intensidade do som;
• a medição da estatura de um indivíduo;
• a quantidade em quilograma do lixo descartado em residências num dia;
• duração em minutos de um filme.