Você está na página 1de 13

Universidade Federal da Bahia

Instituto de Matemática
Departamento de Estatística

NOTAS DE AULA DA DISCIPLINA

MAT222

ANÁLISE DESCRITIVA
E EXPLORATÓRIA DE DADOS

Professora: Lia Terezinha L. P. Moraes

Novembro de 2002
1

UFBA - Instituto de Matemática


Departamento de Estatística

MAT222 - Análise Descritiva e Exploratória de Dados


Notas de Aula

Lia Terezinha L. P. de Moraes


Novembro de 2002

I - INTRODUÇÃO

1. INFORMAÇÕES HISTÓRICAS1

Como disciplina científica, a Estatística se estruturou no século passado, mas já era


conhecida e aplicada em forma rudimentar desde a Antigüidade.

A configuração atual da Estatística significa a culminância de um processo em que se


podem distinguir, como primordiais, quatro antecedentes que se desenvolveram de forma
independente e a seguir confluíram, mediante a obra de LAPLACE e seus continuadores, para
um só corpo de doutrina e uma metodologia. Em seguida, referir-nos-emos a estes quatro
antecedentes, apresentando-os na ordem cronológica que lhes corresponde:

1°) Já nas antigas civilizações se realizavam levantamentos estatísticos, de caráter rudimentar,


por certo. No Egito, devido às inundações do Nilo, anualmente se efetuavam trabalhos
cadastrais e censitários, que permitiam conhecer a repartição da propriedade e dos bens, a fim
de que fossem restituídos após as inundações. A Bíblia refere-se a censos do povo hebreu.
Também se sabe que os gregos levantavam censos demográficos e da propriedade. Na época
do Império Romano foi necessário realizar, de forma periódica e sistemática, censos de bens e
de pessoas dos povos submetidos ao Império, com vistas às aplicação do regime de impostos.

Na época moderna a técnica censitária adquiriu grande desenvolvimento, chegando a


constituir-se em eficaz auxiliar das tarefas de governo, particularmente na Alemanha, onde já
no século XVIII era ensinada nas universidades. Um dos professores da Universidade de
Gotinga, ACHENWALL (1719 - 1772), foi, ao que parece, quem introduziu a palavra
“estatística”, atribuindo a este vocabulário o seguinte significado: “Ciência das coisas que
pertencem ao Estado, chamando Estado a tudo que constitui uma sociedade civil e ao país em

1Texto reproduzido de: TORANZOS, Fausto I. Estatística. Ed. Mestre Jou, São Paulo, 1969. p. 1 - 4.
UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
2

que ela habita, com tudo quanto se encontra de ativo e efetivo; a Estatística ocupa-se dos
fenômenos que podem favorecer ou defender a prosperidade do Estado”, e acrescenta: “a
política ensina como devem ser os Estados, a Estatística explica como o são realmente”. Esta
definição condensa o pensamento da corrente conhecida com o nome de “Estatística
universitária”, caracterizada por considerar a Estatística como método descritivo, que consiste
na recontagem de dados, e criada para servir às necessidades dos Estados.

2°) O segundo antecedente histórico encontramo-lo nos meados do século XVII. Os estudos
estatísticos recebem uma contribuição de suma importância, que se pode considerar como
ponto de partida da atual estruturação da Estatística como método de investigação dos
fenômenos coletivos. Referimo-nos aos trabalhos realizados por John GRAUNT (1620 -
1674), vendedor de tecidos de Londres, homem de modesto preparo, mas dotado de grande
inteligência, graças à qual pôde realizar trabalhos que lhe valeram a honra de ser incorporado
como membro da Sociedade Real.

GRAUNT, utilizando dados demográficos (nascimentos, mortes, casamentos, etc.)


reunidos nas paróquias de Londres, conseguiu realizar estudos que lhe permitiram descobrir,
por inferências, relações e leis demográficas de validez permanente, chegando, inclusive, a
estimar com boa aproximação, por via indireta, a população de Londres e de outras cidades
inglesas. A importância destes estudos enraíza-se no estabelecimento da possibilidade de obter
leis que rejam o comportamento de populações numerosas, em face de atributos tais como os
demográficos, econômicos e sociais. Nos trabalhos de GRAUNT já se insinua o que haveria
de constituir o fundamento dos métodos atuais de inferência, que deram à Estatística
possibilidade de estudar os fenômenos coletivos, e que constituem o capítulo mais interessante
dessa disciplina e um dos métodos de investigação mais patentes com que conta o moderno
investigador das ciências humanas e também das físico-naturais. GRAUNT é, portanto, o
verdadeiro precursor da Estatística de nossos tempos.

Numerosos discípulos continuaram a obra de GRAUNT, devendo citar-se


particularmente William PETTY (1627 - 1687) e SÜSMILCH (1707 - 1767). O primeiro foi,
na Inglaterra, o continuador da obra de GRAUNT; em sua principal obra, Aritmética política,
deu numerosas aplicações do método de GRAUNT, contribuindo para difundi-lo na Inglaterra.
SÜSMILCH, sacerdote alemão, também foi admirador e continuador de GRAUNT; escreveu a
obra intitulada Ordem divina, na qual tratava de dar explicação mística do método estatístico
de GRAUNT, efetuando ao mesmo tempo interessantes contribuições matemáticas para o
método e colaborando de forma muito eficaz para o conhecimento e difusão desse método no
continente europeu. Sintetizando, diremos que a obra de GRAUNT e seus continuadores
constitui o verdadeiro ponto de partida da orientação da Estatística como método de
investigação dos fenômenos de massa.

3°) Paralelamente ao desenvolvimento da Estatística, como disciplina científica, mas de forma


independente, desenvolveu-se, a partir do século XVII, o Cálculo da Probabilidades. Seus
iniciadores são os matemáticos italianos e franceses desse século, particularmente FERMAT e
PASCAL, que iniciaram os estudos do Cálculo das probabilidades, tratando de resolver
problemas de jogos de azar propostos pelo cavaleiro de MÉRÉ. Pouco a pouco outros
UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
3

matemáticos, e posteriormente os do século XVIII, foram interessando-se por este tipo de


estudos e ampliando os resultados, até que Tiago BERNOULLI (1654 - 1705) obteve o
teorema que se conhece com seu nome e que permitiu estruturar o Cálculo das probabilidades
como disciplina orgânica. Pelos fins do século XVIII e princípios do XIX, os trabalhos de
LAPLACE permitiram dar sua estruturação definitiva ao Cálculo das probabilidades; em suas
obras Teoria analítica da probabilidade (1818) e Ensaio filosófico sobre as probabilidades
(1814) completou a obra de BERNOULLI e seus continuadores, provendo o Cálculo das
probabilidades de recursos matemáticos que haveriam de levá-lo, mediante a obra do próprio
LAPLACE e de outros matemáticos como POISSON, GAUSS, etc., a um grau de
aperfeiçoamento que o tornou apto para as aplicações a diversos campos da ciência e muito
especialmente à Estatística.

A partir de LAPLACE, as duas disciplinas, Cálculo das probabilidades e Estatística,


que até então haviam permanecido separadas, fundiram-se de maneira que o Cálculo das
probabilidades constitui a andaimaria matemática da Estatística, pela qual esta pôde tomar o
impulso teórico que haveria de levá-la ao extraordinário desenvolvimento e aperfeiçoamento
que alcançou no século passado e no presente. O impulso que levou ao atual estado de
desenvolvimento do Cálculo das probabilidades, produzido entre fins do século passado e
princípios do presente, deve-se principalmente a franceses, russos e norte-americanos, com a
colaboração de alemães, escandinavos, ingleses, italianos, etc.

4°) Juntamente com o Cálculo das probabilidades e a ele ligado, desenvolveu-se a teoria dos
erros, especialmente por obra de GAUSS, BESSEL e do próprio LAPLACE, que chegaram a
estabelecer o método dos mínimos quadrados como processo matemático para resolver o
problema fundamental da teoria dos erros.

O desenvolvimento da teoria dos erros é um valioso antecedente da Estatística, visto


como suas conclusões e métodos serviram de modelo aos trabalhos que posteriormente
realizaram QUETELET e outros estatísticos do século passado. Diremos, mais propriamente,
que a teoria dos erros constitui o primeiro ramo da Estatística que pôde constituir-se com
estruturação teórico-matemática.

A partir da obra de LAPLACE e GAUSS, a Estatística adquiriu, pelos meados do


século passado, um grande impulso, por obra de vários criadores, entre os quais merece
especial menção Adolfo QUETELET, astrônomo belga que trabalhou durante muitos anos
realizando notáveis aplicações estatísticas, e com ela abriu, para esta disciplina, mui vasto
campo de possibilidades, tanto em questões sociais, demográficas e econômicas, como em
ciências biológicas, questões climáticas, antropológicas, etc.

Em todas elas QUETELET realizou notáveis aplicações, levando à Estatística a


constituir-se em método de investigação dos fenômenos coletivos e em valioso auxiliar nos
problemas do governo, sejam econômicos, sanitários, demográficos, etc. Entre as numerosas
obras de QUETELET merece citação Sur l’homme (1835). Nesta época a Estatística se
circunscrevia ao capítulo que hoje conhecemos como séries de freqüências, e dentro desse
capítulo se utilizavam unicamente as aproximações mediante a função normal de GAUSS.
UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
4

LEXIS, estatístico alemão de fins do século passado, ampliou os estudos de QUETELET,


provando que não era somente a curva normal que podia servir de modelo a uma série de
freqüências. Esta corrente de idéias se desenvolveu e completou depois pelos trabalhos de
numerosos investigadores, dentre os quais cabe salientar PEARSON e CHARLIER.

Iniciados pela escola de estatísticos ingleses e depois continuados em outros países,


desenvolveram-se entre os últimos anos do século passado e os que já decorrem do presente,
os modernos setores da Estatística e, justamente com a teoria, as aplicações, daí resultando
que esta disciplina chegasse a constituir-se em um dos mais potentes métodos de investigação,
tanto nas ciências sociais como nas físico-naturais.

Os capítulos mais importantes da Estatística moderna são, além dos já citados das
séries de freqüências, a teoria da correlação e regressão, a teoria das amostras e a teoria das
séries do tempo e dos processos estocásticos. Estas teorias tiveram início nos trabalhos da
escola estatística inglesa, devendo citar-se, especialmente dentro dela, os nomes de GALTON,
PEARSON e R. A. FISHER, cujos trabalhos marcam o ponto de partida das correntes de
investigação que levaram a Estatística ao alto grau de desenvolvimento em que hoje se
encontra. Os três atuaram sucessivamente; GALTON criou, entre outras teorias, a de
regressão, que com a de correlação, desenvolvida por PEARSON, constituem um dos mais
fecundos capítulos nas aplicações da Estatística. Nos últimos anos do século passado, e mais
intensamente nos primeiros do presente, apareceram os trabalhos de PEARSON, que
configuram uma obra variada e mui extensa, deixando estampado o selo da genialidade em
todos os capítulos da Estatística, aperfeiçoando teorias existentes e contribuindo com
numerosas criações, entre as quais citaremos, por sua importância, o sistema de curvas que
leva seu nome, para o estudo das séries de freqüências; a contribuição capital que constitui sua
teoria sobre provas de significância e outras contribuições que serviram para configurar a
estrutura da teoria das amostras, teoria que se estruturou a partir de seus trabalhos e dos seus
discípulos.

No decurso do século XX, a obra de Karl PEARSON teve destacados continuadores,


dentre os quais sobressai Ronald A. FISHER, seguramente a figura mais proeminente da
Estatística de todos os tempos. Em 1950, ao completar 60 anos, tributou-se-lhe a homenagem
de reunir seus trabalhos originais em um livro; examinando esta obra podemos avaliar a
fecundidade de sua criação. Para ressaltar o ponto fundamental de sua obra diremos que se
PEARSON foi o iniciador da teoria da inferência estatística, foi FISHER quem a desenvolveu
e estruturou em forma rigorosa, com a colaboração de seus discípulos; em particular a teoria
das pequenas amostras e da estimativa adquiriram, com FISHER, a estruturação com a qual as
conhecemos no presente.

UFBA – Instituto de Matemática – Departamento de Estatística


Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
5

Ao redor dos três nomes citados, numerosos discípulos na Inglaterra e outros países
têm trazido importantes colaborações, especialmente nos Estados Unidos, na Suécia, na
França, na Rússia e na Alemanha.

Chegou-se, assim, ao estado atual; em todas as nações cientificamente desenvolvidas


se trabalha intensamente em investigações teóricas e de aplicação; todos os capítulos da
Estatística se renovam e ampliam diariamente, enquanto ao mesmo tempo se aperfeiçoam seus
processos de aplicação em diversos campos do conhecimento.

2. CONCEITO DE ESTATÍSTICA2

Não tentaremos definir Estatística, porque os conceitos fundamentais não têm


definição explícita ou, se a têm, não é suficientemente clara para dar-nos idéia acabada de seu
significado. Por isso trataremos de apresentar uma caracterização conceitual sucinta, que situe
o leitor, embora em forma aproximada, no panorama amplo e fecundo que nossa disciplina
apresenta.

O objeto dos estudos estatísticos está nos fenômenos que se referem a populações mui
numerosas, formada por indivíduos semelhantes com respeito a um atributo. Por populações
entendemos um conjunto qualquer de objetos, pessoas ou acontecimentos. Verifica-se amiúde,
que se desejamos estudar o comportamento de populações numerosas, a respeito de uma
propriedade ou característica, os métodos deterministas são inaplicáveis em face da extrema
complexidade do fenômeno, pelo que se costuma dizer que este se acha regido ou influído
pelo acaso. É então quando a Estatística, apoiada no Cálculo das probabilidades, se faz
presente, e mediante um esforço de síntese, que é característico de seus métodos, introduz
estudos referentes ao comportamento médio do indivíduo, logrando, dessa forma, superar a
indeterminação que se manifesta nos casos particulares. Desta forma, a Estatística e o Cálculo
das probabilidades chegaram a constituir-se no caminho eficaz para investigar o
comportamento dos fenômenos de massa. A esse respeito diz DARMOIS: “A Estatística tende
a recolher, caracterizar numericamente e coordenar grupos de fatos, grupos geralmente
numerosos, fatos geralmente complexos”.

3. O CONHECIMENTO ESTATÍSTICO3

O método tradicional das ciências físico-naturais nos apresenta a lei científica como
uma relação entre os fenômenos, concebida dentro do esquema determinista causal, que se
baseia num encadeamento em que a relação causa-efeito pressupõe nexos definidos em forma
unívoca e imutável. Este método deu resultados muito interessantes, permitindo que a ciência

2Texto reproduzido de: TORANZOS, Fausto I. Estatística. Ed. Mestre Jou, São Paulo, 1969. p. 5.
3Texto reproduzido de: TORANZOS, Fausto I. Estatística. Ed. Mestre Jou, São Paulo, 1969. p. 5.
UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
6

chegasse ao estado em que se conheceu no século passado. Não obstante, muitos fenômenos
que se referem ao comportamento de populações numerosas não são suscetíveis de tratamento
por este método; ao contrário, manifestam-se insubmissos a leis sistemáticas ou, em outras
palavras, estão regidos ou influídos pelo acaso; são fenômenos aleatórios. O característico dos
fenômenos aleatórios é que, em situações idênticas, é possível obter-se comportamentos
diversos dos indivíduos, ao contrário do princípio determinista, que exige idênticos resultados
como conseqüência de situações iguais. Nesse momento se fazem presentes os métodos
probabilísticos ou estocásticos, que não buscam a lei dos comportamento dos indivíduos,
senão no que corresponde ao termo médio de uma grande massa de indivíduos, e ali
encontram leis estáveis, que podem constituir base de uma estruturação científica mais ampla
que a determinista causal.

Os métodos de FERMAT, PASCAL e seus continuadores aplicavam aos jogos de azar


e os procedimentos análogos aos que usava J. GRAUNT na demografia, e mais tarde
LAPLACE, QUETELET e outros estatísticos, haveriam de proporcionar o caminho para
encarar problemas ante os quais a metodologia clássica se sentia importante.

A importância dos métodos capazes de estudar fenômenos aleatórios se fez patente na


Física com BOLTZMAN, na Biologia com GALTON e PEARSON, e na Economia com
COURNOT, e assim foi, aos poucos, abrangendo os mais diversos campos do conhecimento.
Sua eficácia se manifesta toda a vez que se trata de populações numerosas.

O método estatístico, em seu aspecto inicial, consiste em recolher dados, geralmente


em grande número, referentes ao comportamento dos indivíduos da população, a respeito do
fenômeno que se estuda. Esses dados, convenientemente classificados e tabulados, servem de
base para a elaboração matemática, que conduz à obtenção de resultados e leis que expressam
modalidades características do comportamento médio da população. A Estatística atinge,
assim, seu primeiro objetivo: descrever. Amiúde isso não basta, e se torna necessário pensar
em predizer o comportamento médio de uma população no futuro, apoiando-se no
conhecimento do presente e do passado; este problema é mais difícil, contudo em sua solução
se tem obtido importantes resultados por via inferencial; é a predição estatística.

O desenvolvimento da ciência, no período clássico, tem como procedimento a indução,


que é um princípio de economia de esforços, porque da observação de fenômenos particulares
se chega ao estabelecimento de resultados gerais. Também nos métodos estatísticos
encontramos procedimentos similares à indução, que constituem a teoria das amostras,
conjunto de técnicas que, por via inferencial, permite estabelecer resultados válidos para
populações numerosas, partindo de observações do comportamento de uma pequena parte da
população, chamada amostra, que sob certas condições se torna representativa de toda a
população.

O aperfeiçoamento da metodologia estatística trouxe, juntamente, a ampliação do


campo de suas aplicações; dessa forma, ao domínio dos métodos estatísticos se foram
incorporando capítulos da Física, da Astronomia, da Química, da Biologia, da Psicologia, da
Pedagogia; métodos racionais de cultivos, de genética e muitas outras questões agronômicas;
UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
7

setores de experimentação médica, numerosas aplicações nas ciências sociais e, muito


especialmente, na Economia, na atividade industrial e no trabalho governamental.4

A rápida enunciação feita no parágrafo anterior dá uma idéia da importância que


adquiriram em nossos dias a Estatística e o Cálculo das probabilidades, como modalidades do
pensamento científico, pela eficácia dos resultados e a amplitude de suas possibilidades.

4. POPULAÇÃO E AMOSTRA

No item anterior foram abordados os conceitos de população e amostra. Na disicplina


MAT221 – Estatística Básica também foram vistos estes conceito. Vamos, aqui, apenas
reforçar estes conceito pois são fundamentais no aprendizado da Estatística.

População ou universo - designam uma coleção de todos os objetos, indivíduos ou


informações que apresentam pelo menos uma característica em comum, cujo comportamento
interessa-nos analisar.

Exemplos:

i) Deseja-se estudar os salários mensais pagos no setor industrial baiano no ano de 2002.
População ou universo – conjunto de todos os trabalhadores alocados nas indústrias
localizadas no Estado da Bahia em 1994.
Característica que interessa analisar - salários pagos a esses trabalhadores.

ii) Estudo sobre a incidência do vírus HIV em adolescentes na cidade de Salvador nos dez
últimos anos.
População ou universo – conjunto de todos os adolescentes residentes em Salvador no
período citado.
Característica que interessa analisar - ser ou não soropositivo do HIV.

A Estatística ocupa-se fundamentalmente das propriedades das populações cujas


características são passíveis de representação numérica como resultado de medições e
contagens. Essas características da população são comumente chamadas de variáveis.

Quanto ao número de elementos, a população pode ser finita ou infinita, dependendo se


o número de elementos que a compõem for finito ou infinito.

4Até na Literatura a Estatística tem apresentado uma situação destacada. Curiosos trabalhos estatísticos,
estudando a extensão dos períodos, as coincidências, as pontuações e o estilo, permitiram identificar de forma
insofismável KEMPIS, e não GERSON, como autor da “Imitação de Cristo”. (Informação extraída de
VIVEIROS DE CASTRO, Lauro Sodré. Pontos de Estatística. Ed. Didática e Científica, Rio de Janeiro, 18a.
Edição. p. 19)
UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
8

Exemplos:

i) População finita - número de nascimentos no Brasil nos últimos cinco anos.

ii) População infinita - as pressões atmosféricas ocorridas nos diversos pontos do Continente
em determinado momento.

Vale lembrar que algumas população finitas podem apresentar um número de


elementos tão elevado de elementos que, teoricamente, podemos considerá-las como
populações infinitas, facilitando-se assim a discussão teórica de um grande número de
problemas, sem introduzir erros consideráveis.

Amostra - subconjunto finito da população.

Para garantirmos a representatividade da amostra existe um conjunto de técnicas que


deixam ao acaso a indicação dos elementos do universo que devem ser incluídos na amostra.
O uso da amostra é útil não apenas quando trabalhamos com populações infinitas, mas
também quando o levantamento dos dados apresenta custos elevados; ou quando o
levantamento completo (censitário) demanda muito tempo gerando uma grande defasagem nos
resultados obtidos; ou, ainda, quando se faz necessário destruir o elemento durante o processo
de observação. É o caso de uma indústria de lâmpadas que deseja controlar a qualidade de seu
produto; não teria sentido observar todas as lâmpadas produzidas para verificar o tempo de
vida médio da lâmpada.

“A amostragem é um processo utilizado há muitos anos, baseando-se na experiência e na


intuição a idéia de que uma amostra pode informar sobre as propriedades do universo.
Tipicamente, é o que sucede quando se prova um bolo comendo uma fatia ou se sonda a
temperatura da água da piscina mergulhando a ponta do pé.”5

5. LEVANTAMENTOS CENSITÁRIOS E LEVANTAMENTOS POR


AMOSTRAGEM

As informações estatísticas podem ser obtidas de diferentes maneiras. Uma das


formas mais antigas de levantamento de dados é através da realização de censos os quais, por
definição, pesquisam todas as unidades pertencentes à população para o qual foi planejado.
Essas unidades podem ser pessoas, famílias, fábricas, fazendas, etc.

5MURTEIRA & BLACK. p. 8.


UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
9

Em virtude desta definição, a idéia que se tem dos resultados divulgados por um
censo é que estes são precisos, ou seja, isentos de erros. Porém, à medida que passam a ser
considerados alguns aspectos envolvidos nestes levantamentos, constata-se de imediato que
esta idéia é errônea e que os resultados divulgados por um levantamento censitário estão
sujeitos a erros. Os erros mais freqüentes em levantamentos censitários são os relacionados à
identificação correta da área onde o recenseador trabalha e ao levantamento das informações
desejadas.

Visto que um censo pode não fornecer informações exatas, além do alto custo
envolvido para sua realização, da demora na divulgação dos resultados e de outros fatores, o
levantamento por amostragem começou a ser pensado como forma alternativa de
levantamento.

Os levantamentos por amostragem consistem em trabalhar, dentro de certos critérios,


com uma parte da população selecionada ao acaso. Tomando por base esta investigação é
possível realizar inferência para a população como um todo. Como este trabalho é feito apenas
com uma parte da população e a inferência é feita para o todo, este tipo de levantamento estará
sujeito a um erro chamado de erro de amostragem ou erro amostral. Os erros de
amostragem normalmente decrescem com o tamanho da amostra.

Uma pesquisa por amostra, executada em concordância com certos princípios


estatísticos, permite estimar parâmetros da população e também obter uma estimativa válida
do erro de amostragem para o parâmetro estimado. Se nos censos não existe o erro de
amostragem, pois por definição toda população é estudada, ocorrem outros tipos de erros,
chamados erros não amostrais, e que são comuns tanto nos censos como em pesquisas por
amostra. O comportamento do erro não amostral é o oposto ao do erro de amostragem, ou seja,
o erro não amostral aumenta à medida que cresce o número de questionários a serem aplicados
uma vez que é preciso adotar uma melhor organização de campo, um melhor treinamento, uma
melhor supervisão na coleta dos dados e um maior controle na apuração.

As implicações para aplicação de um destes dois métodos devem ser bem avaliadas e
compreendidas. Segundo Bussab (2000), o uso de censo é recomendado quando a população é
pequena, quando a coleta das informações é barata ou quando existe um alto custo em tomar
decisões erradas. O bom senso deve prevalecer em algumas decisões. Por exemplo, quando a
população for pequena e a precisão estatística desejada sugerir uma amostra maior do que a
metade da população é bem razoável fazer um censo desde que os custos permitam. Em
contraposição, deve-se usar amostragem quando a população é muito grande e/ou o custo (em
dinheiro ou tempo) de obter a informação é alto.

UFBA – Instituto de Matemática – Departamento de Estatística


Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
10

6. CLASSIFICAÇÃO DOS DADOS

Os conjuntos de dados podem ser classificados de duas maneiras: pela sua natureza e
pela forma de mensuração. Na disiciplina MAT221 – Estatística Básica foi apresentada apenas
a classificação pela natureza que aqui será revisada rapidamente no item 6.1.. A seguir serão
apresentadas as diversas formas de mensuração dos dados.

6.1. Tipos de variáveis

A investigação de uma característica (variável) de uma população ou universo, quanto


à sua natureza, pode gerar um conjunto de dados numério e não-numéricos e que é possível
classificar o conjunto de informações em qualitativas e quantitativas.

  Nominal
Qualitativa 
 Ordinal
Tipos de variáveis 
Quantitativa Discreta
 
 Contínua

Variáveis qualitativas – quando o resultado da observação é apresentado na forma de


qualidade ou atributo e podem ser organizadas em dois grupos:

Variável qualitativa nominal – quando não existe qualquer ordenação para os


resultados obtidos do processo de observação. Exemplos: sexo (feminimo e
masculino); estado civil (solteiro, casado, viúvo, etc.); etc..

Variável qualitativa ordinal – quando existe uma certa ordenação nos possíveis
resultados das observações efetuadas. Exemplos: grau de escolaridade (1° grau; 2°
grau; e 3° grau); classe social (alta, média e baixa); porte de uma empresa (micro,
pequena, média e grande); etc..

Variáveis quantitativas – quando o resultado da observação é um número, decorrente de um


processo de mensuração ou contagem. Também apresenta dois grupo, a saber:

Variável quantitativa discreta – quando os resultados possíveis da observação


formam um conjunto finito ou infinito enumerável de números e que resultam,
freqüentemente, de uma contagem. Exemplos: número de filhos (0, 1, 2, ...); tamanho
da família (1, 2, 3, ...)

UFBA – Instituto de Matemática – Departamento de Estatística


Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
11

Variável quantitativa contínua – quando os possíveis valores formam um intervalo


ou uma união de intervalos de números reais e que resultam, normalmente, de uma
mensuração. Exemplos: salário mensal; altura; peso.

Para resumir as informações levantadas durante uma pesquisa usaremos a técnica mais
apropriada, a depender do tipo de variável que estamos analisando. Essas técnicas serão vistas
durante o Curso de Estatística.

6.2. Escalas de mensuração

Existem quatro tipos de escala de mensuração:

• Escala nominal ou classificadora;


• Escala ordinal ou por postos;
• Escala intervalar; e
• Escala de razão.

Escala nominal ou classificadora - “Quando números ou outros símbolos são usados para
identificar os grupos a que vários objetos pertencem, esses números ou símbolos constituem
uma escala nominal ou classificadora.”6 Ou seja, quando os números ou símbolos não têm
significado quantitativo. Esta escala nominal envolve apenas relações de igualdade e diferença
entre grupos e não é possível fazer comparações dentro de em mesmo grupo.

Exemplos:
• sexo (masculino, feminino);
• tipo de voz (grave, aguda);
• bom - mau;
• sim – não.

A escala nominal representa a escala mais simples de medição e apenas as estatísticas


não-paramétricas são apropriadas para este tipo de mensuração.

Escala ordinal - Como na escala nominal, a escala ordinal permite verificar semelhanças e
diferenças entre grupos. Porém, pode ocorrer que os grupos de classificação não sejam apenas
diferentes mas também apresentem uma certa relação entre eles do tipo: mais alto do que;
preferível a; mais difícil do que; etc.. Se a relação “maior do que” (simbolizada como >), é
válida para todos os pares de classes temos um escala ordinal.

Exemplos:
• classe social (alta, média e baixa) - a relação maior status social é válida para
qualquer par de classe e os membros de uma classe têm o igual status social;
• intensidade do som (lento, normal, rápido)
6SIEGEL, p.23.
UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes
12

• grau de escolaridade (1o grau; 2o grau; e 3o grau).

Embora ainda um método simples de mensuração, a escala ordinal permite fazer uma
ordenação por categorias dando maior robustez a este tipo de escala. Novamente, as
estatísticas não-paramétricas são as mais indicadas.

Escala intervalar - “Quando a escala tem todas as características de uma escala ordinal, e
quando, além disso, se conhecem as distâncias entre dois números quaisquer da escala, então
consegue-se uma mensuração consideravelmente mais forte que a ordinal. Obtém-se, nesse
caso, uma mensuração no sentido de uma escala intervalar. Isto é, se nossa fixação das
diversas classes de objetos é tão precisa a ponto de sabermos exatamente quão grandes são os
intervalos (distâncias) entre todos os elementos da escala, então atingimos o grau de
mensuração por intervalos. (…) Em uma escala intervalar, o ponto zero e a unidade de medida
são arbitrários.”7 O ponto zero ser arbitrário significa que não existe o zero absoluto.

Exemplos:
• a medição da temperatura – 40o C não é duas vezes mais quente do que 20o C;
• o calendário – o ano zero é um ano arbitrário;
• a distância entre duas cidades.

Esta escala é uma escala verdadeiramente quantitativa e é possível a aplicação de todas


as estatísticas paramétricas comuns (médias, desvios padrões, correlações de Pearson, etc.)
assim como os testes paramétricos comuns (teste t, teste F, etc.) em dados neste tipo de escala.
Os métodos não-paramétricos em geral não aproveitam toda a informação contida nos dados
pesquisados.

Escala de razões - “Quando uma escala tem todas as características de uma escala de
intervalos e, além disso, tem um verdadeiro ponto zero como origem, é chamada de escalas de
razões. Em uma escala de razões, a razão de dois pontos quaisquer da escala é independente
da unidade de mensuração.”8

Exemplos:
• a medição da intensidade do som;
• a medição da estatura de um indivíduo;
• a quantidade em quilograma do lixo descartado em residências num dia;
• duração em minutos de um filme.

Se a escala de mensuração utilizada é de razões, qualquer prova estatística é aplicável.

7SIEGEL (1979). p.28.


8SIEGEL (1979). p.31.
UFBA – Instituto de Matemática – Departamento de Estatística
Disicplina: MAT222 – Análise Descritiva e Exploratória de Dados
Lia Terezinha L. P. Moraes

Você também pode gostar