Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTATÍSTICA
1.0. INTRODUÇÃO
É comum observarmos em jornais, revistas e em sites da internet publicações de pesquisas que levam
em conta a coleta, o processamento, a interpretação e a apresentação de dados numéricos, elementos
que pertencem ao domínio da Estatística. Essas publicações se dão através de tabelas e gráficos. Sob a
palavra estatística, provavelmente derivada da palavra “status” (estado, em latim) significa Estado, pois as
informações coletadas antigamente eram todas relativas ao Estado.
Embora a palavra estatística ainda não existisse, existem indícios de que há 3000 anos a.C. já se faziam
censos na Babilônia, China e Egito. A própria Bíblia, no livro quarto do Velho Testamento, intitulado
“Números”, começa com a seguinte instrução a Moisés: “Fazer um levantamento dos homens de Israel que
estivessem aptos a guerrear”
Na época do Imperador César Augusto, saiu um edito para que se fizesse o censo em todo o Império
Romano.
Em 1085, Guilherme, o Conquistador, ordenou que se fizesse um levantamento estatístico da
Inglaterra, que deveria incluir informações sobre terras, proprietários, empregados e animais com o objetivo
de recolhimento de impostos.
No século XVII, ganhou destaque na Inglaterra, a partir das Tábuas de mortalidade de Jonh Graunt e
William Petty, a aritmética política que consistiu de exaustivas análises de nascimentos e mortes.
Em 1708, foi organizado o primeiro curso de Estatística na Universidade de Yena, na Alemanha.
A palavra Estatística foi cunhada pelo alemão Gottfried Achenwall, em 1740.
Com o desenvolvimento da teoria da probabilidade a estatística deixa de ser uma simples tabulação de
dados numéricos para se tornar o estudo de como se chegar a uma conclusão sobre uma população, partindo
da observação de partes dessa população, essa união entre Estatística e Probabilidade ocorreu em meados do
século XIX através do uso da probabilidade. Esse caráter científico ocorreu já no século XVIII.
Outro marco importante no desenvolvimento dos métodos estatísticos foi o advento da informática
onde muitas funções gráficas e métodos de cálculos estatísticos foram incorporados em planilhas como
Microsoft Excel.
Concluímos então que, historicamente, o crescimento e o desenvolvimento da estatística moderna
estiveram relacionados a três fenômenos isolados:
a) Necessidade do governo de coletar dados sobre seu povo;
b) O desenvolvimento da teoria da probabilidade;
c) O advento da informática.
b) Planejamento – como levantar informações? Que dados deverão ser obtidos? Quais os custos
envolvidos? Qual o cronograma de atividades?
c) Coleta de dados – registro sistemático de dados, com um objetivo determinado, pode ser
desenvolvida de forma direta (obtida diretamente da fonte) ou indireta (por deduções a partir de
elementos da coleta direta, por analogia, indícios). Os dados aqui coletados podem ser:
- Primários (quando são publicados pela própria pessoa ou organização que os haja colhido, por
exemplo, o censo demográfico do IBGE).
- Secundários (quando são publicados por outra organização, por exemplo, um jornal ou revista
publica estatísticas referentes ao censo demográfico extraídas da pesquisa do IBGE)
d) Crítica dos dados – os dados obtidos devem ser criticados, eliminando-se assim incoerências e má
interpretação às perguntas dirigidas ao informante.
e) Apuração dos dados – resumo dos dados através de sua contagem e agrupamento, também chamada
tabulação, pode ser manual ou eletrônica.
f) Apresentação dos dados – Há duas formas: através de tabelas que obedecem a regras práticas fixadas
pelo Conselho Nacional de Estatística ou gráficos, que permitem de forma geométrica uma visão
rápida e clara do fenômeno.
g) Análise e Interpretação dos dados – está ligada essencialmente ao cálculo de medidas e coeficientes,
cuja finalidade é descrever o fenômeno (estatística descritiva) a interpretação dos dados fundamentada
na teoria das probabilidades pertence ao campo da (estatística inferencial).
População é o conjunto de indivíduos, objetos ou informações que apresentam pelo menos uma
característica comum cujo comportamento interessa-nos analisar, ou seja, conjunto de todos os resultados,
respostas, medidas ou contagens que possam fornecer dados ao fenômeno em estudo;
Exemplo. Num levantamento sobre satisfação por certo “pacote turístico”, que incluiu um total de 1500
clientes, 80 deles respondeu a seguinte pergunta: você considerou o tempo dos passeios adequados à proposta
desse pacote turístico? 36 clientes responderam que “sim”. Identifique a população, a amostra e descreva o
conjunto de dados.
Prof. Ivonaldo Pacheco Santana 2
A população consiste nas respostas de todos os clientes que participaram do pacote turístico e a amostra
consiste nas respostas dos 80 clientes que responderam ao questionário. O conjunto de dados consiste em 36
respostas ‘sim’ e 44 respostas ‘não’.
Censo é o exame completo de toda população. Quanto maior a amostra mais precisas e confiáveis
deverão ser as induções feitas sobre a população. Logo, os resultados mais perfeitos são obtidos pelo Censo.
Na prática, esta conclusão muitas vezes não acontece, pois o emprego de amostras, com certo rigor técnico,
pode levar a resultados mais confiáveis ou até mesmo melhores do que os que seriam obtidos através de um
Censo.
Exemplos:
a) A contagem de toda a população brasileira realizada pelo IBGE de dez em dez anos.
b) Quando estudamos o perfil dos clientes de uma pousada, aplicando um questionário de pesquisa a todos
os hóspedes.
Estatística descritiva é a parte da estatística que se preocupa somente com a coleta, descrição,
apresentação e análise sem tirar conclusões mais genéricas.
Exemplo. Suponha que tivéssemos colhido uma amostra de 30 contracheques de um total de 1200
funcionários de uma agência de turismo e viagens, e obtivéssemos a porcentagem de pessoas que tiveram
descontos por falta ou atrasos num mês considerado. É função da Estatística Inferencial generalizar este
resultado encontrado em 30 trabalhadores para os 1200.
1.6.1. DEFINIÇÕES:
Exemplo. Suponha que o salário médio de uma amostra de 30 contracheques de um total de 1200
funcionários de uma agência de turismo e viagens seja R$ 1900,00. Esse salário médio é uma estatística ou
estimador estatístico.
Estimação é o processo que usa resultados extraídos da amostra para produzir inferências sobre a
população da qual foi extraída.
1.7. VARIÁVEL
É uma característica qualquer de interesse associada à população ou à amostra para ser estudada
estatisticamente
medida de acordo com alguma escala. As variáveis podem ser de dois tipos:
Variável Qualitativa – quando seus valores são expressos por atributos ou qualidades. Subdivide-se em:
Qualitativa Nominal – quando não existe um sentido de ordenação entre seus possíveis valores:
a) região geográfica: norte, sul, centro-oeste, sudeste, nordeste.
b) sexo dos integrantes de uma amostra: masculino, feminino.
Qualitativa Ordinal – quando houver certa ordem ou hierarquia entre seus possíveis valores:
Variável Quantitativa – quando seus valores são de caráter numérico. Subdivide-se em:
Quantitativa Discreta – variável que pode assumir um número finito de valores num intervalo finito, ou
um número infinito enumerável de valores, seus valores são expressos geralmente através de números inteiros
não-negativos, resulta normalmente de contagens. Por exemplo:
Quantitativa Contínua – variável que pode assumir, teoricamente, quaisquer valores num certo
intervalo finito (número infinito não-enumerável de valores); resulta normalmente de uma mensuração e a
escala numérica de seus possíveis valores corresponde ao conjunto dos números reais. Por exemplo:
a) peso de um conjunto de crianças, ou seja: 10,5 kg; 12,4 kg; ...; 14,5 kg.
b) diâmetro externo de uma peça produzida por uma máquina: 2,54 mm; 2,55 mm; 2,56 mm.
1.8. EXERCÍCIO
Para coletar dados não tendenciosos, é importante que a amostra seja representativa da população.
Vejamos algumas técnicas de amostragem apropriadas para termos uma boa inferência sobre a população.
É aquela na qual toda amostra possível de mesmo tamanho tem a mesma chance de ser selecionada, ou seja,
os elementos são escolhidos por sorteio. Para obter esta amostra podemos utilizar um meio mecânico (“tabela
de números aleatórios”) ou eletrônico.
Exemplo. Suponha uma população de 300 alunos matriculados no curso de Saneamento Ambiental do IFS.
Obtenha uma amostra de 10% desses alunos para pesquisa dos níveis de colesterol, usando amostragem
casual.
Solução.
Quando a população se divide em estratos (subdivisões), convém que o sorteio dos elementos da
amostra leve em consideração tais estratos, daí obtemos os elementos da amostra proporcional ao número de
elementos desses estratos.
Exemplo. Uma população encontra-se dividida em 5 estratos, com tamanhos respectivamente, n1= 40, n2 =
55, n3 = 34, n4 = 60 e n5 = 41. Sabendo-se que, ao ser realizada uma amostragem proporcional estratificada,
o número total da amostra foi 46 elementos, determine o tamanho de cada estrato.
Exemplo. Uma clínica possui um fichário com o registro de 5250 pacientes e pretende selecionar uma
amostra de 250 pacientes. Obtenha, por meio da amostragem sistemática, os números das fichas dos 5
primeiros pacientes e o número da ficha do último paciente. Sabe-se que a primeira ficha sorteada foi a de
número 17 (x = 17).
É uma das formas de apresentação dos dados assumidos por uma ou mais variáveis, deve ter uma
forma objetiva e clara de se demonstrar o comportamento da variável em análise. É estruturada através de
traços horizontais que separam o título, o cabeçalho e o rodapé. Uma tabela compõe-se de:
Título – conjunto de informações no topo da tabela que respondem às perguntas: O quê? Quando?
Onde?
Cabeçalho – parte superior da tabela que especifica o conteúdo das colunas;
Coluna Indicadora – parte da tabela que especifica o conteúdo das linhas;
Corpo – conjunto de linhas e colunas onde registramos dados numéricos e informações;
Rodapé – local onde se registra a fonte dos dados e observações da tabela.
De acordo com a Resolução 886 da Fundação IBGE, nas casas ou células devemos colocar:
• um traço horizontal (⎯) quando o valor é zero, não só quanto à natureza das coisas, como
quanto ao resultado do inquérito;
• três pontos (...) quando não temos os dados;
• um ponto de interrogação (?) quando temos dúvida quanto à exatidão de determinado valor;
• zero (0) quando o valor é muito pequeno para ser expresso pela unidade utilizada. Se os valores
são impressos em números decimais, precisamos acrescentar à parte decimal um número
correspondente de zeros (0,0; 0,00; 0,000; ...).
São constituídas por dados obtidos nas diferentes categorias de uma mesma variável
Séries Conjugadas
Conjugando duas séries em uma única tabela obtemos uma tabela de dupla entrada. Ficam assim
criadas duas ordens de classificação: uma horizontal e uma vertical.
A série conjugada abaixo se classifica como geográfica – temporal
Uma vez coletados, os dados brutos ainda não se encontram prontos para análise, por não estarem
numericamente organizados. Para determinada variável em estudo, verificamos o número de vezes com
cada um de seus valores ocorre, esse número chama-se frequência absoluta ou frequência simples, nor
malmente indicada por fi . Definimos a frequência relativa como a razão entre cada valor absoluto
fi
assumido pela variável e o nº total de dados, ou seja: f r = . Podemos expressá-la em porcentagem
n
fi
definindo a frequência relativa percentual dada por f r (%) = 100 %
n
A organização de uma tabela de frequência pode se dá das seguintes formas:
Devemos optar por uma variável discreta na representação de uma série de valores quando o número
de elementos distintos da série for pequeno.
43 24 25 20 20 38 25 23 20 19 51 24 23 20
19 23 25 32 32 25 24 19 19 25 32 19 43 51
Elabore o rol dessas idades e em seguida construa uma distribuição de frequência da variável discreta
idade:
Devemos optar por uma variável contínua na representação de uma série de valores quando o
número de elementos distintos da série for grande. Isto ocorre quando os valores assumidos pela variável
pertencem a um determinado intervalo real, com pouca coincidência de valores. Neste caso, os dados serão
agrupados em classes ou intervalos, que podem ser do tipo aberto, semiaberto ou fechado.
Convencionaremos que cada intervalo construído será do tipo semiaberto (fechado à esquerda e
aberto à direita):
a |---- b significa [a, b[ = { x R | a x < b }
Exemplo. As idades de 25 estudantes de um curso superior do IFS – Campus Aracaju relacionadas abaixo:
29 – 40 – 41 – 19 – 43 – 24 – 27 – 23 – 29 – 36 – 25 – 22 – 30 – 28 – 38 – 32 – 35
31 – 48 – 26 – 22 – 32 – 46 – 37 – 21
19 - 21 - 22 - 22 - 23 - 24 - 25 - 26 - 27 - 28 - 29 - 29
30 - 31 - 32 - 32 - 35 - 36 - 37 - 38 - 40 - 41 - 43 - 46 - 48
b) Amplitude Total (A.T.) – diferença entre o maior e o menor valor da amostra, ou seja: A.T. =
X máx − X mín .
Temos: A.T. = 48 – 19 = 29 anos
c) Nº de classes (k) – embora não exista um critério rígido, podendo o pesquisador adotar o número de
intervalos ou classes de sua preferência, os critérios mais usuais são:
- Critério de Sturgers: k = 1 + 3,3. log n = 1 + 3,3.log 25 = 1+3,3 1,397 = 1+ 4,61 =5,61 6 classes,
onde n representa o total de elementos da amostra;
Adotando o critério da raiz, usaremos k = 5 classes.
d) Amplitude do intervalo de classe (h) – devemos adotar intervalos de mesma amplitude h, tal que
29
h AT . Para os valores acima, temos: h 5,8. Logo, devemos ter h = 6 .
k 5
Prof. Ivonaldo Pacheco Santana 9
A tabela de frequência correspondente é:
A coluna Xi indica o ponto médio da classe, cuja intenção é obter um valor representativo de classe.
a+b
É obtido através da média aritmética entre os extremos do intervalo, ou seja, xi =
h
ou xi = a + . Dessa
2 2
forma, x1 = 22 significa que as 6 idades do intervalo 19 |----- 25 podem ser consideradas como 22 anos.
29
Amplitude de classe: h 4,8 . Logo, devemos ter h = 5.
6
Frequência Acumulada Relativa ( Fri ) - representa a razão entre frequência acumulada da classe a
Fi
frequência total Fri = .100 %
n
1 19 |----- 25 6 24 22 6 24
2 25 |----- 31 7 28 28 13 52
3 31 |----- 37 5 20 34 18 72
4 37 |----- 43 4 16 40 22 88
5 43 |----- 49 3 12 46 25 100
Total 25 100% --- --- ---
Convém que façamos a interpretação das frequências obtidas. Suponha a linha (i = 3) da tabela:
Das 25 idades, verificou-se que 5 delas estão no intervalo de 31|---- 37 anos representando 20% do
total das idades. Também é possível afirmar que 18 idades ou 72% são inferiores a 37 anos.
Exemplo. O rol abaixo corresponde ao nível de barulho, medido em decibéis (dB) em 28 horários
diferentes num determinado local de trabalho:
60 65 68 69 72 74 75 77 78 82 83 83 85 87
90 90 91 94 94 95 97 100 102 107 108 110 112 115
Utilize o critério da raiz ( k = n ) para elaborar uma distribuição de freqüência com classes de amplitudes
constantes a partir do menor elemento do rol. Apresente as freqüências: absoluta, relativa percentual e a
freqüência acumulada.
Outra forma de apresentação da organização, resumo e descrição de um conjunto de dados ocorre através
dos gráficos estatísticos. Esses devem contribuir com conclusões sobre a evolução do fenômeno em estudo
ou sobre como se relacionam os valores da série, devem ser autoexplicativos e de fácil compreensão.
O gráfico deverá possuir título, fonte, notas e legenda que constituem informações necessárias à
compreensão, sem auxílio de um texto. Devemos tomar cuidado na escala adotada na construção gráfica, ou
seja, se uma variação de 5 cm na estatura está representa por 1cm na escala, uma variação de 10 cm na
estatura deverá ser representada por 2 cm no papel.
2.4.1. Diagramas
São gráficos geométricos construídos em duas dimensões, mais utilizados na representação de variáveis
categorizadas, dessa forma, as frequências de observações são mostradas para cada nível ou categoria da
variável.
Gráfico de Colunas
O gráfico de colunas ou barras verticais apresentam os dados por meio de colunas (retângulos)
dispostos em posição vertical. A altura de cada retângulo é proporcional a frequência (absoluta ou relativa)
dos valores observados.
Exemplo. O gráfico abaixo mostra a distribuição da população mundial separada por continente. O
continente americano apresenta-se divido em América do Norte e América Latina/Caribe.
a) Em 2015 a população mundial era de 7349,4 milhões de habitantes, ou seja, aproximadamente 7 bilhões
e 349 milhões de habitantes;
b) A razão entre as populações dos dois continentes mais populosos era aproximadamente 3,7;
Os gráficos de barras horizontais apresentam os dados por meio de barras (retângulos) dispostos em posição
horizontal. O comprimento de cada barra é proporcional a frequência (absoluta ou relativa) dos valores observados.
Exemplo.
Exemplo.
Gráfico de setores
Obtido através da divisão do círculo em setores circulares proporcionais às frequências absolutas ou relati_
vas da variável, é utilizado para comparar cada valor ou categoria com o total. Essa divisão se faz através da regra de
três simples:
Expectativa N° de f ri (%)
alunos
fi
Ótima 2 2
Boa 44 50
Ruim 28 32
Péssima 8 9
Não respondeu 6 7
Total 88 100
Cada valor de frequência aferida aos atributos da variável “Expectativa” fica representada por um setor
circular. O ângulo de cada setor é:
Boa
Ruim
Péssima
Ótima
Não respondeu
Fonte: Pesquisa realizada pelas alunas do CEFET-SE - Elza Guimarães, Marcela Couto, Mary
Exemplo. Analisando o gráfico de barras abaixo, classifique em V ou F cada sentença seguinte, justificando:
São gráficos cujas grandezas são representadas por volumes. Geralmente são construídos num sistema de eixos
bidimensional
b) A taxa de mortalidade infantil da região Nordeste superou, aproximadamente, 10,5% da taxa da região
Sudeste;
Gráficos Pictóricos
Consiste num gráfico animado por figuras relacionadas ao assunto em destaque, também utilizado para
quantificar informações. Possuem forte apelo visual, chamando atenção e curiosidade do leitor, por isso, muito
utilizado nos meios de comunicação.
Exemplo. No pictograma abaixo está representada a queda na área desmatada anualmente em uma floresta de certo
país, devido à maior fiscalização dos órgãos governamentais, no período de 2012 a 2016. Cada árvore do gráfico
representa 25 mil hectares de floresta desmatada.
Sabendo que 1 hectare equivale a 10000 m2, determine a área, em km2, correspondente à superfície de floresta
desmatada em 2013 e em 2015.
* Histograma
Gráfico usado para representar valores assumidos por uma variável quantitativa quando estes estão
agrupados em classes. Semelhante ao gráfico de barras, porém com retângulos justapostos; o comprimento
da base de cada retângulo coincide com a amplitude da classe e a altura corresponde a frequência da classe
representada. Dessa forma, a área do histograma fica proporcional à soma das frequências da distribuição.
* Polígono de Frequência
Gráfico de linha poligonal obtido pela ligação dos pares ordenados (xi , f i ) onde xi representa o
ponto médio da classe e f i a respectiva frequência absoluta. Para visualização do polígono admitimos uma
classe anterior à primeira e outra posterior à última, ambas de frequência nula. È possível traçá-lo
conjuntamente ao histograma.
É um gráfico de linha poligonal obtido pela ligação dos pares ordenados (bi , Fi ) onde bi e Fi
representam respectivamente o limite superior e a frequência acumulada da classe i . O gráfico começa no
limite inferior da 1ª classe (frequência acumulada zero) e termina no limite superior da última classe
(frequência acumulada igual ao tamanho da amostra).
i Idades (anos) fi xi Fi
1 19 |----- 25 6 22 6
2 25 |----- 31 7 28 13
3 31 |----- 37 5 34 18
4 37 |----- 43 4 40 22
5 43 |----- 49 3 46 25
Total 25 --- ---