Você está na página 1de 95

UNIVERSIDADE ESTADUAL DA PARAIBA

CENTRO DE CIÊNCIAS E TECNOLOGIA


DEPARTAMENTO DE ESTATÍSTICA

ESTATÍSTICA

C Grande/PB
Albuquerque M. A

1. Introdução

Para muitas pessoas, a palavra Estatística traz à lembrança a ideia de números; e, nesse
sentido de informação numérica, as estatísticas já fazem parte de nossas vidas. Ouvimos na
televisão, e aprendemos, que duas em cada três donas de casa preferem determinada marca de
sabão em pó. Comparamos taxas de inflação ou quantidade de chuva nos mais diferentes locais
nas mais diferentes épocas, porque os jornais nos dão informações. Discutimos desemprego ou
fome na África, porque a mídia nos mostra números.
Estatística não é, porém, simples coleção de números, embora as medidas ou observações
na forma numérica sejam sua base. No sentido acadêmico, Estatística é a ciência que trata da
coleta, apuração, classificação e análise dos dados.
A palavra estatística deriva da expressão status, em latim, e significa o ”estudo do estado”.
Foi pensada pelos ingleses, no século XVI, como uma ciência política, destinada a descrever
características de um estado ou país, tais como população, área, riqueza e recursos naturais,
envolvendo compilações de dados e gráficos. Em 1662, John Graunt publicou informes
estatísticos sobre nascimentos e mortes. A partir daí deu se início ao desenvolvimento da
probabilidade e estatística, sobretudo a partir do século XVII, com o estudo das grandes epidemias
que assolavam o mundo, dando ensejo ao desenvolvimento da demografia. Em cada século
seguinte mais e mais áreas foram se incorporando ao conjunto das que faziam uso da estatística.
Na última década, com a grande revolução da informática, houve um avanço significativo das
áreas de probabilidade e estatística, com desenvolvimento de softwares mais poderosos, deixando
à disposição do pesquisador muitas ferramentas alternativas ao seu trabalho. Hoje em dia a maior
parte das decisões tomadas em quase todas as áreas de atividade humana moderna (por exemplo,
avaliação de novos tratamentos médicos e de novos terminais de atendimento bancário, do
planejamento de pesquisas científicas, de estratégias de marketing e investimento, para citar
algumas) tem suas bases na estatística - definida, a grosso modo, como a coleta, análise e
interpretação de dados, ou de forma mais ampla, como a ”ciência da tomada de decisão perante
incertezas”. Como já foi dito anteriormente, a Estatística engloba um grande leque de ferramentas
de análise. Com finalidade didática iremos dividir a estatística em dois grandes grupos:

2
Albuquerque M. A

1.1 O que é estatística?

A estatística é um conjunto de técnicas que permitte, de forma sistemáica, o planejamento, a


organizar, a descriçãor, a análise e interpretar informções (dados) oriundos de estudos ou
experimentos,realizados em qualquer área do conhecimento.

A Estatística como a ciência que se preocupa com o planejamento, a organização, a descrição, a


análise e interpretação dos dados experimentais, visando a tomada de decisões. Ou seja, por meio
da análise de dados brutos, a estatística preocupa-se com a extração de informações – que
permitem o processo posterior de tomada de decisões.

A estatística descritiva é a etapa inicial da análise utilizada para descrever e resumir as


informações (dados). Organiza, analisa, apresenta dados, descreve a populção de interesse e usa
medidas de tendência central e dispersão.

A disponibilidade de um grande quantidade de informações e de métodos computacionais muito


eficientes revigorou está área da estatística

1.2 Objetivo

O objetivo da estatística é analisar e interpretação dos fenômenos de qualquer natureza,


com o intuito de fornecer ao homem dados suficientes para o planejamento de ações futuras.
Dentro dessa ideia, podemos considerar a ciência Estatística como dividida basicamente
em duas partes:

1.3 Medidas descritivas de tendência central ou posição

Após identificarmos os tipos de variáveis e antes de aplicar testes estatísticos, podemos e


devemos namorar os nossos dados, isto é, conhecer algumas características fundamentais sobre
eles. Quando temos conjuntos de dados numéricos (discretos ou contínuos), geralmente estamos
interessados em saber:

Qual a posição (centralidade) e dispersão dos meus dados?


Qual forma eles apresentam?
Há valores discrepantes (outliers)?

3
Albuquerque M. A

Este tipo de análise tem a finalidade de descrever uma amostra de dados por meio de
medidas de posição, de dispersão, de assimetria, de curtose e da apresentação dos resultados em
tabelas ou gráficos, sem fazer nenhuma inferência sobre a população dos dados.
Que se preocupa com a organização e descrição dos dados experimentais, a estatística
descritiva vai resumi-las através do uso de certas medidas-sintese, que tornem possível a
interpretação de resultados. No sentido mais amplo, suas funções são:
a) Coleta de dados (informações);
b) Organização e classificação destes dados;
c) Apresentação através de gráficos e tabelas;
d) Calculo de coeficientes (estatísticos), que permitem descrever resumidamente os
fenômenos.
Como o nome já sugere, tais medidas sumarizam todo o nosso conjunto de dados/variáveis
através de um único valor que ocupa a posição central naquele conjunto. Esse número é hipotético
e não precisa necessariamente fazer parte do conjunto de dados. Mas ele é importante porque nos
oferece um valor representativo sobre a amostra/população.

1.4 Estatística Indutiva ou Inferencial: que cuida da sua análise e interpretação.

Estatística Indutiva ou Inferencial: é o ramo que trata de tirar conclusões sobre uma
população a partir de uma amostra. A ferramenta básica no estudo da estatística inferencial é a
probabilidade. Compara, testa e faz predições
Pode-se notar, conforme o exposto, que a ciência Estatística é aplicável a qualquer ramo
do conhecimento onde se manipulem dados experimentais. Assim, a Física, a Química, a
Engenharia, a Economia, a Medicina, a Biologia, as Ciências sociais, as Ciências Administrativas,
etc., tendem cada vez mais a servir-se dos métodos estatísticos como ferramenta de trabalho, daí
sua grande e crescente importância.
Em estatística utilizaremos extensivamente os termos população e amostra. Assim,
definiremos esses termos no contexto da estatística:

1.5 População x Amostra

 População: conjunto da totalidade dos elementos (valores, pessoas, medidas) a serem


estudados. Congrega todas as observações que sejam relevantes para o estudo de uma ou
mais característica dos indivíduos. Podem ser tanto seres animados ou inanimados.

4
Albuquerque M. A

 População (N): Conjunto de todos os elementos relativos a um determinado fenômeno


que possuem pelo menos uma característica em comum, a população é o conjunto
universo, podendo ser finita ou infinita.
 Finita - apresenta um número limitado de observações, que é passível de contagem.
 Infinita - apresenta um número ilimitado de observações que é impossível de contar e
geralmente está associada a processos.

A figura a seguir ilustra o princípio fundamental da estatística

1.6 Censo x Amostragem


 Pesquisa Estatística: É qualquer informação retirada de uma população ou amostra,
podendo ser através de Censo ou Amostragem.
 Censo: É a coleta exaustiva de informações das "N" unidades populacionais.
 Amostragem: É o processo de retirada de informações dos "n" elementos amostrais, no
qual deve seguir um método criterioso e adequado (tipos de amostragem).
 Amostra: é um subconjunto, ou seja, uma parte selecionada do total de indivíduos de
uma população. Por meio dos valores extraídos da observação das características de
interesse - estatísticas - de uma amostra, é possível fazer inferências sobre os parâmetros
verdadeiros de uma população.
Existem dois tipos de amostras, as probabilísticas, baseadas nas leis de probabilidades, e
as amostras não probabilísticas, que tentam reproduzir o mais fielmente possível a população
alvo. Entretanto, somente as amostras probabilísticas podem, por definição, originar uma

5
Albuquerque M. A

generalização estatística, apoiada no cálculo de probabilidades e permitir a utilização da potente


ferramenta que é a inferência estatística
Com os dados de algumas famílias do total de famílias que moram no Brasil, ou seja,
com uma amostra dessa população, pode-se determinar a estatística renda média da
amostra. Baseados nessa estatística, é possível fazer suposições sobre um parâmetro
dessa população, nesse caso, a renda das famílias brasileiras.

1.7 Tipos de Amostragem


Podemos classificar a amostragem em não probabilística e probabilística (mais utilizada).
Dentro da amostragem não probabilística temos a amostragem a esmo, intencional e cotas, para a
amostragem probabilística existe a amostragem simples ou ocasional, sistemática, estratificada e
por conglomerados. Por meio do diagrama a seguir, é possível identificar os tipos de amostragem.

Amostragem: é um conjunto de técnicas utilizadas para a seleção de uma amostra, que


possibilita o estudo das características da população.

Probabilística:
 Aleatória Simples
 Sistemática
 Estratificada
 Conglomerados

Não probabilística
 Cota
 Esmo
 Intenciona
1.8 Parâmetros x Estatísticas

 Parâmetros: são medidas populacionais quando se investiga a população em sua


totalidade, neste caso é impossível fazer inferências, pois toda a população foi
investigada.

 Estatísticas ou Estimadores: são medidas obtidas da amostra, torna-se possível neste


caso utilizarmos as teorias inferências para que possamos fazer conclusões sobre a
população.

6
Albuquerque M. A

Parâmetros Estimadores
 Média X
 2 Variância S2
 Desvio padrão S
 Proporção p̂

2 ESTATÍSTICA DESCRITIVA

Os métodos e as técnicas da estatística descritiva possibilitam-nos descrever e resumir as


informações a partir de um conjunto de dados coletados. Para melhor compreender essas
informações, é necessário reunir e apresentar os dados de forma clara, transformar os dados em
números, registrar os números em tabelas ou gráficos.

2.1 Fases do trabalho estatístico

Para realizarmos um estudo estatístico, normalmente, existem várias etapas a serem


realizadas. Essas etapas são chamadas de fases do método estatístico. Quando você tiver bem
definido essas fases, e tiver condições de realizá-las de forma adequada, a chance de sucesso em
um trabalho estatístico ou que envolva estatística será muito maior. Para isso, então, você irá
conhecer essas fases ou etapas de forma mais detalhada. As fases do trabalho estatístico são do
âmbito da Estatística Descritiva, e são as principais fases as seguintes:
As fases do método estatístico são:
 definição do problema;
 planejamento do processo de resolução;
 coleta dos dados;
 organização de dados;
 apresentação de dados; e
 análise e interpretação dos resultados.

2.1.1 Definição do Problema: formulação completa do problema a ser estudado. Para isso,
você deve procurar de outros trabalhos realizados no mesmo campo e análogos, uma vez
que parte da informação de que se necessita pode ser encontrado nestes últimos.
Sendo assim, essa primeira fase pode responder à definição de um problema ou,
simplesmente, dar resposta a um interesse de profissionais.

7
Albuquerque M. A

Por exemplo:

 a receita do Imposto Territorial e Predial Urbano (IPTU) de


cada um dos bairros de uma cidade em vários anos;

 o tratamento de dados relativos aos desempenhos dos


funcionários de um setor de uma prefeitura ao longo de
alguns meses;
 a quantidade de residências em uma cidade que atrasam
o pagamento do IPTU em 1, 2, 3, 4, 5 ou mais meses; e
 o tempo necessário entre o pedido de reparo de uma via
pública e a realização do serviço.
 Mas não para por aí! Existem outros problemas relacionados
gestão que merecem ser resolvidos.

2.1.2 Planejamento:
Após você definir o problema, é preciso determinar um processo para resolvê-lo e, em
especial, a forma de como obter informações sobre a variável ou as variáveis em estudo.
É nessa fase que devemos decidir pela observação da população ou de uma amostra.
Portanto, você precisa:
 Planejar o trabalho tendo em vista objetivo a ser atingido;
 Escolher a formular corretamente as perguntas;
 definir o tipo de levantamento – censitário ou
por amostragem; e definir cronograma de
atividades, custos envolvidos, delineamento da
amostra etc.

2.1.3 Tipos de pesquisas empíricas


Experimental: Quando o pesquisador planeja/controla a variável independente (existe
intervenção do pesquisador sobre as possíveis causas)
Grupos de indivíduos (ou animais, ou objetos) são manipulados para se avaliar o
efeito de diferentes tratamentos.
Observacional: Quando o pesquisador faz um levantamento das informações já
existentes, sem controlar as variáveis independentes (Não existe intervenção do
pesquisador sobre as possíveis causas).
Características de interesse de uma população são levantadas (observadas ou
medidas), mas sem manipulação.
8
Albuquerque M. A

2.1.4 Coleta de dados


Agora que você já planejou o seu trabalho, vamos para a terceira etapa, que consiste na
coleta de dados. Essa fase que deve ser seguida com cuidado, pois dados mal coletados
resultam em estatísticas inadequadas ou que não refletem a situação que você deseja
estudar.
Os dados podem ser coletados, por exemplo, por meio de:

 questionário;
 observação;
 experimentação; e
 pesquisa bibliográfica.

A coleta de dados que você vai fazer pode ser realizada de forma direta com base nos
elementos de registros ou pelo próprio pesquisador através de questionários.
(quesitos específicos para obter informações desejadas): refere-se à obtenção, reunião e registro
sistemático de dados, com um objetivo determinado. Além dos registros feitos pelo próprio
pesquisador, pode-se recorrer a fontes externas de dados.
Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer.
A coleta pode ser: Direta - diretamente da fonte;
Indireta - feita através de outras fontes.
Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de
terceiros (secundários).
Exemplo
A renda mensal das famílias, o número de peças defeituosas de um equipamento ou QI
dos indivíduos de um determinado grupo são exemplos desses dados.

2.1.5 Crítica dos dados (questionários): leitura dos questionários, observação de respostas
incompletas, erradas. Supressão de valores estranhos ao levantamento.

2.1.6 Organização de dados ou Apuração dos dados: consiste em resumir os dados, através de
sua contagem e agrupamento. É um trabalho de condensação e de tabulação dos dados, que
chegam ao analista de forma desorganizada, tornando impossível a tarefa de apreender todo o seu
significado pela simples leitura. Nos dias atuais esta apuração tornou-se sinônimo de organização
de base de dados, que é realizada em computadores.

9
Albuquerque M. A

Consiste em resumir os dados, através de uma contagem e agrupamento. É um trabalho


de coordenação e de tabulação.
Apuração: manual, mecânica, eletrônica e eletromecânica.

2.1.7 Apresentação dos Dados


Agora que temos os dados organizados, precisamos apresentá-los e, para tanto, existem duas
formas de apresentação que você poderá utilizar, que não se excluem mutuamente, a saber:

 apresentação por tabelas; e


 apresentação por gráficos.

Essas formas de expor as informações coletadas permitem sintetizar uma grande quantidade
de dados (números), tornando mais fácil a compreensão do atributo em estudo e permitindo uma
futura análise.

(a) Apresentação Tabular: apresentação numérica dos dados. As tabelas têm a vantagem de
conseguir expor, sinteticamente, e em um só local, os resultados sobre determinado assunto, de
modo a se obter uma visão global mais rápida daquilo que se pretende analisar.
b) Apresentação Gráfica: constitui uma apresentação geométrica. É de extrema importância, no
sentido de permitir uma visão rápida, fácil e clara do fenômeno e sua variação.

2.1.7 Análise e Interpretação dos Resultados:

É a fase mais importante e também a mais delicada. Tirar conclusões que auxiliam o
pesquisador a resolver seu problema.
O interesse maior consiste em tirar conclusões que auxiliem o pesquisador a resolver seu
problema. A análise dos dados estatísticos está ligada essencialmente ao cálculo de medidas, cuja
finalidade principal é descrever o fenômeno. Assim, o conjunto de dados a ser analisado pode ser
expresso por números-resumos, as estatísticas, que evidenciam características particulares desse
conjunto. O significado exato de cada um desses valores será explicado posteriormente.

10
Albuquerque M. A

2.2 CLASSIFICAÇÃO DE VARIÁVEIS

Definiremos variáveis como qualquer atributo/característica que exerça influência no


fenômeno estudado. Por exemplo, desejamos registrar a idade das pessoas ao morrer, a estatura
ou peso dos indivíduos, o rendimento das famílias em uma grande cidade, o número de
empregados dispensados, por mês, em uma grande empresa, a distribuição dos alunos por sexo,
etc. Antes da escolha da análise descritiva apropriada é necessária a classificação da variável de
interesse, pois a adequação da técnica está diretamente relacionada ao tipo de variável em questão.
De acordo com a estrutura numérica as variáveis podem ser classificadas em:
As variáveis de um trabalho estatístico são os objetos ou características da população que
serão analisados.
Conceito – chave - Os valores possíveis de uma característica são denominados variáveis.

2.2.1 Quantitativas: São características populacionais que podem ser quantificadas, sendo
classificadas em discretas e contínuas.
Discretas: são aquelas variáveis que pode assumir somente valores inteiros num
conjunto de valores. É gerada pelo processo de contagem, como o número de veículos
que passa em um posto de gasolina, o número de estudantes nesta sala de aula.
Alguns exemplos de variáveis quantitativas discretas são:
a) População: habitações de uma cidade.
Variável: número de banheiros.
b) População: casais residentes em uma cidade.
Variável: número de filhos.
Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo
de valores. É gerada pelo processo de medição. Neste caso serve como exemplo como,
o número de veículos que passa em um posto de gasolina dentro de um determinado
tempo, o volume de água em um reservatório ou o peso de um pacote de cereal.
Alguns exemplos de variáveis quantitativas contínuas são:

a) População: estação meteorológica de uma cidade.


Variável: precipitação pluviométrica durante um mês.
c) População: propriedades agrícolas do Brasil
Variável: produção de algodão (toneladas).
d) População: indústrias de uma cidade.

11
Albuquerque M. A

Variável: índice de liquidez.


e) População: pessoas residentes em uma cidade.
Variável: idades.
2.2.2 Qualitativas (ou atributos): São características de uma população que não pode ser
medidas. serão expressos através de categorias, que se distinguem por alguma característica não-
numérica.
Ex: Sexo, Nível de escolaridade, Cor da pele, Estada civil, Tipo sanguíneo.
a) População: alunos de uma universidade
Variável: sexo (masculino ou feminino).
b) População: moradores de uma cidade
Variável: tipo de habitação (casa, apartamento, barraco, etc.).
c) População: peças produzidas por uma máquina
Variável: qualidade (perfeita ou defeituosa).
d) Óbitos em um hospital, nos últimos cinco anos
Variável: causa mortis (moléstia cardiovasculares, cânceres, etc)
As variáveis qualitativas podem ser classificadas, por sua vez, em:
2.2.3 Nominal - caracteriza-se por dados que consistem apenas em nomes, rótulos ou categorias.
Os dados não podem ser dispostos segundo um esquema ordenado. São utilizados símbolos, ou
números, para representar determinado tipo de dados, mostrando, assim, a qual grupo ou
categoria eles pertencem.
Ex: O conjunto de espécies: Cedro, Cassia e Ipê.
Ex: Estado civil, sexo, nacionalidade e profissão
2.2.4 Ordinal ou por postos: quando uma classificação for dividida em categorias ordenadas em
graus convencionados, havendo uma relação entre as categorias do tipo “maior do que”, “menor
do que”, “igual a”, os dados por postos consistem de valores relativos atribuídos para denotar a
ordem de primeiro, segundo, terceiro e, assim, sucessivamente.

Ex: Nível de escolaridade: Analfabeto, ensino fundamental, ensino médio e ensino superior.
Categoria socioeconômica: classe alta, classe média ou classe baixa.
Uma característica que pode assumir diferentes valores de indivíduo para
indivíduo é denominada variável. Caso contrário é denominado constante. As variáveis
são classificadas em:

12
Albuquerque M. A

Variáveis

Qualitativas Quantitativas
(atributos) (numéricas)

Exemplos Discreta Continua


Sexo;
 Religião;
 Naturalidade;
 Cor dos olhos;
 Altura de uma planta (baixa, média, alta);
 Cor de flor; Quantidades de Tempo de vôo
 Sabor; estudantes em uma entre cidades;
disciplina;

 Quantidades de Duração da bateria
cômodos em uma do celular;
residência; 
Nominal Ordinal Peso corporal;
 Número de
Ex. Região Ex. Classe social filhos;

3 - Exercício: Classifique as variáveis apresentadas na tabela abaixo:

Tabela 1.4 – Dados dos professores de uma escola em Campina Grande no de 2017
Idade Sexo Hemoglobina Tipo de urticária Duração
34 masculino 14,2 Física Curta
58 masculino 14,4 Física Longa
31 feminina 15,1 Idiopática Média
49 masculino 10,9 Idiopática Média
39 feminina 14,4 Física Longa
33 masculino 14,1 Física Curta
35 feminina 14,0 idiopática Longa

2.3 APRESENTAÇÃO DOS DADOS


2.3.1 Diferença entre Tabela e Quadro
A seção 3.32 da NBR 14724:2011 define a Tabela como sendo uma "forma não discursiva
de apresentar informações das quais o dado numérico se destaca como informação central"
(ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2011, p. 4). Em relação ao Quadro,

13
Albuquerque M. A

é apresentado na seção 4.2.1.9, da mesma NBR, que o mesmo trata-se de uma Ilustração, porém
nada define sobre sua forma e, ao analisar o exemplo contido na aludida seção, deixa margem
para interpretação que vai de encontro à definição da Tabela. Observe o exemplo apresentado na
seção 4.2.1.9 da NBR 14724:2011 (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS,
2011, p. 8)
Os quadros são definidos como arranjo predominante de palavras dispostas em linhas e
colunas, com ou sem indicação de dados numéricos. Diferenciam-se das tabelas por apresentarem
um teor esquemático e descritivo, e não estatístico. A apresentação dos quadros é semelhante à
das tabelas, exceto pela colocação dos traços verticais em suas laterais e na separação das casas.
Exemplo

Quadro 1 - Valores aceitáveis de erro técnico de medição relativo para antropometristas


iniciantes e experientes no Estado da Paraíba
Quadro 1- Modelo de quadro
Nome/sobrenome Descrição do texto Conclusão
Edwirde Silva Modelo de Quadro Quadro confeccionado
Jorge Alves Modelo de Quadro Quadro confeccionado
Francisco Guedes Modelo de Quadro Quadro confeccionado
Tárcio Augusto Modelo de Quadro Quadro confeccionado

Observe que as laterais estão fechadas diferenciando, em sua forma, da tabela que possui as
laterais abertas.
A seção 5.9 da NBR 14724:2011, que trata sobre as regras gerais para apresentação de
Trabalhos Acadêmicos, relata que as Tabelas "devem ser citadas no texto, inseridas o mais
próximo possível do trecho a que se referem e padronizadas conforme o Instituto Brasileiro de
Geografia e Estatística (IBGE)" (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS,
2011, p. 11).
Ao verificar as Normas de Apresentação Tabular (NAT), que se encontra vigente,
criadas pelo IBGE (1993), a definição de Tabela é a mesma apresentada pela ABNT. Sendo
assim, quando for apresentar informações onde o dado numérico é parte principal, utiliza-se a
forma de Tabela e, para as demais informações, utiliza-se a forma de Quadro.
Segundo as NAT do IBGE, a Tabela deve possuir um título, um cabeçalho, um corpo
contendo as informações, uma linha de fechamento, uma fonte e, se for o caso, uma nota
explicativa. Os quadros também possuem tais especificações, porém diferem das Tabelas em
sua forma, no que diz respeito ao fechamento das laterais.Segue um modelo de Quadro e mais
abaixo o modelo da Tabela 3 encontrada nas NAT do IBGE:

14
Albuquerque M. A

É formado por linhas horizontais e verticais, sendo, portanto “fechado”. Normalmente é


usado para apresentar dados secundários, e geralmente vem no “referencial teórico”. Nada
impede, porém, que um quadro apresente resultados da pesquisa. Um quadro normalmente
apresenta resultados qualitativos (textos). O número do quadro e o título vêm acima do quadro, e
a fonte, deve vir abaixo, conforme o exemplo:

2.3.2 Elaboração de tabelas

Após a apuração, há a necessidade de os dados e os resultados obtidos a partir daqueles


serem dispostos de uma forma ordenada e resumida, a fim de auxiliar o pesquisador na análise e
facilitar a compreensão das conclusões apresentadas ao leitor. Os dados e os resultados são então
apresentados na forma de tabelas.
Uma tabela deve ser auto-suficiente, isto é, deve ter significado próprio, de modo a
prescindir, quando isolada, de consultas ao texto.
Uma tabela possui elementos essenciais e complementares.
Os elementos essenciais são:
• Título - é obrigatório. Deve conter a designação do fato observado, o local e a época em que foi
registrado. Deve ser claro e conciso. É colocado na parte superior da tabela.
• Cabeçalho - é a parte superior da tabela, onde se especifica o conteúdo de cada coluna.
• Corpo da tabela - é o conjunto de colunas e linhas onde se encontram as informações numéricas
sobre o fato observado. Casa, célula ou cela - é o cruzamento de cada linha com uma coluna, onde
se tem a frequências com que a categoria aparece.
• Coluna indicadora - é a parte da tabela em que se especifica o conteúdo de cada linha.
• Os elementos complementares são:
• Fonte - é a indicação da entidade responsável pelo fornecimento ou elaboração dos dados. É
colocado no rodapé da tabela.
• Notas - são colocadas abaixo da fonte, se necessárias. Contém informações gerais destinadas a
conceituar ou esclarecer o conteúdo das tabelas.
• Chamadas - também colocadas no rodapé (se necessárias).
Algumas observações fazem-se importantes na elaboração de uma tabela. São elas:
1. Nenhuma casa da tabela deve ficar em branco. Na ausência de um dado numérico,
empregam-se alguns dos sinais convencionais, como hífen, reticências, etc. (Veja
explicação em sala de aula com seu professor).

15
Albuquerque M. A

2. As tabelas devem ser fechadas no alto e embaixo por linhas horizontais, não sendo
fechadas à direita ou à esquerda por linhas verticais. É facultativo o emprego de traços
verticais para a separação de colunas no corpo da tabela.
3. Em publicações que compreendem muitas tabelas, estas devem ser numeradas em ordem
crescente, conforme a ordem do aparecimento.
4. Os totais e subtotais devem ser destacados.
5. Deverá ser mantida a uniformidade, quanto ao número de casas decimais.

Tabela 1 Número e percentagem de insetos capturados em domicílio na Escola Agrícola da UEPB, Paraiba, tipo de
captura, março a junho e setembro de 2014
Tipo de captura Manual Armadilha tipo New Jersey2 Total
Espécies Nº % Nº % Nº
Aedes scapularis 108 6.8 1 1.2 109
Anopheles evansae 191 12.1 12 14.8 203
Anopheles triannulatus 48 3.0 - - 48
Culex pipiens quinquefasciatus 105 6.6 21 25.9 126
Culex (Culex) sp. 61 3.9 5 6.2 66
Culex (Melanoconion) sp. 160 10.1 5 6.2 165
Mansonia chrysonotum 139 8.8 13 16.0 152
Mansonia titillans 689 43.7 19 23.5 708
Psorophora confinnis 51* 3.2 - - 51
Outras espécies 3 29 1.8 5 6.2 34
Total 1581 100 81 100 1662

Fonte: Forattini, O.P. et. Al., Ëestudos ecológicos sobre mosquitos Culicidae no sistema da Serra, Brasil, 2 – Observações no ambiente
domiciliar”,
1 Rev. Saúde Públ., Paraíba, 12: 476:96, 2004.
30 dias de captura * Inclui 2 insetos capturados
29 dias de captura quando deixavam o domicílio
3Aedes serratus Coluna
Aedeomyia squamipennis
Indicadora Notas
Anopheles albitarsis
Anopheles mediopunctatus
Fonte Título
Anopheles oswaldoi
Culex lygrus
Culex (Microculex) sp.
Limatus flavisetosus Cabeçalho
Mansonia juxtamansonia
Mansonia venezuelensis
Chamadas

3 DISTRIBUIÇÃO DE FREQUÊNCIAS

A distribuição de frequências consiste na organização dos dados de acordo com as


ocorrências dos diferentes resultados observados.
As distribuições de frequências constituem-se num caso particular das séries estatísticas,
nas quais todos os elementos são fixos. Agora os dados referentes ao fenômeno são apresentados
através de gradações, onde é feita a correspondência entre categorias ou valores possíveis e as
frequências respectivas. A definição de alguns conceitos será importante para o uso da linguagem
apropriada ao elaborarmos e analisarmos as distribuições de frequências. No total, são nove
conceitos a serem apresentados. A seguir definiremos os cinco primeiros, válidos para quaisquer

16
Albuquerque M. A

distribuições de frequências, e mais adiante apresentaremos os 4 últimos, específicos para dados


agrupados em classes:

1. Dados Brutos - É o conjunto dos dados numéricos obtidos após a coleta dos dados.
Exemplo 1: Idade dos alunos do curso de contabilidade da UEPB, no ano de 2022.
24 23 22 28 35 21 23 33 34 24
21 25 36 26 22 30 32 25 26 33
34 21 31 25 31 26 25 35 33 31
A esse tipo de dados, cujos elementos não foram numericamente organizados, denominamos
tabela primitiva ou dados brutos.

2. Rol – Com o propósito de facilitar o trabalho, foi feita uma organização, a qual damos o nome
de Rol, onde os dados aparecem organizados de forma crescente ou decrescente, ficando da forma
a seguir:
DADOS ELABORADOS: Dados numéricos arranjados em ordem crescente ou decrescente.
21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31 -
32 - 33 - 33 - 33 - 34 - 34 - 35 - 35 – 36

Apresenta vantagens concretas em relação aos dados brutos. Ela torna possível visualizar,
de forma bem ampla, as variações dos dados, uma vez que os valores extremos são percebidos de
imediato. Mas, a análise com este tipo de disposição começa a se complicar quando o número de
observações tende a crescer.
Da forma, agora apresentada, poderemos verificar, com clareza e facilidade, qual a menor
idade (21 anos) e a maior idade (36 anos).

3. Amplitude total ou ”range” (A) - É a diferença entre o maior e o menor valor observado da
variável em estudo.

AT = maior valor – menor valor ou AT= máx – min AT = 36 - 21 = 15.

Dependendo da disponibilização desses dados na tabela, a variável idade torna-se mais


visível, podendo ser melhor estudada. Observe como faremos a primeira distribuição de
frequências dessas idades. Iremos dispor os valores da idade ordenados em uma coluna e, ao lado
de cada valor, o número de vezes, ou seja, a frequência em que eles aparecem.

17
Albuquerque M. A

4. Frequências absoluta simples (fi) - É o número de vezes que o elemento aparece na amostra ou
o número de elementos pertencentes a uma classe.

5. Frequências total (ft) - É a soma das frequências simples absolutas de todos os elementos
observados. Para condensarmos melhor os dados, é aconselhável a elaboração de distribuições de
frequências. Uma tabela com distribuição de frequências é uma tabela onde se procura fazer um
arranjo dos valores e suas respectivas frequências, onde a frequências de determinado valor será
dado pelo número de observações ou repetições de um valor ou de modalidade. As tabelas de
frequências podem representar tantos valores individuais como valores agrupados em classes.

Exemplo5: Utilizando os mesmos dados exemplo 1, a tabela a seguir representa a distribuição de


frequências de dados não agrupados.
Tabela 2.7 - Idade dos alunos do curso de contabilidade da UEPB, no ano de 2022.
Idade(Xi) fi
21 3
22 2
23 2
24 1
25 4
26 3
28 1
30 1
31 3
32 1
33 3
34 3
35 2
36 1
Total (fi) 30
Fonte: Pro reitoria de graduação.
Exemplo de uma tabela discreta
Tabela: Índice de produtividade de seus funcionários
Índice de Número de
produtividade funcionários
21 6
22 3
23 5
24 4
25 6
26 4
28 1
30 1
Total 30
Fonte: Recurso humanos
18
Albuquerque M. A

Este tipo de tabela não é aconselhável quando estamos trabalhando com variáveis que
apresentam uma grande quantidade de valores distintos, uma vez que a tabela poderá ficar muito
extensa, dificultando, além de sua elaboração, as análises e conclusões dos dados pesquisados.
Note que a soma das frequências absolutas simples é sempre igual ao número total de valores
observados.
Bem, mas, observando melhor, poderemos agrupar essas estaturas para que a tabela seja
melhor utilizada, colocando os valores em intervalos de classes ou distribuição continua, que
chamamos, a cada um deles de frequência de uma classe (número de valores da variável
pertencentes à classe (i)).

5.2 Distribuição de Frequências de Dados Agrupados em Classes.


Comentário
Não há uma regra rígida para construir uma distribuição de frequências por classes de
valores, no entanto, alguns procedimentos podem facilitar essa distribuição. São eles: número de
classes, amplitudes, limites, ponto médio, rol e distribuição por classes de valores.
Muitas vezes com o objetivo de resumir os dados originais em uma distribuição de
frequências, utilizaremos os dados agrupados em classes e não mais individualmente. Classe pode
ser definida como sendo os subintervalos da Amplitude Total de uma variável (grupo de valores).
Quando a variável objeto de estudo for contínua geralmente será conveniente agrupar os
valores observados em classes. Se, por outro lado, a variável for discreta e o número de valores
representativos dessa variável for muito grande, recomenda-se o agrupamento dos dados em
classes. Nesse último caso, o procedimento visa a evitar certos inconvenientes, como:
1. Grande extensão da tabela, dificultando, tanto quanto os dados brutos, a leitura e a interpretação
dos resultados apurados.
2. O aparecimento de diversos valores da variável com frequências nula.
3. Impossibilidade ou dificuldade de visualização do comportamento do fenômeno como um todo,
bem como de sua variação.
Este tipo de tabela informa, de imediato, a tendência de a série se concentrar em torno de
um valor central, além de proporcionar uma visão panorâmica do comportamento da variável, o
que seria impossível de se fazer a partir da lista dos dados brutos.
Ex6: Utilizando os mesmos dados Exemplo 1, temos:

19
Albuquerque M. A

Tabela 2.8 - Idade dos alunos do curso de contabilidade da UEPB, no ano de 2022
Idade Frequências
Absoluta simples (fi)
21├ 24
24├ 27
27├ 30
30├ 33
33├ 36
Total
Fonte: pró-reitora de graduação.
O símbolo a|– b indica a inclusão do limite inferior do intervalo naquela classe.
Outras possibilidades são: a –| b, a |–| b, a –b
Para construção de tabelas de Frequências para dados agrupados em classe os 4 conceitos listados
a seguir, complementam os 5 primeiros já apresentados:

Ex 7 - Suponhamos que fizemos uma coleta de dados relativos às estruturas de quarenta alunos,
que compõem uma amostra dos alunos da turma da disciplina de Estatística, resultando a seguinte
tabela de valores:
ESTATURAS DE 40 ALUNOS
166 160 161 150 162 160 165 167 164 160
162 161 168 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164
154 161 156 172 153 157 156 158 158 161
A esse tipo de dados, cujos elementos não foram numericamente organizados,
denominamos tabela primitiva ou dados brutos.
Com o propósito de facilitar o trabalho, foi feita uma organização, a qual damos o nome
de Rol, onde os dados aparecem organizados de forma crescente ou decrescente, ficando da forma
a seguir:

ESTATURAS DE 40 ALUNOS
150 154 155 157 160 161 162 164 166 169
151 155 156 158 160 161 162 164 167 170
152 155 156 158 160 161 163 164 168 172
153 155 156 160 160 161 163 165 168 173
Da forma, agora apresentada, poderemos verificar, com clareza e facilidade, qual a menor
(150 cm) e a maior estatura (173 cm), que variação obteve entre a maior e a menor (173 – 150 =
23 cm).
20
Albuquerque M. A

Denominamos frequência o número de alunos que fica relacionado a um determinado


valor da variável ou distribuição discreta. Obtemos assim, uma tabela que recebe o nome de
distribuição de frequência discreta:
ALTURA DOS ALUNOS
ESTATURA FREQ.
(cm)
150 1
151 1
152 1
153 1
154 1
155 4
156 3
157 1
158 2
160 5
161 4
162 2
163 2
164 3
165 1
166 1
167 1
168 2
169 1
170 1
172 1
173 1
Total 40
Bem, mas, observando melhor, poderemos agrupar essas estaturas para que a tabela seja
melhor utilizada, colocando os valores em intervalos de classes ou distribuição continua, que
chamamos, a cada um deles de frequência de uma classe (número de valores da variável
pertencentes à classe (i)).

Observe a nova distribuição de valores:


ALTURA DOS ALUNOS
ESTATURA (cm) FREQ.
150 ├─ 154 4
154 ├─ 158 9
158 ├─ 162 11
162 ├─ 166 8
166 ├─ 170 5
170 ├─ 174 3
Total 40

21
Albuquerque M. A

É importante observar dois pontos. Primeiramente, observa-se o símbolo ├─. Esse


símbolo serve para delimitar o intervalo que estaremos trabalhando. Note que do lado esquerdo
existe ├, onde essa barra inclui o valor que está a sua esquerda. No caso da tabela, os valores 150
da primeira classe, 154 da segunda classe, 158 da terceira classe, 162 da quarta classe, 166 da
quinta classe e 170 da sexta classe, todos eles possuem esse símbolo, que serve para dizer que
esse intervalo se inicia por esse valor. Tomamos como exemplo a primeira classe, onde apresenta
150 ├─ 154. Para essa classe existirão alturas compreendidas de 150 cm a 153 cm. Como do lado
direito não aparece o símbolo ┤, então a altura 154 não pertence a esse intervalo e sim ao próximo,
pois aparecerá da forma 154 ├─ 158, e assim por diante. Dessa forma teremos valores
compreendidos para cada classe:

3.1-Definição do número de classes (k)- É representado por k. É importante que a distribuição


conte com um número adequado de classes. Se esse número for escasso, os dados originais ficarão
tão comprimidos que pouca informação poderá ser extraída desta tabela. Se, por outro lado, forem
utilizadas muitas classes, haverá algumas com Frequências nula ou muito pequena, apresentando
uma distribuição irregular e prejudicial à interpretação do fenômeno.

Para determinar o número de classes há diversos métodos. Nós aprenderemos duas soluções:

(a) k = 5, para n ≤ 30 e k  n , para n > 30.


n k
30 6
45 6
40 6
50 7
100 10
200 14
500 22
1000 31

(b) Fórmula de Sturges:


Para determinar o número de classes a partir dos dados não tabelados, podemos
usar a Fórmula de Sturges, mas deve-se saber que existem outros métodos de
determinação do número de classes em uma tabela de frequência. O que se deseja
fazer é apenas comprimir um conjunto de dados em uma tabela, para facilitar a
visualização e interpretação dos mesmos.
K = 1+ 3.3 log n , onde “n” é no de informações. K = 1 + 3,3 log (n),
k1 =1 + 3.3*log10, k2 =1 + 3.3*log2 (n) onde n é o número de observações (amostra)
22
Albuquerque M. A

k=1+3.3*log(10)
n k K1 K2
30 12 6 6
45 13 6 6
40 13 6 6
50 14 7 7
100 16 8 8
200 18 9 9
500 21 10 10
1000 24 11 11

(b) Fórmula de Sturges: K = 1 + log n k= 1 + log (n) k=1+3.3*log(10)

No entanto, dadas as características da função logaritmo, um dos problemas na utilização


dessa fórmula é que ela fornece um número grande de classes para valores pequenos de n e um
número pequeno de classes para valores grandes de n, como pode ser observado na Tabela acima,
onde os resultados foram arredondados para o próximo inteiro.
Mesmo tendo outros critérios de determinação do número de classes, o que se deve ter
em mente é que a escolha dependerá sobretudo da natureza dos dados e da unidade de medida em
que eles se encontram, e não somente de regras muitas vezes arbitrárias e pouco flexíveis, com
essa ou fórmula servindo apenas de referência. Para facilitar a análise é conveniente que se
mantenham os intervalos de classe sempre constantes.

3.2. Limites de Classe - Os limites de classe são seus valores extremos. No exemplo anterior de
distribuição de frequências, o valor 21 é denominado limite inferior da primeira classe, enquanto
o valor 24 é denominado limite superior da primeira classe.

3.3. Amplitude do Intervalo de Classe (h)- A amplitude de um intervalo de classe corresponde


ao comprimento desta classe. Numericamente, sua amplitude pode ser definida como a diferença
existente entre os limites superior (ou inferior) de duas classes consecutivas.
Ex: Utilizando os mesmos dados anteriores:
h = Limite superior – Limite inferior
h = 24 - 21 = 3

3.4. Pontos Médios ou Centrais da Classe (xi) - É a média aritmética simples entre o limite
superior e o inferior de uma mesma classe.

23
Albuquerque M. A

(limite superior da classe)  (limite inferior da classe)


Ponto médio 
2
Para obter os pontos médios das demais classes, basta acrescentar ao ponto médio da
classe precedente a amplitude do intervalo de classe.

2.4.4 TIPOS DE FREQUÊNCIAS

Frequências Simples Absoluta


Relativa

Frequências Acumulada Crescente


Decrescente
Frequências Simples:
a) Frequências Absoluta Simples (fi) - é o número de repetições de um valor individual ou
de uma classe de valores da variável. Trata-se do caso visto até o presente momento.
Classes Frequências absoluta Classes fi
simples (fi)
1ª classe f1 8,3├ 9,8 5
2ª classe f2 9,8├ 11,3 7
3ª classe f3 11,3├ 12,8 9
4ª classe f4 12,3├ 14,3 6
5ª classe f5 14,3├ 14,8 3
Total
f i
Total 30

2. Frequências Acumuladas:
O objetivo das frequências acumuladas é de permitir avaliar qual parcela da Frequências
total estará associada ao valor da variável menor que um dado valor.
É utilizada toda vez que se procura saber quantas observações existem até uma
determinada classe ou valor individual.
Tabela 2.10 - da Frequências acumulada crescente
Classes fi fac
8,3├ 9,8 5 5
9,8├ 11,3 7 12
11,3├ 12,8 9 21
12,3├ 14,3 6 27
14,3├ 14,8 3 30
Total 30

24
Albuquerque M. A

Frequências Acumulada Decrescente (Fad) – coloca-se a soma das frequências simples é vai
subtraindo o valor de cada Frequências em cada classe.
Tabela 12 - da Frequências acumulada crescente
Classes fi fad
8,3├ 9,8 5 30
9,8├ 11,3 7 25
11,3├ 12,8 9 18
12,3├ 14,3 6 9
14,3├ 14,8 3 3
Total 30

(b) Frequências Simples Relativa (frs) - representa a proporção de observações de um valor


individual ou de uma classe, em relação ao número total de observações. Trata-se, portanto, de
fi frequência da classe
um número relativo. frs  i  1, 2, ,n frs=
f i tamanho da amostra
Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por 100:
fi
frs  100 i  1, 2, ,n
 fi
Tabela 2.14 - de Frequências relativa simples
Classes fi frs
8,3├ 9,8 5 5/30
9,8├ 11,3 7 7/30
11,3├ 12,8 9 9/30
12,3├ 14,3 6 6/30
14,3├ 14,8 3 3/30
Total 30 1,00

Exemplo 8: Com as frequências apresentadas, calcule a Frequências relativa, acumulado


crescente e decrescente e ponto médio.
Tabela 2.15 - Idade dos alunos do curso de Administração da UEPB, no ano de 2012.
Idade Nº de alunos(fi)
21├ 24 7
24├ 27 8
27├ 30 1
30├ 33 5
33├ 36 9
Total 30
Fonte: Secretaria do curso
Exemplo 9: - Tabela.37 - Informações sobre estado civil, grau de instrução, número de filhos,
salário (expresso como fração do salário mínimo, idade, região de procedência e ano de ingresso
de 36 empregados da secção de orçamento da Companhia Misto.
25
Albuquerque M. A

N º Est. civil Grau instr N º filhos Salário Idade Reg. Proc. Ano ingr.
1 solt fundamental 0 4,00 26 int 95
2 cas fundamental 1 4,56 32 cap 96
3 cas fundamental 2 5,25 36 cap 93
4 solt médio 0 5,73 20 outro 96
5 solt fundamental 0 6,26 40 outro 93
6 cas fundamental 0 6,66 28 int 94
7 solt fundamental 0 6,86 41 int 92
8 solt fundamental 0 7,39 43 cap 92
9 cas médio 1 7,44 34 cap 97
10 solt médio 0 7,59 23 outro 97
11 cas médio 2 8,12 33 int 98
12 solt fundamental 0 8,46 27 cap 95
13 solt médio 0 8,74 37 outro 89
14 cas fundamental 3 8,95 44 outro 94
15 cas médio 0 9,13 30 int 95
16 solt médio 0 9,35 38 outro 95
17 cas médio 1 9,77 31 cap 92
18 cas fundamental 2 9,80 39 outro 96
19 solt superior 0 10,53 25 int 96
20 solt médio 0 10,76 37 int 90
21 cas médio 1 11,06 30 outro 94
22 solt médio 0 11,59 34 cap 96
23 solt fundamental 0 12,00 41 outro 90
24 cas superior 0 12,79 26 outro 98
25 cas médio 2 13,23 32 int 95
26 cas médio 2 13,60 35 outro 95
27 solt fundamental 0 13,85 46 outro 95
28 cas médio 0 14,69 29 int 96
29 cas médio 5 14,71 40 int 94
30 cas médio 2 15,99 35 cap 92
31 solt superior 0 16,22 31 outro 97
32 cas médio 1 16,61 36 int 91
33 cas superior 3 17,26 43 cap 95
34 solt superior 0 18,75 33 cap 96
35 cas médio 2 19,40 48 cap 95
36 cas superior 3 23,30 42 int 91

Exercício

No exemplo 9 em questão, considerando-se a característica (variável), estado civil, grau de


instrução, número de filhos, salário, idade, região de procedência. Faça uma tabela para cada
variável.
Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o
comportamento dessa variável, analisando a ocorrência de suas possíveis realizações.

26
Albuquerque M. A

Exercício
Ex2: Suponha-se, uma empresa de fabricação de sucos verificou o consumo diário de suco de
frutas. Em uma amostra de 60 funcionários, foram obtidos os seguintes escores para cada um
(mL/dia):
192 196 173 193 195 204 235 190 194 184
194 218 204 210 214 198 196 215 202 201
203 197 195 229 207 203 208 198 194 193
195 198 189 204 202 215 199 217 195 209
181 205 183 195 183 190 182 219 170 197
207 211 206 166 194 186 227 185 201 186

Como podem ser observados, os valores estão dispostos de forma desordenada. Em razão disso,
pouca informação se consegue obter inspecionando-se os dados anotados. Mesmo uma
informação tão simples como a de saber os valores mínimos e máximos requer certo exame dos
dados coletados.
Ex3 -Número de filhos de um grupo de 50 casais de um bairro de Campina Grande em 2020
2 3 0 2 1 1 1 3 2 5
6 1 1 4 0 1 5 6 0 2
1 4 1 3 1 7 6 2 0 1
3 1 3 5 7 1 3 1 1 0
3 0 4 1 2 2 1 2 3 2

b. Rol: é a organização dos dados brutos em ordem de grandeza crescente ou decrescente.


Número de filhos de um grupo de 50 casais de um bairro de Campina Grande em 2020
0 0 0 0 0 0 1 1 1 1
1 1 1 1 1 1 1 1 1 1
1 1 2 2 2 2 2 2 2 2
2 3 3 3 3 3 3 3 3 4
4 4 5 5 5 6 6 6 7 7
6
frequência relativa simples f1   0,12
50
Tabela 2.3 -Número de filhos de um grupo de 50 casais de um bairro de Campina Grande em
2020
Número Frequência Freq. Rel. Freq. Freq. Acum. Fac da freq
de filhos Percentual percentual simples
0 6
1 16
2 9
3 8
4 3
5 3
6 3
7 2
Total 50 1,00 100
Fonte: IBGE
27
Albuquerque M. A

Dados brutos
Ex4 -Taxas municipais de urbanização (em percentual) no Estado da Paraíba - 2020
8 24 46 13 38 54 44 20 17 14
18 15 30 24 20 8 24 18 9 10
38 79 15 62 23 13 62 18 8 22
11 17 9 35 23 22 37 36 8 13
10 6 92 16 15 23 37 36 8 13
44 17 9 30 26 18 37 43 14 9
28 41 42 35 35 42 71 50 52 17
19 7 28 23 29 29 58 77 72 34
12 40 25 7 32 34 22 7 44 15
9 16 31 30
Fonte: Secretaria do desenvolvimento do estado

EX 5- Foi retirada uma amostra referente aos pesos de 30 alunos do curso de ciência contábeis
do 2º ano, período diurno, UEPB 2017.
52,6 71,3 60,4 56,8 75,9 60,8 42,4 49,7 73,2 68,4
51,4 50,8 45,2 63,9 74,2 65,2 82,8 41,3 58,7 62,1
46,9 72,3 57,8 65,4 47,2 51,3 59,8 44,7 60,3 56,7
Construa uma tabela de distribuição discreta e contínua.

Ex 6- Considere os dados abaixo referentes ao consumo de água, em m3, de 75 contas da


CAGEPA:
32 6 22 11 34 40 16 26 23 31 27 10 38 17 13
45 25 50 18 23 35 22 30 14 18 20 13 24 35 29
33 48 20 12 31 39 17 58 19 16 12 21 15 12 20
51 12 19 15 41 29 25 13 23 32 14 27 43 37 21
28 37 26 44 11 53 38 46 17 36 28 49 56 19 11

(a) Organize os dados numa distribuição de frequência com 9 classes de amplitudes iguais.
(b) A partir da distribuição de frequência construída no item anterior, determine e interprete:
a frequência da frequência da 3ª classe, da frequência relativa da quarta classe e da
frequência acumulada da quinta classe.

28
Albuquerque M. A

Ex 7 - A altura de 60 alunos da UEPB foi registrada abaixo, em cm:


174 170 156 168 176 178 162 182 172 168
166 156 169 168 162 160 163 168 162 172
168 167 170 153 171 166 168 156 160 172
173 163 170 175 176 182 158 176 161 175
173 163 172 167 170 179 179 170 151 175
152 151 172 173 170 174 167 167 158 174

(a) Construa uma distribuição de frequência com 8 classes de amplitudes iguais,


adotando como limite inferior da distribuição 150 cm.
(b) Qual o percentual de alunos com altura mínima de 166 cm?
(c) Quantos alunos tem menos de 162 cm?
(d) Qual o percentual de alunos com altura média de 164 cm? Qual a soma total
aproximada das alturas dos 60 alunos?
Ex 8 -Os dados abaixo apresentam os coeficientes de liquidez obtidos da análise de balanço em
50 indústrias:
a) Esboce os dados numa distribuição de Frequências;
b) A distribuição de frequências relativa simples
c) A distribuição de frequências percentual simples;
d) A Frequências acumulada crescente;
e) A frequências percentual acumulada;

Ex 9 - Os dados coletados no campo e trazidos para o laboratório (escritório), na forma em que


se encontram, como apresentados na Tabela 1.1, são denominados dados brutos. Normalmente
este tipo de dados traz pouca ou nenhuma informação ao leitor, sendo necessário uma elaboração
(organização) destes dados, a fim de aumentar sua capacidade de informação.

29
Albuquerque M. A

Tabela 1.1: Dados dos alunos da disciplina Estatística do curso de Geografia (UEPB)
em 2018.

Indivíduo Altura Sexo Número de Irmãos


1 1,87 M 5
2 1,67 F 2
3 1,75 F 0
4 1,80 M 2
5 1,72 M 4
6 1,64 F 2
7 1,73 F 2
8 1,78 M 1
9 1,83 M 0
10 1,78 M 1
11 1,67 F 3
12 1,70 F 1
13 1,65 F 1
14 1,53 F 1
15 1,62 M 1
16 1,56 F 0
17 1,51 F 1
18 1,68 F 1
19 1,72 F 1
20 1,73 F 1
21 1,75 F 5
22 1,67 F 2
23 1,88 M 1
24 1,87 M 1
25 1,75 M 3
26 1,63 F 6
27 1,70 M 6
28 1,88 M 6
29 1,76 F 3
30 1,78 M 2

A mais simples organização numérica é a ordenação dos dados em ordem crescente ou


decrescente, chamada de ROL. Como pode-se observar na Tabela 1.2, a simples organização
dos dados em um Rol, aumenta muito a capacidade de informação destes. Pois enquanto a
Tabela 1.1 nos informava apenas que tínhamos 30 alunos, e algumas alturas, sexo e número de
irmãos, na Tabela 1.2, verificamos que a menor altura observada foi 1,51 m e a maior 1,88 m, o
que nos fornece uma amplitude total de variação da ordem de 0,37 m.

Tabela 1.2: Rol das alturas alunos da disciplina Estatística do curso de Geografia
(UEPB) em 2018.
1,51 1,53 1,56 1,62 1,63 1,64 1,65 1,67 1,67 1,67 1,68 1,70 1,70 1,72 1,72 1,73 1,73 1,75 1,75
1,75 1,76 1,78 1,78 1,78 1,80 1,83 1,87 1,87 1,88 1,88

30
Albuquerque M. A

2.4.5 APRESENTAÇÃO GRÁFICA

Figura é a denominação genérica atribuída aos gráficos, fotografias, gravuras,


mapas, plantas, desenhos ou demais tipos ilustrativos, quando presentes na tese. Quando
a figura for representada apenas por gráficos, a denominação pode ser feita por esta
palavra (gráfico).

Os gráficos representam dinamicamente os dados das tabelas, sendo mais eficientes na


sinalização de tendências.

Deve-se optar por uma forma ou outra de representação dos dados, isto é, não utilizar
tabela e gráfico para uma mesma informação.

O gráfico bem construído pode substituir de forma simples, rápida e atraente, dados de
difícil compreensão na forma tabular.

A apresentação gráfica é um complemento importante da apresentação tabular. A


principal vantagem de um gráfico sobre a tabela prende-se ao fato de que ele permite conseguir
uma visualização imediata da distribuição dos valores observados. Propiciam os gráficos uma
ideia preliminar mais satisfatória da concentração e dispersão dos valores, uma vez que através
deles os dados estatísticos se apresentam em termos de grandezas visualmente interpretáveis.
Um gráfico deve ser autoexplicativo, isto é, deve conter todos os elementos necessários
ao seu entendimento. Com isso, o usuário fica dispensado da obrigação de recorrer ao texto ou à
tabela que deu origem àquele gráfico. Devem ser simples, atrair a atenção do leitor e inspirar
confiança. Todo gráfico deve apresentar um título - descrição exata do fato observado, do local e
da época de referência; escala e numeração adequadas - representação precisa das grandezas a
serem mostradas; legenda - informação necessária à interpretação do gráfico.

A escolha do tipo de gráfico (barras, lineares, de círculos, entre outros) está


relacionada ao tipo de informação a ser ilustrada. Sugere-se o uso de:

Gráficos de linhas - para dados crescentes e decrescentes: as linhas unindo os


pontos enfatizam movimento;
Gráficos de círculos - usados para dados proporcionais;
Gráficos de barras - para estudos temporais; dados comparativos de
diferentes variáveis.

31
Albuquerque M. A

Os gráficos podem ser cartogramas ou diagramas. Identifiquemos cada um deles:

1. Cartogramas - são mapas geográficos ou topográficos em que as frequências das


categorias de uma variável são projetadas nas áreas específicas do mapa, utilizando-se
cores ou traçados cujos significados constam em legendas anexadas às figuras. Em
epidemiologia, os mapas alfinetados são de grande emprego para apreciar o aparecimento
e expansão de certas moléstias.

Esse tipo de representação gráfica é de grande utilidade em Saúde Pública, sobretudo na


elaboração de inquéritos epidemiológicos em que se deseja conhecer a distribuição geográfica de
casos e óbitos de uma determinada doença epidêmica.

2. Diagramas - são gráficos em que a magnitude das frequências é representada por certa
mensuração de uma determinada figura geométrica. São os gráficos mais usados na
representação de séries estatísticas e se apresentam através de uma grande variedade de
tipos.

• Tipos de Diagramas:

(a) Gráficos em Linhas ou Gráficos Lineares - São frequentemente usados para a


representação de séries temporais. As linhas são mais eficientes neste tipo de gráfico
porque permitem a detecção de intensas flutuações nas séries e também possibilitam a
representação de várias séries em um mesmo gráfico.

Ex. O conjunto de dados abaixo (Tabela 2.16) que representa o número de filho (dos
funcionários) da empresa Albuquerque.
Tabela 2.16
Nº de filhos Frequências
0 15
1 10
2 13
3 6
4 3
5 3
Total 50
Fonte:

32
Albuquerque M. A

Figura 2.1

(b)Gráficos Pictóricos (Pictogramas) - São gráficos construídos a partir de figuras ou conjunto


de figuras representativas da intensidade ou das modalidades do fenômeno. São gráficos
muito comuns em jornais e revistas, tendo como principal vantagem o fato de despertar a
atenção do público leitor.
a) Gráficos em Barras - Têm por finalidade comparar grandezas, por meio de retângulos de
igual largura e alturas proporcionais às respectivas grandezas. Cada barra representa a
intensidade de uma modalidade ou atributo.
Ex.Tabela 2.17 - Produção da região ”XY” - 1990
Produtos Toneladas (em milhares)
Soja 349
Trigo 98
Fumo 107
Arroz 49
Total 603
Fonte: Ministério da Agricultura

Figura 2.17 - Produção da região ”XY” - 1990

Fonte: Ministério da Agricultura

33
Albuquerque M. A

(d) Gráficos em Colunas - Prestam-se à mesma finalidade dos gráficos em barras horizontais,
sendo, entretanto, preferíveis a esses últimos quando as legendas a se inscreverem sob os
retângulos forem breves.
Produção da região ”XY” - 1990

300
250
200
Toneladas

150
100
50
0

Soja Trigo Fumo Arroz

Produtos

Figura 2.3

(e) Gráficos de Colunas Remontadas ou de Barras Agrupadas - São utilizados para


estabelecer comparações entre duas ou mais categorias.
Tabela 2.18 - Elementos classificados segundo o nível de instrução E uso de programas de alimentos
popular
Nível de Uso de programas
instrução Sim Não

baixo 350 150


alto 200 300

Figura 2.4
34
Albuquerque M. A

TABELA 2.1: DADOS DOS PROFESSORES E ALUNOS MATRICULADOS EM


ESCOLAS DO MUNICÍPIO DE NITERÓI EM 2009.
Escola de Ensino Fundamental Matrículas de professores Matrícula de alunos
Privada 1751 25280
Pública Estadual 1186 21328
Pública Municipal 947 18432
Pública Federal 29 280
Fonte : www.ibge.co.br
Também podemos criar o gráfico de barras de duas variáveis, um ao lado do outro, na
mesma janela gráfica. Para isso, vamos imaginar que os dados estejam armazenados em um
objeto do tipo matriz, conforme comando a seguir. Estes dados são os da tabela 2.1:

(f) Gráficos em Setores ou pizza - São utilizados para representar valores absolutos ou
porcentagens complementares.
Utilizados quando se pretende comparar cada valor da série com o total.

Figura 2.5

35
Albuquerque M. A

O gráfico é construído com base em círculos, e é empregado sempre que desejamos ressaltar a
participação dos dados no total. Tais dados são previamente transformados em números
percentuais, para depois calculados em graus convenientemente para a respectiva colocação na
circunferência.
A seguir podemos encontrar alguns tipos de diagramas, sendo que o Box-Plot será explicado
mais adiante.
2.4.5 GRÁFICOS REPRESENTATIVOS DAS DISTRIBUIÇÕES DE FREQUÊNCIAS

A representação gráfica das distribuições de frequências é feita através do histograma e do


polígono de frequências.
1. Um histograma é um gráfico de barras que representa a distribuição de Frequências
de um conjunto de dados. Um histograma possui as seguintes propriedades.
a. A escala horizontal é quantitativa e mede os valores dos dados.
b. A escala vertical mede as frequências das classes.
c. Barras consecutivas devem estar encostadas umas às outras.

60
50
Número de casos

40
30
20
10
0
3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5
Ácido úrico (mg/dl)

Figura 2.6
2. Polígonos de Frequências - Unindo por linhas retas os pontos médios das bases
superiores dos retângulos do histograma, obtém-se outra representação dos dados,
denominada polígono de frequências.

36
Albuquerque M. A

60

50

Número de casos
40

30

20

10

0
3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5

Ácido úrico (mg/dl)

Figura 2.7

Maiores informações sobre esses e outros tipos de gráfico serão fornecidas em aula pelo professor.
Exercícios
3 -Abaixo são mostrados os saldos médios de 48 contas de clientes do BB Novo S.A. (dados
brutos em US$ 1,00).
450 500 150 1000 250 275 550 500 225 475 150 450 950 300 800 275
600 750 375 650 150 500 1000 700 475 900 800 275 600 750 375 650
150 500 225 250 150 120 250 360 230 500 350 375 470 600 1030 270
(a) Agrupe os dados numa distribuição de frequências.
(b) Determine as frequências relativas: simples e acumulada.
(c) Apresente o histograma de frequências relativas
4 - Um restaurante usa um questionário para solicitar aos seus clientes uma avaliação do garçom,
da qualidade da comida, dos serviços, dos preços e do ambiente no restaurante. Cada característica
é avaliada numa escala de excelente (E), óptimo (O), bom (B), médio (M), e fraco (F). Use a
estatística descritiva para sintetizar os seguintes dados colectados sobre a qualidade da comida.
O O M F O B B M F E E O O
B B E E M O O F O O B E M
M O O O O O M F E F E O M
O O E O O O E O O M E B M
O E F F E M F M E O E E M
E E E F O E O

37
Albuquerque M. A

a) Represente os dados em gráfico de sectores e barras;


b) Qual é a sua impressão sobre a qualidade da comida apresentada no restaurante?

5 - Considere os dados abaixo referentes ao consumo de energia Kw, de 75 contas da EDM:


32 40 22 11 34 40 16 26 23 31 49
10 38 17 13 45 25 50 18 23 35 56
22 30 14 18 20 13 24 35 29 33 19
48 20 12 31 39 17 58 19 16 12 11
21 15 12 20 51 12 19 15 41 29 15
25 13 23 32 14 27 43 37 21 28 37
26 44 11 53 38 46 17 36 28

a) Organize os dados numa distribuição de frequências com 9 classes de amplitudes iguais;


b) A partir da distribuição de frequências construída no item anterior, determine e interprete: f3;
fr4; Fr4 – Fr2;
c) Construa o correspondente histograma de frequências relativas;
d) Determine as frequências simples e acumuladas (absolutas e relativas)

6 - .Abaixo são mostrados os saldos médios de 48 contas de clientes do BB Novo S.A. (dados
brutos em US$ 1,00
450 500 150 1000 250 275 550 500 225 475 150 450
950 300 800 275 600 750 375 650 150 500 1000 700
475 900 800 275 600 750 375 650 150 500 225 250
150 120 250 360 230 500 350 375 470 600 1030 270

a) Agrupe os dados numa distribuição de frequências.


b) Determine as frequências relativas: simples e acumulada.
c) Apresente o histograma de frequências relativas.
d) Apresente dados em polígonos de frequências simples e acumulada.

Distribuição univariada de frequências: Representação tabular

Considere os dados da Tabela 2.2, onde temos informações sobre a turma, o sexo, a
matéria predileta (Português, Matemática, História, Geografia ou Ciências) no 2º grau e a nota
(número de questões certas) em um teste de múltipla escolha com 10 questões de matemática,
ministrado no primeiro dia de aula dos calouros de Estatística. As três primeiras variáveis são
qualitativas, enquanto nota é uma variável quantitativa discreta.

38
Albuquerque M. A

Como podemos resumir essas informações de uma forma mais clara e objetiva? Afinal, o
que nos interessa é saber quantas mulheres e quantos homens há em cada turma, quantas pessoas
tiraram 10, e assim por diante. Para isso, vamos construir tabelas ou distribuições de frequência.
Tabela 2.2: Dados sobre sexo, matéria predileta e nota de alunos de 2 turmas
Turma Sexo Predileta Nota Turma Sexo Predileta Nota Turma Sexo Predileta Nota
A F H 5 A M M 2 B F G 6
A M M 8 A M G 4 B F M 4
A F P 8 A M G 9 B M M 6
A F H 6 A M M 7 B F P 5
A M C 5 A M M 1 B M G 3
A M H 6 A F P 8 B F M 5
A F M 8 A F G 5 B M P 3
A F P 4 A M G 9 B M M 4
A F H 2 A M P 5 B F C 8
A M C 6 A F M 8 B F H 3
A F P 8 A F G 6 B M G 4
A M H 3 A F P 9 B M P 5
A M M 5 A M M 8 B M P 4
A F P 5 B F H 6 B M H 6
A F G 5 B M M 3 B M M 6
A M C 7 B F P 4 B M G 6
A M H 4 B M H 8 B M H 6
A F M 7 B M G 10 B M H 6
A F P 7 B F M 5 B F M 8
A F M 6 B F P 7 B F M 8
A M G 6 B F P 5 B F G 5
A M H 9 B M M 6 B M C 5
A F M 8 B F M 5
A M P 5 B M G 5
A M G 6 B F H 8
A F M 7 B F G 5
A M P 5 B M G 6
A F M 5 B F M 5
A F M 5 B M G 2

Variáveis qualitativas

Vamos começar com a variável qualitativa sexo. Analisando as duas turmas


conjuntamente, vemos que há um total de 41 alunos e 39 alunas. Essas contagens são chamadas
frequências absolutas.
Poderíamos resumir essa informação em forma de tabela:
Tabela
Sexo Masculino
Masculino 41
Feminino 39
Total 80

39
Albuquerque M. A

Note a linha referente ao total!


Caso quiséssemos a informação por turma, a tabela seria a seguinte:
Tabela
Sexo Número de alunos
Turma A Turma B Total
Masculino 21 20 41
Feminino 21 18 39
Total 42 38 80

Note a coluna referente ao total!


Uma dificuldade que surge na comparação das duas turmas é o fato de o total de alunos
ser diferente. Assim, é comum acrescentar, à tabela de frequências, uma nova coluna com as
frequências relativas, que nada mais são que as frequências em forma percentual, representando
a participação da frequência de cada uma das categorias da variável sexo no total de alunos. Na
Tabela 2.3 temos a versão completa; note que foi acrescentado um título e a fonte dos dados,
informações imprescindíveis na apresentação de dados.

Tabela 2.3: Distribuição da variável Sexo por turma


Sexo Frequência na Turma A Frequência na Turma B Frequência Total
Absoluta Relativa (%) Absoluta Relativa (%) Absoluta Relativa (%)
Masculino 21 50,00 20 52,63 41 51,25
Feminino 21 50,00 18 47,37 39 48,75
Total 42 100,00 38 100,00 80
Fonte: Dados hipotéticos

Tabela 2.4: Distribuição da variável Matéria Predileta no Segundo Grau por turma
Matéria Predileta Frequência na Turma A Frequência na Turma B Frequência Total
no Segundo Grau Absoluta Relativa (%) Absoluta Relativa (%) Absoluta Relativa (%)
Português 10 23,81 7 18,42 17 21,25
Matemática 14 33,33 12 31,58 26 32,50
História 7 16,67 7 18,42 14 17,50
Geografia 8 19,05 10 26,32 18 22,50
Ciências 3 7,14 2 5,26 5 6,25
Total 42 100,00 38 100,00 80 100,00

Variáveis quantitativas

Vamos, agora, analisar a variável Nota, que é uma variável quantitativa discreta. Na
Tabela 2.5 temos as notas ordenadas. A listagem dos dados, mesmo ordenados, é de pouca
utilidade nas situações práticas, uma vez que, em geral, o número de observações é muito grande.
Além disso, ao se analisarem dados estatísticos, muitas vezes o interesse não está na observação
40
Albuquerque M. A

individual, mas, sim, no comportamento de grupos. Mais difícil ainda é a comparação entre os
resultados das duas turmas, uma vez que as turmas têm números de alunos diferentes.
Tabela 2.5: Notas ordenadas por turma
Turma A Turma B
1 2 2 3 3 3 3 5 5 5 5 2 3 3 3 3 4 4 4 4 4 5
5 5 5 5 5 5 5 6 6 6 6 5 5 5 5 5 5 5 5 5 5 6
6 6 6 7 7 7 7 7 8 8 8 6 6 6 6 6 6 6 6 6 7 8
8 8 8 8 8 9 9 9 9 8 8 8 8 10

A partir dos dados ordenados, podemos saber rapidamente os valores mínimo e máximo:
na Turma A as notas variam de 1 a 9 e na Turma B, de 2 a 10. Esse é o conceito de amplitude de
um conjunto de dados. Construa uma distribuição de frequência com os dados da turma A e B.

Medidas Estatísticas
3.1 Medidas de tendência central ou posição

Quando se deseja representar os dados de uma distribuição de uma forma mais simples,
por meio de um valor único, a melhor opção é a escolha de uma medida de tendência central.
Essas medidas, que representam os parâmetros ou estimativas em torno dos quais ocorre a maior
concentração dos valores observados no estudo, têm por objetivo mostrar o ponto central de
equilíbrio de uma distribuição de dados.
Vimos até agora a sintetização dos dados sob a forma de tabelas, gráficos e distribuições
de frequências.
Agora, vamos aprender o cálculo de medidas que possibilitem representar um conjunto
de dados relativos à observação de determinado fenômeno de forma resumida.
As medidas de tendência central são também chamadas de medidas de posição, e
estabelecem o valor em torno do qual os dados se distribuem.
Vale a pena chamar a atenção que, para o cálculo dessas medidas, é necessário que a
variável seja quantitativa.

41
Albuquerque M. A

3.2 Medidas de posição ou tendência central:


3.2.1 Média Aritmética
A média aritmética, ou simplesmente média, é a medida de tendência central mais
comumente utilizadas em cálculos que envolvam análise descritivas para comparações e
inferências estatísticas entre amostras e populações. De cálculo simples e fácil, a média
corresponde a um valor único que representa o ponto de equilíbrio entre todos os valores de uma
série de dados numéricos coletados a partir de uma variável continua, além de apresentar
propriedades matemáticas que permitem o desenvolvimento de cálculos estatísticos avançados.

3.2.2 Média Aritmética Simples: É dada pelo quociente entre a soma dos valores observados e
a Frequências total ( o número total de observações).
Sejam x1, x2, x3,.....,xn, portanto “n” valores da variável x representada por x é definida
n

x
x1  x 2  x 3  .......  x n i 1 i 1 n
x  ou  xi
n n n i 1
Ou, Genericamente, podemos escrever:
n

X
Some todos os elementos do conjunto de dados x i
Quantidade de elementos do conjunto x i 1

n
onde xi = valor genérico da observação
n = tamanho da amostra = número de observações
N = Número de observações da população
x = média da amostra
 = média da população
Este tipo de média aritmético será calculado quando os valores não estiverem tabulados,
ou seja, quando aparecerem representados individualmente como é o caso dos dados brutos, por
exemplo.

Ex9: Temos uma amostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos
(em kg):
23,0  20,0  22,0 19,0 25,0  28, 2  24,0 21,0 27, 0  21, 0
x  x  23,0
10
UTILIZANDO O MICROSOFT EXCEL: =MÉDIA(núm1;núm2;...).

42
Albuquerque M. A

Isso significa que o peso médio é de 23,0 kg. É claro que foram obtidos pesos de crianças
desta idade que se encontram abaixo ou acima do valor médio. No entanto, a média representa
um valor típico.

Ex10: Determinar a média aritmética simples dos valores: 3, 7, 8, 10, 11.


3  7  8  10  11 39
x x   7.8
5 5
Ex 11: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10, 14,
13, 15, 16, 18 e 12 litros, temos, para produção média da semana:

10  14  13  15  16  18  12 98
x   14 Logo: x  14 litros
7 7
Às vezes, a média pode ser um número diferente de todos os da série de dados que ela
representa. É o que acontece quando temos os valores 2, 4, 8 e 9, para os quais a média é 5. Esse
será o número representativo dessa série de valores, embora não esteja representado nos dados
originais. Neste caso, costumamos dizer que a média não tem existência concreta.

Média aparada (XA ) , tri-média, A média truncada, média Interna

Calcula a média aritmética de um conjunto de dados, excluindo dos cálculos uma porcentagem
dos valores extremos. Se for informada uma porcentagem de 10%, por exemplo, serão excluídos
os 5% dos valores maiores e os 5% dos valores menores. Num conjunto de 100 dados serão
excluídos os 5 maiores valores e os 5 menores valores.

Esta eliminação dos valores extremos é para eliminar o efeito de observações discrepantes,
conhecidas como outliers, no cálculo da média aritmética.
A título de ilustração considere o conjunto de dados a seguir e com o cálculo da média aritmética
e da média aparada com m=1 (5%) das observações.
1 4 5 6 6 7 7 7 7 8 8 8 8 8 8 9 9 10 10 80
A média é: X = 10,80 a média aparada
4566  10  10
Retirando os valos 1 e 80 XA   7.5
18

43
Albuquerque M. A

3.2.3 - Média Aritmética Ponderada: É a média aritmética calculada quando os dados estiverem
agrupados em distribuições de Frequências. Os valores x1, x2, ..., xn serão ponderados pelas
respectivas frequências absolutas ou pesos p1, p2, ..., pn.
Então teremos:
n

x p i i
x i 1
onde n   pi
n
Exemplo: A Tabela abaixo mostra cada uma das notas parciais obtidas por um candidato
classificado em um concurso público, com suas respectivas ponderações. Qual a média final do
candidato?
Tabela - Notas parciais do candidato A e suas respectivas ponderações
Avaliação Notas Pesos Notas . Pesos
Escrita 8,5 5
Didática 9,1 4
Prática 8,8 3
Curricular 7,4 2
Entrevista 6,0 1
Total 39,8 15

A média final do candidato igual a 8,41


Ex11. Calcular a média das notas de 1 aluno, que fez uma prova com peso 5, um trabalho com
peso 3 e uma lista de exercícios com peso 2, o aluno conseguiu 8,5 na prova, 9,0 no trabalho e
6,0 na lista de exercício. Obtenha uma média ponderada:

Ex. Você está assistindo a um curso no qual sua nota é determinada a partir de cinco fontes: 50%
da média de seus testes, 15% de seu exame no meio do curso, 20% de seu exame final, 10% de
seu trabalho no laboratório de computação e 5% do trabalho feito em casa. As suas notas são 86
(média dos testes), 96 (exame no meio do curso), 82 (exame final), 98 (laboratório de
computação) e 100 (trabalho de casa). Qual é a média ponderada de suas notas?
Ex - Em 2014, em certa localidade, o custo da alimentação aumentou 58%, os aluguéis subiram
47% e o transporte subiu 49%. Se um assalariado gasta 35% do seu salário com alimentação, 25%
com aluguel e 12% com transporte, qual o aumento percentual dos gastos dessa pessoa com esses
três itens?
Custo Antes do aumento Depois do aumento Total
Alimentação 0,35% 0,58% 0,35 x 0,58 = 0,203
Aluguel 0,25% 0,47% 0,25 x 0,47 = 0,118
Transporte 0,12% 0,49% 0,12 x 0,49 = 0,059
Total 0,72% 0,380 ou 38%
44
Albuquerque M. A

Para cada unidade do seu salário, a pessoa gastava, antes do aumento, 0,35 com alimentação, 0,25
com aluguel e 0,12 com transporte. Depois do aumento, ela passa a ter uma despesa adicional de
0, 58 × 0, 35 = 0, 203 com alimentação, 0, 47 × 0, 25 = 0, 118 com aluguel e 0, 49 × 0, 12 = 0,
059 com transporte, o que totaliza 0, 203 + 0, 118 + 0, 059 = 0, 380. Então, para cada unidade do
seu salário, ela tem um aumento de 0,38 nos gastos com esses três itens, ou seja,um aumento de
38%. Note que ela já gastava 0, 35+, 025 + 0, 12 = 0, 72 = 72% do salário com esses três itens.
Agora, ela passa a gastar, só com esses itens, 110%, ou seja, mais do que ganha!
Esse cálculo corresponde a uma média ponderada das taxas de aumento, onde os fatores de
ponderação correspondem às parcelas do salário gastas com os diferentes itens.

3.2.4 - Variáveis discretas (sem intervalo de classe)


n

x  f i i
x i 1
,onde n   fi
n
Ex12 Considerando os números de crianças nascidas dos funcionários da empresa Informática
Albuquerque no ano 2022.
Tabela 2.19
Número de crianças (xi) fi Xi.fi

0 2
1 8
2 10
3 12
4 4
Total 36
Fonte: Dep. de Psicologia

Na Tabela 2.20 temos as frequências acumuladas do número de sinistros por apólice de seguro
do ramo Automóveis. Complete a tabela, calculando as frequências simples absolutas e relativas
e também as frequências acumuladas relativas.
Tabela 2.20: Número de sinistros por apólice
Número de sinistros Número de
(xi) apólices(fi)
0 2913
1 4500
2 4826
3 4928
4 5000

45
Albuquerque M. A

3.2.5 - Variável continua (com intervalos de classe)

Quando os dados estiverem agrupados numa distribuição de Frequências, usaremos a


média aritmética dos valores x1, x2, x3,..., xN ponderados pelas respectivas frequências absolutas:
f1, f2, f3, ..., fK vezes respectivamente, a média aritmética será :

x
x1f1  x 2 f 2  x 3f 3  ............  x i fi

x f
i i

f1  f 2  f 3  .......  f i f i

x  f i i
x i 1
, onde n   f i
n
Ex13: Determinar a média da distribuição:

Tabela 2.21Nome
Renda Nº de xi xi.fi
Familiar Famílias (fi)
2├ 4 5
4├ 6 10
6├ 8 14
8├ 10 8
10├ 12 3
Total 40
Fonte: Dep. de Psicologia
n

x  f i i
268
x i 1
,x  6.7
n 40
onde n   f i

3.2.6 - Propriedades da Média

Algumas propriedades das medidas de posição


 Somando ou subtraindo a mesma quantidade arbitrária de todos os valores da série, a
média ficará aumentada ou diminuída dessa mesma quantidade.

Resumindo 2 3 5 6 4 (2 + 3 +5+6+4)/5 = 4+2 = 6


(4+5+7+8+6)/5 30/5=6
(4+6+10+12+8) = 40/5 =8

46
Albuquerque M. A

y  xi  k  y  x  k .

 Multiplicando cada observação por uma mesma constante não nula k, a média aritmética
simples fica multiplicada por essa constante. Definindo a nova série de observações por

yi  kxi , temos que


1 n 1 n 1 n
y  i n
n i 1
y 
i 1
kxi  k .  xi  kx
n i 1
Resumindo

yi  kxi  y  kx
Ex - No mês do dissídio de uma determinada categoria, uma firma deu um aumento de 20% a
todos os seus funcionários. Se, antes do aumento, o salário médio dos funcionários era de
R$780,00, qual será o novo salário médio? No Natal seguinte, a firma dá um abono de R$50,00
para todos os funcionários. Se a firma tem 22 funcionários, qual o valor da folha de pagamentos
neste mês de dezembro?
Solução:
Quando todos os funcionários têm aumento de 20%, isso significa que cada salário fica
multiplicado por 1,2, ou seja, o salário de cada funcionário é o salário antigo mais 20%. Ao
multiplicar todos os números por uma mesma constante, a média fica multiplicada por essa
constante. Então, o salário médio fica multiplicado por 1,2, ou seja, passa a ser 1, 2×780, 00 =
R$936, 00. Como a firma tem 22 funcionários, a folha de pagamentos passa a ser 22×936 =
R$20.592, 00. No Natal, os salários de todos os funcionários ficam somados de R$50,00; logo o
salário médio também fica somado de 50,00 e a folha de pagamentos será de 20.592+22×50 =
R$21.692, 00.

Vantagens do uso da média aritmética

 É a medida de posição mais conhecida e de maior emprego em estatística inferencial, pois


justamente com uma medida de dispersão, serve para comparar grupos semelhantes.
 Quando calculada adequadamente, em uma amostra bem selecionada, a média aritmética
representa uma estimativa não-viciada da média da população de onde a amostra foi
retirada. É senso comum que, médias de amostras repetidas, retiradas da mesma
população, não apresentam grandes variações.

47
Albuquerque M. A

 Depende sempre de todos os valores do conjunto de dado e, em geral, não ocupa a posição
central do conjunto, mas sim, a posição do centro de equilíbrio. Porém, não representa
bem os conjuntos que apresentam grandes variações nos dados, pois é fortemente
influenciada por valores discrepantes (outliers) da amostra ou população.

Outros tipos de média são, geométrica, e a média harmônica.

3.2.7 Média geométrica (G)

É um parâmetro muito útil para a determinação de médias de porcentagens, razões, índice


e taxas de crescimento. A média geométrica de um conjunto de números positivos é definida
como o produto de todos os membros do conjunto, elevado ao inverso do número de membros.
Assim temos, para o conjunto de dados:

xi  {x1 , x2 ,..., xn },a média geométrica xg  n x1  x2   xn ,

Exemplo: Conjunto de dados x = {6, 8, 4, 2}

Cálculo da média geométrica G  4 6 x8x4 x2  4 384  4,4267

Variações Percentuais em Sequencia


Uma outra utilização para este tipo de média, é quando estamos trabalhando com
variações percentuais em sequência.
Digamos que uma categoria de operários tenha um aumento salarial de 20% após um
mês, 12% após dois meses e 7% após três meses. Qual o percentual médio mensal de aumento
desta categoria?

Tópico relacionado
Como acrescentar um valor percentual a um número?
Sabemos que para acumularmos um aumento de 20%, 12% e 7% sobre o valor de um
salário, devemos multiplicá-lo sucessivamente por 1,2, 1,12 e 1,07 que são os fatores
correspondentes a tais percentuais.
A partir dai podemos calcular a média geométrica destes fatores:

G  3 1, 2.1,12.1,07  3 1, 43808  1,12874

48
Albuquerque M. A

Como sabemos, um fator de 1,128741 corresponde a 12,8741% de aumento. Este é o


valor percentual médio mensal do aumento salarial, ou seja, se aplicarmos três vezes consecutivas
o percentual 12,8741%, no final teremos o mesmo resultado que se tivéssemos aplicado os
percentuais 20%, 12% e 7%.
Tabela 2.20- Digamos que o salário desta categoria de operários seja de R$ 1.000,00, aplicando-
se os sucessivos aumentos temos:
Salário + % Salário final Salário + % médio Salário final
inicial informado inicial
R$ 1.000,00 20% R$ 1.200,00 R$ 1.000,00 12,8417% R$ 1.128,74
R$ 1.200,00 12% R$ 1.344,00 R$ 1.128,74 12,8417% R$ 1.274,06
R$ 1.344,00 7% R$ 1.438,08 R$ 1.274,06 12,8417% R$ 1.438,08
Observe que o resultado final de R$ 1.438,08 é o mesmo nos dois casos.

Se tivéssemos utilizado a média aritmética no lugar da média geométrica, os valores finais


seriam distintos, pois a média aritmética de 13% resultaria em um salário final de R$ 1.442,90,
ligeiramente maior como já era esperado, já que o percentual de 13% utilizado é ligeiramente
maior que os 12,8417% da média geométrica.
(1) Aplicações em matemática financeira

Exemplo 1 - Se um investimento durante dois meses rende 2% no primeiro mês e 3% no


segundo mês, qual o rendimento médio desse investimento?
O rendimento médio será dado pela média geométrica dos fatores de rescimento, ou seja,
1,02 e 1,03. Logo, o rendimento médio será dado por

G  2 1, 02.1, 03  2 1, 051  1, 025


O que equivale a um rendimento de aproximadamente 2,5% ao mês.
Notemos apenas que para cálculos dessa natureza, utilizamos um valor equivalente e
não valores percentuais, isto é, um aumento de 5% se torna 1,05; e um desvalorização
de 2% é transformada em 0,98;

Exemplo 2: Se um investimento rende 5% no primeiro mês, 3% no segundo mês e 7%


no terceiro mês, qual o rendimento médio desse investimento?

Da mesma maneira do exemplo 1, o rendimento médio será dado pela média


49
Albuquerque M. A

geométrica dos fatores de crescimento, ou seja, 1,05 e 1,03. Logo, o rendimento médio

será dado por G  3 1,05.1,03.1,07  3 1,157  1,049

Isso significa que o rendimento do investimento equivale a 4,9% ao mês.

3.2.8 Média Harmônica (H)

Para um conjunto formados por n números racionais positivos: x1 , x2 ,..., xn , a média


harmônica H entre esses números é dada pela divisão de n pela soma dos inversos desses n
(inverso da média aritmética) números, isto é:
Como sabemos a média aritmética dos números x1, x2, x3, ..., xn é dada por:

x1  x2   xn
n

Só que no caso da Média harmônica estamos falando do inverso destes números, então teríamos
1 1 1
  
x1 x2 xn
a seguinte média aritmética:
n

Além disto, como vimos que a Média harmônica é o inverso da média aritmética do inverso dos
n
referidos números, então finalmente temos: H 
1 1 1
  
x1 x2 xn

Exemplo: Conjunto de dados x = (2, 6, 8) ;


3 3 3.24
H    3, 7894
1 1 1 12  4  3 19
 
2 6 8 24
A média harmônica nunca é maior do que a média aritmética ou do que a média geométrica.

Pois, temos x g h

Outra fórmula de calcular a média harmônica de dois números é multiplicar os dois números e
dividir o resultado pela média aritmética dos dois números. Matematicamente:
 .
   
 
 2 

50
Albuquerque M. A

Essa fórmula é equivalente à primeira, mas mais simples em alguns casos.

Em uma certa situação, a média harmônica provê a correta noção de média. Por exemplo,
se metade da distância de uma viagem é feita a 40 km por hora e a outra metade da distância a 60
km por hora, então a velocidade média para a viagem é dada pela média harmônica,
2 2 2.120
H    48
1 1 5 5

40 60 120
que é 48; isso é, o total de tempo para a viagem seria o mesma se viajasse a viagem inteira a 48
quilômetros por hora. (Note, entretanto que se tivesse viajado por metade do tempo em uma
velocidade e a outra metade na outra velocidade, a média aritmética, nesse caso 50 km por hora,
proveria a correta noção de média).
Da mesma forma, se um circuito elétrico contém duas resistências conectadas em
paralelo, uma com uma resistência de 40 ohm e outra com 60 ohm, então a média das resistências
das duas resistências é 48 ohm; isso é, a resistência do circuito é a mesma que a de duas
resistências de 48 ohm conectadas em paralelo. Isso não é pra ser confundido com sua resistência
equivalente, 24Ω, que é a resistência necessária para substituir as duas resistências em paralelo.
Note que a resistência equivalente é igual a metade do valor da média harmônica de duas
resistências em paralelo.
Em finanças, a média harmônica é usada para calcular o custo médio de ações compradas
durante um período. Por exemplo, um investidor compra $1000 em ações todos os meses durante
três meses. Se os preços no momento de compra forem de $8, $9 e $10, então o preço médio que
o investidor pagou por ações é de $8,926. Entretanto, se um investidor comprasse 1000 ações por
mês, a média aritmética seria usada.
A média harmônica é o método preferível para a média dos múltiplos, tais como a relação
preço/ganho , em que o preço é no numerador. Se esses índices são calculados usando uma média
aritmética (um erro comum), os pontos de dados altas são dadas maior peso do que pontos de
dados baixos. A média harmônica, por outro lado, dá um peso igual para cada ponto de dados.
Exemplo
Um veículo realizou o trajeto de ida e volta entre as cidades A e B. Na ida ele desenvolveu
uma velocidade média de 80 km/h, na volta a velocidade média desenvolvida foi de 120 km/h.
Qual a velocidade média para realizar todo o percurso de ida e volta?

Embora não tenha sido dito no enunciado, estamos considerando que os trajetos de ida e
volta têm a mesma medida.
51
Albuquerque M. A

É fácil entender que a média aritmética das velocidades seria de 100 km/h:
80  120
x  100
2
Porém a pergunta não foi qual a média das velocidades, mas sim qual a velocidade média para
realizar todo o percurso.
Vamos fazer o seguinte, já que independentemente da distância entre as cidades as
velocidades médias foram de 80 km/h na ida e de 120 km/h na volta, para facilitar a explicação
vamos arbitrar que a distância entre as cidades A e B seja de 120 km.
2 2 2.240
H    96
1 1 3 2 5

80 120 240
A velocidade média para se percorrer todo o percurso de ida e volta seria de 96 km/h.

Mediana
A mediana de um conjunto de dados corresponde ao valor que, no conjunto de dados,
separa-o em dois subconjuntos de mesmo número de elementos, quando estes estão ordenados
segundo uma ordem de grandeza. É, portanto, o valor que ocupa a posição central quando todos
os valores observados estão dispostos em ordem crescente ou decrescente de magnitude.
Colocando os valores em ordem crescente, a mediana é o valor que divide a amostra, ou
população, em duas partes iguais. Assim:
0% 50% 100%

Md
Variável discreta (dados não agrupados, porém, ordenados):
n 1
 Se n for ímpar, a mediana será o elemento central (de ordem ).
2
n 1
K posição do elemento mediana. - com - posição do elemento mediana.
2
n n
Se n for par, a mediana será a média entre os elementos centrais (de ordem e 1 )
2 2
xk  xk 1 n n
n é par, Me  ; k1  e k2  k  1   1.
2 2 2

Ex14: 1) 2 6 4 8 7 9 10

2) 11 3 5 7 8 10 9 2
52
Albuquerque M. A

Exemplo: Para dados simples


Consideremos dois conjuntos de elementos:
A={2, 7, 13, 5, 9, 15 ,22} 2 5 7 9 13 15 22 md = 9
e B={7, 16, 2, 10, 5, 9} 2 5 7 9 10 16 md = 8
UTILIZANDO O MICROSOFT EXCEL: =MED(núm1;núm2;...)
Determinemos a mediana de cada conjunto.

Para o conjunto A:
1º ordenar os dados: A={2, 5, 7, 9, 13, 15, 22}
2º como n é impar, = , X4 = Me=9
Para o conjunto B:
1º ordenar os dados: ={2, 5, 7, 9, 10, 16}
2º neste caso, n é par, observando a ordem X1 = 3 e X2=X1+1=3+1=4 assim, X3=7 e
79
x4=9 Md  8
2
Dados em tabelas não agrupados
1- se n é ímpar,
Consideremos a tabela das idades dos alunos da duma turma da 10ª classe

Idade(em anos) Frequência Fac


Xi fi
13 2 2
14 7 9
15 9 18
16 3 21
17 2 23
Total n=23

n  1 23  1
k   12  Me  X 12  15anos
2 2
O número 12 indica a posição do elemento mediana e procura-se na Fi. E nesta posição
encontramos a idade 15. Porque de 10 a 18 encontramos uma sequência de 15.

53
Albuquerque M. A

2- se n é par
Consideremos os dados da seguinte tabela:
xi Fi Fac
33 6 6
45 11 17
87 17 34
88 9 43
91 5 48
Total N=48
n 48
k1    24
2 2
e k2=k1+1=24+1=25. como se pode ver na tabela, de 18 a 34 encontramos uma sequência
de 87 isto significa que na posição 24 e 25 temos o mesmo valor ou seja X24=X25=87

assim, coincidentemente, Me  x24  x25  87 .


2
Ex15. Dada a distribuição, calcule a média e a mediana.
Tabela 2.22
Xi fi fac Xi.fi
1 1 1 1x1=1
2 3 4 2x3=6
3 5 9 3x5=15
4 2 11 4x2=8
Total 11 30

30 n  1 11  1
A média x   2.73 ; A moda 3; Mediana   6 é posição
11 2 2

Calculo da mediana – variável continua ou dados agrupados


n
1. calcula-se a ordem . Como a variável é continua, não se preocupe se n é par ou ímpar,
2
2. pela fac identifica-se a classe que contém a mediana (classe md),

3. utiliza-se a fórmula,
n
4. calcula-se a ordem . Como a variável é continua, não se preocupe se n é par ou ímpar,
2
5. pela fac identifica-se a classe que contém a mediana (classe md),

n
(   f an )
md  l md  2 h
6. utiliza-se a fórmula,
f md
54
Albuquerque M. A

Tabela 2.8 - Idade dos alunos do curso de, Educação Física da UEPB, no ano de 2014
Idade Frequências Fac Frequência Freq. Frequência Ponto Xi.fi
Absoluta relativa percentual acumulada médio
simples (fi) simples
21├ 24 7 7
24├ 27 9 16
27├ 30 1 17
30├ 33 5 22
33├ 36 8 30
Total 30
Fonte: pró-reitora de graduação.
Ex16: Dada a distribuição amostral, calcule a mediana.
Tabela 2.23
Classes fi fac
35├ 45 5 5
45├ 55 12 17
55├ 65 18 35
65├ 75 14 49
75├ 85 6 55
85├ 95 3 58
Total 58

Características e Importância da Mediana:


lmd = limite inferior da classe md,
h = amplitude da classe da mediana,
fmd= Frequências da classe da mediana,

 f an =soma das frequências da classe da mediana.


n
(   f an )
md  l md  2 h
f md
Ex. tabela-4 das alturas dos alunos da 10ª classe
Alturas(em m) fi Fad Fac
[1,45; 1,50[ 2
[1,50; 1,55[ 4
[1,55; 1,60[ 5
[1,60; 1,65[ 7
[1,65; 1,70[ 3
[1,70; 1,75[ 2
Total n= 23
55
Albuquerque M. A

I. Pode ser obtida em distribuições de frequências que apresentem classes com limites
indefinidos;
II. É muito empregada em pesquisas nas quais os valores extremos têm pouca importância;
III. Não é influenciada por valores extremos e sim pelo número de observações;
IV. É mais realista do que a média para representar certas variáveis com distribuições
assimétricas, como a renda dos brasileiros (existem valores discrepantes).
V. Não considera todas as observações no seu cálculo.

Moda
Dentre as principais medidas de posição, destaca-se a moda. A moda é o valor que ocorre
com maior frequência, ou seja, o valor que mais se repete na amostra de dados. Quando as
frequências são maiores nos extremos ou quando se quer destacar um valor de alta frequência, a
moda pode ser considerada para a interpretação dos dados. Com relação à moda, uma amostra de
dados pode ser classificada em amodal (não possui moda), unimodal (possui apenas uma moda),
bimodal (possui duas modas) ou multimodal (possui mais de duas modas).
Para distribuição simples (sem agrupamento em classes), a identificação da moda é
facilitada pela simples observação do elemento que apresenta maior Frequências.
UTILIZANDO O MICROSOFT EXCEL: =MODO(núm1;núm2;...).
Ex17: 2, 3, 4, 3, 5, 6, 7
10 11 14 15 11 10 17
Ex18:
Tabela 2.24
xi 243 245 248 251 307
fi 7 17 23 20 8

MÉTODO DE CZUBER
O método de Czuber permite encontrar-se a moda em dados agrupados. Como era de se
esperar, a moda estará contida na classe mais frequente ou, no histograma, a coluna mais alta.
Essa classe recebe o nome de classe modal. Dentro da classe modal a moda se situará mais
próximo àquela classe adjacente que for mais consecutivamente mais alta. Analise a fórmula e
entenda sua lógica no histograma ilustrativo da Figura 1.6.

56
Albuquerque M. A

0.15
0.10
dfr

0.05
0.00
44 46 48 50 52 54 56

Variável

Figura 1.6: Histograma ilustrando geometricamente método de Czuber.


Fórmula de Czuber
1º passo: identifica-se à classe modal (aquela que possuir maior Frequências),
d1
2º passo: aplica-se à fórmula, M 0  lmo  h
d1  d 2
em que:
lmo = limite inferior da classe modal, 2
d1 = diferença entre a Frequências da classe modal e a imediatamente anterior, 17- 10
d2 = diferença entre a Frequências da classe modal e a imediatamente posterior, 17 - 8
h = amplitude da classe modal. 3 -2 =1
Ex19: Determinar a moda para a distribuição.
Tabela 2.25
Classes fi
0├ 1 3
1├ 2 10
2├3 17
3├4 8
4├5 5
Total 43

I. Não é afetada por valores extremos, a não ser que estes constituam a classe modal;
II. É uma medida bastante utilizada em Estatística Econômica;

57
Albuquerque M. A

Exercícios

Ex20. O departamento de Contabilidade possui dois auxiliares recebendo salários de 2.500,00


cada um, quatro secretários recebendo 6.000,00 cada um, um chefe do departamento com salário
de 10.000,00 e três professores recebendo 8.000,00 cada um. A média destes salários é:

Ex21. Dada à amostra de 60 árvores de dada região geográfica:

10 9 13 3 3 4
3 6 8 4 12 15
10 8 3 2 9 4
2 1 8 11 6 14
8 12 4 3 5 6
5 3 14 1 14 8
7 5 14 2 4 10
15 7 10 3 13 16
11 5 2 15 9 4
1 13 9 13 6 16
Rol
a) agrupar os elementos em classes;
b) construir o histograma e o polígono de Frequências;
c) calcular a média;
d) calcular a mediana;
e) calcular a moda;
Ex22. Dada à série: 1,2; 1,4; 1,5; 1,8; 2 calcular a média a mediana e a moda populacional.

Ex23: Duas empresas contataram dez pessoas com curso superior em informática. O salário
nessas companhias é mostrado a seguir.
Tabela 2.26
A Salário 41 38 39 45 47 41 44 41 37 42
B Salário 40 23 41 50 49 32 41 29 52 58
Determinar:
a. A média.
b. A moda.
c. A mediana.
d. Compare sua resposta e faça um comentário
Ex24. Um pesquisador aborda 30 transeuntes ao acaso e pergunta-lhes a idade.

58
Albuquerque M. A

35 26 39 25 39 22
42 40 39 22 21 40
16 32 39 21 28 39
18 37 23 14 27 44
30 32 21 15 26 43

a) resuma as informações sob forma de uma distribuição de Frequências;


b) apresente os dados na forma de um histograma;
c) calcule a média, a mediana e a moda.
Ex25. Os dados abaixo representam a produção da empresa Albuquerque que produz óleo entre
1998 e 2004.
Tabela 2.27 -. Produção de óleo da empresa Albuquerque entre 2003 e 2013.
Anos Quantidade (1000 t.)
1998 39,3
1999 39,1
2000 53,9
2001 65,1
2002 69,1
2003 59,5
Total
Fonte:
Construir os gráficos que melhor representam a tabela.
Obs: quando a variável é quantitativa o gráfico ideal é de: setor (pizza), barra, colunas e linha.

Resumo
59
Albuquerque M. A

Medidas de separatrizes (Quartis, Percentis e Decis)

O desvio padrão é o parâmetro mais comumente utilizado para descrever a dispersão em


um conjunto de dados. Entretanto, existem outros métodos para se demonstrar a variação ou
amplitude dos valores de uma distribuição, sendo um destes métodos o que determina a
localização de valores que dividem o conjunto das observações em partes iguais. Estas medidas
de posição, também chamadas de medidas separatrizes, são o quartil, o decil e o percentil.

Quartis:
Medidas baseadas na ordenação dos dados

Os três quartis Q1, Q2, Q3 dividem aproximadamente um conjunto, ordenado em ordem


crescente ou decrescente de apresentação dos dados em quatro partes iguais, cada uma reunindo
25% das observações. Cerca de um quarto dos dados fica dentro ou abaixo do primeiro quartil
Q1. Cerca da metade dos dados fica dentro ou abaixo do segundo quartil Q2 (segundo quartil é
igual à mediana do conjunto de dados). Cerca de Três quartos dos dados ficam dentro do terceiro
quartil Q3.

60
Albuquerque M. A

Observação: Q1, Q2 e Q3 referente a população e q1, q2 e q3 referente a amostra.


N referente a população e n referente a amostra

0% 25% 50% 75% 100%

│ │ │ │ │
Mínimo Q1 Q2 Q3 Máximo

Q1 = 1º quartil, deixa 25% dos elementos.


Q2 = 2º quartil, deixa 50% dos elementos.
Q3 = 3º quartil, deixa 75% dos elementos.

Quartil (Q1 ou P25)

Para um conjunto de dados que tem um número ímpar de observações, o primeiro quartil
n 1
é expresso: Posição Q1 
4
Para um conjunto de dados que tem um número par de observações, o primeiro quartil é
n n 1

expresso: Posição Q1  4 4
2
Segundo quartil (Q2 ou P50= md)
Para um conjunto de dados que tem um número ímpar de observações, o segundo quartil
2(n  1) n  1
é expresso: posição Q2  
4 2
Para um conjunto de dados que tem um número par de observações, o segundo quartil é
2n (2n  1)

expresso: Q2  4 4
2
Terceiro quartil (Q3 ou P75)
Para um conjunto de dados que tem um número ímpar de observações, o terceiro quartil
3(n  1)
é expresso: posição Q3 
4
Para um conjunto de dados que tem um número par de observações, o terceiro quartil é
3n 3(n  1)

expresso: Q3  4 4
2
61
Albuquerque M. A

Exemplos : Observações: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12.


Ordenando: 3 5 5 6 7 8 9 11 12 15 18
Ex. A pontuação nos testes de 15 empregados envolvidos em um curso de treinamento está
disposta a seguir. Obtenha o primeiro, segundo e o terceiro quartil da pontuação dos testes.
13 9 18 15 14 21 7 10 11 20 5 18 37 16 17
os dados da seguinte tabela:
xi fi fac
33 6 6
45 11 17
87 17 34
88 9 43
91 5 48
Total N=48

Fórmula para dados agrupados em classe de frequência. AIQ  38  30.5  7.5

 IN 
   fACant  .h
Qi  lQi   
4
fQi

Onde N  f i

lqi = limite inferior da classe Qi, i = 1, 2,3


N = tamanho da população ou n tamanho da amostra
h = amplitude da classe Qi
Fqi = Frequências da classe Qi
∑f = soma das frequências anteriores “a classe Qi
i. N
1º Passo: Calcula-se . ( 1 x 56)/4 = 14
4
2º Passo: Identifica-se a classe Q1 pelo Fac.
3º Passo: Aplica-se a fórmula.
Ex26. Dada a distribuição, determinar os quartis.
Tabela 2.28 -
Classes fi fac
7 ├ 17 6 6
17├ 27 15 21
27├ 37 20 41
37├ 47 10 51
47├ 57 5 56
Total 56
Amplitude interquartílico (AIQ)
62
Albuquerque M. A

Corresponde à diferença entre o valor do terceiro quartil (Q3) e o valor do primeiro


quartil(Q1), equivalente aos 50% dos dados que ocupam a posição mais central da distribuição. A
amplitude interquartílica é menos afetada pelos valores extremos do que a amplitude e o desvio
padrão, o que faz desta medida a melhor escolha quando a distribuição de frequência apresenta
alto grau de assimetria.

AIQ  Q3  Q1

Amplitude Interquartilica  Q3  Q1
AIQ  38  30.5  7.5
Quanto maior for o valor da amplitude que incorpora o valor 50% das observações, maior
será a dispersão dos dados. Além disso, a amplitude interquartílica não é afetada pelos valores
extremos. Exemplo

Figura 2.2 – Amplitude interquartílica

50%

25% 25%

Menor (min) Q1 Mediana Q3 Maior (max)

Decis: Dividem a distribuição em 10 partes iguais.


Lembrando D referente a população e d referente a amostra
Observe que a fórmula e semelhante a dos quartis. I = 1, 2, .......,8,9
I=3 n= 56
D3 = (3 x56)/10 =16,8
D3=17 + (16,8 – 6)10/15
Classes fi fac
7 ├ 17 6 6
 in 
17├ 27 15 21    f ant   h
Di  l Di   
27├ 37 20 41 10
37├ 47 10 51 FDi
47├ 57 5 56
Total 56
63
Albuquerque M. A

lDi = limite inferior da classe Di, i = 1, 2, ......,9


N = tamanho da população e n tamanho da amostra
h = amplitude da classe Di
FDi = Frequências da classe Di
∑f = soma das frequências anteriores “a classe Di

Percentis: São as medidas que dividem a amostra em 100 partes iguais.


 in 
   f ant   h
Pi  l Pi   
100
FPi

lPi = limite inferior da classe Pi, i = 1, 2, ......,99


N = tamanho da população e
n = tamanho da amostra
h = amplitude da classe Pi Ls - Li
FPi = Frequências da classe Pi
∑f = soma das frequências anteriores “a classe Pi.

Ex27 determinar o 4º decil e o 72º Percentil da seguinte distribuição:

Tabela 2.29
Classes fi fac
7 ├ 17 6 6
17├ 27 15 21
27├ 37 20 41
37├ 47 10 51
47├ 57 5 56

Exemplo

Tabela 30 - Em cinco testes realizados, um consumidor interessado em três modelos de carro


compacto obteve a seguinte relação de consumo em milhas por galão.
Teste 1 Teste 2 Teste 3 Teste 4 Teste 5
Carro A 28 32 28 30 34
Carro B 31 29 31 29 31
Carro C 29 32 28 32 30

64
Albuquerque M. A

a) Se o fabricante do carro A quiser anunciar a melhor performance de seu teste, qual será a
medida de tendência central usada para justificar a propaganda -a média, a mediana ou a
moda? justifique sua resposta.
b) Se o fabricante do carro B quiser anunciar a melhor performance de seu teste, qual será a
medida de tendência central usada para justificar a propaganda - a média, a mediana ou a
moda? justifique seu raciocínio.
c) Se o fabricante do carro C quiser anunciar a melhor performance de seu teste, qual será a
medida de tendência central usada para justificar a propaganda -a média, a mediana ou a
moda? justifique sua resposta.
4 6 7 3 x= (4+6+7+3)/4 média 5 média x  k k= 2 7
6 8 9 5 x = (6+8+9+5)/4 28/4 7 5 x 2 = 10
8+12+14+6
Medidas de dispersão ou variabilidade
Interpretar
As medidas de dispersão são utilizadas para quantificar o grau de variabilidade dos
valores de uma amostra de dados em torno da sua média.
 Para avaliar o grau de variabilidade ou dispersão dos valores de um conjunto de números,
lançaremos mão das estatísticas denominadas medidas de dispersão. Essas nos
proporcionarão um conhecimento mais completo do fenômeno a ser analisado,
permitindo estabelecer comparações entre fenômenos da mesma natureza e mostrando
até que ponto os valores se distribuem acima ou abaixo da medida de tendência central.
 A informação fornecida pelas medidas de posição ou tendência central necessita, em
geral, ser complementada pelas medidas de dispersão. Estas servem para indicar o quanto
os dados se apresentam dispersos em torno da região central (média, mediana e a moda).
Caracterizam, portanto, o grau de variação existente na série de valores e servem para
medir a representatividade das medidas de tendência central. As medidas de dispersão
que nos interessam são:
1. Amplitude total
2. Desvio médio,
3. Variância,
4. Desvio padrão,
5. Coeficiente de variação

65
Albuquerque M. A

Amplitude total

É a diferença entre o maior e o menor dos valores da amostra de dados. A sua utilização,
além de mostrar o maior desvio, serve para uma avaliação preliminar dos dados, verificando-se a
possibilidade de possíveis erros nas coletas destes ou nas digitações, já que as variáveis podem
apresentar extremos conhecidos..
Indicaremos por : → AT total = V valor máximo - V valor mínimo
Ex28. para a amostra 10, 12, 20, 22, 25, 33, 38.
Utilização da amplitude total como medida de dispersão é muito limitada, pois sendo uma medida
que depende apenas dos valores extremos, é instável, não sendo afetada pela dispersão dos valores
internos.
Desvio Médio
Desde que se deseja medir a dispersão os dados em relação à média, parece interessante
a análise dos desvios em torno da média. Isto é, analisar o desvio médio absoluto de um conjunto
de dados x1, x2, ..., xn é definido por

1 n 1 n
DM   xi  x
n  1 i 1 ou
DM  
n  1 i 1
xi  x fi

onde as barras verticais representam o valor absoluto ou módulo.


Note que nesta definição estamos trabalhando com o desvio médio, isto é, tomamos a
média dos desvios absolutos. Isso evita interpretações equivocadas, pois, se trabalhássemos
apenas com a soma dos desvios absolutos, um conjunto com um número maior de observações
tenderia a apresentar um resultado maior para a soma devido apenas ao fato de ter mais
observações. Esta situação é ilustrada com os seguintes exemplos de dados:

Exemplo 1: (1, 3, 5) Exemplo 2: (1, 2, 3, 4, 5)

Para dos discretos ou não agrupados


Dados brutos Dados discretos ou contínuos

Para dados amostrais


DM 
 xi  x DM 
 xi  x fi
n 1 n 1

Para dados populacionais


DM 
 x x
i
DM 
 x x
i fi
N N

66
Albuquerque M. A

Ex15. Dada a distribuição, calcule a média e a mediana.


Tabela 2.22
Xi fi fac Xi.fi xi  x f i
1 1 1
2 3 4
3 5 9
4 2 11
Total 11

x
x f i i

DM 
 x x i fi
n 1
Idade Frequências Ponto xi . fi xi  x f i
Absoluta médio
simples (fi)
21├ 24 7 22,5 7 x 22.5 22.5  28.3 x7 =40.6
24├ 27 9 25,5 9 x 25.5 25.5  28.3 x9 =25.2
27├ 30 1 28,5 1 x 28.5 28.5  28.3 x1 =0.2
30├ 33 5 31,5 5 x 31.5 31.5  28.3 x5 =16
33├ 36 8 34,5 8 x 34.5 34.5  28.3 x8 =49.6
Total 30 131.6

X
X F i i

n
Variância

A variância de uma variável x (S2) mede a dispersão dos valores entorno da média.
Obtém-se S2 pela soma de quadrados dos desvios de cada valor x1, x2,...,xn em relação a x ,
dividida pelo número de graus de liberdade da amostra. Desse modo S2 é a média dos n - 1 desvios
quadráticos e independentes.
A variância é um termo ao quadrado, podendo ser um valor em cm2 se, por exemplo, a
variável avaliada for altura em cm e, um valor kg2, se a variável for peso em kg, a qual é dada
pela seguinte fórmula:

67
Albuquerque M. A

É possível definir a variância usando o divisor n −1 no lugar de N; essa é a diferença entre


os conceitos de variância amostral e variância populacional, que será mais relevante num curso
de inferência estatística

Para dados discretos ou valores não agrupados.


n

 (x  x ) i
2

amostral S 2  i 1
ou
n 1

 (x  x )
i
2

2  i 1
se for populacional
N

Essa forma de reescrever a variância facilita quando os cálculos têm que ser feitos à mão
ou em calculadoras menos sofisticadas, pois o número de cálculos envolvidos é menor. Note que
ela nos diz que a variância é a “média dos quadrados menos o quadrado da média”.
Exemplo

A título de ilustração, vamos calcular a variância das notas de uma turma de Estatística e Cálculo.
Aluno 1 2 3 4 5 6 7 8 9
Estatística 6 4 5 7 8 3 5 5 7
Cálculo 7 8 9 10 6 7 8 9 5

Tabela 2.8 - Idade dos alunos do curso de, Educação Física da UEPB, no ano de 2014
Idade Frequências Fac Frequência Freq. Frequência Ponto Xi.fi
Absoluta relativa percentual acumulada médio
simples (fi) simples
21├ 24 7
24├ 27 9
27├ 30 1
30├ 33 5
33├ 36 8
Total 30

Propriedades da variância:

68
Albuquerque M. A

 Multiplicando-se todos os valores de uma variável por uma constante, a variância do


conjunto fica multiplicada pelo quadrado dessa constante;
Se k for uma constante, então
se x = y. k, então, V(x) = V(y) k2 22.93 x 32 22.93 x 9

 Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a


variância não se altera.
Se k for uma constante, então, x = y + k, então V(x) = V(y)
Var ( X  k )  Var (y)
Observação:
Esta propriedade é intuitivamente evidente, porque somar uma constante a um
resultado não altera sua variabilidade.

ATENÇÃO: “Desvantagem” do uso da variância

No cálculo da variância, quando elevamos ao quadrado a diferença (x i  x) , a unidade de


medida da série fica também elevada ao quadrado.
Portanto, a variância é dada sempre no quadrado da unidade de medida da série.

Se os dados são expressos em metros, a variância é expressa em metros quadrados.

Em algumas situações, a unidade de medida da variância nem faz sentido. É o caso, por
exemplo, em que os dados são expressos em litros. A variância será expressa em litros
quadrados.

Portanto, o valor da variância não pode ser comparado diretamente com os dados da série,
ou seja: variância não tem interpretação.
Passos para calcular a variância
1. Calcular a média da distribuição (amostra);
2. Calcular o desvio de cada um dos dados em relação à média aritmética;
3. Calcular o quadrado de cada desvio;
4. Obter a soma dos quadrados dos desvios (SQ);
5. Dividir a SQ pelo valor de n - 1.
Obs. a variância deve ser expressada na mesma unidade dos dados, ao quadrado.

69
Albuquerque M. A

Desvio padrão

Observando-se a fórmula original para o cálculo da variância, nota-se que é uma soma de
quadrados. Dessa forma, se a unidade da variância for, por exemplo, metro (m) terá como
resultado metro ao quadrado (m2). Para se ter a unidade original, necessita-se definir outra medida
de dispersão, que é a raiz quadrada da variância, logo teremos o desvio padrão que é a raiz
quadrada da variância. Assim temos:

S  variância , se for amostral.

Resumindo: para o cálculo do desvio padrão deve-se primeiramente determinar o valor da


variância e, em seguida, extrair a raiz quadrada desse resultado.
Exemplo:
Uma empresa agropecuária deseja conhecer qual de suas espécies de galinha poedeira
apresenta maior variabilidade nas medidas do comprimento e do peso dos ovos. Esta característica
é fundamental para o planejamento das embalagens do produto. O quadro mostra a média e o
desvio padrão dos comprimentos e dos pesos de ovos das duas espécies. Qual espécie apresenta
maior variação em relação às medidas?

Quadro 2- Medidas de peso e do comprimento dos ovos de duas espécies de galinha poedeira.

Espécie Variável x s CV% Resultado

Peso (g) 55, 4  9,1 9,1


x100  16, 43%
55, 4
A A espécie A
Comprimento(cm) 4,9  1,1 1,1 apresenta menor
x100  22, 45% variação no peso
4, 9

Peso (g) 68, 2  13, 6 13, 6


x100  19,95%
68,1
B A espécie B
apresenta menor
Comprimento(cm) 6, 4  0,8 0,8
x100  12,50% variação no
6, 4 comprimento

Interpretando os resultados, podemos afirmar que existe mais dispersão relativa


(variação) para o comprimento dos ovos da espécie A quando comparados aos ovos da espécie B.
Por outro lado, a espécie B apresenta maior variação em relação aos pesos dos ovos.

70
Albuquerque M. A

De qualquer maneira, é interessante notar que o coeficiente de variação é muito útil


quando os dados comparados estão em diferentes unidades de medição; ou, se na mesma unidade,
as médias a serem comparadas são bastante diferentes.

Ex29. Dada a amostra de 7 pessoas de uma escola pública na cidade de campina Grande que possui
computador em sua casa no ano de 2013: 2, 3, 4, 5, 7, 10, 12.

a) Qual é a amplitude total?


b) Determinar o desvio padrão.
c) Calcular o desvio médio.

Ex30. Salários anuais: Amostras dos salários anuais, em milhares de dólares, para professores de
informática das escolas elementar pública e privada estão relacionadas a seguir.

Professores da rede pública: 38,6 38,1 38,7 36,8 34,8 35,9 39,9 36,2
Professores da rede privada: 21,8 18,4 20,3 17,6 19,7 18,3 19,4 20,8

a) Obtenha a amplitude total, a variância e o desvio padrão de cada conjunto de dados.


b) Interprete os resultados no contexto da vida real.

Ex31. Calcular o desvio médio, a variância e o desvio padrão da seguinte distribuição


populacional.
Tabela 2.31 -
xi fi xi.fi xi  x f i ( xi  x )2 fi
5 2
7 3
8 5
9 4
11 2
Total 16

Ex32. Foi retirada uma amostra dos alunos de uma escola no bairro do catolé, que foi sorteada
também o bairro e a escola no ano de 2000. Encontra a média, o desvio médio, o desvio padrão e
a amplitude total.

71
Albuquerque M. A

Tabela 2.32 -
Classes fi
2├ 4 2
4├ 6 4
6├ 8 7
8├ 10 4
10├ 12 3
Total 20

Coeficiente de Variação (CV)


O coeficiente de variação serve para estimar a precisão de experimentos. É uma medida
comumente empregada por pesquisadores, que representa o desvio-padrão expresso como
porcentagem da média. Para esse cálculo temos a seguinte fórmula:
O Coeficiente de variação é uma medida de variabilidade padronizada, ou seja, expressa
percentualmente a variação dos dados em relação à média.
Quando as medidas de duas ou mais variáveis são expressas em unidades diferentes como
peso/altura, capacidade/comprimento, etc. não se pode compara-las através do desvio padrão, por
este ser uma medida absoluta de variabilidade. Usa-se então o CV, que é uma medida relativa,
que expressa o desvio padrão como uma porcentagem da média aritmética. Quanto mais próximo
de zero, mais homogênea é a distribuição. Quanto mais distante, mais dispersas.

O Coeficiente de variação mede a dispersão em relação à média. É a razão entre o desvio


padrão e a média. O resultado obtido dessa operação é multiplicado por 100, para que o
coeficiente de variação seja dado em porcentagem.

O CV fornece uma ideia de precisão experimental: quanto menor o CV, menor a variabilidade e
melhor a precisão experimental. Por outro lado, quanto maior o CV, maior será a variabilidade
experimental e pior será a precisão experimental.

O CV de variação é extremamente afetado pela escala da variável resposta. Por esse motivo ele
é, em geral, apenas um bom indicador para comparar variáveis semelhantes.

No R pode-se utilizar:


CV   100 se for populacional
x
S
CV   100 se for amostral
x

72
Albuquerque M. A

xi fi xi.fi xi  x f i ( xi  x )2 fi
5 2
7 3
8 5
9 4
11 2
Total 16

Obs: o coeficiente de variação é expresso em porcentagens.

A partir do coeficiente de variação pode-se avaliar a homogeneidade do conjunto de dados


e, consequentemente, se a média é uma boa medida para representar estes dados. É utilizado,
também, para comparar conjuntos com unidades de medidas distintas.
Sua grande vantagem é permitir a comparação de grandezas diferentes, que estão em
unidades diferentes (por exemplo: o que é mais variável, o ganho de peso de suínos ou a altura de
plantas de milho?).
Uma desvantagem do coeficiente de variação é que ele deixa de ser útil quando a média
está próxima de zero. Uma média muito próxima de zero pode inflacionar o CV.
Por outro lado, ele possui sérias restrições de uso e inspira cuidados. Primeiro, quando a
média da variável aleatória em questão tende a zero, o CV tende ao infinito (o que não faz sentido
prático). Segundo, de acordo com as propriedades da média a do desvio padrão, a adição de uma
constante às observações altera a média da nova variável aleatória, mas não altera seu desvio
padrão, ou seja, por meio de algumas transformações de variáveis o CV pode ser criminosamente
manipulado.
Um coeficiente de variação superior a 50% sugere alta dispersão o que indica
heterogeneidade dos dados. Quanto maior for este valor, menos representativa será a média. Neste
caso, opta-se pela mediana ou moda, não existindo uma regra prática para a escolha de uma destas
medidas. O pesquisador, com sua experiência, é que deverá decidir por uma ou outra. Por outro
lado, quanto mais próximo de zero, mais homogêneo é o conjunto de dados e mais representativa
será sua média.
Exemplo de estaturas, tomamos como resultados a tabela a seguir temos:

x S

ESTATURAS 175 cm 5,0 cm


PESOS 68 kg 2,0 kg

Dessa forma obteremos o coeficiente de variação das estaturas e dos pesos:


73
Albuquerque M. A

Estaturas:
s 5
CVe  x100  CVe  x100
x 175
CVe  0, 0285 x100  CVe  2,85%
Pesos:
s 2
CV p  x100  CV p  x100
x 68
CV p  0, 0294 x100  CV p  2,94%

Agora chegou a hora de praticarmos o que aprendemos..... Vamos lá?

Ex33. Na empresa Albuquerque, o salário médio dos homens é de 4.000,00, com desvio padrão de
1.500,00, e o das mulheres é em média de 3.000,00, com desvio padrão de 1.200,00. Calcule o
coeficiente de variação e diga qual o que apresentou maior dispersão.

Ex34. Sabendo que um conjunto de dados apresenta para média ( x ) 18,3 e desvio-padrão 1,47,
calcule o coeficiente de variação.

Ex35. Uma distribuição apresenta as seguintes estatísticas: s = 1,5 e CV = 2,9%. Calcule a média.

Ex36. Em um exame final de Matemática, o grau médio de um grupo de 150 alunos foi de 7,8 e o
desvio-padrão, 0,80. Em Estatística, entretanto, o grau médio final foi de 7,3 e o desvio-padrão,
0,76. Em que disciplina foi maior a dispersão (coeficiente de variação)?

Erro-padrão da média

É uma medida da dispersão das médias amostrais em torno da média da população,


ou seja, é uma medida que fornece uma ideia da precisão com que a média foi estimada.
s
O erro padrão da média é: sx  , em que s é o desvio padrão amostral e n é o tamanho
n
da amostra.
sx
EP  sx 
n

s 1.691895 1.691895
EP  sx     0.4227
n 16 4

74
Albuquerque M. A

É usual apresentar a média e o erro-padrão da média com a seguinte indicação:

S  sx

S  sx  1.691895  0.4227

Embora aparentemente difícil, este conceito é bastante fácil de ser entendido quando se
conhece a aplicação do erro padrão da média: medir a variabilidade de um conjunto de médias de
uma mesma população, em vez da variabilidade das observações individuais, como o faz o desvio
padrão. Ou seja, o erro padrão nos dá uma ideia de quão (em que grau ou a comparação) variável
pode ser a média retirada de uma população. Por exemplo, responda intuitivamente: qual dos
procedimentos teria mais chance de mostrar a verdadeira média populacional, se tomássemos uma
amostra de n elementos ou se medíssemos toda população? É claro que seria medir toda a
população como um todo, procedimento este que, na maioria dos casos, não é possível de ser
feito. Na prática, trabalhamos, quase sempre, com amostras.
Do mesmo modo, quando se obtém uma amostra aleatória de tamanho n, de uma
população, o objetivo é estimar a média populacional. Porém, é razoável supor que, se uma outra
amostra for retirada da mesma população, a média desta segunda amostra será algo diferente da
primeira. Assim, se retiramos várias amostras, estas estarão sujeitas a uma dada variação, e
formarão, portanto, uma população de médias amostrais. Essa variação na composição das
amostras depende do erro aleatório e é conhecida como erro amostral, e o erro padrão da média
estima à variação desta população de médias.
Portanto, ao se retirar de uma população todas as possíveis amostras aleatórias de
tamanho n, obter-se-á um conjunto de médias amostrais, que, se tomadas cada uma delas como
se fosse uma observação individual, e representadas em um histograma, este mostrará uma curva
denominada Distribuição Amostral das Médias (DAM), a qual segue os padrões da distribuição
normal gaussiana, sendo o desvio padrão dessa distribuição, o próprio erro padrão. Por
conseguinte, quanto maior o número das amostras, mais a forma da distribuição amostral das
médias (DAM) se aproxima da forma da curva normal gaussiana, qualquer que seja a forma da
distribuição na população, isto é, mesmo que a distribuição da variável na população não seja
normal. A este princípio estatístico dá-se o nome de Teorema do Limite Central.
Assim, como a distribuição amostral das médias segue o padrão da curva normal
gaussiana, a área total sob ela é igual a 1, com 68% das médias, aproximadamente, situadas no
intervalo entre   EP e   EP, ao passo que, aproximadamente 95% estão entre o intervalo
  2EP e   2 EP.
75
Albuquerque M. A

Na pratica, a distribuição amostral das médias pode ser considerada como normal sempre
que n  30 e, quanto maior o tamanho da amostra n, menor será o erro padrão e melhor será a
estimativa da média da população.
Diante disto, podemos afirmar que o erro padrão é um parâmetro que permite ao
pesquisador fazer dois tipos de inferências: estimar o tamanho provável do erro ao redor dos
estimadores estatísticos, como a média, por exemplo, e realizar testes de significância estatística
para verificação de hipóteses

Exemplo:

Os valores abaixo se referem às estaturas, em centímetros, de uma amostra de cinco rapazes, cujo
desvio padrão é igual a 3,84 cm. Determinar o erro padrão da média para a amostra considerada.

Estatura (cm) 178 180 185 176 184

Medidas de Assimetria

Denomina-se assimetria o grau de afastamento da simetria de uma distribuição de dados.


Numa distribuição simétrica, as frequências mais altas ocorrem nos valores mais centrais de uma
variável X, diminuindo gradualmente e de maneira simétrica em relação aos valores extremos e
originando, aproximadamente, um mesmo número de valores menores e maiores que a média,
cujo valor é semelhante aos da mediana e da moda.
Numa distribuição assimétrica negativa (inclinada para a esquerda) existirão mais valores
da amostra maiores que a média, tendo a curva da distribuição uma cauda mais longa em relação
aos valores menores que a média, cujo valor é menor que a mediana, que é menor que a moda.
Neste caso, a média não se localiza no centro dos dados e a frequência diminui gradualmente em
relação aos valores menores e, de forma mais abrupta, aos valores maiores que a média.
Numa distribuição assimétrica positiva (inclinada para a direita) existirão mais valores da
amostra menores que a média, tendo a curva da distribuição uma cauda longa em relação aos
valores maiores que a média, cujo valor é maior que a mediana, que é maior que a moda. Neste
caso, a média não se localiza no centro dos dados e a frequência diminui gradualmente em relação
aos valores maiores e, de forma mais abrupta, aos valores menores que a média.

Obs: média = a mediana = a moda

76
Albuquerque M. A

Existem várias fórmulas para o calculo do coeficiente de assimetria, dentre elas são úteis:

Primeiro coeficiente de Pearson

x  Mo
AS 
  Mo se for populacional ou
AS 
 S se for amostral
Segundo coeficiente de Pearson (Coeficiente de Bowley)

Q3  Q1  2Q2
AS 
Q3  Q1
Se:

As = 0 diz-se que a distribuição é simétrica


As > 0 diz-se que a distribuição é a assimétrica positiva (à direita)
As < 0 diz-se que a distribuição é a assimétrica negativa (à esquerda)

Pode-se utilizar qualquer uma das fórmulas para identificar o grau de assimetria de distribuição.
Tabela 2.8 - Idade dos alunos do curso de Educação Física da UEPB, no ano de 2019
Idade fi
21├ 24 7
24├ 27 9
27├ 30 1
30├ 33 5
33├ 36 8
Total 30

77
Albuquerque M. A

Medidas de achatamento ou curtose (O coeficiente de assimetria de Bowley)

Curtose nada mais é do que o grau de achatamento da curva de uma distribuição de


Frequências. Isto considerando que uma curva pode apresentar-se mais achatada ou mais afilada
em relação a uma curva considerada curva padrão ou curva normal.
A curtose ou achatamento é mais uma medida com a finalidade de complementar a
caracterização da dispersão em uma distribuição. Esta medida quantifica a concentração ou
dispersão dos valores de um conjunto de dados em relação às medidas de tendência central em
uma distribuição de frequências.

Denomina-se Curtose o grau de achatamento da distribuição.

Para medir o grau de curtose utiliza-se o coeficiente:

Curtose é uma medida de dispersão que caracteriza o "achatamento" da curva da função de


distribuição. É definida por:

1 x x 
4

b2    i 3
n  s 

Se b2  0 , então a função de distribuição tem o mesmo achatamento da distribuição normal,

chamamos essas funções de mesócurticas.

Se b2  0 , dizemos que a função de distribuição é leptocúrtica e possui a curva da função de


distribuição mais afunilada com um pico mais alto do que a distribuição normal. Neste caso
dizemos que essa distribuição possui caudas pesadas.

78
Albuquerque M. A

Se b2  0 , então a função de distribuição é mais achatada do que a distribuição normal . Dizemos


que esta curva da função de distribuição é platicúrtica.

Outra maneira

Q3  Q1
K
2( P90  P10 )

Se K = 0,263, diz-se que à distribuição de Frequências é mesocurtica.


Se K > 0,263, diz-se que à distribuição de Frequências é platicútica.
Se K < 0,263, diz-se que à distribuição de Frequências é leptocúrtica.

Exemplo: considere o conjunto de dados abaixo relacionados, calcule o coeficiente de curtose.


Q1  4, 25
Q3  8, 65
P10  1, 60
P90  8,30
8, 65  4, 25 4, 40
K   0,328
2(8,30  1, 60) 13, 40
K  0,328  0, 263 distribuição platicútica

Ex. Notas de uma turma de Estatística da uepb no ano de 2020


Notas fi Xi fac Xi fi ( x  x )2 fi  xi  x 
4
i
 s 
 
0├2 4 1 4 4
2├4 6 3 10 18
4├6 10 5 20 50
6├8 7 7 27 47
8 ├ 10 3 9 30 27
Total 30 - - 146

Se b2  0 , então a função de distribuição é mais achatada do que a distribuição normal . Dizemos


que esta curva da função de distribuição é platicúrtica.

79
Albuquerque M. A

BOX PLOT OU DESENHO ESQUEMÁTICO

Gráfico Box Plot (box-and-whisker plot)

O gráfico Box Plot (ou desenho esquemático) é uma análise gráfica que utiliza cinco
medidas estatísticas: valor mínimo, valor máximo, mediana ou segundo quartil, primeiro e
terceiro quartil da variável quantitativa. Este conjunto de medidas oferece a ideia da posição,
dispersão, assimetria, caudas e dados discrepantes. A posição central é dada pela mediana e a
dispersão pelo desvio interquartílico dq= Q3 - Q1. As posições relativas de Q1 , Q2 e Q3 dão uma
noção da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão
do retângulo aos valores atípicos.
Um outlier ou ponto discrepante é um valor que se localiza distante de quase todos os
outros pontos da distribuição. A distância a partir da qual considera-se um valor como discrepante
é aquela que supera 1,5dq. De maneira geral, são considerados outliers todos os valores inferiores
Li = Q1 - 1,5 (Q3 - Q1) ou os superiores a Ls = Q 3+ 1,5 (Q3 - Q1).
A construção de um box-plot exige que tenhamos as seguintes informações:
valor mínimo;
primeiro quartil;
mediana = 2 º quartil;
terceiro quartil; e
valor máximo.
Como a mediana revela uma tendência central, ao passo que os quartis indicam a
dispersão dos dados (através do calculo do intervalo interquartil), os box-plot tem a vantagem de
não serem tão sensíveis a valores extremos como outras medidas baseadas na media e no desvio
padrão.
Um dos aspectos mais convenientes do uso dos box-plot e a possibilidade de comparação
entre dois ou mais conjuntos de dados.

80
Albuquerque M. A

Li = Q1 - 1,5 (Q3 - Q1)

ou os superiores a
Ls = Q 3+ 1,5 (Q3 - Q1).

Figura 3.6: Interpretação do gráfico de caixas (boxplot)

81
Albuquerque M. A

Exemplo

Os dados abaixo se referem ao tempo de espera, em minutos, dos usuários de um lava-


jato de automóveis. O proprietário deseja conhecer algumas informações a respeito do tempo de
espera de seus clientes, tal como: quanto tempo demora uma lavagem? Dentro de qual intervalo
de tempo à maioria das lavagens são completas?

Tempo de espera 88 77 70 80 74 82 85 96 76 67 80 75 73 93 72

Os valores devem ser ordenados de forma crescente

Tempo de espera 67 70 72 73 74 75 76 77 80 80 82 85 88 93 96

Então: 1 x 16 /4 = 4

Li= Q1-1.5x(Q3-Q1) Ls = Q3 + 1.5 (Q3-Q1)

Menor valor = 67 minutos

Primeiro quartil (Q1) = 73 minutos

Segundo quartil = Mediana (Md) = 77 minutos

Terceiro quartil (Q3) = 85 minutos

Maior valor = 96 minutos

Passo 1 - Criar uma escala apropriada ao longo do eixo horizontal.

Passo 2 - Desenhar um retângulo cujo comprimento inicia em Q1 (73 minutos) e termina em Q3


(85 minutos)

Passo 3 - No interior de retângulo, traçar uma linha vertical no valor que corresponde à mediana
(77 minutos).

Passo 4 - Traçar uma linha horizontal que se estende do retângulo ao menor valor (67 minutos),
e outra que se estende do retângulo ao maior valor (96 minutos).

Figura 111- Distribuição de frequência dos tempos de espera dos clientes de um lava-jato

Interpretando o gráfico

O box plot mostra que 50% das lavagens ocorrem no espaço de tempo compreendido
entre 73 min e 85 min. A amplitude interquartílica equivale a 12 minutos. A Figura 111 também
mostra que a distribuição é inclinada positivamente (para a direita). Neste caso, duas informações
82
Albuquerque M. A

indicam esta inclinação: primeira, a linha à direita do retângulo, que se estende de Q3 (85 min)
até o maior valor (96 min), é maior que a linha situada à esquerda do retângulo, a qual se estende
de Q1 (73 min) até o menor valor (67 min); em outras palavras, 25% dos dados, maiores que o
terceiro quartil, apresentam uma amplitude maior que os 25% dos dados que são menores que o
primeiro quartil. A segunda indicação é que a mediana não está posicionada no centro do
retângulo. Ela encontra-se visivelmente deslocada para a esquerda. Ou seja, a distância entre Q1
(73 min) e a mediana (77 min) é menor que a distância entre a mediana e Q 3 (85 min). Embora
essas distâncias sejam diferentes, o número de lavagens entre elas é igual para ambas; isto é, o
número de lavagens entre 73 min e 77 min é igual ao número de lavagens entre 77 min e 85 min.

Detectando valores outliers

Em um conjunto de dados, um valor outlier corresponde a uma medida inconsistente ou


discrepante, que apresenta um valor relativamente maior ou menor aos demais valores da
distribuição. A detecção de sua presença é sempre muito importante, uma vez que pode causar
distorções nos parâmetros de uma amostra, em especial, na média aritmética, sendo a sua
ocorrência mais frequente quando a distribuição de frequência dos dados, da amostra ou da
população, apresenta um alto grau de inclinação, com tendência a incluir valores extremamente
grandes ou pequenos em relação aos demais valores da distribuição.

As causas da ocorrência de um valor outlier podem ser:

Medidas incorretas (invalidas) - Esta situação costuma ocorrer quando o pesquisador utiliza
equipamentos descalibrados ou defeituosos para a medição de suas variáveis; ou quando a leitura
do dado observado é incorreta, por desatenção do observador; ou quando o valor de uma
observação é registrado incorretamente no banco de dados.

Medidas de fonte diferente - Ocorre quando a medida, mesmo que corretamente mensurada,
pertence a uma população diferente daquela de onde os dados em estudo foram retirados.

Medidas raras - Nesta condição, a medida foi registrada corretamente e pertence à mesma
população de onde foi retirada toda a amostra, mas é resultante de um evento raro.

Portanto, qualquer que seja a causa do valor outlier, o bom senso manda que ele seja
retirado do conjunto de dados, e, se possível, substituído por uma nova observação. Neste sentido,
dois são os métodos utilizados para que se possam detectar valores outliers: o primeiro é o método
gráfico, que utiliza o box blot; e o segundo é o método numérico, que utiliza os valores z (z-
escores). Geralmente, ambos produzem resultados idênticos.
83
Albuquerque M. A

Ex34 Os dados a seguir apresentam a quantidade (em milhares) de passageiros transportados em


diferentes épocas do ano por uma grande empresa de transporte urbano. Com base nos números
apresentados, pede-se obter: a) o desvio padrão; b) dizer que tipo de curva correspondente à
distribuição amostral.

Tabela 2.33 -
Classes fi
3├ 8 10
8├ 13 12
13├ 18 18
18├ 23 5
Total

Ex35 Um pesquisador da Albuquerque informática aborda 30 transeuntes ao acaso e


pergunta-lhes a idade. O resultado é dado abaixo.
35 26 39 25 39 22
42 40 39 22 21 40
16 32 39 21 28 39
18 37 23 14 27 44
30 32 21 15 26 43
s 9.53
Determinar: cv  100 cv  100 = 31.42%
x 30.33
1. a média, a mediana, e a moda ,
2. desvio padrão, e coeficiente de variação,
3. coeficiente de assimetria,
4. Apresentar os dados na forma de um histograma
5. Boxplot li = Q1 – 1.5(Q3 – Q1) ls= Q3 + 1.5 (Q3 - Q1)

Ex36. - Completar os dados que falta e calcular o desvio padrão e o coeficiente de variação.
Tabela 2.34 -
xi fi fac
1 4
2 8
3 30
4 27
5 15
6 72
7 11 83
8 93
Total

84
Albuquerque M. A

Ex37. - Distribuição de frequências das taxas de mortalidade infantil dos municípios da


microrregião do cariri da Paraíba, 2014, calcule a média, a mediana e a moda e o desvio padrão e
explique os resultados.
Tabela 2.35 -
Taxa de mortalidade Frequências de
Infantil famílias
0 ├ 10 1
10├ 20 10
20├ 30 15
30├ 40 7
40├ 50 0
50├ 60 0
60├ 70 1
Total 34

Ex38 - Dada amostra: 2, 3, 4, 5, 7, 10, 12.

a) qual a amplitude total,


b) determinar o desvio médio,
c) calcule a variância e desvio padrão,
d) calcule a mediana e a moda,
e) calcule o coeficiente de variação,
f) calcule o coeficiente de assimetria.
g) calcule o coeficiente de Curtose
h) Construir um box plot e um histograma
i) Qual é o erro padrão

Ex39 - O que são medidas de dispersão?

Ex40 - Se somarmos a todos os elementos de uma série um número, o que acontece com a média
e a variância da série?
Ex4 1- Qual o objetivo da Estatística
Ex42 - Defina Estatística.

Ex43 - Os dados abaixo apresentam os coeficientes de liquidez obtidos da análise de balanço em


50 indústrias:

85
Albuquerque M. A

0,4 2,6 3,3 4,5 5,3 6,9 8,4 9,5 11,8 16,0
0,8 2,7 3,8 4,5 5,5 7,4 8,5 10,0 12,4 16,2
2,3 2,7 3,9 4,6 5,6 7,5 8,7 10,5 12,9 17,8
2,3 2,9 4,4 4,8 6,3 7,6 9,0 10,6 13,1 18,8
2,4 3,2 4,4 5,0 6,3 7,9 9,2 11,6 15,6 20,1

f) Esboce o histograma e o polígono de Frequências;


g) A distribuição de Frequências percentual simples;
h) A Frequências acumulada crescente e decrescente;
i) O ponto médio da terceira classe;
j) Uma medida que deixe 5% e 95%.

Ex44 - Como podem ser apresentados ou expostos os dados?

Ex45 – Na loja X, foram efetuados os seguintes serviços, abaixo descriminados: 85 manutenções,


65 restaurações de placas, 22 vendas e 30 aplicações de fluído. Faça uma tabela com estes dados
e represente-a num gráfico de setores e colunas.
Serviços Quantidade
Manutenções 85
Restaurações de placas 65
Vendas 22
Aplicações de fluído 30
Total

Ex46. - Idade dos alunos de uma escola pública, na Paraíba, em 1999.

Tabela- Idade dos alunos de uma escola pública, na Paraíba, em 1999.


Idade Frequências
2 ├ 4 03
4 ├ 6 05
6 ├ 8 10
8 ├ 10 06
10├ 12 02
Total 26
Fonte: secretaria de ensino.

86
Albuquerque M. A

a) Construir o histograma e o polígono de Frequências;


b) Frequências relativa simples e percentual;
c) Frequências acumulada da Frequências simples e da relativa;
d) O ponto médio;
e) Qual a porcentagem dos alunos que tiveram idade menor do 8 e maior do 6.

Ex47 - As taxas de juros recebidos por 10 ações durante um certo período foram (medidas em
porcentagem) 2,5; 2,6; 2,6; 2,6; 2,5; 2,5; 2,6; 2,5; 2,6; 2,6. Calcule a média, a mediana, a
moda e o desvio padrão.
y=c(2.5, 2.6, 2.6, 2.6, 2.5, 2.5, 2.6, 2.5, 2.6, 2.6)
sd(y) 0.05163978
mean(y) 2.6
median(y) 2.6
moda 2.6
Ex48 - Cronometrando o tempo para várias provas de uma gincana automobilística, encontramos:
Equipe I: 40 provas
Tempo médio: 45 segundos.
Variância: 400 segundos ao quadrado

Equipe II: Tempo: 20 40 50 80 (xi)


Nº de provas 10 15 30 5 (fi)
a) Qual o coeficiente de variação relativo à equipe I.
b) Qual o desvio padrão relativo à equipe II.
c) Qual a equipe que apresentou resultados mais homogêneos?

x
x  f
i i

Ex49 - O salário médio mensal pago aos funcionários da Empresa Albuquerque Ltda, foi
de R$ 199 no primeiro semestre de 2019. Sabendo-se que no início de agosto a média
havia subido para R$ 217, pede-se calcular:

a) o volume total gasto com o pagamento dos funcionários no mês de julho;


b) a média mensal de gastos com pessoal que a empresa deverá ter entre agosto e dezembro para
que a média mensal do ano de 2019 atinja R$ 180.
87
Albuquerque M. A

EX50 O capital da Empresa Albuquerque Ltda, é formado pelo aporte dos acionistas, por
financiamento de longo prazo e pela emissão de debêntures. Cada tipo de capital possui um custo
anual diferente dado por uma taxa de juros anual, conforme o quadro:
Tabela 2.37 -
Fonte de capital Participação em R$ Taxa de juros
Acionistas 2400 12%
Financiamento de longo prazo 1200 8%
Debêntures 400 14%

Calcular a taxa média do capital da empresa.

Ex51 O supermercado Albuquerque anuncia uma liquidação em que o preço de determinado bem
de consumo diminuiu em 400%. Pede-se comentar esse anúncio, indicando se o mesmo está certo
ou errado.

Ex52 Na Empresa Albuquerque Ltda, foi observada a distribuição de funcionários do setor de


serviços gerais com relação ao salário semanal, conforme mostra a distribuição de frequências:
Tabela 2.38 -
Tabela Salário Semanal (Em R$) Nº de funcionários
25 ┤ 30 10
30 ┤ 35 20
35 ┤ 40 30
40 ┤ 45 15
45 ┤ 50 40
50 ┤55 35
Total 150
Pede-se:
a) o salário médio semanal dos funcionários;
b) o desvio padrão, o coeficiente de variação e a assimetria dos salário semanais dos
funcionários;
c) se o empresário divide os funcionários em três categorias, com relação ao salário.

Ex53- Uma distribuição de Frequências simétrica unimodal apresentou os seguintes resultados:


Moda de Czuber................18
Amplitude de Classe...........4
Pede-se determinar o limite inferior da classe modal.

88
Albuquerque M. A

Ex54 Em um grupo de 600 hóspedes do Hotel Albuquerque & cia Ltda., tem-se os seguintes
valores com relação ao tempo de permanência no hotel:
Média 9 dias;
1 º Quartil 5 dias
3º Quartil 15 dias
Coeficiente de variação 20%
Pede-se:
a) quantos hóspedes permanecem mais de 15 dias;
b) quantos hóspedes permanecem entre 5 e 15 dias;
c) o desvio-padrão para o tempo de permanência;
d) supondo que os hóspedes permanecessem mais dois dias, calcular a nova média, o desvio-
padrão e o coeficiente de variação.
Ex55. Considerem a seguinte amostra de um conjunto de dados.
100 200 300 400 500 600 700 800 900 1000
a) Obtenha a média e o desvio padrão. a) x  550, s  302,765
b) Multipliquem cada entrada por 10. Obtenha a média e o desvio padrão para os novos
dados.
c) Dividam os dados originais por 10. Obtenha a média e o desvio padrão para os novos
dados.
d) Adicionem 10 dos dados originais. Obtenham a média e o desvio padrão para os novos
dados.
e) O que vocês podem concluir dos resultados de (a), (b), (c) e (d)?
Ex 56 - A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre foi
baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiu-
se fazer uma campanha de divulgação. Para verificar se a campanha foi ou não eficiente, fez-se
um levantamento da idade dos candidatos à última promoção, e os resultados estão na tabela a
seguir.
Tabela 2.39 -
Idade Frequência Porcentagem
18|- 20 18 36
20|- 22 12 24
22|- 26 10 20
26|- 30 8 16
30|- 36 2 4
Total 50 100

89
Albuquerque M. A

a) Baseando-se nesse resultado, você diria que a campanha produzir algum efeito. (Isto é,
aumentou a idade média)
b) Um outro pesquisador decidiu usar a seguinte regre: se a diferença x  22 fosse maior

que o valor 2 desvio padrão (X) / n , então a campanha teria surtido efeito. Qual a
conclusão dele, baseados nos dados?
c) Calcule o coeficiente de variação.
d) Calcule o erro padrão

Ex 56- Considerando a distribuição de frequência abaixo, apresentada de forma incompleta,


sabendo-se não haver valores iguais aos extremos dos intervalos de classe.
Classes 0 - 10 10 - 20 20 - 30 30 - 40
Frequências 3 5 6 Y

Entretanto, antes de se perder o registro de Y, e trabalhando sempre com os dados agrupados, a


média da distribuição foi calculada, sendo igual a 25. Apesar disso é correto afirmar que:
a) a mediana pertence a 3ª classe;
b) a moda da distribuição de frequência é igual a 25;
c) a distribuição de frequência é assimétrica à direita;
d) o primeiro quartil ocupa a 1ª classe de frequências.

Ex 57 - Observando um grupo de 100 turistas, divididos em cinco classes de idade a partir de 20


anos, com intervalos de classe de 10 anos e limites inferiores fechados, constatou-se que a idade
mediana foi de 44 anos e o 90º percentil igual a 63,75 anos. Sabendo-se que as frequências das
duas primeiras classes perfizeram 10 e 20 turistas, respectivamente, pede-se determinar a idade
média desses turistas.

Ex 58 - Um órgão do governo do estado está interessado em determinar padrões sobre o


investimento em educação, por habitante, realizado pelas prefeituras. De um levantamento de dez
cidades, foram obtidos os valores da tabela abaixo:
Tabela 2.39 -
Cidade A B C D E F G H I J
Investimento 20 16 14 8 19 15 14 16 19 18

90
Albuquerque M. A

Nesse caso, será considerado como investimento básico a média final das observações, calculadas
da seguinte maneira:
a) Obtém-se uma média inicial.
b) Eliminam-se do conjunto aquelas observações que forem superiores à média inicial mais
duas vezes o desvio padrão, ou inferiores à média inicial menos duas vezes o desvio
padrão.
c) Calcula-se a média final com o novo conjunto de observações.
Qual o investimento básico que você daria como resposta?

Ex 59 - O departamento Pessoal de uma certa empresa faz um levantamento dos salários dos 120
funcionários do setor administrativo, obtendo os resultados (em salários mínimos) da tabela
abaixo.
Tabela 2.40 – departamento Pessoal de uma certa empresa
Faixa salarial Frequência fi xi xi.fi
relativa
0|-- 2 0,25
2|-- 4 0,40
4|-- 6 0,20
6|-- 8 0,15
Total 1.00
Fonte: departamento de recurso humano
a) esboce o histograma
b) calcule a média, a variância e o desvio padrão.
c) calcule o 1º quartil e a mediana
d) se for concedido um aumento de 100% para os 120 funcionários, haverá alteração na média?
E na variância? justifique sua resposta.
e) se for concedido um abono de dois salários mínimo para todos os funcionários haverá alteração
na média? E na variância? Justifique sua resposta.

Ex 60 - Considere os dados referentes ao consumo de água, em m3, de 75 contas da CAGEPA.

32 40 22 11 34 40 16 26 23 31 27 10 38 17 13
45 25 10 18 23 35 22 30 14 18 20 13 24 35 29
33 48 20 12 31 39 17 58 19 16 12 21 15 12 20
51 12 19 15 41 29 25 13 23 32 14 27 43 37 21
28 37 26 44 11 53 38 46 17 36 28 49 56 19 11

91
Albuquerque M. A

(a) agrupar os dados em uma distribuição de frequência, em intervalos fechados à direita e


com amplitude 10. Utilize o limite inferior da distribuição igual a zero.
(b) construa o correspondente histograma de frequências relativas.
(c) determine as frequências simples e acumuladas ( absolutas e relativas);
(d) calcule as medidas de tendência central : moda, média e mediana. Interprete. encontre as
medidas de variabilidade: amplitude, variância absoluta, desvio padrão e coeficiente de
variação e comente os resultados.

Ex 61 - Os 20 alunos de uma turma especial de Estatística obtiveram as notas abaixo. Determine:


(a) a amplitude total das notas; R. 22
(b) o desvio padrão das notas; R. 6,13677
(c) a variância absoluta das notas; R. 37,66
(d) o coeficiente de variação; R. 0.0707
(e) a proporção de alunos com notas maiores que 90; R. 0,3
(f) a média, sabendo que o professor acrescentou 5 pontos para cada aluno; R. 91,8
(g) o desvio padrão, quando foi adicionado 5 pontos. R. 6,13677
84 88 78 80 89 94 95 77 81 90
83 87 91 83 92 90 92 77 86 99

Ex62 -As informações abaixo indicam o número de acidentes ocorridos com 70 motoristas de uma
empresa de ônibus nos últimos 5 anos:
Nº DE ACIDENTES 0 1 2 3 4 5 6 7
Nº DE MOTORISTAS 15 11 20 9 6 5 3 1

(a) Determine o número de motoristas com menos de 1 acidente.


(b) Determine o percentual de motoristas com pelo menos 3 acidentes
(c) Determine o percentual de motoristas com no máximo 2 acidentes
(d) Qual o número total de acidentes ocorrido no período?
(e) Qual a média de acidentes? E a moda de acidentes? E a mediana?

92
Albuquerque M. A

Tabela 2.2: Dados sobre sexo, matéria predileta e nota de alunos de 2 turmas
Turma Sexo Predileta Nota Turma Sexo Predileta Nota Turma Sexo Predileta Nota
A F H 5 A M M 2 B F G 6
A M M 8 A M G 4 B F M 4
A F P 8 A M G 9 B M M 6
A F H 6 A M M 7 B F P 5
A M C 5 A M M 1 B M G 3
A M H 6 A F P 8 B F M 5
A F M 8 A F G 5 B M P 3
A F P 4 A M G 9 B M M 4
A F H 2 A M P 5 B F C 8
A M C 6 A F M 8 B F H 3
A F P 8 A F G 6 B M G 4
A M H 3 A F P 9 B M P 5
A M M 5 A M M 8 B M P 4
A F P 5 B F H 6 B M H 6
A F G 5 B M M 3 B M M 6
A M C 7 B F P 4 B M G 6
A M H 4 B M H 8 B M H 6
A F M 7 B M G 10 B M H 6
A F P 7 B F M 5 B F M 8
A F M 6 B F P 7 B F M 8
A M G 6 B F P 5 B F G 5
A M H 9 B M M 6 B M C 5
A F M 8 B F M 5
A M P 5 B M G 5
A M G 6 B F H 8
A F M 7 B F G 5
A M P 5 B M G 6
A F M 5 B F M 5
A F M 5 B M G 2

Turma<-c("A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A",
"A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A",
"A","A","A","A","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B",
"B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B",
"B","B")
length(Turma)
Sexo<-c("F","M","F","F","M","M","F","F","F","M","F","M","M","F","F","M","M","F",
"F","F","M","M","F","M","M","F","M","F","F","M","M","M","M","M","F","F","M","M",
"F","F","F","M","F","M","F","M","M","F","F","F","M","F","M","F","F","M","F","M",
"F","F","M","F","M","F","M","M","F","F","M","M","M","M","M","M","M","M","F","F",
"F","M")

Predileta<-c("H","M","P","H","C","H","M","P","H","C","P","H","M","P","G","C","H",
"M","P","M","G","H","M","P","G","M","P","M","M","M","G","G","M","M","P","G","G",
"P","M","G","P","M","H","M","P","H","G","M","P","P","M","M","G","H","G","M","G",
"G","M","M","P","G","M","P","M","C","H","G","P","P","H","M","G","H","H","M","M",
"G","G","C")
length(Predileta)
Nota<-c(5,8,8,6,5,6,8,4,2,6,8,3,5,5,5,7,4,7,7,6,6,9,8,5,6,7,5,5,5,2,4,9,7,1,8,5,
9,5,8,6,9,8,6,3,4,8,10,5,7,5,6,5,5,8,5,6,5,2,6,4,6,5,3,5,3,4,8,3,4,5,4,6,6,
6,6,6,8,8,5,5)
length(Nota)
sort(Nota)
summary(Nota)
# números de elementos
length(Sexo)

93
Albuquerque M. A

x=c(20,7,5,9,6,21,24,10,12,22,21,16,13,6,6,2,19,3,10,7,2,18,4,6,18,12,4,13,9,3)
mean(x) #obtendo o valor da média
median(x) #observe que não é necessário ordenar
moda(x) #após introduzir a função de cálculo de moda no R
sd(x) #obtendo o desvio padrão
sqrt(var(x))
range(x) #mostra o min(x) e o max(x)
max(x)-min(x) #amplitude total obtida de forma indireta
###########################
x<-c(33,17,39,78,29,32,54,22,38,18) #conjunto de dados
var(x) #variância
sd(x) #desvio padrão
max(x)-min(x) #amplitude total
sd(x)/sqrt(length(x)) #erro padrão da média
sd(x)/mean(x)*100 #coeficiente de variação em %
summary(x)
## Quartis de salario
quantile(x) ## obtendo os quartis
IQR(x) ## obtendo a amplitude interquartílica## diferença entre Q3-Q1

#install.packages("moments")
dados=c(2,5,6,7,9,10,8,5,7,9,11,14,12,11,14)
library(moments)
skewness(Salario) #obtendo a simetria Assimetria

Covariância e Correlação
x<-c(1,2,3,4,5) #criando um vetor qualquer
y<-c(6,7,8,9,10) #criando outro vetor
cov(x,y) #obtendo a covariância entre x e y
cor(x,y) #obtendo a correlação

94
Albuquerque M. A

95

Você também pode gostar