Você está na página 1de 90

UNIVERSIDADE ESTADUAL DA PARAIBA

CENTRO DE CIÊNCIAS E TECNOLOGIA


DEPARTAMENTO DE ESTATÍSTICA

ESTATÍSTICA

PROFESSOR:
Mácio Augusto de Albuquerque

C Grande/PB
Mácio A Albuquerque

1. Introdução

Para muitas pessoas, a palavra Estatística traz à lembrança a ideia de números; e, nesse
sentido de informação numérica, as estatísticas já fazem parte de nossas vidas. Ouvimos na
televisão, e aprendemos, que duas em cada três donas de casa preferem determinada marca de
sabão em pó. Comparamos taxas de inflação ou quantidade de chuva nos mais diferentes locais
nas mais diferentes épocas, porque os jornais nos dão informações. Discutimos desemprego ou
fome na África, porque a mídia nos mostra números.
Estatística não é, porém, simples coleção de números, embora as medidas ou
observações na forma numérica sejam sua base. No sentido acadêmico, Estatística é a ciência
que trata da coleta, apuração, classificação e análise dos dados.
A palavra estatística deriva da expressão status, em latim, e significa o ”estudo do
estado”. Foi pensada pelos ingleses, no século XVI, como uma ciência política, destinada a
descrever características de um estado ou país, tais como população, área, riqueza e recursos
naturais, envolvendo compilações de dados e gráficos. Em 1662, John Graunt publicou informes
estatísticos sobre nascimentos e mortes. A partir daí deu se início ao desenvolvimento da
probabilidade e estatística, sobretudo a partir do século XVII, com o estudo das grandes
epidemias que assolavam o mundo, dando ensejo ao desenvolvimento da demografia. Em cada
século seguinte mais e mais áreas foram se incorporando ao conjunto das que faziam uso da
estatística. Na última década, com a grande revolução da informática, houve um avanço
significativo das áreas de probabilidade e estatística, com desenvolvimento de softwares mais
poderosos, deixando à disposição do pesquisador muitas ferramentas alternativas ao seu
trabalho. Hoje em dia a maior parte das decisões tomadas em quase todas as áreas de atividade
humana moderna (por exemplo, avaliação de novos tratamentos médicos e de novos terminais
de atendimento bancário, do planejamento de pesquisas científicas, de estratégias de marketing
e investimento, para citar algumas) tem suas bases na estatística - definida, a grosso modo,
como a coleta, análise e interpretação de dados, ou de forma mais ampla, como a ”ciência da
tomada de decisão perante incertezas”. Como já foi dito anteriormente, a Estatística engloba um
grande leque de ferramentas de análise. Com finalidade didática iremos dividir a estatística em
dois grandes grupos:

2
Mácio A Albuquerque

O que é Estatística

 Podemos considerar a Estatística como a ciência que se preocupa com o planejamento, a


organização, a descrição, a análise e interpretação dos dados experimentais, visando a
tomada de decisões.

 Estatística é a ciência que investiga os processos de obtenção, organização e análise de


dados sobre uma população ou amostra, e os métodos de tirar conclusões ou fazer predições
com base nesses dados.

 Estatística como um conjunto de técnicas que permite, de forma sistemática, organizar,


descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em
qualquer área do conhecimento.

Objetivo

O objetivo da estatística é analisar e interpretação dos fenômenos de qualquer natureza,


com o intuito de fornecer ao homem dados suficientes para o planejamento de ações futuras.

Dentro dessa ideia, podemos considerar a ciência Estatística como dividida basicamente
em duas partes:

a) Estatística Descritiva:

Este tipo de análise tem a finalidade de descrever uma amostra de dados por meio de
medidas de posição, de dispersão, de assimetria, de curtose e da apresentação dos resultados em
tabelas ou gráficos, sem fazer nenhuma inferência sobre a população dos dados.

Que se preocupa com a organização e descrição dos dados experimentais, a estatística


descritiva vai resumi-las através do uso de certas medidas-sintese, que tornem possível a
interpretação de resultados. No sentido mais amplo, suas funções são:

1. Coleta de dados;
2. Organização e classificação destes dados;
3. Apresentação através de gráficos e tabelas;
4. Calculo de coeficientes (estatísticos), que permitem descrever resumidamente os
fenômenos.
3
Mácio A Albuquerque

b) Estatística Indutiva ou Inferencial: que cuida da sua análise e interpretação.

Estatística Indutiva ou Inferencial: é o ramo que trata de tirar conclusões sobre uma
população a partir de uma amostra. A ferramenta básica no estudo da estatística inferencial é a
probabilidade.

Pode-se notar, conforme o exposto, que a ciência Estatística é aplicável a qualquer ramo
do conhecimento onde se manipulem dados experimentais. Assim, a Física, a Química, a
Engenharia, a Economia, a Medicina, a Biologia, as Ciências sociais, as Ciências
Administrativas, etc., tendem cada vez mais a servir-se dos métodos estatísticos como
ferramenta de trabalho, daí sua grande e crescente importância.
Em estatística utilizaremos extensivamente os termos população e amostra. Assim,
definiremos esses termos no contexto da estatística:

 População: conjunto da totalidade dos elementos (valores, pessoas, medidas) a serem


estudados. Congrega todas as observações que sejam relevantes para o estudo de uma
ou mais característica dos indivíduos. Podem ser tanto seres animados ou inanimados.

 População: é o conjunto de todos os resultados, respostas, medidas ou contagens que


são de interesse.

 Amostra: é um subconjunto, ou seja, uma parte selecionada do total de indivíduos de


uma população. Por meio dos valores extraídos da observação das características de
interesse - estatísticas - de uma amostra, é possível fazer inferências sobre os
parâmetros verdadeiros de uma população.

Existem dois tipos de amostras, as probabilísticas, baseadas nas leis de probabilidades, e


as amostras não probabilísticas, que tentam reproduzir o mais fielmente possível a população
alvo. Entretanto, somente as amostras probabilísticas podem, por definição, originar uma
generalização estatística, apoiada no cálculo de probabilidades e permitir a utilização da potente
ferramenta que é a inferência estatística

Com os dados de algumas famílias do total de famílias que moram no Brasil, ou seja,
com uma amostra dessa população, pode-se determinar a estatística renda média da
amostra. Baseados nessa estatística, é possível fazer suposições sobre um parâmetro
dessa população, nesse caso, a renda das famílias brasileiras.
4
Mácio A Albuquerque

 Censo: é uma coleção de dados relativos a todos os elementos de uma população.

 Amostragem: é um conjunto de técnicas utilizadas para a seleção de uma amostra, que


possibilita o estudo das características da população.

 Parâmetro: é uma descrição numérica de uma característica da população.

 Estatística: é uma descrição de uma característica da amostra.


 Estatística: é o ramo da matemática que analisa dados estatísticos.

A estatística pode ajudar o usuário a tirar conclusões a partir daquilo que é observado.
Pode-se por exemplo, obter informações sobre o que está acontecendo no setor de
produção de uma empresa especializada em produzir caixas, para isso, é preciso coletar
organizar e resumir informações, isto é, verificar quantas caixas estão boas, quantas foram
estragadas, enfim, é preciso descrever a situação.
Além de descrever a situação, é necessário entender por que ela está acontecendo. Para
tal, faz-se essencial analisar algumas dessas caixas, identificar suas características e, a partir daí,
avaliar o que está acontecendo com todas elas, ou seja, é preciso determinar as propriedades de
uma parte para estimar o que acontece com o todo.

2 ESTATÍSTICA DESCRITIVA

Os métodos e as técnicas da estatística descritiva possibilitam-nos descrever e resumir


as informações a partir de um conjunto de dados coletados. Para melhor compreender essas
informações, é necessário reunir e apresentar os dados de forma clara, transformar os dados em
números, registrar os números em tabelas ou gráficos.

2.1 FASES DO TRABALHO ESTATÍSTICO

A estatística está envolvida em todas as etapas de um projeto de pesquisa. A seguir as


fases de um trabalho cientifico são citadas do ponto de vista do trabalho estatístico.

As fases do trabalho estatístico são do âmbito da Estatística Descritiva, e são as


principais fases as seguintes:

5
Mácio A Albuquerque

1. Definição do Problema: formulação completa do problema a ser estudado. Levantamento de


outros trabalhos realizados no mesmo campo e análogos, uma vez que parte da informação de
que se necessita pode ser encontrado nestes últimos.

2. Planejamento: determinação do procedimento necessário para resolver o problema e, em


especial, como levantar informações sobre o assunto objeto de estudo. Preocupação com a
formulação correta das perguntas, qualquer que seja a modalidade de coleta de dados. É nesta
fase que será escolhido o tipo de levantamento a ser utilizado, que pode ser censitário ou por
amostragem. Outros elementos importantes a serem pré-estabelecidos desta fase são: o
cronograma das atividades (fixação de prazo para as várias fases); os custos envolvidos; exame
das informações disponíveis; o delineamento da amostra (se necessária); a forma como serão
escolhidos os dados; elaboração do questionário.

EXPERIMENTAL: Quando o pesquisador planeja/controla a variável independente


(existe intervenção do pesquisador sobre as possíveis causas)

OBSERVACIONAL: Quando o pesquisador faz um levantamento das informações já


existentes, sem controlar as variáveis independentes (Não existe intervenção do
pesquisador sobre as possíveis causas)

3. Coleta de dados (quesitos específicos para obter informações desejadas): refere-se à


obtenção, reunião e registro sistemático de dados, com um objetivo determinado. Além dos
registros feitos pelo próprio pesquisador, pode-se recorrer a fontes externas de dados.
Exemplo
A renda mensal das famílias, o número de peças defeituosas de um equipamento ou QI
dos indivíduos de um determinado grupo são exemplos desses dados.

4. Crítica dos dados (questionários): leitura dos questionários, observação de respostas


incompletas, erradas. Supressão de valores estranhos ao levantamento.

5. Apuração dos dados: consiste em resumir os dados, através de sua contagem e agrupamento.
É um trabalho de condensação e de tabulação dos dados, que chegam ao analista de forma
desorganizada, tornando impossível a tarefa de apreender todo o seu significado pela simples
leitura. Nos dias atuais esta apuração tornou-se sinônimo de organização de base de dados, que
é realizada em computadores.

6
Mácio A Albuquerque

6. Apresentação dos Dados: há duas formas de apresentação:

(a) Apresentação Tabular: apresentação numérica dos dados. As tabelas têm a vantagem de
conseguir expor, sinteticamente, e em um só local, os resultados sobre determinado assunto, de
modo a se obter uma visão global mais rápida daquilo que se pretende analisar.

(b) Apresentação Gráfica: constitui uma apresentação geométrica. É de extrema importância, no


sentido de permitir uma visão rápida, fácil e clara do fenômeno e sua variação.

7. Análise e Interpretação dos Dados: O interesse maior consiste em tirar conclusões que
auxiliem o pesquisador a resolver seu problema. A análise dos dados estatísticos está ligada
essencialmente ao cálculo de medidas, cuja finalidade principal é descrever o fenômeno. Assim,
o conjunto de dados a ser analisado pode ser expresso por números-resumos, as estatísticas, que
evidenciam características particulares desse conjunto. O significado exato de cada um desses
valores será explicado posteriormente.

2.2 CLASSIFICAÇÃO DE VARIÁVEIS

Definiremos variáveis como qualquer atributo/característica que exerça influência no


fenômeno estudado. Por exemplo, desejamos registrar a idade das pessoas ao morrer, a estatura
ou peso dos indivíduos, o rendimento das famílias em uma grande cidade, o número de
empregados dispensados, por mês, em uma grande empresa, a distribuição dos alunos por sexo,
etc. Antes da escolha da análise descritiva apropriada é necessária a classificação da variável de
interesse, pois a adequação da técnica está diretamente relacionada ao tipo de variável em
questão. De acordo com a estrutura numérica as variáveis podem ser classificadas em:

As variáveis de um trabalho estatístico são os objetos ou características da população


que serão analisados.

Conceito - chave Os valores possíveis de uma característica são denominados variáveis.

Quantitativas - se os resultados das observações serão expressos sempre através de números,


que representam contagens ou medidas.

7
Mácio A Albuquerque

Ex: Idade, Altura, Peso, Número de nascidos vivos, População, Nº de espigas por planta de
milho.

A variável será quantitativa quando seus valores forem expressos em números. Pode ser
subdivida em:

5. Quantitativa discreta: pode assumir apenas valores pertences a um conjunto


enumerável.

Alguns exemplos de variáveis quantitativas discretas são:

a) População: habitações de uma cidade.


Variável: número de banheiros.

b) População: casais residentes em uma cidade.


Variável: número de filhos.

6. Quantitativa contínua: pode assumir qualquer valor em um certo intervalo de variação.

Alguns exemplos de variáveis quantitativas contínuas são:

a) População: estação meteorológica de uma cidade.


Variável: precipitação pluviométrica durante um mês.

c) População: propriedades agrícolas do Brasil


Variável: produção de algodão (toneladas).

d) População: indústrias de uma cidade.


Variável: índice de liquidez.

e) População: pessoas residentes em uma cidade.


Variável: idade.

Qualitativas - se os resultados das observações serão expressos através de categorias, que se


distinguem por alguma característica não-numérica.

8
Mácio A Albuquerque

Ex: Sexo, Nível de escolaridade, Cor da pele, Estada civil, Tipo sanguíneo.

a) População: alunos de uma universidade


Variável: sexo (masculino ou feminino).

b) População: moradores de uma cidade


Variável: tipo de habitação (casa, apartamento, barraco, etc.).

c) População: peças produzidas por uma máquina


Variável: qualidade (perfeita ou defeituosa).

d) Óbitos em um hospital, nos últimos cinco anos


Variável: causa mortis (moléstia cardiovasculares, cânceres, etc)

As variáveis qualitativas podem ser classificadas, por sua vez, em:

1. Nominal - caracteriza-se por dados que consistem apenas em nomes, rótulos ou categorias.
Os dados não podem ser dispostos segundo um esquema ordenado.

Ex: O conjunto de espécies: Cedro, Cassia e Ipê.


Ex: Estado civil, sexo, nacionalidade e profissão

2. Ordinal - envolvem dados que podem ser dispostos em alguma ordem, mas as diferenças
entre os valores dos dados não podem ser determinadas ou não tem sentido.

Ex: Nível de escolaridade: Analfabeto, ensino fundamental, ensino médio e ensino superior.
Categoria socioeconômica: classe alta, classe média ou classe baixa.

2.3 TIPOS DE SÉRIES ESTATÍSTICAS

Série estatística é uma sucessão de dados estatísticos que medem a intensidade do


fenômeno, segundo suas características qualitativas ou quantitativas. As séries estatísticas serão
classificadas de acordo coma variação de três elementos: tempo, local e o fato. São elas:
9
Mácio A Albuquerque

• Série Histórica (Temporal) - É aquela em que o elemento que serve como base de
classificação é a fração do tempo, como o dia, o mês, o ano, o século, etc.
muda o tempo, permanecendo fixo o local e o fato.

Ex1: Taxa de mortalidade infantil nos últimos 10 anos na cidade do Campina Grande -Pb.

Ex2: Tabela 2.1 -Produção de fertilizantes fosfatados no Brasil, nos últimos 5 anos, quantidade.
Anos Quantidade (t)
2009 3.570,115
2100 4.504,201
2011 5.448,835
2012 4.373,226
2013 4.024,813
Ex3: A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC
durante o ano de 20XY.

Tabela 2.2 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY).


Mês Jan Fev Mar Abril Maio Jun Jul Agos Set Out Nov Dez Total
Faturament 0,95 1,03 1,12 1,24 1,02 0,92 0,84 0,78 0,72 0,65 0,68 0,82 10,77
o

• Série Geográfica - É aquela que apresenta como elemento variável somente o local (fator
geográfico).

Ex1: Tabela 2.3 A produção de ovos no Brasil, em 2013, segundo os Estados produtores.
Região Quantidade (1.000 dúzias)
Norte 66.092
Nordeste 356.810
Sudeste 937.463
Sul 485.098
Centro-Oeste 118.468

Ex2 – A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC
durante o ano de 20XY, nas respectivas regiões de atuação.

Tabela 2.4 – Faturamento (R$ 1000000) da empresa ABC (20XY), por região.
Região Grande Interior Grande Interio Grande Interior Piauí Total
J. Pessoa da PB Recife r fortaleza do CE
de PE
Faturament 2,75 2,58 1,82 1,42 0,80 0,75 0,70 10,77
o

10
Mácio A Albuquerque

• Série Específica - É aquela série que apresenta como elemento ou caráter variável o fato (ou
espécie), permanecendo fixos a época e o local.

Ex1: Os alunos de uma Faculdade, em determinado ano, classificados segundo o tipo sanguíneo.

Ex2: Os rebanhos brasileiros em 2013, quantidade de cabeças.


Tabela 2.5 - Rebanhos brasileiros em 2013, quantidade de cabeças
Espécie Quantidade (1.000 cabeças)
Bovinas 139.599
Bubalinos 1.181
Equinos 5.855
Asininos 1.304
Muares 1.984
Suínos 32.121
Ovinos 20.085
Caprinos 11.313
Coelhos 909

Ex3- A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC
durante o ano de 20XY, especificado por produto.

Tabela 2.6 – Faturamento (R$ 1000000) da empresa ABC (20XY), por produto.
Produto Rolamento Mancal Óleo Junta Válvula Retentor Total
Faturament 3,48 1,84 1,75 1,45 1,25 1,00 10,77
o

• Série Mista - Refere-se às séries que são combinações de outros tipos de séries já estudadas.
Quantidades dos telefones instalados no Brasil, segundo as Unidades da Federação e o ano.
Tabela 2.7 - Telefones instalados - 2011-2013
Região 2011 2012 2013
Norte 373.312 303.712 257.741
Nordeste 1.440.531 1.367.006 1200.467
Sudeste 8.435.308 7.892.409 5.673.660
Sul 2.106.145 1.192.762 883.272
Centro-Oeste 803.013 839.401 544.075
Total 13.158.309
Fonte: IBGE

Ex2 – O quadro a seguir mostra o faturamento da empresa ABC por produto e região, isto é, uma
combinação de uma série geográfica e uma série específica.

Tabela2.1 – Faturamento (R$ 1000000) da empresa ABC, por produto e região.

11
Mácio A Albuquerque

Região Produto Total


Rolamento Mancal Óleo Junta Válvula Retentor
Grande João pessoa 0,89 0,46 0,45 0,37 0,32 0,26 2,75
Interior da Pb 0,83 0,44 0,42 0,35 0,30 0,24 2,58
Grande Recife 0,59 0,31 0,30 0,25 0,21 0,16 1,82
Interior de PE 0,45 0,24 0,23 0,19 0,16 0,15 1,42
Grande Fortaleza 0,26 0,14 0,13 0,11 0,09 0,07 0,80
Interior do CE 0,24 0,13 0,12 0,10 0,09 0,07 0,75
Piauí 0,22 0,12 0,10 0,08 0,08 0,10 0,70
Total 3,48 1,84 1,75 1,45 1,25 1,00 10,77

2.4 APRESENTAÇÃO DOS DADOS

2.4.1 Diferença entre Tabela e Quadro

A seção 3.32 da NBR 14724:2011 define a Tabela como sendo uma "forma não
discursiva de apresentar informações das quais o dado numérico se destaca como informação
central" (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2011, p. 4). Em relação ao
Quadro, é apresentado na seção 4.2.1.9, da mesma NBR, que o mesmo trata-se de uma
Ilustração, porém nada define sobre sua forma e, ao analisar o exemplo contido na aludida
seção, deixa margem para interpretação que vai de encontro à definição da Tabela. Observe o
exemplo apresentado na seção 4.2.1.9 da NBR 14724:2011 (ASSOCIAÇÃO BRASILEIRA DE
NORMAS TÉCNICAS, 2011, p. 8)
Exemplo

Quadro 1 - Valores aceitáveis de erro técnico de medição relativo para antropometristas


iniciantes e experientes no Estado da Paraíba
Quadro 1- Modelo de quadro
Nome/sobrenome Descrição do texto Conclusão
João Gil Modelo de Quadro Quadro confeccionado
Jorge Alves Modelo de Quadro Quadro confeccionado
Francisco Guedes Modelo de Quadro Quadro confeccionado
Tárcio Augusto Modelo de Quadro Quadro confeccionado

Observe que as laterais estão fechadas diferenciando, em sua forma, da tabela que possui as
laterais abertas.
 A seção 5.9 da NBR 14724:2011, que trata sobre as regras gerais para apresentação de
Trabalhos Acadêmicos, relata que as Tabelas "devem ser citadas no texto, inseridas o mais
próximo possível do trecho a que se referem e padronizadas conforme o Instituto Brasileiro de
Geografia e Estatística (IBGE)" (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS,
2011, p. 11).

12
Mácio A Albuquerque

Ao verificar as Normas de Apresentação Tabular (NAT), que se encontra vigente,


criadas pelo IBGE (1993), a definição de Tabela é a mesma apresentada pela ABNT. Sendo
assim, quando for apresentar informações onde o dado numérico é parte principal, utiliza-se a
forma de Tabela e, para as demais informações, utiliza-se a forma de Quadro.

 Segundo as NAT do IBGE, a Tabela deve possuir um título, um cabeçalho, um corpo


contendo as informações, uma linha de fechamento, uma fonte e, se for o caso, uma nota
explicativa. Os quadros também possuem tais especificações, porém diferem das Tabelas em
sua forma, no que diz respeito ao fechamento das laterais.Segue um modelo de Quadro e mais
abaixo o modelo da Tabela 3 encontrada nas NAT do IBGE:
É formado por linhas horizontais e verticais, sendo, portanto “fechado”. Normalmente é
usado para apresentar dados secundários, e geralmente vem no “referencial teórico”. Nada
impede, porém, que um quadro apresente resultados da pesquisa. Um quadro normalmente
apresenta resultados qualitativos (textos). O número do quadro e o título vêm acima do quadro,
e a fonte, deve vir abaixo, conforme o exemplo:

2.4.2 ELABORAÇÃO DE TABELAS

Após a apuração, há a necessidade de os dados e os resultados obtidos a partir daqueles


serem dispostos de uma forma ordenada e resumida, a fim de auxiliar o pesquisador na análise e
facilitar a compreensão das conclusões apresentadas ao leitor. Os dados e os resultados são
então apresentados na forma de tabelas.
Uma tabela deve ser auto-suficiente, isto é, deve ter significado próprio, de modo a
prescindir, quando isolada, de consultas ao texto..

Uma tabela possui elementos essenciais e complementares.

Os elementos essenciais são:

• Título - é obrigatório. Deve conter a designação do fato observado, o local e a época em que
foi registrado. Deve ser claro e conciso. É colocado na parte superior da tabela.

• Corpo da tabela - é o conjunto de colunas e linhas onde se encontram as informações


numéricas sobre o fato observado. Casa, célula ou cela - é o cruzamento de cada linha com uma
coluna, onde se tem a frequências com que a categoria aparece.
13
Mácio A Albuquerque

• Cabeçalho - é a parte superior da tabela, onde se especifica o conteúdo de cada coluna.


• Coluna indicadora - é a parte da tabela em que se especifica o conteúdo de cada linha.

• Os elementos complementares são:

• Fonte - é a indicação da entidade responsável pelo fornecimento ou elaboração dos dados. É


colocado no rodapé da tabela.

• Notas - são colocadas abaixo da fonte, se necessárias. Contém informações gerais destinadas a
conceituar ou esclarecer o conteúdo das tabelas.
• Chamadas - também colocadas no rodapé (se necessárias).
Algumas observações fazem-se importantes na elaboração de uma tabela. São elas:

1. Nenhuma casa da tabela deve ficar em branco. Na ausência de um dado numérico,


empregam-se alguns dos sinais convencionais, como hífen, reticências, etc. (Veja
explicação em sala de aula com seu professor).
2. As tabelas devem ser fechadas no alto e embaixo por linhas horizontais, não sendo
fechadas à direita ou à esquerda por linhas verticais. É facultativo o emprego de traços
verticais para a separação de colunas no corpo da tabela.
3. Em publicações que compreendem muitas tabelas, estas devem ser numeradas em
ordem crescente, conforme a ordem do aparecimento.
4. Os totais e subtotais devem ser destacados.
5. Deverá ser mantida a uniformidade, quanto ao número de casas decimais.

Tabela 1 Número e percentagem de insetos capturados em domicílio na Escola Agrícola da UEPB, Paraiba, tipo de
captura, março a junho e setembro de 2014
Tipo de captura Manual Armadilha tipo New Jersey2 Total
Espécies Nº % Nº % Nº
Aedes scapularis 108 6.8 1 1.2 109
Anopheles evansae 191 12.1 12 14.8 203
Anopheles triannulatus 48 3.0 - - 48
Culex pipiens quinquefasciatus 105 6.6 21 25.9 126
Culex (Culex) sp. 61 3.9 5 6.2 66
Culex (Melanoconion) sp. 160 10.1 5 6.2 165
Mansonia chrysonotum 139 8.8 13 16.0 152
Mansonia titillans 689 43.7 19 23.5 708
Psorophora confinnis 51* 3.2 - - 51
Outras espécies 3 29 1.8 5 6.2 34
Total 1581 100 81 100 1662
Fonte: Forattini, O.P. et. Al., Ëestudos ecológicos sobre mosquitos Culicidae no sistema da Serra, Brasil, 2 – Observações no ambiente
domiciliar”,
1 30 dias Rev. Saúde Públ., Paraíba, 12: 476:96, 2004.
de captura * Inclui 2 insetos capturados
2 9 dias decaptura quando deixavam o domicílio
3Aedes serratus Coluna
Aedeomyia squamipennis
Indicadora Notas
Anopheles albitarsis
Anopheles mediopunctatus
Fonte Título
Anopheles oswaldoi 14
Culex lygrus
Culex (Microculex) sp.
Limatus flavisetosus Cabeçalho
Mansonia juxtamansonia
Mansonia venezuelensis
Chamadas
Mácio A Albuquerque

2.4.3 DISTRIBUIÇÃO DE FREQUÊNCIAS

As distribuições de frequências constituem-se num caso particular das séries estatísticas,


nas quais todos os elementos são fixos. Agora os dados referentes ao fenômeno são
apresentados através de gradações, onde é feita a correspondência entre categorias ou valores
possíveis e as frequências respectivas. A definição de alguns conceitos será importante para o
uso da linguagem apropriada ao elaborarmos e analisarmos as distribuições de frequências. No
total, são nove conceitos a serem apresentados. A seguir definiremos os cinco primeiros, válidos
para quaisquer distribuição de frequências, e mais adiante apresentaremos os 4 últimos,
específicos para dados agrupados em classes:
15
Mácio A Albuquerque

1. Dados Brutos - É o conjunto dos dados numéricos obtidos após a coleta dos dados.

Ex1: Idade dos alunos do curso de Educação Física UEPB, no ano de 2014.

24 23 22 28 35 21 23 33 34 24
21 25 36 26 22 30 32 25 26 33
34 21 31 25 31 26 25 35 33 31

Ex2: Suponha-se, uma empresa que criou um índice para medir a produtividade de seus
funcionários. Em uma amostra de 30 funcionários, foram obtidos os seguintes escores para cada
um:
24 23 22 28 25 21 23 23 34 24
21 25 26 26 22 30 22 25 26 23
24 21 21 25 21 26 25 25 23 21

Como podem ser observados, os valores estão dispostos de forma desordenada. Em


razão disso, pouca informação se consegue obter inspecionando-se os dados anotados. Mesmo
uma informação tão simples como a de saber os valores mínimos e máximos requer certo exame
dos dados coletados.

2. Rol - É o arranjo dos dados brutos em uma determinada ordem crescente ou decrescente.

Ex3: Utilizando os mesmos dados anteriores:

21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31
-32 - 33 - 33 - 33 - 34 - 34 - 35 - 35 – 36

Apresenta vantagens concretas em relação aos dados brutos. Ela torna possível
visualizar, de forma bem ampla, as variações dos dados, uma vez que os valores extremos são
percebidos de imediato. Mas, a análise com este tipo de disposição começa a se complicar
quando o número de observações tende a crescer.

Exercício:
Foi retirada uma amostra referente aos pesos de 30 alunos do curso de Educação ciência
contábeis do 2º ano, período diurno, UEPB 2017.

52,6 71,3 60,4 56,8 75,9 60,8 42,4 49,7 73,2 68,4

16
Mácio A Albuquerque

51,4 50,8 45,2 63,9 74,2 65,2 82,8 41,3 58,7 62,1
46,9 72,3 57,8 65,4 47,2 51,3 59,8 44,7 60,3 56,7

Construa uma tabela de distribuição discreta e contínua.

3. Amplitude total ou ”range” (A) - É a diferença entre o maior e o menor valor observado da
variável em estudo.

Ex4: Utilizando os mesmos dados anteriores:

A = 36 - 21 = 15. AT = maior valor – menor valor ou AT= Máx - min

4. Frequências absoluta simples (fi) - É o número de vezes que o elemento aparece na amostra
ou o número de elementos pertencentes a uma classe.

5. Frequências total (ft) - É a soma das frequências simples absolutas de todos os elementos
observados. Para condensarmos melhor os dados, é aconselhável a elaboração de distribuições
de Frequências. Uma tabela com distribuição de Frequências é uma tabela onde se procura fazer
um arranjo dos valores e suas respectivas frequências, onde a Frequências de determinado valor
será dado pelo número de observações ou repetições de um valor ou de modalidade. As tabelas
de frequências podem representar tantos valores individuais como valores agrupados em
classes. Essas tabelas podem ser classificadas em:

5.1 Distribuição de Frequências de Dados Tabulados Não-Agrupados em Classes - é uma tabela


onde os valores da variável aparecem individualmente. Esse tipo de distribuição é utilizado
geralmente para representar uma variável discreta, com pouca variedade de valores.

Exemplo5: Utilizando os mesmos dados anteriores, a tabela a seguir representa a distribuição de


frequências de dados não agrupados.

Tabela 2.7 - Idade dos alunos do curso de Educação Física da UEPB, no ano de 2014.
Idade(Xi) fi
21 3
22 2
23 2
24 1
25 4
26 3
28 1
30 1
17
Mácio A Albuquerque

31 3
32 1
33 3
34 3
35 2
36 1
Total (fi) 30
Fonte: Pro reitoria de graduação.
Tabela: Índice de produtividade de seus funcionários
Índice de Número de
produtividad funcionários
e
21 6
22 3
23 5
24 4
25 6
26 4
28 1
30 1
Total 30

Este tipo de tabela não é aconselhável quando estamos trabalhando com variáveis que
apresentam uma grande quantidade de valores distintos, uma vez que a tabela poderá ficar muito
extensa, dificultando, além de sua elaboração, as análises e conclusões dos dados pesquisados.
Note que a soma das frequências absolutas simples é sempre igual ao número total de valores
observados.

5.2 Distribuição de Frequências de Dados Agrupados em Classes.

Comentário

Não há uma regra rígida para construir uma distribuição de frequências por classes de
valores no entanto, alguns procedimentos podem facilitar essa distribuição. São eles: número de
classes, amplitudes, limites, ponto médio, rol e distribuição por classes de valores.
Muitas vezes com o objetivo de resumir os dados originais em uma distribuição de
frequências, utilizaremos os dados agrupados em classes e não mais individualmente. Classe

18
Mácio A Albuquerque

pode ser definida como sendo os subintervalos da Amplitude Total de uma variável (grupo de
valores).
Quando a variável objeto de estudo for contínua geralmente será conveniente agrupar os
valores observados em classes. Se, por outro lado, a variável for discreta e o número de valores
representativos dessa variável for muito grande, recomenda-se o agrupamento dos dados em
classes. Nesse último caso, o procedimento visa a evitar certos inconvenientes, como:

1. Grande extensão da tabela, dificultando, tanto quanto os dados brutos, a leitura e a


interpretação dos resultados apurados.

2. O aparecimento de diversos valores da variável com frequências nula.

3. Impossibilidade ou dificuldade de visualização do comportamento do fenômeno como um


todo, bem como de sua variação.

Este tipo de tabela informa, de imediato, a tendência de a série se concentrar em torno


de um valor central, além de proporcionar uma visão panorâmica do comportamento da
variável, o que seria impossível de se fazer a partir da lista dos dados brutos.

Ex6: Utilizando os mesmos dados anteriores, temos:


Tabela 2.8 - Idade dos alunos do curso de, Educação Física da UEPB, no ano de 2014
Idade Frequências
Absoluta simples (fi)
21├ 24
24├ 27
27├ 30
30├ 33
33├ 36
Total 30
Fonte: pro reitoria de graduação.

O símbolo a|– b indica a inclusão do limite inferior do intervalo naquela classe.


Outras possibilidades são: a –| b, a |–| b, a –b

Para construção de tabelas de Frequências para dados agrupados em classe os 4 conceitos


listados a seguir, complementam os 5 primeiros já apresentados:

3.1-Definição do número de classes (k)- É representado por k. É importante que a distribuição


conte com um número adequado de classes. Se esse número for escasso, os dados originais

19
Mácio A Albuquerque

ficarão tão comprimidos que pouca informação poderá ser extraída desta tabela. Se, por outro
lado, forem utilizadas muitas classes, haverá algumas com Frequências nula ou muito pequena,
apresentando uma distribuição irregular e prejudicial à interpretação do fenômeno.

Para determinar o número de classes há diversos métodos. Nós aprenderemos duas soluções:

(a) k = 5, para n ≤ 30 e k  n , para n > 30. sqrt(n)

n k
30 6
45 6
40 6
50 7
100 10
200 14
500 22
1000 31

(b) Fórmula de Sturges: K = 1 + 3,3 log (n), k 1 =1 + 3.3*log10, k2 =1 + 3.3*log2 (n) onde n é o
número de observações (amostra)

k=1 + 3.3*log(n) k1 =1 + 3.3*log10 (n) k2 =1 + 3.3*log2 (n)


n k K1 K2
30 12 6 6
45 13 6 6
40 13 6 6
50 14 7 7
100 16 8 8
200 18 9 9
500 21 10 10
1000 24 11 11

(b) Fórmula de Sturges: K = 1 + log 2 n k= 1 + log 2 (n)

No entanto, dadas as características da função logaritmo, um dos problemas na


utilização dessa fórmula é que ela fornece um número grande de classes para valores pequenos
de n e um número pequeno de classes para valores grandes de n, como pode ser observado na
Tabela acima, onde os resultados foram arredondados para o próximo inteiro.

Mesmo tendo outros critérios de determinação do número de classes, o que se deve ter
em mente é que a escolha dependerá sobretudo da natureza dos dados e da unidade de medida
em que eles se encontram, e não somente de regras muitas vezes arbitrárias e pouco

20
Mácio A Albuquerque

flexíveis,com essa ou fórmula servindo apenas de referência. Para facilitar a análise é


conveniente que se mantenham os intervalos de classe sempre constantes.

3.2. Limites de Classe - Os limites de classe são seus valores extremos. No exemplo anterior de
distribuição de frequências, o valor 21 é denominado limite inferior da primeira classe,
enquanto o valor 24 é denominado limite superior da primeira classe.

3.3. Amplitude do Intervalo de Classe (h)- A amplitude de um intervalo de classe corresponde


ao comprimento desta classe. Numericamente, sua amplitude pode ser definida como a
diferença existente entre os limites superior (ou inferior) de duas classes consecutivas.
Ex: Utilizando os mesmos dados anteriores:

h = 24 - 21 = 3 (h = Limite superior – Limite inferior)

3.4. Pontos Médios ou Centrais da Classe (xi) - É a média aritmética simples entre o limite
superior e o inferior de uma mesma classe.
(limite superior da classe)  (limite inferior da classe)
Ponto médio 
2

Para obter os pontos médios das demais classes, basta acrescentar ao ponto médio da
classe precedente a amplitude do intervalo de classe.

2.4.4 TIPOS DE FREQUÊNCIAS

Frequências Simples Absoluta


Relativa

Frequências Acumulada Crescente


Decrescente

Frequências Simples:

a) Frequências Absoluta Simples (fi) - é o número de repetições de um valor individual ou de


uma classe de valores da variável. Trata-se do caso visto até o presente momento.

21
Mácio A Albuquerque

Classes Frequências absoluta Classes fi


simples (fi)
1ª classe f1 8,3├ 9,8 5
2ª classe f2 9,8├ 11,3 7
3ª classe f3 11,3├ 12,8 9
4ª classe f4 12,3├ 14,3 6
5ª classe f5 14,3├ 14,8 3
Total Total 30
Object 14

2. Frequências Acumuladas:

O objetivo das frequências acumuladas é de permitir avaliar qual parcela da Frequências total
estará associada ao valor da variável menor que um dado valor.

É utilizada toda vez que se procura saber quantas observações existem até uma determinada
classe ou valor individual.

Frequências Acumulada Crescente (Fac) – repeti-se a primeira Frequências simples e vai

somando com a posterior. f1; f1+f2; f1+f2+f3;........; f i


.

Tabela 2.9 - da Frequências acumulada crescente


Classes Frequências absoluta Freq. Acumulada crescente
simples (fi) (fac)
1ª classe f1 f1
2ª classe f2 f1  f 2
3ª classe f3 f1  f 2  f 3
4ª classe f4 f1  f 2  f 3  f 4
5ª classe f5 f1  f 2  f 3  f 4  f5   fi
Total
f i

Tabela 2.10 - da Frequências acumulada crescente

Classes fi fac
8,3├ 9,8 5 5
9,8├ 11,3 7 12
11,3├ 12,8 9 21
12,3├ 14,3 6 27
14,3├ 14,8 3 30
Total 30

22
Mácio A Albuquerque

Frequências Acumulada Decrescente (Fad) – coloca-se a soma das frequências simples é vai
subtraindo o valor de cada Frequências em cada classe.

Tabela2.11 - da Frequências acumulada decrescente


Classes Frequências absoluta Freq. Acumulada decrescente
simples (fi) (fad)
1ª classe f1
f i
2ª classe f2
f f i 1
3ª classe f3
f f f
i 1 2
4ª classe f4
f i  f1  f 2  f 3
5ª classe f5
f i  f1  f 2  f 3  f 4  f 5
Total
f i

Tabela 12 - da Frequências acumulada crescente

Classes fi fad
8,3├ 9,8 5 30
9,8├ 11,3 7 25
11,3├ 12,8 9 18
12,3├ 14,3 6 9
14,3├ 14,8 3 3
Total 30

(b) Frequências Simples Relativa (frs) - representa a proporção de observações de um valor


individual ou de uma classe, em relação ao número total de observações. Trata-se, portanto, de
um número relativo.
fi
frs 
f i

frequência da classe
frs=
tamanho da amostra
Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por
100:
fi
frs  100
 fi

Tabela 2.13 - de Frequências relativa simples


Classes Frequências absoluta Freq. Relativa simples (frs)
simples (fi)

23
Mácio A Albuquerque

1ª classe f1 f1
f i
2ª classe f2 f2
f i
3ª classe f3 f3
f i
4ª classe f4 f4
f i
5ª classe f5 f5
f i

Total
f i
1,00

Tabela 2.14 - de Frequências relativa simples

Classes fi frs
8,3├ 9,8 5 5/30
9,8├ 11,3 7 7/30
11,3├ 12,8 9 9/30
12,3├ 14,3 6 6/30
14,3├ 14,8 3 3/30
Total 30 1,00
Exemplo8: Com as
frequências apresentadas, calcule a Frequências relativa, acumulado crescente e decrescente e

Tabela 2.15 - Idade dos alunos do curso de Administração da UEPB, no ano de 2012.
Idade Nº de
alunos(fi)
21├ 24 7
24├ 27 8
27├ 30 1
30├ 33 5
33├ 36 9
Total 30
Fonte: Secretaria do curso

Exercício
1- Considere os dados abaixo referentes ao consumo de água, em m 3, de 75 contas da CAGEPA:
32 6 22 11 34 40 16 26 23 31 27 10 38 17 13
45 25 50 18 23 35 22 30 14 18 20 13 24 35 29
33 48 20 12 31 39 17 58 19 16 12 21 15 12 20
51 12 19 15 41 29 25 13 23 32 14 27 43 37 21
28 37 26 44 11 53 38 46 17 36 28 49 56 19 11

24
Mácio A Albuquerque

(a) Organize os dados numa distribuição de frequência com 9 classes de amplitudes iguais.
(b) A partir da distribuição de frequência construída no item anterior, determine e interprete:
a frequência da frequência da 3ª classe, da frequência relativa da quarta classe e da
frequência acumulada da quinta classe.

2 - A altura de 60 alunos da UEPB foi registrada abaixo, em cm:


174 170 156 168 176 178 162 182 172 168
166 156 169 168 162 160 163 168 162 172
168 167 170 153 171 166 168 156 160 172
173 163 170 175 176 182 158 176 161 175
173 163 172 167 170 179 179 170 151 175
152 151 172 173 170 174 167 167 158 174

(a) Construa uma distribuição de frequência com 8 classes de amplitudes iguais,


adotando como limite inferior da distribuição 150 cm.
(b) Qual o percentual de alunos com altura mínima de 166 cm?
(c) Quantos alunos tem menos de 162 cm?
(d) Qual o percentual de alunos com altura média de 164 cm? Qual a soma total
aproximada das alturas dos 60 alunos?
3 -Os dados abaixo apresentam os coeficientes de liquidez obtidos da análise de balanço em 50
indústrias:
0,4 2,6 3,3 4,5 5,3 6,9 8,4 9,5 11,8 16,0
0,8 2,7 3,8 4,5 5,5 7,4 8,5 10,0 12,4 16,2
2,3 2,7 3,9 4,6 5,6 7,5 8,7 10,5 12,9 17,8
2,3 2,9 4,4 4,8 6,3 7,6 9,0 10,6 13,1 18,8
2,4 3,2 4,4 5,0 6,3 7,9 9,2 11,6 15,6 20,1

a) Esboce os dados numa distribuição de Frequências;


b) A distribuição de Frequências percentual simples;
c) A Frequências acumulada crescente e decrescente;
d) O ponto médio da terceira classe;

2.4.5 APRESENTAÇÃO GRÁFICA

A apresentação gráfica é um complemento importante da apresentação tabular. A


principal vantagem de um gráfico sobre a tabela prende-se ao fato de que ele permite conseguir
uma visualização imediata da distribuição dos valores observados. Propiciam os gráficos uma
25
Mácio A Albuquerque

ideia preliminar mais satisfatória da concentração e dispersão dos valores, uma vez que através
deles os dados estatísticos se apresentam em termos de grandezas visualmente interpretáveis.

Um gráfico deve ser autoexplicativo, isto é, deve conter todos os elementos necessários
ao seu entendimento. Com isso, o usuário fica dispensado da obrigação de recorrer ao texto ou à
tabela que deu origem àquele gráfico. Devem ser simples, atrair a atenção do leitor e inspirar
confiança. Todo gráfico deve apresentar um título - descrição exata do fato observado, do local
e da época de referência; escala e numeração adequadas - representação precisa das grandezas a
serem mostradas; legenda - informação necessária à interpretação do gráfico.

Os gráficos podem ser cartogramas ou diagramas. Identifiquemos cada um deles:

1. Cartogramas - são mapas geográficos ou topográficos em que as frequências das


categorias de uma variável são projetadas nas áreas específicas do mapa, utilizando-se
cores ou traçados cujos significados constam em legendas anexadas às figuras. Em
epidemiologia, os mapas alfinetados são de grande emprego para apreciar o
aparecimento e expansão de certas moléstias.

Esse tipo de representação gráfica é de grande utilidade em Saúde Pública, sobretudo na


elaboração de inquéritos epidemiológicos em que se deseja conhecer a distribuição geográfica
de casos e óbitos de uma determinada doença epidêmica.

2. Diagramas - são gráficos em que a magnitude das frequências é representada por certa
mensuração de uma determinada figura geométrica. São os gráficos mais usados na
representação de séries estatísticas e se apresentam através de uma grande variedade de
tipos.

• Tipos de Diagramas:

(a) Gráficos em Linhas ou Gráficos Lineares - São frequentemente usados para a


representação de séries temporais. As linhas são mais eficientes neste tipo de gráfico
porque permitem a detecção de intensas flutuações nas séries e também possibilitam a
representação de várias séries em um mesmo gráfico.

Ex. O conjunto de dados abaixo (Tabela 2.16) que representa o número de filho  (dos
funcionários) da empresa Albuquerque.

26
Mácio A Albuquerque

Tabela 2.16
Nº de filhos Frequências
0 15
1 10
2 13
3 6
4 3
5 3
Total 50
Fonte:

Número de filhos da Empresa Albuqueruqe

20
15
10
5
0
1 2 3 4 5 6

Figura 2.1
(b)Gráficos Pictóricos (Pictogramas) - São gráficos construídos a partir de figuras ou
conjunto de figuras representativas da intensidade ou das modalidades do fenômeno. São
gráficos muito comuns em jornais e revistas, tendo como principal vantagem o fato de
despertar a atenção do público leitor.

a) Gráficos em Barras - Têm por finalidade comparar grandezas, por meio de retângulos
de igual largura e alturas proporcionais às respectivas grandezas. Cada barra representa
a intensidade de uma modalidade ou atributo.
Ex.
Tabela 2.17 - Produção da região ”XY” - 1990
Produtos Toneladas (em milhares)
Soja 349
Trigo 98
Fumo 107
Arroz 49
Total 603
Fonte: Ministério da Agricultura

27
Mácio A Albuquerque

Produção da região "XY"-1990

Arroz

Fuma
Produtos
Trigo

Soja

0 200 400
Toneladas

Figura 2.2

(d) Gráficos em Colunas - Prestam-se à mesma finalidade dos gráficos em barras


horizontais, sendo, entretanto, preferíveis a esses últimos quando as legendas a se inscreverem
sob os retângulos forem breves.

Produção da região ”XY” - 1990


300
250
200
Toneladas

150
100
50
0

Soja Trigo Fumo Arroz

Produtos

Figura 2.3

(e) Gráficos de Colunas Remontadas ou de Barras Agrupadas - São utilizados para


estabelecer comparações entre duas ou mais categorias.
Tabela 2.18 - Elementos classificados segundo o nível de instrução E uso de programas de alimentos
popular
Nível de Uso de programas
instrução Sim Não

baixo 350 150


alto 200 300

28
Mácio A Albuquerque

Elementos classificados segundo o nível de instrução e uso


de programas de alimentação popular

400
300
baixo
200
alto
100
0
sim Não

Figura 2.4

(f) Gráficos em Setores ou pizza - São utilizados para representar valores absolutos ou
porcentagens complementares.
Utilizados quando se pretende comparar cada valor da série com o total.

Produção da região "XY"- 1990

8%
Soja
18% Trigo
58% Fuma
16%
Arroz

Figura 2.5

O gráfico é construído com base em círculos, e é empregado sempre que desejamos


ressaltar a participação dos dados no total. Tais dados são previamente transformados em
números percentuais, para depois calculados em graus convenientemente para a respectiva
colocação na circunferência.

A seguir podemos encontrar alguns tipos de diagramas, sendo que o Box-Plot será
explicado mais adiante.

2.4.5 GRÁFICOS REPRESENTATIVOS DAS DISTRIBUIÇÕES DE FREQUÊNCIAS

29
Mácio A Albuquerque

A representação gráfica das distribuições de frequências é feita através do histograma e do


polígono de frequências.

1. Um histograma é um gráfico de barras que representa a distribuição de Frequências


de um conjunto de dados. Um histograma possui as seguintes propriedades.

a. A escala horizontal é quantitativa e mede os valores dos dados.


b. A escala vertical mede as frequências das classes.
c. Barras consecutivas devem estar encostadas umas às outras.

60
50
Número de casos

40
30
20
10
0
3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5
Ácido úrico (mg/dl)

Figura 2.6

#Sintaxe:
hist(dados,nclass=k,) #k é o número de classes do histograma
#Exemplo:
dados <- c(96,96,102,102,102,104,104,108,
126,126,128,128,140,156,160,160,164,170,
115,121,118,142,145,145,149,112,152,144,
122,121,133,134,109,108,107,148,162,96)
par(mfrow=c(1,2))
hist(dados,nclass=12)
hist(dados,nclass=4, col="red")
hist(dados)

30
Mácio A Albuquerque

2. Polígonos de Frequências - Unindo por linhas retas os pontos médios das bases
superiores dos retângulos do histograma, obtém-se outra representação dos dados,
denominada polígono de frequências.

60
Figura
50
2.7
Número de casos

40
Maiores informações sobre esses e outros
30
tipos de gráfico serão fornecidas em aula
20 pelo professor.
10 Exercício
0 3 -Abaixo são mostrados os saldos
3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5
médios de 48 contas de clientes do BB
Ácido úrico (mg/dl)
Novo S.A. (dados brutos em US$ 1,00).

450 500 150 1000 250 275 550 500 225 475 150 450 950 300 800 275
600 750 375 650 150 500 1000 700 475 900 800 275 600 750 375 650
150 500 225 250 150 120 250 360 230 500 350 375 470 600 1030 270

(a) Agrupe os dados numa distribuição de frequências.


(b) Determine as frequências relativas: simples e acumulada.
(c) Apresente o histograma de frequências relativas
Distribuição univariada de frequências: Representação tabular

Considere os dados da Tabela 2.2, onde temos informações sobre a turma, o sexo, a
matéria predileta (Português, Matemática, História, Geografia ou Ciências) no 2º grau e a nota
(número de questões certas) em um teste de múltipla escolha com 10 questões de matemática,
ministrado no primeiro dia de aula dos calouros de Estatística. As três primeiras variáveis são
qualitativas, enquanto nota é uma variável quantitativa discreta.
Como podemos resumir essas informações de uma forma mais clara e objetiva? Afinal,
o que nos interessa é saber quantas mulheres e quantos homens há em cada turma, quantas
pessoas tiraram 10, e assim por diante. Para isso, vamos construir tabelas ou distribuições de
frequência.
Tabela 2.2: Dados sobre sexo, matéria predileta e nota de alunos de 2 turmas
Turma Sexo Predileta Nota Turma Sexo Predileta Nota Turma Sexo Predileta Nota
A F H 5 A M M 2 B F G 6
A M M 8 A M G 4 B F M 4
A F P 8 A M G 9 B M M 6
A F H 6 A M M 7 B F P 5
A M C 5 A M M 1 B M G 3
31
Mácio A Albuquerque

A M H 6 A F P 8 B F M 5
A F M 8 A F G 5 B M P 3
A F P 4 A M G 9 B M M 4
A F H 2 A M P 5 B F C 8
A M C 6 A F M 8 B F H 3
A F P 8 A F G 6 B M G 4
A M H 3 A F P 9 B M P 5
A M M 5 A M M 8 B M P 4
A F P 5 B F H 6 B M H 6
A F G 5 B M M 3 B M M 6
A M C 7 B F P 4 B M G 6
A M H 4 B M H 8 B M H 6
A F M 7 B M G 10 B M H 6
A F P 7 B F M 5 B F M 8
A F M 6 B F P 7 B F M 8
A M G 6 B F P 5 B F G 5
A M H 9 B M M 6 B M C 5
A F M 8 B F M 5
A M P 5 B M G 5
A M G 6 B F H 8
A F M 7 B F G 5
A M P 5 B M G 6
A F M 5 B F M 5
A F M 5 B M G 2

Variáveis qualitativas

Vamos começar com a variável qualitativa sexo. Analisando as duas turmas


conjuntamente, vemos que há um total de 41 alunos e 39 alunas. Essas contagens são chamadas
frequências absolutas.
Poderíamos resumir essa informação em forma de tabela:
Tabela
Sexo Masculino
Masculino 41
Feminino 39
Total 80

Note a linha referente ao total!


Caso quiséssemos a informação por turma, a tabela seria a seguinte:
Tabela
Sexo Número de alunos
Turma A Turma B Total
Masculino 21 20 41

32
Mácio A Albuquerque

Feminino 21 18 39
Total 42 38 80

Note a coluna referente ao total!


Uma dificuldade que surge na comparação das duas turmas é o fato de o total de alunos
ser diferente. Assim, é comum acrescentar, à tabela de frequências, uma nova coluna com as
frequências relativas, que nada mais são que as frequências em forma percentual, representando
a participação da frequência de cada uma das categorias da variável sexo no total de alunos. Na
Tabela 2.3 temos a versão completa; note que foi acrescentado um título e a fonte dos dados,
informações imprescindíveis na apresentação de dados.

Tabela 2.3: Distribuição da variável Sexo por turma


Sexo Frequência na Turma A Frequência na Turma B Frequência Total
Absoluta Relativa (%) Absoluta Relativa (%) Absoluta Relativa (%)
Masculin 21 50,00 20 52,63 41 51,25
o
Feminino 21 50,00 18 47,37 39 48,75
Total 42 100,00 38 100,00 80
Fonte: Dados hipotéticos

Tabela 2.4: Distribuição da variável Matéria Predileta no Segundo Grau por turma
Matéria Predileta Frequência na Turma A Frequência na Turma B Frequência Total
no Segundo Grau Absoluta Relativa (%) Absoluta Relativa (%) Absoluta Relativa
(%)
Português 10 23,81 7 18,42 17 21,25
Matemática 14 33,33 12 31,58 26 32,50
História 7 16,67 7 18,42 14 17,50
Geografia 8 19,05 10 26,32 18 22,50
Ciências 3 7,14 2 5,26 5 6,25
Total 42 100,00 38 100,00 80 100,00

Variáveis quantitativas

Vamos, agora, analisar a variável Nota, que é uma variável quantitativa discreta. Na
Tabela 2.5 temos as notas ordenadas. A listagem dos dados, mesmo ordenados, é de pouca
utilidade nas situações práticas, uma vez que, em geral, o número de observações é muito
grande. Além disso, ao se analisarem dados estatísticos, muitas vezes o interesse não está na
observação individual, mas, sim, no comportamento de grupos. Mais difícil ainda é a

33
Mácio A Albuquerque

comparação entre os resultados das duas turmas, uma vez que as turmas têm números de alunos
diferentes.
Tabela 2.5: Notas ordenadas por turma
Turma A Turma B
1 2 2 3 3 3 3 5 5 5 5 2 3 3 3 3 4 4 4 4 4 5
5 5 5 5 5 5 5 6 6 6 6 5 5 5 5 5 5 5 5 5 5 6
6 6 6 7 7 7 7 7 8 8 8 6 6 6 6 6 6 6 6 6 7 8
8 8 8 8 8 9 9 9 9 8 8 8 8 1
0

A partir dos dados ordenados, podemos saber rapidamente os valores mínimo e


máximo: na Turma A as notas variam de 1 a 9 e na Turma B, de 2 a 10. Esse é o conceito de
amplitude de um conjunto de dados. Construa uma distribuição de frequência com os dados da
turma A e B.

Medidas Estatísticas
3.1 Medidas de tendência central ou posição

Quando se deseja representar os dados de uma distribuição de uma forma mais simples,
por meio de um valor único, a melhor opção é a escolha de uma medida de tendência central.
Essas medidas, que representam os parâmetros ou estimativas em torno dos quais ocorre a maior
concentração dos valores observados no estudo, têm por objetivo mostrar o ponto central de
equilíbrio de uma distribuição de dados.
Vimos até agora a sintetização dos dados sob a forma de tabelas, gráficos e distribuições
de frequências.
Agora, vamos aprender o cálculo de medidas que possibilitem representar um conjunto
de dados relativos à observação de determinado fenômeno de forma resumida.
As medidas de tendência central são também chamadas de medidas de posição, e
estabelecem o valor em torno do qual os dados se distribuem.

34
Mácio A Albuquerque

Vale a pena chamar a atenção que, para o cálculo dessas medidas, é necessário que a
variável seja quantitativa.

3.2 Medidas de posição ou tendência central:

3.2.1 Média Aritmética

A média aritmética, ou simplesmente média, é a medida de tendência central mais


comumente utilizadas em cálculos que envolvam análise descritivas para comparações e
inferências estatísticas entre amostras e populações. De cálculo simples e fácil, a média
corresponde a um valor único que representa o ponto de equilíbrio entre todos os valores de
uma série de dados numéricos coletados a partir de uma variável continua, além de apresentar
propriedades matemáticas que permitem o desenvolvimento de cálculos estatísticos avançados.

3.2.2 Média Aritmética Simples: É dada pelo quociente entre a soma dos valores observados e
a Frequências total ( o número total de observações).

Sejam x1, x2, x3,.....,xn, portanto “n” valores da variável x representada por x é definida
n

x1  x 2  x 3  .......  x n 
xi
1 n
x  i 1
ou  xi
n n n i 1
Ou, Genericamente, podemos escrever:
n

x i
x i 1

n
Some todos os elementos do conjunto de dados
X
Quantidade de elementos do conjunto

onde xi = valor genérico da observação


n = tamanho da amostra = número de observações
N = Número de observações da população
x = média da amostra
 = média da população

35
Mácio A Albuquerque

Este tipo de média aritmético será calculado quando os valores não estiverem tabulados,
ou seja, quando aparecerem representados individualmente como é o caso dos dados brutos, por
exemplo.

Ex9: Temos uma amostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos
(em kg):
23,0 20,0 22,0 19,0 25,0 28,2 24,0 21,0 27,0 21,0
x<-c(23.0, 20.0 , 22.0 , 19.0, 25.0, 28.2, 24.0, 21.0, 27.0, 21.0)
mean (x)

Isso significa que o peso médio é de 23,0 kg. É claro que foram obtidos pesos de crianças
desta idade que se encontram abaixo ou acima do valor médio. No entanto, a média representa
um valor típico.

Ex10: Determinar a média aritmética simples dos valores: 3, 7, 8, 10, 11.

3.2.3 - Média Aritmética Ponderada: É a média aritmética calculada quando os dados


estiverem agrupados em distribuições de Frequências. Os valores x 1, x2, ..., xn serão ponderados
pelas respectivas frequências absolutas ou pesos p 1, p2, ..., pn.

Então teremos:
n

x p i i
x i 1
 onde   n   pi
n

Exemplo: A Tabela abaixo mostra cada uma das notas parciais obtidas por um candidato
classificado em um concurso público, com suas respectivas ponderações. Qual a média final do
candidato?
Tabela - Notas parciais do candidato A e suas respectivas ponderações
Avaliação Notas Pesos
Escrita 8,5 5
Didática 9,1 4
Prática 8,8 3
Curricular 7,4 2
Entrevista 6,0 1
Total 39,8 15

36
Mácio A Albuquerque

5.8,5  4.9,1  3.8,8  2.7, 4  1.6, 0 126,10


X    8, 41
5  4  3  2 1 15
A média final do candidato igual a 8,41
Notas=c(8.5, 9.1, 8.8, 7.4, 6.0)
Pesos=c(5, 4, 3, 2, 1)
weighted.mean(Notas, Pesos)
Ex11. Calcular a média das notas de 1 aluno, que fez uma prova com peso 5, um trabalho com
peso 3 e uma lista de exercícios com peso 2, o aluno conseguiu 8,5 na prova, 9,0 no trabalho e
6,0 na lista de exercício.

Obtenha uma média ponderada:

Ex.Você está assistindo a um curso no qual sua nota é determinada a partir de cinco fontes: 50%
da média de seus testes, 15% de seu exame no meio do curso, 20% de seu exame final, 10% de
seu trabalho no laboratório de computação e 5% do trabalho feito em casa. As suas notas são 86
(média dos testes), 96 (exame no meio do curso), 82 (exame final), 98 (laboratório de
computação) e 100 (trabalho de casa). Qual é a média ponderada de suas notas?

Ex - Em 2014, em certa localidade, o custo da alimentação aumentou 58%, os aluguéis subiram


47% e o transporte subiu 49%. Se um assalariado gasta 35% do seu salário com alimentação,
25% com aluguel e 12% com transporte, qual o aumento percentual dos gastos dessa pessoa
com esses três itens?
Solução:
Solução:
Custo Antes do aumento Depois do aumento Total
Alimentação 0,35% 0,58% 0,35 x 0,58 = 0,203
Aluguel 0,25% 0,47% 0,25 x 0,47 = 0,118
Transporte 0,12% 0,49% 0,12 x 0,49 = 0,059
Total 0,72% 0,380 ou 38%

Para cada unidade do seu salário, a pessoa gastava, antes do aumento, 0,35 com alimentação,
0,25 com aluguel e 0,12 com transporte. Depois do aumento, ela passa a ter uma despesa
adicional de 0, 58 × 0, 35 = 0, 203 com alimentação, 0, 47 × 0, 25 = 0, 118 com aluguel e 0, 49
× 0, 12 = 0, 059 com transporte, o que totaliza 0, 203 + 0, 118 + 0, 059 = 0, 380. Então, para
cada unidade do seu salário, ela tem um aumento de 0,38 nos gastos com esses três itens, ou
seja,um aumento de 38%. Note que ela já gastava 0, 35+, 025 + 0, 12 = 0, 72 = 72% do salário

37
Mácio A Albuquerque

com esses três itens. Agora, ela passa a gastar, só com esses itens, 110%, ou seja, mais do que
ganha!
Esse cálculo corresponde a uma média ponderada das taxas de aumento, onde os fatores de
ponderação correspondem às parcelas do salário gastas com os diferentes itens.

3.2.4 - Variáveis discretas (sem intervalo de classe)

x  f i i
x i 1
, onde n   f i
n
Ex12 Considerando os números de crianças nascidas dos funcionários da empresa Informática
Albuquerque no ano 2013.
Tabela 2.19
Numero de crianças fi

0 2
1 8
2 10
3 12
4 4
Total 36
Fonte: Dep. de Psicologia
Na Tabela 2.20 temos as frequências acumuladas do número de sinistros por apólice de
seguro do ramo Automóveis. Complete a tabela, calculando as frequências simples absolutas e
relativas e também as frequências acumuladas relativas.

Tabela 2.20: Número de sinistros por apólice


Número de sinistros Número de apólices
0 2913
1 4500
2 4826
3 4928
4 5000

3.2.5 - Variável continua (com intervalos de classe)

Quando os dados estiverem agrupados numa distribuição de Frequências, usaremos a


média aritmética dos valores x1, x2, x3,..., xN ponderados pelas respectivas frequências absolutas:
f1, f2, f3, ..., fK vezes respectivamente,a média aritmética será :

38
Mácio A Albuquerque

x
x1f1  x 2 f 2  x 3f 3  ............  x i f i

x f i i

f1  f 2  f 3  .......  f i f i

x  f i i
x i 1
,
n
onde n   f i

Ex13: Determinar a média da distribuição:

Tabela 2.21Nome
Renda Nº de
Familiar Famílias
2├ 4 5
4├ 6 10
6├ 8 14
8├ 10 8
10├ 12 3
Total 40
Fonte: Dep. de Psicologia

3.2.6 - Propriedades da Média

Algumas propriedades das medidas de posição

3.2.6. 1 - Média

A média aritmética de um conjunto de valores x 1, x2, . . . , xn é maior ou igual ao menor


dos números e menor ou igual ao maior dos números. Em outras palavras, a média aritmética
está compreendida entre o menor e o maior valor dos dados. Para demonstrar esse fato, sejam

x(1)  x(2)   x( n ) .
x(1), x(2), . . . , x(n) as observações ordenadas, isto é, Temos que:

x1  x2    xn x(1)  x(1)    x(1)


x   x(1)
n n
e
x  x    xn x(n)  x(n)    x(n)
x 1 2   x(n)
n n
logo
x min  x  xmax

39
Mácio A Albuquerque

O conceito de média aritmética simples corresponde ao conceito de centro de gravidade.


Baseado nesse fato, é fácil verificar as seguintes propriedades da média.

 Somando ou subtraindo a mesma quantidade arbitrária de todos os valores da série, a


média ficará aumentada ou diminuída dessa mesma quantidade.

1. Sejam X e Y variáveis aleatória e k uma constante

Somando-se um mesmo valor a cada um dos elementos de um conjunto de observações, a média


aritmética simples fica somada desse valor. Note que essa operação equivale a um deslocamento
constante e rígido dos dados (uma translação), o que desloca igualmente o centro de gravidade.
Para demonstrar formalmente esse resultado, seja x1, x2, . . . , xn um conjunto de observações, às
quais somamos uma constante k, isto é, criamos uma nova série de observações y 1, y2, . . . , yn.

yi  xi  k , k  1
definida por .
1 n 1 n 1 n 1 n
y  i n
n i 1
y 
i 1
( xi  k )   i n
n i 1
x 
i 1
k

1 1
 x  (k  k    k )  x  (n k )  x  k
n n
Resumindo

y  xi  k  y  x  k .

Multiplicando cada observação por uma mesma constante não nula k, a média
aritmética simples fica multiplicada por essa constante. Definindo a nova série de observações

por
yi  kxi , temos que

1 n 1 n 1 n
y  i n
n i 1
y 
i 1
kxi  k .  xi  kx
n i 1
Resumindo

yi  kxi  y  kx

Ex - No mês do dissídio de uma determinada categoria, uma firma deu um aumento de 20% a
todos os seus funcionários. Se, antes do aumento, o salário médio dos funcionários era de
R$780,00, qual será o novo salário médio? No Natal seguinte, a firma dá um abono de R$50,00

40
Mácio A Albuquerque

para todos os funcionários. Se a firma tem 22 funcionários, qual o valor da folha de pagamentos
neste mês de dezembro?
Solução:
Quando todos os funcionários têm aumento de 20%, isso significa que cada salário fica
multiplicado por 1,2, ou seja, o salário de cada funcionário é o salário antigo mais 20%. Ao
multiplicar todos os números por uma mesma constante, a média fica multiplicada por essa
constante. Então, o salário médio fica multiplicado por 1,2, ou seja, passa a ser 1, 2×780, 00 =
R$936, 00. Como a firma tem 22 funcionários, a folha de pagamentos passa a ser 22×936 =
R$20.592, 00. No Natal, os salários de todos os funcionários ficam somados de R$50,00; logo o
salário médio também fica somado de 50,00 e a folha de pagamentos será de 20.592+22×50 =
R$21.692, 00.

Vantagens do uso da média aritmética

 É a medida de posição mais conhecida e de maior emprego em estatística inferencial,


pois justamente com uma medida de dispersão, serve para comparar grupos
semelhantes.
 Quando calculada adequadamente, em uma amostra bem selecionada, a média
aritmética representa uma estimativa não-viciada da média da população de onde a
amostra foi retirada. É senso comum que, médias de amostras repetidas, retiradas da
mesma população, não apresentam grandes variações.
 Depende sempre de todos os valores do conjunto de dado e, em geral, não ocupa a
posição central do conjunto, mas sim, a posição do centro de equilíbrio. Porém, não
representa bem os conjuntos que apresentam grandes variações nos dados, pois é
fortemente influenciada por valores discrepantes (outliers) da amostra ou população.

Outros tipos de média são geométrica, e a média harmônica.

3.2.7 Média geométrica (G)

É um parâmetro muito útil para a determinação de médias de porcentagens, razões,


índice e taxas de crescimento. A média geométrica de um conjunto de números positivos é
definida como o produto de todos os membros do conjunto, elevado ao inverso do número de
membros. Assim temos, para o conjunto de dados:

xi  {x1 , x2 ,..., xn }, a média geométrica xg  n x1  x2    xn ,

Exemplo: Conjunto de dados x = {6, 8, 4, 2}


41
Mácio A Albuquerque

G  4 6 x8 x 4 x 2  4 384  4, 4267
Cálculo da média geométrica
require(psych)
x = c(6, 8, 4, 2)
geometric.mean(x)
Variações Percentuais em Sequencia

Uma outra utilização para este tipo de média, é quando estamos trabalhando com
variações percentuais em sequência.
Digamos que uma categoria de operários tenha um aumento salarial de 20% após um
mês, 12% após dois meses e 7% após três meses. Qual o percentual médio mensal de aumento
desta categoria?

Tópico relacionado

Como acrescentar um valor percentual a um número?

Sabemos que para acumularmos um aumento de 20%, 12% e 7% sobre o valor de um


salário, devemos multiplicá-lo sucessivamente por 1,2, 1,12 e1,07 que são os fatores
correspondentes a tais percentuais.

A partir dai podemos calcular a média geométrica destes fatores:

G  3 1, 2.1,12.1, 07  3 1, 43808  1,12874

Como sabemos, um fator de 1,128741 corresponde a 12,8741% de aumento. Este é o


valor percentual médio mensal do aumento salarial, ou seja, se aplicarmos três vezes
consecutivas o percentual 12,8741%, no final teremos o mesmo resultado que se tivéssemos
aplicado os percentuais 20%, 12% e 7%.
Tabela 2.20- Digamos que o salário desta categoria de operários seja de R$ 1.000,00, aplicando-
se os sucessivos aumentos temos:
Salário inicial + % Salário final Salário inicial + % médio Salário final
informado
R$ 1.000,00 20% R$ 1.200,00 R$ 1.000,00 12,8417% R$ 1.128,74
R$ 1.200,00 12% R$ 1.344,00 R$ 1.128,74 12,8417% R$ 1.274,06
R$ 1.344,00 7% R$ 1.438,08 R$ 1.274,06 12,8417% R$ 1.438,08
Observe que o resultado final de R$ 1.438,08 é o mesmo nos dois casos.

42
Mácio A Albuquerque

Se tivéssemos utilizado a média aritmética no lugar da média geométrica, os valores


finais seriam distintos, pois a média aritmética de 13% resultaria em um salário final
de R$ 1.442,90, ligeiramente maior como já era esperado, já que o percentual de 13% utilizado
é ligeiramente maior que os 12,8417% da média geométrica.
(1) Aplicações em matemática financeira

Exemplo 1 - Se um investimento durante dois meses rende 2% no primeiro mês e 3% no


segundo mês, qual o rendimento médio desse investimento?
O rendimento médio será dado pela média geométrica dos fatores de rescimento, ou
seja, 1,02 e 1,03. Logo, o rendimento médio será dado por

G  2 1, 02.1,03  2 1, 051  1, 025


EXCEL =MÉDIA.GEOMÉTRICA(Número 1; Número 2; ...Número 30)
EXCEL=MÉDIA.GEOMÉTRICA(1,02;1,03)=1,024988

O que equivale a um rendimento de aproximadamente 2,5% ao mês.


Notemos apenas que para cálculos dessa natureza, utilizamos um valor equivalente e
não valores percentuais, isto é, um aumento de 5% se torna 1,05; e um desvalorização
de 2% é transformada em 0,98;

Exemplo 2: Se um investimento rende 5% no primeiro mês, 3% no segundo mês e 7%


no terceiro mês, qual o rendimento médio desse investimento?

Da mesma maneira do exemplo 1, o rendimento médio será dado pela média


geométrica dos fatores de crescimento, ou seja, 1,05 e 1,03. Logo, o rendimento médio

será dado por


G  3 1,05.1, 03.1, 07  3 1,157  1,049

Isso significa que o rendimento do investimento equivale a 4,9% ao mês.


EXCEL =MÉDIA.GEOMÉTRICA(Número 1; Número 2; ...Número 30)
=MÉDIA.GEOMÉTRICA(1,05;1,03;1,07)

= 1,049873

3.2.8 Média Harmônica (H)

43
Mácio A Albuquerque

x1 , x2 ,..., xn
Para um conjunto formados por n números racionais positivos: , a média
harmônica H entre esses números é dada pela divisão de n pela soma dos inversos desses n
(inverso da média aritmética) números, isto é:

Como sabemos a média aritmética dos números x1, x2, x3, ..., xn é dada por:

x1  x2    xn
n

Só que no caso da Média harmônica estamos falando do inverso destes números, então teríamos
a seguinte média aritmética:

1 1 1
  
x1 x2 xn
n

Além disto, como vimos que a Média harmônica é o inverso da média aritmética do inverso dos
referidos números, então finalmente temos:

n
H
1 1 1
  
x1 x2 xn

Exemplo: Conjunto de dados x = (2, 6, 8) ; harmonic.mean(x)


3 3 3.24
H    3, 7894
1 1 1 12  4  3 19
 
2 6 8 24
A média harmônica nunca é maior do que a média aritmética ou do que a média geométrica. 

Pois, temos
x gh

Outra fórmula de calcular a média harmônica de dois números é multiplicar os dois números e
dividir o resultado pela média aritmética dos dois números. Matematicamente:
 .
   
 
 2 
Essa fórmula é equivalente à primeira, mas mais simples em alguns casos.

44
Mácio A Albuquerque

Em uma certa situação, a média harmônica provê a correta noção de média. Por
exemplo, se metade da distância de uma viagem é feita a 40 km por hora e a outra metade da
distância a 60 km por hora, então a velocidade média para a viagem é dada pela média
harmônica,
2 2 2.120
H    48
1 1 5 5

40 60 120
que é 48; isso é, o total de tempo para a viagem seria o mesma se viajasse a viagem inteira a 48
quilômetros por hora. (Note, entretanto que se tivesse viajado por metade do tempo em uma
velocidade e a outra metade na outra velocidade, a média aritmética, nesse caso 50 km por hora,
proveria a correta noção de média).

Da mesma forma, se um circuito elétrico contém duas resistências conectadas em


paralelo, uma com uma resistência de 40 ohm e outra com 60 ohm, então a média das
resistências das duas resistências é 48 ohm; isso é, a resistência do circuito é a mesma que a de
duas resistências de 48 ohm conectadas em paralelo. Isso não é pra ser confundido com sua
resistência equivalente, 24Ω, que é a resistência necessária para substituir as duas resistências
em paralelo. Note que a resistência equivalente é igual a metade do valor da média harmônica
de duas resistências em paralelo.
Em finanças, a média harmônica é usada para calcular o custo médio de ações
compradas durante um período. Por exemplo, um investidor compra $1000 em ações todos os
meses durante três meses. Se os preços no momento de compra forem de $8, $9 e $10, então o
preço médio que o investidor pagou por ações é de $8,926. Entretanto, se um investidor
comprasse 1000 ações por mês, a média aritmética seria usada.

A média harmônica é o método preferível para a média dos múltiplos, tais como a
relação preço/ganho , em que o preço é no numerador. Se esses índices são calculados usando
uma média aritmética (um erro comum), os pontos de dados altas são dadas maior peso do que
pontos de dados baixos. A média harmônica, por outro lado, dá um peso igual para cada ponto
de dados.

Exemplo
Um veículo realizou o trajeto de ida e volta entre as cidades A e B. Na ida ele
desenvolveu uma velocidade média de 80 km/h, na volta a velocidade média desenvolvida foi
de 120 km/h. Qual a velocidade média para realizar todo o percurso de ida e volta?

45
Mácio A Albuquerque

Embora não tenha sido dito no enunciado, estamos considerando que os trajetos de ida e
volta têm a mesma medida.
É fácil entender que a média aritmética das velocidades seria de 100 km/h:

80  120
x  100
2
Porém a pergunta não foi qual a média das velocidades, mas sim qual a velocidade média para
realizar todo o percurso.
Vamos fazer o seguinte, já que independentemente da distância entre as cidades as
velocidades médias foram de 80 km/h na ida e de 120 km/h na volta, para facilitar a explicação
vamos arbitrar que a distância entre as cidades A e B seja de 120 km.
2 2 2.240
H    96
1 1 3 2 5

80 120 240
A velocidade média para se percorrer todo o percurso de ida e volta seria de 96 km/h.
Mediana

A mediana de um conjunto de dados corresponde ao valor que, no conjunto de dados,


separa-o em dois subconjuntos de mesmo número de elementos, quando estes estão ordenados
segundo uma ordem de grandeza. É, portanto, o valor que ocupa a posição central quando todos
os valores observados estão dispostos em ordem crescente ou decrescente de magnitude.

Colocando os valores em ordem crescente, a mediana é o valor que divide a amostra, ou


população, em duas partes iguais. Assim:
0% 50% 100%

Md
Variável discreta (dados não agrupados, porém, ordenados):
n 1
 Se n for ímpar, a mediana será o elemento central (de ordem 2 ).
 Se n for par, a mediana será a média entre os elementos centrais (de ordem

n n
e 1
2 2 )
Ex14: 1) X = 2 6 4 8 7 9 10
Ordenando os elementos 2 4 6 7 8 9 10 Md = 7

2) 11 3 5 7 8 10 9 2

46
Mácio A Albuquerque

Ordenando os elementos 2 3 5 7 8 9 10 11 Md = (7 + 8) / 2 = 7,5

Ex15. Dada a distribuição, calcule a média e a mediana.

Tabela 2.22
Xi fi fac
1 1 1
2 3 4
3 5 9
4 2 11
Total 11

Calculo da mediana – variável continua ou dados agrupados


n
1. calcula-se a ordem 2 . Como a variável é continua, não se preocupe se n é par ou
ímpar,

2. pela fac identifica-se a classe que contém a mediana (classe md),

3. utiliza-se a fórmula,

n
(   f an )
md  l md  2 h
f md

lmd = limite inferior da classe md,


n = tamanho da amostra ou população (número de elementos),
h = amplitude da classe da mediana,
fmd= Frequências da classe da mediana,

 f an =soma das frequências da classe da mediana.

Ex16: Dada a distribuição amostral, calcule a mediana.


Tabela 2.23
Classes fi fac
35├ 45 5
45├ 55 12
55├ 65 18
65├ 75 14
75├ 85 6
85├ 95 3
Total 58

Moda

47
Mácio A Albuquerque

Dentre as principais medidas de posição, destaca-se a moda. A moda é o valor que


ocorre com maior frequência, ou seja, o valor que mais se repete na amostra de dados. Quando
as frequências são maiores nos extremos ou quando se quer destacar um valor de alta
frequência, a moda pode ser considerada para a interpretação dos dados. Com relação à moda,
uma amostra de dados pode ser classificada em amodal (não possui moda), unimodal (possui
apenas uma moda), bimodal (possui duas modas) ou multimodal (possui mais de duas modas).
Para distribuição simples (sem agrupamento em classes), a identificação da moda é
facilitada pela simples observação do elemento que apresenta maior Frequências.

Ex17: 2, 3, 4, 3, 5, 6, 7 Mo = 3
Ex18:
Tabela 2.24
xi 243 245 248 251 307
fi 7 17 23 20 8

Moda e a frequência de maior valor: logo a Mo = 248

Para dados qualitativos: foi feito uma pesquisa de opinião com os leitores de três
revistas, denominadas A, B, e C, com o objetivo de determinar a qualidade dos seus textos. As
respostas coletadas foram tabuladas com os seguintes códigos: E (excelente), O (ótimo), B
(bom), R (regular) e P (péssimo). A frequência com que essas respostas foram fornecidas pode
ser vista a seguir. Pede-se determinar a moda de cada uma das séries.

Revista A: {P; R; B; B; O; O; O; O; E; E}
Revista B: {R; R; B; B; B; B; O; O; O; O}
Revista C: {P; P; R; R; B; B; O; O; E; E}.

Moda para dados agrupados em classes, há diversas fórmulas para o cálculo da moda.
MÉTODO DE CZUBER

O método de Czuber permite encontrar-se a moda em dados agrupados. Como era de se


esperar, a moda estará contida na classe mais frequente ou, no histograma, a coluna mais alta.
Essa classe recebe o nome de classe modal. Dentro da classe modal a moda se situará mais
próximo àquela classe adjacente que for mais consecutivamente mais alta. Analise a fórmula e
entenda sua lógica no histograma ilustrativo da Figura 1.6.

48
Mácio A Albuquerque

0.15
0.10
dfr

0.05
0.00
44 46 48 50 52 54 56

Variável

Figura 1.6: Histograma ilustrando geometricamente método de Czuber.


Fórmula de Czuber

1º passo: identifica-se à classe modal (aquela que possuir maior Frequências),


2º passo: aplica-se à fórmula,
d1
M 0  lmo  h
d1  d 2
em que:
lmo = limite inferior da classe modal,
d1 = diferença entre a Frequências da classe modal e a imediatamente anterior,
d2 = diferença entre a Frequências da classe modal e a imediatamente posterior,
h = amplitude da classe modal.
Ex19: Determinar a moda para a distribuição.
Tabela 2.25
Classes fi
0├ 1 3
1├ 2 10
2├3 17
3├4 8
4├5 5
Total 43

Ex20. O departamento de Administração possui dois auxiliares recebendo salários de 2.500,00


cada um, quatro secretários recebendo 6.000,00 cada um, um chefe do departamento com
salário de 10.000,00 e três professores recebendo 8.000,00 cada um. A média destes salários é:

Ex21. Dada à amostra de 60 árvores de dada região geográfica:

49
Mácio A Albuquerque

10 9 13 3 3 4
3 6 8 4 12 15
10 8 3 2 9 4
2 1 8 11 6 14
8 12 4 3 5 6
5 3 14 1 14 8
7 5 14 2 4 10
15 7 10 3 13 16
11 5 2 15 9 4
1 13 9 13 6 16

a) agrupar os elementos em classes;


b) construir o histograma e o polígono de Frequências;
c) calcular a média;
d) calcular a mediana;
e) calcular a moda;
f) determinar a medida que deixa 25% das árvores.

Ex22. Dada à série: 1,2; 1,4; 1,5; 1,8; 2 calcular a média a mediana e a moda populacional.
Ex23: Duas empresas contataram dez pessoas com curso superior em informática. O salário
nessas companhias é mostrado a seguir.
Tabela 2.26
A Salário 41 38 39 45 47 41 44 41 37 42
B Salário 40 23 41 50 49 32 41 29 52 58

Determinar:
a. A média.
b. A moda.
c. A mediana.
d. Compare sua resposta e faça um comentário

Ex24. Um pesquisador aborda 30 transeuntes ao acaso e pergunta-lhes a idade. O resultado é dado


abaixo:
35 26 39 25 39 22
42 40 39 22 21 40
16 32 39 21 28 39
18 37 23 14 27 44
30 32 21 15 26 43

a) resuma as informações sob forma de uma distribuição de Frequências;


b) apresente os dados na forma de um histograma;
c) calcule a média, a mediana e a moda.

50
Mácio A Albuquerque

Ex25. Os dados abaixo representam a produção da empresa Albuquerque que produz óleo entre
1998 e 2004.

Tabela 2.27 -. Produção de óleo da empresa Albuquerque entre 2003 e 2013.


Anos Quantidade (1000 t.)
1998 39,3
1999 39,1
2000 53,9
2001 65,1
2002 69,1
2003 59,5
Total
Fonte:
Construir os gráficos que melhor representam a tabela.
Obs: quando a variável é quantitativa o gráfico ideal é de: setor (pizza), barra, colunas e linha.

Medidas de separatrizes (Quartis, Percentis e Decis)

O desvio padrão é o parâmetro mais comumente utilizado para descrever a dispersão em


um conjunto de dados. Entretanto, existem outros métodos para se demonstrar a variação ou
amplitude dos valores de uma distribuição, sendo um destes métodos o que determina a
localização de valores que dividem o conjunto das observações em partes iguais. Estas medidas
de posição, também chamadas de medidas separatrizes, são o quartil, o decil e o percentil.

Quartis:

Os três quartis Q1, Q2, Q3 dividem aproximadamente um conjunto, ordenado em ordem


crescente ou decrescente de apresentação dos dados em quatro partes iguais, cada uma reunindo
25% das observações. Cerca de um quarto dos dados fica dentro ou abaixo do primeiro quartil
Q1. Cerca da metade dos dados fica dentro ou abaixo do segundo quartil Q 2 (segundo quartil é
igual à mediana do conjunto de dados). Cerca de Três quartos dos dados ficam dentro do
terceiro quartil Q3.

Observação: Q1, Q2 e Q3 referente a população e q1, q2 e q3 referente a amostra.


N referente a população e n referente a amostra

0% 25% 50% 75% 100%

│ │ │ │ │
51
Mácio A Albuquerque

Q1 Q2 Q3

Q1 = 1º quartil, deixa 25% dos elementos.


Q2 = 2º quartil, deixa 50% dos elementos.
Q3 = 3º quartil, deixa 75% dos elementos.

Primeiro quartil (Q1 ou P25)

Para um conjunto de dados que tem um número ímpar de observações, o primeiro

N 1
Q1 
quartil é expresso: Posição 4
Para um conjunto de dados que tem um número par de observações, o primeiro quartil é

N N 1

Q1  4 4
expresso: Posição 2
Segundo quartil (Q2 ou P50= md)

Para um conjunto de dados que tem um número ímpar de observações, o segundo

2( N  1) N  1
Q2  
quartil é expresso: posição 4 2
Para um conjunto de dados que tem um número par de observações, o segundo quartil é

2 N (2 N  1)

Q2  4 4
expresso: 2

Terceiro quartil (Q3 ou P75)

Para um conjunto de dados que tem um número ímpar de observações, o terceiro quartil

3( N  1)
Q3 
é expresso: posição 4
Para um conjunto de dados que tem um número par de observações, o terceiro quartil é

3 N 3( N  1)

Q3  4 4
expresso: 2

52
Mácio A Albuquerque

Ex. A pontuação nos testes de 15 empregados envolvidos em um curso de treinamento está


disposta a seguir. Obtenha o primeiro, segundo e o terceiro quartil da pontuação dos testes.

13 9 18 15 14 21 7 10 11 20 5 18 37 16 17

Fórmula para dados agrupados em classe de frequência.


 IN 
   f ant  .h
4
Qi  lQi   
FQi

N   fi
Onde
lqi = limite inferior da classe Qi, i = 1, 2, ......,9
N = tamanho da população ou n tamanho da amostra
h = amplitude da classe Qi
Fqi = Frequências da classe Qi
∑f = soma das frequências anteriores “a classe Q i
i. N
1º Passo: Calcula-se 4 .
2º Passo: Identifica-se a classe Q1 pelo Fac.
3º Passo: Aplica-se a fórmula.

Ex26. Dada a distribuição, determinar os quartis.


Tabela 2.28 -
Classes fi fac
7 ├ 17 6
17├ 27 15
27├ 37 20
37├ 47 10
47├ 57 5
Total 56

Amplitude interquartílico (AIQ)

Corresponde à diferença entre o valor do terceiro quartil (Q 3) e o valor do primeiro


quartil(Q1), equivalente aos 50% dos dados que ocupam a posição mais central da distribuição.
A amplitude interquartílica é menos afetada pelos valores extremos do que a amplitude e o
desvio padrão, o que faz desta medida a melhor escolha quando a distribuição de frequência
apresenta alto grau de assimetria.

AIQ  Q3  Q1
53
Mácio A Albuquerque

Amplitude Interquartilica  Q3  Q1

Quanto maior for o valor da amplitude que incorpora o valor 50% das observações, maior
será a dispersão dos dados. Além disso, a amplitude interquartílica não é afetada pelos valores
extremos. Exemplo

Figura 2.2 – Amplitude interquartílica

50%

25% 25%

Menor Q1 Mediana Q3 Maior

Decis: Dividem a distribuição em 10 partes iguais.

Lembrando D referente a população e d referente a amostra

Observe que a fórmula e semelhante a dos quartis.

 in 
   f ant   h
10
Di  l Di   
FDi

lDi = limite inferior da classe Di, i = 1, 2, ......,9


N = tamanho da população e n tamanho da amostra
h = amplitude da classe Di
FDi = Frequências da classe Di
∑f = soma das frequências anteriores “a classe D i

Percentis: São as medidas que dividem a amostra em 100 partes iguais.

54
Mácio A Albuquerque

 in 
   f ant   h
100
Pi  l Pi   
FPi

lPi = limite inferior da classe Pi, i = 1, 2, ......,99


N = tamanho da população e
n = tamanho da amostra
h = amplitude da classe Pi
FPi = Frequências da classe Pi
∑f = soma das frequências anteriores “a classe P i.

Ex27 determinar o 4º decil e o 72º Percentil da seguinte distribuição:


Tabela 2.29
Classe fi fac
s
7 ├ 17 6
17├ 27 15
27├ 37 20
37├ 47 10
47├ 57 5
Total 56

Exemplo

Tabela 30 - Em cinco testes realizados, um consumidor interessado em três modelos de carro


compacto obteve a seguinte relação de consumo em milhas por galão.
Teste 1 Teste 2 Teste 3 Teste 4 Teste 5
Carro A 28 32 28 30 34
Carro B 31 29 31 29 31
Carro C 29 32 28 32 30

a) Se o fabricante do carro A quiser anunciar a melhor performance de seu teste, qual será
a medida de tendência central usada para justificar a propaganda -a média, a mediana
ou a moda? justifique sua resposta.

55
Mácio A Albuquerque

b) Se o fabricante do carro B quiser anunciar a melhor performance de seu teste, qual será
a medida de tendência central usada para justificar a propaganda - a média, a mediana
ou a moda? justifique seu raciocínio.
c) Se o fabricante do carro C quiser anunciar a melhor performance de seu teste, qual será
a medida de tendência central usada para justificar a propaganda -a média, a mediana ou
a moda? justifique sua resposta.

Medidas de dispersão ou variabilidade

As medidas de dispersão são utilizadas para quantificar o grau de variabilidade dos


valores de uma amostra de dados em torno da sua média.

 Para avaliar o grau de variabilidade ou dispersão dos valores de um conjunto de


números, lançaremos mão das estatísticas denominadas medidas de dispersão. Essas nos
proporcionarão um conhecimento mais completo do fenômeno a ser analisado,
permitindo estabelecer comparações entre fenômenos da mesma natureza e mostrando
até que ponto os valores se distribuem acima ou abaixo da medida de tendência central.

 A informação fornecida pelas medidas de posição ou tendência central necessita, em


geral, ser complementada pelas medidas de dispersão. Estas servem para indicar o
quanto os dados se apresentam dispersos em torno da região central (média, mediana e a
moda). Caracterizam, portanto, o grau de variação existente na serie de valores e servem
para medir a representatividade das medidas de tendência central. As medidas de
dispersão que nos interessam são:
1. Amplitude,
2. Desvio médio,
3. Variância,
4. Desvio padrão,
5. Coeficiente de variação,

Amplitude total

É a diferença entre o maior e o menor dos valores da amostra de dados. A sua


utilização, além de mostrar o maior desvio, serve para uma avaliação preliminar dos dados,
verificando-se a possibilidade de possíveis erros nas coletas destes ou nas digitações, já que as
variáveis podem aprresentar extremos conhecidos..
Indicaremos por : → AT total = V valor máximo - V valor mínimo
56
Mácio A Albuquerque

Ex28. para a amostra 10, 12, 20, 22, 25, 33, 38.

AT= 38 – 10 → AT= 28

A utilização da amplitude total como medida de dispersão é muito limitada, pois sendo
uma medida que depende apenas dos valores extremos, é instável, não sendo afetada pela
dispersão dos valores internos.

Desvio Médio

Desde que se deseja medir a dispersão os dados em relação à média, parece interessante
a análise dos desvios em torno da média. Isto é, analisar o desvio médio absoluto de um
conjunto de dados x1, x2, ..., xn é definido por
1 n
D   xi  x
n i 1
onde as barras verticais representam o valor absoluto ou módulo.
Note que nesta definição estamos trabalhando com o desvio médio, isto é, tomamos a
média dos desvios absolutos. Isso evita interpretações equivocadas, pois, se trabalhássemos
apenas com a soma dos desvios absolutos, um conjunto com um número maior de observações
tenderia a apresentar um resultado maior para a soma devido apenas ao fato de ter mais
observações. Esta situação é ilustrada com os seguintes exemplos de dados:

Exemplo 1: (1, 3, 5)
x 3
3

 x x
i 1
1  1 3  3  3  5  3  4

Exemplo 2: (1, 2, 3, 4, 5)
x 3
3

 x x
i 1
1  1 3  2  3  3  3  4  3  5  3  6

Para dos discretos ou não agrupados

Dados brutos ou discretos Dados agrupados ou contínuos

57
Mácio A Albuquerque

Para dados amostrais DM 


 xi  x DM 
 xi  x fi
n 1 n 1

Para dados
DM 
 x x i
DM 
 x x
i fi
populacionais N N

Variância

A variância de uma variável x (S 2) mede a dispersão dos valores em torno da média.

Obtém-se S2 pela soma de quadrados dos desvios de cada valor x 1, x2,...,xn em relação a x,
dividida pelo número de graus de liberdade da amostra. Desse modo S 2 é a média dos n - 1
desvios quadráticos e independentes.
A variância é um termo ao quadrado, podendo ser um valor em cm 2 se, por exemplo, a
variável avaliada for altura em cm e, um valor kg 2, se a variável for peso em kg, a qual é dada
pela seguinte fórmula:

É possível definir a variância usando o divisor n −1 no lugar de N; essa é a diferença


entre os conceitos de variância amostral e variância populacional, que será mais relevante num
curso de inferência estatística

Para dados discretos ou valores não agrupados.


n

x 2
i  Nx 2
se for populacional ou ainda       i 1
    
N

 (x  x ) i
2

se amostral S 2  i 1
ou
n 1
n
( xi ) 2
1 n 2
s2  [ xi  i 1
]
n  1 i 1 n

58
Mácio A Albuquerque

 xi2  nx 2
S
ou ainda n 1

Para dados contínuos ou dados agrupados

 (x  x) i
2
fi
 2 i 1
se for populacional
N
ou ainda
n
( xi f i ) 2
1 n 2
2  [ xi fi  i 1
]
N i 1 N

s 2

 x f  nx
2
i i
2

quando é amostral
ou ainda n 1
n

 (x  x )
i
2
fi
S 
2 i 1
se amostral
n 1
ou ainda
n
( xi f i )2
1 n 2
S2  [ xi fi  i 1
]
n  1 i 1 n

 xi2 f i  nx 2
S
n 1
Essa forma de reescrever a variância facilita quando os cálculos têm que ser feitos à
mão ou em calculadoras menos sofisticadas, pois o número de cálculos envolvidos é menor.
Note que ela nos diz que a variância é a “média dos quadrados menos o quadrado da média”.
Exemplo

A título de ilustração, vamos calcular a variância das notas de uma turma de Estatística e
Cálculo.
Aluno 1 2 3 4 5 6 7 8 9
Estatística 6 4 5 7 8 3 5 5 7
Cálculo 7 8 9 10 6 7 8 9 5

6  4  5  7  8  3  5  5  7 50
xEst    5,56
9 9

59
Mácio A Albuquerque

7  8  9  10  6  7  8  9  5 69
xCal    7, 67
9 9

A nota média da turma de Estatística é de


xEst  5,56 e da turma de Calculo é xCal  7, 67 .

1 n  (x  x )
i
2

2  
N i 1
xi2  x 2  i 1
N
Usando a fórmula ou para calcular a variância, tem-se
que

62  42  52  7 2  82  32  52  52  7 2
 2
Est   (5,56) 2  2, 24
9
2
7 2  82  92  102  62  7 2  82  9 2  5
 2
Cal   (7, 67)2  2, 22
9

Propriedades da variância:

 Multiplicando-se todos os valores de uma variável por uma constante, a variância do


conjunto fica multiplicada pelo quadrado dessa constante;
Se k for uma constante, então
se x = y. k, então, V(x) = V(y) k2

 Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a


variância não se altera.
Se  k for uma constante, então, x = y + k, então V(x) = V(y)

Var ( X  k )  Var (y)


Observação:
Esta propriedade é intuitivamente evidente, porque somar uma constante a um
resultado   não altera sua variabilidade.

ATENÇÃO: “Desvantagem” do uso da variância

(x i  x) , a unidade
No cálculo da variância, quando elevamos ao quadrado a diferença
de medida da série fica também elevada ao quadrado.
Portanto, a variância é dada sempre no quadrado da unidade de medida da série.

Se os dados são expressos em metros, a variância é expressa em metros quadrados.

60
Mácio A Albuquerque

Em algumas situações, a unidade de medida da variância nem faz sentido. É o caso, por
exemplo, em que os dados são expressos em litros. A variância será expressa em litros
quadrados.

Portanto, o valor da variância não pode ser comparado diretamente com os dados da
série, ou seja: variância não tem interpretação.

Passos para calcular a variância


1. Calcular a média da distribuição (amostra);
2. Calcular o desvio de cada um dos dados em relação à média aritmética;
3. Calcular o quadrado de cada desvio;
4. Obter a soma dos quadrados dos desvios (SQ);
5. Dividir a SQ pelo valor de n - 1.
Obs. a variância deve ser expressada na mesma unidade dos dados, ao quadrado.
Desvio padrão

Observando-se a fórmula original para o cálculo da variância, nota-se que é uma soma
de quadrados. Dessa forma, se a unidade da variância for, por exemplo, metro (m) terá como
resultado metro ao quadrado (m 2). Para se ter a unidade original, necessita-se definir outra
medida de dispersão, que é a raiz quadrada da variância, logo teremos o desvio padrão que é a
raiz quadrada da variância. Assim temos:

  variância , se for populacional.

S  variância , se for amostral.

Resumindo: para o cálculo do desvio padrão deve-se primeiramente determinar o valor da


variância e, em seguida, extrair a raiz quadrada desse resultado.
Exemplo:
Uma empresa agropecuária deseja conhecer qual de suas espécies de galinha poedeira
apresenta maior variabilidade nas medidas do comprimento e do peso dos ovos. Esta
característica é fundamental para o planejamento das embalagens do produto. O quadro mostra
a média e o desvio padrão dos comprimentos e dos pesos de ovos das duas espécies. Qual
espécie apresenta maior variação em relação às medidas?

Quadro 2- Medidas de peso e do comprimento dos ovos de duas espécies de galinha poedeira.

61
Mácio A Albuquerque

Espécie Variável xs CV% Resultado

Peso (g) 55, 4  9,1 9,1


x100  16, 43%
55, 4
A A espécie A
Comprimento(cm 4,9  1,1 1,1 apresenta menor
x100  22, 45% variação no peso
) 4, 9

Peso (g) 68, 2  13, 6 13, 6


x100  19, 95%
68,1
B A espécie B
apresenta menor
Comprimento(cm 6, 4  0,8 0,8 variação no
x100  12, 50%
) 6, 4 comprimento

Interpretando os resultados, podemos afirmar que existe mais dispersão relativa


(variação) para o comprimento dos ovos da espécie A quando comparados aos ovos da espécie
B. Por outro lado, a espécie B apresenta maior variação em relação aos pesos dos ovos.

De qualquer maneira, é interessante notar que o coeficiente de variação é muito útil


quando os dados comparados estão em diferentes unidades de medição; ou, se na mesma
unidade, as médias a serem comparadas são bastante diferentes.

Ex29. Dada a amostra de 7 pessoas de uma escola pública na cidade de campina Grande que
possui computador em sua casa no ano de 2013: 2, 3, 4, 5, 7, 10, 12.

a) Qual é a amplitude total?


b) Determinar o desvio padrão.
c) Calcular o desvio médio.

Ex30. Salários anuais: Amostras dos salários anuais, em milhares de dólares, para professores
de informática das escolas elementar pública e privada estão relacionadas a seguir.

Professores da rede pública: 38,6 38,1 38,7 36,8 34,8 35,9 39,9 36,2
Professores da rede privada: 21,8 18,4 20,3 17,6 19,7 18,3 19,4 20,8

a) Obtenha a amplitude total, a variância e o desvio padrão de cada conjunto de dados.


b) Interprete os resultados no contexto da vida real.

62
Mácio A Albuquerque

Ex31. Calcular o desvio médio, a variância e o desvio padrão da seguinte distribuição


populacional.

Tabela 2.31 -

xi fi
5 2
7 3
8 5
9 4
11 2

Ex32. Foi retirada uma amostra dos alunos de uma escola no bairro do catolé, que foi sorteada
também o bairro e a escola no ano de 2000. Encontra a média, o desvio médio, o desvio padrão
e a amplitude total.
Tabela 2.32 -
Classes fi
2├ 4 2
4├ 6 4
6├ 8 7
8 ├ 10 4
10├ 12 3
Total 20

Coeficiente de Variação (CV)

O Coeficiente de variação é uma medida de variabilidade padronizada, ou seja, expressa


percentualmente a variação dos dados em relação à média.
Quando as medidas de duas ou mais variáveis são expressas em unidades diferentes
como peso/altura, capacidade/comprimento, etc. não se pode compara-las através do desvio
padrão, por este ser uma medida absoluta de variabilidade. Usa-se então o CV, que é uma
medida relativa, que expressa o desvio padrão como uma porcentagem da média aritmética.
Quanto mais próximo de zero, mais homogênea é a distribuição. Quanto mais distante, mais
dispersas.

O Coeficiente de variação mede a dispersão em relação à média. É a razão entre o


desvio padrão e a média. O resultado obtido dessa operação é multiplicado por 100, para que o
coeficiente de variação seja dado em porcentagem.


CV   100
x se for populacional

63
Mácio A Albuquerque

S
CV   100
x se for amostral

Obs: o coeficiente de variação é expresso em porcentagens.

A partir do coeficiente de variação pode-se avaliar a homogeneidade do conjunto de


dados e, consequentemente, se a média é uma boa medida para representar estes dados. É
utilizado, também, para comparar conjuntos com unidades de medidas distintas.
Sua grande vantagem é permitir a comparação de grandezas diferentes, que estão em
unidades diferentes (por exemplo: o que é mais variável, o ganho de peso de suínos ou a altura
de plantas de milho?).
Uma desvantagem do coeficiente de variação é que ele deixa de ser útil quando a média
está próxima de zero. Uma média muito próxima de zero pode inflacionar o CV.

Por outro lado, ele possui sérias restrições de uso e inspira cuidados. Primeiro, quando a
média da variável aleatória em questão tende a zero, o CV tende ao infinito (o que não faz
sentido prático). Segundo, de acordo com as propriedades da média a do desvio padrão, a adição
de uma constante às observações altera a média da nova variável aleatória, mas não altera seu
desvio padrão, ou seja, por meio de algumas transformações de variáveis o CV pode ser
criminosamente manipulado.
Um coeficiente de variação superior a 50% sugere alta dispersão o que indica
heterogeneidade dos dados. Quanto maior for este valor, menos representativa será a média.
Neste caso, opta-se pela mediana ou moda, não existindo uma regra prática para a escolha de
uma destas medidas. O pesquisador, com sua experiência, é que deverá decidir por uma ou
outra. Por outro lado, quanto mais próximo de zero, mais homogêneo é o conjunto de dados e
mais representativa será sua média.

Ex33. Na empresa Albuquerque, o salário médio dos homens é de 4.000,00, com desvio padrão
de 1.500,00, e o das mulheres é em média de 3.000,00, com desvio padrão de 1.200,00. Calcule
o coeficiente de variação e diga qual o que apresentou maior dispersão.

Medidas de Assimetria

Denomina-se assimetria o grau de afastamento da simetria de uma distribuição de


dados. Numa distribuição simétrica, as frequências mais altas ocorrem nos valores mais centrais

64
Mácio A Albuquerque

de uma variável X, diminuindo gradualmente e de maneira simétrica em relação aos valores


extremos e originando, aproximadamente, um mesmo número de valores menores e maiores que
a média, cujo valor é semelhante aos da mediana e da moda.
Numa distribuição assimétrica negativa (inclinada para a esquerda) existirão mais
valores da amostra maiores que a média, tendo a curva da distribuição uma cauda mais longa
em relação aos valores menores que a média, cujo valor é menor que a mediana, que é menor
que a moda. Neste caso, a média não se localiza no centro dos dados e a frequência diminui
gradualmente em relação aos valores menores e, de forma mais abrupta, aos valores maiores
que a média.
Numa distribuição assimétrica positiva (inclinada para a direita) existirão mais valores
da amostra menores que a média, tendo a curva da distribuição uma cauda longa em relação aos
valores maiores que a média, cujo valor é maior que a mediana, que é maior que a moda. Neste
caso, a média não se localiza no centro dos dados e a frequência diminui gradualmente em
relação aos valores maiores e, de forma mais abrupta, aos valores menores que a média.

Obs: média = a mediana = a moda

Existem várias fórmulas para o calculo do coeficiente de assimetria, dentre elas são úteis:

Primeiro coeficiente de Pearson


  Mo x  Mo
AS  AS 
 se for populacional ou S se for amostral
Segundo coeficiente de Pearson (Coeficiente de Bowley)

As 
 Q3  Q2    Q2  Q1 
Q3  Q1
Q3  Q2  Q2  Q1
AS 
Q3  Q1
Q3  2Q2  Q1
AS 
Q3  Q1
Q3  Q1  2Q2
AS 
Q3  Q1

Se:

As = 0 diz-se que a distribuição é simétrica


As > 0 diz-se que a distribuição é a assimétrica positiva (à direita)
As < 0 diz-se que a distribuição é a assimétrica negativa (à esquerda)

65
Mácio A Albuquerque

Pode-se utilizar qualquer uma das fórmulas para identificar o grau de assimetria de distribuição.

Medidas de achatamento ou curtose (O coeficiente de assimetria de Bowley)

Curtose nada mais é do que o grau de achatamento da curva de uma distribuição de


Frequências. Isto considerando que uma curva pode apresentar-se mais achatada ou mais afilada
em relação a uma curva considerada curva padrão ou curva normal.
A curtose ou achatamento é mais uma medida com a finalidade de complementar a
caracterização da dispersão em uma distribuição. Esta medida quantifica a concentração ou
dispersão dos valores de um conjunto de dados em relação às medidas de tendência central em
uma distribuição de frequências.

Denomina-se Curtose o grau de achatamento da distribuição.

Para medir o grau de curtose utiliza-se o coeficiente:

Q3  Q1
K
2( P90  P10 )

Se K = 0,263, diz-se que à distribuição de Frequências é mesocurtica.


Se K > 0,263, diz-se que à distribuição de Frequências é platicútica.
Se K < 0,263, diz-se que à distribuição de Frequências é leptocúrtica.

Exemplo: considere o conjunto de dados abaixo relacionados, calcule o coeficiente de curtose.

66
Mácio A Albuquerque

Q1  4, 25
Q3  8, 65
P10  1, 60
P90  8,30
8, 65  4, 25 4, 40
K   0,328
2(8,30  1, 60) 13, 40
K  0,328  0, 263 distribuição platicútica

BOX PLOT OU DESENHO ESQUEMÁTICO


Gráfico Box Plot (box-and-whisker plot)

O gráfico Box Plot (ou desenho esquemático) é uma análise gráfica que utiliza cinco
medidas estatísticas: valor mínimo, valor máximo, mediana ou segundo quartil, primeiro e
terceiro quartil da variável quantitativa. Este conjunto de medidas oferece a ideia da posição,
dispersão, assimetria, caudas e dados discrepantes. A posição central é dada pela mediana e a
dispersão pelo desvio interquartílico dq= Q 3 - Q1. As posições relativas de Q1 , Q2 e Q3 dão uma
noção da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que
vão do retângulo aos valores atípicos.
Um outlier ou ponto discrepante é um valor que se localiza distante de quase todos os
outros pontos da distribuição. A distância a partir da qual considera-se um valor como
discrepante é aquela que supera 1,5dq. De maneira geral, são considerados outliers todos os
valores inferiores Li = Q1 - 1,5 (Q3 - Q1) ou os superiores a Ls = Q 3+ 1,5 (Q3 - Q1).

A construção de um box-plot exige que tenhamos as seguintes informações:


valor mínimo;
primeiro quartil;
mediana = 2 º quartil;
terceiro quartil; e
valor máximo.
Como a mediana revela uma tendência central, ao passo que os quartis indicam a
dispersão dos dados (através do calculo do intervalo interquartil), os box-plot tem a vantagem
de não serem tão sensíveis a valores extremos como outras medidas baseadas na media e no
desvio padrão.
Um dos aspectos mais convenientes do uso dos box-plot e a possibilidade de
comparação entre dois ou mais conjuntos de dados.

67
Mácio A Albuquerque

Figura 3.6: Interpretação do gráfico de caixas (boxplot)

Exemplo

Os dados abaixo se referem ao tempo de espera, em minutos, dos usuários de um lava-


jato de automóveis. O proprietário deseja conhecer algumas informações a respeito do tempo de
espera de seus clientes, tal como: quanto tempo demora uma lavagem? Dentro de qual intervalo
de tempo à maioria das lavagens são completas?

Tempo de espera 88 77 70 80 74 82 85 96 76 67 80 75 73 93 72

Os valores devem ser ordenados de forma crescente

Tempo de espera 67 70 72 73 74 75 76 77 80 80 82 85 88 93 96

Então:

68
Mácio A Albuquerque

Menor valor = 67 minutos

Primeiro quartil (Q1) = 73 minutos

Segundo quartil = Mediana (Md) = 77 minutos

Terceiro quartil (Q3) = 85 minutos

Maior valor = 96 minutos

Passo 1 - Criar uma escala apropriada ao longo do eixo horizontal.

Passo 2 - Desenhar um retângulo cujo comprimento inicia em Q 1 (73 minutos) e termina em Q3


(85 minutos)

Passo 3 - No interior de retângulo, traçar uma linha vertical no valor que corresponde à mediana
(77 minutos).

Passo 4 - Traçar uma linha horizontal que se estende do retângulo ao menor valor (67 minutos),
e outra que se estende do retângulo ao maior valor (96 minutos).

tempo=c(88, 77, 70, 80, 74, 82, 85, 96, 76, 67, 80, 75, 73, 93, 72)

summary(tempo)

Min. 1st Qu. Median Mean 3rd Qu. Max.

67.0 73.5 77.0 79.2 83.5 96.0

69
Mácio A Albuquerque

Figura 111- Distribuição de frequência dos tempos de espera dos clientes de um lava-jato

Interpretando o gráfico

O box plot mostra que 50% das lavagens ocorrem no espaço de tempo compreendido
entre 73 min e 85 min. A amplitude interquartílica equivale a 12 minutos. A Figura 111
também mostra que a distribuição é inclinada positivamente (para a direita). Neste caso, duas
informações indicam esta inclinação: primeira, a linha à direita do retângulo, que se estende de
Q3 (85 min) até o maior valor (96 min), é maior que a linha situada à esquerda do retângulo, a
qual se estende de Q1 (73 min) até o menor valor (67 min); em outras palavras, 25% dos dados,
maiores que o terceiro quartil, apresentam uma amplitude maior que os 25% dos dados que são
menores que o primeiro quartil. A segunda indicação é que a mediana não está posicionada no
centro do retângulo. Ela encontra-se visivelmente deslocada para a esquerda. Ou seja, a
distância entre Q1 (73 min) e a mediana (77 min) é menor que a distância entre a mediana e Q 3
(85 min). Embora essas distâncias sejam diferentes, o número de lavagens entre elas é igual para
ambas; isto é, o número de lavagens entre 73 min e 77 min é igual ao número de lavagens entre
77 min e 85 min.

Detectando valores outliers

Em um conjunto de dados, um valor outlier corresponde a uma medida inconsistente ou


discrepante, que apresenta um valor relativamente maior ou menor aos demais valores da
distribuição. A detecção de sua presença é sempre muito importante, uma vez que pode causar
distorções nos parâmetros de uma amostra, em especial, na média aritmética, sendo a sua
ocorrência mais frequente quando a distribuição de frequência dos dados, da amostra ou da
população, apresenta um alto grau de inclinação, com tendência a incluir valores extremamente
grandes ou pequenos em relação aos demais valores da distribuição.

As causas da ocorrência de um valor outlier podem ser:

Medidas incorretas (invalidas) - Esta situação costuma ocorrer quando o pesquisador utiliza
equipamentos descalibrados ou defeituosos para a medição de suas variáveis; ou quando a
leitura do dado observado é incorreta, por desatenção do observador; ou quando o valor de uma
observação é registrado incorretamente no banco de dados.

Medidas de fonte diferente - Ocorre quando a medida, mesmo que corretamente mensurada,
pertence a uma população diferente daquela de onde os dados em estudo foram retirados.

Medidas raras - Nesta condição, a medida foi registrada corretamente e pertence à mesma
população de onde foi retirada toda a amostra, mas é resultante de um evento raro.

70
Mácio A Albuquerque

Portanto, qualquer que seja a causa do valor outlier, o bom senso manda que ele seja
retirado do conjunto de dados, e, se possível, substituído por uma nova observação. Neste
sentido, dois são os métodos utilizados para que se possam detectar valores outliers: o primeiro
é o método gráfico, que utiliza o box blot; e o segundo é o método numérico, que utiliza os
valores z (z-escores). Geralmente, ambos produzem resultados idênticos.

Ex34 Os dados a seguir apresentam a quantidade (em milhares) de passageiros transportados em


diferentes épocas do ano por uma grande empresa de transporte urbano. Com base nos números
apresentados, pede-se obter: a) o desvio padrão; b) dizer que tipo de curva correspondente à
distribuição amostral.

Tabela 2.33 -
Classes fi
3├ 8 10
8├ 13 12
13├ 18 18
18├ 23 5
Total

Ex35 Um pesquisador da Albuquerque informática aborda 30 transeuntes ao acaso e pergunta-


lhes a idade. O resultado é dado abaixo.
3 26 39 25 39 22
5
4 40 39 22 21 40
2
1 32 39 21 28 39
6
1 37 23 14 27 44
8
3 32 21 15 26 43
0
Determinar:
1. a média, a mediana, e a moda ,
2. desvio padrão,
3. coeficiente de variação,
4. coeficiente de assimetria,
5. coeficiente de Curtose,
6. Apresentar os dados na forma de um histograma

Ex36. - Completar os dados que falta e calcular o desvio padrão e o coeficiente de variação.
Tabela 2.34 -
xi fi fac

71
Mácio A Albuquerque

1 4
2 8
3 30
4 27
5 15
6 72
7 11 83
8 93
Total

Ex37. - Distribuição de frequências das taxas de mortalidade infantil dos municípios da


microrregião do cariri da Paraíba, 2014, calcule a média, a mediana e a moda e o desvio padrão
e explique os resultados.
Tabela 2.35 -
Taxa de Frequências de
mortalidade famílias
Infantil
0 ├ 10 1
10├ 20 10
20├ 30 15
30├ 40 7
40├ 50 0
50├ 60 0
60├ 70 1
Total 34

Ex38 - Dada amostra: 2, 3, 4, 5, 7, 10, 12.

a) qual a amplitude total,


b) determinar o desvio médio,
c) calcule a variância,
d) calcule a mediana e a moda,
e) calcule o coeficiente de variação,
f) calcule o coeficiente de assimetria.

Ex39 - O que são medidas de dispersão?

Ex40 - Se somarmos a todos os elementos de uma série um número, o que acontece com a média
e a variância da série?
Ex4 1- Qual o objetivo da Estatística
Ex42 - Defina Estatística.
Ex43 - Os dados abaixo apresentam os coeficientes de liquidez obtidos da análise de balanço em
50 indústrias:

72
Mácio A Albuquerque

0,4 2,6 3,3 4,5 5,3 6,9 8,4 9,5 11,8 16,0
0,8 2,7 3,8 4,5 5,5 7,4 8,5 10,0 12,4 16,2
2,3 2,7 3,9 4,6 5,6 7,5 8,7 10,5 12,9 17,8
2,3 2,9 4,4 4,8 6,3 7,6 9,0 10,6 13,1 18,8
2,4 3,2 4,4 5,0 6,3 7,9 9,2 11,6 15,6 20,1

e) Esboce o histograma e o polígono de Frequências;


f) A distribuição de Frequências percentual simples;
g) A Frequências acumulada crescente e decrescente;
h) O ponto médio da terceira classe;
i) Uma medida que deixe 5% e 95%.

Ex44 - Como podem ser apresentados ou expostos os dados?

Ex45 – Na loja X, foram efetuados os seguintes serviços, abaixo descriminados: 85 manutenções,


65 restaurações de placas, 22 vendas e 30 aplicações de fluído. Faça uma tabela com estes dados
e represente-a num gráfico de setores e colunas.
Ex46. - Idade dos alunos de uma escola pública, na Paraíba, em 1999.
Tabela2.36 - Idade dos alunos de uma escola pública, na Paraíba, em 1999.
Idade Frequências
2 ├ 4 03
4 ├ 6 05
6 ├ 8 10
8 ├ 10 06
10├ 12 02
Total 26
Fonte: secretaria de ensino.

a) Construir o histograma e o polígono de Frequências;


b) Frequências relativa simples e percentual;
c) Frequências acumulada da Frequências simples e da relativa;
d) O ponto médio;
e) Qual a porcentagem dos alunos que tiveram idade menor do 8 e maior do 6.

Ex47 - As taxas de juros recebidos por 10 ações durante um certo período foram (medidas em
porcentagem) 2,5; 2,6; 2,6; 2,6; 2,5; 2,5; 2,6; 2,5; 2,6; 2,6. Calcule a média, a mediana, a
moda e o desvio padrão.

Ex48 - Cronometrando o tempo para várias provas de uma gincana automobilística,


encontramos:

73
Mácio A Albuquerque

Equipe I: 40 provas
Tempo médio: 45 segundos.
Variância: 400 segundos ao quadrado

Equipe II: Tempo: 20 40 50 80


Nº de provas 10 15 30 5
a) Qual o coeficiente de variação relativo à equipe I.
b) Qual o desvio padrão relativo à equipe II.
c) Qual a equipe que apresentou resultados mais homogêneos?

Ex49 - O salário médio mensal pago aos funcionários da Empresa Albuquerque Ltda, foi de R$
199 no primeiro semestre de 2000. Sabendo-se que no início de agosto a média havia subido
para R$ 217, pede-se calcular:

a) o volume total gasto com o pagamento dos funcionários no mês de julho;

b) a média mensal de gastos com pessoal que a empresa deverá ter entre agosto e dezembro para
que a média mensal do ano de 2000 atinja R$ 180.

EX50 O capital da Empresa Albuquerque Ltda, é formado pelo aporte dos acionistas, por
financiamento de longo prazo e pela emissão de debêntures. Cada tipo de capital possui um
custo anual diferente dado por uma taxa de juros anual, conforme o quadro:

Tabela 2.37 -
Fonte de capital Participação em Taxa de juros
R$
Acionistas 2400 12%
Financiamento de longo 1200 8%
prazo
Debêntures 400 14%

Calcular a taxa média do capital da empresa.

Ex51 O supermercado Albuquerque anuncia uma liquidação em que o preço de determinado bem
de consumo diminuiu em 400%. Pede-se comentar esse anúncio, indicando se o mesmo está
certo ou errado.

74
Mácio A Albuquerque

Ex52 Na Empresa Albuquerque Ltda, foi observada a distribuição de funcionários do setor de


serviços gerais com relação ao salário semanal, conforme mostra a distribuição de frequências:
Tabela 2.38 -
Tabela Salário Semanal (Em Nº de funcionários
R$)
25 ┤ 30 10
30 ┤ 35 20
35 ┤ 40 30
40 ┤ 45 15
45 ┤ 50 40
50 ┤55 35
Total 150
Pede-se:
a) o salário médio semanal dos funcionários;
b) o desvio padrão, o coeficiente de variação e a assimetria dos salário semanais dos
funcionários;
c) se o empresário divide os funcionários em três categorias, com relação ao salário.

Ex53- Uma distribuição de Frequências simétrica unimodal apresentou os seguintes resultados:


Moda de Czuber................18
Amplitude de Classe...........4
Pede-se determinar o limite o limite da classe modal.

Solução:
Δ1
M o  Lo  xh
Sabemos que a moda de Czuber é dada por:
Δ1  Δ 2

Como a distribuição é simétrica unimodal temos Δ1 = Δ 2 .

1 1
Mo  Lo  x h  18  L o  x 4 L o 16
2 2
Ex54 Em um grupo de 600 hóspedes do Hotel Albuquerque & cia Ltda., tem-se os seguintes
valores com relação ao tempo de permanência no hotel:

Média 9 dias;
1 º Quartil 5 dias
3º Quartil 15 dias
Coeficiente de variação 20%
Pede-se:
a) quantos hóspedes permanecem mais de 15 dias;

75
Mácio A Albuquerque

b) quantos hóspedes permanecem entre 5 e 15 dias;


c) o desvio-padrão para o tempo de permanência;
d) supondo que os hóspedes permanecessem mais dois dias, calcular a nova média, o
desvio-padrão e o coeficiente de variação.

Ex55. Considerem a seguinte amostra de um conjunto de dados.

100 200 300 400 500 600 700 800 900 1000

a) Obtenha a média e o desvio padrão. a ) x  550, s  302,765


b) Multipliquem cada entrada por 10. Obtenha a média e o desvio padrão para os novos
dados.
c) Dividam os dados originais por 10. Obtenha a média e o desvio padrão para os novos
dados.
d) Adicionem 10 dos dados originais. Obtenham a média e o desvio padrão para os novos
dados.
e) O que vocês podem concluir dos resultados de (a), (b), (c) e (d)?

Ex 56 - A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre foi


baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades,
decidiu-se fazer uma campanha de divulgação. Para verificar se a campanha foi ou não
eficiente, fez-se um levantamento da idade dos candidatos à última promoção, e os resultados
estão na tabela a seguir.

Tabela 2.39 -
Idade Frequência Porcentagem
18|- 20 18 36
20|- 22 12 24
22|- 26 10 20
26|- 30 8 16
30|- 36 2 4
Total 50 100

a) Baseado-se nesses resultado, você diria que a campanha produzir algum efeito. (Isto é,
aumentou a idade média)

76
Mácio A Albuquerque

b) Um outro pesquisador decidiu usar a seguinte regre: se a diferença x  22 fosse maior

que o valor
2 desvio padrão(X)/ n , então a campanha teria surtido efeito. Qual a
conclusão dele, baseados nos dados?
c) Calcule o coeficiente de variação.
Ex 56- Considerando a distribuição de frequência abaixo, apresentada de forma incompleta,
sabendo-se não haver valores iguais aos extremos dos intervalos de classe.
Classes 0 - 10 10 - 20 20 - 30 30 - 40
Frequências 3 5 6 Y

Entretanto, antes de se perder o registro de Y, e trabalhando sempre com os dados agrupados, a


média da distribuição foi calculada, sendo igual a 25. Apesar disso é correto afirmar que:
a) a mediana pertence a 3ª classe;
b) a moda da distribuição de frequência é igual a 25;
c) a distribuição de frequência é assimétrica à direita;
d) o primeiro quartil ocupa a 1ª classe de frequências.

Ex 57 - Observando um grupo de 100 turistas, divididos em cinco classes de idade a partir de 20


anos, com intervalos de classe de 10 anos e limites inferiores fechados, constatou-se que a idade
mediana foi de 44 anos e o 90º percentil igual a 63,75 anos. Sabendo-se que as frequências das
duas primeiras classes perfizeram 10 e 20 turistas, respectivamente, pede-se determinar a idade
média desses turistas.

6326
x x  63, 26
100
Ex 58 - Um órgão do governo do estado está interessado em determinar padrões sobre o
investimento em educação, por habitante, realizado pelas prefeituras. De um levantamento de
dez cidades, foram obtidos os valores da tabela abaixo:
Tabela 2.39 -
Cidade A B C D E F G H I J
Investimento 2 16 1 8 1 15 1 16 1 18
0 4 9 4 9

Nesse caso, será considerado como investimento básico a média final das observações,
calculadas da seguinte maneira:
a) Obtém-se uma média inicial.

77
Mácio A Albuquerque

b) Eliminam-se do conjunto aquelas observações que forem superiores à média inicial


mais duas vezes o desvio padrão, ou inferiores à média inicial menos duas vezes o
desvio padrão.
c) Calcula-se a média final com o novo conjunto de observações.
Qual o investimento básico que você daria como resposta?

Ex 59 - O departamento Pessoal de uma certa empresa faz um levantamento dos salários dos
120 funcionários do setor administrativo, obtendo os resultados (em salários mínimos) da tabela
abaixo.
a) esboce o histograma
b) calcule a média, a variância e o desvio padrão.
c) calcule o 1º quartil e a mediana
Tabela 2.40 -
Faixa salarial Frequência relativa
0|-- 2 0,25
2|-- 4 0,40
4|-- 6 0,20
6|-- 8 0,15
d) se for concedido um aumento de 100% para os 120 funcionários, haverá alteração na média?
E na variância? justifique sua resposta.
e) se for concedido um abono de dois salários mínimo para todos os funcionários haverá
alteração na média? E na variância? Justifique sua resposta.

Ex 60 - Considere os dados referentes ao consumo de água, em m 3, de 75 contas da CAGEPA.

32 40 22 11 34 40 16 26 23 31 27 10 38 17 13
45 25 10 18 23 35 22 30 14 18 20 13 24 35 29
33 48 20 12 31 39 17 58 19 16 12 21 15 12 20
51 12 19 15 41 29 25 13 23 32 14 27 43 37 21
28 37 26 44 11 53 38 46 17 36 28 49 56 19 11

(a) agrupar os dados em uma distribuição de frequência, em intervalos fechados à direita e


com amplitude 10. Utilize o limite inferior da distribuição igual a zero.
(b) construa o correspondente histograma de frequências relativas.
(c) determine as frequências simples e acumuladas ( absolutas e relativas);
(d) calcule as medidas de tendência central : moda, média e mediana. Interprete. encontre
as medidas de variabilidade: amplitude, variância absoluta, desvio padrão e coeficiente
de variação e comente os resultados.

78
Mácio A Albuquerque

Ex 61 - Os 20 alunos de uma turma especial de Estatística obtiveram as notas abaixo.


Determine:
(a) a amplitude total das notas; R. 22
(b) o desvio padrão das notas; R. 6,13677
(c) a variância absoluta das notas; R. 37,66
(d) o coeficiente de variação; R. 0.0707
(e) a proporção de alunos com notas maiores que 90; R. 0,3
(f) a média, sabendo que o professor acrescentou 5 pontos para cada aluno; R. 91,8
(g) o desvio padrão, quando foi adicionado 5 pontos. R. 6,13677

84 88 78 80 89 94 95 77 81 90
83 87 91 83 92 90 92 77 86 99

Ex62 -As informações abaixo indicam o número de acidentes ocorridos com 70 motoristas de
uma empresa de ônibus nos últimos 5 anos:
Nº DE ACIDENTES 0 1 2 3 4 5 6 7
Nº DE MOTORISTAS 15 11 20 9 6 5 3 1

(a) Determine o número de motoristas com menos de 1 acidente.


(b) Determine o percentual de motoristas com pelo menos 3 acidentes
(c) Determine o percentual de motoristas com no máximo 2 acidentes
(d) Qual o número total de acidentes ocorrido no período?
(e) Qual a média de acidentes? E a moda de acidentes? E a mediana?

Ex 63 - Tabela.37 - Informações sobre estado civil, grau de instrução, número de filhos, salário
(expresso como fração do salário mínimo (medida em anos meses) e procedência de 36
empregados da secção de orçamento da Companhia Misto.

Nº Nº Reg.
Est. civil Grau instr filhos Salário Idade Proc. Ano ingr.
1 solt fundamental 0 4,00 26 int 95
2 cas fundamental 1 4,56 32 cap 96
3 cas fundamental 2 5,25 36 cap 93
4 solt médio 0 5,73 20 outro 96
5 solt fundamental 0 6,26 40 outro 93
6 cas fundamental 0 6,66 28 int 94
7 solt fundamental 0 6,86 41 int 92
8 solt fundamental 0 7,39 43 cap 92
9 cas médio 1 7,44 34 cap 97
10 solt médio 0 7,59 23 outro 97
11 cas médio 2 8,12 33 int 98
79
Mácio A Albuquerque

12 solt fundamental 0 8,46 27 cap 95


13 solt médio 0 8,74 37 outro 89
14 cas fundamental 3 8,95 44 outro 94
15 cas médio 0 9,13 30 int 95
16 solt médio 0 9,35 38 outro 95
17 cas médio 1 9,77 31 cap 92
18 cas fundamental 2 9,80 39 outro 96
19 solt superior 0 10,53 25 int 96
20 solt médio 0 10,76 37 int 90
21 cas médio 1 11,06 30 outro 94
22 solt médio 0 11,59 34 cap 96
23 solt fundamental 0 12,00 41 outro 90
24 cas superior 0 12,79 26 outro 98
25 cas médio 2 13,23 32 int 95
26 cas médio 2 13,60 35 outro 95
27 solt fundamental 0 13,85 46 outro 95
28 cas médio 0 14,69 29 int 96
29 cas médio 5 14,71 40 int 94
30 cas médio 2 15,99 35 cap 92
31 solt superior 0 16,22 31 outro 97
32 cas médio 1 16,61 36 int 91
33 cas superior 3 17,26 43 cap 95
34 solt superior 0 18,75 33 cap 96
35 cas médio 2 19,40 48 cap 95
36 cas superior 3 23,30 42 int 91

Ex 64 - A Albuquerque Indústria e Comércio, desejando melhorar o nível de seus funcionários


em cargos de chefia, montou um curso experimental e indicou 25 funcionários para a primeira
turma. Os dados referentes à seção a que pertencem, notas e graus obtidos no curso estão na
tabela a seguir. Como havia dúvidas quanto à adoção de um único critério de avaliação, cada
instrutor adotou seu próprio sistema de aferição. Usando dados daquela tabela, responda às
questões:
a) Após observar atentamente cada variável, e com o intuito de resumi-las, como você
identificaria (qualitativamente ordinal ou nominal e quantitativa discreta ou contínua)
cada uma das 9 variáveis listadas?
b) Compare e indique as diferenças existentes entre as distribuições das variáveis Direito,
Política e Estatística.
c) Construa o histograma para as notas da variável Redação
d) Construa a distribuição de frequência da variável Metodologia e faça um gráfico para
indicar essa distribuição.
e) como é o aproveitamento dos funcionários na disciplina Estatística, segundo a seção a
que eles pertencem?
Func Seção(* Administr Direit Redaçã Estatís Inglê Metodol Polític Economi
. ) . o o t s . a a
1 P 8,0 9,0 8,6 9,0 B A 9,0 8,5
80
Mácio A Albuquerque

2 P 8,0 9,0 7,0 9,0 B C 6,5 8,0


3 P 8,0 9,0 8,0 8,0 D B 9,0 8,5
4 P 6,0 9,0 8,6 8,0 D C 6,0 8,5
5 P 8,0 9,0 8,0 9,0 A A 6,5 9,0
6 P 8,0 9,0 8,5 10,0 B A 6,5 9,5
7 P 8,0 9,0 8,2 8,0 D C 9,0 7,0
8 T 10,0 9,0 7,5 8,0 B C 6,0 8,5
9 T 8,0 9,0 9,4 9,0 B B 10,0 8,0
10 T 10,0 9,0 7,9 8,0 B C 9,0 7,5
11 T 8,0 9,0 8,6 10,0 C B 10,0 8,5
12 T 8,0 9,0 8,3 7,0 D B 6,5 8,0
13 T 6,0 9,0 7,0 7,0 B C 6,0 8,5
14 T 10,0 9,0 8,6 9,0 A B 10,0 7,5
15 V 8,0 9,0 8,6 9,0 C B 10,0 7,0
16 V 8,0 9,0 9,5 7,0 A A 9,0 7,5
17 V 8,0 9,0 6,3 8,0 D C 10,0 7,5
18 V 6,0 9,0 7,6 9,0 C C 6,0 8,5
19 V 6,0 9,0 6,8 4,0 D C 6,0 9,5
20 V 6,0 9,0 7,5 7,0 C B 6,0 8,5
21 V 8,0 9,0 7,7 7,0 D B 6,5 8,0
22 V 6,0 9,0 8,7 8,0 C A 6,0 9,0
23 V 8,0 9,0 7,3 10,0 C C 9,0 7,0
24 V 8,0 9,0 8,5 9,0 A A 6,5 9,0
25 V 8,0 9,0 7,0 9,0 B A 9,0 8,5
(*) (P = departamento de pessoal, T = seção técnica e V = seção de vendas)
Trabalhando com o Excel

Inserir função estatística

Fornece o número de valores X1, X2, ...., Xn da amostra de dados.


Exemplos:
=CONT.NÚM(D2:D37) contando a quantidade de elementos na amostra
Média aritmética

=MÉDIA(D2:D37) fornece o valor da média aritmética da amostra de dados

Média geométrica

=MÉDIA.GEOMÉTRICA(D2:D37) fornece o valor da média geométrica da amostra de dados

Média harmônica

=MÉDIA.HARMÔNICA(D2:D37) fornece o valor da média harmônica da amostra de dados

81
Mácio A Albuquerque

Mediana

MED (X1:Xn)

=MED(D2:D37) fornece o valor da mediana da amostra de dados

Moda
Modo (X1:Xn)

Fornece o valor da moda da amostra de dados. Se a amostra de dados tiver mais de uma
moda, esta função reconhecerá apenas uma moda; se ela for amodal, a função indicará um valor
de erro, dado por #N/D. Caso haja interesse nesta medida, seria importante comprovar o valor
ou os valores das modas, utilizando-se da opção "ordem e percentil" da ferramenta de análise de
dados. Com base nesta opção, pode-se observar a existência de mais de uma moda, cujos
valores serão aqueles que possuem a mesma frequência máxima.
=MODO(D2:D37)
Quartil

QUARTIL (X1:Xn;quartil)
Fornece o valor x da amostra de dados que corresponde ao quartil definido. Se quartil =
0, o resultado é o menor valor da amostra de dados. Se quartil = 1, o resultado é o valor do
primeiro quartil (Q1). se quartil =2, o resultado é o do segundo quartil (Q 2 = Md). Se quartil = 3,
o resultado é o valor do terceiro quartil (Q 3). Se quartil = 4, o resultado é o maior valor da
amostra.

=QUARTIL(D2:D37;0)
=QUARTIL(D2:D37;1)
=QUARTIL(D2:D37;2)
=QUARTIL(D2:D37;3)
=QUARTIL(D2:D37;4)

Percentil

PERCENTIL(X1:Xn;percentil)

Fornece o valor x da amostra de dados que corresponde ao percentil definido. o


percentil é expresso pelos valores o,o1 (P1), 0,02 (P2), 0,03(P3), ... , 0,97 (P97), 0,98 (P98), 0,99
82
Mácio A Albuquerque

(P99), correspondendo respectivamente, a 1, 2, 3, ..., 97, 98 e 99% dos valores em ordem


crescente.
Neste caso, o percentil correspondeente à porcentagem dos dados da amostra, cujos
valores são menores do que o valor x. se percentil = 0, o resultado é o menor valor da amostra
de dados e, se percentil = 1, o resultado é o maior valor da amostra.

= PERCENTIL(D2:D37;0)
= PERCENTIL(D2:D37;0,1)
= PERCENTIL(D2:D37;0,25)
= PERCENTIL(D2:D37;0,30)
= PERCENTIL(D2:D37;0,5)
= PERCENTIL(D2:D37;0,75)
= PERCENTIL(D2:D37;1)
ORDEM.PORCENTUAL(X1:Xn; x)

Fornece a posição do valor x como um percentual da amostra de dados, cujos valores


são considerados em ordem crescente.

= ORDEM.PERCENTUAL(D2:D37;151)
= ORDEM.PERCENTUAL(D2:D37;161,9)
= ORDEM.PERCENTUAL(D2:D37;167)
= ORDEM.PERCENTUAL(D2:D37;168)
= ORDEM.PERCENTUAL(D2:D37;170,5)
= ORDEM.PERCENTUAL(D2:D37;171)
= ORDEM.PERCENTUAL(D2:D37;176)
= ORDEM.PERCENTUAL(D2:D37;177)
= ORDEM.PERCENTUAL(D2:D37;190)

ORDEM (x; X1:Xn) ou ORDEM (x; X1:Xn;0)

Fornece a posição do valor x da amostra de dados classificadas, em ordem crescente.


Quando existirem valores repetidos do valor x especificado, a função informará a posição do
primeiro que encontrar.

= ORDEM(D3;D2:D37)
= ORDEM(D3;D2:D37;0)
83
Mácio A Albuquerque

= ORDEM(D12;D2:D37;0)
= ORDEM(D2;D2:D37;0)

ORDEM (x; X1:Xn;1)

Fornece a posição do valor Xi da amostra de dados classificadas, em ordem crescente.


Quando existirem valores repetidos do valor x especificado, a função informará a posição do
primeiro que encontrar.

= ORDEM(D3;D2:D37;1)
= ORDEM(D12;D2:D37;1)
= ORDEM(D2;D2:D37;1)

MÁXIMO (X1:Xn)
Fornece o maior valor da amostra de dados.

=MÁXIMO(D2:D37)

MÍNIMO (X1:Xn)

Fornece o menor valor da amostra de dados.

=MÍNIMO(D2:D37)

MÁXIMO (X1:Xn) - MÍNIMO (X1:Xn)

Fornece o valor da amplitude total da amostra de dados.

=MÁXIMO(D2:D37)-MÍNIMO(D2:D37)

Variância

VAR (X1:Xn)

Fornece o valor da variância da amostra de dados.


=VAR(D2:D37)
Desvio padrão
84
Mácio A Albuquerque

DESVPAD (X1:Xn)

Fornece o valor do desvio padrão da amostra de dados.

= DESVPAD(D2:D37)

Coeficiente de variação

100 x DESVPAD (X1:Xn) /MÉDIA(X1:Xn)

Fornece o valor do coeficiente de variação da amostra de dados, expresso em porcentagem.

=100*DESVPAD(D2:D37) /MÉDIA(D2:D37)
Erro-padrão

DESVPAD (X1:Xn) /RAIZ(CONT.NÚM(X1:Xn))

Fornece o valor do erro-padrão da média da amostra de dados.

=DESVPAD(D2:D37) /RAIZ(CONT.NÚM(D2:D37))

Coeficiente de assimetria
DISTORÇÃO (X1:Xn)

Fornece o valor do coeficiente de assimetria da média da amostra de dados.

=DISTORÇÃO(D2:D37)

Coeficiente de curtose

CURT (X1:Xn)

Fornece o valor do coeficiente de curtose da média da amostra de dados.

=CURT(D2:D37)

85
Mácio A Albuquerque

Ferramenta de análise de dados - estatística descritiva

Intervalo de entrada: D1:D37


agrupados por colunas
Rótulos na primeira linha: (Sim) o intervalo inclui o nome da variável de dados
Nível de confiabilidade para média: 95%
Enésimo maior: 1
Enésimo menor: 1
Intervalo de saída: F1
Resumo estatística: sim

As principais medidas de tendência central e de dispersão podem ser calculadas de uma


só vez com o auxílio do EXCEL, mediante o uso da ferramenta Estatística descritiva. Vejamos
os passos a serem seguidos:

Passo 1: após terem sidos digitados os valores na planilha, vá à Barra de Menus e selecione
Ferramentas;

Passo 2: selecione Análise de dados..., na última linha de Ferramentas. Caso não apareça a
opção Análise de dados..., clique em Suplementos...; abre-se outra tela, na qual você deve clicar
em cima dos quadrados referentes a Ferramentas de análise e Ferramentas de análise - VBA,
depois no botão OK. Retorne a Ferramentas e clique em Análise de dados...;

86
Mácio A Albuquerque

Passo 3: após aparecer o quadro Análise de dados (com o subtítulo Ferramentas de análise),
clique em Estatística descritiva, que ficará selecionada em cor diferente das demais opções;

Passo 4: clique no botão OK, à direita, quando aparece o quadro Estatística descritiva.
A ferramenta Estatística descritiva cria um relatório para os valores colocados na planilha,
fornecendo informações sobre a tendência central e a variabilidade dos valores selecionados,
gerando duas colunas de informação: a da esquerda com os títulos das estatísticas e a coluna da
direita com os resultados. Para os conceitos estudados até agora, a utilização dessa ferramenta é
a seguinte:
1) no bloco Entrada:

a) Intervalo de entrada - digite as células onde se encontram os valores que você


deseja analisar. No nosso exemplo-teste, D2:D37;
b) Agrupado por - selecione uma das opções Colunas ou Linhas. No nosso
exemplo-teste, Colunas;

2) no bloco Opções de saída: escolha Nova planilha, para que os resultados apareçam em uma
nova planilha na mesma pasta de trabalho da planilha atual; digite EXEMPLO 1 (ou outro nome
de sua preferência) na caixa de texto para dar nome a essa nova planilha ou no Intervalo de
saída na mesma planilha: Intervalo de saída: F5

3) clique na opção Resumo estatístico, para que o Excel produza, na planilha de resultados, as
principais medidas estudadas até então.

87
Mácio A Albuquerque

Salário

11,1222
Média 2
0,76457
Erro padrão 6
Mediana 10,165
Modo #N/D
4,58745
Desvio padrão 8
21,0447
Variância da amostra 7
Curtose -0,01404
0,65322
Assimetria 1
Intervalo 19,3
Mínimo 4
Máximo 23,3
Soma 400,4
Contagem 36
Maior(1) 23,3
Menor(1) 4
1,55217
Nível de confiança(95,0%) 2

Observações

 Informando-se o valor (1) para o enésimo maior e para o enésimo menor, tem-se,
respectivamente, o maior e o menor valor da amostra de dados. Se for informado o
valor (2), o maior valor considerado será o segundo maior valor da amostra de dados e o
menor valor considerado será o segundo menor valor da amostra de dados, e assim por
diante.
 O intervalo 19,3 refere-se ao valor da AT.
 O resultado de 1,552172, com relação ao nível de confiança de 95%, refere-se à

Sx
t 
expressão 2 n do intervalo de confiança para a média populacional de X quando a

t
variância é desconhecida, cuja valor de 2 se refere ao valor tabelado de t a 5% de
significância, que deixa 2,5% nas extremidades das caudas à direita e à esquerda da
distribuição de t, sendo n-1 = 99 graus de liberdade.

Ferramenta de análise de dados - ordem e percentil

Intervalo de entrada: D1:D37


88
Mácio A Albuquerque

agrupados por: colunas


Rótulos na primeira linha: (Sim)
Intervalo de saída: F5

Observações
a. Na coluna denominada "ponto", está registrado o número do indivíduo que corresponde
ao valor da variável.
b. Na coluna, está registrado o valor da variável em ordem decrescente.
c. Na coluna "ordem", esta registrada a ordem decrescente de cada valor da amostra de
dados. De acordo com os valores desta coluna, pode-se concluir se amostra de dados
possui uma ou mais modas.
d. Na coluna "porcentagem", estão registrado os mesmos valores fornecidos pela função
ORDEM.PORCENTUAL. Estes valores poderão ser referentes ao valor exato ou
aproximado do percentil de cada valor ordenado de forma crescente, quando forem
aproximadas para os respectivos valores de percentis.

Inserir função estatística - frequência

FREQUÊNCIA(X1:Xn; referência)

Fornece a quantidade de valores da amostra de dados que são menores ou iguais ao


valor de referência informado, ou seja, determina a frequência acumulada que inclui o valor de
referência. Com esta função pode-se construir a tabela de distribuição de frequências
acumuladas de classes com intervalos abertos a esquerda e fechados á direita (LI i ─│LSi ),
sendo as frequências destas classes obtidas pelas diferenças das frequências acumuladas entre as
classes vizinhas.
Para obter a frequência acumulada de determinada classe que inclua somente os valores
de uma amostra de dados menores do que o valor de referência, deve-se informar neste caso um
valor menor do que o valor do LS da referida classe e que seja maior ou igual ao maior valor
desta classe. Desse modo, pode-se construir a tabela de distribuição de frequência acumuladas
de classes com intervalos fechados à esquerdas e abertos a direita (LI i ─│LSi), sendo as
frequências destas classes obtidas pela diferenças das frequências acumuladas entre as classes
vizinhas.

Ferramenta de análise de dados - histograma

Intervalo de entrada: D1:D37


89
Mácio A Albuquerque

Intervalos de bloco: H2:H6


Rótulos na primeira linha: (Sim)
Intervalo de saída: I12
Pareto (histograma classificado):
Porcentagem cumulativa: sim
Resultado do gráfico: sim

90

Você também pode gostar