Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTATÍSTICA
PROFESSOR:
Mácio Augusto de Albuquerque
C Grande/PB
Mácio A Albuquerque
1. Introdução
Para muitas pessoas, a palavra Estatística traz à lembrança a ideia de números; e, nesse
sentido de informação numérica, as estatísticas já fazem parte de nossas vidas. Ouvimos na
televisão, e aprendemos, que duas em cada três donas de casa preferem determinada marca de
sabão em pó. Comparamos taxas de inflação ou quantidade de chuva nos mais diferentes locais
nas mais diferentes épocas, porque os jornais nos dão informações. Discutimos desemprego ou
fome na África, porque a mídia nos mostra números.
Estatística não é, porém, simples coleção de números, embora as medidas ou
observações na forma numérica sejam sua base. No sentido acadêmico, Estatística é a ciência
que trata da coleta, apuração, classificação e análise dos dados.
A palavra estatística deriva da expressão status, em latim, e significa o ”estudo do
estado”. Foi pensada pelos ingleses, no século XVI, como uma ciência política, destinada a
descrever características de um estado ou país, tais como população, área, riqueza e recursos
naturais, envolvendo compilações de dados e gráficos. Em 1662, John Graunt publicou informes
estatísticos sobre nascimentos e mortes. A partir daí deu se início ao desenvolvimento da
probabilidade e estatística, sobretudo a partir do século XVII, com o estudo das grandes
epidemias que assolavam o mundo, dando ensejo ao desenvolvimento da demografia. Em cada
século seguinte mais e mais áreas foram se incorporando ao conjunto das que faziam uso da
estatística. Na última década, com a grande revolução da informática, houve um avanço
significativo das áreas de probabilidade e estatística, com desenvolvimento de softwares mais
poderosos, deixando à disposição do pesquisador muitas ferramentas alternativas ao seu
trabalho. Hoje em dia a maior parte das decisões tomadas em quase todas as áreas de atividade
humana moderna (por exemplo, avaliação de novos tratamentos médicos e de novos terminais
de atendimento bancário, do planejamento de pesquisas científicas, de estratégias de marketing
e investimento, para citar algumas) tem suas bases na estatística - definida, a grosso modo,
como a coleta, análise e interpretação de dados, ou de forma mais ampla, como a ”ciência da
tomada de decisão perante incertezas”. Como já foi dito anteriormente, a Estatística engloba um
grande leque de ferramentas de análise. Com finalidade didática iremos dividir a estatística em
dois grandes grupos:
2
Mácio A Albuquerque
O que é Estatística
Objetivo
Dentro dessa ideia, podemos considerar a ciência Estatística como dividida basicamente
em duas partes:
a) Estatística Descritiva:
Este tipo de análise tem a finalidade de descrever uma amostra de dados por meio de
medidas de posição, de dispersão, de assimetria, de curtose e da apresentação dos resultados em
tabelas ou gráficos, sem fazer nenhuma inferência sobre a população dos dados.
1. Coleta de dados;
2. Organização e classificação destes dados;
3. Apresentação através de gráficos e tabelas;
4. Calculo de coeficientes (estatísticos), que permitem descrever resumidamente os
fenômenos.
3
Mácio A Albuquerque
Estatística Indutiva ou Inferencial: é o ramo que trata de tirar conclusões sobre uma
população a partir de uma amostra. A ferramenta básica no estudo da estatística inferencial é a
probabilidade.
Pode-se notar, conforme o exposto, que a ciência Estatística é aplicável a qualquer ramo
do conhecimento onde se manipulem dados experimentais. Assim, a Física, a Química, a
Engenharia, a Economia, a Medicina, a Biologia, as Ciências sociais, as Ciências
Administrativas, etc., tendem cada vez mais a servir-se dos métodos estatísticos como
ferramenta de trabalho, daí sua grande e crescente importância.
Em estatística utilizaremos extensivamente os termos população e amostra. Assim,
definiremos esses termos no contexto da estatística:
Com os dados de algumas famílias do total de famílias que moram no Brasil, ou seja,
com uma amostra dessa população, pode-se determinar a estatística renda média da
amostra. Baseados nessa estatística, é possível fazer suposições sobre um parâmetro
dessa população, nesse caso, a renda das famílias brasileiras.
4
Mácio A Albuquerque
A estatística pode ajudar o usuário a tirar conclusões a partir daquilo que é observado.
Pode-se por exemplo, obter informações sobre o que está acontecendo no setor de
produção de uma empresa especializada em produzir caixas, para isso, é preciso coletar
organizar e resumir informações, isto é, verificar quantas caixas estão boas, quantas foram
estragadas, enfim, é preciso descrever a situação.
Além de descrever a situação, é necessário entender por que ela está acontecendo. Para
tal, faz-se essencial analisar algumas dessas caixas, identificar suas características e, a partir daí,
avaliar o que está acontecendo com todas elas, ou seja, é preciso determinar as propriedades de
uma parte para estimar o que acontece com o todo.
2 ESTATÍSTICA DESCRITIVA
5
Mácio A Albuquerque
5. Apuração dos dados: consiste em resumir os dados, através de sua contagem e agrupamento.
É um trabalho de condensação e de tabulação dos dados, que chegam ao analista de forma
desorganizada, tornando impossível a tarefa de apreender todo o seu significado pela simples
leitura. Nos dias atuais esta apuração tornou-se sinônimo de organização de base de dados, que
é realizada em computadores.
6
Mácio A Albuquerque
(a) Apresentação Tabular: apresentação numérica dos dados. As tabelas têm a vantagem de
conseguir expor, sinteticamente, e em um só local, os resultados sobre determinado assunto, de
modo a se obter uma visão global mais rápida daquilo que se pretende analisar.
7. Análise e Interpretação dos Dados: O interesse maior consiste em tirar conclusões que
auxiliem o pesquisador a resolver seu problema. A análise dos dados estatísticos está ligada
essencialmente ao cálculo de medidas, cuja finalidade principal é descrever o fenômeno. Assim,
o conjunto de dados a ser analisado pode ser expresso por números-resumos, as estatísticas, que
evidenciam características particulares desse conjunto. O significado exato de cada um desses
valores será explicado posteriormente.
7
Mácio A Albuquerque
Ex: Idade, Altura, Peso, Número de nascidos vivos, População, Nº de espigas por planta de
milho.
A variável será quantitativa quando seus valores forem expressos em números. Pode ser
subdivida em:
8
Mácio A Albuquerque
Ex: Sexo, Nível de escolaridade, Cor da pele, Estada civil, Tipo sanguíneo.
1. Nominal - caracteriza-se por dados que consistem apenas em nomes, rótulos ou categorias.
Os dados não podem ser dispostos segundo um esquema ordenado.
2. Ordinal - envolvem dados que podem ser dispostos em alguma ordem, mas as diferenças
entre os valores dos dados não podem ser determinadas ou não tem sentido.
Ex: Nível de escolaridade: Analfabeto, ensino fundamental, ensino médio e ensino superior.
Categoria socioeconômica: classe alta, classe média ou classe baixa.
• Série Histórica (Temporal) - É aquela em que o elemento que serve como base de
classificação é a fração do tempo, como o dia, o mês, o ano, o século, etc.
muda o tempo, permanecendo fixo o local e o fato.
Ex1: Taxa de mortalidade infantil nos últimos 10 anos na cidade do Campina Grande -Pb.
Ex2: Tabela 2.1 -Produção de fertilizantes fosfatados no Brasil, nos últimos 5 anos, quantidade.
Anos Quantidade (t)
2009 3.570,115
2100 4.504,201
2011 5.448,835
2012 4.373,226
2013 4.024,813
Ex3: A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC
durante o ano de 20XY.
• Série Geográfica - É aquela que apresenta como elemento variável somente o local (fator
geográfico).
Ex1: Tabela 2.3 A produção de ovos no Brasil, em 2013, segundo os Estados produtores.
Região Quantidade (1.000 dúzias)
Norte 66.092
Nordeste 356.810
Sudeste 937.463
Sul 485.098
Centro-Oeste 118.468
Ex2 – A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC
durante o ano de 20XY, nas respectivas regiões de atuação.
Tabela 2.4 – Faturamento (R$ 1000000) da empresa ABC (20XY), por região.
Região Grande Interior Grande Interio Grande Interior Piauí Total
J. Pessoa da PB Recife r fortaleza do CE
de PE
Faturament 2,75 2,58 1,82 1,42 0,80 0,75 0,70 10,77
o
10
Mácio A Albuquerque
• Série Específica - É aquela série que apresenta como elemento ou caráter variável o fato (ou
espécie), permanecendo fixos a época e o local.
Ex1: Os alunos de uma Faculdade, em determinado ano, classificados segundo o tipo sanguíneo.
Ex3- A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC
durante o ano de 20XY, especificado por produto.
Tabela 2.6 – Faturamento (R$ 1000000) da empresa ABC (20XY), por produto.
Produto Rolamento Mancal Óleo Junta Válvula Retentor Total
Faturament 3,48 1,84 1,75 1,45 1,25 1,00 10,77
o
• Série Mista - Refere-se às séries que são combinações de outros tipos de séries já estudadas.
Quantidades dos telefones instalados no Brasil, segundo as Unidades da Federação e o ano.
Tabela 2.7 - Telefones instalados - 2011-2013
Região 2011 2012 2013
Norte 373.312 303.712 257.741
Nordeste 1.440.531 1.367.006 1200.467
Sudeste 8.435.308 7.892.409 5.673.660
Sul 2.106.145 1.192.762 883.272
Centro-Oeste 803.013 839.401 544.075
Total 13.158.309
Fonte: IBGE
Ex2 – O quadro a seguir mostra o faturamento da empresa ABC por produto e região, isto é, uma
combinação de uma série geográfica e uma série específica.
11
Mácio A Albuquerque
A seção 3.32 da NBR 14724:2011 define a Tabela como sendo uma "forma não
discursiva de apresentar informações das quais o dado numérico se destaca como informação
central" (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2011, p. 4). Em relação ao
Quadro, é apresentado na seção 4.2.1.9, da mesma NBR, que o mesmo trata-se de uma
Ilustração, porém nada define sobre sua forma e, ao analisar o exemplo contido na aludida
seção, deixa margem para interpretação que vai de encontro à definição da Tabela. Observe o
exemplo apresentado na seção 4.2.1.9 da NBR 14724:2011 (ASSOCIAÇÃO BRASILEIRA DE
NORMAS TÉCNICAS, 2011, p. 8)
Exemplo
Observe que as laterais estão fechadas diferenciando, em sua forma, da tabela que possui as
laterais abertas.
A seção 5.9 da NBR 14724:2011, que trata sobre as regras gerais para apresentação de
Trabalhos Acadêmicos, relata que as Tabelas "devem ser citadas no texto, inseridas o mais
próximo possível do trecho a que se referem e padronizadas conforme o Instituto Brasileiro de
Geografia e Estatística (IBGE)" (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS,
2011, p. 11).
12
Mácio A Albuquerque
• Título - é obrigatório. Deve conter a designação do fato observado, o local e a época em que
foi registrado. Deve ser claro e conciso. É colocado na parte superior da tabela.
• Notas - são colocadas abaixo da fonte, se necessárias. Contém informações gerais destinadas a
conceituar ou esclarecer o conteúdo das tabelas.
• Chamadas - também colocadas no rodapé (se necessárias).
Algumas observações fazem-se importantes na elaboração de uma tabela. São elas:
Tabela 1 Número e percentagem de insetos capturados em domicílio na Escola Agrícola da UEPB, Paraiba, tipo de
captura, março a junho e setembro de 2014
Tipo de captura Manual Armadilha tipo New Jersey2 Total
Espécies Nº % Nº % Nº
Aedes scapularis 108 6.8 1 1.2 109
Anopheles evansae 191 12.1 12 14.8 203
Anopheles triannulatus 48 3.0 - - 48
Culex pipiens quinquefasciatus 105 6.6 21 25.9 126
Culex (Culex) sp. 61 3.9 5 6.2 66
Culex (Melanoconion) sp. 160 10.1 5 6.2 165
Mansonia chrysonotum 139 8.8 13 16.0 152
Mansonia titillans 689 43.7 19 23.5 708
Psorophora confinnis 51* 3.2 - - 51
Outras espécies 3 29 1.8 5 6.2 34
Total 1581 100 81 100 1662
Fonte: Forattini, O.P. et. Al., Ëestudos ecológicos sobre mosquitos Culicidae no sistema da Serra, Brasil, 2 – Observações no ambiente
domiciliar”,
1 30 dias Rev. Saúde Públ., Paraíba, 12: 476:96, 2004.
de captura * Inclui 2 insetos capturados
2 9 dias decaptura quando deixavam o domicílio
3Aedes serratus Coluna
Aedeomyia squamipennis
Indicadora Notas
Anopheles albitarsis
Anopheles mediopunctatus
Fonte Título
Anopheles oswaldoi 14
Culex lygrus
Culex (Microculex) sp.
Limatus flavisetosus Cabeçalho
Mansonia juxtamansonia
Mansonia venezuelensis
Chamadas
Mácio A Albuquerque
1. Dados Brutos - É o conjunto dos dados numéricos obtidos após a coleta dos dados.
Ex1: Idade dos alunos do curso de Educação Física UEPB, no ano de 2014.
24 23 22 28 35 21 23 33 34 24
21 25 36 26 22 30 32 25 26 33
34 21 31 25 31 26 25 35 33 31
Ex2: Suponha-se, uma empresa que criou um índice para medir a produtividade de seus
funcionários. Em uma amostra de 30 funcionários, foram obtidos os seguintes escores para cada
um:
24 23 22 28 25 21 23 23 34 24
21 25 26 26 22 30 22 25 26 23
24 21 21 25 21 26 25 25 23 21
2. Rol - É o arranjo dos dados brutos em uma determinada ordem crescente ou decrescente.
21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31
-32 - 33 - 33 - 33 - 34 - 34 - 35 - 35 – 36
Apresenta vantagens concretas em relação aos dados brutos. Ela torna possível
visualizar, de forma bem ampla, as variações dos dados, uma vez que os valores extremos são
percebidos de imediato. Mas, a análise com este tipo de disposição começa a se complicar
quando o número de observações tende a crescer.
Exercício:
Foi retirada uma amostra referente aos pesos de 30 alunos do curso de Educação ciência
contábeis do 2º ano, período diurno, UEPB 2017.
52,6 71,3 60,4 56,8 75,9 60,8 42,4 49,7 73,2 68,4
16
Mácio A Albuquerque
51,4 50,8 45,2 63,9 74,2 65,2 82,8 41,3 58,7 62,1
46,9 72,3 57,8 65,4 47,2 51,3 59,8 44,7 60,3 56,7
3. Amplitude total ou ”range” (A) - É a diferença entre o maior e o menor valor observado da
variável em estudo.
4. Frequências absoluta simples (fi) - É o número de vezes que o elemento aparece na amostra
ou o número de elementos pertencentes a uma classe.
5. Frequências total (ft) - É a soma das frequências simples absolutas de todos os elementos
observados. Para condensarmos melhor os dados, é aconselhável a elaboração de distribuições
de Frequências. Uma tabela com distribuição de Frequências é uma tabela onde se procura fazer
um arranjo dos valores e suas respectivas frequências, onde a Frequências de determinado valor
será dado pelo número de observações ou repetições de um valor ou de modalidade. As tabelas
de frequências podem representar tantos valores individuais como valores agrupados em
classes. Essas tabelas podem ser classificadas em:
Tabela 2.7 - Idade dos alunos do curso de Educação Física da UEPB, no ano de 2014.
Idade(Xi) fi
21 3
22 2
23 2
24 1
25 4
26 3
28 1
30 1
17
Mácio A Albuquerque
31 3
32 1
33 3
34 3
35 2
36 1
Total (fi) 30
Fonte: Pro reitoria de graduação.
Tabela: Índice de produtividade de seus funcionários
Índice de Número de
produtividad funcionários
e
21 6
22 3
23 5
24 4
25 6
26 4
28 1
30 1
Total 30
Este tipo de tabela não é aconselhável quando estamos trabalhando com variáveis que
apresentam uma grande quantidade de valores distintos, uma vez que a tabela poderá ficar muito
extensa, dificultando, além de sua elaboração, as análises e conclusões dos dados pesquisados.
Note que a soma das frequências absolutas simples é sempre igual ao número total de valores
observados.
Comentário
Não há uma regra rígida para construir uma distribuição de frequências por classes de
valores no entanto, alguns procedimentos podem facilitar essa distribuição. São eles: número de
classes, amplitudes, limites, ponto médio, rol e distribuição por classes de valores.
Muitas vezes com o objetivo de resumir os dados originais em uma distribuição de
frequências, utilizaremos os dados agrupados em classes e não mais individualmente. Classe
18
Mácio A Albuquerque
pode ser definida como sendo os subintervalos da Amplitude Total de uma variável (grupo de
valores).
Quando a variável objeto de estudo for contínua geralmente será conveniente agrupar os
valores observados em classes. Se, por outro lado, a variável for discreta e o número de valores
representativos dessa variável for muito grande, recomenda-se o agrupamento dos dados em
classes. Nesse último caso, o procedimento visa a evitar certos inconvenientes, como:
19
Mácio A Albuquerque
ficarão tão comprimidos que pouca informação poderá ser extraída desta tabela. Se, por outro
lado, forem utilizadas muitas classes, haverá algumas com Frequências nula ou muito pequena,
apresentando uma distribuição irregular e prejudicial à interpretação do fenômeno.
Para determinar o número de classes há diversos métodos. Nós aprenderemos duas soluções:
n k
30 6
45 6
40 6
50 7
100 10
200 14
500 22
1000 31
(b) Fórmula de Sturges: K = 1 + 3,3 log (n), k 1 =1 + 3.3*log10, k2 =1 + 3.3*log2 (n) onde n é o
número de observações (amostra)
Mesmo tendo outros critérios de determinação do número de classes, o que se deve ter
em mente é que a escolha dependerá sobretudo da natureza dos dados e da unidade de medida
em que eles se encontram, e não somente de regras muitas vezes arbitrárias e pouco
20
Mácio A Albuquerque
3.2. Limites de Classe - Os limites de classe são seus valores extremos. No exemplo anterior de
distribuição de frequências, o valor 21 é denominado limite inferior da primeira classe,
enquanto o valor 24 é denominado limite superior da primeira classe.
3.4. Pontos Médios ou Centrais da Classe (xi) - É a média aritmética simples entre o limite
superior e o inferior de uma mesma classe.
(limite superior da classe) (limite inferior da classe)
Ponto médio
2
Para obter os pontos médios das demais classes, basta acrescentar ao ponto médio da
classe precedente a amplitude do intervalo de classe.
Frequências Simples:
21
Mácio A Albuquerque
2. Frequências Acumuladas:
O objetivo das frequências acumuladas é de permitir avaliar qual parcela da Frequências total
estará associada ao valor da variável menor que um dado valor.
É utilizada toda vez que se procura saber quantas observações existem até uma determinada
classe ou valor individual.
Classes fi fac
8,3├ 9,8 5 5
9,8├ 11,3 7 12
11,3├ 12,8 9 21
12,3├ 14,3 6 27
14,3├ 14,8 3 30
Total 30
22
Mácio A Albuquerque
Frequências Acumulada Decrescente (Fad) – coloca-se a soma das frequências simples é vai
subtraindo o valor de cada Frequências em cada classe.
Classes fi fad
8,3├ 9,8 5 30
9,8├ 11,3 7 25
11,3├ 12,8 9 18
12,3├ 14,3 6 9
14,3├ 14,8 3 3
Total 30
frequência da classe
frs=
tamanho da amostra
Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por
100:
fi
frs 100
fi
23
Mácio A Albuquerque
1ª classe f1 f1
f i
2ª classe f2 f2
f i
3ª classe f3 f3
f i
4ª classe f4 f4
f i
5ª classe f5 f5
f i
Total
f i
1,00
Classes fi frs
8,3├ 9,8 5 5/30
9,8├ 11,3 7 7/30
11,3├ 12,8 9 9/30
12,3├ 14,3 6 6/30
14,3├ 14,8 3 3/30
Total 30 1,00
Exemplo8: Com as
frequências apresentadas, calcule a Frequências relativa, acumulado crescente e decrescente e
Tabela 2.15 - Idade dos alunos do curso de Administração da UEPB, no ano de 2012.
Idade Nº de
alunos(fi)
21├ 24 7
24├ 27 8
27├ 30 1
30├ 33 5
33├ 36 9
Total 30
Fonte: Secretaria do curso
Exercício
1- Considere os dados abaixo referentes ao consumo de água, em m 3, de 75 contas da CAGEPA:
32 6 22 11 34 40 16 26 23 31 27 10 38 17 13
45 25 50 18 23 35 22 30 14 18 20 13 24 35 29
33 48 20 12 31 39 17 58 19 16 12 21 15 12 20
51 12 19 15 41 29 25 13 23 32 14 27 43 37 21
28 37 26 44 11 53 38 46 17 36 28 49 56 19 11
24
Mácio A Albuquerque
(a) Organize os dados numa distribuição de frequência com 9 classes de amplitudes iguais.
(b) A partir da distribuição de frequência construída no item anterior, determine e interprete:
a frequência da frequência da 3ª classe, da frequência relativa da quarta classe e da
frequência acumulada da quinta classe.
ideia preliminar mais satisfatória da concentração e dispersão dos valores, uma vez que através
deles os dados estatísticos se apresentam em termos de grandezas visualmente interpretáveis.
Um gráfico deve ser autoexplicativo, isto é, deve conter todos os elementos necessários
ao seu entendimento. Com isso, o usuário fica dispensado da obrigação de recorrer ao texto ou à
tabela que deu origem àquele gráfico. Devem ser simples, atrair a atenção do leitor e inspirar
confiança. Todo gráfico deve apresentar um título - descrição exata do fato observado, do local
e da época de referência; escala e numeração adequadas - representação precisa das grandezas a
serem mostradas; legenda - informação necessária à interpretação do gráfico.
2. Diagramas - são gráficos em que a magnitude das frequências é representada por certa
mensuração de uma determinada figura geométrica. São os gráficos mais usados na
representação de séries estatísticas e se apresentam através de uma grande variedade de
tipos.
• Tipos de Diagramas:
Ex. O conjunto de dados abaixo (Tabela 2.16) que representa o número de filho (dos
funcionários) da empresa Albuquerque.
26
Mácio A Albuquerque
Tabela 2.16
Nº de filhos Frequências
0 15
1 10
2 13
3 6
4 3
5 3
Total 50
Fonte:
20
15
10
5
0
1 2 3 4 5 6
Figura 2.1
(b)Gráficos Pictóricos (Pictogramas) - São gráficos construídos a partir de figuras ou
conjunto de figuras representativas da intensidade ou das modalidades do fenômeno. São
gráficos muito comuns em jornais e revistas, tendo como principal vantagem o fato de
despertar a atenção do público leitor.
a) Gráficos em Barras - Têm por finalidade comparar grandezas, por meio de retângulos
de igual largura e alturas proporcionais às respectivas grandezas. Cada barra representa
a intensidade de uma modalidade ou atributo.
Ex.
Tabela 2.17 - Produção da região ”XY” - 1990
Produtos Toneladas (em milhares)
Soja 349
Trigo 98
Fumo 107
Arroz 49
Total 603
Fonte: Ministério da Agricultura
27
Mácio A Albuquerque
Arroz
Fuma
Produtos
Trigo
Soja
0 200 400
Toneladas
Figura 2.2
150
100
50
0
Produtos
Figura 2.3
28
Mácio A Albuquerque
400
300
baixo
200
alto
100
0
sim Não
Figura 2.4
(f) Gráficos em Setores ou pizza - São utilizados para representar valores absolutos ou
porcentagens complementares.
Utilizados quando se pretende comparar cada valor da série com o total.
8%
Soja
18% Trigo
58% Fuma
16%
Arroz
Figura 2.5
A seguir podemos encontrar alguns tipos de diagramas, sendo que o Box-Plot será
explicado mais adiante.
29
Mácio A Albuquerque
60
50
Número de casos
40
30
20
10
0
3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5
Ácido úrico (mg/dl)
Figura 2.6
#Sintaxe:
hist(dados,nclass=k,) #k é o número de classes do histograma
#Exemplo:
dados <- c(96,96,102,102,102,104,104,108,
126,126,128,128,140,156,160,160,164,170,
115,121,118,142,145,145,149,112,152,144,
122,121,133,134,109,108,107,148,162,96)
par(mfrow=c(1,2))
hist(dados,nclass=12)
hist(dados,nclass=4, col="red")
hist(dados)
30
Mácio A Albuquerque
2. Polígonos de Frequências - Unindo por linhas retas os pontos médios das bases
superiores dos retângulos do histograma, obtém-se outra representação dos dados,
denominada polígono de frequências.
60
Figura
50
2.7
Número de casos
40
Maiores informações sobre esses e outros
30
tipos de gráfico serão fornecidas em aula
20 pelo professor.
10 Exercício
0 3 -Abaixo são mostrados os saldos
3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5
médios de 48 contas de clientes do BB
Ácido úrico (mg/dl)
Novo S.A. (dados brutos em US$ 1,00).
450 500 150 1000 250 275 550 500 225 475 150 450 950 300 800 275
600 750 375 650 150 500 1000 700 475 900 800 275 600 750 375 650
150 500 225 250 150 120 250 360 230 500 350 375 470 600 1030 270
Considere os dados da Tabela 2.2, onde temos informações sobre a turma, o sexo, a
matéria predileta (Português, Matemática, História, Geografia ou Ciências) no 2º grau e a nota
(número de questões certas) em um teste de múltipla escolha com 10 questões de matemática,
ministrado no primeiro dia de aula dos calouros de Estatística. As três primeiras variáveis são
qualitativas, enquanto nota é uma variável quantitativa discreta.
Como podemos resumir essas informações de uma forma mais clara e objetiva? Afinal,
o que nos interessa é saber quantas mulheres e quantos homens há em cada turma, quantas
pessoas tiraram 10, e assim por diante. Para isso, vamos construir tabelas ou distribuições de
frequência.
Tabela 2.2: Dados sobre sexo, matéria predileta e nota de alunos de 2 turmas
Turma Sexo Predileta Nota Turma Sexo Predileta Nota Turma Sexo Predileta Nota
A F H 5 A M M 2 B F G 6
A M M 8 A M G 4 B F M 4
A F P 8 A M G 9 B M M 6
A F H 6 A M M 7 B F P 5
A M C 5 A M M 1 B M G 3
31
Mácio A Albuquerque
A M H 6 A F P 8 B F M 5
A F M 8 A F G 5 B M P 3
A F P 4 A M G 9 B M M 4
A F H 2 A M P 5 B F C 8
A M C 6 A F M 8 B F H 3
A F P 8 A F G 6 B M G 4
A M H 3 A F P 9 B M P 5
A M M 5 A M M 8 B M P 4
A F P 5 B F H 6 B M H 6
A F G 5 B M M 3 B M M 6
A M C 7 B F P 4 B M G 6
A M H 4 B M H 8 B M H 6
A F M 7 B M G 10 B M H 6
A F P 7 B F M 5 B F M 8
A F M 6 B F P 7 B F M 8
A M G 6 B F P 5 B F G 5
A M H 9 B M M 6 B M C 5
A F M 8 B F M 5
A M P 5 B M G 5
A M G 6 B F H 8
A F M 7 B F G 5
A M P 5 B M G 6
A F M 5 B F M 5
A F M 5 B M G 2
Variáveis qualitativas
32
Mácio A Albuquerque
Feminino 21 18 39
Total 42 38 80
Tabela 2.4: Distribuição da variável Matéria Predileta no Segundo Grau por turma
Matéria Predileta Frequência na Turma A Frequência na Turma B Frequência Total
no Segundo Grau Absoluta Relativa (%) Absoluta Relativa (%) Absoluta Relativa
(%)
Português 10 23,81 7 18,42 17 21,25
Matemática 14 33,33 12 31,58 26 32,50
História 7 16,67 7 18,42 14 17,50
Geografia 8 19,05 10 26,32 18 22,50
Ciências 3 7,14 2 5,26 5 6,25
Total 42 100,00 38 100,00 80 100,00
Variáveis quantitativas
Vamos, agora, analisar a variável Nota, que é uma variável quantitativa discreta. Na
Tabela 2.5 temos as notas ordenadas. A listagem dos dados, mesmo ordenados, é de pouca
utilidade nas situações práticas, uma vez que, em geral, o número de observações é muito
grande. Além disso, ao se analisarem dados estatísticos, muitas vezes o interesse não está na
observação individual, mas, sim, no comportamento de grupos. Mais difícil ainda é a
33
Mácio A Albuquerque
comparação entre os resultados das duas turmas, uma vez que as turmas têm números de alunos
diferentes.
Tabela 2.5: Notas ordenadas por turma
Turma A Turma B
1 2 2 3 3 3 3 5 5 5 5 2 3 3 3 3 4 4 4 4 4 5
5 5 5 5 5 5 5 6 6 6 6 5 5 5 5 5 5 5 5 5 5 6
6 6 6 7 7 7 7 7 8 8 8 6 6 6 6 6 6 6 6 6 7 8
8 8 8 8 8 9 9 9 9 8 8 8 8 1
0
Medidas Estatísticas
3.1 Medidas de tendência central ou posição
Quando se deseja representar os dados de uma distribuição de uma forma mais simples,
por meio de um valor único, a melhor opção é a escolha de uma medida de tendência central.
Essas medidas, que representam os parâmetros ou estimativas em torno dos quais ocorre a maior
concentração dos valores observados no estudo, têm por objetivo mostrar o ponto central de
equilíbrio de uma distribuição de dados.
Vimos até agora a sintetização dos dados sob a forma de tabelas, gráficos e distribuições
de frequências.
Agora, vamos aprender o cálculo de medidas que possibilitem representar um conjunto
de dados relativos à observação de determinado fenômeno de forma resumida.
As medidas de tendência central são também chamadas de medidas de posição, e
estabelecem o valor em torno do qual os dados se distribuem.
34
Mácio A Albuquerque
Vale a pena chamar a atenção que, para o cálculo dessas medidas, é necessário que a
variável seja quantitativa.
3.2.2 Média Aritmética Simples: É dada pelo quociente entre a soma dos valores observados e
a Frequências total ( o número total de observações).
Sejam x1, x2, x3,.....,xn, portanto “n” valores da variável x representada por x é definida
n
x1 x 2 x 3 ....... x n
xi
1 n
x i 1
ou xi
n n n i 1
Ou, Genericamente, podemos escrever:
n
x i
x i 1
n
Some todos os elementos do conjunto de dados
X
Quantidade de elementos do conjunto
35
Mácio A Albuquerque
Este tipo de média aritmético será calculado quando os valores não estiverem tabulados,
ou seja, quando aparecerem representados individualmente como é o caso dos dados brutos, por
exemplo.
Ex9: Temos uma amostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos
(em kg):
23,0 20,0 22,0 19,0 25,0 28,2 24,0 21,0 27,0 21,0
x<-c(23.0, 20.0 , 22.0 , 19.0, 25.0, 28.2, 24.0, 21.0, 27.0, 21.0)
mean (x)
Isso significa que o peso médio é de 23,0 kg. É claro que foram obtidos pesos de crianças
desta idade que se encontram abaixo ou acima do valor médio. No entanto, a média representa
um valor típico.
Então teremos:
n
x p i i
x i 1
onde n pi
n
Exemplo: A Tabela abaixo mostra cada uma das notas parciais obtidas por um candidato
classificado em um concurso público, com suas respectivas ponderações. Qual a média final do
candidato?
Tabela - Notas parciais do candidato A e suas respectivas ponderações
Avaliação Notas Pesos
Escrita 8,5 5
Didática 9,1 4
Prática 8,8 3
Curricular 7,4 2
Entrevista 6,0 1
Total 39,8 15
36
Mácio A Albuquerque
Ex.Você está assistindo a um curso no qual sua nota é determinada a partir de cinco fontes: 50%
da média de seus testes, 15% de seu exame no meio do curso, 20% de seu exame final, 10% de
seu trabalho no laboratório de computação e 5% do trabalho feito em casa. As suas notas são 86
(média dos testes), 96 (exame no meio do curso), 82 (exame final), 98 (laboratório de
computação) e 100 (trabalho de casa). Qual é a média ponderada de suas notas?
Para cada unidade do seu salário, a pessoa gastava, antes do aumento, 0,35 com alimentação,
0,25 com aluguel e 0,12 com transporte. Depois do aumento, ela passa a ter uma despesa
adicional de 0, 58 × 0, 35 = 0, 203 com alimentação, 0, 47 × 0, 25 = 0, 118 com aluguel e 0, 49
× 0, 12 = 0, 059 com transporte, o que totaliza 0, 203 + 0, 118 + 0, 059 = 0, 380. Então, para
cada unidade do seu salário, ela tem um aumento de 0,38 nos gastos com esses três itens, ou
seja,um aumento de 38%. Note que ela já gastava 0, 35+, 025 + 0, 12 = 0, 72 = 72% do salário
37
Mácio A Albuquerque
com esses três itens. Agora, ela passa a gastar, só com esses itens, 110%, ou seja, mais do que
ganha!
Esse cálculo corresponde a uma média ponderada das taxas de aumento, onde os fatores de
ponderação correspondem às parcelas do salário gastas com os diferentes itens.
x f i i
x i 1
, onde n f i
n
Ex12 Considerando os números de crianças nascidas dos funcionários da empresa Informática
Albuquerque no ano 2013.
Tabela 2.19
Numero de crianças fi
0 2
1 8
2 10
3 12
4 4
Total 36
Fonte: Dep. de Psicologia
Na Tabela 2.20 temos as frequências acumuladas do número de sinistros por apólice de
seguro do ramo Automóveis. Complete a tabela, calculando as frequências simples absolutas e
relativas e também as frequências acumuladas relativas.
38
Mácio A Albuquerque
x
x1f1 x 2 f 2 x 3f 3 ............ x i f i
x f i i
f1 f 2 f 3 ....... f i f i
x f i i
x i 1
,
n
onde n f i
Tabela 2.21Nome
Renda Nº de
Familiar Famílias
2├ 4 5
4├ 6 10
6├ 8 14
8├ 10 8
10├ 12 3
Total 40
Fonte: Dep. de Psicologia
3.2.6. 1 - Média
x(1) x(2) x( n ) .
x(1), x(2), . . . , x(n) as observações ordenadas, isto é, Temos que:
39
Mácio A Albuquerque
yi xi k , k 1
definida por .
1 n 1 n 1 n 1 n
y i n
n i 1
y
i 1
( xi k ) i n
n i 1
x
i 1
k
1 1
x (k k k ) x (n k ) x k
n n
Resumindo
y xi k y x k .
Multiplicando cada observação por uma mesma constante não nula k, a média
aritmética simples fica multiplicada por essa constante. Definindo a nova série de observações
por
yi kxi , temos que
1 n 1 n 1 n
y i n
n i 1
y
i 1
kxi k . xi kx
n i 1
Resumindo
yi kxi y kx
Ex - No mês do dissídio de uma determinada categoria, uma firma deu um aumento de 20% a
todos os seus funcionários. Se, antes do aumento, o salário médio dos funcionários era de
R$780,00, qual será o novo salário médio? No Natal seguinte, a firma dá um abono de R$50,00
40
Mácio A Albuquerque
para todos os funcionários. Se a firma tem 22 funcionários, qual o valor da folha de pagamentos
neste mês de dezembro?
Solução:
Quando todos os funcionários têm aumento de 20%, isso significa que cada salário fica
multiplicado por 1,2, ou seja, o salário de cada funcionário é o salário antigo mais 20%. Ao
multiplicar todos os números por uma mesma constante, a média fica multiplicada por essa
constante. Então, o salário médio fica multiplicado por 1,2, ou seja, passa a ser 1, 2×780, 00 =
R$936, 00. Como a firma tem 22 funcionários, a folha de pagamentos passa a ser 22×936 =
R$20.592, 00. No Natal, os salários de todos os funcionários ficam somados de R$50,00; logo o
salário médio também fica somado de 50,00 e a folha de pagamentos será de 20.592+22×50 =
R$21.692, 00.
G 4 6 x8 x 4 x 2 4 384 4, 4267
Cálculo da média geométrica
require(psych)
x = c(6, 8, 4, 2)
geometric.mean(x)
Variações Percentuais em Sequencia
Uma outra utilização para este tipo de média, é quando estamos trabalhando com
variações percentuais em sequência.
Digamos que uma categoria de operários tenha um aumento salarial de 20% após um
mês, 12% após dois meses e 7% após três meses. Qual o percentual médio mensal de aumento
desta categoria?
Tópico relacionado
42
Mácio A Albuquerque
= 1,049873
43
Mácio A Albuquerque
x1 , x2 ,..., xn
Para um conjunto formados por n números racionais positivos: , a média
harmônica H entre esses números é dada pela divisão de n pela soma dos inversos desses n
(inverso da média aritmética) números, isto é:
x1 x2 xn
n
Só que no caso da Média harmônica estamos falando do inverso destes números, então teríamos
a seguinte média aritmética:
1 1 1
x1 x2 xn
n
Além disto, como vimos que a Média harmônica é o inverso da média aritmética do inverso dos
referidos números, então finalmente temos:
n
H
1 1 1
x1 x2 xn
Pois, temos
x gh
Outra fórmula de calcular a média harmônica de dois números é multiplicar os dois números e
dividir o resultado pela média aritmética dos dois números. Matematicamente:
.
2
Essa fórmula é equivalente à primeira, mas mais simples em alguns casos.
44
Mácio A Albuquerque
Em uma certa situação, a média harmônica provê a correta noção de média. Por
exemplo, se metade da distância de uma viagem é feita a 40 km por hora e a outra metade da
distância a 60 km por hora, então a velocidade média para a viagem é dada pela média
harmônica,
2 2 2.120
H 48
1 1 5 5
40 60 120
que é 48; isso é, o total de tempo para a viagem seria o mesma se viajasse a viagem inteira a 48
quilômetros por hora. (Note, entretanto que se tivesse viajado por metade do tempo em uma
velocidade e a outra metade na outra velocidade, a média aritmética, nesse caso 50 km por hora,
proveria a correta noção de média).
A média harmônica é o método preferível para a média dos múltiplos, tais como a
relação preço/ganho , em que o preço é no numerador. Se esses índices são calculados usando
uma média aritmética (um erro comum), os pontos de dados altas são dadas maior peso do que
pontos de dados baixos. A média harmônica, por outro lado, dá um peso igual para cada ponto
de dados.
Exemplo
Um veículo realizou o trajeto de ida e volta entre as cidades A e B. Na ida ele
desenvolveu uma velocidade média de 80 km/h, na volta a velocidade média desenvolvida foi
de 120 km/h. Qual a velocidade média para realizar todo o percurso de ida e volta?
45
Mácio A Albuquerque
Embora não tenha sido dito no enunciado, estamos considerando que os trajetos de ida e
volta têm a mesma medida.
É fácil entender que a média aritmética das velocidades seria de 100 km/h:
80 120
x 100
2
Porém a pergunta não foi qual a média das velocidades, mas sim qual a velocidade média para
realizar todo o percurso.
Vamos fazer o seguinte, já que independentemente da distância entre as cidades as
velocidades médias foram de 80 km/h na ida e de 120 km/h na volta, para facilitar a explicação
vamos arbitrar que a distância entre as cidades A e B seja de 120 km.
2 2 2.240
H 96
1 1 3 2 5
80 120 240
A velocidade média para se percorrer todo o percurso de ida e volta seria de 96 km/h.
Mediana
Md
Variável discreta (dados não agrupados, porém, ordenados):
n 1
Se n for ímpar, a mediana será o elemento central (de ordem 2 ).
Se n for par, a mediana será a média entre os elementos centrais (de ordem
n n
e 1
2 2 )
Ex14: 1) X = 2 6 4 8 7 9 10
Ordenando os elementos 2 4 6 7 8 9 10 Md = 7
2) 11 3 5 7 8 10 9 2
46
Mácio A Albuquerque
Tabela 2.22
Xi fi fac
1 1 1
2 3 4
3 5 9
4 2 11
Total 11
3. utiliza-se a fórmula,
n
( f an )
md l md 2 h
f md
Moda
47
Mácio A Albuquerque
Ex17: 2, 3, 4, 3, 5, 6, 7 Mo = 3
Ex18:
Tabela 2.24
xi 243 245 248 251 307
fi 7 17 23 20 8
Para dados qualitativos: foi feito uma pesquisa de opinião com os leitores de três
revistas, denominadas A, B, e C, com o objetivo de determinar a qualidade dos seus textos. As
respostas coletadas foram tabuladas com os seguintes códigos: E (excelente), O (ótimo), B
(bom), R (regular) e P (péssimo). A frequência com que essas respostas foram fornecidas pode
ser vista a seguir. Pede-se determinar a moda de cada uma das séries.
Revista A: {P; R; B; B; O; O; O; O; E; E}
Revista B: {R; R; B; B; B; B; O; O; O; O}
Revista C: {P; P; R; R; B; B; O; O; E; E}.
Moda para dados agrupados em classes, há diversas fórmulas para o cálculo da moda.
MÉTODO DE CZUBER
48
Mácio A Albuquerque
0.15
0.10
dfr
0.05
0.00
44 46 48 50 52 54 56
Variável
49
Mácio A Albuquerque
10 9 13 3 3 4
3 6 8 4 12 15
10 8 3 2 9 4
2 1 8 11 6 14
8 12 4 3 5 6
5 3 14 1 14 8
7 5 14 2 4 10
15 7 10 3 13 16
11 5 2 15 9 4
1 13 9 13 6 16
Ex22. Dada à série: 1,2; 1,4; 1,5; 1,8; 2 calcular a média a mediana e a moda populacional.
Ex23: Duas empresas contataram dez pessoas com curso superior em informática. O salário
nessas companhias é mostrado a seguir.
Tabela 2.26
A Salário 41 38 39 45 47 41 44 41 37 42
B Salário 40 23 41 50 49 32 41 29 52 58
Determinar:
a. A média.
b. A moda.
c. A mediana.
d. Compare sua resposta e faça um comentário
50
Mácio A Albuquerque
Ex25. Os dados abaixo representam a produção da empresa Albuquerque que produz óleo entre
1998 e 2004.
Quartis:
│ │ │ │ │
51
Mácio A Albuquerque
Q1 Q2 Q3
N 1
Q1
quartil é expresso: Posição 4
Para um conjunto de dados que tem um número par de observações, o primeiro quartil é
N N 1
Q1 4 4
expresso: Posição 2
Segundo quartil (Q2 ou P50= md)
2( N 1) N 1
Q2
quartil é expresso: posição 4 2
Para um conjunto de dados que tem um número par de observações, o segundo quartil é
2 N (2 N 1)
Q2 4 4
expresso: 2
Para um conjunto de dados que tem um número ímpar de observações, o terceiro quartil
3( N 1)
Q3
é expresso: posição 4
Para um conjunto de dados que tem um número par de observações, o terceiro quartil é
3 N 3( N 1)
Q3 4 4
expresso: 2
52
Mácio A Albuquerque
13 9 18 15 14 21 7 10 11 20 5 18 37 16 17
N fi
Onde
lqi = limite inferior da classe Qi, i = 1, 2, ......,9
N = tamanho da população ou n tamanho da amostra
h = amplitude da classe Qi
Fqi = Frequências da classe Qi
∑f = soma das frequências anteriores “a classe Q i
i. N
1º Passo: Calcula-se 4 .
2º Passo: Identifica-se a classe Q1 pelo Fac.
3º Passo: Aplica-se a fórmula.
AIQ Q3 Q1
53
Mácio A Albuquerque
Amplitude Interquartilica Q3 Q1
Quanto maior for o valor da amplitude que incorpora o valor 50% das observações, maior
será a dispersão dos dados. Além disso, a amplitude interquartílica não é afetada pelos valores
extremos. Exemplo
50%
25% 25%
in
f ant h
10
Di l Di
FDi
54
Mácio A Albuquerque
in
f ant h
100
Pi l Pi
FPi
Exemplo
a) Se o fabricante do carro A quiser anunciar a melhor performance de seu teste, qual será
a medida de tendência central usada para justificar a propaganda -a média, a mediana
ou a moda? justifique sua resposta.
55
Mácio A Albuquerque
b) Se o fabricante do carro B quiser anunciar a melhor performance de seu teste, qual será
a medida de tendência central usada para justificar a propaganda - a média, a mediana
ou a moda? justifique seu raciocínio.
c) Se o fabricante do carro C quiser anunciar a melhor performance de seu teste, qual será
a medida de tendência central usada para justificar a propaganda -a média, a mediana ou
a moda? justifique sua resposta.
Amplitude total
Ex28. para a amostra 10, 12, 20, 22, 25, 33, 38.
AT= 38 – 10 → AT= 28
A utilização da amplitude total como medida de dispersão é muito limitada, pois sendo
uma medida que depende apenas dos valores extremos, é instável, não sendo afetada pela
dispersão dos valores internos.
Desvio Médio
Desde que se deseja medir a dispersão os dados em relação à média, parece interessante
a análise dos desvios em torno da média. Isto é, analisar o desvio médio absoluto de um
conjunto de dados x1, x2, ..., xn é definido por
1 n
D xi x
n i 1
onde as barras verticais representam o valor absoluto ou módulo.
Note que nesta definição estamos trabalhando com o desvio médio, isto é, tomamos a
média dos desvios absolutos. Isso evita interpretações equivocadas, pois, se trabalhássemos
apenas com a soma dos desvios absolutos, um conjunto com um número maior de observações
tenderia a apresentar um resultado maior para a soma devido apenas ao fato de ter mais
observações. Esta situação é ilustrada com os seguintes exemplos de dados:
Exemplo 1: (1, 3, 5)
x 3
3
x x
i 1
1 1 3 3 3 5 3 4
Exemplo 2: (1, 2, 3, 4, 5)
x 3
3
x x
i 1
1 1 3 2 3 3 3 4 3 5 3 6
57
Mácio A Albuquerque
Para dados
DM
x x i
DM
x x
i fi
populacionais N N
Variância
Obtém-se S2 pela soma de quadrados dos desvios de cada valor x 1, x2,...,xn em relação a x,
dividida pelo número de graus de liberdade da amostra. Desse modo S 2 é a média dos n - 1
desvios quadráticos e independentes.
A variância é um termo ao quadrado, podendo ser um valor em cm 2 se, por exemplo, a
variável avaliada for altura em cm e, um valor kg 2, se a variável for peso em kg, a qual é dada
pela seguinte fórmula:
x 2
i Nx 2
se for populacional ou ainda i 1
N
(x x ) i
2
se amostral S 2 i 1
ou
n 1
n
( xi ) 2
1 n 2
s2 [ xi i 1
]
n 1 i 1 n
58
Mácio A Albuquerque
xi2 nx 2
S
ou ainda n 1
(x x) i
2
fi
2 i 1
se for populacional
N
ou ainda
n
( xi f i ) 2
1 n 2
2 [ xi fi i 1
]
N i 1 N
s 2
x f nx
2
i i
2
quando é amostral
ou ainda n 1
n
(x x )
i
2
fi
S
2 i 1
se amostral
n 1
ou ainda
n
( xi f i )2
1 n 2
S2 [ xi fi i 1
]
n 1 i 1 n
xi2 f i nx 2
S
n 1
Essa forma de reescrever a variância facilita quando os cálculos têm que ser feitos à
mão ou em calculadoras menos sofisticadas, pois o número de cálculos envolvidos é menor.
Note que ela nos diz que a variância é a “média dos quadrados menos o quadrado da média”.
Exemplo
A título de ilustração, vamos calcular a variância das notas de uma turma de Estatística e
Cálculo.
Aluno 1 2 3 4 5 6 7 8 9
Estatística 6 4 5 7 8 3 5 5 7
Cálculo 7 8 9 10 6 7 8 9 5
6 4 5 7 8 3 5 5 7 50
xEst 5,56
9 9
59
Mácio A Albuquerque
7 8 9 10 6 7 8 9 5 69
xCal 7, 67
9 9
1 n (x x )
i
2
2
N i 1
xi2 x 2 i 1
N
Usando a fórmula ou para calcular a variância, tem-se
que
62 42 52 7 2 82 32 52 52 7 2
2
Est (5,56) 2 2, 24
9
2
7 2 82 92 102 62 7 2 82 9 2 5
2
Cal (7, 67)2 2, 22
9
Propriedades da variância:
(x i x) , a unidade
No cálculo da variância, quando elevamos ao quadrado a diferença
de medida da série fica também elevada ao quadrado.
Portanto, a variância é dada sempre no quadrado da unidade de medida da série.
60
Mácio A Albuquerque
Em algumas situações, a unidade de medida da variância nem faz sentido. É o caso, por
exemplo, em que os dados são expressos em litros. A variância será expressa em litros
quadrados.
Portanto, o valor da variância não pode ser comparado diretamente com os dados da
série, ou seja: variância não tem interpretação.
Observando-se a fórmula original para o cálculo da variância, nota-se que é uma soma
de quadrados. Dessa forma, se a unidade da variância for, por exemplo, metro (m) terá como
resultado metro ao quadrado (m 2). Para se ter a unidade original, necessita-se definir outra
medida de dispersão, que é a raiz quadrada da variância, logo teremos o desvio padrão que é a
raiz quadrada da variância. Assim temos:
Quadro 2- Medidas de peso e do comprimento dos ovos de duas espécies de galinha poedeira.
61
Mácio A Albuquerque
Ex29. Dada a amostra de 7 pessoas de uma escola pública na cidade de campina Grande que
possui computador em sua casa no ano de 2013: 2, 3, 4, 5, 7, 10, 12.
Ex30. Salários anuais: Amostras dos salários anuais, em milhares de dólares, para professores
de informática das escolas elementar pública e privada estão relacionadas a seguir.
Professores da rede pública: 38,6 38,1 38,7 36,8 34,8 35,9 39,9 36,2
Professores da rede privada: 21,8 18,4 20,3 17,6 19,7 18,3 19,4 20,8
62
Mácio A Albuquerque
Tabela 2.31 -
xi fi
5 2
7 3
8 5
9 4
11 2
Ex32. Foi retirada uma amostra dos alunos de uma escola no bairro do catolé, que foi sorteada
também o bairro e a escola no ano de 2000. Encontra a média, o desvio médio, o desvio padrão
e a amplitude total.
Tabela 2.32 -
Classes fi
2├ 4 2
4├ 6 4
6├ 8 7
8 ├ 10 4
10├ 12 3
Total 20
CV 100
x se for populacional
63
Mácio A Albuquerque
S
CV 100
x se for amostral
Por outro lado, ele possui sérias restrições de uso e inspira cuidados. Primeiro, quando a
média da variável aleatória em questão tende a zero, o CV tende ao infinito (o que não faz
sentido prático). Segundo, de acordo com as propriedades da média a do desvio padrão, a adição
de uma constante às observações altera a média da nova variável aleatória, mas não altera seu
desvio padrão, ou seja, por meio de algumas transformações de variáveis o CV pode ser
criminosamente manipulado.
Um coeficiente de variação superior a 50% sugere alta dispersão o que indica
heterogeneidade dos dados. Quanto maior for este valor, menos representativa será a média.
Neste caso, opta-se pela mediana ou moda, não existindo uma regra prática para a escolha de
uma destas medidas. O pesquisador, com sua experiência, é que deverá decidir por uma ou
outra. Por outro lado, quanto mais próximo de zero, mais homogêneo é o conjunto de dados e
mais representativa será sua média.
Ex33. Na empresa Albuquerque, o salário médio dos homens é de 4.000,00, com desvio padrão
de 1.500,00, e o das mulheres é em média de 3.000,00, com desvio padrão de 1.200,00. Calcule
o coeficiente de variação e diga qual o que apresentou maior dispersão.
Medidas de Assimetria
64
Mácio A Albuquerque
Existem várias fórmulas para o calculo do coeficiente de assimetria, dentre elas são úteis:
As
Q3 Q2 Q2 Q1
Q3 Q1
Q3 Q2 Q2 Q1
AS
Q3 Q1
Q3 2Q2 Q1
AS
Q3 Q1
Q3 Q1 2Q2
AS
Q3 Q1
Se:
65
Mácio A Albuquerque
Pode-se utilizar qualquer uma das fórmulas para identificar o grau de assimetria de distribuição.
Q3 Q1
K
2( P90 P10 )
66
Mácio A Albuquerque
Q1 4, 25
Q3 8, 65
P10 1, 60
P90 8,30
8, 65 4, 25 4, 40
K 0,328
2(8,30 1, 60) 13, 40
K 0,328 0, 263 distribuição platicútica
O gráfico Box Plot (ou desenho esquemático) é uma análise gráfica que utiliza cinco
medidas estatísticas: valor mínimo, valor máximo, mediana ou segundo quartil, primeiro e
terceiro quartil da variável quantitativa. Este conjunto de medidas oferece a ideia da posição,
dispersão, assimetria, caudas e dados discrepantes. A posição central é dada pela mediana e a
dispersão pelo desvio interquartílico dq= Q 3 - Q1. As posições relativas de Q1 , Q2 e Q3 dão uma
noção da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que
vão do retângulo aos valores atípicos.
Um outlier ou ponto discrepante é um valor que se localiza distante de quase todos os
outros pontos da distribuição. A distância a partir da qual considera-se um valor como
discrepante é aquela que supera 1,5dq. De maneira geral, são considerados outliers todos os
valores inferiores Li = Q1 - 1,5 (Q3 - Q1) ou os superiores a Ls = Q 3+ 1,5 (Q3 - Q1).
67
Mácio A Albuquerque
Exemplo
Tempo de espera 88 77 70 80 74 82 85 96 76 67 80 75 73 93 72
Tempo de espera 67 70 72 73 74 75 76 77 80 80 82 85 88 93 96
Então:
68
Mácio A Albuquerque
Passo 3 - No interior de retângulo, traçar uma linha vertical no valor que corresponde à mediana
(77 minutos).
Passo 4 - Traçar uma linha horizontal que se estende do retângulo ao menor valor (67 minutos),
e outra que se estende do retângulo ao maior valor (96 minutos).
tempo=c(88, 77, 70, 80, 74, 82, 85, 96, 76, 67, 80, 75, 73, 93, 72)
summary(tempo)
69
Mácio A Albuquerque
Figura 111- Distribuição de frequência dos tempos de espera dos clientes de um lava-jato
Interpretando o gráfico
O box plot mostra que 50% das lavagens ocorrem no espaço de tempo compreendido
entre 73 min e 85 min. A amplitude interquartílica equivale a 12 minutos. A Figura 111
também mostra que a distribuição é inclinada positivamente (para a direita). Neste caso, duas
informações indicam esta inclinação: primeira, a linha à direita do retângulo, que se estende de
Q3 (85 min) até o maior valor (96 min), é maior que a linha situada à esquerda do retângulo, a
qual se estende de Q1 (73 min) até o menor valor (67 min); em outras palavras, 25% dos dados,
maiores que o terceiro quartil, apresentam uma amplitude maior que os 25% dos dados que são
menores que o primeiro quartil. A segunda indicação é que a mediana não está posicionada no
centro do retângulo. Ela encontra-se visivelmente deslocada para a esquerda. Ou seja, a
distância entre Q1 (73 min) e a mediana (77 min) é menor que a distância entre a mediana e Q 3
(85 min). Embora essas distâncias sejam diferentes, o número de lavagens entre elas é igual para
ambas; isto é, o número de lavagens entre 73 min e 77 min é igual ao número de lavagens entre
77 min e 85 min.
Medidas incorretas (invalidas) - Esta situação costuma ocorrer quando o pesquisador utiliza
equipamentos descalibrados ou defeituosos para a medição de suas variáveis; ou quando a
leitura do dado observado é incorreta, por desatenção do observador; ou quando o valor de uma
observação é registrado incorretamente no banco de dados.
Medidas de fonte diferente - Ocorre quando a medida, mesmo que corretamente mensurada,
pertence a uma população diferente daquela de onde os dados em estudo foram retirados.
Medidas raras - Nesta condição, a medida foi registrada corretamente e pertence à mesma
população de onde foi retirada toda a amostra, mas é resultante de um evento raro.
70
Mácio A Albuquerque
Portanto, qualquer que seja a causa do valor outlier, o bom senso manda que ele seja
retirado do conjunto de dados, e, se possível, substituído por uma nova observação. Neste
sentido, dois são os métodos utilizados para que se possam detectar valores outliers: o primeiro
é o método gráfico, que utiliza o box blot; e o segundo é o método numérico, que utiliza os
valores z (z-escores). Geralmente, ambos produzem resultados idênticos.
Tabela 2.33 -
Classes fi
3├ 8 10
8├ 13 12
13├ 18 18
18├ 23 5
Total
Ex36. - Completar os dados que falta e calcular o desvio padrão e o coeficiente de variação.
Tabela 2.34 -
xi fi fac
71
Mácio A Albuquerque
1 4
2 8
3 30
4 27
5 15
6 72
7 11 83
8 93
Total
Ex40 - Se somarmos a todos os elementos de uma série um número, o que acontece com a média
e a variância da série?
Ex4 1- Qual o objetivo da Estatística
Ex42 - Defina Estatística.
Ex43 - Os dados abaixo apresentam os coeficientes de liquidez obtidos da análise de balanço em
50 indústrias:
72
Mácio A Albuquerque
0,4 2,6 3,3 4,5 5,3 6,9 8,4 9,5 11,8 16,0
0,8 2,7 3,8 4,5 5,5 7,4 8,5 10,0 12,4 16,2
2,3 2,7 3,9 4,6 5,6 7,5 8,7 10,5 12,9 17,8
2,3 2,9 4,4 4,8 6,3 7,6 9,0 10,6 13,1 18,8
2,4 3,2 4,4 5,0 6,3 7,9 9,2 11,6 15,6 20,1
Ex47 - As taxas de juros recebidos por 10 ações durante um certo período foram (medidas em
porcentagem) 2,5; 2,6; 2,6; 2,6; 2,5; 2,5; 2,6; 2,5; 2,6; 2,6. Calcule a média, a mediana, a
moda e o desvio padrão.
73
Mácio A Albuquerque
Equipe I: 40 provas
Tempo médio: 45 segundos.
Variância: 400 segundos ao quadrado
Ex49 - O salário médio mensal pago aos funcionários da Empresa Albuquerque Ltda, foi de R$
199 no primeiro semestre de 2000. Sabendo-se que no início de agosto a média havia subido
para R$ 217, pede-se calcular:
b) a média mensal de gastos com pessoal que a empresa deverá ter entre agosto e dezembro para
que a média mensal do ano de 2000 atinja R$ 180.
EX50 O capital da Empresa Albuquerque Ltda, é formado pelo aporte dos acionistas, por
financiamento de longo prazo e pela emissão de debêntures. Cada tipo de capital possui um
custo anual diferente dado por uma taxa de juros anual, conforme o quadro:
Tabela 2.37 -
Fonte de capital Participação em Taxa de juros
R$
Acionistas 2400 12%
Financiamento de longo 1200 8%
prazo
Debêntures 400 14%
Ex51 O supermercado Albuquerque anuncia uma liquidação em que o preço de determinado bem
de consumo diminuiu em 400%. Pede-se comentar esse anúncio, indicando se o mesmo está
certo ou errado.
74
Mácio A Albuquerque
Solução:
Δ1
M o Lo xh
Sabemos que a moda de Czuber é dada por:
Δ1 Δ 2
1 1
Mo Lo x h 18 L o x 4 L o 16
2 2
Ex54 Em um grupo de 600 hóspedes do Hotel Albuquerque & cia Ltda., tem-se os seguintes
valores com relação ao tempo de permanência no hotel:
Média 9 dias;
1 º Quartil 5 dias
3º Quartil 15 dias
Coeficiente de variação 20%
Pede-se:
a) quantos hóspedes permanecem mais de 15 dias;
75
Mácio A Albuquerque
100 200 300 400 500 600 700 800 900 1000
Tabela 2.39 -
Idade Frequência Porcentagem
18|- 20 18 36
20|- 22 12 24
22|- 26 10 20
26|- 30 8 16
30|- 36 2 4
Total 50 100
a) Baseado-se nesses resultado, você diria que a campanha produzir algum efeito. (Isto é,
aumentou a idade média)
76
Mácio A Albuquerque
que o valor
2 desvio padrão(X)/ n , então a campanha teria surtido efeito. Qual a
conclusão dele, baseados nos dados?
c) Calcule o coeficiente de variação.
Ex 56- Considerando a distribuição de frequência abaixo, apresentada de forma incompleta,
sabendo-se não haver valores iguais aos extremos dos intervalos de classe.
Classes 0 - 10 10 - 20 20 - 30 30 - 40
Frequências 3 5 6 Y
6326
x x 63, 26
100
Ex 58 - Um órgão do governo do estado está interessado em determinar padrões sobre o
investimento em educação, por habitante, realizado pelas prefeituras. De um levantamento de
dez cidades, foram obtidos os valores da tabela abaixo:
Tabela 2.39 -
Cidade A B C D E F G H I J
Investimento 2 16 1 8 1 15 1 16 1 18
0 4 9 4 9
Nesse caso, será considerado como investimento básico a média final das observações,
calculadas da seguinte maneira:
a) Obtém-se uma média inicial.
77
Mácio A Albuquerque
Ex 59 - O departamento Pessoal de uma certa empresa faz um levantamento dos salários dos
120 funcionários do setor administrativo, obtendo os resultados (em salários mínimos) da tabela
abaixo.
a) esboce o histograma
b) calcule a média, a variância e o desvio padrão.
c) calcule o 1º quartil e a mediana
Tabela 2.40 -
Faixa salarial Frequência relativa
0|-- 2 0,25
2|-- 4 0,40
4|-- 6 0,20
6|-- 8 0,15
d) se for concedido um aumento de 100% para os 120 funcionários, haverá alteração na média?
E na variância? justifique sua resposta.
e) se for concedido um abono de dois salários mínimo para todos os funcionários haverá
alteração na média? E na variância? Justifique sua resposta.
32 40 22 11 34 40 16 26 23 31 27 10 38 17 13
45 25 10 18 23 35 22 30 14 18 20 13 24 35 29
33 48 20 12 31 39 17 58 19 16 12 21 15 12 20
51 12 19 15 41 29 25 13 23 32 14 27 43 37 21
28 37 26 44 11 53 38 46 17 36 28 49 56 19 11
78
Mácio A Albuquerque
84 88 78 80 89 94 95 77 81 90
83 87 91 83 92 90 92 77 86 99
Ex62 -As informações abaixo indicam o número de acidentes ocorridos com 70 motoristas de
uma empresa de ônibus nos últimos 5 anos:
Nº DE ACIDENTES 0 1 2 3 4 5 6 7
Nº DE MOTORISTAS 15 11 20 9 6 5 3 1
Ex 63 - Tabela.37 - Informações sobre estado civil, grau de instrução, número de filhos, salário
(expresso como fração do salário mínimo (medida em anos meses) e procedência de 36
empregados da secção de orçamento da Companhia Misto.
Nº Nº Reg.
Est. civil Grau instr filhos Salário Idade Proc. Ano ingr.
1 solt fundamental 0 4,00 26 int 95
2 cas fundamental 1 4,56 32 cap 96
3 cas fundamental 2 5,25 36 cap 93
4 solt médio 0 5,73 20 outro 96
5 solt fundamental 0 6,26 40 outro 93
6 cas fundamental 0 6,66 28 int 94
7 solt fundamental 0 6,86 41 int 92
8 solt fundamental 0 7,39 43 cap 92
9 cas médio 1 7,44 34 cap 97
10 solt médio 0 7,59 23 outro 97
11 cas médio 2 8,12 33 int 98
79
Mácio A Albuquerque
Média geométrica
Média harmônica
81
Mácio A Albuquerque
Mediana
MED (X1:Xn)
Moda
Modo (X1:Xn)
Fornece o valor da moda da amostra de dados. Se a amostra de dados tiver mais de uma
moda, esta função reconhecerá apenas uma moda; se ela for amodal, a função indicará um valor
de erro, dado por #N/D. Caso haja interesse nesta medida, seria importante comprovar o valor
ou os valores das modas, utilizando-se da opção "ordem e percentil" da ferramenta de análise de
dados. Com base nesta opção, pode-se observar a existência de mais de uma moda, cujos
valores serão aqueles que possuem a mesma frequência máxima.
=MODO(D2:D37)
Quartil
QUARTIL (X1:Xn;quartil)
Fornece o valor x da amostra de dados que corresponde ao quartil definido. Se quartil =
0, o resultado é o menor valor da amostra de dados. Se quartil = 1, o resultado é o valor do
primeiro quartil (Q1). se quartil =2, o resultado é o do segundo quartil (Q 2 = Md). Se quartil = 3,
o resultado é o valor do terceiro quartil (Q 3). Se quartil = 4, o resultado é o maior valor da
amostra.
=QUARTIL(D2:D37;0)
=QUARTIL(D2:D37;1)
=QUARTIL(D2:D37;2)
=QUARTIL(D2:D37;3)
=QUARTIL(D2:D37;4)
Percentil
PERCENTIL(X1:Xn;percentil)
= PERCENTIL(D2:D37;0)
= PERCENTIL(D2:D37;0,1)
= PERCENTIL(D2:D37;0,25)
= PERCENTIL(D2:D37;0,30)
= PERCENTIL(D2:D37;0,5)
= PERCENTIL(D2:D37;0,75)
= PERCENTIL(D2:D37;1)
ORDEM.PORCENTUAL(X1:Xn; x)
= ORDEM.PERCENTUAL(D2:D37;151)
= ORDEM.PERCENTUAL(D2:D37;161,9)
= ORDEM.PERCENTUAL(D2:D37;167)
= ORDEM.PERCENTUAL(D2:D37;168)
= ORDEM.PERCENTUAL(D2:D37;170,5)
= ORDEM.PERCENTUAL(D2:D37;171)
= ORDEM.PERCENTUAL(D2:D37;176)
= ORDEM.PERCENTUAL(D2:D37;177)
= ORDEM.PERCENTUAL(D2:D37;190)
= ORDEM(D3;D2:D37)
= ORDEM(D3;D2:D37;0)
83
Mácio A Albuquerque
= ORDEM(D12;D2:D37;0)
= ORDEM(D2;D2:D37;0)
= ORDEM(D3;D2:D37;1)
= ORDEM(D12;D2:D37;1)
= ORDEM(D2;D2:D37;1)
MÁXIMO (X1:Xn)
Fornece o maior valor da amostra de dados.
=MÁXIMO(D2:D37)
MÍNIMO (X1:Xn)
=MÍNIMO(D2:D37)
=MÁXIMO(D2:D37)-MÍNIMO(D2:D37)
Variância
VAR (X1:Xn)
DESVPAD (X1:Xn)
= DESVPAD(D2:D37)
Coeficiente de variação
=100*DESVPAD(D2:D37) /MÉDIA(D2:D37)
Erro-padrão
=DESVPAD(D2:D37) /RAIZ(CONT.NÚM(D2:D37))
Coeficiente de assimetria
DISTORÇÃO (X1:Xn)
=DISTORÇÃO(D2:D37)
Coeficiente de curtose
CURT (X1:Xn)
=CURT(D2:D37)
85
Mácio A Albuquerque
Passo 1: após terem sidos digitados os valores na planilha, vá à Barra de Menus e selecione
Ferramentas;
Passo 2: selecione Análise de dados..., na última linha de Ferramentas. Caso não apareça a
opção Análise de dados..., clique em Suplementos...; abre-se outra tela, na qual você deve clicar
em cima dos quadrados referentes a Ferramentas de análise e Ferramentas de análise - VBA,
depois no botão OK. Retorne a Ferramentas e clique em Análise de dados...;
86
Mácio A Albuquerque
Passo 3: após aparecer o quadro Análise de dados (com o subtítulo Ferramentas de análise),
clique em Estatística descritiva, que ficará selecionada em cor diferente das demais opções;
Passo 4: clique no botão OK, à direita, quando aparece o quadro Estatística descritiva.
A ferramenta Estatística descritiva cria um relatório para os valores colocados na planilha,
fornecendo informações sobre a tendência central e a variabilidade dos valores selecionados,
gerando duas colunas de informação: a da esquerda com os títulos das estatísticas e a coluna da
direita com os resultados. Para os conceitos estudados até agora, a utilização dessa ferramenta é
a seguinte:
1) no bloco Entrada:
2) no bloco Opções de saída: escolha Nova planilha, para que os resultados apareçam em uma
nova planilha na mesma pasta de trabalho da planilha atual; digite EXEMPLO 1 (ou outro nome
de sua preferência) na caixa de texto para dar nome a essa nova planilha ou no Intervalo de
saída na mesma planilha: Intervalo de saída: F5
3) clique na opção Resumo estatístico, para que o Excel produza, na planilha de resultados, as
principais medidas estudadas até então.
87
Mácio A Albuquerque
Salário
11,1222
Média 2
0,76457
Erro padrão 6
Mediana 10,165
Modo #N/D
4,58745
Desvio padrão 8
21,0447
Variância da amostra 7
Curtose -0,01404
0,65322
Assimetria 1
Intervalo 19,3
Mínimo 4
Máximo 23,3
Soma 400,4
Contagem 36
Maior(1) 23,3
Menor(1) 4
1,55217
Nível de confiança(95,0%) 2
Observações
Informando-se o valor (1) para o enésimo maior e para o enésimo menor, tem-se,
respectivamente, o maior e o menor valor da amostra de dados. Se for informado o
valor (2), o maior valor considerado será o segundo maior valor da amostra de dados e o
menor valor considerado será o segundo menor valor da amostra de dados, e assim por
diante.
O intervalo 19,3 refere-se ao valor da AT.
O resultado de 1,552172, com relação ao nível de confiança de 95%, refere-se à
Sx
t
expressão 2 n do intervalo de confiança para a média populacional de X quando a
t
variância é desconhecida, cuja valor de 2 se refere ao valor tabelado de t a 5% de
significância, que deixa 2,5% nas extremidades das caudas à direita e à esquerda da
distribuição de t, sendo n-1 = 99 graus de liberdade.
Observações
a. Na coluna denominada "ponto", está registrado o número do indivíduo que corresponde
ao valor da variável.
b. Na coluna, está registrado o valor da variável em ordem decrescente.
c. Na coluna "ordem", esta registrada a ordem decrescente de cada valor da amostra de
dados. De acordo com os valores desta coluna, pode-se concluir se amostra de dados
possui uma ou mais modas.
d. Na coluna "porcentagem", estão registrado os mesmos valores fornecidos pela função
ORDEM.PORCENTUAL. Estes valores poderão ser referentes ao valor exato ou
aproximado do percentil de cada valor ordenado de forma crescente, quando forem
aproximadas para os respectivos valores de percentis.
FREQUÊNCIA(X1:Xn; referência)
90