Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
ESTATÍSTICA
C Grande/PB
Albuquerque M. A
1. Introdução
Para muitas pessoas, a palavra Estatística traz à lembrança a ideia de números; e, nesse
sentido de informação numérica, as estatísticas já fazem parte de nossas vidas. Ouvimos na
televisão, e aprendemos, que duas em cada três donas de casa preferem determinada marca de
sabão em pó. Comparamos taxas de inflação ou quantidade de chuva nos mais diferentes locais
nas mais diferentes épocas, porque os jornais nos dão informações. Discutimos desemprego ou
fome na África, porque a mídia nos mostra números.
Estatística não é, porém, simples coleção de números, embora as medidas ou observações
na forma numérica sejam sua base. No sentido acadêmico, Estatística é a ciência que trata da
coleta, apuração, classificação e análise dos dados.
A palavra estatística deriva da expressão status, em latim, e significa o ”estudo do estado”.
Foi pensada pelos ingleses, no século XVI, como uma ciência política, destinada a descrever
características de um estado ou país, tais como população, área, riqueza e recursos naturais,
envolvendo compilações de dados e gráficos. Em 1662, John Graunt publicou informes
estatísticos sobre nascimentos e mortes. A partir daí deu se início ao desenvolvimento da
probabilidade e estatística, sobretudo a partir do século XVII, com o estudo das grandes epidemias
que assolavam o mundo, dando ensejo ao desenvolvimento da demografia. Em cada século
seguinte mais e mais áreas foram se incorporando ao conjunto das que faziam uso da estatística.
Na última década, com a grande revolução da informática, houve um avanço significativo das
áreas de probabilidade e estatística, com desenvolvimento de softwares mais poderosos, deixando
à disposição do pesquisador muitas ferramentas alternativas ao seu trabalho. Hoje em dia a maior
parte das decisões tomadas em quase todas as áreas de atividade humana moderna (por exemplo,
avaliação de novos tratamentos médicos e de novos terminais de atendimento bancário, do
planejamento de pesquisas científicas, de estratégias de marketing e investimento, para citar
algumas) tem suas bases na estatística - definida, a grosso modo, como a coleta, análise e
interpretação de dados, ou de forma mais ampla, como a ”ciência da tomada de decisão perante
incertezas”. Como já foi dito anteriormente, a Estatística engloba um grande leque de ferramentas
de análise. Com finalidade didática iremos dividir a estatística em dois grandes grupos:
2
Albuquerque M. A
1.2 Objetivo
3
Albuquerque M. A
Este tipo de análise tem a finalidade de descrever uma amostra de dados por meio de
medidas de posição, de dispersão, de assimetria, de curtose e da apresentação dos resultados em
tabelas ou gráficos, sem fazer nenhuma inferência sobre a população dos dados.
Que se preocupa com a organização e descrição dos dados experimentais, a estatística
descritiva vai resumi-las através do uso de certas medidas-sintese, que tornem possível a
interpretação de resultados. No sentido mais amplo, suas funções são:
a) Coleta de dados (informações);
b) Organização e classificação destes dados;
c) Apresentação através de gráficos e tabelas;
d) Calculo de coeficientes (estatísticos), que permitem descrever resumidamente os
fenômenos.
Como o nome já sugere, tais medidas sumarizam todo o nosso conjunto de dados/variáveis
através de um único valor que ocupa a posição central naquele conjunto. Esse número é hipotético
e não precisa necessariamente fazer parte do conjunto de dados. Mas ele é importante porque nos
oferece um valor representativo sobre a amostra/população.
Estatística Indutiva ou Inferencial: é o ramo que trata de tirar conclusões sobre uma
população a partir de uma amostra. A ferramenta básica no estudo da estatística inferencial é a
probabilidade. Compara, testa e faz predições
Pode-se notar, conforme o exposto, que a ciência Estatística é aplicável a qualquer ramo
do conhecimento onde se manipulem dados experimentais. Assim, a Física, a Química, a
Engenharia, a Economia, a Medicina, a Biologia, as Ciências sociais, as Ciências Administrativas,
etc., tendem cada vez mais a servir-se dos métodos estatísticos como ferramenta de trabalho, daí
sua grande e crescente importância.
Em estatística utilizaremos extensivamente os termos população e amostra. Assim,
definiremos esses termos no contexto da estatística:
4
Albuquerque M. A
5
Albuquerque M. A
Probabilística:
Aleatória Simples
Sistemática
Estratificada
Conglomerados
Não probabilística
Cota
Esmo
Intenciona
1.8 Parâmetros x Estatísticas
6
Albuquerque M. A
Parâmetros Estimadores
Média X
2 Variância S2
Desvio padrão S
Proporção p̂
2 ESTATÍSTICA DESCRITIVA
2.1.1 Definição do Problema: formulação completa do problema a ser estudado. Para isso,
você deve procurar de outros trabalhos realizados no mesmo campo e análogos, uma vez
que parte da informação de que se necessita pode ser encontrado nestes últimos.
Sendo assim, essa primeira fase pode responder à definição de um problema ou,
simplesmente, dar resposta a um interesse de profissionais.
7
Albuquerque M. A
Por exemplo:
2.1.2 Planejamento:
Após você definir o problema, é preciso determinar um processo para resolvê-lo e, em
especial, a forma de como obter informações sobre a variável ou as variáveis em estudo.
É nessa fase que devemos decidir pela observação da população ou de uma amostra.
Portanto, você precisa:
Planejar o trabalho tendo em vista objetivo a ser atingido;
Escolher a formular corretamente as perguntas;
definir o tipo de levantamento – censitário ou
por amostragem; e definir cronograma de
atividades, custos envolvidos, delineamento da
amostra etc.
questionário;
observação;
experimentação; e
pesquisa bibliográfica.
A coleta de dados que você vai fazer pode ser realizada de forma direta com base nos
elementos de registros ou pelo próprio pesquisador através de questionários.
(quesitos específicos para obter informações desejadas): refere-se à obtenção, reunião e registro
sistemático de dados, com um objetivo determinado. Além dos registros feitos pelo próprio
pesquisador, pode-se recorrer a fontes externas de dados.
Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer.
A coleta pode ser: Direta - diretamente da fonte;
Indireta - feita através de outras fontes.
Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de
terceiros (secundários).
Exemplo
A renda mensal das famílias, o número de peças defeituosas de um equipamento ou QI
dos indivíduos de um determinado grupo são exemplos desses dados.
2.1.5 Crítica dos dados (questionários): leitura dos questionários, observação de respostas
incompletas, erradas. Supressão de valores estranhos ao levantamento.
2.1.6 Organização de dados ou Apuração dos dados: consiste em resumir os dados, através de
sua contagem e agrupamento. É um trabalho de condensação e de tabulação dos dados, que
chegam ao analista de forma desorganizada, tornando impossível a tarefa de apreender todo o seu
significado pela simples leitura. Nos dias atuais esta apuração tornou-se sinônimo de organização
de base de dados, que é realizada em computadores.
9
Albuquerque M. A
Essas formas de expor as informações coletadas permitem sintetizar uma grande quantidade
de dados (números), tornando mais fácil a compreensão do atributo em estudo e permitindo uma
futura análise.
(a) Apresentação Tabular: apresentação numérica dos dados. As tabelas têm a vantagem de
conseguir expor, sinteticamente, e em um só local, os resultados sobre determinado assunto, de
modo a se obter uma visão global mais rápida daquilo que se pretende analisar.
b) Apresentação Gráfica: constitui uma apresentação geométrica. É de extrema importância, no
sentido de permitir uma visão rápida, fácil e clara do fenômeno e sua variação.
É a fase mais importante e também a mais delicada. Tirar conclusões que auxiliam o
pesquisador a resolver seu problema.
O interesse maior consiste em tirar conclusões que auxiliem o pesquisador a resolver seu
problema. A análise dos dados estatísticos está ligada essencialmente ao cálculo de medidas, cuja
finalidade principal é descrever o fenômeno. Assim, o conjunto de dados a ser analisado pode ser
expresso por números-resumos, as estatísticas, que evidenciam características particulares desse
conjunto. O significado exato de cada um desses valores será explicado posteriormente.
10
Albuquerque M. A
2.2.1 Quantitativas: São características populacionais que podem ser quantificadas, sendo
classificadas em discretas e contínuas.
Discretas: são aquelas variáveis que pode assumir somente valores inteiros num
conjunto de valores. É gerada pelo processo de contagem, como o número de veículos
que passa em um posto de gasolina, o número de estudantes nesta sala de aula.
Alguns exemplos de variáveis quantitativas discretas são:
a) População: habitações de uma cidade.
Variável: número de banheiros.
b) População: casais residentes em uma cidade.
Variável: número de filhos.
Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo
de valores. É gerada pelo processo de medição. Neste caso serve como exemplo como,
o número de veículos que passa em um posto de gasolina dentro de um determinado
tempo, o volume de água em um reservatório ou o peso de um pacote de cereal.
Alguns exemplos de variáveis quantitativas contínuas são:
11
Albuquerque M. A
Ex: Nível de escolaridade: Analfabeto, ensino fundamental, ensino médio e ensino superior.
Categoria socioeconômica: classe alta, classe média ou classe baixa.
Uma característica que pode assumir diferentes valores de indivíduo para
indivíduo é denominada variável. Caso contrário é denominado constante. As variáveis
são classificadas em:
12
Albuquerque M. A
Variáveis
Qualitativas Quantitativas
(atributos) (numéricas)
Tabela 1.4 – Dados dos professores de uma escola em Campina Grande no de 2017
Idade Sexo Hemoglobina Tipo de urticária Duração
34 masculino 14,2 Física Curta
58 masculino 14,4 Física Longa
31 feminina 15,1 Idiopática Média
49 masculino 10,9 Idiopática Média
39 feminina 14,4 Física Longa
33 masculino 14,1 Física Curta
35 feminina 14,0 idiopática Longa
13
Albuquerque M. A
é apresentado na seção 4.2.1.9, da mesma NBR, que o mesmo trata-se de uma Ilustração, porém
nada define sobre sua forma e, ao analisar o exemplo contido na aludida seção, deixa margem
para interpretação que vai de encontro à definição da Tabela. Observe o exemplo apresentado na
seção 4.2.1.9 da NBR 14724:2011 (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS,
2011, p. 8)
Os quadros são definidos como arranjo predominante de palavras dispostas em linhas e
colunas, com ou sem indicação de dados numéricos. Diferenciam-se das tabelas por apresentarem
um teor esquemático e descritivo, e não estatístico. A apresentação dos quadros é semelhante à
das tabelas, exceto pela colocação dos traços verticais em suas laterais e na separação das casas.
Exemplo
Observe que as laterais estão fechadas diferenciando, em sua forma, da tabela que possui as
laterais abertas.
A seção 5.9 da NBR 14724:2011, que trata sobre as regras gerais para apresentação de
Trabalhos Acadêmicos, relata que as Tabelas "devem ser citadas no texto, inseridas o mais
próximo possível do trecho a que se referem e padronizadas conforme o Instituto Brasileiro de
Geografia e Estatística (IBGE)" (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS,
2011, p. 11).
Ao verificar as Normas de Apresentação Tabular (NAT), que se encontra vigente,
criadas pelo IBGE (1993), a definição de Tabela é a mesma apresentada pela ABNT. Sendo
assim, quando for apresentar informações onde o dado numérico é parte principal, utiliza-se a
forma de Tabela e, para as demais informações, utiliza-se a forma de Quadro.
Segundo as NAT do IBGE, a Tabela deve possuir um título, um cabeçalho, um corpo
contendo as informações, uma linha de fechamento, uma fonte e, se for o caso, uma nota
explicativa. Os quadros também possuem tais especificações, porém diferem das Tabelas em
sua forma, no que diz respeito ao fechamento das laterais.Segue um modelo de Quadro e mais
abaixo o modelo da Tabela 3 encontrada nas NAT do IBGE:
14
Albuquerque M. A
15
Albuquerque M. A
2. As tabelas devem ser fechadas no alto e embaixo por linhas horizontais, não sendo
fechadas à direita ou à esquerda por linhas verticais. É facultativo o emprego de traços
verticais para a separação de colunas no corpo da tabela.
3. Em publicações que compreendem muitas tabelas, estas devem ser numeradas em ordem
crescente, conforme a ordem do aparecimento.
4. Os totais e subtotais devem ser destacados.
5. Deverá ser mantida a uniformidade, quanto ao número de casas decimais.
Tabela 1 Número e percentagem de insetos capturados em domicílio na Escola Agrícola da UEPB, Paraiba, tipo de
captura, março a junho e setembro de 2014
Tipo de captura Manual Armadilha tipo New Jersey2 Total
Espécies Nº % Nº % Nº
Aedes scapularis 108 6.8 1 1.2 109
Anopheles evansae 191 12.1 12 14.8 203
Anopheles triannulatus 48 3.0 - - 48
Culex pipiens quinquefasciatus 105 6.6 21 25.9 126
Culex (Culex) sp. 61 3.9 5 6.2 66
Culex (Melanoconion) sp. 160 10.1 5 6.2 165
Mansonia chrysonotum 139 8.8 13 16.0 152
Mansonia titillans 689 43.7 19 23.5 708
Psorophora confinnis 51* 3.2 - - 51
Outras espécies 3 29 1.8 5 6.2 34
Total 1581 100 81 100 1662
Fonte: Forattini, O.P. et. Al., Ëestudos ecológicos sobre mosquitos Culicidae no sistema da Serra, Brasil, 2 – Observações no ambiente
domiciliar”,
1 Rev. Saúde Públ., Paraíba, 12: 476:96, 2004.
30 dias de captura * Inclui 2 insetos capturados
29 dias de captura quando deixavam o domicílio
3Aedes serratus Coluna
Aedeomyia squamipennis
Indicadora Notas
Anopheles albitarsis
Anopheles mediopunctatus
Fonte Título
Anopheles oswaldoi
Culex lygrus
Culex (Microculex) sp.
Limatus flavisetosus Cabeçalho
Mansonia juxtamansonia
Mansonia venezuelensis
Chamadas
3 DISTRIBUIÇÃO DE FREQUÊNCIAS
16
Albuquerque M. A
1. Dados Brutos - É o conjunto dos dados numéricos obtidos após a coleta dos dados.
Exemplo 1: Idade dos alunos do curso de contabilidade da UEPB, no ano de 2022.
24 23 22 28 35 21 23 33 34 24
21 25 36 26 22 30 32 25 26 33
34 21 31 25 31 26 25 35 33 31
A esse tipo de dados, cujos elementos não foram numericamente organizados, denominamos
tabela primitiva ou dados brutos.
2. Rol – Com o propósito de facilitar o trabalho, foi feita uma organização, a qual damos o nome
de Rol, onde os dados aparecem organizados de forma crescente ou decrescente, ficando da forma
a seguir:
DADOS ELABORADOS: Dados numéricos arranjados em ordem crescente ou decrescente.
21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31 -
32 - 33 - 33 - 33 - 34 - 34 - 35 - 35 – 36
Apresenta vantagens concretas em relação aos dados brutos. Ela torna possível visualizar,
de forma bem ampla, as variações dos dados, uma vez que os valores extremos são percebidos de
imediato. Mas, a análise com este tipo de disposição começa a se complicar quando o número de
observações tende a crescer.
Da forma, agora apresentada, poderemos verificar, com clareza e facilidade, qual a menor
idade (21 anos) e a maior idade (36 anos).
3. Amplitude total ou ”range” (A) - É a diferença entre o maior e o menor valor observado da
variável em estudo.
17
Albuquerque M. A
4. Frequências absoluta simples (fi) - É o número de vezes que o elemento aparece na amostra ou
o número de elementos pertencentes a uma classe.
5. Frequências total (ft) - É a soma das frequências simples absolutas de todos os elementos
observados. Para condensarmos melhor os dados, é aconselhável a elaboração de distribuições de
frequências. Uma tabela com distribuição de frequências é uma tabela onde se procura fazer um
arranjo dos valores e suas respectivas frequências, onde a frequências de determinado valor será
dado pelo número de observações ou repetições de um valor ou de modalidade. As tabelas de
frequências podem representar tantos valores individuais como valores agrupados em classes.
Este tipo de tabela não é aconselhável quando estamos trabalhando com variáveis que
apresentam uma grande quantidade de valores distintos, uma vez que a tabela poderá ficar muito
extensa, dificultando, além de sua elaboração, as análises e conclusões dos dados pesquisados.
Note que a soma das frequências absolutas simples é sempre igual ao número total de valores
observados.
Bem, mas, observando melhor, poderemos agrupar essas estaturas para que a tabela seja
melhor utilizada, colocando os valores em intervalos de classes ou distribuição continua, que
chamamos, a cada um deles de frequência de uma classe (número de valores da variável
pertencentes à classe (i)).
19
Albuquerque M. A
Tabela 2.8 - Idade dos alunos do curso de contabilidade da UEPB, no ano de 2022
Idade Frequências
Absoluta simples (fi)
21├ 24
24├ 27
27├ 30
30├ 33
33├ 36
Total
Fonte: pró-reitora de graduação.
O símbolo a|– b indica a inclusão do limite inferior do intervalo naquela classe.
Outras possibilidades são: a –| b, a |–| b, a –b
Para construção de tabelas de Frequências para dados agrupados em classe os 4 conceitos listados
a seguir, complementam os 5 primeiros já apresentados:
Ex 7 - Suponhamos que fizemos uma coleta de dados relativos às estruturas de quarenta alunos,
que compõem uma amostra dos alunos da turma da disciplina de Estatística, resultando a seguinte
tabela de valores:
ESTATURAS DE 40 ALUNOS
166 160 161 150 162 160 165 167 164 160
162 161 168 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164
154 161 156 172 153 157 156 158 158 161
A esse tipo de dados, cujos elementos não foram numericamente organizados,
denominamos tabela primitiva ou dados brutos.
Com o propósito de facilitar o trabalho, foi feita uma organização, a qual damos o nome
de Rol, onde os dados aparecem organizados de forma crescente ou decrescente, ficando da forma
a seguir:
ESTATURAS DE 40 ALUNOS
150 154 155 157 160 161 162 164 166 169
151 155 156 158 160 161 162 164 167 170
152 155 156 158 160 161 163 164 168 172
153 155 156 160 160 161 163 165 168 173
Da forma, agora apresentada, poderemos verificar, com clareza e facilidade, qual a menor
(150 cm) e a maior estatura (173 cm), que variação obteve entre a maior e a menor (173 – 150 =
23 cm).
20
Albuquerque M. A
21
Albuquerque M. A
Para determinar o número de classes há diversos métodos. Nós aprenderemos duas soluções:
k=1+3.3*log(10)
n k K1 K2
30 12 6 6
45 13 6 6
40 13 6 6
50 14 7 7
100 16 8 8
200 18 9 9
500 21 10 10
1000 24 11 11
3.2. Limites de Classe - Os limites de classe são seus valores extremos. No exemplo anterior de
distribuição de frequências, o valor 21 é denominado limite inferior da primeira classe, enquanto
o valor 24 é denominado limite superior da primeira classe.
3.4. Pontos Médios ou Centrais da Classe (xi) - É a média aritmética simples entre o limite
superior e o inferior de uma mesma classe.
23
Albuquerque M. A
2. Frequências Acumuladas:
O objetivo das frequências acumuladas é de permitir avaliar qual parcela da Frequências
total estará associada ao valor da variável menor que um dado valor.
É utilizada toda vez que se procura saber quantas observações existem até uma
determinada classe ou valor individual.
Tabela 2.10 - da Frequências acumulada crescente
Classes fi fac
8,3├ 9,8 5 5
9,8├ 11,3 7 12
11,3├ 12,8 9 21
12,3├ 14,3 6 27
14,3├ 14,8 3 30
Total 30
24
Albuquerque M. A
Frequências Acumulada Decrescente (Fad) – coloca-se a soma das frequências simples é vai
subtraindo o valor de cada Frequências em cada classe.
Tabela 12 - da Frequências acumulada crescente
Classes fi fad
8,3├ 9,8 5 30
9,8├ 11,3 7 25
11,3├ 12,8 9 18
12,3├ 14,3 6 9
14,3├ 14,8 3 3
Total 30
N º Est. civil Grau instr N º filhos Salário Idade Reg. Proc. Ano ingr.
1 solt fundamental 0 4,00 26 int 95
2 cas fundamental 1 4,56 32 cap 96
3 cas fundamental 2 5,25 36 cap 93
4 solt médio 0 5,73 20 outro 96
5 solt fundamental 0 6,26 40 outro 93
6 cas fundamental 0 6,66 28 int 94
7 solt fundamental 0 6,86 41 int 92
8 solt fundamental 0 7,39 43 cap 92
9 cas médio 1 7,44 34 cap 97
10 solt médio 0 7,59 23 outro 97
11 cas médio 2 8,12 33 int 98
12 solt fundamental 0 8,46 27 cap 95
13 solt médio 0 8,74 37 outro 89
14 cas fundamental 3 8,95 44 outro 94
15 cas médio 0 9,13 30 int 95
16 solt médio 0 9,35 38 outro 95
17 cas médio 1 9,77 31 cap 92
18 cas fundamental 2 9,80 39 outro 96
19 solt superior 0 10,53 25 int 96
20 solt médio 0 10,76 37 int 90
21 cas médio 1 11,06 30 outro 94
22 solt médio 0 11,59 34 cap 96
23 solt fundamental 0 12,00 41 outro 90
24 cas superior 0 12,79 26 outro 98
25 cas médio 2 13,23 32 int 95
26 cas médio 2 13,60 35 outro 95
27 solt fundamental 0 13,85 46 outro 95
28 cas médio 0 14,69 29 int 96
29 cas médio 5 14,71 40 int 94
30 cas médio 2 15,99 35 cap 92
31 solt superior 0 16,22 31 outro 97
32 cas médio 1 16,61 36 int 91
33 cas superior 3 17,26 43 cap 95
34 solt superior 0 18,75 33 cap 96
35 cas médio 2 19,40 48 cap 95
36 cas superior 3 23,30 42 int 91
Exercício
26
Albuquerque M. A
Exercício
Ex2: Suponha-se, uma empresa de fabricação de sucos verificou o consumo diário de suco de
frutas. Em uma amostra de 60 funcionários, foram obtidos os seguintes escores para cada um
(mL/dia):
192 196 173 193 195 204 235 190 194 184
194 218 204 210 214 198 196 215 202 201
203 197 195 229 207 203 208 198 194 193
195 198 189 204 202 215 199 217 195 209
181 205 183 195 183 190 182 219 170 197
207 211 206 166 194 186 227 185 201 186
Como podem ser observados, os valores estão dispostos de forma desordenada. Em razão disso,
pouca informação se consegue obter inspecionando-se os dados anotados. Mesmo uma
informação tão simples como a de saber os valores mínimos e máximos requer certo exame dos
dados coletados.
Ex3 -Número de filhos de um grupo de 50 casais de um bairro de Campina Grande em 2020
2 3 0 2 1 1 1 3 2 5
6 1 1 4 0 1 5 6 0 2
1 4 1 3 1 7 6 2 0 1
3 1 3 5 7 1 3 1 1 0
3 0 4 1 2 2 1 2 3 2
Dados brutos
Ex4 -Taxas municipais de urbanização (em percentual) no Estado da Paraíba - 2020
8 24 46 13 38 54 44 20 17 14
18 15 30 24 20 8 24 18 9 10
38 79 15 62 23 13 62 18 8 22
11 17 9 35 23 22 37 36 8 13
10 6 92 16 15 23 37 36 8 13
44 17 9 30 26 18 37 43 14 9
28 41 42 35 35 42 71 50 52 17
19 7 28 23 29 29 58 77 72 34
12 40 25 7 32 34 22 7 44 15
9 16 31 30
Fonte: Secretaria do desenvolvimento do estado
EX 5- Foi retirada uma amostra referente aos pesos de 30 alunos do curso de ciência contábeis
do 2º ano, período diurno, UEPB 2017.
52,6 71,3 60,4 56,8 75,9 60,8 42,4 49,7 73,2 68,4
51,4 50,8 45,2 63,9 74,2 65,2 82,8 41,3 58,7 62,1
46,9 72,3 57,8 65,4 47,2 51,3 59,8 44,7 60,3 56,7
Construa uma tabela de distribuição discreta e contínua.
(a) Organize os dados numa distribuição de frequência com 9 classes de amplitudes iguais.
(b) A partir da distribuição de frequência construída no item anterior, determine e interprete:
a frequência da frequência da 3ª classe, da frequência relativa da quarta classe e da
frequência acumulada da quinta classe.
28
Albuquerque M. A
29
Albuquerque M. A
Tabela 1.1: Dados dos alunos da disciplina Estatística do curso de Geografia (UEPB)
em 2018.
Tabela 1.2: Rol das alturas alunos da disciplina Estatística do curso de Geografia
(UEPB) em 2018.
1,51 1,53 1,56 1,62 1,63 1,64 1,65 1,67 1,67 1,67 1,68 1,70 1,70 1,72 1,72 1,73 1,73 1,75 1,75
1,75 1,76 1,78 1,78 1,78 1,80 1,83 1,87 1,87 1,88 1,88
30
Albuquerque M. A
Deve-se optar por uma forma ou outra de representação dos dados, isto é, não utilizar
tabela e gráfico para uma mesma informação.
O gráfico bem construído pode substituir de forma simples, rápida e atraente, dados de
difícil compreensão na forma tabular.
31
Albuquerque M. A
2. Diagramas - são gráficos em que a magnitude das frequências é representada por certa
mensuração de uma determinada figura geométrica. São os gráficos mais usados na
representação de séries estatísticas e se apresentam através de uma grande variedade de
tipos.
• Tipos de Diagramas:
Ex. O conjunto de dados abaixo (Tabela 2.16) que representa o número de filho (dos
funcionários) da empresa Albuquerque.
Tabela 2.16
Nº de filhos Frequências
0 15
1 10
2 13
3 6
4 3
5 3
Total 50
Fonte:
32
Albuquerque M. A
Figura 2.1
33
Albuquerque M. A
(d) Gráficos em Colunas - Prestam-se à mesma finalidade dos gráficos em barras horizontais,
sendo, entretanto, preferíveis a esses últimos quando as legendas a se inscreverem sob os
retângulos forem breves.
Produção da região ”XY” - 1990
300
250
200
Toneladas
150
100
50
0
Produtos
Figura 2.3
Figura 2.4
34
Albuquerque M. A
(f) Gráficos em Setores ou pizza - São utilizados para representar valores absolutos ou
porcentagens complementares.
Utilizados quando se pretende comparar cada valor da série com o total.
Figura 2.5
35
Albuquerque M. A
O gráfico é construído com base em círculos, e é empregado sempre que desejamos ressaltar a
participação dos dados no total. Tais dados são previamente transformados em números
percentuais, para depois calculados em graus convenientemente para a respectiva colocação na
circunferência.
A seguir podemos encontrar alguns tipos de diagramas, sendo que o Box-Plot será explicado
mais adiante.
2.4.5 GRÁFICOS REPRESENTATIVOS DAS DISTRIBUIÇÕES DE FREQUÊNCIAS
60
50
Número de casos
40
30
20
10
0
3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5
Ácido úrico (mg/dl)
Figura 2.6
2. Polígonos de Frequências - Unindo por linhas retas os pontos médios das bases
superiores dos retângulos do histograma, obtém-se outra representação dos dados,
denominada polígono de frequências.
36
Albuquerque M. A
60
50
Número de casos
40
30
20
10
0
3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5
Figura 2.7
Maiores informações sobre esses e outros tipos de gráfico serão fornecidas em aula pelo professor.
Exercícios
3 -Abaixo são mostrados os saldos médios de 48 contas de clientes do BB Novo S.A. (dados
brutos em US$ 1,00).
450 500 150 1000 250 275 550 500 225 475 150 450 950 300 800 275
600 750 375 650 150 500 1000 700 475 900 800 275 600 750 375 650
150 500 225 250 150 120 250 360 230 500 350 375 470 600 1030 270
(a) Agrupe os dados numa distribuição de frequências.
(b) Determine as frequências relativas: simples e acumulada.
(c) Apresente o histograma de frequências relativas
4 - Um restaurante usa um questionário para solicitar aos seus clientes uma avaliação do garçom,
da qualidade da comida, dos serviços, dos preços e do ambiente no restaurante. Cada característica
é avaliada numa escala de excelente (E), óptimo (O), bom (B), médio (M), e fraco (F). Use a
estatística descritiva para sintetizar os seguintes dados colectados sobre a qualidade da comida.
O O M F O B B M F E E O O
B B E E M O O F O O B E M
M O O O O O M F E F E O M
O O E O O O E O O M E B M
O E F F E M F M E O E E M
E E E F O E O
37
Albuquerque M. A
6 - .Abaixo são mostrados os saldos médios de 48 contas de clientes do BB Novo S.A. (dados
brutos em US$ 1,00
450 500 150 1000 250 275 550 500 225 475 150 450
950 300 800 275 600 750 375 650 150 500 1000 700
475 900 800 275 600 750 375 650 150 500 225 250
150 120 250 360 230 500 350 375 470 600 1030 270
Considere os dados da Tabela 2.2, onde temos informações sobre a turma, o sexo, a
matéria predileta (Português, Matemática, História, Geografia ou Ciências) no 2º grau e a nota
(número de questões certas) em um teste de múltipla escolha com 10 questões de matemática,
ministrado no primeiro dia de aula dos calouros de Estatística. As três primeiras variáveis são
qualitativas, enquanto nota é uma variável quantitativa discreta.
38
Albuquerque M. A
Como podemos resumir essas informações de uma forma mais clara e objetiva? Afinal, o
que nos interessa é saber quantas mulheres e quantos homens há em cada turma, quantas pessoas
tiraram 10, e assim por diante. Para isso, vamos construir tabelas ou distribuições de frequência.
Tabela 2.2: Dados sobre sexo, matéria predileta e nota de alunos de 2 turmas
Turma Sexo Predileta Nota Turma Sexo Predileta Nota Turma Sexo Predileta Nota
A F H 5 A M M 2 B F G 6
A M M 8 A M G 4 B F M 4
A F P 8 A M G 9 B M M 6
A F H 6 A M M 7 B F P 5
A M C 5 A M M 1 B M G 3
A M H 6 A F P 8 B F M 5
A F M 8 A F G 5 B M P 3
A F P 4 A M G 9 B M M 4
A F H 2 A M P 5 B F C 8
A M C 6 A F M 8 B F H 3
A F P 8 A F G 6 B M G 4
A M H 3 A F P 9 B M P 5
A M M 5 A M M 8 B M P 4
A F P 5 B F H 6 B M H 6
A F G 5 B M M 3 B M M 6
A M C 7 B F P 4 B M G 6
A M H 4 B M H 8 B M H 6
A F M 7 B M G 10 B M H 6
A F P 7 B F M 5 B F M 8
A F M 6 B F P 7 B F M 8
A M G 6 B F P 5 B F G 5
A M H 9 B M M 6 B M C 5
A F M 8 B F M 5
A M P 5 B M G 5
A M G 6 B F H 8
A F M 7 B F G 5
A M P 5 B M G 6
A F M 5 B F M 5
A F M 5 B M G 2
Variáveis qualitativas
39
Albuquerque M. A
Tabela 2.4: Distribuição da variável Matéria Predileta no Segundo Grau por turma
Matéria Predileta Frequência na Turma A Frequência na Turma B Frequência Total
no Segundo Grau Absoluta Relativa (%) Absoluta Relativa (%) Absoluta Relativa (%)
Português 10 23,81 7 18,42 17 21,25
Matemática 14 33,33 12 31,58 26 32,50
História 7 16,67 7 18,42 14 17,50
Geografia 8 19,05 10 26,32 18 22,50
Ciências 3 7,14 2 5,26 5 6,25
Total 42 100,00 38 100,00 80 100,00
Variáveis quantitativas
Vamos, agora, analisar a variável Nota, que é uma variável quantitativa discreta. Na
Tabela 2.5 temos as notas ordenadas. A listagem dos dados, mesmo ordenados, é de pouca
utilidade nas situações práticas, uma vez que, em geral, o número de observações é muito grande.
Além disso, ao se analisarem dados estatísticos, muitas vezes o interesse não está na observação
40
Albuquerque M. A
individual, mas, sim, no comportamento de grupos. Mais difícil ainda é a comparação entre os
resultados das duas turmas, uma vez que as turmas têm números de alunos diferentes.
Tabela 2.5: Notas ordenadas por turma
Turma A Turma B
1 2 2 3 3 3 3 5 5 5 5 2 3 3 3 3 4 4 4 4 4 5
5 5 5 5 5 5 5 6 6 6 6 5 5 5 5 5 5 5 5 5 5 6
6 6 6 7 7 7 7 7 8 8 8 6 6 6 6 6 6 6 6 6 7 8
8 8 8 8 8 9 9 9 9 8 8 8 8 10
A partir dos dados ordenados, podemos saber rapidamente os valores mínimo e máximo:
na Turma A as notas variam de 1 a 9 e na Turma B, de 2 a 10. Esse é o conceito de amplitude de
um conjunto de dados. Construa uma distribuição de frequência com os dados da turma A e B.
Medidas Estatísticas
3.1 Medidas de tendência central ou posição
Quando se deseja representar os dados de uma distribuição de uma forma mais simples,
por meio de um valor único, a melhor opção é a escolha de uma medida de tendência central.
Essas medidas, que representam os parâmetros ou estimativas em torno dos quais ocorre a maior
concentração dos valores observados no estudo, têm por objetivo mostrar o ponto central de
equilíbrio de uma distribuição de dados.
Vimos até agora a sintetização dos dados sob a forma de tabelas, gráficos e distribuições
de frequências.
Agora, vamos aprender o cálculo de medidas que possibilitem representar um conjunto
de dados relativos à observação de determinado fenômeno de forma resumida.
As medidas de tendência central são também chamadas de medidas de posição, e
estabelecem o valor em torno do qual os dados se distribuem.
Vale a pena chamar a atenção que, para o cálculo dessas medidas, é necessário que a
variável seja quantitativa.
41
Albuquerque M. A
3.2.2 Média Aritmética Simples: É dada pelo quociente entre a soma dos valores observados e
a Frequências total ( o número total de observações).
Sejam x1, x2, x3,.....,xn, portanto “n” valores da variável x representada por x é definida
n
x
x1 x 2 x 3 ....... x n i 1 i 1 n
x ou xi
n n n i 1
Ou, Genericamente, podemos escrever:
n
X
Some todos os elementos do conjunto de dados x i
Quantidade de elementos do conjunto x i 1
n
onde xi = valor genérico da observação
n = tamanho da amostra = número de observações
N = Número de observações da população
x = média da amostra
= média da população
Este tipo de média aritmético será calculado quando os valores não estiverem tabulados,
ou seja, quando aparecerem representados individualmente como é o caso dos dados brutos, por
exemplo.
Ex9: Temos uma amostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos
(em kg):
23,0 20,0 22,0 19,0 25,0 28, 2 24,0 21,0 27, 0 21, 0
x x 23,0
10
UTILIZANDO O MICROSOFT EXCEL: =MÉDIA(núm1;núm2;...).
42
Albuquerque M. A
Isso significa que o peso médio é de 23,0 kg. É claro que foram obtidos pesos de crianças
desta idade que se encontram abaixo ou acima do valor médio. No entanto, a média representa
um valor típico.
10 14 13 15 16 18 12 98
x 14 Logo: x 14 litros
7 7
Às vezes, a média pode ser um número diferente de todos os da série de dados que ela
representa. É o que acontece quando temos os valores 2, 4, 8 e 9, para os quais a média é 5. Esse
será o número representativo dessa série de valores, embora não esteja representado nos dados
originais. Neste caso, costumamos dizer que a média não tem existência concreta.
Calcula a média aritmética de um conjunto de dados, excluindo dos cálculos uma porcentagem
dos valores extremos. Se for informada uma porcentagem de 10%, por exemplo, serão excluídos
os 5% dos valores maiores e os 5% dos valores menores. Num conjunto de 100 dados serão
excluídos os 5 maiores valores e os 5 menores valores.
Esta eliminação dos valores extremos é para eliminar o efeito de observações discrepantes,
conhecidas como outliers, no cálculo da média aritmética.
A título de ilustração considere o conjunto de dados a seguir e com o cálculo da média aritmética
e da média aparada com m=1 (5%) das observações.
1 4 5 6 6 7 7 7 7 8 8 8 8 8 8 9 9 10 10 80
A média é: X = 10,80 a média aparada
4566 10 10
Retirando os valos 1 e 80 XA 7.5
18
43
Albuquerque M. A
3.2.3 - Média Aritmética Ponderada: É a média aritmética calculada quando os dados estiverem
agrupados em distribuições de Frequências. Os valores x1, x2, ..., xn serão ponderados pelas
respectivas frequências absolutas ou pesos p1, p2, ..., pn.
Então teremos:
n
x p i i
x i 1
onde n pi
n
Exemplo: A Tabela abaixo mostra cada uma das notas parciais obtidas por um candidato
classificado em um concurso público, com suas respectivas ponderações. Qual a média final do
candidato?
Tabela - Notas parciais do candidato A e suas respectivas ponderações
Avaliação Notas Pesos Notas . Pesos
Escrita 8,5 5
Didática 9,1 4
Prática 8,8 3
Curricular 7,4 2
Entrevista 6,0 1
Total 39,8 15
Ex. Você está assistindo a um curso no qual sua nota é determinada a partir de cinco fontes: 50%
da média de seus testes, 15% de seu exame no meio do curso, 20% de seu exame final, 10% de
seu trabalho no laboratório de computação e 5% do trabalho feito em casa. As suas notas são 86
(média dos testes), 96 (exame no meio do curso), 82 (exame final), 98 (laboratório de
computação) e 100 (trabalho de casa). Qual é a média ponderada de suas notas?
Ex - Em 2014, em certa localidade, o custo da alimentação aumentou 58%, os aluguéis subiram
47% e o transporte subiu 49%. Se um assalariado gasta 35% do seu salário com alimentação, 25%
com aluguel e 12% com transporte, qual o aumento percentual dos gastos dessa pessoa com esses
três itens?
Custo Antes do aumento Depois do aumento Total
Alimentação 0,35% 0,58% 0,35 x 0,58 = 0,203
Aluguel 0,25% 0,47% 0,25 x 0,47 = 0,118
Transporte 0,12% 0,49% 0,12 x 0,49 = 0,059
Total 0,72% 0,380 ou 38%
44
Albuquerque M. A
Para cada unidade do seu salário, a pessoa gastava, antes do aumento, 0,35 com alimentação, 0,25
com aluguel e 0,12 com transporte. Depois do aumento, ela passa a ter uma despesa adicional de
0, 58 × 0, 35 = 0, 203 com alimentação, 0, 47 × 0, 25 = 0, 118 com aluguel e 0, 49 × 0, 12 = 0,
059 com transporte, o que totaliza 0, 203 + 0, 118 + 0, 059 = 0, 380. Então, para cada unidade do
seu salário, ela tem um aumento de 0,38 nos gastos com esses três itens, ou seja,um aumento de
38%. Note que ela já gastava 0, 35+, 025 + 0, 12 = 0, 72 = 72% do salário com esses três itens.
Agora, ela passa a gastar, só com esses itens, 110%, ou seja, mais do que ganha!
Esse cálculo corresponde a uma média ponderada das taxas de aumento, onde os fatores de
ponderação correspondem às parcelas do salário gastas com os diferentes itens.
x f i i
x i 1
,onde n fi
n
Ex12 Considerando os números de crianças nascidas dos funcionários da empresa Informática
Albuquerque no ano 2022.
Tabela 2.19
Número de crianças (xi) fi Xi.fi
0 2
1 8
2 10
3 12
4 4
Total 36
Fonte: Dep. de Psicologia
Na Tabela 2.20 temos as frequências acumuladas do número de sinistros por apólice de seguro
do ramo Automóveis. Complete a tabela, calculando as frequências simples absolutas e relativas
e também as frequências acumuladas relativas.
Tabela 2.20: Número de sinistros por apólice
Número de sinistros Número de
(xi) apólices(fi)
0 2913
1 4500
2 4826
3 4928
4 5000
45
Albuquerque M. A
x
x1f1 x 2 f 2 x 3f 3 ............ x i fi
x f
i i
f1 f 2 f 3 ....... f i f i
x f i i
x i 1
, onde n f i
n
Ex13: Determinar a média da distribuição:
Tabela 2.21Nome
Renda Nº de xi xi.fi
Familiar Famílias (fi)
2├ 4 5
4├ 6 10
6├ 8 14
8├ 10 8
10├ 12 3
Total 40
Fonte: Dep. de Psicologia
n
x f i i
268
x i 1
,x 6.7
n 40
onde n f i
46
Albuquerque M. A
y xi k y x k .
Multiplicando cada observação por uma mesma constante não nula k, a média aritmética
simples fica multiplicada por essa constante. Definindo a nova série de observações por
yi kxi y kx
Ex - No mês do dissídio de uma determinada categoria, uma firma deu um aumento de 20% a
todos os seus funcionários. Se, antes do aumento, o salário médio dos funcionários era de
R$780,00, qual será o novo salário médio? No Natal seguinte, a firma dá um abono de R$50,00
para todos os funcionários. Se a firma tem 22 funcionários, qual o valor da folha de pagamentos
neste mês de dezembro?
Solução:
Quando todos os funcionários têm aumento de 20%, isso significa que cada salário fica
multiplicado por 1,2, ou seja, o salário de cada funcionário é o salário antigo mais 20%. Ao
multiplicar todos os números por uma mesma constante, a média fica multiplicada por essa
constante. Então, o salário médio fica multiplicado por 1,2, ou seja, passa a ser 1, 2×780, 00 =
R$936, 00. Como a firma tem 22 funcionários, a folha de pagamentos passa a ser 22×936 =
R$20.592, 00. No Natal, os salários de todos os funcionários ficam somados de R$50,00; logo o
salário médio também fica somado de 50,00 e a folha de pagamentos será de 20.592+22×50 =
R$21.692, 00.
47
Albuquerque M. A
Depende sempre de todos os valores do conjunto de dado e, em geral, não ocupa a posição
central do conjunto, mas sim, a posição do centro de equilíbrio. Porém, não representa
bem os conjuntos que apresentam grandes variações nos dados, pois é fortemente
influenciada por valores discrepantes (outliers) da amostra ou população.
Tópico relacionado
Como acrescentar um valor percentual a um número?
Sabemos que para acumularmos um aumento de 20%, 12% e 7% sobre o valor de um
salário, devemos multiplicá-lo sucessivamente por 1,2, 1,12 e 1,07 que são os fatores
correspondentes a tais percentuais.
A partir dai podemos calcular a média geométrica destes fatores:
48
Albuquerque M. A
geométrica dos fatores de crescimento, ou seja, 1,05 e 1,03. Logo, o rendimento médio
x1 x2 xn
n
Só que no caso da Média harmônica estamos falando do inverso destes números, então teríamos
1 1 1
x1 x2 xn
a seguinte média aritmética:
n
Além disto, como vimos que a Média harmônica é o inverso da média aritmética do inverso dos
n
referidos números, então finalmente temos: H
1 1 1
x1 x2 xn
Pois, temos x g h
Outra fórmula de calcular a média harmônica de dois números é multiplicar os dois números e
dividir o resultado pela média aritmética dos dois números. Matematicamente:
.
2
50
Albuquerque M. A
Em uma certa situação, a média harmônica provê a correta noção de média. Por exemplo,
se metade da distância de uma viagem é feita a 40 km por hora e a outra metade da distância a 60
km por hora, então a velocidade média para a viagem é dada pela média harmônica,
2 2 2.120
H 48
1 1 5 5
40 60 120
que é 48; isso é, o total de tempo para a viagem seria o mesma se viajasse a viagem inteira a 48
quilômetros por hora. (Note, entretanto que se tivesse viajado por metade do tempo em uma
velocidade e a outra metade na outra velocidade, a média aritmética, nesse caso 50 km por hora,
proveria a correta noção de média).
Da mesma forma, se um circuito elétrico contém duas resistências conectadas em
paralelo, uma com uma resistência de 40 ohm e outra com 60 ohm, então a média das resistências
das duas resistências é 48 ohm; isso é, a resistência do circuito é a mesma que a de duas
resistências de 48 ohm conectadas em paralelo. Isso não é pra ser confundido com sua resistência
equivalente, 24Ω, que é a resistência necessária para substituir as duas resistências em paralelo.
Note que a resistência equivalente é igual a metade do valor da média harmônica de duas
resistências em paralelo.
Em finanças, a média harmônica é usada para calcular o custo médio de ações compradas
durante um período. Por exemplo, um investidor compra $1000 em ações todos os meses durante
três meses. Se os preços no momento de compra forem de $8, $9 e $10, então o preço médio que
o investidor pagou por ações é de $8,926. Entretanto, se um investidor comprasse 1000 ações por
mês, a média aritmética seria usada.
A média harmônica é o método preferível para a média dos múltiplos, tais como a relação
preço/ganho , em que o preço é no numerador. Se esses índices são calculados usando uma média
aritmética (um erro comum), os pontos de dados altas são dadas maior peso do que pontos de
dados baixos. A média harmônica, por outro lado, dá um peso igual para cada ponto de dados.
Exemplo
Um veículo realizou o trajeto de ida e volta entre as cidades A e B. Na ida ele desenvolveu
uma velocidade média de 80 km/h, na volta a velocidade média desenvolvida foi de 120 km/h.
Qual a velocidade média para realizar todo o percurso de ida e volta?
Embora não tenha sido dito no enunciado, estamos considerando que os trajetos de ida e
volta têm a mesma medida.
51
Albuquerque M. A
É fácil entender que a média aritmética das velocidades seria de 100 km/h:
80 120
x 100
2
Porém a pergunta não foi qual a média das velocidades, mas sim qual a velocidade média para
realizar todo o percurso.
Vamos fazer o seguinte, já que independentemente da distância entre as cidades as
velocidades médias foram de 80 km/h na ida e de 120 km/h na volta, para facilitar a explicação
vamos arbitrar que a distância entre as cidades A e B seja de 120 km.
2 2 2.240
H 96
1 1 3 2 5
80 120 240
A velocidade média para se percorrer todo o percurso de ida e volta seria de 96 km/h.
Mediana
A mediana de um conjunto de dados corresponde ao valor que, no conjunto de dados,
separa-o em dois subconjuntos de mesmo número de elementos, quando estes estão ordenados
segundo uma ordem de grandeza. É, portanto, o valor que ocupa a posição central quando todos
os valores observados estão dispostos em ordem crescente ou decrescente de magnitude.
Colocando os valores em ordem crescente, a mediana é o valor que divide a amostra, ou
população, em duas partes iguais. Assim:
0% 50% 100%
Md
Variável discreta (dados não agrupados, porém, ordenados):
n 1
Se n for ímpar, a mediana será o elemento central (de ordem ).
2
n 1
K posição do elemento mediana. - com - posição do elemento mediana.
2
n n
Se n for par, a mediana será a média entre os elementos centrais (de ordem e 1 )
2 2
xk xk 1 n n
n é par, Me ; k1 e k2 k 1 1.
2 2 2
Ex14: 1) 2 6 4 8 7 9 10
2) 11 3 5 7 8 10 9 2
52
Albuquerque M. A
Para o conjunto A:
1º ordenar os dados: A={2, 5, 7, 9, 13, 15, 22}
2º como n é impar, = , X4 = Me=9
Para o conjunto B:
1º ordenar os dados: ={2, 5, 7, 9, 10, 16}
2º neste caso, n é par, observando a ordem X1 = 3 e X2=X1+1=3+1=4 assim, X3=7 e
79
x4=9 Md 8
2
Dados em tabelas não agrupados
1- se n é ímpar,
Consideremos a tabela das idades dos alunos da duma turma da 10ª classe
n 1 23 1
k 12 Me X 12 15anos
2 2
O número 12 indica a posição do elemento mediana e procura-se na Fi. E nesta posição
encontramos a idade 15. Porque de 10 a 18 encontramos uma sequência de 15.
53
Albuquerque M. A
2- se n é par
Consideremos os dados da seguinte tabela:
xi Fi Fac
33 6 6
45 11 17
87 17 34
88 9 43
91 5 48
Total N=48
n 48
k1 24
2 2
e k2=k1+1=24+1=25. como se pode ver na tabela, de 18 a 34 encontramos uma sequência
de 87 isto significa que na posição 24 e 25 temos o mesmo valor ou seja X24=X25=87
30 n 1 11 1
A média x 2.73 ; A moda 3; Mediana 6 é posição
11 2 2
3. utiliza-se a fórmula,
n
4. calcula-se a ordem . Como a variável é continua, não se preocupe se n é par ou ímpar,
2
5. pela fac identifica-se a classe que contém a mediana (classe md),
n
( f an )
md l md 2 h
6. utiliza-se a fórmula,
f md
54
Albuquerque M. A
Tabela 2.8 - Idade dos alunos do curso de, Educação Física da UEPB, no ano de 2014
Idade Frequências Fac Frequência Freq. Frequência Ponto Xi.fi
Absoluta relativa percentual acumulada médio
simples (fi) simples
21├ 24 7 7
24├ 27 9 16
27├ 30 1 17
30├ 33 5 22
33├ 36 8 30
Total 30
Fonte: pró-reitora de graduação.
Ex16: Dada a distribuição amostral, calcule a mediana.
Tabela 2.23
Classes fi fac
35├ 45 5 5
45├ 55 12 17
55├ 65 18 35
65├ 75 14 49
75├ 85 6 55
85├ 95 3 58
Total 58
I. Pode ser obtida em distribuições de frequências que apresentem classes com limites
indefinidos;
II. É muito empregada em pesquisas nas quais os valores extremos têm pouca importância;
III. Não é influenciada por valores extremos e sim pelo número de observações;
IV. É mais realista do que a média para representar certas variáveis com distribuições
assimétricas, como a renda dos brasileiros (existem valores discrepantes).
V. Não considera todas as observações no seu cálculo.
Moda
Dentre as principais medidas de posição, destaca-se a moda. A moda é o valor que ocorre
com maior frequência, ou seja, o valor que mais se repete na amostra de dados. Quando as
frequências são maiores nos extremos ou quando se quer destacar um valor de alta frequência, a
moda pode ser considerada para a interpretação dos dados. Com relação à moda, uma amostra de
dados pode ser classificada em amodal (não possui moda), unimodal (possui apenas uma moda),
bimodal (possui duas modas) ou multimodal (possui mais de duas modas).
Para distribuição simples (sem agrupamento em classes), a identificação da moda é
facilitada pela simples observação do elemento que apresenta maior Frequências.
UTILIZANDO O MICROSOFT EXCEL: =MODO(núm1;núm2;...).
Ex17: 2, 3, 4, 3, 5, 6, 7
10 11 14 15 11 10 17
Ex18:
Tabela 2.24
xi 243 245 248 251 307
fi 7 17 23 20 8
MÉTODO DE CZUBER
O método de Czuber permite encontrar-se a moda em dados agrupados. Como era de se
esperar, a moda estará contida na classe mais frequente ou, no histograma, a coluna mais alta.
Essa classe recebe o nome de classe modal. Dentro da classe modal a moda se situará mais
próximo àquela classe adjacente que for mais consecutivamente mais alta. Analise a fórmula e
entenda sua lógica no histograma ilustrativo da Figura 1.6.
56
Albuquerque M. A
0.15
0.10
dfr
0.05
0.00
44 46 48 50 52 54 56
Variável
I. Não é afetada por valores extremos, a não ser que estes constituam a classe modal;
II. É uma medida bastante utilizada em Estatística Econômica;
57
Albuquerque M. A
Exercícios
10 9 13 3 3 4
3 6 8 4 12 15
10 8 3 2 9 4
2 1 8 11 6 14
8 12 4 3 5 6
5 3 14 1 14 8
7 5 14 2 4 10
15 7 10 3 13 16
11 5 2 15 9 4
1 13 9 13 6 16
Rol
a) agrupar os elementos em classes;
b) construir o histograma e o polígono de Frequências;
c) calcular a média;
d) calcular a mediana;
e) calcular a moda;
Ex22. Dada à série: 1,2; 1,4; 1,5; 1,8; 2 calcular a média a mediana e a moda populacional.
Ex23: Duas empresas contataram dez pessoas com curso superior em informática. O salário
nessas companhias é mostrado a seguir.
Tabela 2.26
A Salário 41 38 39 45 47 41 44 41 37 42
B Salário 40 23 41 50 49 32 41 29 52 58
Determinar:
a. A média.
b. A moda.
c. A mediana.
d. Compare sua resposta e faça um comentário
Ex24. Um pesquisador aborda 30 transeuntes ao acaso e pergunta-lhes a idade.
58
Albuquerque M. A
35 26 39 25 39 22
42 40 39 22 21 40
16 32 39 21 28 39
18 37 23 14 27 44
30 32 21 15 26 43
Resumo
59
Albuquerque M. A
Quartis:
Medidas baseadas na ordenação dos dados
60
Albuquerque M. A
│ │ │ │ │
Mínimo Q1 Q2 Q3 Máximo
Para um conjunto de dados que tem um número ímpar de observações, o primeiro quartil
n 1
é expresso: Posição Q1
4
Para um conjunto de dados que tem um número par de observações, o primeiro quartil é
n n 1
expresso: Posição Q1 4 4
2
Segundo quartil (Q2 ou P50= md)
Para um conjunto de dados que tem um número ímpar de observações, o segundo quartil
2(n 1) n 1
é expresso: posição Q2
4 2
Para um conjunto de dados que tem um número par de observações, o segundo quartil é
2n (2n 1)
expresso: Q2 4 4
2
Terceiro quartil (Q3 ou P75)
Para um conjunto de dados que tem um número ímpar de observações, o terceiro quartil
3(n 1)
é expresso: posição Q3
4
Para um conjunto de dados que tem um número par de observações, o terceiro quartil é
3n 3(n 1)
expresso: Q3 4 4
2
61
Albuquerque M. A
IN
fACant .h
Qi lQi
4
fQi
Onde N f i
AIQ Q3 Q1
Amplitude Interquartilica Q3 Q1
AIQ 38 30.5 7.5
Quanto maior for o valor da amplitude que incorpora o valor 50% das observações, maior
será a dispersão dos dados. Além disso, a amplitude interquartílica não é afetada pelos valores
extremos. Exemplo
50%
25% 25%
Tabela 2.29
Classes fi fac
7 ├ 17 6 6
17├ 27 15 21
27├ 37 20 41
37├ 47 10 51
47├ 57 5 56
Exemplo
64
Albuquerque M. A
a) Se o fabricante do carro A quiser anunciar a melhor performance de seu teste, qual será a
medida de tendência central usada para justificar a propaganda -a média, a mediana ou a
moda? justifique sua resposta.
b) Se o fabricante do carro B quiser anunciar a melhor performance de seu teste, qual será a
medida de tendência central usada para justificar a propaganda - a média, a mediana ou a
moda? justifique seu raciocínio.
c) Se o fabricante do carro C quiser anunciar a melhor performance de seu teste, qual será a
medida de tendência central usada para justificar a propaganda -a média, a mediana ou a
moda? justifique sua resposta.
4 6 7 3 x= (4+6+7+3)/4 média 5 média x k k= 2 7
6 8 9 5 x = (6+8+9+5)/4 28/4 7 5 x 2 = 10
8+12+14+6
Medidas de dispersão ou variabilidade
Interpretar
As medidas de dispersão são utilizadas para quantificar o grau de variabilidade dos
valores de uma amostra de dados em torno da sua média.
Para avaliar o grau de variabilidade ou dispersão dos valores de um conjunto de números,
lançaremos mão das estatísticas denominadas medidas de dispersão. Essas nos
proporcionarão um conhecimento mais completo do fenômeno a ser analisado,
permitindo estabelecer comparações entre fenômenos da mesma natureza e mostrando
até que ponto os valores se distribuem acima ou abaixo da medida de tendência central.
A informação fornecida pelas medidas de posição ou tendência central necessita, em
geral, ser complementada pelas medidas de dispersão. Estas servem para indicar o quanto
os dados se apresentam dispersos em torno da região central (média, mediana e a moda).
Caracterizam, portanto, o grau de variação existente na série de valores e servem para
medir a representatividade das medidas de tendência central. As medidas de dispersão
que nos interessam são:
1. Amplitude total
2. Desvio médio,
3. Variância,
4. Desvio padrão,
5. Coeficiente de variação
65
Albuquerque M. A
Amplitude total
É a diferença entre o maior e o menor dos valores da amostra de dados. A sua utilização,
além de mostrar o maior desvio, serve para uma avaliação preliminar dos dados, verificando-se a
possibilidade de possíveis erros nas coletas destes ou nas digitações, já que as variáveis podem
apresentar extremos conhecidos..
Indicaremos por : → AT total = V valor máximo - V valor mínimo
Ex28. para a amostra 10, 12, 20, 22, 25, 33, 38.
Utilização da amplitude total como medida de dispersão é muito limitada, pois sendo uma medida
que depende apenas dos valores extremos, é instável, não sendo afetada pela dispersão dos valores
internos.
Desvio Médio
Desde que se deseja medir a dispersão os dados em relação à média, parece interessante
a análise dos desvios em torno da média. Isto é, analisar o desvio médio absoluto de um conjunto
de dados x1, x2, ..., xn é definido por
1 n 1 n
DM xi x
n 1 i 1 ou
DM
n 1 i 1
xi x fi
66
Albuquerque M. A
x
x f i i
DM
x x i fi
n 1
Idade Frequências Ponto xi . fi xi x f i
Absoluta médio
simples (fi)
21├ 24 7 22,5 7 x 22.5 22.5 28.3 x7 =40.6
24├ 27 9 25,5 9 x 25.5 25.5 28.3 x9 =25.2
27├ 30 1 28,5 1 x 28.5 28.5 28.3 x1 =0.2
30├ 33 5 31,5 5 x 31.5 31.5 28.3 x5 =16
33├ 36 8 34,5 8 x 34.5 34.5 28.3 x8 =49.6
Total 30 131.6
X
X F i i
n
Variância
A variância de uma variável x (S2) mede a dispersão dos valores entorno da média.
Obtém-se S2 pela soma de quadrados dos desvios de cada valor x1, x2,...,xn em relação a x ,
dividida pelo número de graus de liberdade da amostra. Desse modo S2 é a média dos n - 1 desvios
quadráticos e independentes.
A variância é um termo ao quadrado, podendo ser um valor em cm2 se, por exemplo, a
variável avaliada for altura em cm e, um valor kg2, se a variável for peso em kg, a qual é dada
pela seguinte fórmula:
67
Albuquerque M. A
(x x ) i
2
amostral S 2 i 1
ou
n 1
(x x )
i
2
2 i 1
se for populacional
N
Essa forma de reescrever a variância facilita quando os cálculos têm que ser feitos à mão
ou em calculadoras menos sofisticadas, pois o número de cálculos envolvidos é menor. Note que
ela nos diz que a variância é a “média dos quadrados menos o quadrado da média”.
Exemplo
A título de ilustração, vamos calcular a variância das notas de uma turma de Estatística e Cálculo.
Aluno 1 2 3 4 5 6 7 8 9
Estatística 6 4 5 7 8 3 5 5 7
Cálculo 7 8 9 10 6 7 8 9 5
Tabela 2.8 - Idade dos alunos do curso de, Educação Física da UEPB, no ano de 2014
Idade Frequências Fac Frequência Freq. Frequência Ponto Xi.fi
Absoluta relativa percentual acumulada médio
simples (fi) simples
21├ 24 7
24├ 27 9
27├ 30 1
30├ 33 5
33├ 36 8
Total 30
Propriedades da variância:
68
Albuquerque M. A
Em algumas situações, a unidade de medida da variância nem faz sentido. É o caso, por
exemplo, em que os dados são expressos em litros. A variância será expressa em litros
quadrados.
Portanto, o valor da variância não pode ser comparado diretamente com os dados da série,
ou seja: variância não tem interpretação.
Passos para calcular a variância
1. Calcular a média da distribuição (amostra);
2. Calcular o desvio de cada um dos dados em relação à média aritmética;
3. Calcular o quadrado de cada desvio;
4. Obter a soma dos quadrados dos desvios (SQ);
5. Dividir a SQ pelo valor de n - 1.
Obs. a variância deve ser expressada na mesma unidade dos dados, ao quadrado.
69
Albuquerque M. A
Desvio padrão
Observando-se a fórmula original para o cálculo da variância, nota-se que é uma soma de
quadrados. Dessa forma, se a unidade da variância for, por exemplo, metro (m) terá como
resultado metro ao quadrado (m2). Para se ter a unidade original, necessita-se definir outra medida
de dispersão, que é a raiz quadrada da variância, logo teremos o desvio padrão que é a raiz
quadrada da variância. Assim temos:
Quadro 2- Medidas de peso e do comprimento dos ovos de duas espécies de galinha poedeira.
70
Albuquerque M. A
Ex29. Dada a amostra de 7 pessoas de uma escola pública na cidade de campina Grande que possui
computador em sua casa no ano de 2013: 2, 3, 4, 5, 7, 10, 12.
Ex30. Salários anuais: Amostras dos salários anuais, em milhares de dólares, para professores de
informática das escolas elementar pública e privada estão relacionadas a seguir.
Professores da rede pública: 38,6 38,1 38,7 36,8 34,8 35,9 39,9 36,2
Professores da rede privada: 21,8 18,4 20,3 17,6 19,7 18,3 19,4 20,8
Ex32. Foi retirada uma amostra dos alunos de uma escola no bairro do catolé, que foi sorteada
também o bairro e a escola no ano de 2000. Encontra a média, o desvio médio, o desvio padrão e
a amplitude total.
71
Albuquerque M. A
Tabela 2.32 -
Classes fi
2├ 4 2
4├ 6 4
6├ 8 7
8├ 10 4
10├ 12 3
Total 20
O CV fornece uma ideia de precisão experimental: quanto menor o CV, menor a variabilidade e
melhor a precisão experimental. Por outro lado, quanto maior o CV, maior será a variabilidade
experimental e pior será a precisão experimental.
O CV de variação é extremamente afetado pela escala da variável resposta. Por esse motivo ele
é, em geral, apenas um bom indicador para comparar variáveis semelhantes.
No R pode-se utilizar:
CV 100 se for populacional
x
S
CV 100 se for amostral
x
72
Albuquerque M. A
xi fi xi.fi xi x f i ( xi x )2 fi
5 2
7 3
8 5
9 4
11 2
Total 16
x S
Estaturas:
s 5
CVe x100 CVe x100
x 175
CVe 0, 0285 x100 CVe 2,85%
Pesos:
s 2
CV p x100 CV p x100
x 68
CV p 0, 0294 x100 CV p 2,94%
Ex33. Na empresa Albuquerque, o salário médio dos homens é de 4.000,00, com desvio padrão de
1.500,00, e o das mulheres é em média de 3.000,00, com desvio padrão de 1.200,00. Calcule o
coeficiente de variação e diga qual o que apresentou maior dispersão.
Ex34. Sabendo que um conjunto de dados apresenta para média ( x ) 18,3 e desvio-padrão 1,47,
calcule o coeficiente de variação.
Ex35. Uma distribuição apresenta as seguintes estatísticas: s = 1,5 e CV = 2,9%. Calcule a média.
Ex36. Em um exame final de Matemática, o grau médio de um grupo de 150 alunos foi de 7,8 e o
desvio-padrão, 0,80. Em Estatística, entretanto, o grau médio final foi de 7,3 e o desvio-padrão,
0,76. Em que disciplina foi maior a dispersão (coeficiente de variação)?
Erro-padrão da média
s 1.691895 1.691895
EP sx 0.4227
n 16 4
74
Albuquerque M. A
S sx
S sx 1.691895 0.4227
Embora aparentemente difícil, este conceito é bastante fácil de ser entendido quando se
conhece a aplicação do erro padrão da média: medir a variabilidade de um conjunto de médias de
uma mesma população, em vez da variabilidade das observações individuais, como o faz o desvio
padrão. Ou seja, o erro padrão nos dá uma ideia de quão (em que grau ou a comparação) variável
pode ser a média retirada de uma população. Por exemplo, responda intuitivamente: qual dos
procedimentos teria mais chance de mostrar a verdadeira média populacional, se tomássemos uma
amostra de n elementos ou se medíssemos toda população? É claro que seria medir toda a
população como um todo, procedimento este que, na maioria dos casos, não é possível de ser
feito. Na prática, trabalhamos, quase sempre, com amostras.
Do mesmo modo, quando se obtém uma amostra aleatória de tamanho n, de uma
população, o objetivo é estimar a média populacional. Porém, é razoável supor que, se uma outra
amostra for retirada da mesma população, a média desta segunda amostra será algo diferente da
primeira. Assim, se retiramos várias amostras, estas estarão sujeitas a uma dada variação, e
formarão, portanto, uma população de médias amostrais. Essa variação na composição das
amostras depende do erro aleatório e é conhecida como erro amostral, e o erro padrão da média
estima à variação desta população de médias.
Portanto, ao se retirar de uma população todas as possíveis amostras aleatórias de
tamanho n, obter-se-á um conjunto de médias amostrais, que, se tomadas cada uma delas como
se fosse uma observação individual, e representadas em um histograma, este mostrará uma curva
denominada Distribuição Amostral das Médias (DAM), a qual segue os padrões da distribuição
normal gaussiana, sendo o desvio padrão dessa distribuição, o próprio erro padrão. Por
conseguinte, quanto maior o número das amostras, mais a forma da distribuição amostral das
médias (DAM) se aproxima da forma da curva normal gaussiana, qualquer que seja a forma da
distribuição na população, isto é, mesmo que a distribuição da variável na população não seja
normal. A este princípio estatístico dá-se o nome de Teorema do Limite Central.
Assim, como a distribuição amostral das médias segue o padrão da curva normal
gaussiana, a área total sob ela é igual a 1, com 68% das médias, aproximadamente, situadas no
intervalo entre EP e EP, ao passo que, aproximadamente 95% estão entre o intervalo
2EP e 2 EP.
75
Albuquerque M. A
Na pratica, a distribuição amostral das médias pode ser considerada como normal sempre
que n 30 e, quanto maior o tamanho da amostra n, menor será o erro padrão e melhor será a
estimativa da média da população.
Diante disto, podemos afirmar que o erro padrão é um parâmetro que permite ao
pesquisador fazer dois tipos de inferências: estimar o tamanho provável do erro ao redor dos
estimadores estatísticos, como a média, por exemplo, e realizar testes de significância estatística
para verificação de hipóteses
Exemplo:
Os valores abaixo se referem às estaturas, em centímetros, de uma amostra de cinco rapazes, cujo
desvio padrão é igual a 3,84 cm. Determinar o erro padrão da média para a amostra considerada.
Medidas de Assimetria
76
Albuquerque M. A
Existem várias fórmulas para o calculo do coeficiente de assimetria, dentre elas são úteis:
x Mo
AS
Mo se for populacional ou
AS
S se for amostral
Segundo coeficiente de Pearson (Coeficiente de Bowley)
Q3 Q1 2Q2
AS
Q3 Q1
Se:
Pode-se utilizar qualquer uma das fórmulas para identificar o grau de assimetria de distribuição.
Tabela 2.8 - Idade dos alunos do curso de Educação Física da UEPB, no ano de 2019
Idade fi
21├ 24 7
24├ 27 9
27├ 30 1
30├ 33 5
33├ 36 8
Total 30
77
Albuquerque M. A
1 x x
4
b2 i 3
n s
78
Albuquerque M. A
Outra maneira
Q3 Q1
K
2( P90 P10 )
79
Albuquerque M. A
O gráfico Box Plot (ou desenho esquemático) é uma análise gráfica que utiliza cinco
medidas estatísticas: valor mínimo, valor máximo, mediana ou segundo quartil, primeiro e
terceiro quartil da variável quantitativa. Este conjunto de medidas oferece a ideia da posição,
dispersão, assimetria, caudas e dados discrepantes. A posição central é dada pela mediana e a
dispersão pelo desvio interquartílico dq= Q3 - Q1. As posições relativas de Q1 , Q2 e Q3 dão uma
noção da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão
do retângulo aos valores atípicos.
Um outlier ou ponto discrepante é um valor que se localiza distante de quase todos os
outros pontos da distribuição. A distância a partir da qual considera-se um valor como discrepante
é aquela que supera 1,5dq. De maneira geral, são considerados outliers todos os valores inferiores
Li = Q1 - 1,5 (Q3 - Q1) ou os superiores a Ls = Q 3+ 1,5 (Q3 - Q1).
A construção de um box-plot exige que tenhamos as seguintes informações:
valor mínimo;
primeiro quartil;
mediana = 2 º quartil;
terceiro quartil; e
valor máximo.
Como a mediana revela uma tendência central, ao passo que os quartis indicam a
dispersão dos dados (através do calculo do intervalo interquartil), os box-plot tem a vantagem de
não serem tão sensíveis a valores extremos como outras medidas baseadas na media e no desvio
padrão.
Um dos aspectos mais convenientes do uso dos box-plot e a possibilidade de comparação
entre dois ou mais conjuntos de dados.
80
Albuquerque M. A
ou os superiores a
Ls = Q 3+ 1,5 (Q3 - Q1).
81
Albuquerque M. A
Exemplo
Tempo de espera 88 77 70 80 74 82 85 96 76 67 80 75 73 93 72
Tempo de espera 67 70 72 73 74 75 76 77 80 80 82 85 88 93 96
Então: 1 x 16 /4 = 4
Passo 3 - No interior de retângulo, traçar uma linha vertical no valor que corresponde à mediana
(77 minutos).
Passo 4 - Traçar uma linha horizontal que se estende do retângulo ao menor valor (67 minutos),
e outra que se estende do retângulo ao maior valor (96 minutos).
Figura 111- Distribuição de frequência dos tempos de espera dos clientes de um lava-jato
Interpretando o gráfico
O box plot mostra que 50% das lavagens ocorrem no espaço de tempo compreendido
entre 73 min e 85 min. A amplitude interquartílica equivale a 12 minutos. A Figura 111 também
mostra que a distribuição é inclinada positivamente (para a direita). Neste caso, duas informações
82
Albuquerque M. A
indicam esta inclinação: primeira, a linha à direita do retângulo, que se estende de Q3 (85 min)
até o maior valor (96 min), é maior que a linha situada à esquerda do retângulo, a qual se estende
de Q1 (73 min) até o menor valor (67 min); em outras palavras, 25% dos dados, maiores que o
terceiro quartil, apresentam uma amplitude maior que os 25% dos dados que são menores que o
primeiro quartil. A segunda indicação é que a mediana não está posicionada no centro do
retângulo. Ela encontra-se visivelmente deslocada para a esquerda. Ou seja, a distância entre Q1
(73 min) e a mediana (77 min) é menor que a distância entre a mediana e Q 3 (85 min). Embora
essas distâncias sejam diferentes, o número de lavagens entre elas é igual para ambas; isto é, o
número de lavagens entre 73 min e 77 min é igual ao número de lavagens entre 77 min e 85 min.
Medidas incorretas (invalidas) - Esta situação costuma ocorrer quando o pesquisador utiliza
equipamentos descalibrados ou defeituosos para a medição de suas variáveis; ou quando a leitura
do dado observado é incorreta, por desatenção do observador; ou quando o valor de uma
observação é registrado incorretamente no banco de dados.
Medidas de fonte diferente - Ocorre quando a medida, mesmo que corretamente mensurada,
pertence a uma população diferente daquela de onde os dados em estudo foram retirados.
Medidas raras - Nesta condição, a medida foi registrada corretamente e pertence à mesma
população de onde foi retirada toda a amostra, mas é resultante de um evento raro.
Portanto, qualquer que seja a causa do valor outlier, o bom senso manda que ele seja
retirado do conjunto de dados, e, se possível, substituído por uma nova observação. Neste sentido,
dois são os métodos utilizados para que se possam detectar valores outliers: o primeiro é o método
gráfico, que utiliza o box blot; e o segundo é o método numérico, que utiliza os valores z (z-
escores). Geralmente, ambos produzem resultados idênticos.
83
Albuquerque M. A
Tabela 2.33 -
Classes fi
3├ 8 10
8├ 13 12
13├ 18 18
18├ 23 5
Total
Ex36. - Completar os dados que falta e calcular o desvio padrão e o coeficiente de variação.
Tabela 2.34 -
xi fi fac
1 4
2 8
3 30
4 27
5 15
6 72
7 11 83
8 93
Total
84
Albuquerque M. A
Ex40 - Se somarmos a todos os elementos de uma série um número, o que acontece com a média
e a variância da série?
Ex4 1- Qual o objetivo da Estatística
Ex42 - Defina Estatística.
85
Albuquerque M. A
0,4 2,6 3,3 4,5 5,3 6,9 8,4 9,5 11,8 16,0
0,8 2,7 3,8 4,5 5,5 7,4 8,5 10,0 12,4 16,2
2,3 2,7 3,9 4,6 5,6 7,5 8,7 10,5 12,9 17,8
2,3 2,9 4,4 4,8 6,3 7,6 9,0 10,6 13,1 18,8
2,4 3,2 4,4 5,0 6,3 7,9 9,2 11,6 15,6 20,1
86
Albuquerque M. A
Ex47 - As taxas de juros recebidos por 10 ações durante um certo período foram (medidas em
porcentagem) 2,5; 2,6; 2,6; 2,6; 2,5; 2,5; 2,6; 2,5; 2,6; 2,6. Calcule a média, a mediana, a
moda e o desvio padrão.
y=c(2.5, 2.6, 2.6, 2.6, 2.5, 2.5, 2.6, 2.5, 2.6, 2.6)
sd(y) 0.05163978
mean(y) 2.6
median(y) 2.6
moda 2.6
Ex48 - Cronometrando o tempo para várias provas de uma gincana automobilística, encontramos:
Equipe I: 40 provas
Tempo médio: 45 segundos.
Variância: 400 segundos ao quadrado
x
x f
i i
Ex49 - O salário médio mensal pago aos funcionários da Empresa Albuquerque Ltda, foi
de R$ 199 no primeiro semestre de 2019. Sabendo-se que no início de agosto a média
havia subido para R$ 217, pede-se calcular:
EX50 O capital da Empresa Albuquerque Ltda, é formado pelo aporte dos acionistas, por
financiamento de longo prazo e pela emissão de debêntures. Cada tipo de capital possui um custo
anual diferente dado por uma taxa de juros anual, conforme o quadro:
Tabela 2.37 -
Fonte de capital Participação em R$ Taxa de juros
Acionistas 2400 12%
Financiamento de longo prazo 1200 8%
Debêntures 400 14%
Ex51 O supermercado Albuquerque anuncia uma liquidação em que o preço de determinado bem
de consumo diminuiu em 400%. Pede-se comentar esse anúncio, indicando se o mesmo está certo
ou errado.
88
Albuquerque M. A
Ex54 Em um grupo de 600 hóspedes do Hotel Albuquerque & cia Ltda., tem-se os seguintes
valores com relação ao tempo de permanência no hotel:
Média 9 dias;
1 º Quartil 5 dias
3º Quartil 15 dias
Coeficiente de variação 20%
Pede-se:
a) quantos hóspedes permanecem mais de 15 dias;
b) quantos hóspedes permanecem entre 5 e 15 dias;
c) o desvio-padrão para o tempo de permanência;
d) supondo que os hóspedes permanecessem mais dois dias, calcular a nova média, o desvio-
padrão e o coeficiente de variação.
Ex55. Considerem a seguinte amostra de um conjunto de dados.
100 200 300 400 500 600 700 800 900 1000
a) Obtenha a média e o desvio padrão. a) x 550, s 302,765
b) Multipliquem cada entrada por 10. Obtenha a média e o desvio padrão para os novos
dados.
c) Dividam os dados originais por 10. Obtenha a média e o desvio padrão para os novos
dados.
d) Adicionem 10 dos dados originais. Obtenham a média e o desvio padrão para os novos
dados.
e) O que vocês podem concluir dos resultados de (a), (b), (c) e (d)?
Ex 56 - A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre foi
baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiu-
se fazer uma campanha de divulgação. Para verificar se a campanha foi ou não eficiente, fez-se
um levantamento da idade dos candidatos à última promoção, e os resultados estão na tabela a
seguir.
Tabela 2.39 -
Idade Frequência Porcentagem
18|- 20 18 36
20|- 22 12 24
22|- 26 10 20
26|- 30 8 16
30|- 36 2 4
Total 50 100
89
Albuquerque M. A
a) Baseando-se nesse resultado, você diria que a campanha produzir algum efeito. (Isto é,
aumentou a idade média)
b) Um outro pesquisador decidiu usar a seguinte regre: se a diferença x 22 fosse maior
que o valor 2 desvio padrão (X) / n , então a campanha teria surtido efeito. Qual a
conclusão dele, baseados nos dados?
c) Calcule o coeficiente de variação.
d) Calcule o erro padrão
90
Albuquerque M. A
Nesse caso, será considerado como investimento básico a média final das observações, calculadas
da seguinte maneira:
a) Obtém-se uma média inicial.
b) Eliminam-se do conjunto aquelas observações que forem superiores à média inicial mais
duas vezes o desvio padrão, ou inferiores à média inicial menos duas vezes o desvio
padrão.
c) Calcula-se a média final com o novo conjunto de observações.
Qual o investimento básico que você daria como resposta?
Ex 59 - O departamento Pessoal de uma certa empresa faz um levantamento dos salários dos 120
funcionários do setor administrativo, obtendo os resultados (em salários mínimos) da tabela
abaixo.
Tabela 2.40 – departamento Pessoal de uma certa empresa
Faixa salarial Frequência fi xi xi.fi
relativa
0|-- 2 0,25
2|-- 4 0,40
4|-- 6 0,20
6|-- 8 0,15
Total 1.00
Fonte: departamento de recurso humano
a) esboce o histograma
b) calcule a média, a variância e o desvio padrão.
c) calcule o 1º quartil e a mediana
d) se for concedido um aumento de 100% para os 120 funcionários, haverá alteração na média?
E na variância? justifique sua resposta.
e) se for concedido um abono de dois salários mínimo para todos os funcionários haverá alteração
na média? E na variância? Justifique sua resposta.
32 40 22 11 34 40 16 26 23 31 27 10 38 17 13
45 25 10 18 23 35 22 30 14 18 20 13 24 35 29
33 48 20 12 31 39 17 58 19 16 12 21 15 12 20
51 12 19 15 41 29 25 13 23 32 14 27 43 37 21
28 37 26 44 11 53 38 46 17 36 28 49 56 19 11
91
Albuquerque M. A
Ex62 -As informações abaixo indicam o número de acidentes ocorridos com 70 motoristas de uma
empresa de ônibus nos últimos 5 anos:
Nº DE ACIDENTES 0 1 2 3 4 5 6 7
Nº DE MOTORISTAS 15 11 20 9 6 5 3 1
92
Albuquerque M. A
Tabela 2.2: Dados sobre sexo, matéria predileta e nota de alunos de 2 turmas
Turma Sexo Predileta Nota Turma Sexo Predileta Nota Turma Sexo Predileta Nota
A F H 5 A M M 2 B F G 6
A M M 8 A M G 4 B F M 4
A F P 8 A M G 9 B M M 6
A F H 6 A M M 7 B F P 5
A M C 5 A M M 1 B M G 3
A M H 6 A F P 8 B F M 5
A F M 8 A F G 5 B M P 3
A F P 4 A M G 9 B M M 4
A F H 2 A M P 5 B F C 8
A M C 6 A F M 8 B F H 3
A F P 8 A F G 6 B M G 4
A M H 3 A F P 9 B M P 5
A M M 5 A M M 8 B M P 4
A F P 5 B F H 6 B M H 6
A F G 5 B M M 3 B M M 6
A M C 7 B F P 4 B M G 6
A M H 4 B M H 8 B M H 6
A F M 7 B M G 10 B M H 6
A F P 7 B F M 5 B F M 8
A F M 6 B F P 7 B F M 8
A M G 6 B F P 5 B F G 5
A M H 9 B M M 6 B M C 5
A F M 8 B F M 5
A M P 5 B M G 5
A M G 6 B F H 8
A F M 7 B F G 5
A M P 5 B M G 6
A F M 5 B F M 5
A F M 5 B M G 2
Turma<-c("A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A",
"A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A","A",
"A","A","A","A","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B",
"B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B",
"B","B")
length(Turma)
Sexo<-c("F","M","F","F","M","M","F","F","F","M","F","M","M","F","F","M","M","F",
"F","F","M","M","F","M","M","F","M","F","F","M","M","M","M","M","F","F","M","M",
"F","F","F","M","F","M","F","M","M","F","F","F","M","F","M","F","F","M","F","M",
"F","F","M","F","M","F","M","M","F","F","M","M","M","M","M","M","M","M","F","F",
"F","M")
Predileta<-c("H","M","P","H","C","H","M","P","H","C","P","H","M","P","G","C","H",
"M","P","M","G","H","M","P","G","M","P","M","M","M","G","G","M","M","P","G","G",
"P","M","G","P","M","H","M","P","H","G","M","P","P","M","M","G","H","G","M","G",
"G","M","M","P","G","M","P","M","C","H","G","P","P","H","M","G","H","H","M","M",
"G","G","C")
length(Predileta)
Nota<-c(5,8,8,6,5,6,8,4,2,6,8,3,5,5,5,7,4,7,7,6,6,9,8,5,6,7,5,5,5,2,4,9,7,1,8,5,
9,5,8,6,9,8,6,3,4,8,10,5,7,5,6,5,5,8,5,6,5,2,6,4,6,5,3,5,3,4,8,3,4,5,4,6,6,
6,6,6,8,8,5,5)
length(Nota)
sort(Nota)
summary(Nota)
# números de elementos
length(Sexo)
93
Albuquerque M. A
x=c(20,7,5,9,6,21,24,10,12,22,21,16,13,6,6,2,19,3,10,7,2,18,4,6,18,12,4,13,9,3)
mean(x) #obtendo o valor da média
median(x) #observe que não é necessário ordenar
moda(x) #após introduzir a função de cálculo de moda no R
sd(x) #obtendo o desvio padrão
sqrt(var(x))
range(x) #mostra o min(x) e o max(x)
max(x)-min(x) #amplitude total obtida de forma indireta
###########################
x<-c(33,17,39,78,29,32,54,22,38,18) #conjunto de dados
var(x) #variância
sd(x) #desvio padrão
max(x)-min(x) #amplitude total
sd(x)/sqrt(length(x)) #erro padrão da média
sd(x)/mean(x)*100 #coeficiente de variação em %
summary(x)
## Quartis de salario
quantile(x) ## obtendo os quartis
IQR(x) ## obtendo a amplitude interquartílica## diferença entre Q3-Q1
#install.packages("moments")
dados=c(2,5,6,7,9,10,8,5,7,9,11,14,12,11,14)
library(moments)
skewness(Salario) #obtendo a simetria Assimetria
Covariância e Correlação
x<-c(1,2,3,4,5) #criando um vetor qualquer
y<-c(6,7,8,9,10) #criando outro vetor
cov(x,y) #obtendo a covariância entre x e y
cor(x,y) #obtendo a correlação
94
Albuquerque M. A
95