Escolar Documentos
Profissional Documentos
Cultura Documentos
Apostila de Estatística - Profa Eveliny
Apostila de Estatística - Profa Eveliny
2 Estatística Descritiva 5
2.1 Classificação de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Tipos de séries estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Análise de Variáveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.1 Distribuição de Frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.2 Representação Gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Análise de Variáveis Quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.1 Distribuição de Frequências - Variável Discreta. . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4.2 Representação Gráfica - Variável Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4.3 Distribuição de Frequências - Variável Contínua. . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.4 Representação Gráfica - Variável Contínua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Somatório 20
5 Separatrizes 30
5.1 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2 Decis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Medidas de Dispersão 32
6.1 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.2 Amplitude Interquartílica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.4 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
2
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
1 Introdução
O surgimento da palavra Estatística deriva da palavra latina statisticum collegium que significa “conselho de Es-
tado”. Há indícios de que 3000 anos A.C. já se faziam censos na Babilônia, China e Egito e até mesmo o 4o livro do
Velho Testamento faz referência a uma instrução dada a Moisés, para que fizesse um levantamento dos homens de Israel
que estivessem aptos para guerrear. Usualmente, estas informações eram utilizadas para a taxação de impostos ou para
o alistamento militar. O Imperador César Augusto, por exemplo, ordenou que se fizesse o Censo de todo o Império Ro-
mano. Contudo, mesmo que a prática de coletar dados sobre colheitas, composição da população humana ou de animais,
impostos, etc., fosse conhecida pelos egípcios, hebreus, caldeus e gregos, e se atribuam a Aristóteles cento e oitenta descri-
ções de Estados, apenas no século XVII a Estatística passou a ser considerada disciplina autônoma, tendo como objetivo
básico à descrição dos bens do Estado. A palavra Estatística foi cunhada pelo acadêmico alemão Gottfried Achenwall
(1719-1772), que foi um notável continuador dos estudos de Hermann Conrig (1606- 1681). Gottfried determinou os ob-
jetivos da Estatística e suas relações com as demais ciências. Com a Escola Alemã as tabelas tornaram-se mais completas,
surgiram as representações gráficas e o cálculo das probabilidades, e a Estatística deixou de ser simples catalogação de
dados numéricos coletivos para se tornar o estudo de como chegar a conclusões sobre o todo (“população”), partindo da
observação de partes desse todo (“amostras”). Atualmente, os estudos estatísticos têm avançado rapidamente e, com seus
processos e técnicas, têm contribuído para a organização dos negócios e recursos do mundo moderno.
(Fonte: http://www.ifba.edu.br/dca/Corpo_Docente/MAT/ICCL/APOSTILA_DE_ESTAT_STICA.pdf)
mundo moderno.
A Estatística é uma ciência cujo campo de aplicação estende-se a diversas áreas do conhecimento humano. Em
função da facilidade que o uso dos computadores nos proporciona, muitos pesquisadores consideram-se aptos a fazerem
análises e inferências estatísticas sem um conhecimento mais aprofundado dos conceitos e teorias. Tal prática, em geral,
resulta em interpretações equivocadas e muitas vezes errôneas.
No desenvolvimento científico e em nosso próprio dia-a-dia, estamos sempre fazendo observações de fenômenos,
gerando dados. Quando as pessoas ouvem a palavra “estatística”, imaginam logo taxas de acidente, índices de mortali-
dade, litros por quilômetro etc. Os agrônomos estão frequentemente analisando o efeito de agrotóxicos na agricultura,
os engenheiros analisam dados de propriedades de materiais e todos nós, ao lermos jornais e revistas, estamos vendo
resultados estatísticos provenientes do censo demográfico, de pesquisas eleitorais etc.
Entende-se a Estatística como um conjunto de técnicas que permite, de forma sistemática, organizar, descre-
ver, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento.
Denomina-se por dados um (ou mais) conjunto de valores, numéricos ou não.
As variáveis são o foco principal da pesquisa em ciências. Uma variável é simplesmente algo que pode variar,
isto é, pode assumir valores ou categorias diferentes. Alguns exemplos de variáveis são gênero (sexo), velocidade de
digitação, número de sintomas registrados de uma doença, nível de ansiedade, número de gols em uma partida de futebol,
cores favoritas etc. Estes são exemplos de itens que se pode medir e registrar e que variam de uma situação ou pessoa para
outra.
As análises estatísticas dependem da forma como os dados são coletados e o planejamento estatístico da pesquisa
indica o esquema sob o qual os dados serão obtidos. Portanto, o planejamento da pesquisa e a análise estatística dos
dados estão intimamente ligados. Dessa forma, o pesquisador deve possuir um razoável conhecimento de estatística para
desenvolver suas pesquisas ou, então, consultar um estatístico para auxiliá-lo. Esta consulta deve ser feita antes do início
da pesquisa, ainda durante a fase de elaboração do projeto. 1
3
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
4
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
2 Estatística Descritiva
Os métodos estatísticos envolvem a análise e a interpretação de números, tais como renda anual, vendas men-
sais, escores de testes, no de peças defeituosas etc. Tais números são designados por dados. Para interpretar os dados
corretamente, em geral é preciso primeiro organizar e sumarizar os números. 3
2.1.1 Exercícios
1. O que você entende por Estatística?
2. Quais as ramificações da Estatística? Defina e explique as funções de cada uma.
3. Por que motivo devemos saber como classificar as variáveis a serem estudadas?
4. De acordo com a estrutura numérica como podem ser classificadas as variáveis? Explique cada uma.
5. Em um estudo estatístico a característica de interesse pode ser qualitativa (nominal ou ordinal) ou quantitativa
(discreta ou contínua). Classifique as variáveis nos exemplos que se seguem:
a) população: moradores de certa cidade
variável: cor dos olhos (pretos, castanhos, azuis, verdes)
b) população: casais residentes em certa cidade
variável 1: número de filhos
variável 2: classe econômica
c) população: candidatos ao vestibular
variável 1: renda familiar
variável 2: sexo (masculino, feminino)
variável 3: número de pessoas na família
3 BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.
5
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
• Série Geográfica - É aquela que apresenta como elemento variável somente o local (fator geográfico). Ex: Casos de
dengue nos municípios de Sinop, Rondonópolis e Cuiabá no ano de 2002.
– Elemento variável: Local
– Elementos Fixos: Época e Fenômeno
Tabela 2: Casos de dengue nos municípios de Sinop, Rondonópolis e Cuiabá no ano de 2002.
Municípios No de casos
Cuiabá 32
Rondonópolis 15
Sinop 9
Fonte: Dados fictícios.
• Série Específica - É aquela série que apresenta como elemento ou caráter variável o fenômeno (ou espécie), perma-
necendo fixos a época e o local. Ex: Os alunos de uma Faculdade, em determinado ano, classificados segundo o
tipo sanguíneo.
– Elemento variável: Fenômeno
– Elementos Fixos: Local e Época
• Série Mista - refere-se às séries que são combinações de outros tipos de séries já estudadas.
Alguns exemplos de séries mistas serão apresentadas a seguir:
1. Série Geográfica - Temporal:
4 CRESPO, A.A.; Estatística Fácil. Editora: Saraiva.
6
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 3: Classificação de alunos de uma Faculdade, em determinado ano, segundo o tipo sanguíneo.
Tipo Sanguíneo Número de alunos
A 96
B 149
AB 132
O 92
Fonte: Dados fictícios.
Tabela 4: Taxa de atividade feminina urbana (em percentual) em três regiões do Brasil. 1981/90.
Região Ano
1981 1984 1986 1990
Norte 28,9 30,3 34,0 37,1
Nordeste 30,2 32,6 34,3 37,8
Sudeste 34,9 37,2 40,1 40,7
Fonte: Anuário Estatístico do Brasil - 1990
Tabela 5: Consumo em kg, de alguns tipos de alimentos “per capita” anual em algumas regiões metropolitanas do Brasil
- 1988.
Cidades Alimento
Hortaliças Carne Pescado
Belo Horizonte 44,5 21,6 1,3
Rio Janeiro 54,3 24,7 4,9
São Paulo 46,7 26,1 2,9
Fonte: Anuário Estatístico do Brasil - 1988
2.2.1 Exercícios
1. A séria Estatística é chamada de Histórica ou Temporal quando:
a) O elemento variável é o tempo. b) O elemento variável é o local. c) Não tem elemento variável.
2. Abaixo encontramos algumas tabelas. Calcule a porcentagem, faça um breve comentário sobre os resultados e diga
que tipo de série estatística cada tabela pertence:
7
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
8
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 10: Distribuição de frequências da Opinião dos alunos a respeito das salas de cinema na cidade.
Opinião Regular a boa Muito boa
frequência(fi ) 32 18
frequência relativa (f ri ) 0,64 0,36
frequência percentual(f ri (%)) 64 36
Fonte: Tabela 9 - Notas de Aula.
Segundo Barbetta et al. (2004), as freqüências relativas em percentual são úteis ao se comparar tabelas ou pesquisas
diferentes. Por exemplo, quando amostras (ou populações) têm números de elementos diferentes, a comparação através
das freqüências absolutas pode resultar em afirmações errôneas enquanto que pelas freqüências relativas em percentual
não, pois os percentuais totais são os mesmos.
Para efetuar uma análise comparativa de várias distribuições, podemos construir um gráfico de barras múltiplo. A
figura a seguir é um exemplo de gráfico de barras múltiplo.
9
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Figura 2: Distribuição das porcentagens da resistência a ferrugem de híbridos de milho para as regiões preferenciais.
Quando os retângulos são colocados na posição vertical, temos os gráficos de colunas. A finalidade desse tipo de
gráfico é a mesma dos gráficos de barras, isto é servem para comparar grandezas.
Figura 4: Distribuição das porcentagens da resistência a ferrugem de híbridos de milho para as regiões preferenciais.
10
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
O gráfico de pizza (ou setores) é um dispositivo gráfico comumente usado para apresentar as distribuições de
frequência relativa e de frequência percentual para dados qualitativos.
Para desenhar um gráfico de pizza primeiro desenha-se um círculo e então usa-se as frequências relativas para
subdividir o círculo em setores ou partes, que correspondem à frequência relativa para cada classe. Por exemplo, como o
círculo tem 360 graus e a categoria “Regular a boa” tem uma frequência relativa de 0,64, o setor do gráfico rotulado de
“Regular a boa” consiste em 0, 64 × 360 = 230.4 graus.
Gráfico de linhas : Sua aplicação é mais indicada para representações de séries temporais sendo por tal razão,
conhecidos também como gráficos de séries cronológicas. Sua construção é feita colocando-se no eixo vertical (y) a
mensuração da variável em estudo e na abscissa (x), as unidades da variável numa ordem crescente. Este tipo de gráfico
permite representar séries longas, o que auxilia detectar suas flutuações tanto quanto analisar tendências. Também podem
ser representadas várias séries em um mesmo gráfico.
Figura 6: Número de matriculas no curso de engenharia civil da UEM no período de 1999 a 2005.
Fonte: Guedes, T.A; Acorsi, C.R.L; Martins, A.B; Janeiro, V. Projeto de Ensino - UEM.
11
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
2.3.3 Exercícios
1. Construa uma tabela para descrever o seguinte gráfico:
Figura 7: Composição do rebanho bovino da fazenda capim branco, Araguari - MG - Brasil, 2005.
2. A equipe de nadadores de Cuiabá apresentou-se no Campeonato Brasileiro de Natação de 1987 com 20 nadadores
do estilo borboleta, 30 de costa, 60 estilo craw e 50 estilo peito. Descreva esses dados em uma tabela. Que tipos de
gráficos podem melhor representar esses dados. Trace 2 gráficos entre todos possíveis.
12
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
4. Para adequar os produtos às preferências dos clientes, uma empresa fez uma pesquisa sobre os provedores e a
qualidade dos serviços prestados utilizando uma amostra de 20 clientes, obtendo as seguintes variáveis:
17 16 18 17 15 15 16 14 14 16 16 14 17 16 18
17 15 14 17 16 17 15 17 18 16 14 18 15 15 18
Fonte: Lima, A.C.P; Magalhães, M.N. Noções de Probabilidade e Estatística. Editora Edusp. 2004.
1. Dados Brutos - É o conjunto dos dados numéricos obtidos após a coleta dos dados.
No exemplo:
Variável de estudo: Tempo (em dias completos) de completo fechamento em cortes provenientes de uma
cirurgia;
Classificação: A variável “Tempo” sozinha é classificada como contínua, pois pode assumir qualquer valor
em um intervalo. Como no exemplo só interessa ao pesquisador coletar dias completos, a variável deixa de
ser contínua e passa a ser discreta.
Dados Brutos:
17 - 16 - 18 - 17 - 15 - 15 - 16 - 14 - 14 - 16 - 16 - 14 - 17 - 16 - 18 - 17 - 15 - 14 - 17 - 16 - 17 - 15 - 17 - 18 -
16 - 14 - 18 - 15 - 15 - 18
13
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Como pode ser observado, os valores estão dispostos de forma desordenada. Em razão disso, pouca informa-
ção se consegue obter inspecionando-se os dados anotados. Mesmo uma informação tão simples como a de
saber os valores mínimos e máximo requer um certo exame dos dados coletados.
2. Rol - É o arranjo dos dados brutos em uma determinada ordem crescente ou decrescente.
Ex: Utilizando os mesmos dados anteriores:
14 - 14 - 14 - 14 - 14 - 15 - 15 - 15 - 15 - 15 - 15 - 16 - 16 - 16 - 16 - 16 - 16 - 16 - 17 - 17 - 17 - 17 - 17 - 17 - 17 -
18 - 18 - 18 - 18 - 18
Apresenta vantagens concretas em relação aos dados brutos. Ele torna possível visualizar, de forma bem ampla, as
variações dos dados, uma vez que os valores extremos são percebidos de imediato. Mas, a análise com este tipo de
disposição começa a se complicar quando o número de observações tende a crescer.
3. Amplitude total (H) - É a diferença entre o maior e o menor valor observado da variável em estudo.
Ex: Utilizando os mesmos dados anteriores:
H = 18 - 14 = 4.
Interpretação: No exemplo, H = 4, representa a diferença entre o tempo de cicatrização mais lento e o mais rápido,
ou seja, 4 dias. OBS: A amplitude total também é usada como uma medida de variabilidade dos dados, quanto
maior a amplitude maior a variabilidade do conjunto.
4. Frequência absoluta simples (fi ) - Já apresentada anteriormente, conta o número de vezes que o elemento aparece
na amostra ou o número de elementos pertencentes a uma classe (ou categoria).
5. Frequência Acumulada (Fi ) - Índica o número de itens de dados observados até aquele dado valor (ou classe). A
frequência acumulada auxiliará no cálculo da mediana e de separatrizes, medidas de posição (ou tendência central)
que serão apresentadas na próxima seção.
Para condensarmos melhor os dados, é aconselhável a elaboração de distribuições de frequência. Uma tabela com
distribuição de frequência é uma tabela onde se procura fazer um arranjo dos valores e suas respectivas frequências, onde a
frequência de determinado valor será dado pelo número de observações ou repetições de um valor ou de uma modalidade.
As tabelas de frequências podem representar tanto valores individuais como valores agrupados em classes.
Tabela 12: Distribuição de frequências referente aos tempos de cicatrização (em dias completos) de 30 cobaias.
Tempos(Xi ) 14 15 16 17 18 Total(n)
fi 5 6 7 7 5 30
Fonte: Lima, A.C.P; Magalhães, M.N. Noções de Probabilidade e Estatística. Editora Edusp. 2004.
A soma das frequências absolutas simples (fi ) é sempre igual ao número total de valores observados, ou seja, n =
Pk
i=1 i , onde k é o número de valores distintos observados. No exemplo acima temos 5 valores diferentes observados,
f
consequentemente 5 fi0 s.
OBS: Este tipo de tabela não é aconselhável quando se trabalha com variáveis que apresentam uma grande quan-
tidade de valores distintos (mesmo sendo dados discretos), uma vez que a tabela poderá ficar muito extensa, dificultando,
além de sua elaboração, as análises e conclusões dos dados pesquisados.
14
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Figura 8: Gráfico de colunas referente aos tempos de cicatrização (em dias completos) de 30 cobaias.
Figura 9: Gráfico de barras referente aos tempos de cicatrização (em dias completos) de 30 cobaias.
Figura 10: Gráfico de setores referente aos tempos de cicatrização (em dias completos) de 30 cobaias.
15
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
16,3 15,2 12,3 13,7 14,1 11,1 12,2 11,7 12,5 13,9 12,3 14,4 13,6 12,7 12,6
13,5 12,7 12,3 13,5 15,4 11,3 11,7 12,6 13,4 15,2 13,2 13,0 16,9 15,8 14,7
Fonte: Lima, A.C.P; Magalhães, M.N. Noções de Probabilidade e Estatística. Editora Edusp. 2004.
7 6 8 7 5 5 6 4 4 6 6 4 7 6 8
7 5 4 7 6 7 5 7 8 6 4 8 5 5 8
Fonte: Dados fictícios.
24 - 23 - 22 - 28 - 35 - 21 - 23 - 33 - 34 - 24 - 21 - 25 - 36 - 26 - 22 -
30 - 32 - 25 -26 - 33 - 34 - 21 - 31 - 25 - 31 - 26 - 25 - 35 - 33 - 31
Fonte: Dados fictícios.
(A) Devido a grande diversidade de valores nas taxas de hemoglobina no sangue medidas em operários da construção
civil a melhor forma de tabular os dados é agrupando-os em classes. Para construção de tabelas de frequências para
dados agrupados em classes os 4 conceitos listados a seguir, complementam os 5 primeiros já apresentados:
1. Definição do número de classes (k) - É importante que a distribuição conte com um número adequado de
classes. Se esse número for escasso, os dados originais ficarão tão comprimidos que pouca informação poderá
ser extraida desta tabela. Se, por outro lado, forem utilizadas muitas classes, haverá algumas com frequência
nula ou muito pequena, apresentando uma distribuição irregular e prejudicial a interpretação do fenômeno.
Para determinar o número de classes há diversos métodos. Milone (2004, p.36) apresenta os seguintes critérios
para a determinação do√ número de intervalos, denotado por k:
1. Raiz quadrada: k = n;
2. Regra de Sturges: k = 1 + 3, 3 log n;
3. Regra de Milone: k = −1 + 2 × ln n;
Neste curso será adotado o método a seguir:
16
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
√
k = 5, para 20 ≤ n ≤ 25 e k = n, para n > 25;
Deve-se lembrar que sendo k o número de classes, o resultado obtido por cada um dos critérios deve ser
o número inteiro mais próximo ao obtido. Milone (2004) acrescenta ainda que, adotando o princípio de
que os agrupamentos devem ter no mínimo cinco e no máximo 20 classes, o critério da raiz é valido para
25 ≤ n ≤ 400, o do log para 16 ≤ n ≤ 572.237 e o do ln para 20 ≤ n ≤ 36.315.
Mesmo tendo outros critérios de determinação do número de classes, o que se deve ter em mente é que a
escolha dependerá sobretudo da natureza dos dados e da unidade de medida em que eles se encontram, e não
somente de regras muitas vezes arbitrárias e pouco flexíveis. Para facilitar a análise é conveniente que se
mantenham os intervalos de classe sempre constantes. A experiência do pesquisador também conta muito
na definição das classes.
√
No exemplo: k = 30 ∼ = 5, 48 = 5 classes;
2. Amplitude do Intervalo de Classe (h) - A amplitude de um intervalo de classe corresponde ao comprimento
desta classe. Numericamente, sua amplitude pode ser definida como a diferença existente entre os limites
superior (ou inferior) de duas classes consecutivas (h = ls − li ).
H
h=
k
Ex: Utilizando os mesmos dados anteriores: h = 16,9−11,1 5 = 5, 8/5 = 1, 16
3. Limites de Classe - Os limites de classe são seus valores extremos. O símbolo ` indica a inclusão do
limite inferior do intervalo naquela classe e símbolo a indica a inclusão do limite superior do intervalo na-
quela classe. Neste curso adotaremos o símbolo ` na construção das classes, pois ele é o mais usual. Para a
construção das classes temos:
li1 : Limite inferior da 1a classe; Usualmente é o menor valor da amostra. No exemplo: 11,1.
ls1 : Limite superior da 1a classe; ls1 = li1 + h. No exemplo: 11,1 + 1,16 = 12,26.
li2 : Limite inferior da 2a classe; li2 = ls1 . No exemplo: 12,26.
ls2 : Limite superior da 2a classe; ls2 = li2 + h. No exemplo: 12,26 + 1,16 = 13,42.
Para a n-ésima classe:
lin : Limite inferior da na classe; lin = ls(n−1) . Ou seja, será igual ao limite superior da classe imediatamente
anterior.
lsn : Limite superior da na classe; lsn = lin + h.
4. Pontos Médios ou Centrais da Classe (P mi ) - É a média aritmética simples entre o limite superior e o inferior
de uma mesma classe.
Ex: Utilizando os mesmos dados anteriores: P m1 = (11,1 + 12,26)/2 = 11,68.
Para obter os pontos médios das demais classes, basta acrescentar ao ponto médio da classe precedente a
amplitude do intervalo de classe. No exemplo anterior: P m2 = h + P m1 = 1, 16 + 11, 68 = 12, 84, e assim
sucessivamente.
Tabela 13: Distribuição de frequências referente as Taxas de hemoglobina no sangue (em gramas/ cm3 ) de 30 operários
da construção civil.
Tx Hemoglobina P mi fi f ri f ri (%) Fi
11,10 ` 12,26 11,68 5 0,1667 16,67 5
12,26 ` 13,42 12,84 11 0,3667 36,67 16
13,42 ` 14,58 14,00 7 0,2333 23,33 23
14,58 ` 15,74 15,16 4 0,1333 13,33 27
15,74 ` 16,90 16,32 3 0,1000 10,00 30
Total - 30 1 100 -
Fonte: Lima, A.C.P; Magalhães, M.N. Noções de Probabilidade e Estatística. Editora Edusp. 2004.
Na Tabela 26 temos que na 1a classe serão contados na amostra elementos a partir do 11,10 até o 12,25, na 2a classe
serão contados os elementos a partir do 12,26 até o 13,41 e assim por diante.
A representação gráfica das distribuições de frequências para dados em classes é feita através do histograma e/ou
polígono de frequências.
17
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
1. Histograma - É um gráfico formado por um conjunto de retângulos justapostos, de forma que a área de cada
retângulo seja proporcional à frequência da classe que ele representa.
2. Polígonos de Frequência - Unindo por linhas retas os pontos médios das bases superiores dos retângulos do
histograma, obtém-se outra representação dos dados, denominada polígono de frequência
Figura 11: Histograma e Polígono de frequências referente as taxas de hemoglobina no sangue de 30 operários da cons-
trução civil.
3. Apresentação Ramo-e-Folha - Apresenta a forma e ordem dos dados. Pode ser utilizado na organização dos
dados antes de dispor na tabela.
Exemplo: Um dos principais indicadores da poluição do ar nas grandes cidades é a concentração de ozônio na
atmosfera. O nível de concentração de ozônio na atmosfera foi medido em São Paulo durante o inverno de 1998, e
os resultados são apresentados a seguir:
1 1 4 4 4 6 7
2 0 4 5 5 8
3 0 0 1 1 3 4 4 5 5 7 7 7 8 9
4 0 1 1 2 4 4 4 5 7 7 7 7
5 1 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9
6 0 0 0 1 2 2 2 5 6 6 6 6 7 8 8 8
7 4 5 6 6
8 1
9 4 4
10 9
Exercício: A partir do ramo e folha acima, disponha os dados em uma tabela de frequências.
(B) Agora iremos analisar a situação (B) descrita anteriormente onde a variável de estudo era Notas dos alunos da 6a
série na disciplina de português. Apesar dos valores apresentados serem inteiros, a variável “Nota” pode assumir
qualquer valor em um intervalo, por exemplo: 6,5. Como no exercício não foi especificado que o professor adotaria
apenas números inteiros, esta variável é classificada como contínua.
PASSO 1 - Calcular a amplitude total (H): H = 8 - 4 = 4; (amplitude pequena)
18
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 15: Distribuição de frequências referente as notas dos alunos da 6a série na disciplina de português.
Notas(Xi ) 4 5 6 7 8 Total(n)
fi 5 6 7 7 5 30
f ri (%) 16,67 20,00 23,33 23,33 16,67 100
Fonte: Dados fictícios.
Figura 12: Gráfico de setores referente as notas dos alunos da 6a série na disciplina de português.
(C) Agora iremos analisar a situação (C) descrita anteriormente, variável discreta com grande variedade de valores. A
variável de estudo é Idade (em anos completos) dos alunos da UFMT - 2010, como no exemplo já foi especificado
que as idades observadas seriam em anos completos, esta variável só assume valores inteiros, por isso é classificada
como discreta.
PASSO 1 - Rol das observações:
Ex: Utilizando os mesmos dados anteriores:
21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31 -32 - 33 - 33 - 33 - 34 -
34 - 34 - 35 - 35 - 36
Tabela 16: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.
Idade(Xi ) 21 22 23 24 25 26 28 30 31 32 33 34 35 36 TOTAL(n)
fi 3 2 2 1 4 3 1 1 3 1 3 3 2 1 30
Fonte: Dados hipotéticos.
Observando a Tabela 16, podemos perceber a grande diversidade de valores e a extensão da tabela. Por conta desta
tabela não resumir tanto as informações iremos colocar estes dados em classes.
Na Tabela 17 temos que na 1a classe serão contados na amostra elementos a partir do 21 até o 23,99, na 2a classe
serão contados os elementos a partir do 24 até o 26,99 e assim por diante.
Representação Gráfica:
19
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 17: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.
Idade P mi fi f ri f ri (%) Fi
21 ` 24 22,5 7 0,23 23 7
24 ` 27 25,5 8 0,27 27 15
27 ` 30 28,5 1 0,03 3 16
30 ` 33 31,5 5 0,17 17 21
33 ` 36 34,5 9 0,30 30 30
TOTAL - 30 1 100 -
Fonte: Dados hipotéticos.
Figura 13: Histograma e Polígono de frequências referente as idades dos alunos do curso de estatística da UFMT 2010.
2.4.5 Exercícios
1. Em um estudo sobre o potencial de germinação de sementes de algodão dividiu-se uma área em 48 parcelas com a
mesma área, tipo de solo, iluminação, etc. Em cada uma destas parcelas foram plantadas 4 sementes e verificou-se
o número de sementes que germinaram. Os dados obtidos são apresentados a seguir:
2 0 0 4 3 0 0 1 0 0 1 1 0 0 0 1
2 1 1 1 1 1 1 0 0 0 3 0 0 0 0 0
0 0 2 0 0 1 1 2 0 2 0 0 0 0 0 0
3 Somatório
Nas próximas seções serão vistos alguns coeficientes estatísticos que fazem uso do somatório. Um somatório é um
operador matemático que nos permite representar facilmente somas muito grandes ou até infinitas. É representado com a
20
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Observações:
n
X n
X n
X
xi yi 6= xi yi
i=1 i=1 i=1
n n
!2
X X
x2i 6= xi
i=1 i=1
Exemplos:
Seja X = {4, 7, 9, 12, 3}, obter:
X5 4
X X 5
xi = 35, 2xi = 64, 3xi = 93
i=1 i=1 i=2
3
X 3
X
Sabendo que xi = 6, x2i = 14, determinar
i=1 i=1
3
X 3
X 3
X
a) (xi + 1) = xi + 1=6+3=9
i=1 i=1 i=1
X3 X3 3
X 3
X 3
X
2
x2i x2i
b) (xi − 1) = − 2xi + 1 = −2 xi + 1 = 14 − 12 + 3 = 5.
i=1 i=1 i=1 i=1 i=1
21
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
4.1 Média
É a medida de tendência central mais comumente utilizada para descrever resumidamente uma distribuição de
frequência (centro de massa de um conjunto dados).
Notação:
X̄ é chamada média amostral e
µ é a média populacional.
Observações:
• A média é afetada por valores extremos;
(a) Média Aritmética Simples: É dada pelo quociente entre a soma dos valores observados e a frequência total (
o número total de observações). Genericamente, podemos escrever:
n
X xi
X̄ =
i=1
n
Exemplo: Em uma pesquisa foram coletados os pesos de recém-nascidos (em kg): 2,7; 3,9; 4,1; 4,3; 5,4;
A média aritmética será dada por:
2, 7 + 3, 9 + 4, 1 + 4, 3 + 5, 4
X̄ = = 4, 08
5
Exemplo:
Interpretação: A idade média dos pacientes renais observados foi de aproximadamente 32,26 anos.
22
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 20: Pesos dos alunos do curso de estatística da UFMT, no ano de 2010.
Pesos(kg) Frequência (fi ) P mi
59 ` 63 3 61
63 ` 67 5 65
67 ` 71 9 69
71 ` 75 12 73
75 ` 79 11 77
TOTAL 40 -
Fonte: Dados fictícios.
Interpretação: O peso médio dos alunos do curso de estatística 2010 da UFMT, foi de 71,3 Kg.
OBS: Perde-se um pouco de precisão na média quando estamos trabalhando com dados agrupados em classes.
a) multiplicando-se todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada por
essa constante;
Seja X = {x1 , x2 , x3 , · · · , xn } uma amostra aleatória de tamanho n, c uma constante e X̄ a média da amostra.
7 SPIEGEL, Murray R. Estatística, 3a Edição. Editora Pearson. 1993.
23
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Se multiplicarmos ou dividirmos todos os valores de uma variável X pela constante c, o valor de X̄ MÉDIA fica
multiplicada ou dividida pela constante.
n
X
cxi
∗ i=1
X̄ =
n
n
X
xi
i=1
= c
n
= cX̄
b) somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do conjunto fica acrescida
ou diminuída dessa constante.
Seja X = {x1 , x2 , x3 , · · · , xn } uma amostra aleatória de tamanho n, c uma constante e X̄ a média da amostra.
Se somarmos ou subtrairmos todos os valores de uma variável X pela constante c, o valor de X̄ MÉDIA fica
multiplicada ou dividida pela constante.
n
X
(xi + c)
∗ i=1
X̄ =
n
n
X n
X
xi + c
i=1 i=1
=
n
n
X n
X
xi c
i=1 i=1
= +
n n
nc
= X̄ +
n
= X̄ + c
4.1.2 Exercícios:
1. Sejam dados referentes a um levantamento onde observou-se o número de peças defeituosas em 25 máquinas de
uma empresa.
24
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 22: Dados ordenados, relativos ao tempo em segundos para carga de um aplicativo num sistema compartilhado (30
observações).
6,94 7,27 7,46 7,97 8,03 8,37
8,56 8,66 8,88 8,95 9,30 9,33
9,55 9,76 9,80 9,82 9,98 9,99
10,14 10,19 10,42 10,44 10,66 10,88
10,88 11,16 11,80 11,88 12,25 12,34
Fonte: Dados fictícios.
X( n ) +X( n +1)
(b) n par: M d = 2
2
2
;
Exemplos:
(a) n ímpar:X = {1, 3, 6, 7, 9}. M d = X( 5+1 ) = X(3) , logo a mediana será dada pelo 3o elemento, M d = 6.
2
Interpretação da Mediana: Metade das observações vão até 6 e a outra metade é maior (ou igual) que 6.
X( 6 ) +X( 6 +1)
(b) n par:X = {1, 3, 6, 7, 9, 12}. M d = 2 2 2 , logo a mediana será dada pela média entre o 3o elemento
X +X
e o 4o elemento, M d = (3) 2 (4) = 6+7 2 = 6, 5. Interpretação da Mediana: Metade das observações vai até
6,5 e a outra metade é maior (ou igual) que 6,5.
Tabela 23: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.
Idade(xi ) 21 22 23 24 25 26 28 30 31 32 33 34 35 36 Total
fi 3 2 2 1 4 3 1 1 3 1 3 3 2 1 30
Fi 3 5 7 8 12 15 16 17 20 21 24 27 29 30 -
Fonte: Dados fictícios.
Solução:
X( 30 ) +X( 30 +1)
Como n = 30 (par), o elemento mediano será dada por: Xmd = 2
2
2
;
X(15) +X(16)
Assim, a mediana será dada pela média aritmética entre o 15o e o 16o elemento, M d = 2 ;
8 BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.
25
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Se olharmos as frequências acumuladas (Fi ) na Tabela 23 veremos que o 15o elemento se encontra na 6a
coluna e o 16o elemento na 7a coluna e as idades correspondentes a cada coluna são:
Interpretação: 50% dos alunos do curso de estatística de 2010 tem idade igual ou superior a 27 anos;
onde,
l = limite inferior da classe mediana;
h = amplitude do intervalo da classe mediana;
n
2 = posição do elemento mediano;
Fant = frequência acumulada até a classe anterior à classe mediana;
fmd = frequência absoluta simples da classe mediana.
Exemplo 1:
Tabela 24: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.
Idade P mi fi f ri f ri (%) Fi
21 ` 24 22,5 7 0,23 23 7
24 ` 27 25,5 8 0,27 27 15
27 ` 30 28,5 1 0,03 3 16
30 ` 33 31,5 5 0,17 17 21
33 ` 36 34,5 9 0,30 30 30
TOTAL - 30 1 100 -
Fonte: Dados hipotéticos.
Exemplo 2:
Encontre a mediana utilizando os dados da tabela a seguir:
Pesos(kg) Frequência
59 ` 63 3
63 ` 67 5
67 ` 71 9
71 ` 75 12
75 ` 79 11
TOTAL 40
Solução 1: Somando-se as três primeiras frequências têm-se 3 + 5 + 9 = 17. Logo, para obtermos o 20o peso (n/2)
desejado, são necessários mais 3 dos 12 casos existentes na 4a classe. Como o 4o intervalo de classe é dado por 71 ` 75,
a mediana situa-se a 3/12 da distância entre 71 e 75 e é:
3
M d = 71 + (75 − 71) = 72.
12
Solução 2: Utilizando o histograma também podemos encontrar a mediana:
26
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Em cada coluna do histograma temos as frequências das respectivas classes, mais uma vez, somando-se as três
primeiras frequências têm-se 3 + 5 + 9 = 17. Logo, para obtermos o 20o peso (n/2) desejado, são necessários mais 3 dos
12 casos existentes na 4a classe. Assim a mediana será dada por:
M d − 71 75 − 71
=
3 12
3(75 − 71)
M d − 71 =
12
M d = 1 + 71 = 72.
27
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 25: Distribuição de frequências da Opinião dos alunos a respeito das salas de cinema na cidade.
Opinião Regular a boa Muito boa
frequência(fi ) 32 18
Fonte: Estatística Básica - Daniel Furtado.
Para dados agrupados a moda se localiza na classe de maior freqüência (classe modal) e é obtida por meio da
expressão (Moda de Czuber): 9
∆1
Mo = l + h
∆1 + ∆ 2
• l é o limite inferior da classe modal;
• h é a amplitude da classe modal;
• ∆1 é a diferença da freqüência da classe modal e a freqüência da classe imediatamente anterior;
• ∆2 é a diferença da freqüência da classe modal e a freqüência da classe imediatamente posterior.
Exemplo: Utilizando a Tabela 26 temos:
Tabela 26: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.
Idade P mi fi f ri f ri (%) Fi
21 ` 24 22,5 7 0,23 23 7
24 ` 27 25,5 8 0,27 27 15
27 ` 30 28,5 1 0,03 3 16
30 ` 33 31,5 5 0,17 17 21
33 ` 36 34,5 9 0,30 30 30
TOTAL - 30 1 100 -
Fonte: Dados hipotéticos.
9−5
M o = 33 + 3
(9 − 5) + (9 − 0)
Mo ∼
= 33 + 0, 92 ∼
= 34.
Interpretação: A idade mais frequente entre os alunos do curso de estatística 2010 é 34 anos.
28
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
• Moda
4.5 Simetria
A determinação das medidas de posição permite discutir sobre a simetria da distribuição dos dados.
• Distribuição simétrica - X = Md = Mo
• Distribuição assimétrica - ocorrem diferenças entre os valores da média, mediana e moda. A assimetria pode ser:
4.6 Exercícios
1. Para os exercícios (1) e (2) da seção 4.1.2, páginas 24 e 25, calcule:
a) As medidas de posição para os dados brutos, interprete os resultados obtidos;
b) As medidas de posição para os dados tabulados. Houve diferença nos resultados? Justifique.
c) Verifique se as distribuições dos dados são simétricas ou assimétricas (à direita ou à esquerda).
2. Em um estudo sobre o potencial de germinação de sementes de algodão dividiu-se uma área em 48 parcelas com a
mesma área, tipo de solo, iluminação, etc. Em cada uma destas parcelas foram plantadas 4 sementes e verificou-se
o número de sementes que germinaram. Os dados obtidos são apresentados a seguir:
2 0 0 4 3 0 0 1 0 0 1 1 0 0 0 1
2 1 1 1 1 1 1 0 0 0 3 0 0 0 0 0
0 0 2 0 0 1 1 2 0 2 0 0 0 0 0 0
144 152 159 160 160 151 157 146 154 145
141 150 142 146 142 141 141 150 143 158
29
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
5 Separatrizes
São as medidas que separam o rol ou a distribuição de frequências em partes iguais. Vimos que a mediana divide
a distribuição em duas partes iguais quanto ao número de elementos de cada parte. Agora vamos estudar outras medidas
que dividem a distribuição em partes iguais, são as chamadas separatrizes. São elas: 10
Quartis - Dividem a amostra em 4 partes iguais;
Decis - Dividem a amostra em 10 partes iguais;
Percentis - Dividem a amostra em 100 partes iguais;
5.1 Quartis
Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:
A regra para obtenção dos valores dos quartis, a partir da posição encontrada, será dada por:
quando n é impar, o arredondamento deve ser para cima da posição encontrada; e
quando n é par , devemos fazer a média do valor encontrado e do subsequente.
Exemplo 1: para n ímpar- X = {11, 12, 12, 14, 14, 17, 19}, vamos calcular o quartil 1 desse conjunto:
1. Fazer o Rol das observações em ordem crescente;
2. Encontrar a posição do elemento:
in
EQi =
4
EQ1 = 1×7
4 = 1, 75o ∼
= 2o elemento,
Q1 = 12. Interpretação: 25% das observações são menores que 12 ou 75% das observações são superiores ou
iguais a 12.
Exemplo 2: para n par - X = {11, 12, 12, 14, 14, 17, 19, 19}, vamos calcular o quartil 3 desse conjunto:
1. Fazer o Rol das observações em ordem crescente;
2. Encontrar a posição do elemento:
in
EQi =
4
3×8
EQ3 = 4 = 6o . Entre o 6o e 7o elemento,
Q3 = 17+19
2 = 18. Interpretação: 75% das observações são menores que 18 ou 25% das observações são superiores
ou iguais a 18.
30
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
No exemplo, EQ1 = 1×49 4 = 12, 25o ; Como n é ímpar arredondaremos para o número acima da posição encon-
o
trada, logo será o 13 elemento;
Olhando na Fi , o 13o elemento corresponde ao valor 28, ou seja, 25% dos pacientes renais observados têm até 28
anos.
Se o n fosse par, fariámos a média aritmética do elemento que antecede o EQi e o posterior.
,→ Exemplo 4:
Tabela 28: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.
Idade P mi fi f ri f ri (%) Fi
21 ` 24 22,5 7 0,23 23 7
24 ` 27 25,5 8 0,27 27 15
27 ` 30 28,5 1 0,03 3 16
30 ` 33 31,5 5 0,17 17 21
33 ` 36 34,5 9 0,30 30 30
TOTAL - 30 1 100 -
Fonte: Dados hipotéticos.
Para dados agrupados em classes, encontraremos os quartis de maneira semelhante à usada para o cálculo da
mediana:
EQi − Fant
Qi = l + h
fqi
onde,
l = limite inferior da classe que contem o quartil desejado;
h = amplitude do intervalo de classe;
EQi = elemento quartílico;
Fant = frequência acumulada da classe anterior à classe quartílica;
fqi = frequência absoluta simples da classe quartílica.
No exemplo das idades EQ1 = 1×30 4 = 7, 5o , como os dados estão em classes, olha-se o Fi mais próximo de
EQi , analisando a Tabela acima, temos que a 2a classe será a classe quartílica pois na 1a classe observamos até 7
elementos e o que passar disso cai na classe seguinte, logo:
7, 5 − 7 ∼
Q1 = 24 + 3 = 24, 2.
8
Interpretação: 25% dos estudantes tem até 24,2 anos. O Q1 encontrado aqui é diferente do quartil calculado para os
dados originais não tabulados, essa diferença se justifica pois nos dados em classes perdemos um pouco na precisão.
10 BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.
31
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Do mesmo modo, para determinar a ordem ou posição do Percentil a ser calculado, usaremos a seguinte expressão:
in
EDi = , i = 1, 2, 3, · · · , 99;
100
Interpretação: 90% dos estudantes tem até 35 anos. O P90 encontrado aqui será diferente do Percentil achado
usando os dados brutos, essa diferença se justifica pois nos dados em classes perdemos um pouco na precisão.
5.3 Exercícios
1. Para os exercícios (1) e (2) da seção 4.1.2, páginas 24 e 25, calcule Q1 , Q3 e P95 . Interprete os resultados.
2. Para os dados da Tabela 8 calcule Q3 e D8 . Interprete os resultados.
3. Considere os seguintes dados sobre a distribuição de valores de metabolismo basal (cal/dia) em 36 adolescentes:
910 1280 1220 1120 1040 1070 980 1310 1240 1140 1110 1020
1190 1090 1010 1380 1270 1280 1210 1110 1040 1460 1420 1270
960 1300 1240 1130 1070 1080 1000 1360 1260 1180 1200 1100
6 Medidas de Dispersão
Uma breve reflexão sobre as medidas de tendência central permite-nos concluir que elas não são suficientes para
caracterizar totalmente uma sequência numérica. Se observarmos as sequências:
X : 10, 1, 18, 20, 35, 3, 7, 15, 11, 10.
Y : 12, 13, 13, 14, 12, 14, 12, 14, 13, 13.
Z : 13, 13, 13, 13, 13, 13, 13, 13, 13, 13.
32
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
concluiremos que todas possuem a mesma média 13. No entanto são sequências completamente distintas do ponto de
vista de variabilidade dos dados. Na sequência Z não há variabilidade dos dados. Na sequência Y , a média 13 representa
bem a série, mas existem elementos da série levemente diferenciados da média 13. Na sequência X os elementos estão
bem diferenciados da média 13. As medidas de dispersão serão usadas para avaliar a representatividade da média. 11
H = 36 − 21 = 15 anos,
6.3 Variância
É a medida de dispersão mais usada e mais importante. Mede a concentração dos dados em torno da média. É dado
pela soma dos quadrados dos desvios dividido pelo número total de observações. A notação S 2 é usada para representar
a variância amostral.
Exemplo: Calcular a variância do conjunto A = {10, 12, 13, 20, 25, 34, 45}, X̄= 22,71.
Na Tabela 29 di é chamadado de desvio, a soma do desvio é nula. A soma dos desvios ao quadrado dividido por
n − 1 resulta na variância e a raíz quadrada da variância é o desvio-padrão.
∼ 13 e S 2 = 167, 9.
p
Logo, S = 1007, 4/6 =
2. Desvio-Padrão (S): É a raíz quadrada da variância. Deixa a medida de variabilidade na mesma unidade de medida
dos dados, diferente da variância. Exemplo: Se calculamos a variância das alturas de um conjunto de 10 crianças,
essa variância terá como unidade de medida cm2 e o desvio padrão cm, mesma unidade de medida das observações
coletadas.
11 BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.
33
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
3. Variância de dados tabulados em distribuição de frequências: Quando os valores vierem dispostos em uma tabela
de frequências, o cálculo da variância se fará através da seguinte fórmula:
k 2
X
2 Xi − X̄ fi
S = (3)
i=1
n−1
Exemplo: Os dados a seguir referem-se as vendas de determinada empresa e produtividade de seus vendedores.
Tabela 30: Distribuição de frequências referente às vendas de determinada empresa e produtividade de seus vendedores.
Vendas(x 1000 - R$)(xi ) No de vendedores(fi ) xi fi x2i fi
70 1 70 702 × 1
120 12 1440 1202 × 12
170 27 4590 1702 × 27
220 31 6820 2202 × 31
270 10 2700 2702 × 10
Total 81 15620 3187400
Fonte: Dados hipotéticos.
34
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 31: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.
Idade P mi fi P mi fi P m2i fi
21 ` 24 22,5 7 157,5 22, 52 × 7
24 ` 27 25,5 8 204 25, 52 × 8
27 ` 30 28,5 1 28,5 28, 52 × 1
30 ` 33 31,5 5 157,5 31, 52 × 5
33 ` 36 34,5 9 310,5 34, 52 × 9
TOTAL - 30 858 25231,5
Fonte: Dados hipotéticos.
• Devemos ter em mente que o desvio-padrão mede a variação entre valores. Assim:
• Se os valores estiverem próximos uns dos outros, então o desvio-padrão será pequeno, e consequentemente os dados
serão homogêneos.
• Se os valores estiverem distantes uns dos outros, então o desvio-padrão será grande, e consequentemente os dados
serão heterogêneos.
• A desvantagem do uso da variância perante o uso do desvio-padrão é que a unidade de medida utilizada é igual ao
quadrado da unidade de medida dos dados. No entanto, por conta da maior facilidade do trato algébrico com funções
quadráticas, a variância será a medida de dispersão mais utilizada quando tratarmos da inferência estatística.
X̄ s
Estaturas 175 cm 5,0 cm
Pesos 68 kg 2,0 kg
Fonte: Dados hipotéticos.
Temos:
5
CVE = × 100 = 2, 85%
175
35
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
2
CVP = × 100 = 2, 94%
68
Logo, nesse grupo de indivíduos, os pesos apresentam maior grau de dispersão que as estaturas.
O Coeficiente de variação pode ser usado em um conjunto de dados para determinar a homogeneidade dos mesmos.
O grau de homogeneidade geralmente é determinado pelo próprio pesquisador e depende de que tipo de estudo está sendo
feito. Nesse curso usaremos um grau de até 20% para os dados serem considerados homogêneos.
6.5 Exercícios
Tabela 32: Informações sobre sexo, idade (anos), altura (metro e centímetro), peso (kg), estado civil, número de irmãos,
transporte, procedência, relação do trabalho com o curso de Estatística e meio de informação dos alunos da disciplina
Inferência Estatística do curso de Estatística da UEM - 21/03/2005.
No Sexo Id Altura Peso Est.Civil No ir. Transp. Procedência Trabalho Inform
1 F 20 1,60 58 Solteiro 1 Próprio Maringá Não Rel. TV
2 F 26 1,65 59 Solteiro 2 Coletivo Fora do Pr Não trab. Revista
3 F 18 1,64 55 Solteiro 2 Próprio Maringá Não trab. TV
4 F 25 1,73 60 Solteiro 2 Coletivo Outro no Pr Não Rel. TV
5 M 35 1,76 83 Casado 6 Coletivo Outro no Pr Não Rel. TV
6 F 20 1,62 58 Solteiro 2 Coletivo Outro no Pr Não Rel. Rádio
7 F 29 1,72 70 Solteiro 3 Coletivo Maringá Não trab. TV
8 M 23 1,71 62 Separado 2 Próprio Outro no Pr Não Rel. Internet
9 F 20 1,63 63 Solteiro 2 Próprio Maringá Não trab. TV
10 M 20 1,79 75 Solteiro 2 Próprio Fora do Pr Não trab. Internet
11 M 20 1,82 66 Solteiro 1 Próprio Fora do Pr Não trab. TV
12 F 30 1,68 46 Solteiro 3 Próprio Outro no Pr Parc.Rel. TV
13 F 18 1,69 64 Solteiro 1 Próprio Maringá Parc.Rel. TV
14 M 37 1,82 80 Casado 2 Próprio Maringá Não Rel. TV
15 M 25 1,83 62 Solteiro 1 Próprio Outro no Pr Não Rel. TV
16 F 20 1,63 68 Solteiro 2 Coletivo Maringá Não trab. TV
17 M 21 1,71 80 Solteiro 2 Coletivo Maringá Não Rel. Internet
18 M 25 1,80 82 Casado 1 Próprio Outro no Pr Não Rel. Internet
19 F 24 1,62 55 Solteiro 2 Próprio Maringá Não trab. Jornal
20 M 19 1,74 58 Solteiro 2 Próprio Maringá Com.Rel. TV
21 F 21 1,55 65 Solteiro 1 Próprio Maringá Não trab. TV
22 M 22 1,73 62 Solteiro 0 Próprio Maringá Não trab. Jornal
36
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 34: Número de atendimentos em serviço médico por funcionários de uma empresa.
No de Atendimentos 0 1 2 3 4 Total
fi 24 21 3 51 1 100
v)
c) Calcule o primeiro quartil, o quadragésimo centil e o nono decil para o conjunto de dados referente à Altura
dos 140 alunos. (Interprete os resultados)
3. Os dados para este exemplo provêm de uma jazida de carvão, localizada em Sapopema-PR, na qual foram obtidos
valores para as variáveis espessura da camada de carvão, teor de cinzas, teor de enxofre e rendimento para a
obtenção de um produto lavrado com 20% de cinzas. Como descrito por Cava (1985) e Landim et al. (1988), esse
depósito situa-se a cerca de 20km a noroeste da Figueira, no nordeste do Estado do Paraná, em sedimentos da parte
superior do Membro Triunfo da Formação Rio Bonito.
a) Resuma os dados da variável Teor de Cinzas em uma tabela de distribuição de freqüências;
b) Para a Tabela construida em (a), faça a representação gráfica adequada;
c) Calcule as medidas de tendência central e dispersão para a variável: Teor de Cinzas (Use os dados tabulados);
37
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
38
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Pn Pn Pn
x4i x3i x2i
m4 = i=1
− 4x̄ i=1
+ 6x̄2 i=1
− 3x̄4 , (15)
n n n
Havendo frequências a considerar, as expressões equivalentes são as seguintes:
Pn Pn
x3 fi x2 fi
m3 = i=1 i − 3x̄ i=1 i + 2x̄3 , (16)
n n
Pn Pn Pn
x4i fi x3i fi x2i fi
m4 = i=1
− 4x̄ i=1
+ 6x̄2 i=1
− 3x̄4 , (17)
n n n
• Vantagens: ótimos estimadores para parâmetros populacionais, ex: média e variância; Pode ser utilizado também
no cálculo dos coeficientes de assimetria e curtose.
• Desvantagens: pode ser um pouco trabalhoso ou complicado de calcular; Às vezes podemos ter mais de um esti-
mador de momentos;
7.2 Assimetria
As medidas de assimetria procuram caracterizar como e quanto a distribuição de frequências se afastam da condi-
ção de simetria. A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir uma distribuição
de freqüências e/ou um histograma, está-se buscando, também, identificar visualmente, a forma da distribuição dos dados
que é ou não confirmada pelo coeficiente de assimetria de Pearson (A) definido como: 14
x̄ − mo
A= . (18)
sx
Quando |A| < 0, 15, podemos considerar a distribuição como praticamente simétrica. Por outro lado, costuma-se consi-
derar a assimetria como moderada se 0, 15 < |A| < 1, e forte se |A| > 1.
O momento de terceira ordem também pode ser usado como medida de assimetria de uma distribuição. Entretanto
é mais conveniente a utilização de uma medida adimencional o que leva a definição do coeficiente de assimetria:
m3
a3 = . (19)
s3
Onde: a3 = 0 indica que a distribuição é praticamente simétrica, a3 > 0 indica que a distribuição é assimétrica po-
sitiva e a3 < 0 indica que a distribuição assimétrica negativa. Esse coeficiente indica o sentido da assimetria e, sendo
adimencional, pode ser usado para comparar diversos casos.
Uma distribuição é classificada como:
• Simétrica: se média = mediana = moda.
• Assimétrica Negativa: se média ≤ mediana ≤ moda. O lado mais longo do polígono de freqüência (cauda da
distribuição) está à esquerda do centro.
• Assimétrica Positiva: se moda ≤ mediana ≤ média. O lado mais longo do polígono de freqüência está à direita do
centro.
39
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
40
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
podemos considerar a distribuição praticamente simétrica. Se 0, 15 < |A| < 1, costuma-se considerar como assimetria
moderada e forte se |A| > 1. A desvantagem do uso do coeficiente de assimetria de pearson é que ele não é recomendado
em distribuições amodais ou bimodais em diante pois dificulta a interpretação. Quando isto ocorrer pode-se utilizar o co-
eficiente de assimetria baseado no momento de 3a ordem: a3 = m s3 . Se a3 = 0 a distribuição é considerada praticamente
3
simétrica, se a3 > 0 simetria positiva e a3 < 0 assimetria negativa. Fazer a análise de assimetria sempre comparando o
resultado do coeficiente obtido com o gráfico (polígono, histograma ou box plot são os mais usuais).
7.3 Curtose
A medida de curtose é o grau de achatamento da distribuição, é um indicador da forma desta distribuição. É
definido como: 15
Q3 − Q1
k= . (20)
2(P90 − P10 )
A curtose ou achatamento é mais uma medida com a finalidade de complementar a caracterização da dispersão em uma
distribuição. Esta medida quantifica a concentração ou dispersão dos valores de um conjunto de dados em relação às
medidas de tendência central em uma distribuição de freqüências.
Uma distribuição é classificada quanto ao grau de achatamento como:
• Leptocúrtica: quando a distribuição apresenta uma curva de freqüência bastante fechada, com os dados fortemente
concentrados em torno de seu centro, K < 0,263.
• Mesocúrtica: quando os dados estão razoavelmente concentrados em torno de seu centro, K= 0,263
• Platicúrtica: quando a distribuição apresenta uma curva de freqüência mais aberta, com os dados fracamente con-
centrados em torno de seu centro, K > 0,263.
A caracterização do achatamento de uma distribuição só tem sentido, em termos práticos, se a distribuição for
aproximadamente simétrica. Entre as possíveis medidas de achatamento, também temos o coeficiente de curtose, obtido
pelo quociente do momento centrado de quarta ordem pelo quadrado da variância, ou seja,
m4 m4
a4 = = 2. (21)
s4 m2
Este coeficiente é adimencional, sendo menor que três para as distribuições platicúrticas, igual a três para uma distribuição
mesocúrtica e maior que três para as distribuições leptocúrticas.
15 SPIEGEL, Murray R. Estatística, 3a Edição. Editora Pearson. 1993.
41
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Resumo: Por curtose entende-se o aplainamento (afilamento ou achatamento) da curva característica do conjunto
ou distribuição. O que a justifica é a possibilidade de haver conjuntos e distribuições com idênticas medidas de posição,
de dispersão e assimetria.
A curtose mede a divergência entre a curva considerada e a convencionada como normalmente achatada (também se
diz que ela mede a concentração dos dados em torno do seu centro). À curva normalmente achatada dá-se o nome de
mesocúrtica; à mais achatada que ela, platicúrtica; à menos achatada (ou mais afilada), leptocúrtica.
18 18 19 20 20 20 20 20 20 21 21
22 23 24 25 25 25 26 29 30 35 37
3. Terceiro Quartil:
25+25
Q3 = X 3(n) = X 3×22 = X16,5 = 2 = 25;
4 4
4. Desvio interquartílico:
dq = Q3 − Q1 = 25 − 20 = 5;
5. Limite inferior:
Li = Q1 − 1, 5dq
Li = 20 − 1, 5 × 5 = 12, 5;
6. Limite superior:
Ls = Q3 + 1, 5dq
Ls = 25 + 1, 5x5 = 32, 5;
Construir uma escala com valores (mesma amplitude) que incluam os valores máximo e mínimo dos dados. Construir
uma caixa (retangular) estendendo-se de Q1 a Q3 , e trace uma linha na caixa no valor da mediana.
As figuras a seguir mostrarão passo a passo como fazer o box-plot:
42
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
43
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
No conjunto de dados não existe aluno com idade inferior a 12,5, ou seja, não há aluno com idade considerada
discrepante inferiormente, logo o limite inferior do gráfico será o menor valor da amostra (Xmin ). Entretanto, existem
dois indivíduos cujas idades são superiores a 32,5, pontos estes considerados discrepantes neste conjunto de dados: as
idades 35 e 37. Estes pontos são identificados no diagrama de caixas por meio de um pontinho e o limite superio do
gráfico será o Ls calculado.
Note-se que no intervalo interquartílico (dentro do retângulo) existem 50% dos dados, dos quais, 25% estão entre a
linha da mediana e a linha do primeiro quartil e os outros 25% estão entre a linha da mediana e a linha do terceiro quartil.
Cada linha da cauda mais os valores discrepantes contêm os 25% restantes da distribuição. A Figura 18 mostra que a
distribuição das idades dos alunos apresenta assimetria positiva, ou seja, dispersam-se para os valores maiores.
Tabela 36: Distribuição de frequências da resistência à ferrugem de híbridos de milho, segundo as regiões preferenciais.
Resistência Região Preferencial
à ferrugem Chapecó Campos Novos Içara Total
r 10 3 12 25
mr 6 12 2 20
ms 9 3 3 15
s 7 1 2 10
Total 32 19 19 70
Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.
Tabela 37: Distribuição das porcentagens da resistência à ferrugem de híbridos de milho, segundo as regiões preferenci-
ais.
Resistência Região Preferencial
à ferrugem Chapecó Campos Novos Içara
r 31,2 15,8 63,2
mr 18,8 63,2 10,5
ms 28,1 15,8 15,8
s 21,9 5,2 10,5
Total 100 100 100
Fonte: Tabela 36.
17 ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.
44
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Figura 19: Distribuição das porcentagens da resistência a ferrugem de híbridos de milho para as regiões
Exercício Resolvido
Um estudo sobre o tempo de vida de duas amostras de Biomphalaria straminea (Amostra A: 45 indivíduos agru-
pados numa bacia e Amostra I: 49 indivíduos isolados em copos de vidro), produziu os resultados da Tabela 38 :
Tabela 38: Número de indivíduos classificados segundo o tempo de vida, em dias, para duas condições de agrupamento.
Tempo de vida Condições de Agrupamento Total
(em dias) Agrupados Isolados
58 a 179 3 6 9
180 a 300 6 19 25
301 a 422 36 24 60
Total 45 49 94
Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.
a) Dos indivíduos submetidos à condição de Agrupados, qual a porcentagem de indivíduos com tempo de vida entre
301 e 422?
b) Dos indivíduos submetidos à condição de Isolados, qual a porcentagem de indivíduos com tempo de vida de no
máximo 300 dias?
c) Você concluiria que o tempo de vida está relacionado com a condição de agrupamento? Justifique.
Respostas:
a) De um total de 45 indivíduos submetidos à condição de Agrupados, a porcentagem dos que apresentaram tempo de
vida entre 301 e 422 é: 36/45 = 0,80 ou 0,80 × 100 = 80%.
b) Do total de 49 indivíduos submetidos à condição de Isolados, 25 (= 6 + 19) indivíduos sobreviveram no máximo
300 dias. Este valor corresponde a (25/49)×100 = 51,02%.
c) Sim, pois pode-se verificar que enquanto 80% dos indivíduos submetidos à condição de Agrupados sobreviveram
entre 301 e 422 dias, somente 48,98% (= 24/49)×100 sobreviveram entre 301 e 422 dias na condição de Isolados.
45
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
de Chapecó”, podemos dividir a amostra em três categorias: menor do que 1500kg/ha (rendimento baixo), maior ou igual
a 1500 e menor ou igual a 3000 (rendimento normal) e maior do que 3000 (rendimento alto). 18
Coeficiente de Contigência de Pearson
Existem várias medidas de associação e seu uso depende do tipo e finalidade do estudo. Neste curso usaremos
uma medida de associação comumente utilizada, que é o Coeficiente de contingência de Pearson. Podemos através desse
coeficiente, por exemplo, verificar a grandeza da associação entre condições de agrupamento (isolados ou agrupados) e
tempo de vida dos caramujos.
Karl Pearson propôs o chamado coeficiente de contigência, representado pela letra C, definido por:
s
χ2
C= 2
, (22)
χ +n
onde f oij e f eij são as frequências observadas e esperadas da i-ésima linha e j-ésima coluna, respectivamente; s e r
são o número de linhas e o número de colunas da tabela. No exemplo a seguir será mostrado como obter as frequências
esperadas f eij .
Este coeficiente nem sempre está entre zero e um, um fator de correção foi proposto para facilitar a interpretação:
C
C∗ = p , (24)
t(t − 1)
Tabela 39: Distribuição conjunta das variáveis local da floresta e estação do ano.
Estação Local da Floresta Total
do ano Árvores Arbustos Chão
Primavera 30(50,8%) 20(33,9%) 9(15,3%) 59(100%)
Outono 13(21,3%) 22(36,1%) 26(42,6%) 61(100%)
Total 43(35,8%) 42(35,0%) 35(29,2%) 120(100%)
Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.
de que os pássaros alimentam-se nestes três locais da floresta nas mesmas proporções na primavera e no outono. Em outras
palavras, o pesquisador formulou a hipótese de que não existe associação entre as duas variáveis.
a) Você concordaria com a hipótese formulada pelo pesquisador? Justifique utilizando porcentagens e o Coeficiente
de Contigência de Pearson.
b) Faça um gráfico de barras múltiplo para representar os dados da Tabela 39.
9.2 Exercícios
1. Na Tabela 40 estão apresentados resultados de um experimento no qual um pesquisador está procurando verificar se
existe associação entre hábito de crescimento (3 = indeterminado trepador e 4 = indeterminado prostado) e porte (Tr =
trepador, EB = ereto na base e Pr = prostado) na cultura de feijão de vagem.
a) Construa a tabela da distribuição de frequência conjunta para as variáveis hábito de crescimento e porte;
b) Faça um gráfico de coluna múltipla para a distribuição de frequência conjunta do item (a);
c) Para os dados da Tabela 40 podemos considerar que o hábito está associado com o porte? Se houver associação,
qual a grandeza da mesma?
46
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 40: Hábito de crescimento (H) e porte (P) para 50 materiais de feijão de vagem.
H P H P H P H P H P
4 Tr 4 Tr 4 Tr 4 Pr 4 Tr
4 EB 4 Tr 4 Tr 4 Tr 3 Pr
3 Pr 3 Pr 3 Tr 4 Pr 3 Pr
4 Tr 3 Pr 4 Tr 3 Pr 3 Pr
4 Tr 3 Pr 4 Tr 4 Tr 4 Tr
4 Tr 3 EB 4 Tr 3 Pr 4 Tr
3 Pr 4 EB 4 Tr 4 Pr 4 Tr
3 EB 4 EB 4 Tr 3 Pr 4 Tr
4 Tr 4 Tr 3 Pr 4 Tr 3 Pr
4 Tr 4 Tr 4 Tr 4 Tr 4 Tr
Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.
Tabela 41: Distribuição de frequências conjunta de plantas segregando para dois caracteres numa progênie da espécie
“X”.
Ciclo Virescência Total
Normal Virescente
Tardio 3470 910 4380
Precoce 1030 290 1320
Total 4500 1200 5700
Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.
2. Os dados da Tabela 41 têm por objetivo verificar se os caracteres ciclo (Tardio e Precoce) e Virescência (Normal e
Virescente), de uma progênie da espécie “X”, segregam de forma independentemente.
a) Construa a tabela da distribuição de frequência relativa percentual conjunta para as variáveis Ciclo e Virescência e
verifique se os dois pares de genes são herdados independentemente ou existe associação;
b) Faça um gráfico de coluna múltipla para a distribuição de frequência conjunta do item (a);
3. Um economista agrícola está estudando fatores que afetam a adoção de uma nova variedade de arroz altamente produ-
tiva. Os resultados estão na Tabela 42.
Tabela 42: Distribuição de frequências conjunta referente a fatores que podem afetar a adoção de uma nova variedade de
arroz.
Posse Adoção Total
Adota Não Adota
Proprietário 102 26 128
Vários arrendatários 42 10 52
Único arrendatário 5 2 7
Total 149 38 187
Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.
4. Foi conduzido um experimento com o objetivo de avaliar o poder germinativo de duas cultivares de cebola: Bola
Precoce - EMPASC 352 e Norte 14. Foram utilizadas para o teste de germinação quatro repetições de 100 sementes,
totalizando 400 sementes para cada cultivar. A variável em estudo é o número de sementes que germinaram. Os resultados
estão na tabela 43.
a) Faça um gráfico mostrando o comportamento das cultivares com relação à germinação das sementes. Interprete os
resultados.
18 ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.
47
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 43: Distribuição de frequências conjunta da Germinação de sementes de duas cultivares de cebola.
Cultivares Germinação Total
Germinaram Não germinaram
Bola Precoce 392 8 400
Norte 14 381 19 400
Total 773 27 800
Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.
b) Verifique se existe associação entre entre as cultivares e a germinação de sementes. Justifique utilizando porcenta-
gens e o Coeficiente de Contigência de Pearson.
5. Determinado posto de qualidade de um laticínio retira uma amostra dos pesos dos litros de leite produzidos em um dia,
classificando-os de acordo com seu tipo (B, C, UHT), e condições de peso (dentro ou fora das especificações). A Tabela
46 mostra a distribuição de frequências conjunta de 6.850 unidades de leite, disposta numa tabela de contingência.
a) Faça um gráfico mostrando o comportamento dos Tipos de leite com relação às Condições de Peso. Interprete os
resultados.
b) Verifique se existe associação entre os Tipos de leite e as Condições de Peso. Justifique utilizando porcentagens e o
Coeficiente de Contigência de Pearson.
6. Uma metalúrgica produz grandes quantidades de parafusos, trabalhando em três turnos. O setor da qualidade deseja
verificar se o desempenho dos turnos é semelhante, o que poderia ser avaliado através das proporções de peças aprovadas,
direcionadas a retrabalho ou rejeitadas. Como parte do Controle Estatístico de Processos, amostras aleatórias de parafusos
são coletadas de cada turno. Uma dessas amostras, com a classificação das peças está mostrada na tabela a seguir:
a) Faça um gráfico mostrando a Situação das peças com relação ao Turno. Interprete os resultados.
b) Verifique se existe associação entre a Situação das peças e o Turno. Justifique utilizando porcentagens e o Coefici-
ente de Contigência de Pearson.
48
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 46: Números de anos de serviço e No de clientes de 10 agentes de uma companhia de seguros.
Agente Anos de serviço (X) No de clientes (Y )
A 2 48
B 4 56
C 5 64
D 6 60
E 8 72
F 2 45
G 3 57
H 7 80
I 6 75
J 3 47
Na Figura 20 estão representados os pares (X, Y ) observados na Tabela 46. Através da observação da disposição
dos pontos, concluí-se que há uma dependência entre as variáveis, porque no conjunto à medida que aumenta o tempo de
serviço, aumenta o número de clientes. Temos então uma correlação positiva.
●
75
●
70
Número de Clientes
65
●
60
●
●
55
50
●
●
45
2 3 4 5 6 7 8
Anos de Serviço
49
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Exemplo 2 - Numa pesquisa com 10 famílias com renda bruta mensal entre 10 e 60 salários mínimos, mediu-se:
Y: a % da renda bruta anual gasta com assistência médica. X: renda bruta mensal (expressa em no de salários-mínimos).
Tabela 47: Dados referentes a renda bruta anual gasta com assistência médica e No de salários mínimos por família.
Família X Y
A 12 7,2
B 16 7,4
C 18 7,0
D 20 6,5
E 28 6,6
F 30 6,7
G 40 6,0
H 48 5,6
I 50 6,0
J 54 5,5
Figura 21: Gráfico de dispersão da Renda bruta anual e gasto com assistência médica.
●
7.0
●
Nº de salários mínimos
●
●
6.5
●
6.0
● ●
●
5.5
20 30 40 50
Observando a Figura 21, nota-se que existe uma dependência inversa, ou seja, uma correlação negativa, aumen-
tando a renda bruta, diminui a porcentagem da mesma, gasta em assistência médica.
Exemplo 3 - Oito indivíduos foram submetidos a um teste sobre conhecimento de língua estrangeira e, em seguida,
mediu-se o tempo gasto por cada um para aprender operar uma determinada máquina. Assim,
X: resultado obtido no teste (máximo 100 pontos)
Y : tempo em minutos necessário para aprender operar satisfatoriamente a máquina.
Do diagrama de dispersão, Figura 22, conclui-se que parece não haver nenhum tipo de dependência entre as duas
variáveis, pois conhecer o resultado do teste não ajuda prever o tempo gasto para aprender a operar a máquina.
50
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 48: Dados referentes ao resultado de um teste sobre conhecimento em língua estrangeira e tempo gasto para
aprender a operar uma determinada máquina.
Indivíduos X Y
A 45 343
B 52 368
C 61 355
D 70 334
E 74 337
F 76 381
G 80 345
H 90 375
Figura 22: Gráfico de dispersão do resultado obtido no teste e tempo em minutos necessário para aprender operar satisfa-
toriamente a máquina.
●
380
●
370
●
360
Tempos
●
350
●
●
340
50 60 70 80 90
Notas
51
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Tabela 49: Dados referentes a consumo de cerveja em um dia (em 100 litros) e temperatura máxima (em o C).
Temperatura Consumo
16 290
31 374
38 393
39 425
37 406
36 370
36 365
22 320
10 269
Verifique através do coeficiente de correlação se existe associação entre as variáveis e plote os dados num gráfico
de dispersão.
• Um estado implementa novas punições severas para motoristas bêbados; Qual é o efeito disso sobre sobre os
acidentes fatais nas estradas?
• Uma diretoria regional de ensino reduz o tamanho de suas turmas do ensino fundamental; qual é o efeito disso sobre
as pontuações dos alunos nos exames nacionais?
• Você conclui com sucesso mais um ano de estudos da universidade; qual é o efeito disso sobre seu salário futuro?
O modelo de regressão linear relaciona uma variável X, a outra Y . Como Y é afetado por X, Y é chamada de variável
dependente e X de variável independente. Exemplos de Y e X:
Y : consumo X: Renda;
Y : Salário X: Anos de estudo;
Y : Vendas X: Gastos com propaganda.
O modelo usado com maior freqüência é o linear, na forma:
Yi = α + βXi + ei , i = 1, · · · , n. (26)
onde:
52
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
10.3 Exercícios
1. Considere os seguintes dados amostrais obtidos de um estudo da relação entre o número de anos que os candidatos
a certo emprego no exterior estudaram alemão no curso secundário ou na faculdade, e as notas obtidas em um teste de
proficiência naquela língua:
Indivíduo 1 2 3 4 5 6 7 8 9 10
No de Anos (X) 3 4 4 2 5 3 4 5 3 2
Nota do teste (Y ) 57 78 72 58 89 63 73 84 75 48
X 0 2 4 6 8 10 12
Y 2,2 1,2 1,5 1,4 1,1 1,1 0,9
53
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
a) Ajuste uma reta de mínimos quadrados que nos permita predizer o resíduo de cloro em termos do número de horas
após a piscina ter sido tratada com produtos químicos.
b) Com a equação da reta de mínimos quadrados, estime o resíduo de cloro na piscina 5 horas após ter sido tratada.
c) Com a equação da reta de mínimos quadrados, estime o resíduo de cloro na piscina 8 horas após ter sido tratada.
Por que razão sua resposta é um tanto diferente das 1,1 partes por milhão efetivamente observadas ao final de 8
horas?
Ano 1 2 3 4 5 6 7
X 18 159 118 115 22 127 111
Y 520 190 208 213 310 194 160
4. Em dada região de Bocaina - SP, acredita-se que o gado alimentado em determinado pasto tem um ganho de peso maior
que o usual. Estudos de laboratório detectaram uma substância no pasto e deseja-se verificar se ela pode ser utilizada
para melhorar o ganho de peso de bovinos. Foram escolhidos 15 bois de mesma raça e idade, e cada animal recebeu uma
determinada concentração da substância X (em mg/l). O ganho de peso após 30 dias, denotado por Y , foi anotado e os
dados foram os seguintes:
X 0,2 0,5 0,6 0,7 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0
Y 9,4 11,4 12,3 10,2 11,9 13,6 14,2 16,2 16,2 17,7 18,8 19,9 22,5 24,7 23,1
Preço(X) 18 10 14 11 16 13
Procura(Y) 9 125 57 90 22 79
a) Ajuste uma reta de mínimos quadrados com a qual possamos predizer a procura do produto em termos do seu preço;
6. Os dados a seguir mostram as despesas com propaganda (expressas em percentagem das despesas totais) e o lucro
líquido operacional (expresso em percentagem do total de vendas) em uma amostra de 6 drogarias:
54
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
a) Ajuste uma reta de mínimos quadrados que permita predizer o lucro operacional líquido em termos das despesas
com propaganda;
b) Interprete os coeficientes do modelo;
c) Calcule o coeficiente de correlação entre as duas variáveis e interprete;
d) Calcule o coeficiente de determinação do modelo e interprete;
55
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
7. Uma indústria submete seus operários a um teste de aptidão, e três meses depois mede a produtividade desses operários.
Os resultados obtidos de uma amostra de 6 operários, estão na tabela abaixo.
aptidão (X) 22 26 15 19 20 18
produtividade (Y ) 48 52 25 40 43 30
a) Determine a reta de regressão que se ajuste aos dados. Interprete os coeficientes obtidos;
b) Se um operário tira 24 no teste de aptidão, qual a sua produtividade esperada, depois de três meses?
8. A tabela abaixo apresenta dados referentes a idade X e a pressão sistólica Y para um grupo de 12 mulheres.
X 56 42 72 36 63 47 55 49 38 42 68 60
Y 147 125 160 118 149 128 150 145 115 140 152 155
56
Universidade Federal de Mato Grosso
Notas de Aula - Disciplina: Estatística I
Profa Eveliny - 2016 - Curso: Estatística
Referências
[1] ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.
[2] BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.
[3] BARBETTA, Pedro A.; REIS, Marcelo M. e BORNIA, Antonio C. Estatística para cursos de Engenharia e informá-
tica. São Paulo: Editora Atlas S.A., 2004.
[4] CRESPO, A.A.; Estatística Fácil. Editora: Saraiva.
[5] FONSECA, J.S.; MARTINS, G. de A. Curso de estatística, 4a ed., Editora Atlas, SP., 2010.
[6] JAY L. DEVORE, Probabilidade e Estatística para Engenharia e Ciências, Editora THOMSON, SP, 2006.
[7] JOHN E. FREUND, Estatística Aplicada à Economia, Administração e Contabilidade, 11a ed., Editora Artmed Bo-
okman, SP., 2006.
[8] LIMA, A.C.Pedroso; MAGALHÃES, M.Nascimento. Noções de Probabilidade e Estatística. Editora Edusp. 2004.
[9] MILONE, Giuseppe. Estatística Geral e Aplicada. São Paulo: Pioneira Thomson Learning, 2004.
[10] MORETTIN, Luiz Gonzaga. Estatística Básica. 7a ed. Editora Makron Books. Vols. 1 e 2. 1999.
[11] NETO, P.L.O.Costa. Estatística, 2a Edição, Editora Edgard Blücher Ltda. 2002.
[12] SPIEGEL, Murray R. Estatística, 3a Edição. Editora Pearson. 1993.
[13] STEVENSON, W.J. Estatística aplicada à administração. Tradução de Alfredo Alves de Farias. Harbra, S.P., 1981.
57