Livro Estatistica - Basica

Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª.
Mônica Barradas 1
ESTATÍSTICA
BÁSICA
(Profª Mônica Barradas)
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 2
ÍNDICE
1. Introdução Geral à Compreensão Estatística........................................................................3
2. Distribuição de Freqüência.................................................................................................10
3. Medidas de Centralidade ou de Tendência Central............................................................14
4. Medidas de Assimetria e Curtose.......................................................................................23
5. Principais Tipos de Representação Gráfica........................................................................25
6. Medidas de Dispersão ou de Variabilidade........................................................................28
7. Correlação e Regressão.......................................................................................................32
8. Introdução à Amostragem...................................................................................................47
9. Probabilidade......................................................................................................................53
10. Variáveis Aleatórias Discretas ........................................................................................56
11. Distribuições de Variáveis Aleatórias Discretas..............................................................60
12. Distribuições de Variáveis Aleatórias Contínuas............................................................62

CAPÍTULO 1 – INTRODUÇÃO A ESTATISTICA

1. Objeto da Estatística
Estatística é uma ciência exata que visa fornecer subsídios ao analista para coletar,
organizar, resumir, analisar e apresentar dados. Trata de parâmetros extraídos da população,
tais como média ou desvio padrão.
A estatística fornece-nos as técnicas para extrair informação de dados, os quais são muitas
vezes incompletos, na medida em que nos dão informação útil sobre o problema em estudo,
sendo assim, é objetivo da Estatística extrair informação dos dados para obter uma melhor
compreensão das situações que representam.
Quando se aborda uma problemática envolvendo métodos estatísticos, estes devem ser
utilizados mesmo antes de se recolher à amostra, isto é, deve-se planejar a experiência que
nos vai permitir recolher os dados, de modo que, posteriormente, se possa extrair o máximo
de informação relevante para o problema em estudo, ou seja, para a população de onde os
dados provêm.
Quando de posse dos dados, procura-se agrupa-los e reduzi-los, sob forma de amostra,
deixando de lado a aleatoriedade presente.
Seguidamente o objetivo do estudo estatístico pode ser o de estimar uma quantidade ou

testar uma hipótese, utilizando-se técnicas estatísticas convenientes, as quais realçam toda a
potencialidade da Estatística, na medida em que vão permitir tirar conclusões acerca de uma
população, baseando-se numa pequena amostra, dando-nos ainda uma medida do erro
cometido.
2. Ferramentas Estatísticas
2.1 - O que é Estatística?
Segundo JURAN:
1. É a ciência da tomada de decisão perante incertezas;
2. Coleta, análise e interpretação de dados;
3. É um “kit” de ferramentas que ajuda a resolver problemas;
4. Base para a maior parte das decisões tomadas quanto ao controle da qualidade, assim
como em quase todas as outras áreas da atividade humana moderna.
Vista dessa forma, a Estatística não deve ser confundida como uma disciplina isolada, e sim,
compreendida como uma ferramenta ou um conjunto de ferramentas, disponível para a
solução de problemas em diversas áreas do conhecimento.
Segundo FEIGENBAUM: “Precisão significativamente aumentada em produção de itens e

produtos tem sido acompanhada pela necessidade de métodos aperfeiçoados para medição,
especificação e registro dela. A estatística, denominada ciência das medições, representa
uma das técnicas mais valiosas utilizadas nas quatro tarefas, e isso tem ficado cada vez mais
evidente”.
2.2 Onde se aplica a Estatística na Engenharia?
As aplicações concentram-se fundamentalmente em dois campos de ação: o Controle

Estatístico do Processo e o Controle Estatístico da Qualidade.
Definições segundo JURAN:

1. Processo: é qualquer combinação específica de máquinas, ferramentas, métodos, materiais
e/ou pessoas empregadas para atingir qualidades específicas num produto ou serviço. Estas
qualidades são chamadas de “características de qualidade”, que podem ser uma dimensão,
propriedade do material, aparência, etc.
2. Controle: é um ciclo de feedback (realimentação) através da qual medimos o desempenho
real, comparando-o com o padrão, e agimos sobre a diferença.
3. Controle Estatístico do Processo (CEP): aplicação de técnicas estatísticas para medir e
analisar a variação nos processos.
4. Controle Estatístico da Qualidade (CEQ): aplicação de técnicas estatísticas para medir e
aprimorar a qualidade dos processos. CEQ inclui CEP, ferramentas de diagnóstico, planos de
amostragem e outras técnicas estatísticas.
Segundo FEIGENBAUM, provavelmente, mais importante do que os próprios métodos
estatísticos têm sido o impacto causado sobre o pensamento industrial pela filosofia que
representam. O “ponto de vista estatístico” resume-se essencialmente nisto: a variabilidade
na qualidade do produto deve ser constantemente estudada:
1. Dentro de lotes de produto;

2. Em equipamentos de processo;
3. Entre lotes diferentes de um mesmo produto;
4. Em características críticas e em padrões;
5. Em produção piloto, no caso de novos produtos.
Esse ponto de vista, que enfatiza o estudo da variação, exerce efeito significativo sobre
certas atividades no controle da qualidade. Ainda segundo FEIGENBAUM, cinco
ferramentas estatísticas tornaram-se amplamente utilizadas nas tarefas de controle da
qualidade:
1. Distribuição de freqüências;
2. Gráficos de controle;
3. Aceitação por amostragem;
4. Métodos especiais;
5. Confiabilidade.
Na abordagem do papel dos métodos estatísticos no gerenciamento de processos de

produção, KUME também faz referência à variabilidade. Diz que, “(...) independentemente
dos tipos de produtos ou de métodos de produção usados, as causas de produtos defeituosos
são universais. Variação, esta é a causa.”, “Variações nos materiais, na condição dos
equipamentos, no método de trabalho e na inspeção são as causas dos defeitos.” Ainda
segundo KUME, “(...) os métodos estatísticos são ferramentas eficazes para a melhoria do
processo produtivo e redução de seus defeitos”.
O primeiro passo na busca da verdadeira causa de um defeito é a cuidadosa observação do

fenômeno do defeito. Após tal observação cuidadosa, a verdadeira causa torna-se evidente.
As ferramentas estatísticas, diz KUME, conferem objetividade e exatidão à observação. As

máximas da forma estatística de pensar são:
1. Dar maior importância aos fatos do que os conceitos abstratos;

2. Não expressar fatos em termos de intuição ou idéias. Usar evidências obtidas a partir de
resultados específicos da observação;
3. Os resultados da observação, sujeitos como são a erros e variações, são partes de um todo
obscuro. A principal meta da observação é descobrir esse todo obscuro;
4. Aceitar o padrão regular que aparece em grande parte dos resultados observados como
uma informação confiável.
5. O conhecimento dominado ato o presente momento não é nada mais que um
embasamento para hipóteses futuras. Uma vez que isso tenha sido compreendido, a forma de
pensar mencionada pode ser aproveitada para aprofundar a compreensão do processo
produtivo e dos meios para melhorá-lo.
2.3 Definições Básicas da Estatística
1) FENÔMENO ESTATÍSTICO: é qualquer evento que se pretenda analisar, cujo estudo

seja possível da aplicação do método estatístico. São divididos em três grupos:
Fenômenos de massa ou coletivo: são aqueles que não podem ser definidos por uma simples
observação. A estatística dedica-se ao estudo desses fenômenos.
Fenômenos individuais: são aqueles que irão compor os fenômenos de massa.

Fenômenos de multidão: quando as características observadas para a massa não se
verificam para o particular.
2) DADO ESTATÍSTICO: é um dado numérico e é considerado a matéria-prima sobre a

qual iremos aplicar os métodos estatísticos.
3) POPULAÇÃO: é o conjunto total de elementos portadores de, pelo menos, uma
característica comum.
4) AMOSTRA: é uma parcela representativa da população que é examinada com o
propósito de tirarmos conclusões sobre a essa população.
5) PARÂMETROS: São valores singulares que existem na população e que servem para
caracterizá-la.Para definirmos um parâmetro devemos examinar toda a população.
6) ESTIMATIVA: é um valor aproximado do parâmetro e é calculado com o uso da
amostra.
7) ATRIBUTO: quando os dados estatísticos apresentam um caráter qualitativo, o
levantamento e os estudos necessários ao tratamento desses dados são designados
genericamente de estatística de atributo.
8) VARIÁVEL: É, convencionalmente, o conjunto de resultados possíveis de um fenômeno.
Variável Qualitativa: Quando seus valores são expressos por atributos

Variável Quantitativa: Quando os dados são de caráter nitidamente quantitativo, e o
conjunto dos resultados possui uma estrutura numérica, trata-se, portanto da estatística de
variável e se dividem em:
Variável Discreta ou Descontínua: Seus valores são expressos geralmente através de
números inteiros não negativos. Resulta normalmente de contagens. Ex: Nº de alunos
presentes às aulas de introdução à estatística econômica no 1º semestre de 1997: mar = 18,
abr = 30 , mai = 35 , jun = 36.
Variável Contínua: Resulta normalmente de uma mensuração, e a escala numérica de seus

possíveis valores corresponde ao conjunto R dos números Reais, ou seja, podem assumir,
teoricamente, qualquer valor entre dois limites. Ex.: Quando você vai medir a temperatura de
seu corpo com um termômetro de mercúrio o que ocorre é o seguinte: O filete de mercúrio,
ao dilatar-se, passará por todas as temperaturas intermediárias até chegar na temperatura
atual do seu corpo.
2.4 Planejamento para Coleta e Análise de Dados
As ferramentas devem ser utilizadas de maneira eficiente para alcançar o sucesso. Para tanto,
o processo deve incluir:
1. planejamento cuidadoso da coleta de dados;
2. análise de dados para tirar conclusões estatísticas e
3. transição para a resposta ao problema técnico original.
Segundo JURAN, alguns passos-chave são:

1. Coletar informações anteriores suficientes para traduzir o problema de engenharia em
problema específico que possa ser avaliado por métodos estatísticos;
2. Planejar a coleta de dados:
a. Determinar o tipo de dados necessários – quantitativos (mais custo, mais útil) e
qualitativos;
b. Determinar se quaisquer dados prévios estão disponíveis e são aplicáveis ao presente
problema;
c. Se o problema exigir uma avaliação de várias decisões alternativas, obter informações
sobre as conseqüências econômicas de uma decisão errada.
d. Se o problema exigir a estimação de um parâmetro, definir a precisão necessária para a
estimativa;
e. Determinar se o erro de medição é grande o suficiente para influenciar o tamanho
calculado da amostra ou o método da análise de dados;
f. Definir as suposições necessárias para calcular o tamanho da amostra exigido;
g. Calcular o tamanho da amostra necessário considerando a precisão desejada do resultado,
erro amostral, variabilidade dos dados, erros de medição e outros fatores;
h. Definir quaisquer requisitos para preservar a ordem das medições quando o tempo for um
parâmetro chave;
i.Determinar quaisquer requisitos para coletar dados em grupos definidos – diferentes
condições a serem avaliadas;
j. Definir o método de análise de dados e quaisquer hipóteses necessárias;
k.Definir os requisitos para quaisquer programas de computador que venham a ser
necessários.
3. Coletar dados:
a. Usar métodos para assegurar que a amostra é selecionada de forma aleatória;
b. Registrar os dados e também as condições presentes no momento de cada observação;
c. Examinar os dados amostrais para assegurar que o processo mostra estabilidade suficiente
para se fazer previsões válidas para o futuro.
4. Analisar os dados:
a. Selecionar os dados;
b. Avaliar as hipóteses previamente estabelecidas. Se necessário, tomar atitudes corretivas
(novas observações);
c. Aplicar técnicas estatísticas para avaliar o problema original;
d. Determinar se dados e análises adicionais são necessários;
e. Realizar “análises de sensibilidade” variando estimativas amostrais importantes e outros

fatores na análise e observando o efeito sobre as conclusões finais.
5. Rever as conclusões da análise de dados para determinar se o problema técnico original
foi avaliado ou se foi modificado para se enquadrar nos métodos estatísticos.
6. Apresentar os resultados:
a. Estabelecer as conclusões de forma significativa, enfatizando os resultados nos termos do
problema original, e não na forma dos índices estatísticos usados na análise;
b. Apresentar graficamente os resultados quando apropriado. Usar métodos estatísticos
simples no corpo do relatório e colocar as análises complexas em um apêndice.
7. Determinar se as conclusões do problema específico são aplicáveis a outros
problemas ou se os dados e cálculos poderiam ser úteis para outros problemas.
3. ESTATÍSTICA DESCRITIVA
Viu-se anteriormente um roteiro para coleta e análise de dados. As séries de dados,
basicamente, são provenientes de duas fontes: os “dados históricos” e os “dados de
experimentos planejados”.
Os dados históricos são séries de dados existentes e, em geral, analisar estatisticamente

esses dados é mais econômico (tempo e despesas) se comparado com dados obtidos a partir
de experimentos planejados. Mesmo com uma análise estatística complexa, em geral, pouco
sucesso se obtém com tais dados. No controle de um processo, algumas razões para esse
insucesso ocorrer são:
1.As variáveis do processo podem estar altamente correlacionadas entre si, tornando
impossível distinguir a origem de um determinado efeito.
2.As variáveis do processo podem ter sido manipuladas para controlar o resultado do
processo.
3.As variáveis do processo têm abrangência pequena em relação ao intervalo de operação do
processo.
4.Outras variáveis que afetam o resultado do processo podem não ter sido mantidas
constantes, e serem as reais causadoras dos efeitos observados no processo.
Por essas razões, recomenda-se a análise de séries de dados históricos apenas para a
indicação de variáveis importantes a serem observadas em um experimento planejado.
Os dados de experimentos planejados são coletados com o objetivo estudar e analisar um

problema. São dados reunidos em diversas séries de variáveis com aparente importância em
um processo, enquanto se mantém constantes (com valores registrados) todas as outras
variáveis que possivelmente poderiam alterar o resultado. Aqui tratar-se-á de métodos
práticos de organização de dados. Segundo SPIEGEL4: “A parte da estatística que procura
somente descrever e analisar um certo grupo, sem tirar quaisquer conclusões ou inferências
sobre um grupo maior, é chamada estatística descritiva ou dedutiva.”
Freqüentemente dois ou mais métodos de organização são utilizados para descrever com
clareza dados coletados. Alguns desses métodos são: gráficos dos dados na ordem
cronológica, distribuição e histogramas de freqüência, características amostrais, medidas de
tendência central e medidas de dispersão.
4. SÉRIES ESTATÍSTICAS
TABELA: Resume um conjunto de dados dispostos segundo linhas e colunas de maneira

sistemática.
De acordo com a Resolução 886 do IBGE, nas casas ou células da tabela devemos colocar:
• um traço horizontal ( - ) quando o valor é zero;

• três pontos ( ... ) quando não temos os dados;
• zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada;
• um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão de
determinado valor.
Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto. "Salientamos que
nestes documentos as tabelas não serão abertas devido a limitações do editor html".
É qualquer tabela que apresenta a distribuição de um conjunto de dados estatísticos em

função da época, do local ou da espécie.
Séries Homógradas: são aquelas em que a variável descrita apresenta variação discreta ou
descontínua. Podem ser do tipo temporal, geográfica ou específica.
a) Série Temporal: Identifica-se pelo caráter variável do fator cronológico. O local e a

espécie (fenômeno) são elementos fixos. Esta série também é chamada de histórica ou
evolutiva.
ABC VEÍCULOS LTDA.
Vendas no 1º bimestre de 2002
PERÍODO UNIDADES VENDIDAS *
JAN/2002 20
FEV/2002 10
TOTAL 30
* Em mil unidades
.
b) Série Geográfica: Apresenta como elemento variável o fator geográfico. A época e o fato
(espécie) são elementos fixos. Também é chamada de espacial, territorial ou de localização.
ABC VEÍCULOS LTDA.
FILIAIS UNIDADES VENDIDAS *
São Paulo 13
Rio de Janeiro 17
TOTAL 30
* Em mil unidades
c) Série Específica: O caráter variável é apenas o fato ou espécie. Também é chamada de

série categórica.
ABC VEÍCULOS LTDA.
MARCA UNIDADES VENDIDAS *
FIAT 18
GM 12
TOTAL 30
* Em mil unidades
Séries Conjugadas: Também chamadas de tabelas de dupla entrada. São apropriadas à

apresentação de duas ou mais séries de maneira conjugada, havendo duas ordens de
classificação: uma horizontal e outra vertical. O exemplo abaixo é de uma série geográfica-
temporal.
ABC VEÍCULOS LTDA.
FILIAIS Janeiro/2002 Fevereiro/2002

São Paulo 10 3
Rio de Janeiro 12 5
TOTAL 22 8
* Em mil unidades
Obs: as séries heterógradas serão estudas no capítulo 2 ( distribuição de frequências ).

EditedBásica
Universidade de Pernambuco – Escola Politécnica -Estatística by Foxit Reader
- Profª. Mônica Barradas 10
Copyright(C) by Foxit Software Company,2005-2008
For Evaluation Only.
CAPÍTULO 2 – DISTRIBUIÇÃO DE FREQUÊNCIAS
É uma ferramenta estatística apropriada para a apresentação de grandes massas de dados

numa forma que torna mais clara a tendência central e a dispersão dos valores ao longo da
escala de medição, bem como a freqüência relativa de ocorrência dos diferentes valores.
Quando da análise de dados, é comum procurar conferir certa ordem aos números tornando-
os visualmente mais amigáveis. O procedimento mais comum é o de divisão por classes ou
categorias, verificando-se o número de indivíduos pertencentes a cada classe.
É um tipo de tabela que condensa uma coleção de dados conforme as frequências (repetições
de seus valores).
Tabela primitiva ou dados brutos: É uma tabela ou relação de elementos que não foram
numericamente organizados. É difícil formarmos uma idéia exata do comportamento do
grupo como um todo, a partir de dados não ordenados.
Ex : 45, 41, 42, 41, 42 43, 44, 41 ,50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51
ROL: Tem-se um rol após a ordenação dos dados (crescente ou decrescente).
Ex : 41, 41, 41, 42, 42 43, 44, 45 ,46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60
Distribuição de frequência sem intervalos de classe: É a simples condensação dos dados

conforme as repetições de seus valores. Para um tabela de tamanho razoável esta distribuição
de frequência é inconveniente, já que exige muito espaço. Veja exemplo abaixo:
Tabela 1
Dados Frequência
41 3
42 2
43 1
44 1
45 1
46 2
50 2
51 1
52 1
54 1
57 1
58 2
60 2
Total 20
EditedBásica
Universidade de Pernambuco – Escola Politécnica -Estatística by Foxit Reader
- Profª. Mônica Barradas 11
Copyright(C) by Foxit Software Company,2005-2008
For Evaluation Only.
Distribuição de frequência com intervalos de classe:Quando o tamanho da amostra é

elevado é mais racional efetuar o agrupamento dos valores em vários intervalos de classe.
Tabela 2
Classes Frequências
41 |------- 45 7
45 |------- 49 3
49 |------- 53 4
53 |------- 57 1
57 |------- 61 5
Total 20
2.1 Elementos de uma Distribuição de Freqüência com classes
CLASSE: são os intervalos da variável simbolizada por i e o número total de classes

simbolizada por k. Ex: na tabela anterior k=5 e 49 |------- 53 é a 3ª classe, onde i=3. Para a
construção de uma tabela a partir de um dado bruto calcularemos o k através da Regra de
Sturges" k=1+3,3logn (para n<25) ou k=√n (para n>25).
LIMITES DE CLASSE: são os extremos de cada classe. O menor número é o limite

inferior de classe (li) e o maior número, limite superior de classe (Ls). Ex: em 49 |--- 53
Li3= 49 e Ls3= 53. O símbolo |--- representa um intervalo fechado à esquerda e aberto à
direita. O dado 53 não pertence à classe 3 e sim a classe 4 representada por 53 |--- 57.
AMPLITUDE DO INTERVALO DE CLASSE: é obtida através da diferença entre o

limite superior e inferior da classe simbolizada por a = Ls - li. Ex: na tabela anterior a= 53 -
49 = 4. Obs: Na distribuição de frequência c/ classe o c será igual em todas as classes. Para
a construção de uma tabela a partir de um dado bruto temos: a=Ls-Li/K
AMPLITUDE TOTAL DA DISTRIBUIÇÃO: é a diferença entre o valor máximo e o

valor mínimo da amostra. Onde At = Xmax - Xmin. Em nosso exemplo At = 60 - 41 = 19.
PONTO MÉDIO DE CLASSE: é o ponto que divide o intervalo de classe em duas partes
iguais. Ex: em 49 |------- 53 o ponto médio x3 = (53+49)/2 = 51, ou seja, x3=(Li+Ls)/2.
Os dados brutos a seguir apresentam um conjunto de tempos para determinada operação.
5,1 5,3 5,3 5,6 5,8 5,9 6 6,1 6,2 6,2

6,3 6,3 6,3 6,4 6,4 6,4 6,5 6,5 6,6 6,7
6,7 6,8 6,8 6,9 6,9 7 7,1 7,1 7,2 7,2
7,3 7,4 7,5 7,5 7,6 7,6 7,6 7,7 7,7 7,8
7,8 7,9 7,9 8 8 8,1 8,2 8,3 8,3 8,4
8,5 8,5 8,6 8,7 8,8 8,8 8,9 9 9,1 9,2
9,4 9,4 9,5 9,5 9,6 9,8 9,9 10 10,2 10,2
10,4 10,6 10,8 10,9 11,2 11,5 11,8 12,3 12,7 14,9
2.2 Regras para a elaboração de uma distribuição de freqüências com classes
1º Organize os dados brutos em um ROL.
2º Calcule a amplitude total At.
No nosso exemplo: At =14,9 – 5,1 = 9,8
3º Calcule o número de classes (K), que será calculado usando K = . Obrigatoriamente

deve estar compreendido entre 5 a 20. Neste caso, K é igual a 8,94, aproximadamente, 8. No
nosso exemplo: n = 80 dados, então , k=√n = 8,9 .
4º Conhecido o número de classes define-se a amplitude de cada classe:
No exemplo, a será igual a:
5º Temos então o menor nº da amostra, o nº de classes e a amplitude do intervalo. Podemos

montar a tabela, com o cuidado para não aparecer classes com frequência = 0 (zero).
6º Com o conhecimento da amplitude de cada classe, define-se os limites para cada classe
(inferior e superior), onde limite Inferior será 5,1 e o limite superior será 15 + 1,23.
Intervalo de Freqüência Freqüência Freqüência Freqüência

Classe Absoluta (fi) Acumulada (Fi) Relativa (fr) Acumulada (Fr)
05,10 |---| 06,33 13 13 16,25 16,25
06,34 |---| 07,57 21 34 26,25 42,50
07,58 |---| 08,81 22 56 27,50 70,00
08,82 |---| 10,05 15 71 18,75 88,75
10,06 |---| 11,29 4 75 5,00 93,75
11,30 |---| 12,53 3 78 3,75 97,50
12,54 |---| 13,77 1 79 1,25 98,75
13,78 |---| 15,01 1 80 1,25 100
Total 80 - 100 -
Obs: Agrupar os dados em classes é uma importante ferramenta para resumir grandes massas
de dados brutos, no entanto acarreta perda de alguns detalhes.
Frequências simples ou absolutas (fi): são os valores que realmente representam o número
de dados de cada classe. A soma das frequências simples é igual ao número total dos dados
da distribuição.
Frequências relativas (fr): são os valores das razões entre as frequências absolutas de cada
classe e a frequência total da distribuição. A soma das frequências relativas é igual a 1 (100
%).
Frequência simples acumulada de uma classe (Fi): é o total das frequências de todos os
valores inferiores ao limite superior do intervalo de uma determida classe.
Frequência relativa acumulada de um classe (Fr): é a frequência acumulada da classe,

dividida pela frequência total da distribuição.
CAPÍTULO 3 – MEDIDAS DE CENTRALIDADE
Há várias medidas de tendência central, entretanto nesta apostila, será abordado o estudo de
apenas aquelas que são mais significativas. As mais importante medidas de tendência central
são: a média aritmética, média aritmética para dados agrupados, média aritmética ponderada,
mediana, moda.
3. Medidas de Centralidade
3.1 Média Aritmética=
Sendo a média uma medida tão sensível aos dados, é preciso ter cuidado com a sua
utilização, pois pode dar uma imagem distorcida dos dados.
A média possui uma particularidade bastante interessante, que consiste no seguinte:

se calcularmos os desvios de todas as observações relativamente à média e somarmos esses
desvios o resultado obtido é igual a zero.
A média tem uma outra característica, que torna a sua utilização vantajosa em certas
aplicações: Quando o que se pretende representar é a quantidade total expressa pelos dados,
utiliza-se a média.
Na realidade, ao multiplicar a média pelo número total de elementos, obtemos a quantidade

pretendida.
É igual ao quociente entre a soma dos valores do conjunto e o número total dos valores.
...onde xi são os valores da variável e n o número de valores.
.Dados não-agrupados:
Quando desejamos conhecer a média dos dados não-agrupados em tabelas de frequências,

determinamos a média aritmética simples.
Exemplo: Os dados a seguir apresentam leituras de concentração de um processo químico

feitas a cada duas horas 10, 14, 13, 15, 16, 18 e 12, temos, uma concentração média de:
.= (10+14+13+15+16+18+12) / 7 = 14
Desvio em relação à média: é a diferença entre cada elemento de um conjunto de valores e

a média aritmética, ou seja:.. di = Xi -
No exemplo anterior temos sete desvios:.d1 = 10 - 14 = - 4 ,.d2 = 14 - 14 = 0 , d3 = 13 - 14 =

- 1 ,.d4 = 15 - 14 = 1 ,.d5 = 16 - 14 = 2 ,..d6 = 18 - 14 = 4 e.d7 = 12 - 14 = - 2.
Propriedades da média
1ª propriedade: A soma algébrica dos desvios em relação à média é nula.
No exemplo anterior : d1+d2+d3+d4+d5+d6+d7 = 0
2ª propriedade: Somando-se (ou subtraindo-se) uma constante (c) a todos os valores de

uma variável, a média do conjunto fica aumentada (ou diminuída) dessa constante.
Se no exemplo original somarmos a constante 2 a cada um dos valores da variável temos:
Y = 12+16+15+17+18+20+14 / 7 = 16 ou
Y= .+ 2 = 14 +2 = 16
3ª propriedade: Multiplicando-se (ou dividindo-se) todos os valores de uma variável

por uma constante (c), a média do conjunto fica multiplicada (ou dividida) por essa
constante.
Se no exemplo original multiplicarmos a constante 3 a cada um dos valores da variável

temos:
Y = 30+42+39+45+48+54+36 / 7 = 42 ou
Y= x 3 = 14 x 3 = 42
.
Dados agrupados:
Sem intervalos de classe
Consideremos a distribuição relativa de um canal de comunicação que está sendo

monitorado pelo registro do nº de erros em um conjunto de caracteres (string) 1.000 bits.
Dados para 34 desses conjuntos são vistos a seguir.
Nº de erros frequência = fi
0 2
1 6
2 10
3 12
4 4
total 34
Como as frequências são números indicadores da intensidade de cada valor da variável, elas
funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética
ponderada, dada pela fórmula:
..xi. ..fi. ..xi.fi .

0 2 0
1 6 6
2 10 20
3 12 36
4 4 16
total 34 78
onde 78 / 34 = 2,3 erros
Com intervalos de classe
Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de

classe coincidem com o seu ponto médio, e determinamos a média aritmética ponderada por
meio da fórmula:
..onde Xi é o ponto médio da classe.
Exemplo: Calcular o número de molas fora de conformidade, em cada batelada de produção,

com um tamanho igual a 40 conforme a tabela abaixo.
Nº de molas frequência = fi ponto médio = xi ..xi.fi.

50 |---- 54 4 52 208
54 |---- 58 9 56 504
58 |---- 62 11 60 660
62 |---- 66 8 64 512
66 |---- 70 5 68 340
70 |---- 74 3 72 216
Total 40 2.440
Aplicando a fórmula acima temos: 2.440 / 40.= 61. logo... = 61 molas

MODA
É o valor que ocorre com maior frequência em uma série de valores.
Mo é o símbolo da moda.
Desse modo, a força modal de remoção para um conector é a força mais comum, isto é, a
força de remoção medida em um teste de laboratório para um conector.
A Moda quando os dados não estão agrupados
• A moda é facilmente reconhecida: basta, de acordo com definição, procurar o valor

que mais se repete.
Exemplo: Na série { 7 , 8 , 9 , 10 , 10 , 10 , 11 , 12 } a moda é igual a 10.
• Há séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça
mais vezes que outros.
Exemplo: { 3 , 5 , 8 , 10 , 12 } não apresenta moda. A série é amodal.
• .Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então,
que a série tem dois ou mais valores modais.
Exemplo: { 2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9 } apresenta duas modas: 4 e 7. A série é

bimodal.
.A Moda quando os dados estão agrupados
a) Sem intervalos de classe
Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta fixar o
valor da variável de maior frequência.
Exemplo: Qual a temperatura mais comum medida no mês abaixo:
Temperaturas Frequência
0º C 3
1º C 9
2º C 12
3º C 6
Resp: 2º C é a temperatura modal, pois é a de maior frequência.

b) Com intervalos de classe
A classe que apresenta a maior frequência é denominada classe modal. Pela definição,
podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre
os limites da classe modal. O método mais simples para o cálculo da moda consiste em
tomar o ponto médio da classe modal. Damos a esse valor a denominação de moda bruta.
Mo = ( Li+ Ls) / 2
onde Li = limite inferior da classe modal e Ls= limite superior da classe modal.
Exemplo: Calcule a resistência modal dos 33 resistores conforme a tabela abaixo.
Resistencia (em ohms) Frequência

54 |---- 58 9
58 |---- 62 11
62 |---- 66 8
66 |---- 70 5
Resp: a classe modal é 58|--- 62, pois é a de maior frequência. Li=58 e Ls=62
Mo = (58+62) / 2 = 60 cm (este valor é estimado, pois não conhecemos o valor real da

moda).
Método mais elaborado pela fórmula de CZUBER:
Mo = Li + ((fmo - fant) / ( 2fmo – (fant + fpost))) x c
Li= limite inferior da classe modal
fmo = frequência da classe modal
fant =frequência da classe anterior à da classe modal
fpost =frequência da classe posterior à da classe modal
c = amplitude da classe modal
Obs: A moda é utilizada quando desejamos obter uma medida rápida e aproximada de
posição ou quando a medida de posição deva ser o valor mais típico da distribuição. Já a
média aritmética é a medida de posição que possui a maior estabilidade.
MEDIANA
A mediana de um conjunto de valores, dispostos segundo uma ordem (crescente ou

decrescente), é o valor situado de tal forma no conjunto que o separa em dois subconjuntos
de mesmo número de elementos.
Símbolo da mediana: Md
.A mediana em dados não-agrupados
Dada uma série de valores como, por exemplo: { 5, 2, 6, 13, 9, 15, 10 }
De acordo com a definição de mediana, o primeiro passo a ser dado é o da ordenação

(crescente ou decrescente) dos valores: { 2, 5, 6, 9, 10, 13, 15 }
O valor que divide a série acima em duas partes iguais é igual a 9, logo a Md = 9.
Método prático para o cálculo da Mediana
Se a série dada tiver número ímpar de termos:
O valor mediano será o termo de ordem dado pela fórmula :
O elemento mediano será:..EMd = n + 1 / 2
Exemplo: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 2, 5 }
1º - ordenar a série { 0, 0, 1, 1, 2, 2, 3, 4, 5 }
n = 9 logo (n + 1)/2 é dado por (9+1) / 2 = 5, ou seja, o 5º elemento da série ordenada será a
mediana.
A mediana será o 5º elemento, ou seja, Md = 2
Se a série dada tiver número par de termos:
O elemento mediano será:..EMd = n / 2
Exemplo: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 }
1º - ordenar a série { 0, 0, 1, 1, 2, 3, 3, 4, 5, 6 }
n = 10 logo a fórmula ficará: :..EMd = 10 / 2 = 5
Será na realidade (5º termo + 6º termo) / 2

A mediana será = (2+3) / 2, ou seja, Md = 2,5 . A mediana no exemplo será a média

aritmética do 5º e 6º termos da série.
Notas:
• Quando o número de elementos da série estatística for ímpar, haverá coincidência da

mediana com um dos elementos da série.
• Quando o número de elementos da série estatística for par, nunca haverá
coincidência da mediana com um dos elementos da série. A mediana será sempre a
média aritmética dos 2 elementos centrais da série.
• Em um série a mediana, a média e a moda não têm, necessariamente, o mesmo valor.
• A mediana, depende da posição e não dos valores dos elementos na série ordenada.
Essa é uma da diferenças marcantes entre mediana e média (que se deixa
influenciar, e muito, pelos valores extremos). Vejamos:
Em { 5, 7, 10, 13, 15 } a média = 10 e a mediana = 10
Em { 5, 7, 10, 13, 65 } a média = 20 e a mediana = 10
Isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência
dos valores extremos, ao passo que a mediana permanece a mesma.
A mediana em dados agrupados
a) Sem intervalos de classe
Neste caso, é o bastante identificar a frequência acumulada imediatamente superior à metade

da soma das frequências. A mediana será aquele valor da variável que corresponde a tal
frequência acumulada.
Exemplo conforme tabela abaixo:
Variável xi Frequência fi Frequência acumulada

0 2 2
1 6 8
2 9 17
3 13 30
4 5 35
Total 35 -
Quando o somatório das frequências for ímpar o valor mediano será o termo de ordem dado
pela fórmula :.
Como o somatório das frequências = 35 a fórmula ficará: ( 35+1 ) / 2 = 18º termo = 3..
Quando o somatório das frequências for par o valor mediano será o termo de ordem dado
pela fórmula :.
Exemplo - Calcule Mediana da tabela abaixo:
Variável xi Frequência fi Frequência acumulada

12 1 1
14 2 3
15 1 4
16 2 6
17 1 7
20 1 8
Total 8 -
Aplicando a fórmula acima teremos: [(8/2)+ (8/2+1)]/2 = (4º termo + 5º termo) / 2 = (15 +
16) / 2 = 15,5
b) Com intervalos de classe
Devemos seguir os seguintes passos: 1º) Determinamos as frequências acumuladas ; 2º)
Calculamos ; 3º) Marcamos a classe correspondente à frequência acumulada
imediatamente superior à . Tal classe será a classe mediana; 4º) Calculamos a

Mediana pela seguinte fórmula:..Li + [(EMd - Fant) x c] / fMd
Li = é o limite inferior da classe mediana.
Fant = é a frequência acumulada da classe anterior à classe mediana.
fMd= é a frequência simples da classe mediana.
c = é a amplitude do intervalo da classe mediana.

Exemplo:
classes frequência = fi Frequência acumulada

50 |---- 54 4 4
54 |---- 58 9 13
58 |---- 62 11 24
62 |---- 66 8 32
66 |---- 70 5 37
70 |---- 74 3 40
Total 40 -
= 40 / 2 =.20..logo.a classe mediana será 58 |---- 62
Li = 58....... Fant = 13........... fMd = 11........... c = 4
Substituindo esses valores na fórmula, obtemos: Md = 58 + [ (20 - 13) x 4] / 11 = 58 + 28/11

= 60,54
OBS: Esta mediana é estimada, pois não temos os 40 valores da distribuição.
Emprego da Mediana
• Quando desejamos obter o ponto que divide a distribuição em duas partes iguais.
• Quando há valores extremos que afetam de maneira acentuada a média aritmética.
CAPÍTULO 4 - MEDIDAS DE ASSIMETRIA E CURTOSE
Denominamos curtose o grau de achatamento de uma distribuição em relação a uma

distribuição padrão, denominada curva normal (curva correspondente a uma distribuição
teórica de probabilidade).
Distribuições simétricas
A distribuição das frequências faz-se de forma aproximadamente simétrica, relativamente a

uma classe média. Quando a distribuição é simétrica, a média e a mediana coincidem.
Caso especial de uma distribuição simétrica
Quando dizemos que os dados obedecem a uma distribuição normal, estamos tratando de
dados que se distribuem em forma de sino.
Distribuições Assimétricas
A distribuição das freqüências apresenta valores menores num dos lados:

Distribuições com "caudas" longas
Observamos que nas extremidades há uma grande concentração de dados em relação aos
concentrados na região central da distribuição.
A partir do exposto, deduzimos que se a distribuição dos dados:
1.for aproximadamente simétrica, a média aproxima-se da mediana
2.for enviesada para a direita (alguns valores grandes como "outliers"), a média tende a ser
maior que a mediana
3. for enviesada para a esquerda (alguns valores pequenos como "outliers"), a média tende a
ser inferior à mediana.
São representações visuais dos dados estatísticos que devem corresponder, mas nunca
substituir as tabelas estatísticas. Têm como características principais, o uso de escalas, a
existência de um sistema de coordenadas, a simplicidade, clareza e veracidade de sua
representação.
CAPÍTULO 5 - REPRESENTAÇÃO GRÁFICA
Os gráficos podem ser:
1. Gráficos de informação: gráficos destinados principalmente ao público em geral,

objetivando proporcionar uma visualização rápida e clara. São gráficos tipicamente
expositivos, dispensando comentários explicativos adicionais. As legendas podem ser
omitidas, desde que as informações desejadas estejam presentes ou
2. Gráficos de análise: gráficos que prestam-se melhor ao trabalho estatístico, fornecendo

elementos úteis à fase de análise dos dados, sem deixar de ser também informativos. Os
gráficos de análise freqüentemente vêm acompanhados de uma tabela estatística. Inclui-se,
muitas vezes um texto explicativo, chamando a atenção do leitor para os pontos principais
revelados pelo gráfico.
Mas o uso indevido de Gráficos pode trazer uma idéia falsa dos dados que estão sendo
analisados, chegando mesmo a confundir o leitor, tratando-se, na realidade, de um problema
de construção de escalas.
.
Os gráficos pode ser classificados em: Diagramas, Estereogramas, Pictogramas e
Cartogramas.
.
4.1 - Diagramas
São gráficos geométricos dispostos em duas dimensões. São os mais usados na
representação de séries estatísticas. Eles podem ser :
1 - Gráficos em barras horizontais.
2 - Gráficos em barras verticais (colunas). Quando as legendas não são breves usa-se de
preferência o gráfico em barras horizontais. Nesses gráficos os retângulos têm a mesma base
e as alturas são proporcionais aos respectivos dados. A ordem a ser observada é a
cronológica, se a série for histórica, e a decrescente, se for geográfica ou categórica.
Fig 1. Gráfico de barras de harmônicos da rede elétrica em uma determinada região.

3 - Gráficos em barras compostas.
4 - Gráficos em colunas superpostas. Eles diferem dos gráficos em barras ou colunas

convencionais apenas pelo fato de apresentar cada barra ou coluna segmentada em partes
componentes. Servem para representar comparativamente dois ou mais atributos.
5 - Gráficos em linhas ou lineares. São freqüentemente usados para representação de séries

cronológicas com um grande número de períodos de tempo. As linhas são mais eficientes do
que as colunas, quando existem intensas flutuações nas séries ou quando há necessidade de
se representarem várias séries em um mesmo gráfico. Quando representamos, em um mesmo
sistema de coordenadas, a variação de dois fenômenos, a parte interna da figura formada
pelos gráficos desse fenômeno é denominada de área de excesso.
6 - Gráficos em setores. Este gráfico é construído com base em um círculo, e é empregado

sempre que desejamos ressaltar a participação do dado no total. O total é representado pelo
círculo, que fica dividido em tantos setores quantas são as partes. Os setores são tais que
suas áreas são respectivamente proporcionais aos dados da série. O gráfico em setores só
deve ser empregado quando há, no máximo, sete dados.
Obs: As séries temporais geralmente não são representadas por este tipo de gráfico.
.
4.2 - Estereogramas
São gráficos geométricos dispostos em três dimensões, pois representam volume. São usados
nas representações gráficas das tabelas de dupla entrada. Em alguns casos este tipo de
gráfico fica difícil de ser interpretado dada a pequena precisão que oferecem.
4.3 - Pictogramas
São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de
gráfico tem a vantagem de despertar a atenção do público leigo, pois sua forma é atraente e
sugestiva. Os símbolos devem ser auto-explicativos. A desvantagem dos pictogramas é que
apenas mostram uma visão geral do fenômeno, e não de detalhes minuciosos. Veja o
exemplo abaixo:
4.4 - Cartogramas
São ilustrações relativas a cartas geográficas (mapas). O objetivo desse gráfico é o de figurar
os dados estatísticos diretamente relacionados com áreas geográficas ou políticas.
Dados obtidos de uma amostra servem como base para uma decisão sobre a população.
Quanto maior for o tamanho da amostra, mais informação obtemos sobre a população.
Porém, um aumento do tamanho da amostra também implica um aumento da quantidade de
dados e isso torna difícil compreender a população, mesmo quando estão organizados em
tabelas. Em tal caso, precisa-se de um método que possibilite conhecer a população num
rápido exame.
Um histograma atende às necessidades, por meio da organização de muitos dados num
histograma, pode-se conhecer a população de maneira objetiva.
4.5 - Gráficos dos Dados na Ordem Cronológica

Representação gráfica do resultado Y versus a ordem cronológica de execução do
experimento (diagrama do resultado Y versus tempo t). Nesse tipo de gráfico, alguns dos
possíveis fenômenos que podem ser observados são:
1.Curva de aprendizagem dos experimentadores (pontos no início do experimento).
2.Tendências dentro de um determinado período (horas, turnos, dias, etc.), freqüentemente
em função de aquecimento, fadiga, e outros fatores relacionados com o tempo.
3.Aumento ou diminuição da variabilidade dos dados com o tempo, podendo representar
curva de aprendizagem ou características relativas ao material.
4.6 - Histogramas de Freqüência ou Distribuição de Freqüências

É uma ferramenta estatística apropriada para a apresentação de grandes massas de dados
numa forma que torna mais clara a tendência central e a dispersão dos valores ao longo da
escala de medição, bem como a freqüência relativa de ocorrência dos diferentes valores.
CAPÍTULO 6 - MEDIDAS DE DISPERSÃO OU DE

VARIABILIDADE
No capítulo 3 vimos algumas medidas de localização do centro de uma distribuição de

dados. Veremos agora como medir a variabilidade presente num conjunto de dados.
Um aspecto importante no estudo descritivo de um conjunto de dados é o da determinação

da variabilidade ou dispersão desses dados, relativamente à medida de localização do centro
da amostra.
DESVIO PADRÃO ( S )
É a medida de dispersão mais empregada, pois leva em consideração a totalidade dos valores
da variável em estudo. É um indicador de variabilidade bastante estável. O desvio padrão
baseia-se nos desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida
como: a raiz quadrada da média aritmética dos quadrados dos desvios e é representada
por S.
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a
mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as
mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio
padrão.
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior
for, maior será a dispersão dos dados.
A fórmula acima é empregada quando tratamos de uma população de dados não-

agrupados.
Exemplo: Calcular o desvio padrão da população representada por - 4 , -3 , -2 , 3 , 5
Xi
-4 - 0,2 - 3,8 14,44
-3 - 0,2 - 2,8 7,84
-2 - 0,2 - 1,8 3,24
3 - 0,2 3,2 10,24
5 - 0,2 5,2 27,04
Total - - 62,8
Sabemos que n = 5 e 62,8 / 5 = 12,56.
A raiz quadrada de 12,56 é o desvio padrão = 3,54
Quando os dados estão agrupados (temos a presença de frequências) a fórmula do desvio

padrão ficará:
ou
Exemplo: Calcule o desvio padrão populacional da tabela abaixo:
Xi f i Xi . f i .fi
0 2 0 2,1 -2,1 4,41 8,82
1 6 6 2,1 -1,1 1,21 7,26
2 12 24 2,1 -0,1 0,01 0,12
3 7 21 2,1 0,9 0,81 5,67
4 3 12 2,1 1,9 3,61 10,83
Total 30 63 - - - 32,70
Sabemos que ∑ fi = 30 e 32,7 / 30 = 1,09.
A raiz quadrada de 1,09 é o desvio padrão = 1,044
Se considerarmos os dados como sendo de uma amostra o desvio padrão seria a raiz
quadrada de 32,7 / (30 -1) = 1,062
Obs: Nas tabelas de frequências com intervalos de classe a fórmula a ser utilizada é a
mesma do exemplo anterior.
VARIÂNCIA ( S2 )
Define-se a variância, como sendo a medida que se obtém somando os quadrados dos
desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de
observações da amostra menos um.
S2 =
A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é
extremamente importante na inferência estatística e em combinações de amostras.
MEDIDAS DE DISPERSÃO RELATIVA
CVP: Coeficiente de Variação de Pearson
Na estatística descritiva o desvio padrão por si só tem grandes limitações. Assim, um desvio
padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor
médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito.
Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu
emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua
dispersão ou variabilidade, quando expressas em unidades diferentes.
Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou

variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada de
CVP: Coeficiente de Variação de Pearson (é a razão entre o desvio padrão e a média
referente aos dados de uma mesma série).
A fórmula do CVP = (S / ) x 100 (o resultado neste caso é expresso em percentual,

entretanto pode ser expresso também através de um fator decimal, desprezando assim o valor
100 da fórmula).
Exemplo 1:
Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos:
Discriminação MÉDIA DESVIO PADRÃO

ESTATURAS 175 cm 5,0 cm
PESOS 68 kg 2,0 kg
Qual das medidas (Estatura ou Peso) possui maior homogeneidade?
Resposta: Teremos que calcular o CVP da Estatura e o CVP do Peso. O resultado menor
será o de maior homogeneidade (menor dispersão ou variabilidade).
CVP estatura = ( 5 / 175 ) x 100 = 2,85 %
CVP peso = ( 2 / 68 ) x 100 = 2,94 %.
Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os
pesos.
Exemplo 2:
O risco de uma ação de uma empresa pode ser devidamente avaliado através da variabilidade
dos retornos esperados. Portanto, a comparação das distribuições probabilísticas dos
retornos, relativas a cada ação individual, possibilita a quem toma decisões perceber os
diferentes graus de risco. Analise, abaixo, os dados estatísticos relativos aos retornos de 5
ações e diga qual é a menos arriscada?
Discriminação Ação A Ação B Ação C Ação D Ação E

Valor esperado 15 % 12 % 5% 10 % 4%
Desvio padrão 6% 6,6 % 2,5 % 3% 2,6 %
Coeficiente de variação 0,40 0,55 0,50 0,30 0,65
CAPÍTULO 7 – CORRELAÇÃO E REGRESSÃO
7.1 DIAGRAMAS DE DISPERSÃO

Na prática, é muitas vezes essencial estudar a relação entre duas variáveis associadas como,
por exemplo, o grau a dimensão de uma peça de máquina irá variar em função da mudança
da velocidade de um torno.
Para estudar a relação entre duas variáveis, tais como dito acima, pode-se usar o chamado
diagrama de dispersão. Diagrama de Dispersão é uma forma de gráfico onde simplesmente
representa-se graficamente cada par de variáveis de uma série de dados em um sistema de
eixos.
Tomando como exemplo os dados da Tabela abaixo, pode-se construir um diagrama de

dispersão:
7.1.1 COMO CONSTRUIR UM DIAGRAMA DE DISPERSÃO
Um diagrama de dispersão é construído conforme as seguintes etapas:
Etapa 1
Coletar dados em pares (X,Y) entre os quais deseja-se estudar as relações, e organize-os em
uma tabela. É desejável que se tenha pelo menos 30 pares de dados.
Etapa 2
Encontrar os valores máximo e mínimo, tanto para X como para Y. Defina as escalas dos
eixos horizontal e vertical de forma que ambos os comprimentos sejam aproximadamente
iguais; assim, o diagrama ficará mais fácil de interpretar.
Determinar, para cada eixo, entre 3 e 10 divisões para as unidades da escala de graduação, e
utilize números inteiros para torna-lo mais fácil de ler. Quando duas variáveis consistirem
em um fator e uma característica da qualidade, use o eixo horizontal X para o fator e o eixo
vertical Y para a característica da qualidade.
Etapa 3
Marcar os dados num papel milimetrado. Quando os mesmos valores de dados forem obtidos
a partir de diferentes observações, mostre estes pontos, desenhando círculos concêntricos
ou marcando o segundo ponto rente ao primeiro.
Etapa 4
Inserir todos os itens necessários. Certificar de que os seguintes itens sejam incluídos para
que qualquer pessoa, além do autor do diagrama, possa entende-lo num rápido exame:
a. Título do diagrama;
b. Período de tempo;
c. Quantidade de pares de dados;
d. Denominação e unidade de medida de cada eixo;
Exemplo 1:
Um fabricante de tanques plásticos, que os fabricava pelo processo de moldagem a sopro,
encontrou problemas de tanques defeituosos com paredes finas. Suspeitou-se que a variação
da pressão do ar, dia a dia, era a causa das paredes finas não-conformes. A Tabela a seguir
mostra dados sobre a pressão de sopro e a percentagem defeituosa.
Tabela 1 – Dados da Pressão de Sopro e Percentagem Defeituosa

de Tanques de Plástico
Conforme visto na Tabela acima, existem 30 pares de dados.
Etapa 2
Neste exemplo, indicamos a pressão de sopro por X (eixo horizontal) e a percentagem
defeituosa por Y (eixo vertical).
Assim:
O valor máximo de x: xmáx = 9,4 (kgf/cm²)
O valor mínimo de x: xmín = 8,2 (kgf/cm²)
O valor máximo de y: ymáx = 0,928 (%)
O valor mínimo de y: ymín = 0,864 (%)
Marca-se divisões para graduação:

no eixo horizontal – em intervalos de 0,5(kgf/cm²) de 8,0 a 9,5(kgf/cm²)
no eixo vertical – em intervalos de 0,01(%) de 0,85 a 0,93(%)
Etapa 3
Marca-se os pontos no gráfico.
Etapa 4
Anota-se o período de tempo a que se refere à amostra coletada (1 de outubro a 9 de
novembro), a quantidade de amostras (n = 30), o eixo horizontal (pressão de sopro
[kgf/cm²]), o eixo vertical (percentagem defeituosa [%]), e o título do diagrama (diagrama de
dispersão da pressão do sopro e a percentagem defeituosa).
Figura 1 – Exemplo de Diagrama de Dispersão
7.1.2 Como Interpretar os Diagramas de Dispersão
Assim como é possível avaliar o formato de uma distribuição em um histograma, a

distribuição global dos pares de dados pode ser interpretada a partir de um diagrama de
dispersão. Ao proceder a leitura, a primeira coisa que se deve fazer é examinar se há ou não
pontos atípicos no diagrama. Geralmente, pode-se julgar que quaisquer pontos afastados do
grupo principal (Figura 2) resultaram de erros na medição ou registro de dados, ou foram
causados por alguma mudança nas condições de operação. É necessário excluir esses pontos
para análise da correlação. Contudo, ao invés de desprezar completamente estes pontos,
deveria ser dada a devida atenção à causa de tais irregularidades, pois muitas vezes,
informações inesperadas, porém muito úteis, são obtidas descobrindo-se por que eles
ocorreram.
Existem muitos tipos de padrões de dispersão, e alguns destes são dados da Figura 3. Nesta
figura, tanto na .1 como na .2, Y aumenta com X; este é o caso da correlação positiva. E
ainda, como a .1 mostra esta tendência de forma notável, diz-se que ela apresenta forte
correlação positiva. As Figuras .4 e .5 mostram o oposto da correlação positiva, pois à
medida que X aumenta, Y diminui; este é o caso da chamada correlação negativa. A Figura
4 indica uma forte correlação negativa. A Figura .3 mostra o caso em que X e Y não têm
nenhuma relação específica; portanto, dizemos que não há correlação. Na Figura .6, à
medida que X aumenta, Y varia num padrão curvo. Isto será explicado posteriormente.
Figura 2 – Exemplo de Pontos Suspeitos
.1 - Correlação Positiva
.2 - Correlação Negativa
.3 - Pode haver Correlação Positiva
.4 - Pode haver Correlação Negativa
.5 - Não Há Correlação
.6 - Não Há Correlação
Figura 3 – Exemplos de Correlação
7.2 Cálculo de Coeficientes de Correlação
Para estudar a relação entre X e Y é importante traçar primeiro um diagrama de dispersão,

entretanto, a fim de conhecer a força da relação em termos quantitativos, é útil calcular o
coeficiente de correlação de acordo com a seguinte definição:
onde:
onde “n” é a quantidade de pares de dados
O coeficiente de correlação, r, está no intervalo –1 ≤ r ≤ +1. Se o valor absoluto de r for

maior que 1, houve claramente um erro de cálculo e deve-se refaze-lo. No caso de forte
correlação positiva, ele atinge um valor próximo de +1 e, de forma análoga, numa forte
correlação negativa, ele fica próximo de –1. Quando | r | está próximo de 1, ele indica uma
forte correlação entre X e Y. Quando se aproxima de 0 (zero), implica numa correlação fraca.
Quando | r | = 1, os dados estarão sobre uma linha reta.
Exemplo 2
Calculemos o coeficiente de correlação para o Exemplo 1, dos tanques de plástico. A Tabela
2 abaixo apresenta os cálculos, a partir dela obtêm-se os resultados desejados.
O valor de r é 0,59, existindo portanto uma correlação positiva entre a pressão de sopro e a
percentagem defeituosa de tanques de plástico.
Tabela 2 – Preparação para o cálculo do coeficiente de correlação.
7.3 AJUSTAMENTO DE CURVAS E O MÉTODO DOS MÍNIMOS QUADRADOS
Num diagrama de dispersão é possível, freqüentemente, visualizar uma curva regular que se
aproxima dos dados. Essa curva é denominada de ajustamento.
Figura 4 – Exemplo de Curvas em Diagramas de Dispersão

O problema geral da determinação das equações de curvas que se acomodem a certos

conjuntos de dados é denominado AJUSTAMENTO DE CURVAS.
7.4 Equações das Curvas de Ajustamento
Para fins de referência, relaciona-se abaixo alguns tipos de curvas de ajustamento e suas
equações. Todas as letras, exceto X e Y, representam constantes. As letras X e Y referem-se,
freqüentemente, a variáveis independentes e dependentes, respectivamente, embora esses
papéis possam ser permutados.
onde o segundo membro das equações são denominados polinômios do 1º, 2º, 3º, 4º e
n-ésimo graus.
As funções definidas pelas quatro primeiras equações são, às vezes, denominadas Funções
Linear, Quadrática, Cúbica e do 4º Grau, respectivamente.
Como outras equações possíveis (entre muitas usadas na prática), menciona-se as seguintes:
Para decidir qual a curva a adotar, é conveniente a obtenção de diagramas de dispersão das
variáveis transformadas. Por exemplo, se o diagrama de dispersão de log Y em função de X
apresentar uma relação linear, a equação terá o aspecto da (7), enquanto, se o de log Y em
função de log X for linear, a equação terá o formato de (8).
Emprega-se, freqüentemente, para tal finalidade, gráficos no qual uma ou ambas as escalas
são logarítmicas (semilog ou log-log [dilog]).
7.5 O Método dos Mínimos Quadrados

Antes, é necessário instituir uma definição da “melhor reta de ajustamento”, da “melhor
parábola de ajustamento”, etc.
Figura 5 - A melhor curva de ajustamento
Para conseguir uma definição possível, considere-se a Figura 6.2 na qual os dados estão
representados pelos pontos (X1,Y1), (X2,Y2), ..., (Xn,Yn). Para um valor dado de X, por
exemplo X1, haverá uma diferença entre y1 e p valor correspondente determinado na curva
C.
Como está representado na figura, essa diferença é e1, que é, muitas vezes, designada como
desvio, erro ou resíduo e pode ser positivo, negativo ou nulo. De modo semelhante, obtém-se
os desvios e2, e3, ..., en.
Uma medida de “qualidade do ajustamento”da Curva C aos dados apresentados (aderência) é

proporcionada pela quantidade e2² + e3² + ... + en². Se ela é pequena, o ajustamento é bom,
se é grande, o ajustamento está ruim.
Portanto, uma definição pode ser feita:
⇒ De todas as curvas que se ajustam a um conjunto de pontos, a que tem a propriedade de

apresentar o mínimo valor de e2² + e3² + ... + en² é denominada a melhor curva de
ajustamento.
⇒ Diz-se que uma curva que apresenta essa propriedade ajusta os dados no sentido dos
mínimos quadrados e é denominada curva de mínimos quadrados.
7.6 REGRESSÃO
Deseja-se, freqüentemente, com base em dados amostrais estimar o valor de uma variável Y,
correspondente ao conhecido de uma variável X. Isso pode ser alcançado mediante a
avaliação do valor de Y, a partir de uma curva de mínimo quadrado que se ajuste aos dados
amostrais. A curva resultante é denominada de regressão de Y para X, visto que Y é
avaliado a partir de X.
Se se desejar estimar o valor de X a partir de um atribuído a Y, usa-se uma curva de
regressão de X para Y, o que importa em uma permutação das varáveis no diagrama de
dispersão, de modo que X passa a ser a variável dependente e Y a independente.
Em geral, a reta ou curva de regressão de Y para X não é igual à de X para Y.
Exemplo 3
No Exemplo 1, dos tanques plásticos com paredes finas defeituosas, constatou-se que havia
uma correlação positiva entre a pressão de sopro e a percentagem defeituosa. A fim de evitar
esse problema, pergunta-se:
- Quando a pressão de sopro estiver em um certo valor, qual será a espessura das paredes
formadas?
- Como a pressão de sopro deve ser controlada para que as paredes do tanque não fiquem
finas?
Para realizar essa análise e poder responder às perguntas feitas, é necessário compreender,
quantitativamente, a relação entre a pressão de sopro e a espessura da parede.
A Tabela 3 mostra os dados de uma experiência na qual a pressão de sopro foi mudada e, em
cada vez, a espessura das paredes foi medida. A Figura 6 é um diagrama de dispersão
baseado nestes dados.
Tabela 3 – Pressão de Sopro x Espessura da Parede
Figura 6 – Relação entre a Pressão de Ar e a Espessura da Parede

Pode-se representar a pressão do sopro por x e a espessura da parede por y, admitindo uma
relação linear:
onde:
α é uma constante
β é chamado de coeficiente de regressão
Tal reta é geralmente chamada de reta de regressão, onde y é a variável resposta (ou
variável dependente), e x é a variável explicativa (ou variável independente). A forma
quantitativa de entender a relação entre x e y, pela busca de uma forma de regressão entre x e
y , é chamada de Análise de Regressão.
Seja (Xi,Yi) (para 1 ≤ i ≤ n) um conjunto de n pares de dados observados. Sejam os

valores estimados e a e b, e seja ei o resíduo entre , isto é:
Pelo método dos mínimos quadrados, são obtidos como os valores que minimizam
soma dos quadrados dos resíduos. Esse método é aplicado através das seguintes
etapas:
os valores de aˆ e bˆ obtidos dessas etapas minimizam a soma dos quadrados dos resíduos.
Agora, usando os dados da Tabela 4, pode-se calcular a reta de regressão.
Tabela 4
A cada aumento de 1(kgf/cm²) da pressão do ar, a espessura da parede diminui de 1,28(mm).

Figura 7 - mostra a reta de regressão calculada acima.
7.8 Problemas que envolvem mais de duas variáveis

Podem ser tratadas de maneira análoga aos de duas. Por exemplo, pode haver uma relação
entre três variáveis X, Y e Z que pode ser descrita pela expressão:
que é denominada equação linear das variáveis X, Y e Z.
Em um sistema tridimensional de coordenadas retangulares, essa equação representa um

plano e os pontos amostrais reais (X1,Y1), (X2,Y2), ..., (Xn,Yn) podem “dispersar-se” em
posições não muito distantes desse plano, que pode ser denominado de ajustamento.
Mediante a extensão do método dos mínimos quadrados, pode-se falar de um plano de

mínimos quadrados de ajustamento dos dados.
Se o número de variáveis exceder a três, perde-se a intuição geométrica porque, então, seria
necessário considerar espaços de quatro ou mais dimensões.
Os problemas que envolvem a avaliação de uma variável a partir de duas ou mais outras são
denominados problemas de regressão múltipla.
Exercícios:
1) A quantidade de libras de vapor usadas por mês por uma planta química esta relacionada à
temperatura (ºF) média ambiente para aquele mês. O consumo do ano passado e a temperatura
são mostrados na seguinte tabela:
Meses Temperatura Consumo/1.000

Janeiro 21 185,79
Fevereiro 24 214,47
Março 32 288,03
Abril 47 424,84
Maio 50 454,58
Junho 59 539,03
Julho 68 621,55
Agosto 74 675,06
Setembro 62 562,03
Outubro 50 452,93
Novembro 41 369,95
Dezembro 30 273,98
a) Construa um diagrama de dispersão

b) Encontre a equação da reta
c) Calcule a correlação
d) Qual será a estimativa do consumo esperado de vapor quando a temperatura média for de
55ºF?
2) Um artigo publicado numa revista (março de 1986) apresentou dados sobre a concentração de
licor verde de Na2S e da produção de uma máquina de papel.
Número de Concentração
observações (g/l) de licor Produção (t/dia)
verde de Na2S
1 40 825
2 42 830
3 49 890
4 46 895
5 44 890
6 48 910
7 46 915
8 43 960
9 53 990
10 52 1010
11 54 1012
12 57 1030
13 58 1050
a) Encontre o valor ajustado y, correspondente a x = 910
b) Encontre a correlação entre as variáveis estudadas
3) A tabela a seguir representa o número de horas de estudo fora da sala de aula para
determinada turma de alunos de Estatística, ao longo de três semanas e as notas obtidas
numa prova aplicada ao final do período:
Estudante 1 2 3 4 5 6 7 8
Horas de Estudo 20 16 34 23 27 32 18 22
Grau obtido 64 61 84 70 88 92 72 77
a. Trace o diagrama de dispersão correspondente.

b. Determine a equação de regressão dos mínimos quadrados para predizer o grau
obtido na prova com base nas horas de estudo. Desenhe a reta do item anterior
sobre o diagrama.
c. Estime o grau que seria obtido na prova por alguém que estudasse 30 horas fora
da sala de aula.
d. Calcule o coeficiente de correlação e interprete-o.
e. Teste se o coeficiente de correlação populacional (ρ) pode ser considerado nulo
ao nível de 5% de significância? Interprete o resultado obtido.
CAPÍTULO 8 – INTRODUÇÃO À AMOSTRAGEM
8- Definições
8.1 População e amostra
Qualquer estudo científico enfrenta o dilema de estudo da população ou da amostra.

Obviamente teria-se uma precisão muito superior se fosse analisado o grupo inteiro, a
população, do que uma pequena parcela representativa, denominada amostra. Observa-se
que é impraticável na grande maioria dos casos, estudar-se a população em virtude de
distâncias, custo, tempo, logística, entre outros motivos.
A alternativa praticada nestes casos é o trabalho com uma amostra confiável. Se a amostra é
confiável e proporciona inferir sobre a população, chamamos de inferência estatística. Para
que a inferência seja válida, é necessária uma boa amostragem, livre de erros, tais como falta
de determinação correta da população, falta de aleatoriedade e erro no dimensionamento da
amostra.
Quando não é possível estudar, exaustivamente, todos os elementos da população, estudam-

se só alguns elementos, a que damos o nome de Amostra.
Quando a amostra não representa corretamente a população diz-se enviesada e a sua

utilização pode dar origem a interpretações erradas.
8.2 Recenseamento
Recenseamento é a contagem oficial e periódica dos indivíduos de um País, ou parte de um

País. Ele abrange, no entanto, um leque mais vasto de situações. Assim, pode definir-se
recenseamento do seguinte modo:
Estudo científico de um universo de pessoas, instituições ou objetos físicos com o propósito

de adquirir conhecimentos, observando todos os seus elementos, e fazer juízos quantitativos
acerca de características importantes desse universo.
8.3 Amostragem
Amostragem é o processo que procura extrair da população elementos que através de

cálculos probabilísticos ou não, consigam prover dados inferenciais da população-alvo.
Não Probabilística
Acidental ou conveniência
Intencional
Quotas ou proporcional
Tipos de Amostragem Desproporcional
Probabilística
Aleatória Simples
Aleatória Estratificada
Conglomerado
8.3.1.Não Probabilística
A escolha de um método não probabilístico, via de regra, sempre encontrará desvantagem

frente ao método probabilístico. No entanto, em alguns casos, se faz necessário a opção por
este método. Fonseca (1996), alerta que não há formas de se generalizar os resultados
obtidos na amostra para o todo da população quando se opta por este método de
amostragem.
• Acidental ou conveniência
Indicada para estudos exploratórios. Freqüentemente utilizados em super mercados
para testar produtos.
• Intencional
O entrevistador dirige-se a um grupo em específico para saber sua opinião. Por
exemplo, quando de um estudo sobre automóveis, o pesquisador procura apenas
oficinas.
• Quotas ou proporcional
Na realidade trata-se de uma variação da amostragem intencional. Necessita-se ter
um prévio conhecimento da população e sua proporcionalidade. Por exemplo, deseja-
se entrevistar apenas indivíduos da classe A, que representa 12% da população. Esta
será a quota para o trabalho. Comumente também subestratifica-se uma quota
obedecendo a uma segunda proporcionalidade.
• Desproporcional
Muito utilizada quando a escolha da amostra for desproporcional à população.
Atribuem-se pesos para os dados, e assim obtém-se resultados ponderados
representativos para o estudo.
8.3.2 Probabilística
Para que se possa realizar inferências sobre a população, é necessário que se trabalhe com
amostragem probabilística. É o método que garante segurança quando investiga-se alguma
hipótese. Normalmente os indivíduos investigados possuem a mesma probabilidade de ser
selecionado na amostra.
• Aleatória Simples
É o mais utilizado processo de amostragem. Prático e eficaz, confere precisão ao processo de

amostragem. Normalmente utiliza-se uma tabela de números aleatórios e nomeia-se os
indivíduos, sorteando-se um por um até completar a amostra calculada.
Uma variação deste tipo de amostragem é a sistemática. Em um grande número de

exemplos, o pesquisador depara-se com a população ordenada. Neste sentido, tem-se os
indivíduos dispostos em seqüência o que dificulta a aplicação exata desta técnica.
Quando se trabalha com sorteio de quadras de casas, por exemplo, há uma regra crescente
para os números das casas. Em casos como este, divide-se a população pela amostra e
obtém-se um coeficiente (y). A primeira casa será a de número x, a segunda será a de
número x + y; a terceira será a de número x + 3. y. Supondo que este coeficiente seja 6. O
primeiro elemento será 3. O segundo será 3 + 6. O terceiro será 3 + 2.6. O quarto será 3 +
3.6, e assim sucessivamente.
• Aleatória Estratificada
Quando se deseja guardar uma proporcionalidade na população heterogênea. Estratifica-se

cada subpopulação por intermédio de critérios como classe social, renda, idade, sexo, entre
outros.
• Conglomerado
Em corriqueiras situações, torna-se difícil coletar características da população. Nesta

modalidade de amostragem, sorteia-se um conjunto e procura-se estudar todo o conjunto. É
exemplo de amostragem por conglomerado, famílias, organizações e quarteirões.
8.4 Tipos de dados
VARIÁVEL: É, convencionalmente, o conjunto de resultados possíveis de um fenômeno.
Variável Qualitativa: Quando seus valores são expressos por atributos: sexo, cor da pele, etc.
Variável Quantitativa: Quando os dados são de caráter nitidamente quantitativo, e o conjunto

dos resultados possui uma estrutura numérica, trata-se, portanto da estatística de variável e
se dividem em:
Variável Discreta ou Descontínua: Seus valores são expressos geralmente através de

números inteiros não negativos. Resulta normalmente de contagens. Ex: Nº de alunos
presentes às aulas de introdução à estatística econômica no 1º semestre de 1997: mar = 18,
abr = 30, mai = 35, jun = 36.
Variável Contínua: Resulta normalmente de uma mensuração, e a escala numérica de seus

possíveis valores corresponde ao conjunto R dos números Reais, ou seja, podem assumir,
teoricamente, qualquer valor entre dois limites. Ex.: Quando você vai medir a temperatura de
seu corpo com um termômetro de mercúrio o que ocorre é o seguinte: O filete de mercúrio,
ao dilatar-se, passará por todas as temperaturas intermediárias até chegar na temperatura
atual do seu corpo.
De acordo com o que dissemos anteriormente, numa análise estatística distinguem-se

essencialmente duas fases:
Uma primeira fase em que se procura descrever e estudar a amostra: Estatística Descritiva e
uma segunda fase em que se procura tirar conclusões para a população:
1ª Fase Estatística Descritiva
Procura-se descrever a amostra, pondo em evidência as características principais e as

propriedades.
2ª Fase Estatística Indutiva
Conhecidas certas propriedades (obtidas a partir de uma análise descritiva da amostra),

expressas por meio de proposições, imaginam-se proposições mais gerais, que exprimam a
existência de leis (na população).
No entanto, ao contrário das proposições deduzidas, não podemos dizer que são falsas ou
verdadeiras, já que foram verificadas sobre um conjunto restrito de indivíduos e, portanto
não são falsas, mas não foram verificadas para todos os indivíduos da População, pelo que
também não podemos afirmar que são verdadeiras.
Existe, assim, um certo grau de incerteza (percentagem de erro) que é medido em termos de
Probabilidade.
Considerando o que foi dito anteriormente sobre a Estatística Indutiva, precisamos aqui da
noção de Probabilidade, para medir o grau de incerteza que existe, quando tiramos uma
conclusão para a população, a partir da observação da amostra.
8.5 Espaço Amostral
A estatística trabalha com os resultados dos experimentos. Quando algum experimento é

realizado, algum resultado ocorre; denota-se um resultado típico pelo símbolo “e”. Tal
resultado é chamado evento simples.
Se for feita uma lista de todos os possíveis resultados de interesse do experimento, essa série
é chamada de espaço amostral.
8.6 Dimensionamento da amostra – Plano Amostral
Quando deseja-se dimensionar o tamanho da amostra, o procedimento desenvolve-se em três

etapas distintas:
• Avaliar a variável mais importante do grupo e a mais significativa;

• Analisar se é ordinal, intervalar ou nominal;
• Verificar se a população é finita ou infinita;
Variável intervalar e população infinita
Variável intervalar e população finita
Variável nominal ou ordinal e população infinita
Variável nominal ou ordinal e população finita
Obs: A proporção (p) será a estimativa da verdadeira proporção de um dos níveis escolhidos
para a variável adotada. Por exemplo, 60% dos telefones da amostra é Nokia, então p será
0,60.
A proporção (q) será sempre 1 - p. Neste exemplo q, será 0,4. O erro é representado por d.
Para casos em que não se tenha como identificar as proporções confere-se 0,5 para p e q.
CAPÍTULO 9 – PROBABILIDADE
9. Conceito de Probabilidade
Chamamos de probabilidade de um evento A (sendo que A está contido no Espaço amostral)

o número real P(A), tal que: número de casos favoráveis de A / número total de casos.
9.1 Eventos Equiprováveis
OBS: Quando todos os elementos do Espaço amostral tem a mesma chance de acontecer, o
espaço amostral é chamado de conjunto equiprovável.
Ex: No lançamento de uma moeda qual a probabilidade de obter cara em um evento A?
Ω = { ca, co } = 2 A = {ca} = 1 P(A) = 1/2 = 0,5 = 50%
9.2 Probabilidade Condicional
Se A e B são dois eventos, a probabilidade de B ocorrer, depois de A ter acontecido é

definida por: P (B/A), ou seja, é chamada probabilidade condicional de B. Neste caso os
eventos são dependentes e definidos pela fórmula:
P (A e B ) = P (A) x P(B/A)
Ex: Duas cartas são retiradas de um baralho sem haver reposição. Qual a probabilidade de
ambas serem COPAS ?
P (Copas1 e Copas2) = P(Copas1) x P(Copas2/Copas1) = 13/52 x 12/51 = 0,0588 = 5,88 %
P(Copas1) = 13/52
P(Copas2/Copas1) = 12/51
Obs: No exemplo anterior se a 1ª carta retirada voltasse ao baralho o experimento seria do

tipo com reposição e seria um evento independente. O resultado seria:
P(Copas1) x P(Copas2) = 13/52 x 13/52 = 0,625 = 6,25 %
Espaço amostral do baralho de 52 cartas:
Carta pretas = 26
Páus = 13 (ás, 2, 3, 4, 5, 6, 7, 8, 9, 10, valete, dama, rei)
Espadas = 13 (ás, 2, 3, 4, 5, 6, 7, 8, 9, 10, valete, dama, rei)

Cartas vermelhas = 26
Ouros = 13 (ás, 2, 3, 4, 5, 6, 7, 8, 9, 10, valete, dama, rei)
Copas = 13 (ás, 2, 3, 4, 5, 6, 7, 8, 9, 10, valete, dama, rei)
9.3 Eventos Independentes
Quando a realização ou não realização de um dos eventos não afeta a probabilidade da

realização do outro e vice-versa.
Ex: Quando lançamos dois dados, o resultado obtido em um deles independe do resultado
obtido no outro. Então qual seria a probabilidade de obtermos, simultaneamente, o nº 4 no
primeiro dado e o nº 3 no segundo dado?
Assim, sendo P1 a probabilidade de realização do primeiro evento e P2 a probabilidade de

realização do segundo evento, a probabilidade de que tais eventos se realizem
simultaneamente é dada pela fórmula:
P(1 n 2) = P(1 e 2) = P(1) x P(2)
P1 = P(4 dado1) = 1/6 P2 = P(3 dado2) = 1/6
P total = P (4 dado1) x P (3 dado2) = 1/6 x 1/6 = 1/36
9.3.1 Eventos Mutuamente Exclusivos - Eventos Dependentes
Dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a

realização do(s) outro(s). Assim, no lançamento de uma moeda, o evento "tirar cara" e o
evento "tirar coroa" são mutuamente exclusivos, já que, ao se realizar um deles, o outro não
se realiza.
Se dois eventos são mutuamente exclusivos, a probabilidade de que um ou outro se realize é

igual à soma das probabilidades de que cada um deles se realize:
P(1 U 2) = P(1 ou 2) = P(1) + P(2)
Ex: No lançamento de um dado qual a probabilidade de se tirar o nº 3 ou o nº 4 ?
Os dois eventos são mutuamente exclusivos então: P = 1/6 + 1/6 = 2/6 = 1/3
Obs: Na probabilidade da união de dois eventos A e B, quando há elementos comuns,

devemos excluir as probabilidades dos elementos comuns a A e B (elementos de A n B )
9.4 Teorema de Bayes ou Teorema da Probabilidade Total
Sabemos que:
P(A) = E P(Bi) . P(A|Bi)
P(A n Bi) = P(A) . P(Bi|A) logo P(Bi|A) = P(A n Bi) / P(A) então substituindo teremos:
P (Bi|A) = P (Bi) . P (A|Bi) / E P(Bi) . P(A|Bi) que é a fórmula de Bayes
Ex: Certo professor 4/5 das vezes vai trabalhar usando um fusca e usando um carro
importado nas demais vezes. Quando ele usa o fusca, 75 % das vezes ele chega em casa
antes das 23 horas e quando usa o carro importado só chega em casa antes das 23 horas em
60% das vezes. Ontem o professor chegou em casa após às 23 horas. Qual a probabilidade
de que ele, no dia de ontem, tenha usado o fusca ?
B1 = usar o fusca B2 = usar carro importado A = chegar em casa após 23 horas
P(B1) = 4/5 = 0,80 P(B2) = 1/5 = 0,20
P( A | B1) = 1 - 0,75 = 0,25 P( A | B2) = 1 - 0,60 = 0,40
P (B1 | A) = P (B1) . P( A | B1) / P (B1) . P( A | B1) + P (B2) . P( A | B2)
P (B1 | A) = 0,80 x 0,25 /(0,80 x 0,25) + (0,20 x 0,40) =
P (B1 | A) = 0,20 / (0,20 + 0,08) = 0,7143 ou 71,43 %
Exercício: Em um lote de 12 peças, 4 sã defeituosas. Sendo retirada uma peça, calcule: a) a

probabilidade de essa peça ser defeituosa. b) a probabilidade de essa peça não ser defeituosa.
CAPÍTULO 10 – VARIÁVEL ALEATÓRIA DISCRETA
10.1 Distribuição de Probabilidades
Apresentaremos neste capítulo três modelos teóricos de distribuição de probabilidade, aos

quais um experimento aleatório estudado possa ser adaptado, o que permitirá a solução de
grande número de problemas práticos.
10.1.1 Variável Aleatória
Suponhamos um espaço amostral S e que a cada ponto amostral seja atribuído um número.
Fica, então, definida uma função chamada variável aleatória.
Muitas vezes não estamos interessados propriamente no resultado de um experimento

aleatório, mas em alguma característica numérica a ele associada. Essa característica será
chamada variável aleatória.
Assim, se o espaço amostral relativo ao "lançamento simultâneo de duas moedas" é

S={(ca,ca), (ca,co), (co,ca), (co,co)} e se X representa o "número de caras" que aparecem, a
cada ponto amostral podemos associar um número para X, de acordo com a tabela abaixo (X
é a variável aleatória associada ao número de caras observado):
Ponto Amostral X
(ca,ca) 2
(ca,co) 1
(co,ca) 1
(co,co) 0
Logo podemos escrever:
Número de caras (X) Probabilidade (X)

2 1/4
1 2/4
0 1/4
Total 4/4 = 1
Exemplo prático de uma distribuição de probabilidade:
Consideremos a distribuição de frequência relativa ao número de acidentes diários em uma

rodovia durante o mês de nov/2003:
Número de Acidentes Frequência

0 22
1 5
2 2
3 1
Podemos então escrever a tabela de distribuição de probabilidade:
Número de Acidentes (X) Probabilidade (X)

0 0,73
1 0,17
2 0,07
3 0,03
Total 1,00
Construímos acima uma tabela onde aparecem os valores de uma variável aleatória X e as
probabilidades de X ocorrer que é a tabela de distribuição de probabilidades.
Funções de probabilidades: f(X) = p(X= xi)
Ao definir a distribuição de probabilidade, estabelecemos uma correspondência unívoca

entre os valores da variável aleatória X e os valores da variável P (probabilidade). Esta
correspondência define uma função onde os valores xi formam o domínio da função e os
valores pi o seu conjunto imagem. Assim, ao lançarmos um dado, a variável aleatória X,
definida por "pontos de um dado", pode tomar os valores 1,2,3,4,5 e 6. Então resulta a
seguinte distribuição de probabilidade:
X P (X)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
T o t a l 6/6 = 1
10.2 Valor Esperado (Esperança Matemática)
Valor esperado de uma variável aleatória ou de função de variável aleatória corresponde à

média ponderada dos valores que esta variável aleatória ou esta função assume, usando-se
como pesos para ponderação, as probabilidades correspondentes a cada valor.
Para o caso de uma variável aleatória discreta “x”, podemos escrever:
E (x) = ∑ ( xi . pi )
Exemplo:
Numa empresa, as previsões de despesa para o próximo ano foram calculadas como; R$ 9,
10, 11 , 12 e 13 bilhões. Supondo que as despesas do ano corrente sejam desconhecidas, as
seguintes probabilidades foram atribuídas respectivamente: 30%, 20%, 25%, 5% e 20%.
Qual é a distribuição de probabilidade para o próximo ano?
DISTRIBUIÇÃO DE PROBABILIDADES
ANO DESPESA* (X) P (X)

1 9 0,30
2 10 0,20
3 11 0,25
4 12 0,05
5 13 0,20
total = 1,00
* em R$ bilhões
Qual é o valor esperado das despesas para o próximo ano?
VALOR ESPERADO DAS DESPESAS
ANO DESPESA* X P (X) X . P (X)

1 9 0,30 2,70
2 10 0,20 2,00
3 11 0,25 2,75
4 12 0,05 0,60
5 13 0,20 2,60
VALOR ESPERADO E(X) = 10,65
* em R$ bilhões
Qual é a variância das despesas para o próximo ano?
Var(X) = ∑ [ E(X²) - E(X)² ]
VARIÂNCIA DAS DESPESAS
ANO DESPESA* ( x) P (x) x . P (x) x² . P (x)

1 9 0,30 2,70 24,30
2 10 0,20 2,00 20,00
3 11 0,25 2,75 30,25
4 12 0,05 0,60 7,20
5 13 0,20 2,60 33,80
10,65 115,55
* em R$ bilhões
VARIÂNCIA DAS DESPESAS

Var(x) = ∑ [E(X²) E(X)² ] = 113,42 – 115,55 = 2,13
Conseqüentemente o Desvio Padrão é igual a: σ = √Var(x)
Caso as projeções ao longo do ano tenham sido estimadas em R$ 12 bilhões, comente a

posição financeira da empresa.
CAPÍTULO 11 – DISTRIBUIÇÕES DE VARIÁVEL

ALEATÓRIA DISCRETA
Segundo JURAN (1992, p.33), “Uma ‘distribuição de probabilidade’ é uma fórmula

matemática que relaciona os valores da característica com a sua probabilidade de ocorrência
na população.”
“Quando a característica que está sendo medida puder assumir qualquer valor (sujeito à
exatidão do processo de medição), sua distribuição de probabilidade é chamada distribuição
contínua de probabilidade.”
A partir das conceituações anteriores, apresenta-se a conceituação de “distribuição de

probabilidade” e suas classificações: “distribuição contínua de probabilidade” e “distribuição
discreta de probabilidade”.
Exemplo: a distribuição de freqüências dos dados de resistências elétricas medidas. As

distribuições discretas de probabilidade mais comuns são:
(1) a Distribuição de Poisson;
(2) a Distribuição Binomial;
11.1 Distribuição Binomial
Vamos imaginar fenômenos cujos resultados só podem ser de dois tipos, um dos quais é
considerado como sucesso e o outro insucesso. Este fenômeno pode ser repetido tantas vezes
quanto se queira (n vezes), nas mesmas condições. As provas repetidas devem ser
independentes, isto é, o resultado de uma não deve afetar os resultados das sucessivas. No
decorrer do experimento, a probabilidade p do sucesso e a probabilidade de q (q = 1 - p) do
insucesso manter-se-ão constantes. Nessas condições X é uma variável aleatória discreta que
segue uma distribuição binomial.
P(x) =
P(x) = é a probabilidade de que o evento se realize x vezes em n provas.
p = é a probabilidade de que o evento se realize em uma só prova = sucesso.
q = é a probabilidade de que o evento não se realize no decurso dessa prova = insucesso.
OBS: O nome binomial é devido à fórmula, pois representa o termo geral do

desenvolvimento do binômio de Newton.
11.1.1 Parâmetros da Distribuição Binomial
Média = n . p Desvio padrão = é a raiz quadrada do produto de n . p . q

Variância = n . p . q
Exercício: Seis parafusos são escolhidos ao acaso da produção de certa máquina, que
apresenta 10% de peças defeituosas. Qual a probabilidade de serem defeituosos dois deles?
11.2 Distribuição de Poisson
Distribuição de probabilidades aplicada para acontecimentos raros, entretanto o seu maior

uso prático é como aproximação para a distribuição binomial.
A P(x) é calculada pela fórmula abaixo:
Onde:
μ é a média da distribuição ( n . p)
e representa a constante de valor igual a 2,718
x ! é o fatorial de x
OBS: 0 ! = 1 e qualquer número elevado a zero é igual a 1
OBS: quando um acontecimento segue a distribuição binomial com um “p” (sucesso) muito
pequeno de tal modo que temos que ter um “n” muito grande para que o sucesso ocorra.
Podemos simplificar os cálculos usando a distribuição de Poisson como aproximação para a
distribuição binomial.
Para que os resultados aproximados pela distribuição de Poisson sejam satisfatórios nós só
devemos fazer a substituição da distribuição binomial pela de Poisson quando “n” for maior
ou igual a 50 e “p” menor ou igual a 0,1 ou “p” maior ou igual a 0,9 ( “p” próximo de 0 ou
próximo de 1).
Ex: Se 2% dos fusíveis são defeituosos.Qual a probabilidade de que uma amostra de 400
fusíveis exatamente 6 sejam defeituosos?
p = 0,02 n = 400 μ= n . p = 0,02 . 400 = 8
P (x = 6) = 0,1222 ou 12,24%
CAPÍTULO 12 - DISTRIBUIÇÕES DE VARIÉVEL CONTÍNUA
Distribuições Contínuas de Probabilidade são usadas para moldar situações onde o resultado
de interesse pode assumir valores numa escala contínua, por exemplo, os valores maiores
que zero para o tempo de falha de um motor que está trabalhando continuamente.
12.1 Distribuição Normal
Quando a variação de uma característica é gerada pela soma de um grande número de erros
infinitesimais independentes devidos a diferentes fatores, a distribuição da característica se
torna, em muitos casos, aproximadamente uma distribuição normal. A Distribuição Normal
pode ser simplesmente descrita como tendo a forma de um sino ou montanha, e numa
descrição mais detalhada:
a) a densidade de probabilidade é mais alta no meio e diminui gradualmente em direção às
caudas e
b) ela é simétrica.
Entre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a
distribuição Normal.
Muitas das variáveis analisadas na pesquisa sócio-econômica correspondem à distribuição

normal ou dela se aproximam.
Considerando a probabilidade de ocorrência, a área sob sua curva soma 100%. Isso quer
dizer que a probabilidade de uma observação assumir um valor entre dois pontos quaisquer é
igual à área compreendida entre esses dois pontos.
68,26% => 1 desvio 95,44% => 2 desvios 99,73% => 3 desvios
Na figura acima, tem as barras na cor marrom representando os desvios padrões. Quanto
mais afastado do centro da curva normal, mais área compreendida abaixo da curva haverá. A
um desvio padrão, temos 68,26% das observações contidas. A dois desvios padrões,
possuímos 95,44% dos dados compreendidos e finalmente a três desvios, temos 99,73%.
Podemos concluir que quanto maior a variabilidade dos dados em relação à média, maior a
probabilidade de encontrarmos o valor que buscamos embaixo da normal.
12.2 Propriedades da distribuição normal
1ª - A variável aleatória X pode assumir todo e qualquer valor real.
2ª - A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica

em torno da média, que recebe o nome de curva normal ou de Gauss.
3ª - A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área
corresponde à probabilidade de a variável aleatória X assumir qualquer valor real.
4ª - A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se

indefinidamente do eixo das abscissas sem, contudo, alcançá-lo.
5ª - Como a curva é simétrica em torno da média, a probabilidade de ocorrer valor maior que
a média é igual à probabilidade de ocorrer valor menor do que a média, isto é, ambas as
probabilidades são iguais a 0,5 ou 50%. Cada metade da curva representa 50% de
probabilidade.
Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal
interesse é obter a probabilidade de essa variável aleatória assumir um valor em um
determinado intervalo.
Exemplo: Seja X a variável aleatória que representa os diâmetros dos parafusos produzidos
por certa máquina. Vamos supor que essa variável tenha distribuição normal com média = 2
cm e desvio padrão = 0,04 cm. Qual a probabilidade de um parafuso ter o diâmetro com
valor entre 2 e 2,05 cm ?
P ( 2 < X < 2,05) = ?
Com o auxílio de uma distribuição normal reduzida, isto é, uma distribuição normal de
média = 0 e desvio padrão = 1. Resolveremos o problema através da variável z,
onde z = (X - )/S
Utilizaremos também uma tabela normal reduzida, que nos dá a probabilidade de z tomar
qualquer valor entre a média 0 e um dado valor z, isto é: P ( 0 < Z < z)
Temos, então, que se X é uma variável aleatória com distribuição normal de média e
desvio padrão S, podemos escrever: P( < X < x ) = P (0 < Z < z)
No nosso problema queremos calcular P(2 < X < 2,05) para obter essa probabilidade,
precisamos, em primeiro lugar, calcular o valor de z que corresponde a x = 2,05
z = (2,05 - 2) / 0,04 = 1,25

Utilização da Tabela Z
Procuremos, agora, na tabela Z o valor de z = 1,25
Na primeira coluna encontramos o valor até uma casa decimal = 1,2. Em seguida,
encontramos, na primeira linha, o valor 5, que corresponde ao último algarismo do número
1,25. Na intersecção da linha e coluna correspondentes encontramos o valor 0,3944, o que
nos permite escrever:
P (0 < Z < 1,25) = 0,3944 ou 39,44 %, assim a probabilidade de um certo parafuso

apresentar um diâmetro entre a média = 2cm e x = 2,05 cm é de 39,44 %.
Tabela normal (distribuição z)
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
-4.0 0.00003 0.00003 0.00003 0.00003 0.00003 0.00003 0.00002 0.00002 0.00002 0.00002
-3.9 0.00005 0.00005 0.00004 0.00004 0.00004 0.00004 0.00004 0.00004 0.00003 0.00003
-3.8 0.00007 0.00007 0.00007 0.00006 0.00006 0.00006 0.00006 0.00005 0.00005 0.00005
-3.7 0.00011 0.00010 0.00010 0.00010 0.00009 0.00009 0.00008 0.00008 0.00008 0.00008
-3.6 0.00016 0.00015 0.00015 0.00014 0.00014 0.00013 0.00013 0.00012 0.00012 0.00011
-3.5 0.00023 0.00022 0.00022 0.00021 0.00020 0.00019 0.00019 0.00018 0.00017 0.00017
-3.4 0.00034 0.00032 0.00031 0.00030 0.00029 0.00028 0.00027 0.00026 0.00025 0.00024
-3.3 0.00048 0.00047 0.00045 0.00043 0.00042 0.00040 0.00039 0.00038 0.00036 0.00035
-3.2 0.00069 0.00066 0.00064 0.00062 0.00060 0.00058 0.00056 0.00054 0.00052 0.00050
-3.1 0.00097 0.00094 0.00090 0.00087 0.00084 0.00082 0.00079 0.00076 0.00074 0.00071
-3.0 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00103 0.00100
-2.9 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139
-2.8 0.00256 0.00248 0.00240 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193
-2.7 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.00280 0.00272 0.00264
-2.6 0.00466 0.00453 0.00440 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357
-2.5 0.00621 0.00604 0.00587 0.00570 0.00554 0.00539 0.00523 0.00508 0.00494 0.00480
-2.4 0.00820 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639
-2.3 0.01072 0.01044 0.01017 0.00990 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842
-2.2 0.01390 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.01160 0.01130 0.01101
-2.1 0.01786 0.01743 0.01700 0.01659 0.01618 0.01578 0.01539 0.01500 0.01463 0.01426
-2.0 0.02275 0.02222 0.02169 0.02118 0.02067 0.02018 0.01970 0.01923 0.01876 0.01831
-1.9 0.02872 0.02807 0.02743 0.02680 0.02619 0.02559 0.02500 0.02442 0.02385 0.02330
-1.8 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938
-1.7 0.04456 0.04363 0.04272 0.04181 0.04093 0.04006 0.03920 0.03836 0.03754 0.03673
-1.6 0.05480 0.05370 0.05262 0.05155 0.05050 0.04947 0.04846 0.04746 0.04648 0.04551
-1.5 0.06681 0.06552 0.06425 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592
-1.4 0.08076 0.07927 0.07780 0.07636 0.07493 0.07353 0.07214 0.07078 0.06944 0.06811
-1.3 0.09680 0.09510 0.09342 0.09176 0.09012 0.08851 0.08691 0.08534 0.08379 0.08226
-1.2 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09852
-1.1 0.13566 0.13350 0.13136 0.12924 0.12714 0.12507 0.12302 0.12100 0.11900 0.11702
-1.0 0.15865 0.15625 0.15386 0.15150 0.14917 0.14686 0.14457 0.14231 0.14007 0.13786
-0.9 0.18406 0.18141 0.17878 0.17618 0.17361 0.17105 0.16853 0.16602 0.16354 0.16109
-0.8 0.21185 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673
-0.7 0.24196 0.23885 0.23576 0.23269 0.22965 0.22663 0.22363 0.22065 0.21769 0.21476
-0.6 0.27425 0.27093 0.26763 0.26434 0.26108 0.25784 0.25462 0.25143 0.24825 0.24509
-0.5 0.30853 0.30502 0.30153 0.29805 0.29460 0.29116 0.28774 0.28434 0.28095 0.27759
-0.4 0.34457 0.34090 0.33724 0.33359 0.32997 0.32635 0.32276 0.31917 0.31561 0.31206
Exercícios:
1) Um fabricante de lâmpadas verifica, através de uma distribuição de freqüências, que o

tempo de queima de um determinado modelo de lâmpada é distribuído normalmente. Uma
amostra de 50 lâmpadas foi testada e o tempo médio de vida encontrado foi 60 dias, com um
desvio-padrão de 20 dias. Quantas lâmpadas, na população total de lâmpadas fabricadas por
ele, pode se esperar que ainda estejam funcionando após 100 dias de vida?
O problema aqui dado é encontrar a área sob a curva além dos 100 dias. A área sob uma
curva de distribuição entre dois limites estabelecidos representa a probabilidade de
ocorrência. Portanto, a área além dos 100 dias é a probabilidade que uma lâmpada tem de
durar mais de 100 dias.
2) Um produto pesa, em média, 10g, com desvio-padrão de 2 g. É embalado em caixas com

50 unidades. Sabe-se que as caixas vazias pesam 500g, com desvio-padrão de 25g.
Admitindo-se uma distribuição normal dos pesos e independência entre as variáveis dos
pesos do produto e da caixa, calcular a probabilidade de uma caixa cheia pesar mais de
1050g.
Utilize a figura acima para o desenvolvimento da questão, onde a primeira repartição, à

direita, representa a probabilidade da caixa pesar 1050g.

Livro Estatistica - Basica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Livro Estatistica - Basica

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª.

1. Introdução Geral à Compreensão Estatística........................................................................3

3. Medidas de Centralidade ou de Tendência Central............................................................14

4. Medidas de Assimetria e Curtose.......................................................................................23

5. Principais Tipos de Representação Gráfica........................................................................25

6. Medidas de Dispersão ou de Variabilidade........................................................................28

10. Variáveis Aleatórias Discretas ........................................................................................56

11. Distribuições de Variáveis Aleatórias Discretas..............................................................60

12. Distribuições de Variáveis Aleatórias Contínuas............................................................62

CAPÍTULO 1 – INTRODUÇÃO A ESTATISTICA

Seguidamente o objetivo do estudo estatístico pode ser o de estimar uma quantidade ou

2.1 - O que é Estatística?

Segundo FEIGENBAUM: “Precisão significativamente aumentada em produção de itens e

2.2 Onde se aplica a Estatística na Engenharia?

As aplicações concentram-se fundamentalmente em dois campos de ação: o Controle

Definições segundo JURAN:

1. Dentro de lotes de produto;

Na abordagem do papel dos métodos estatísticos no gerenciamento de processos de

O primeiro passo na busca da verdadeira causa de um defeito é a cuidadosa observação do

As ferramentas estatísticas, diz KUME, conferem objetividade e exatidão à observação. As

1. Dar maior importância aos fatos do que os conceitos abstratos;

2.3 Definições Básicas da Estatística

1) FENÔMENO ESTATÍSTICO: é qualquer evento que se pretenda analisar, cujo estudo

Fenômenos individuais: são aqueles que irão compor os fenômenos de massa.

2) DADO ESTATÍSTICO: é um dado numérico e é considerado a matéria-prima sobre a

Variável Qualitativa: Quando seus valores são expressos por atributos

Variável Contínua: Resulta normalmente de uma mensuração, e a escala numérica de seus

2.4 Planejamento para Coleta e Análise de Dados

Segundo JURAN, alguns passos-chave são:

e. Realizar “análises de sensibilidade” variando estimativas amostrais importantes e outros

Os dados históricos são séries de dados existentes e, em geral, analisar estatisticamente

Os dados de experimentos planejados são coletados com o objetivo estudar e analisar um

TABELA: Resume um conjunto de dados dispostos segundo linhas e colunas de maneira

• um traço horizontal ( - ) quando o valor é zero;

É qualquer tabela que apresenta a distribuição de um conjunto de dados estatísticos em

a) Série Temporal: Identifica-se pelo caráter variável do fator cronológico. O local e a

ABC VEÍCULOS LTDA.

Vendas no 1º bimestre de 2002

PERÍODO UNIDADES VENDIDAS *

ABC VEÍCULOS LTDA.

Vendas no 1º bimestre de 2002

FILIAIS UNIDADES VENDIDAS *

c) Série Específica: O caráter variável é apenas o fato ou espécie. Também é chamada de

ABC VEÍCULOS LTDA.

Vendas no 1º bimestre de 2002

MARCA UNIDADES VENDIDAS *

Séries Conjugadas: Também chamadas de tabelas de dupla entrada. São apropriadas à

ABC VEÍCULOS LTDA.

Vendas no 1º bimestre de 2002

FILIAIS Janeiro/2002 Fevereiro/2002

Obs: as séries heterógradas serão estudas no capítulo 2 ( distribuição de frequências ).

CAPÍTULO 2 – DISTRIBUIÇÃO DE FREQUÊNCIAS

É uma ferramenta estatística apropriada para a apresentação de grandes massas de dados

ROL: Tem-se um rol após a ordenação dos dados (crescente ou decrescente).

Distribuição de frequência sem intervalos de classe: É a simples condensação dos dados

Distribuição de frequência com intervalos de classe:Quando o tamanho da amostra é

2.1 Elementos de uma Distribuição de Freqüência com classes

CLASSE: são os intervalos da variável simbolizada por i e o número total de classes

LIMITES DE CLASSE: são os extremos de cada classe. O menor número é o limite

AMPLITUDE DO INTERVALO DE CLASSE: é obtida através da diferença entre o

AMPLITUDE TOTAL DA DISTRIBUIÇÃO: é a diferença entre o valor máximo e o

Os dados brutos a seguir apresentam um conjunto de tempos para determinada operação.

5,1 5,3 5,3 5,6 5,8 5,9 6 6,1 6,2 6,2