Escolar Documentos
Profissional Documentos
Cultura Documentos
Mônica Barradas 1
ESTATÍSTICA
BÁSICA
(Profª Mônica Barradas)
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 2
ÍNDICE
2. Distribuição de Freqüência.................................................................................................10
7. Correlação e Regressão.......................................................................................................32
8. Introdução à Amostragem...................................................................................................47
9. Probabilidade......................................................................................................................53
Estatística é uma ciência exata que visa fornecer subsídios ao analista para coletar,
organizar, resumir, analisar e apresentar dados. Trata de parâmetros extraídos da população,
tais como média ou desvio padrão.
A estatística fornece-nos as técnicas para extrair informação de dados, os quais são muitas
vezes incompletos, na medida em que nos dão informação útil sobre o problema em estudo,
sendo assim, é objetivo da Estatística extrair informação dos dados para obter uma melhor
compreensão das situações que representam.
Quando se aborda uma problemática envolvendo métodos estatísticos, estes devem ser
utilizados mesmo antes de se recolher à amostra, isto é, deve-se planejar a experiência que
nos vai permitir recolher os dados, de modo que, posteriormente, se possa extrair o máximo
de informação relevante para o problema em estudo, ou seja, para a população de onde os
dados provêm.
Quando de posse dos dados, procura-se agrupa-los e reduzi-los, sob forma de amostra,
deixando de lado a aleatoriedade presente.
2. Ferramentas Estatísticas
Segundo JURAN:
1. É a ciência da tomada de decisão perante incertezas;
2. Coleta, análise e interpretação de dados;
3. É um “kit” de ferramentas que ajuda a resolver problemas;
4. Base para a maior parte das decisões tomadas quanto ao controle da qualidade, assim
como em quase todas as outras áreas da atividade humana moderna.
Vista dessa forma, a Estatística não deve ser confundida como uma disciplina isolada, e sim,
compreendida como uma ferramenta ou um conjunto de ferramentas, disponível para a
solução de problemas em diversas áreas do conhecimento.
Esse ponto de vista, que enfatiza o estudo da variação, exerce efeito significativo sobre
certas atividades no controle da qualidade. Ainda segundo FEIGENBAUM, cinco
ferramentas estatísticas tornaram-se amplamente utilizadas nas tarefas de controle da
qualidade:
1. Distribuição de freqüências;
2. Gráficos de controle;
3. Aceitação por amostragem;
4. Métodos especiais;
5. Confiabilidade.
As ferramentas devem ser utilizadas de maneira eficiente para alcançar o sucesso. Para tanto,
o processo deve incluir:
1. planejamento cuidadoso da coleta de dados;
2. análise de dados para tirar conclusões estatísticas e
3. transição para a resposta ao problema técnico original.
3. ESTATÍSTICA DESCRITIVA
Viu-se anteriormente um roteiro para coleta e análise de dados. As séries de dados,
basicamente, são provenientes de duas fontes: os “dados históricos” e os “dados de
experimentos planejados”.
4. SÉRIES ESTATÍSTICAS
De acordo com a Resolução 886 do IBGE, nas casas ou células da tabela devemos colocar:
Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto. "Salientamos que
nestes documentos as tabelas não serão abertas devido a limitações do editor html".
Séries Homógradas: são aquelas em que a variável descrita apresenta variação discreta ou
descontínua. Podem ser do tipo temporal, geográfica ou específica.
JAN/2002 20
FEV/2002 10
TOTAL 30
* Em mil unidades
.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 9
b) Série Geográfica: Apresenta como elemento variável o fator geográfico. A época e o fato
(espécie) são elementos fixos. Também é chamada de espacial, territorial ou de localização.
São Paulo 13
Rio de Janeiro 17
TOTAL 30
* Em mil unidades
FIAT 18
GM 12
TOTAL 30
* Em mil unidades
* Em mil unidades
Quando da análise de dados, é comum procurar conferir certa ordem aos números tornando-
os visualmente mais amigáveis. O procedimento mais comum é o de divisão por classes ou
categorias, verificando-se o número de indivíduos pertencentes a cada classe.
É um tipo de tabela que condensa uma coleção de dados conforme as frequências (repetições
de seus valores).
Tabela primitiva ou dados brutos: É uma tabela ou relação de elementos que não foram
numericamente organizados. É difícil formarmos uma idéia exata do comportamento do
grupo como um todo, a partir de dados não ordenados.
Ex : 45, 41, 42, 41, 42 43, 44, 41 ,50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51
Ex : 41, 41, 41, 42, 42 43, 44, 45 ,46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60
Tabela 1
Dados Frequência
41 3
42 2
43 1
44 1
45 1
46 2
50 2
51 1
52 1
54 1
57 1
58 2
60 2
Total 20
EditedBásica
Universidade de Pernambuco – Escola Politécnica -Estatística by Foxit Reader
- Profª. Mônica Barradas 11
Copyright(C) by Foxit Software Company,2005-2008
For Evaluation Only.
Tabela 2
Classes Frequências
41 |------- 45 7
45 |------- 49 3
49 |------- 53 4
53 |------- 57 1
57 |------- 61 5
Total 20
PONTO MÉDIO DE CLASSE: é o ponto que divide o intervalo de classe em duas partes
iguais. Ex: em 49 |------- 53 o ponto médio x3 = (53+49)/2 = 51, ou seja, x3=(Li+Ls)/2.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 12
6º Com o conhecimento da amplitude de cada classe, define-se os limites para cada classe
(inferior e superior), onde limite Inferior será 5,1 e o limite superior será 15 + 1,23.
Obs: Agrupar os dados em classes é uma importante ferramenta para resumir grandes massas
de dados brutos, no entanto acarreta perda de alguns detalhes.
Frequências simples ou absolutas (fi): são os valores que realmente representam o número
de dados de cada classe. A soma das frequências simples é igual ao número total dos dados
da distribuição.
Frequências relativas (fr): são os valores das razões entre as frequências absolutas de cada
classe e a frequência total da distribuição. A soma das frequências relativas é igual a 1 (100
%).
Frequência simples acumulada de uma classe (Fi): é o total das frequências de todos os
valores inferiores ao limite superior do intervalo de uma determida classe.
Há várias medidas de tendência central, entretanto nesta apostila, será abordado o estudo de
apenas aquelas que são mais significativas. As mais importante medidas de tendência central
são: a média aritmética, média aritmética para dados agrupados, média aritmética ponderada,
mediana, moda.
3. Medidas de Centralidade
Sendo a média uma medida tão sensível aos dados, é preciso ter cuidado com a sua
utilização, pois pode dar uma imagem distorcida dos dados.
A média tem uma outra característica, que torna a sua utilização vantajosa em certas
aplicações: Quando o que se pretende representar é a quantidade total expressa pelos dados,
utiliza-se a média.
É igual ao quociente entre a soma dos valores do conjunto e o número total dos valores.
.Dados não-agrupados:
.= (10+14+13+15+16+18+12) / 7 = 14
Propriedades da média
Y = 12+16+15+17+18+20+14 / 7 = 16 ou
Y= .+ 2 = 14 +2 = 16
Y = 30+42+39+45+48+54+36 / 7 = 42 ou
Y= x 3 = 14 x 3 = 42
.
Dados agrupados:
Nº de erros frequência = fi
0 2
1 6
2 10
3 12
4 4
total 34
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 16
Como as frequências são números indicadores da intensidade de cada valor da variável, elas
funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética
ponderada, dada pela fórmula:
MODA
Mo é o símbolo da moda.
Desse modo, a força modal de remoção para um conector é a força mais comum, isto é, a
força de remoção medida em um teste de laboratório para um conector.
• Há séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça
mais vezes que outros.
• .Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então,
que a série tem dois ou mais valores modais.
Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta fixar o
valor da variável de maior frequência.
Temperaturas Frequência
0º C 3
1º C 9
2º C 12
3º C 6
A classe que apresenta a maior frequência é denominada classe modal. Pela definição,
podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre
os limites da classe modal. O método mais simples para o cálculo da moda consiste em
tomar o ponto médio da classe modal. Damos a esse valor a denominação de moda bruta.
Mo = ( Li+ Ls) / 2
onde Li = limite inferior da classe modal e Ls= limite superior da classe modal.
Resp: a classe modal é 58|--- 62, pois é a de maior frequência. Li=58 e Ls=62
Obs: A moda é utilizada quando desejamos obter uma medida rápida e aproximada de
posição ou quando a medida de posição deva ser o valor mais típico da distribuição. Já a
média aritmética é a medida de posição que possui a maior estabilidade.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 19
MEDIANA
Símbolo da mediana: Md
O valor que divide a série acima em duas partes iguais é igual a 9, logo a Md = 9.
1º - ordenar a série { 0, 0, 1, 1, 2, 2, 3, 4, 5 }
n = 9 logo (n + 1)/2 é dado por (9+1) / 2 = 5, ou seja, o 5º elemento da série ordenada será a
mediana.
1º - ordenar a série { 0, 0, 1, 1, 2, 3, 3, 4, 5, 6 }
Notas:
Isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência
dos valores extremos, ao passo que a mediana permanece a mesma.
Quando o somatório das frequências for ímpar o valor mediano será o termo de ordem dado
pela fórmula :.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 21
Como o somatório das frequências = 35 a fórmula ficará: ( 35+1 ) / 2 = 18º termo = 3..
Quando o somatório das frequências for par o valor mediano será o termo de ordem dado
pela fórmula :.
Aplicando a fórmula acima teremos: [(8/2)+ (8/2+1)]/2 = (4º termo + 5º termo) / 2 = (15 +
16) / 2 = 15,5
Exemplo:
Emprego da Mediana
• Quando desejamos obter o ponto que divide a distribuição em duas partes iguais.
• Quando há valores extremos que afetam de maneira acentuada a média aritmética.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 23
Distribuições simétricas
Quando dizemos que os dados obedecem a uma distribuição normal, estamos tratando de
dados que se distribuem em forma de sino.
Distribuições Assimétricas
Observamos que nas extremidades há uma grande concentração de dados em relação aos
concentrados na região central da distribuição.
2.for enviesada para a direita (alguns valores grandes como "outliers"), a média tende a ser
maior que a mediana
3. for enviesada para a esquerda (alguns valores pequenos como "outliers"), a média tende a
ser inferior à mediana.
São representações visuais dos dados estatísticos que devem corresponder, mas nunca
substituir as tabelas estatísticas. Têm como características principais, o uso de escalas, a
existência de um sistema de coordenadas, a simplicidade, clareza e veracidade de sua
representação.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 25
Mas o uso indevido de Gráficos pode trazer uma idéia falsa dos dados que estão sendo
analisados, chegando mesmo a confundir o leitor, tratando-se, na realidade, de um problema
de construção de escalas.
.
Os gráficos pode ser classificados em: Diagramas, Estereogramas, Pictogramas e
Cartogramas.
.
4.1 - Diagramas
São gráficos geométricos dispostos em duas dimensões. São os mais usados na
representação de séries estatísticas. Eles podem ser :
2 - Gráficos em barras verticais (colunas). Quando as legendas não são breves usa-se de
preferência o gráfico em barras horizontais. Nesses gráficos os retângulos têm a mesma base
e as alturas são proporcionais aos respectivos dados. A ordem a ser observada é a
cronológica, se a série for histórica, e a decrescente, se for geográfica ou categórica.
Obs: As séries temporais geralmente não são representadas por este tipo de gráfico.
.
4.2 - Estereogramas
São gráficos geométricos dispostos em três dimensões, pois representam volume. São usados
nas representações gráficas das tabelas de dupla entrada. Em alguns casos este tipo de
gráfico fica difícil de ser interpretado dada a pequena precisão que oferecem.
4.3 - Pictogramas
São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de
gráfico tem a vantagem de despertar a atenção do público leigo, pois sua forma é atraente e
sugestiva. Os símbolos devem ser auto-explicativos. A desvantagem dos pictogramas é que
apenas mostram uma visão geral do fenômeno, e não de detalhes minuciosos. Veja o
exemplo abaixo:
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 27
4.4 - Cartogramas
São ilustrações relativas a cartas geográficas (mapas). O objetivo desse gráfico é o de figurar
os dados estatísticos diretamente relacionados com áreas geográficas ou políticas.
Dados obtidos de uma amostra servem como base para uma decisão sobre a população.
Quanto maior for o tamanho da amostra, mais informação obtemos sobre a população.
Porém, um aumento do tamanho da amostra também implica um aumento da quantidade de
dados e isso torna difícil compreender a população, mesmo quando estão organizados em
tabelas. Em tal caso, precisa-se de um método que possibilite conhecer a população num
rápido exame.
Um histograma atende às necessidades, por meio da organização de muitos dados num
histograma, pode-se conhecer a população de maneira objetiva.
DESVIO PADRÃO ( S )
É a medida de dispersão mais empregada, pois leva em consideração a totalidade dos valores
da variável em estudo. É um indicador de variabilidade bastante estável. O desvio padrão
baseia-se nos desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida
como: a raiz quadrada da média aritmética dos quadrados dos desvios e é representada
por S.
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a
mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as
mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio
padrão.
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior
for, maior será a dispersão dos dados.
Xi
-4 - 0,2 - 3,8 14,44
-3 - 0,2 - 2,8 7,84
-2 - 0,2 - 1,8 3,24
3 - 0,2 3,2 10,24
5 - 0,2 5,2 27,04
Total - - 62,8
ou
Xi f i Xi . f i .fi
0 2 0 2,1 -2,1 4,41 8,82
1 6 6 2,1 -1,1 1,21 7,26
2 12 24 2,1 -0,1 0,01 0,12
3 7 21 2,1 0,9 0,81 5,67
4 3 12 2,1 1,9 3,61 10,83
Total 30 63 - - - 32,70
Se considerarmos os dados como sendo de uma amostra o desvio padrão seria a raiz
quadrada de 32,7 / (30 -1) = 1,062
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 30
Obs: Nas tabelas de frequências com intervalos de classe a fórmula a ser utilizada é a
mesma do exemplo anterior.
VARIÂNCIA ( S2 )
Define-se a variância, como sendo a medida que se obtém somando os quadrados dos
desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de
observações da amostra menos um.
S2 =
A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é
extremamente importante na inferência estatística e em combinações de amostras.
Na estatística descritiva o desvio padrão por si só tem grandes limitações. Assim, um desvio
padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor
médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito.
Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu
emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua
dispersão ou variabilidade, quando expressas em unidades diferentes.
Exemplo 1:
Resposta: Teremos que calcular o CVP da Estatura e o CVP do Peso. O resultado menor
será o de maior homogeneidade (menor dispersão ou variabilidade).
Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os
pesos.
Exemplo 2:
O risco de uma ação de uma empresa pode ser devidamente avaliado através da variabilidade
dos retornos esperados. Portanto, a comparação das distribuições probabilísticas dos
retornos, relativas a cada ação individual, possibilita a quem toma decisões perceber os
diferentes graus de risco. Analise, abaixo, os dados estatísticos relativos aos retornos de 5
ações e diga qual é a menos arriscada?
Para estudar a relação entre duas variáveis, tais como dito acima, pode-se usar o chamado
diagrama de dispersão. Diagrama de Dispersão é uma forma de gráfico onde simplesmente
representa-se graficamente cada par de variáveis de uma série de dados em um sistema de
eixos.
Etapa 1
Coletar dados em pares (X,Y) entre os quais deseja-se estudar as relações, e organize-os em
uma tabela. É desejável que se tenha pelo menos 30 pares de dados.
Etapa 2
Encontrar os valores máximo e mínimo, tanto para X como para Y. Defina as escalas dos
eixos horizontal e vertical de forma que ambos os comprimentos sejam aproximadamente
iguais; assim, o diagrama ficará mais fácil de interpretar.
Determinar, para cada eixo, entre 3 e 10 divisões para as unidades da escala de graduação, e
utilize números inteiros para torna-lo mais fácil de ler. Quando duas variáveis consistirem
em um fator e uma característica da qualidade, use o eixo horizontal X para o fator e o eixo
vertical Y para a característica da qualidade.
Etapa 3
Marcar os dados num papel milimetrado. Quando os mesmos valores de dados forem obtidos
a partir de diferentes observações, mostre estes pontos, desenhando círculos concêntricos
ou marcando o segundo ponto rente ao primeiro.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 33
Etapa 4
Inserir todos os itens necessários. Certificar de que os seguintes itens sejam incluídos para
que qualquer pessoa, além do autor do diagrama, possa entende-lo num rápido exame:
a. Título do diagrama;
b. Período de tempo;
c. Quantidade de pares de dados;
d. Denominação e unidade de medida de cada eixo;
Exemplo 1:
Um fabricante de tanques plásticos, que os fabricava pelo processo de moldagem a sopro,
encontrou problemas de tanques defeituosos com paredes finas. Suspeitou-se que a variação
da pressão do ar, dia a dia, era a causa das paredes finas não-conformes. A Tabela a seguir
mostra dados sobre a pressão de sopro e a percentagem defeituosa.
Etapa 2
Neste exemplo, indicamos a pressão de sopro por X (eixo horizontal) e a percentagem
defeituosa por Y (eixo vertical).
Assim:
O valor máximo de x: xmáx = 9,4 (kgf/cm²)
O valor mínimo de x: xmín = 8,2 (kgf/cm²)
O valor máximo de y: ymáx = 0,928 (%)
O valor mínimo de y: ymín = 0,864 (%)
Etapa 3
Marca-se os pontos no gráfico.
Etapa 4
Anota-se o período de tempo a que se refere à amostra coletada (1 de outubro a 9 de
novembro), a quantidade de amostras (n = 30), o eixo horizontal (pressão de sopro
[kgf/cm²]), o eixo vertical (percentagem defeituosa [%]), e o título do diagrama (diagrama de
dispersão da pressão do sopro e a percentagem defeituosa).
Existem muitos tipos de padrões de dispersão, e alguns destes são dados da Figura 3. Nesta
figura, tanto na .1 como na .2, Y aumenta com X; este é o caso da correlação positiva. E
ainda, como a .1 mostra esta tendência de forma notável, diz-se que ela apresenta forte
correlação positiva. As Figuras .4 e .5 mostram o oposto da correlação positiva, pois à
medida que X aumenta, Y diminui; este é o caso da chamada correlação negativa. A Figura
4 indica uma forte correlação negativa. A Figura .3 mostra o caso em que X e Y não têm
nenhuma relação específica; portanto, dizemos que não há correlação. Na Figura .6, à
medida que X aumenta, Y varia num padrão curvo. Isto será explicado posteriormente.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 35
.1 - Correlação Positiva
.2 - Correlação Negativa
.3 - Pode haver Correlação Positiva
.4 - Pode haver Correlação Negativa
.5 - Não Há Correlação
.6 - Não Há Correlação
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 36
onde:
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 37
Exemplo 2
Calculemos o coeficiente de correlação para o Exemplo 1, dos tanques de plástico. A Tabela
2 abaixo apresenta os cálculos, a partir dela obtêm-se os resultados desejados.
O valor de r é 0,59, existindo portanto uma correlação positiva entre a pressão de sopro e a
percentagem defeituosa de tanques de plástico.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 38
Num diagrama de dispersão é possível, freqüentemente, visualizar uma curva regular que se
aproxima dos dados. Essa curva é denominada de ajustamento.
Para fins de referência, relaciona-se abaixo alguns tipos de curvas de ajustamento e suas
equações. Todas as letras, exceto X e Y, representam constantes. As letras X e Y referem-se,
freqüentemente, a variáveis independentes e dependentes, respectivamente, embora esses
papéis possam ser permutados.
onde o segundo membro das equações são denominados polinômios do 1º, 2º, 3º, 4º e
n-ésimo graus.
As funções definidas pelas quatro primeiras equações são, às vezes, denominadas Funções
Linear, Quadrática, Cúbica e do 4º Grau, respectivamente.
Como outras equações possíveis (entre muitas usadas na prática), menciona-se as seguintes:
Para decidir qual a curva a adotar, é conveniente a obtenção de diagramas de dispersão das
variáveis transformadas. Por exemplo, se o diagrama de dispersão de log Y em função de X
apresentar uma relação linear, a equação terá o aspecto da (7), enquanto, se o de log Y em
função de log X for linear, a equação terá o formato de (8).
Emprega-se, freqüentemente, para tal finalidade, gráficos no qual uma ou ambas as escalas
são logarítmicas (semilog ou log-log [dilog]).
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 40
Para conseguir uma definição possível, considere-se a Figura 6.2 na qual os dados estão
representados pelos pontos (X1,Y1), (X2,Y2), ..., (Xn,Yn). Para um valor dado de X, por
exemplo X1, haverá uma diferença entre y1 e p valor correspondente determinado na curva
C.
Como está representado na figura, essa diferença é e1, que é, muitas vezes, designada como
desvio, erro ou resíduo e pode ser positivo, negativo ou nulo. De modo semelhante, obtém-se
os desvios e2, e3, ..., en.
⇒ Diz-se que uma curva que apresenta essa propriedade ajusta os dados no sentido dos
mínimos quadrados e é denominada curva de mínimos quadrados.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 41
7.6 REGRESSÃO
Deseja-se, freqüentemente, com base em dados amostrais estimar o valor de uma variável Y,
correspondente ao conhecido de uma variável X. Isso pode ser alcançado mediante a
avaliação do valor de Y, a partir de uma curva de mínimo quadrado que se ajuste aos dados
amostrais. A curva resultante é denominada de regressão de Y para X, visto que Y é
avaliado a partir de X.
Se se desejar estimar o valor de X a partir de um atribuído a Y, usa-se uma curva de
regressão de X para Y, o que importa em uma permutação das varáveis no diagrama de
dispersão, de modo que X passa a ser a variável dependente e Y a independente.
Em geral, a reta ou curva de regressão de Y para X não é igual à de X para Y.
Exemplo 3
No Exemplo 1, dos tanques plásticos com paredes finas defeituosas, constatou-se que havia
uma correlação positiva entre a pressão de sopro e a percentagem defeituosa. A fim de evitar
esse problema, pergunta-se:
- Quando a pressão de sopro estiver em um certo valor, qual será a espessura das paredes
formadas?
- Como a pressão de sopro deve ser controlada para que as paredes do tanque não fiquem
finas?
Para realizar essa análise e poder responder às perguntas feitas, é necessário compreender,
quantitativamente, a relação entre a pressão de sopro e a espessura da parede.
A Tabela 3 mostra os dados de uma experiência na qual a pressão de sopro foi mudada e, em
cada vez, a espessura das paredes foi medida. A Figura 6 é um diagrama de dispersão
baseado nestes dados.
Pode-se representar a pressão do sopro por x e a espessura da parede por y, admitindo uma
relação linear:
onde:
α é uma constante
β é chamado de coeficiente de regressão
Tal reta é geralmente chamada de reta de regressão, onde y é a variável resposta (ou
variável dependente), e x é a variável explicativa (ou variável independente). A forma
quantitativa de entender a relação entre x e y, pela busca de uma forma de regressão entre x e
y , é chamada de Análise de Regressão.
Pelo método dos mínimos quadrados, são obtidos como os valores que minimizam
soma dos quadrados dos resíduos. Esse método é aplicado através das seguintes
etapas:
os valores de aˆ e bˆ obtidos dessas etapas minimizam a soma dos quadrados dos resíduos.
Agora, usando os dados da Tabela 4, pode-se calcular a reta de regressão.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 43
Tabela 4
Se o número de variáveis exceder a três, perde-se a intuição geométrica porque, então, seria
necessário considerar espaços de quatro ou mais dimensões.
Os problemas que envolvem a avaliação de uma variável a partir de duas ou mais outras são
denominados problemas de regressão múltipla.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 45
Exercícios:
1) A quantidade de libras de vapor usadas por mês por uma planta química esta relacionada à
temperatura (ºF) média ambiente para aquele mês. O consumo do ano passado e a temperatura
são mostrados na seguinte tabela:
2) Um artigo publicado numa revista (março de 1986) apresentou dados sobre a concentração de
licor verde de Na2S e da produção de uma máquina de papel.
Número de Concentração
observações (g/l) de licor Produção (t/dia)
verde de Na2S
1 40 825
2 42 830
3 49 890
4 46 895
5 44 890
6 48 910
7 46 915
8 43 960
9 53 990
10 52 1010
11 54 1012
12 57 1030
13 58 1050
a) Encontre o valor ajustado y, correspondente a x = 910
b) Encontre a correlação entre as variáveis estudadas
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 46
3) A tabela a seguir representa o número de horas de estudo fora da sala de aula para
determinada turma de alunos de Estatística, ao longo de três semanas e as notas obtidas
numa prova aplicada ao final do período:
Estudante 1 2 3 4 5 6 7 8
Horas de Estudo 20 16 34 23 27 32 18 22
Grau obtido 64 61 84 70 88 92 72 77
8- Definições
A alternativa praticada nestes casos é o trabalho com uma amostra confiável. Se a amostra é
confiável e proporciona inferir sobre a população, chamamos de inferência estatística. Para
que a inferência seja válida, é necessária uma boa amostragem, livre de erros, tais como falta
de determinação correta da população, falta de aleatoriedade e erro no dimensionamento da
amostra.
8.2 Recenseamento
8.3 Amostragem
Não Probabilística
Acidental ou conveniência
Intencional
Quotas ou proporcional
Tipos de Amostragem Desproporcional
Probabilística
Aleatória Simples
Aleatória Estratificada
Conglomerado
8.3.1.Não Probabilística
• Acidental ou conveniência
Indicada para estudos exploratórios. Freqüentemente utilizados em super mercados
para testar produtos.
• Intencional
O entrevistador dirige-se a um grupo em específico para saber sua opinião. Por
exemplo, quando de um estudo sobre automóveis, o pesquisador procura apenas
oficinas.
• Quotas ou proporcional
Na realidade trata-se de uma variação da amostragem intencional. Necessita-se ter
um prévio conhecimento da população e sua proporcionalidade. Por exemplo, deseja-
se entrevistar apenas indivíduos da classe A, que representa 12% da população. Esta
será a quota para o trabalho. Comumente também subestratifica-se uma quota
obedecendo a uma segunda proporcionalidade.
• Desproporcional
Muito utilizada quando a escolha da amostra for desproporcional à população.
Atribuem-se pesos para os dados, e assim obtém-se resultados ponderados
representativos para o estudo.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 49
8.3.2 Probabilística
Para que se possa realizar inferências sobre a população, é necessário que se trabalhe com
amostragem probabilística. É o método que garante segurança quando investiga-se alguma
hipótese. Normalmente os indivíduos investigados possuem a mesma probabilidade de ser
selecionado na amostra.
• Aleatória Simples
• Aleatória Estratificada
• Conglomerado
Variável Qualitativa: Quando seus valores são expressos por atributos: sexo, cor da pele, etc.
Uma primeira fase em que se procura descrever e estudar a amostra: Estatística Descritiva e
uma segunda fase em que se procura tirar conclusões para a população:
No entanto, ao contrário das proposições deduzidas, não podemos dizer que são falsas ou
verdadeiras, já que foram verificadas sobre um conjunto restrito de indivíduos e, portanto
não são falsas, mas não foram verificadas para todos os indivíduos da População, pelo que
também não podemos afirmar que são verdadeiras.
Existe, assim, um certo grau de incerteza (percentagem de erro) que é medido em termos de
Probabilidade.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 52
Considerando o que foi dito anteriormente sobre a Estatística Indutiva, precisamos aqui da
noção de Probabilidade, para medir o grau de incerteza que existe, quando tiramos uma
conclusão para a população, a partir da observação da amostra.
Se for feita uma lista de todos os possíveis resultados de interesse do experimento, essa série
é chamada de espaço amostral.
Obs: A proporção (p) será a estimativa da verdadeira proporção de um dos níveis escolhidos
para a variável adotada. Por exemplo, 60% dos telefones da amostra é Nokia, então p será
0,60.
A proporção (q) será sempre 1 - p. Neste exemplo q, será 0,4. O erro é representado por d.
Para casos em que não se tenha como identificar as proporções confere-se 0,5 para p e q.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 53
CAPÍTULO 9 – PROBABILIDADE
9. Conceito de Probabilidade
OBS: Quando todos os elementos do Espaço amostral tem a mesma chance de acontecer, o
espaço amostral é chamado de conjunto equiprovável.
P (A e B ) = P (A) x P(B/A)
Ex: Duas cartas são retiradas de um baralho sem haver reposição. Qual a probabilidade de
ambas serem COPAS ?
P(Copas1) = 13/52
P(Copas2/Copas1) = 12/51
Carta pretas = 26
Cartas vermelhas = 26
Ex: Quando lançamos dois dados, o resultado obtido em um deles independe do resultado
obtido no outro. Então qual seria a probabilidade de obtermos, simultaneamente, o nº 4 no
primeiro dado e o nº 3 no segundo dado?
Os dois eventos são mutuamente exclusivos então: P = 1/6 + 1/6 = 2/6 = 1/3
Sabemos que:
P(A n Bi) = P(A) . P(Bi|A) logo P(Bi|A) = P(A n Bi) / P(A) então substituindo teremos:
Ex: Certo professor 4/5 das vezes vai trabalhar usando um fusca e usando um carro
importado nas demais vezes. Quando ele usa o fusca, 75 % das vezes ele chega em casa
antes das 23 horas e quando usa o carro importado só chega em casa antes das 23 horas em
60% das vezes. Ontem o professor chegou em casa após às 23 horas. Qual a probabilidade
de que ele, no dia de ontem, tenha usado o fusca ?
Suponhamos um espaço amostral S e que a cada ponto amostral seja atribuído um número.
Fica, então, definida uma função chamada variável aleatória.
Ponto Amostral X
(ca,ca) 2
(ca,co) 1
(co,ca) 1
(co,co) 0
Total 4/4 = 1
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 57
Construímos acima uma tabela onde aparecem os valores de uma variável aleatória X e as
probabilidades de X ocorrer que é a tabela de distribuição de probabilidades.
X P (X)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
T o t a l 6/6 = 1
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 58
E (x) = ∑ ( xi . pi )
Exemplo:
Numa empresa, as previsões de despesa para o próximo ano foram calculadas como; R$ 9,
10, 11 , 12 e 13 bilhões. Supondo que as despesas do ano corrente sejam desconhecidas, as
seguintes probabilidades foram atribuídas respectivamente: 30%, 20%, 25%, 5% e 20%.
DISTRIBUIÇÃO DE PROBABILIDADES
“Quando a característica que está sendo medida puder assumir qualquer valor (sujeito à
exatidão do processo de medição), sua distribuição de probabilidade é chamada distribuição
contínua de probabilidade.”
Vamos imaginar fenômenos cujos resultados só podem ser de dois tipos, um dos quais é
considerado como sucesso e o outro insucesso. Este fenômeno pode ser repetido tantas vezes
quanto se queira (n vezes), nas mesmas condições. As provas repetidas devem ser
independentes, isto é, o resultado de uma não deve afetar os resultados das sucessivas. No
decorrer do experimento, a probabilidade p do sucesso e a probabilidade de q (q = 1 - p) do
insucesso manter-se-ão constantes. Nessas condições X é uma variável aleatória discreta que
segue uma distribuição binomial.
P(x) =
Exercício: Seis parafusos são escolhidos ao acaso da produção de certa máquina, que
apresenta 10% de peças defeituosas. Qual a probabilidade de serem defeituosos dois deles?
Onde:
μ é a média da distribuição ( n . p)
x ! é o fatorial de x
OBS: quando um acontecimento segue a distribuição binomial com um “p” (sucesso) muito
pequeno de tal modo que temos que ter um “n” muito grande para que o sucesso ocorra.
Podemos simplificar os cálculos usando a distribuição de Poisson como aproximação para a
distribuição binomial.
Para que os resultados aproximados pela distribuição de Poisson sejam satisfatórios nós só
devemos fazer a substituição da distribuição binomial pela de Poisson quando “n” for maior
ou igual a 50 e “p” menor ou igual a 0,1 ou “p” maior ou igual a 0,9 ( “p” próximo de 0 ou
próximo de 1).
Ex: Se 2% dos fusíveis são defeituosos.Qual a probabilidade de que uma amostra de 400
fusíveis exatamente 6 sejam defeituosos?
P (x = 6) = 0,1222 ou 12,24%
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 62
Distribuições Contínuas de Probabilidade são usadas para moldar situações onde o resultado
de interesse pode assumir valores numa escala contínua, por exemplo, os valores maiores
que zero para o tempo de falha de um motor que está trabalhando continuamente.
Quando a variação de uma característica é gerada pela soma de um grande número de erros
infinitesimais independentes devidos a diferentes fatores, a distribuição da característica se
torna, em muitos casos, aproximadamente uma distribuição normal. A Distribuição Normal
pode ser simplesmente descrita como tendo a forma de um sino ou montanha, e numa
descrição mais detalhada:
a) a densidade de probabilidade é mais alta no meio e diminui gradualmente em direção às
caudas e
b) ela é simétrica.
Entre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a
distribuição Normal.
Considerando a probabilidade de ocorrência, a área sob sua curva soma 100%. Isso quer
dizer que a probabilidade de uma observação assumir um valor entre dois pontos quaisquer é
igual à área compreendida entre esses dois pontos.
Na figura acima, tem as barras na cor marrom representando os desvios padrões. Quanto
mais afastado do centro da curva normal, mais área compreendida abaixo da curva haverá. A
um desvio padrão, temos 68,26% das observações contidas. A dois desvios padrões,
possuímos 95,44% dos dados compreendidos e finalmente a três desvios, temos 99,73%.
Podemos concluir que quanto maior a variabilidade dos dados em relação à média, maior a
probabilidade de encontrarmos o valor que buscamos embaixo da normal.
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 63
3ª - A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área
corresponde à probabilidade de a variável aleatória X assumir qualquer valor real.
5ª - Como a curva é simétrica em torno da média, a probabilidade de ocorrer valor maior que
a média é igual à probabilidade de ocorrer valor menor do que a média, isto é, ambas as
probabilidades são iguais a 0,5 ou 50%. Cada metade da curva representa 50% de
probabilidade.
Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal
interesse é obter a probabilidade de essa variável aleatória assumir um valor em um
determinado intervalo.
Exemplo: Seja X a variável aleatória que representa os diâmetros dos parafusos produzidos
por certa máquina. Vamos supor que essa variável tenha distribuição normal com média = 2
cm e desvio padrão = 0,04 cm. Qual a probabilidade de um parafuso ter o diâmetro com
valor entre 2 e 2,05 cm ?
Com o auxílio de uma distribuição normal reduzida, isto é, uma distribuição normal de
média = 0 e desvio padrão = 1. Resolveremos o problema através da variável z,
onde z = (X - )/S
Utilizaremos também uma tabela normal reduzida, que nos dá a probabilidade de z tomar
qualquer valor entre a média 0 e um dado valor z, isto é: P ( 0 < Z < z)
Temos, então, que se X é uma variável aleatória com distribuição normal de média e
desvio padrão S, podemos escrever: P( < X < x ) = P (0 < Z < z)
No nosso problema queremos calcular P(2 < X < 2,05) para obter essa probabilidade,
precisamos, em primeiro lugar, calcular o valor de z que corresponde a x = 2,05
Utilização da Tabela Z
Na primeira coluna encontramos o valor até uma casa decimal = 1,2. Em seguida,
encontramos, na primeira linha, o valor 5, que corresponde ao último algarismo do número
1,25. Na intersecção da linha e coluna correspondentes encontramos o valor 0,3944, o que
nos permite escrever:
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
-4.0 0.00003 0.00003 0.00003 0.00003 0.00003 0.00003 0.00002 0.00002 0.00002 0.00002
-3.9 0.00005 0.00005 0.00004 0.00004 0.00004 0.00004 0.00004 0.00004 0.00003 0.00003
-3.8 0.00007 0.00007 0.00007 0.00006 0.00006 0.00006 0.00006 0.00005 0.00005 0.00005
-3.7 0.00011 0.00010 0.00010 0.00010 0.00009 0.00009 0.00008 0.00008 0.00008 0.00008
-3.6 0.00016 0.00015 0.00015 0.00014 0.00014 0.00013 0.00013 0.00012 0.00012 0.00011
-3.5 0.00023 0.00022 0.00022 0.00021 0.00020 0.00019 0.00019 0.00018 0.00017 0.00017
-3.4 0.00034 0.00032 0.00031 0.00030 0.00029 0.00028 0.00027 0.00026 0.00025 0.00024
-3.3 0.00048 0.00047 0.00045 0.00043 0.00042 0.00040 0.00039 0.00038 0.00036 0.00035
-3.2 0.00069 0.00066 0.00064 0.00062 0.00060 0.00058 0.00056 0.00054 0.00052 0.00050
-3.1 0.00097 0.00094 0.00090 0.00087 0.00084 0.00082 0.00079 0.00076 0.00074 0.00071
-3.0 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00103 0.00100
-2.9 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139
-2.8 0.00256 0.00248 0.00240 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193
-2.7 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.00280 0.00272 0.00264
-2.6 0.00466 0.00453 0.00440 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357
-2.5 0.00621 0.00604 0.00587 0.00570 0.00554 0.00539 0.00523 0.00508 0.00494 0.00480
-2.4 0.00820 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639
-2.3 0.01072 0.01044 0.01017 0.00990 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842
-2.2 0.01390 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.01160 0.01130 0.01101
-2.1 0.01786 0.01743 0.01700 0.01659 0.01618 0.01578 0.01539 0.01500 0.01463 0.01426
-2.0 0.02275 0.02222 0.02169 0.02118 0.02067 0.02018 0.01970 0.01923 0.01876 0.01831
-1.9 0.02872 0.02807 0.02743 0.02680 0.02619 0.02559 0.02500 0.02442 0.02385 0.02330
-1.8 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938
-1.7 0.04456 0.04363 0.04272 0.04181 0.04093 0.04006 0.03920 0.03836 0.03754 0.03673
-1.6 0.05480 0.05370 0.05262 0.05155 0.05050 0.04947 0.04846 0.04746 0.04648 0.04551
-1.5 0.06681 0.06552 0.06425 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592
-1.4 0.08076 0.07927 0.07780 0.07636 0.07493 0.07353 0.07214 0.07078 0.06944 0.06811
-1.3 0.09680 0.09510 0.09342 0.09176 0.09012 0.08851 0.08691 0.08534 0.08379 0.08226
-1.2 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09852
-1.1 0.13566 0.13350 0.13136 0.12924 0.12714 0.12507 0.12302 0.12100 0.11900 0.11702
-1.0 0.15865 0.15625 0.15386 0.15150 0.14917 0.14686 0.14457 0.14231 0.14007 0.13786
-0.9 0.18406 0.18141 0.17878 0.17618 0.17361 0.17105 0.16853 0.16602 0.16354 0.16109
-0.8 0.21185 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673
-0.7 0.24196 0.23885 0.23576 0.23269 0.22965 0.22663 0.22363 0.22065 0.21769 0.21476
-0.6 0.27425 0.27093 0.26763 0.26434 0.26108 0.25784 0.25462 0.25143 0.24825 0.24509
-0.5 0.30853 0.30502 0.30153 0.29805 0.29460 0.29116 0.28774 0.28434 0.28095 0.27759
-0.4 0.34457 0.34090 0.33724 0.33359 0.32997 0.32635 0.32276 0.31917 0.31561 0.31206
Universidade de Pernambuco – Escola Politécnica -Estatística Básica - Profª. Mônica Barradas 66
Exercícios:
O problema aqui dado é encontrar a área sob a curva além dos 100 dias. A área sob uma
curva de distribuição entre dois limites estabelecidos representa a probabilidade de
ocorrência. Portanto, a área além dos 100 dias é a probabilidade que uma lâmpada tem de
durar mais de 100 dias.