Escolar Documentos
Profissional Documentos
Cultura Documentos
CEP
1
SUMÁRIO
2
1 - ESTATÍSTICA: NOÇÕES GERAIS
- Coleta
- Processamento
- Análise e interpretação de dados
- Demográficas
- Econômicas
- De saúde
- Educacionais
- Empresariais, etc.
3
UMA PALAVRA SOBRE FONTES DE DADOS
4
GRANDES ÁREAS EM ESTATÍSTICA:
• Estatística Descritiva
• Probabilidades
• Inferência estatística
ESTATÍSTICA DESCRITIVA
Tabelas
Descrição
Gráficos
Organização
Medidas
Resumo
Técnicas Visuais
- Taxas de inflação
- Taxas de desemprego
- Taxas de mortalidade infantil
- Renda per capta
- Taxa de alfabetização
- Índice de leitos por habitantes, etc.
5
PROBABILIDADE
INFERÊNCIA ESTATÍSTICA:
APLICAÇÃO
Decisão
6
NOÇÕES DE AMOSTRAGEM
Aleatória simples
Estratificada
PROBABILÍSTICA Sistemática
Grupos (cluster)
Multifásica
AMOSTRAGEM
(Tipos)
NÃO PROBABILÍSTICA
7
Amostra Aleatória Simples – cada sujeito ou item tem a mesma chance
de seleção. Denota-se por “n” o tamanho da amostra e “N” o tamanho da
população. Cada item da população é numerado de 1 a N. A chance de
seleção de cada elemento é dada por 1/N. As amostras podem ser
escolhidas com ou sem reposição. O sorteio geralmente é feito com o
auxílio de tabelas de números aleatórios.
8
2 – APRESENTAÇÃO DE DADOS
TIPOS DE VARIÁVEIS
9
2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS
Exemplo:
Tabela 2.1
Empregados do setor de produção, segundo o grau de instrução, 2005.
GRAU DE INSTRUÇÃO Freqüência (fi)
Primeiro Grau 15
Segundo Grau 25
Superior 10
TOTAL 50
FONTE: Pesquisa direta
10
2.2 REPRESENTAÇAO GRÁFICA:
GRÁFICO DE SETORES:
20%
30%
Primeiro Grau
Segundo Grau
Superior
50%
Tabela 2.2
Distribuição do número de filhos dos empregados do setor de produção
NÚMERO DE FILHOS Freqüência ( fi)
0 5
1 10
2 20
3 9
4 6
11
REPRESENTAÇÃO GRÁFICA: Gráfico de Colunas
Número de filhos
20
18
16
14
12
freq. 10
8
6
4
2
0
0 1 2 3 4
filhos
12
CASO DE VARIÁVEIS CONTÍNUAS
Tabela 2.3
Distribuição de freqüências das rendas dos empregados
do setor de produção
25
20
freq. simples
15
10
0
6 10 14 18 22
sal.min.
13
A DISPOSIÇÃO RAMO-E-FOLHA
14
Gráfico Ramo-e-Folha – Resistência à compressão de 80 corpos de prova.
Ramo Folha Frequencia
76 1
87 1
97 1
10 51 2
11 580 3
12 103 3
13 413535 6
14 29583169 8
15 471340886808 12
16 3073050879 10
17 8544162106 10
18 361410 7
19 960934 6
20 7108 4
21 8 1
22 189 3
23 7 1
24 5 1
O GRÁFICO DE PARETO
15
Tabela 2.4 – Defeitos encontrados em uma amostra de lentes fabricadas pela
indústria
Freqüência de Total Freqüência Percentual
Tipo de Defeito defeitos Acumulado relativa (%) Acumulado
Revest. Inadequado 55 55 43,3 43,3
Trinca 41 96 32,3 75,6
Arranhão 12 108 9,4 85,0
Espessura inadequada 11 119 8,7 93,7
Mal-acabada 5 124 3,9 97,6
outros 3 127 2,4 100,0
60 100,0
50
80,0
40
60,0
defeitos
30
% Acum
40,0
20
20,0
10
0 0,0
Inadequado
Trinca
Arranhão
inadequada
Mal-acabada
outros
Espessura
Revest.
16
O Gráfico de Pareto pode ter ainda grandes aplicações na área de qualidade,
destacando-se:
17
3–MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS
∑ Xi
X = i =1
X ( n / 2 ) + X ([ n / 2 ]+1)
Me =
2
∑X i fi
X = i =1
18
No caso da mediana, tem-se:
[(0,5)n − Fant ]
Me = Li + .c
f Me
Onde:
A distribuição dos dados pode ser divida em mais de duas partes. No caso
de dividi-la em quatro partes iguais, os pontos de corte correspondentes são
chamados de Quartis e representam medidas estratégicas na distribuição. O
primeiro quartil (Q1) é um valor que tem aproximadamente um quarto (25%) das
observações abaixo de si. O segundo quartil tem aproximadamente 50% das
observações abaixo de seu valor e corresponde à mediana, medida anteriormente
estudada. Já o terceiro quartil (Q3) reúne abaixo de si cerca de 75% das
observações.
Para dados não agrupados o primeiro quartil é calculado como a [(n+1)/4]ª
observação ordenada e o terceiro como a [3(n+1)/4]ª observação ordenada. As
regras a seguir são úteis para o cálculo dos quartis (LEVINE ET AL., 2005):
19
Como exemplo, vamos calcular os quartis para a série de dados abaixo:
GRUPO A 3 4 5 6 7
GRUPO B 1 3 5 7 9
GRUPO C 5 5 5 5 5
20
seria: Xmax-Xmin= 7-3 = 4. Para o grupo B seria de 8 (9-1) e para o gruo C seria
igual a 0 (zero).
Embora a amplitude seja uma medida simples da variação total nos dados,
ela não leva em consideração o modo como os dados estão distribuídos entre os
valores extremos.
O grau de dispersão ou variabilidade dos dados em torno da média pode
ser avaliado através de medidas como a variância, o desvio padrão e o coeficiente
de variação. O princípio básico é medir o desvio das observações (di), em relação
à média do grupo. No caso dos dados do grupo A acima, teríamos os seguintes
valores para os di: -2, -1, 0, 2, 2. A variabilidade poderia ser pensada como a
soma desses desvios, porém essa não é uma boa alternativa porque tal soma é
igual a zero para qualquer conjunto de dados. Uma alternativa, portanto é
trabalhar com a soma dos quadrados desses desvios e em seguida obter um
desvio médio. Desse modo a fórmula para o cálculo da variância populacional de
um conjunto de dados pode ser expressa como:
∑(X i − X )2
σ2 = i =1
Alternativamente, pode-se mostrar que tal expressão pode ser escrita como:
1 (∑ X i ) 2
σ = [∑ X i2 −
2
]
n n
1 (∑ X i ) 2
s =
2
[∑ X i2 − ]
n −1 n
∑X i
2
= 135
21
∑X i = 25
Desse modo, aplicando-se a expressão acima, pode-se ver que a variância das
notas será dada por:
1 (∑ X i f i ) 2
s = 2
[∑ X i2 f i − ]
n −1 n
1 692 2
s2 = [10.632 − ] = 21,525
49 50
22
indivíduos ou com relação à sua altura, ou, em outro caso, se desejássemos
comparar o grau de dispersão de grupos com médias bastante distintas. Em tais
casos não seria aconselhável utilizar o desvio padrão, sendo necessário o uso de
uma medida de dispersão relativa, adimensional, que é o caso do COEFICIENTE
DE VARIAÇÃO, cuja expressão corresponde à relação entre o desvio padrão e a
média aritmética dos dados, sendo portanto escrito como:
s
γ =
X
23
3.3 ASSIMETRIA
30
25
20
freq. simples
15
10
0
6 10 14 18 22
sal.min.
24
Distribuição dos salários dos empregados do setor de produção da
Companhia B
16
14
12
10
freq. simples
0
6 10 14 18 22
sal.min.
16
14
12
10
freq. simples
0
6 10 14 18 22
sal.min.
25
elevados da distribuição. No caso a média é reduzida em função de alguns valores
mais baixos, sendo inferior à mediana.
Me
Q1 Q3
Min Max
E1 Q1 Me Q3 E2
26
EXEMPLO: Os dados a seguir representam os retornos anuais para três anos de
uma amostra de 14 fundos de baixo risco.
27
4 NOÇÕES DE PROBABILIDADE
Resultado 1 2 3 4 5 6
Probabilidade 1/6 1/6 1/6 1/6 1/6 1/6
DEFINIÇÕES DE PROBABILIDADE
Uma probabilidade pode ser atribuída com base nas características teóricas
da realização do experimento, como é o caso do exemplo do lançamento do dado,
visto anteriormente. No caso, a probabilidade clássica a priori é baseada no
conhecimento prévio sobre o experimento. No caso mais simples, em que cada
resultado é igualmente provável (equiprovável), a probabilidade de ocorrência do
evento é dada pela expressão:
casos favoráveis
P=
casospossíveis
28
se estabilizar em um valor que representa a sua verdadeira probabilidade. Os
resultados são baseados em dados observados e não no conhecimento prévio
sobre o fenômeno investigado. Tal definição de probabilidade pode ser aplicada
para calcular, por exemplo, a percentagem de indivíduos fumantes em uma
escola, a proporção de votos de um candidato político ou ainda o percentual de
analfabetos em uma comunidade.
Uma probabilidade pode ser definida como uma função que satisfaz os
seguintes axiomas:
1) P(A) ≥ 0
2) P(S) = 1
n n
3) P (U A j ) = ∑ P ( A j )
j =1 j =1
ALGUMAS PROPRIEDADES
P( A ∩ B)
P( B | A) =
P ( A)
onde P(A) ≥ 0.
P(B|A) = P(B)
29
Ou seja,
P(A ∩ B) = P(A).P(B)
APLICAÇÃO
a) P(A)
b) P(D)
c) P(H)
d) P(A ∪ M)
e) P(B ∩ F)
f) P(M | C).
30
5. VARIÁVEIS ALEATÓRIAS
DISCRETA
Surgem através de um processo de contagem
Ex: Número de filhos de um casal, Número de
defeitos em uma chapa metálica, etc
VARIÁVEL ALEATÓRIA
CONTÍNUA
Resulta de um processo de medição, assumindo
valores num conjunto infinito não enumerável
Ex: Peso, Altura, Renda, etc.
f ( x) ≥ 0
e
∑ f (x) = P ( X = x) = 1
Em resumo tem-se:
31
X X1 X2 X3 ...... XN
Distribuição de
Probabilidades
P(X=x) P1 P2 P3 ...... PN
Média: E(X)= ∑ Xi . P ( X = xi )
Variância: V ( X ) = E (X2 ) – E2 ( X )
Onde: E ( X2 ) = ∑X 2
.P(X=x )
2. ∫ f ( x)dx = 1
−∞
b
3. P (a < X < b) = ∫ f ( x) dx
a
32
APLICAÇÃO:
33
6. MODELOS DISCRETOS:
X 0 1
P(X=x) (1–P) P
PARÂMETROS
34
6.3. MODELO DE POISSON:
APLICAÇÕES:
e − λt ( λt ) K
Formula: P (X = k) =
k!
Onde:
λ = taxa de ocorrências.
( rk )( nN−−kr )
P( X = k ) =
( nN )
35
APLICAÇÃO:
1. Cerca de 10% das peças produzidas por certa indústria, são defeituosas.
Numa amostra de 10 peças obtidas ao acaso, determinar a probabilidade de se
ter:
a) Exatamente 2 defeituosas
b) No máximo, uma perfeita
36
7. MODELOS CONTÍNUOS
68%
µ-σ µ µ+σ
37
USO DA TABELA NORMAL
0 z
0 1
1
38
3) P ( Z > -1 ) = 0,50 + 0,3413 = 0,8413
-1 0
5%
z=1,64
0 z
2,5%
z = 1,96, =5%
-z 0 z
39
APLICAÇÃO:
40
8. DISTRIBUIÇÕES AMOSTRAIS
• Na própria estatística
• Na distribuição da população em estudo
• Tem relação inversa com o tamanho da amostra
(3 − 4) 2 + (4 − 4) 2 + (5 − 4) 2
σ =
2
= 0,6666
3
41
Tabela 8.1 - Possíveis amostras de tamanho 2 que podem ser
extraídas da população do exemplo 8.1
Amostra Média
Amostral
(3,3) 3
(3,4) 3,5
(3,5) 4
(4,3) 3,5
(4,4) 4
(4,5) 4,5
(5,3) 4
(5,4) 4,5
(5,5) 5
1 2 3 2 1
µ x = 3. + 3,5. + 4. + 4,5. + 5. = 4
9 9 9 9 9
σ x2 = E ( X 2 ) − E 2 ( X ) , onde
1 2 3 2 1
E ( X 2 ) = 3 2. + 3,5 2. + 4 2. + 4,5 2. + 5 2 = 16,333 , portanto:
9 9 9 9 9
σ x2 = E ( X 2 ) − E 2 ( X ) = 16,333 − 4 2 = 0,333
42
Portanto, a variância da distribuição amostral de médias poderia ser obtida
como:
σ2 0,6666
σ =
2
x
= = 0,3333 .
n 2
(x − µ) (x − µ) n
z= = ,
σx σ
tem distribuição Normal com media 0 (zero) e desvio padrão 1 (hum).
43
Em resumo, podemos afirmar sobre a distribuição amostral de médias que:
σ2
n
σ
n
(Z
z = n
σ
(x − µ) n
Z=
σ
APLICAÇÃO:
44
8.2 DISTRIBUIÇÕES AMOSTRAL DE PROPORÇÕES
p (1 − p )
σp =
N
p−P
z=
σ p
APLICAÇÃO:
45
9. ESTIMAÇÃO: NOÇÕES GERAIS
46
Pontual – a partir de
estimativa.
ESTIMAÇÃO
o verdadeiro valor do
parâmetro.
AMOSTRAGEM
σ
x ± Zα , onde:
2 n
47
σ
Corresponde ao desvio-padrão da distribuição amostral da média.
n
Para uma probabilidade de 95% de confiança, tal intervalo fica:
σ
x ± 1,96
n
O que significa que, construídos dessa forma, cerca de 95% dos intervalos
conterão o verdadeiro valor do parâmetro µ (média populacional).
Quando o desvio padrão populacional é desconhecido, o mesmo deve ser
substituído pela sua estimativa amostral, utilizando-se nesse caso a distribuição t
de Student em lugar da distribuição Normal. No caso de uma amostra como temos
que estimar o desvio padrão e o mesmo necessita da estimação prévia da média,
perde-se um grau de liberdade. Portanto a valor t corresponde a (n-1) graus de
liberdade. No caso de duas amostras (diferença de médias) tal valor corresponde
a (n1+n2-2) graus de liberdade.
___ ___
σ
Média X X + /− Z α / 2
(com variância conhecida) N
___ ___
S
Média X X + / − tα / 2
(com variância desconhecida) n
P(1 − P)
^
^
P
Proporção P + / − Zα / 2
n
__ __
X 1− X 2
__ __
σ 12 σ 22
Diferenças de Médias ( X 1 − X 2 ) + / − Zα / 2 +
(variâncias conhecidas) n1 n2
__ __
__ __
X 1− X 2 1 1
Diferenças de Médias ( X 1 − X 2 ) + / − tα / 2 Sc +
(variâncias desconhecidas) n1 n2
48
APLICAÇÃO:
Uma empresa, que enche latas de tinta, tenta manter o peso especificado para o
produto. Foi selecionada uma amostra de 25 latas que produziu um peso médio de
5,0Kg e desvio padrão de 1,5Kg, construir um intervalo de confiança para média
populacional.
49
10. TESTES DE HIPÓTESES
H0: µ = 5.
H1: µ ≠ 5.
50
elementos claros para melhor aquilatar essas diferenças e conseqüentemente
tomar uma decisão, com base em critérios probabilísticos.
Após a formulação das hipóteses, deve ser estabelecida uma estatística do
teste e investigada sua distribuição amostral, que deve ser conhecida. Em
seguida, a distribuição amostral da estatística do teste é dividida em duas regiões:
uma região de aceitação da hipótese nula e uma região de rejeição, também
conhecida como região crítica, que consiste em valores improváveis de ocorrer
para a estatística do teste, caso a hipótese nula seja verdadeira.
Em qualquer processo decisório estamos sujeitos a cometer erros e no
caso de testes de hipóteses não é diferente. Dois tipos de erros são então
observados:
O erro do tipo I que consiste em rejeitar a hipótese nula quando a mesma é
verdadeira.
O erro do tipo II que consiste em não rejeitar a hipótese nula quando a
mesma é falsa.
A probabilidade de ocorrência do erro do tipo I, denotada por α, é chamada
de nível de significância do teste. A fixação de um nível de significância determina
uma região de rejeição de um teste, estabelecendo uma regra de decisão para o
processo. Usualmente, estes valores são fixados em 1%, 5% ou 10%.
De forma resumida, o processo de decisão, baseado em um teste de
hipóteses, pode ser visualizado no seguinte esquema:
51
• Supondo que H0 seja verdade: Qual a probabilidade de se obter, para uma
amostra n observações, um valor amostral tão ou mais discrepante que a
média observada?
• Se tal probabilidade for muito pequena, a média amostral observada não é
compatível com a hipótese H0. Logo a hipótese formulada tende a ser
rejeitada.
• Um teste de hipóteses procura responder a questão:
Resultado
amostral
52
Erros envolvidos num teste de hipóteses:
SITUAÇÃO REAL
CUIDADO!
• Resultado não significante não prova que, H0 é verdade mas, sim, que os
dados não forneceram evidência suficiente para rejeita-la.
• Procurar afastar, na medida do possível, fatores externos que perturbem as
conclusões.
53
10.2 – TESTE DE HIPÓTESE PARA A MÉDIA COM DESVIO PADRÃO
CONHECIDO
H0: µ = 5.
H1: µ ≠ 5.
2,5%
z = 1,96, =5%
-z 0 z
54
Portanto, no exemplo em questão, tivemos Zcal= -2,5, portanto <-1,96, valor
na área de rejeição, o que nos permite concluir pela rejeição de H0, indicando que
há evidências de que a máquina estaria realmente mal regulada.
(x − µ0 ) n (4,75 − 5) 25
Z cal = = = − 2,5
σ 0,05
0,62%
z = -2,5 =1,24%
-z 0 z
55
Como o valor-p obtido, αp = 1,24% é inferior ao anteriormente fixado (5%),
chega-se à mesma conclusão da abordagem anterior,ou seja, conclui-se pela
rejeição da hipótese H0.
Convém ressaltar que a hipótese alternativa (H1) ode ser definida em
termos de valores unilaterais, ou seja:
H1: µ < µ0 ou ainda H1: µ > µ0.
__
( X − µ0 )
Média com desvio padrão conhecido Normal
Z = N
d
σ
__
( X − µ0 ) N
Média com desvio padrão desconhecido t com (N-1)G.L. t d
=
S
__
D0 N
Diferença de médias: amostras pareadas t com (N-1)G.L.
t d
=
S d
__ __
X 1− X 2
Diferença de médias: amostras Normal
Z =
σ 12 σ 22
d
independentes
Desvio padrão conhecido +
N1 N2
__ __
X 1− X 2
Diferença de médias: amostras t com (N+N-2)G.L.
t d
=
+ 1
2
independentes S (1 )
Desvio padrão desconhecidos e iguais
c N1 N2
( N 1 − 1) S 1 + ( N 2 − 1) S 2
2 2
=
2
OBS: S VARIÂNCIA
c
N1 + N 2 − 2 COMBINADA
56
APLICAÇÃO:
1. Um fabricante de lajotas de cerâmica sabe que a resistência de seu produto
segue o modelo Normal com media de 206kg e desvio padrão de 12kg. Retira-
se uma amostra de 30 lajotas obtendo uma resistência média (x ) de 210kg. Ao
nível de 10% pode-se aceitar que a resistência média tenha aumentado?
2. Certa indústria automobilística afirma que seu carro consome em média 12Km/l
de gasolina.
Um teste com 5 automóveis revelou os seguintes valores: 10,0 11,5 12,0 11,8
11,6. Com base nesses resultados o que se pode concluir quanto à afirmação
do fabricante?
Boa Viagem 15 80 6
Encruzilhada 10 72 9
57
11. CORRELAÇÃO
Exemplo:
55
50
Y vendas
45
40
35
0 1 2 3 4 5 6 7 8 9
X te m p o
58
INTERPRETAÇÃO DO DIAGRAMA DE DISPERSÃO:
x
x
Correlação
Correlação
Perfeita
Perfeita Positiva
Negativa
rxy= 1
rxy= - 1
y
y
x x
Correlação
Ausência de
Não Linear
Correlação
rxy→ 0
y y
x x
59
• Quando as variáveis crescem no mesmo sentido temos o caso de correlação
positiva.
• Quando as variáveis crescem em sentidos opostos temos uma correlação
negativa.
• Se os dados estão perfeitamente alinhados sobre uma reta temos uma
correlação perfeita.
• Quando o crescimento de uma variável é acompanhado de variações casuais
da outra variável a correlação é nula.
S XY
r XY
= , onde
S XX S YY
S XY = ∑ XY −
∑ X ∑Y
n
(∑ X ) 2
S XX = ∑ X − 2
(∑ Y ) 2
S YY = ∑ Y 2 −
n
CUIDADO!
60
O coeficiente de correlação linear rxy varia entre -1 e 1. Quanto mais
próximo de 1 maior o grau de associação linear positiva entre as variáveis e
quanto mais próximo de –1 maior o grau de associação negativa.
)
F = ∑ (Yi − Yi ) 2 = ∑ [Yi − (a + bX i )]2
S XY
b= e a = y − bx
S XX
61
Quando os desvios ou resíduos são valores pequenos é sinal de que o
modelo está produzindo resultados compensadores. Para uma avaliação da
capacidade preditiva da variável explicativa no contexto do modelo linear ajustado,
diversas alternativas podem ser utilizadas. Inicialmente podemos obter uma
medida, chamada soma de quadrados total, que corresponde à variação
quadrática os valores de Y em torno de sua média aritmética, ou seja:
SQTOTAL = ∑ (Yi − Y ) 2
SQREGRESSAO
R2 =
SQTOTAL
SQREGRESSAO = bSxy.
APLICAÇÃO:
62
NOÇÕES DE CONTROLE ESTATÍSTICO DE PROCESSOS (CEP)
Todo processo está sujeito a variações devido a causas que são chamadas de
inerentes, que representam a junção de diversas pequenas causas de caráter
essencialmente inevitáveis. Um processo que esteja operando apenas com a
presença de tais causas inerentes é dito sob controle estatístico. Todavia podem
estar presentes em um processo um outro tipo de variabilidade de maior
intensidade que a inerente e motivada causas que supostamente pode ser
adequadamente monitoradas e controladas. Geralmente tais causas estão
associadas, primordialmente a fatores tais como equipamentos desajustados, erro
de operadores ou problemas com matérias primas e insumos, entre outros. O
gráfico de controle é uma ferramenta de monitoramento em tempo real largamente
utilizada e eficaz.
Na construção de um gráfico de controle, as amostras são, geralmente,
selecionadas em uma sequencia de pontos no tempo. De acordo com a finalidade
ou interesse, uma medida estatística é calculada. Tal medida pode ser a média de
uma característica de interesse, a proporção de itens defeituosos, ou o total de
defeitos por unidade. O valor dessa estatística é, então, calculado para cada
amostra. Um gráfico de controle usual exibe a marcação destes valores, obtidos
ao longo do tempo em um gráfico no qual constam uma linha central, um limite de
controle inferior e um limite de controle superior. Se todos os pontos ficarem
situados dentro dos limites de controle, então o processo estaria sob controle, ou
com a presença apenas de causas inerentes, ou seja, a variação observada seria
apenas casual.
63
Gráfico para a média, baseado em valores de parâmetros conhecidos.
x=
∑X i
→média amostral
n
Vimos que a distribuição da média, de acordo com o Teorema do Limite Central é
Normal, com média
σ
x ~ Normal (µ , )
n
Os limites de controle inferior e superior são obtidos, respectivamente, pelas
expressões:
σ σ
LIC = µ − zα 2 LSC = µ + zα 2
n n
64
Gráfico da média ( x ) e amplitude (R).
Suponha que dispomos de “m” amostras de tamanho “n”, a média global é obtida
a partir das médias de cada amostra ou subgrupo racional:
x1 + x2 + .... + xm
x= →média global
m
Onde:
R1 + R2 + .... + Rm
R= → amplitude média global
m
R
σˆ =
d2
65
Gráfico da Média
R
LIC = x − 3 = x − A2 R
d2
R
LSC = x + 3 = x + A2 R
d2
Onde:
3
A2 = n
d2
Gráfico da Amplitude – R
d3
LIC = R − 3 R = D3 R
d2
d3
LSC = R + 3 R = D4 R
d2
D3 e D4 são Valores
Tabelados
66
Gráfico de controle para a proporção de defeituosos – p
X
pˆ =
n
µ pˆ = p
p (1 − p )
σ pˆ =
n
p(1 − p )
LSC = p + 3
n
LM = p
p (1 − p )
LIC = p − 3
n
67
p (1 − p )
LSC = p + 3
n
LM = p
p (1 − p )
LIC = p − 3
n
∑p i
Xi
onde : p = i =1
e pi =
m n
68
CAPACIDADE DE PROCESSOS
LSE − LIE
Cp =
6σ
r
σˆ =
d2
LSE − µ µ − LIE
C pk = min ;
3σ 3σ
69
NOÇÕES DE ESTATÍSTICA NO EXCEL
Fórmula: k= n
No Excel:
70
2)Calculo da amplitude das classes (c)
É conveniente marjorar este valor de “c”, por isso trabalhamos com c=70.
3) O Valor inicial é arbitrário, podendo-se começar do míimo, ou de um valor ligeiramente abaixo deste. No caso iniciaremos
do valor 690.
Uma outra decisão é quanto ao tipo de intervalos de classe a serem adotados. No caso optamos por classes abertas à
direita e fechadas à esquerda, tipo [a,b) ou a|------ b.
A função do Excel que pode ser utilizada é a “frequência”, que necessita que sejam informados o endereço dos dados e os
limites superiores de cada intervalo. Como optamos por intervalos semiabertos à direita, subtraímos 0,1 de cada valor.
Desse modo os limites ficam:
Primeiro intervalo, contndo valores de 690 a 690+70=760, subtraindo 0,1 fica 759,9.
Para obter os valore das classes subsequentes, basta somar 70 a esse valor. Tais valores constituem que o Excel chama
de Matriz Bin (matriz binária).
71
Para conclusão da tabela, usa-se alguns recursos adicionais de “embelezamento” para lhe dar um melhor formato e
aparência, de acordo com as Normas de Apresentação Tabular.
72
4) Construção do Histograma
Na Página Inicial vamos à opção “inserir” “colunas”, selecionando a opção “2D”, preferencialmente.
73
12
10
Um recursos muito útil na construção de tabelas e gráficos a partir de bancos de dados é a Tabela Dinâmica, que permite a
construção de tabelas simples e cruzadas, para variáveis em escala nominal ou ordinal.
1)Inicialmente seleciona-se as opções: “inserir”, seguida de “tabela dinâmica”.
74
2)Informamos, em seguida, o endereço dos dados e onde queremos a saída, se em nova planilha ou na própria planilha em
uso, nesse caso informando o endereço da saída.
75
3)Após essa etapa temos uma tela na qual informamos que variável ou variáveis serão utilizadas na construção da(s)
tabela(s). No caso de uma tabela simples arrasta-se a variável de interesse até o campo de linha ou coluna e também ao
campo de valor. Verificar se esta está selecionada a formatação de campo de “contagem de valores”.
76
77
Vamos agora construir uma tabela de dupla entrada, com as variáveis sexo e área.
Arrastamos uma das variáveis, por exemplo “sexo” para a linha e a outra variável , por exemplo “área” para a coluna e
qualquer uma delas para o campo de valores e está pronta a tabela cruzada.
F 16 14 7 37
M 9 2 2 13
Total Geral 25 16 9 50
.
ANÁLISE DESCRITIVA NO EXCEL
O Excel dispõe de diversas funções para o cálculo de estatísticas descritivas, com medidas de centralidade (média, moda e
mediana); dispersão (desvio padrão e variância); assimetria, além do cálculo dos quartis.
No caso da média, mediana e desvio padrão, a sintaxe é bastante semelhante, bastando informar a sintaxe e endereço dos
dados, por exemplo:
78
No caso dos quartis 1 e 3 o comando, além de informar o endereço dos dados, informa o numero correspondente ao quartil
desejado (1 ou 3) e o tipo de quartil, optando-se, neste trabalho, pela sintaxe quartil.exc, que coincide com a metodologia de
cálculo mais indicada deste curso.
79
Uma opção mais avançada é utilizar a aba “dados”, seguida de “análise de dados”, “estatística descritiva”, que fornece um
quadro resumido das principais estatísticas descritivas para cada coluna da planilha, o que permite a análise simultânea de
diversas variáveis simultaneamente.
Seleciona-se a opção “resumo estatístico” e rótulos na primeira linha (caso os nomes das variáveis estejam na primeira
linha de cada coluna). Informa-se, ainda, o endereço onde se deseja a saída dos dados.
80
A saída informa os resultados das estatísticas descritivas para cada variável (coluna) do banco de dados.
81
ANÁLISE BIDIMENSIONAL: CONSTRUÇÃO DE DIAGRAMA DE DISPERSÃO COM AJUSTE LINEAR
O diagrama de dispersão é uma importante ferramenta na análise da associação entre duas variáveis quantitativas. O Excel
permite a construção do diagrama, com opção de exibição da reta ajustada e do coeficiente de determinação, uma medida
preliminar de qualidade do ajuste. Além do ajuste linear, são oferecidas outras opções como o ajuste exponencial,
logarítmica e potência.
Inicialmente, selecionamos os dados correspondentes às duas variáveis de interesse e o menu “inserir”, seguido de
“dispersão.
82
O resultado inicial do gráfico:
Como os pontos do eixo-Y estão muito concentrados na faixa de 50 a 90, convém alterar o valor mínimo desta escala vertical.
Clicamos duas vezes nos valores da escala vertical e, em seguida, alteramos o mínimo para 40.
83
O gráfico alterado fica:
85,0
80,0
75,0
70,0
65,0
60,0
55,0
50,0
45,0
40,0
1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90
84
Em seguida, após clicar no gráfico, selecionamos a opção “layout”, seguida de linhas de tendência” e “mais opções de linha de tendência”, “exibir equação e
R2 no gráfico”
85
Uma outra opção, que fornece um resultado mais completo é selecionar na aba “dados” “análise de dados”,
E, em seguida, “regressão”.
Informamos o endereço de cada variável: X (explicativa) e Y (dependente), assinalando a plotagem de linha e endereço da saída.
86
Alguns resultados disponibilizados, com esta opção foram: a tabela de análise de variância, modelo ajustado,
Além de testes de hipóteses e intervalos de confiança para os parâmetros ajustados.
Estatística de regressão
R múltiplo 0,96114122
R-Quadrado 0,923792445
R-quadrado ajustado 0,919558692
Erro padrão 1,832479796
Observações 20
ANOVA
gl SQ MQ F F de significação
Regressão 1 732,7018204 732,7018 218,1971 1,66608E-11
Resíduo 18 60,44367963 3,357982
Total 19 793,1455
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0%
Interseção -54,56842716 8,119439166 -6,72071 2,67E-06 -71,62673586 -37,51011846 -71,62673586 -37,51011846
Alt 70,73128265 4,788363298 14,77149 1,67E-11 60,67130466 80,79126064 60,67130466 80,79126064
87
13 - BIBLIOGRAFIA
MORETTIN, L.G., Estatística Básica – Inferência, São Paulo, Makron Books, 2000.
88
MORETTIN, L. G. Estatística Básica – Probabilidade, São Paulo, Makron Books,
1998.
VIEIRA, S. e WADA, R., Estatística – Uma Introdução Ilustrada, São Paulo, Atlas,
1986.
89
ERROR: syntaxerror
OFFENDING COMMAND: --nostringval--
STACK:
/Title
()
/Subject
(D:20150805143912-03’00’)
/ModDate
()
/Keywords
(PDFCreator Version 0.9.5)
/Creator
(D:20150805143912-03’00’)
/CreationDate
(cezar)
/Author
-mark-