Escolar Documentos
Profissional Documentos
Cultura Documentos
JOELMIR FELICIANO
O que é Estatística ?
Produção
Produção
Tipo 1
é mais
produtivo
do que o
x11 x12 ... x1n Tipo 2? x21 x22 ... x2n
Raciocínio Estatístico
População Dados
Amostragem
Estatística
Descritiva
Inferência Estatística
(Probabilidade)
JOELMIR FELICIANO
Noções Básicas
• Definição de População: Ao grande conjunto de elementos
que contém determinada característica comum, que temos
interesse recebe o nome de população.
População 1 População 2
População
Qual é a proporção de
brasileiros desnutridos?
=?
• Resultados demorados;
População
Amostra
x : Estatística.
Vantagens da Amostragem.
Tipos de Variáveis
• Ordinais: quando o atributo tem uma ordenação natural, indicando intensidade crescente de
realização. Ex: grau de escolaridade, classe social, condição do ar, condição da água,estado clínico,
etc.
• Nominais: quando o atributo não se estabelece ordem. Ex: sexo, cor, raça, doença, etc.
nominal
Qualitativa
ordinal
Variável
discreta
Quantitativa
contínua
Apresentação dos dados em tabela
Sexo Freqüência
Masculino 10
Feminino 8
Total 18
Fonte: E.W.
Para efeito de comparação: Tabela de
freqüência relativa
Fonte: E.W.
Tabelas de distribuição de freqüência.
Quando os dados são quantitativos contínuos, não conseguimos resumir a
informação da mesma forma anterior. Neste caso precisamos organizar os dados
em uma tabela de distribuição de freqüências. Veja os dados abaixo,
Tabela 1.7: Peso ao nascer de nascidos vivos, em quilogramas
2,522 3,200 1,900 4,100 4,600 3,400
2,720 3,720 3,600 2,400 1,720 3,400
3,125 2,800 3,200 2,700 2,750 1,570
2,250 2,900 3,300 2,450 4,200 3,800
3,220 2,950 2,900 3,400 2,100 2,700
3,000 2,480 2,500 2,400 4,450 2,900
3,725 3,800 3,600 3,120 2,900 3,700
2,890 2,500 2,500 3,400 2,920 2,120
3,110 3,550 2,300 3,200 2,720 3,150
3,520 3,000 2,950 2,700 2,900 2,400
3,100 4,100 3,000 3,150 2,000 3,450
3,200 3,200 3,750 2,800 2,720 3,120
2,780 3,450 3,150 2,700 2,480 2,120
3,155 3,100 3,200 3,300 3,900 2,450
2,150 3,150 2,500 3,200 2,500 2,700
3,300 2,800 2,900 3,200 2,480
3,250 2,900 3,200 2,800 2,450
Fonte: IBGE
Exemplo de tabela de distribuição de
freqüência.
Tabela 1.9: Peso de recém nascidos.
Classe Ponto médio Freqüência
1,5 |--- 2,0 1,750 3
2,0 |--- 2,5 2,250 16
2,5 |--- 3,0 2,750 31
3,0 |--- 3,5 3,250 34
3,5 |--- 4,0 3,750 11
4,0 |--- 4,5 4,250 4
4,5 |--- 5,0 4,75 1
• Amplitude =
31%
54%
15%
25
20
15 13
Freqüência
10 8
7
0
Mau atendimento Troca de mercadoria Mercadoria com defeito Falta de variedade
Reclamações
Gráfico dos Professores
Histograma
O histograma é a representação gráfica para variáveis quantitativas
contínuas. Este tipo de representação mostra a forma da distribuição
da variável. É de fundamental importância na aplicação dos conceitos
de inferência estatística
Figura 1.3: Histograma do Peso Recém Nascido.
Ponto médio
Espalhamento
dos dados
Gráfico Histograma
Gere 50 observações com distribuição normal, média 10 e variância 5, e faça os gráficos de
diagnósticos: Histograma, boxplot e de normalidade. Os gráficos devem ser colocados em
uma janela gráfica com 1 linhas e 3 colunas.
A função para gerar n valores com distribuição normal com média m e desvio padrão dp, é
definida como:
rnorm(n,m,dp)
onde: n é o número de observações
m a média e
dp o desvio padrão.
Solução:
y <- rnorm(50,10,sqrt(5)); y
par(mfrow=c(1,3))
hist(y); boxplot(y);;qqnorm(y)
Diagramas de Dispersão
Quando temos dados emparelhados e desejamos verificar de existe uma
associação entre esses dados, usamos como análise preliminar o diagrama
de dispersão.
Análise Exploratória de Dados
Estatística Descritiva 3
Medidas de Centralidade.
Medidas de Posição.
Medidas de Centralidade
• Média Aritmética de um conjunto de valores é o
valor obtido somando-se todos eles e dividindo-se o
total pelo número de valores.
n
x
i 1
i
x
n
Exemplo 1: Os valores em gramas referentes aos pesos de
recém nascidos de uma pequena cidade em um dia específico
foram: 2500, 2350, 3400, 3280, 2650, 4010 e 2910.
Assim o peso médio é calculado como:
2500 2350 ... 2910 21100
x 3014,28
7 7
Medidas de Centralidade
Se os dados apresentam observações extremas, a média pode
não ser a medida mais indicada para centralidade, pois sobre
influência direta de observações extremas. Por exemplo:
14000
12000
10000
8000
6000
4000
2000
0
1 2 3 4 5 6 7
x n x n
1
2 2
Me
2
Exemplos para o cálculo da Mediana:
Serie 1: 12, 124, 32, 10, 18, 29 e 100 n= 7; impar
Ordenar : 10, 12, 18, 29, 32, 100 e 124.
Me x n 1 x ( 4) 29
2
x n x n
1 x (3) x ( 4)
2 2 18 29
Me 23.5
2 2 2
Medidas Separatrizes
As medidas de posição possibilitam um melhor
entendimento dos dados, focalizando sua posição
relativa em relação ao conjunto como um todo.
Mediana: divide os dados ordenados em duas partes iguais.
Posição
100%
0%
1 x n
Ordem
Medidas Separatrizes
• Usando a semelhança de triângulos, vamos ter:
n 1 x 1
100 0 P 0
n : número total de observações na série.
x : é a ordem de uma determinada observação.
P : é o percentil dessa observação.
x 1
P * 100%
n 1
P
x (n 1) * 1
100
Medidas Separatrizes: Exemplo1.
Série de 27 32 64 65 58 62 59 54 29 30 26 48 47
Dados 46 43 38 29 32 35 37 31 43 45 42 37 36
Série 26 27 29 29 30 31 32 32 35 36 37 37 38
Ordem 1 2 3 4 5 6 7 8 9 10 11 12 13
Série 42 43 43 45 46 47 48 54 58 59 62 64 65
Ordem 14 15 16 17 18 19 20 21 22 23 24 25 26
Medidas Separatrizes: Exemplo.
Agora vamos encontrar a ordem x correspondente:
P 32
x (n 1) * 1 (26 1) * 1 9
100 100
Descritiva 4
Medidas de dispersão.
Medidas de dispersão
Problema:
Uma empresa farmacêutica realiza um teste com dois
medicamentos para a mesma finalidade em um grupo de 14 pessoas,
sendo que 7 tomaram o medicamento A e as outras 7 o B.O tempo de
reação foi anotado para cada individuo:
Tabela 1: Tempo de reação dos medicamentos.
80
70
60
50
Tempo de Reação
Med.A
40 Med.B
Média
30
20
10
0
1 2 3 4 5 6 7
Pacientes
Medidas de Dispersão
MedA : 72 15 57
MedB : 37 33 4
Os desvios de uma série de dados com relação a média são dados por :
xi x , onde i 1,2,..., n.
(x
i 1
i x) 0
Medidas de Dispersão.
Confirmando o resultado.
Med.A Med.B
xi (xi x) xi (xi x)
15 -20 35 0
61 26 35 0
48 13 36 1
16 -19 34 -1
72 37 33 -2
17 -18 35 0
16 -19 37 2
Soma 0 Soma 0
Medidas de Dispersão.
Calculando a variância amostral para o MedA, temos:
2 2 2
2 (15 35) ( 61 35) ... (16 35) 3660
S 610
7 1 6
2 2 2
2 (35 35) (35 35) ... (35 37 ) 10
S 1.666
7 1 6
Medidas de Dispersão.
S S2
S
CVa 100%
x
n : nº de dados na pesquisa
Média : média aritmética dos dados (centralidade).
Mediana : valor mediano dos dados (centralidade).
Desvio Padrão: Desvio padrão dos dados (Dispersão).
CV: Coeficiente de Variação (Dispersão).
Q1: Primeiro Quartil (Posição).
Q3: Terceiro Quartil (Posição).
Introdução à Teoria das Probabilidades
JOELMIR FELICIANO
Conceitos Básicos
Exemplos:
• Condições climáticas do próximo domingo;
• Taxa de inflação do próximo mês;
• Resultado ao lançar um dado ou moeda;
• Tempo de duração de uma lâmpada.
• A C = {2, 4, 6} {1} =
• AC = {1, 3, 5}
Probabilidade
Pergunta: Como atribuir probabilidade aos
elementos do espaço amostral?
Definições de probabilidades
n ( A)
P ( A)
n ( )
a) A={(1,6),(5,2),(4,3),(3,4),(2,5),(6,1)} P(A)=n(A)/n()=6/36=1/6
b) B={(5,6),(6,5),(6,6)} => P(B) = 3/36.
c) P(C)= 15/36.
Definição frequentista ou a posteriori
P A i
P( A ) i
i 1 i 1
Propriedades
1. P () 0 Regra da adição de probabilidades
2. Se A então, P( A) 1 P( Ac )
3. Se A B então, P ( A) P ( B)
4. Se A, B então, P( A B) P( A) P( B) P ( A B )
5. Se A, B, C então,
P( A B C ) P( A) P ( B ) P (C ) P( A B ) P( B C ) P( A C )
P( A B C )
Exemplo 1. Na tabela 1, apresenta-se a composição por raça e sexo de uma
população de um país.
2354693
P( H ) 0,451;
5218071
P ( H c ) 1 P ( H ) 1 0,451 0,549;
3836637
P( B) 0,735
5218071
P ( B c ) 1 P ( B ) 1 0,735 0,265;
1726384
P( H B) 0,331
5218071
P( H B) P( H ) P( B) P( H B)
0,451 0,735 0,331 0,855;
c 2110253
P( H B) 0,404;
5218071
P( H c B) P( H c ) P( B) P( H c B)
0,549 0,739 0,404 0,880.
Probabilidade Condicional e Independência
P( A B)
P( A | B) , P ( B ) 0. (1)
P( B)
(a) 10 2
P (V1 )
15 3
5
P (V 2c | V1 )
(b) 14
• V1V2 10 9 3
15 14 7
• V1V2c 10 5 5
15 14 21
5 10 5
V1c V2
15 14 21
V1c V2c 5 4 2
•
15 14 21
• Total • 1
P( A B ) P( B ) P ( A | B),
1. P( | B) 0
2. Se A, B , então : P(A c | B) 1 P( A | B) ou P( A | B) 1 P(A c | B)
3. Se A, B, C , então :
P( A C | B) P( A | B) P (C | B) P( A C | B).
Exemplo 3: Na Cidade de São Paulo, a probabilidade de chuva no primeiro dia de
setembro é 0,50 e a probabilidade de chuva nos dois primeiros dias de setembro
é 0,40. Se no primeiro de setembro choveu, qual é a probabilidade que no dia
seguinte não chova ?
c
* P( A B) 0,40
P ( B | A) 1 P ( B | A) 1 1 0,20
P ( A) 0,50
* Pelo teorema 1.2.
Definição[Independência de eventos] Dois eventos A e B são independentes se a
informação da ocorrência ou não de B não altera a probabilidade da ocorrência
de A. Isto é,
P(A|B)=P(A), P(B)>0
Conseqüentemente, temos que dois eventos A e B são independentes se
somente se,
P(AB)=P(A)P(B).
(i ) A e B c são independentes.
(ii ) A c e B são independentes
(iii) A c e B c são independentes
k
P( A) P( B1 ) P( A | B1 ) P( Bk ) P( A | Bk ) P( B ) P( A | B )
i 1
i i
T e o r e m a B a y e s . S e B1 , , B k , f o r m a m u m a p a r t iç ã o d o e s p a ç o a m o s t r a l , e A é q u a lq u e r e v e n t o
em , então:
P (B i)P ( A | B i)
P (B i | A ) k
i1
P (B i)P ( A | B i)
Sejam os eventos:
A: “ peça selecionada seja do fornecedor A”
B:” peça selecionada seja do fornecedor B”
E:” peça selecionada esteja fora das especificações”
(a) P(E)=P(A)P(E|A)+P(B)P(E|B)=(0,30)(0,10)+(0,70)(0,05)=0,065
(b) P(A|E)=?
Pelo teorema de Bayes temos:
Exemplos
• Preço de um imóvel segundo a área construída
• Consumo de combustível segundo o preço do
combustível e a região
• Valorização de uma ação segundo a valorização da
bolsa
• Taxa de criminalidade segundo a taxa de desemprego
• Tempo de reação em um processo químico segundo a
taxa de concentração do reagente.
Algumas definições
a) diagrama de dispersão: representação gráfica
entre duas variáveis quantitativas
6
Nota
0
0 2 4 6 8 10 12 14
Tempo de Estudo
Coeficiente de correlação linear
O coeficiente de correlação linear é definido como
x y
S xy xy
n
r
S xx S yy x
x2
2
y 2 y 2
n n
Propriedades do coeficiente
de correlação linear
Propriedade
-1 r 1
Classificação da correlação
r = 1, correlação linear positiva e perfeita
r = -1, correlação linear negativa e perfeita
r = 0, inexistência de correlação linear
Exemplo do cálculo da correlação
Tempo ( X ) Nota ( Y ) X2 Y2 XY
3,0 4,5 9 20,25 13,5
7,0 6,5 49 42,25 45,5
2,0 3,7 4 13,69 7,4
1,5 4,0 2,25 16 6
12,0 9,3 144 86,49 111,6
25,5 28 208,25 178,68 184
xy x y
184
25,5 * 28
r n 5 0,9960
2 2 2 2
25,5 28
x
y 208,25 178,68
x2
n
y2
n
5
5
Gráficos - exemplos da
classificação da correlação
Exemplo para r = 1
Gráficos - exemplos da
classificação da correlação
Exemplo para r = -1
Gráficos - exemplos da
classificação da correlação
Exemplo para 0 < r < 1
Gráficos - exemplos da
classificação da correlação
Exemplo para -1 < r < 0
Gráficos - exemplos da
classificação da correlação
Exemplo para r = 0
Gráficos - exemplos da
classificação da correlação
Outro exemplo para r = 0
Exercício.
Considere a relação entre temperatura e rendimento em um processo químico . Os dados estão ilustrados abaixo:
Coeficiente de correlação:
r = 0.9591233
Reta ajustada
Definição de a e b
a : intercepto ou coeficiente linear
b : inclinação ou coeficiente angular
Interpretação
Para cada aumento de uma unidade em X, temos um
aumento de b unidades em Y.
Cálculo dos Coeficientes de Regressão.
x y
S xy xy
n
b
S xx x 2
x 2
a y bx , onde y
y
e x
x
n n
Cálculo dos coeficientes de
Regressão.
Tempo ( X ) Nota ( Y ) X2 Y2 XY
3,0 4,5 9 20,25 13,5
7,0 6,5 49 42,25 45,5
2,0 3,7 4 13,69 7,4
1,5 4,0 2,25 16 6
12,0 9,3 144 86,49 111,6
25,5 28 208,25 178,68 184
xy x y
184
25,5 * 28
n 5 41,2
b 0,5268
2 2
25,5 78,2
x 208,25
x2
n
5
6
Nota
0
0 2 4 6 8 10 12 14
Tempo
Exercício.
Considere a relação entre temperatura e rendimento em um processo químico . Os dados estão ilustrados abaixo:
Coeficiente de Determinação:
R 0.9591
Reta ajustada
yˆ 12.07 0.87 x
Interpretação: A cada unidade aumentada da temperada, o rendimento
aumenta em média em 0.87%.