P. 1
Slides de Estatística Descritiva e Probabilidade

Slides de Estatística Descritiva e Probabilidade

|Views: 2.475|Likes:
Publicado porterrematte

More info:

Categories:Types, School Work
Published by: terrematte on Dec 13, 2010
Direitos Autorais:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PPT, PDF, TXT or read online from Scribd
See more
See less

05/18/2013

pdf

text

original

Probabilidade Estatística

Professor: João Maria Filgueira, MSc
(jmfilgueira@cefetrn.br)

Plano de Ensino
Objetivo Conteúdo Metodologia Avaliação BIbliografia

Método Estatístico
A Ciência Estatística Termos Estatísticos relevantes Fases do Trabalho Estatístico Exemplo para discussão

A Ciência Estatística
Estatística tem sua origem em Dados Estatais - Governamentais A partir do século XVI surgem análises de nascimentos, de óbitos, de matrimônios, riquezas No século XVIII surge, dessas análises, a Ciência Estatística Dimensões: Descritiva, Probabilística, Inferencial

Termos Estatísticos relevantes
População: universo a ser estudado Amostra: subconjunto da População Variáveis: Qualitativas, Quantitativas Variáveis Quantitativas: Discretas e Contínuas Dados Estatísticos: valores das Variáveis

Fases do Trabalho Estatístico
Lista de Referências
6 Apresentação de resultados 5 Análise de dados

4 Organização de dados

Software Estatístico
1 Definição do Problema

3

Coleta de dados

2 - Planejamento

Base de Dados

Exemplo para discussão
Estudo para avaliar a Evasão Escolar em seu Município. Como Planejar esse Estudo? Quais as fases desse Trabalho Estatístico? Quais as principais variáveis? E os principais desafios?

Estatística Descritiva
Distribuição de frequências Medidas de posição Medidas de variabilidade Medidas Separatrizes Assimetria Apresentação gráfica

Distribuição de Frequência
Rol: conjunto ordenado dos dados Amplitude Total: AT = MAIOR - MENOR Classes:
® se o número de dados n ! 25; 5, ± ¯ ± ° n , se o número de dados n " 25 .

Onde n é a quantidade de dados

Amplitude de classe: a = AT / c Frequência: ocorrência do Rol nas classes

Distribuição Frequência
Exemplo
Considere os dados a seguir referentes a tempo de processamento de uma rotina computacional, implementada por diferentes Programadores. Obtenha a distribuição de frequência. Comente o resultado.

Tempo de processamento (s)
18 18 17 16 19 19 17 18 20 20 22 25 23 22 21 21 19 17 18 16 15 20

Média
Valor médio dos dados Dados não agrupados:

§X X !
n

Onde X é o conjunto valores; n é a quantidade de dados.

Dados agrupados:

§( f * X ) X! §f

Onde X é o ponto médio; f é a frequência da classe;

Mediana
Valor central dos dados Dados não agrupados:
~ ~
! !(
(n 1) / 2

, quando n for ímpar
(n/2  1)

n/2 

)/2

, quando n for par

Onde x(n+1)/2 representa o valor da posição (n+1)/2

xn/2 representa o valor da posição n/2 x(n/2+1) representa o valor da posição (n/2+1)

Mediana
Valor central dos dados Dados agrupados:
¨ ¨§f ©© ~ ©© !L©ª © © ª ¸ ¸ ¹  Sant ¹ ¹ ¹ º ¹*a f ¹ ¹ º

É preciso obter a primeira classe com 50% dos dados. Esta é a classe mediana. Onde L é o limite inferior da classe mediana; Sant é a soma das frequências anteriores; f é a frequência da classe mediana; a é a amplitude de classe.

Moda
Valor de maior frequência Dados agrupados:

Ö ! L ¨ Da ¸ a © ¹ © Da  Dp ¹ º ª
É preciso obter a classe com maior frequência. Onde L é o limite inferior da classe; Da = maior frequência - anterior; Dp = maior frequência - posterior; a é a amplitude de classe.

Medidas de posição
Exemplo
Considere a distribuição de frequência obtida anteriormente com os dados a seguir. Obtenha média, moda e mediana. Comente o resultado.

Tempo de processamento (s)
18 18 17 16 19 19 17 18 20 20 22 25 23 22 21 21 19 17 18 16 15 20

Variância
Variação dos dados em relação à média Dados não agrupados:

S

2

!

( X  X )2 § n 1

Onde X o conjunto valores; n é número de dados; X é a média.

Dados agrupados: S

2

!

§

f *( 

)2

(§ f )  1

Onde X é o ponto médio; f é a frequência da classe; X é média.

Desvio padrão
Variação dos dados em relação à média

S! S

2

Onde S2 é a variância

Coeficiente de variação
Variação dos dados em relação à média
¨ S¸ Cv © ¹ ª Xº

Onde: S é o Desvio padrão e X é a Média Quanto menor Cv, melhor a representatividade da média X.

Medidas de variação
Exemplo
Considere a distribuição de frequência obtida anteriormente com os dados a seguir, bem como a média, moda e mediana. Obtenha variância, desvio padrão e coeficiente de variação. Comente o resultado.

Tempo de processamento (s)
18 18 17 16 19 19 17 18 20 20 22 25 23 22 21 21 19 17 18 16 15 20

Medidas Separatrizes
Organizam os dados em grupos percentualmente iguais
Quartis ± 25% Q1 25% Q2 25% Q3 25%
Q
! ¨ ©i © © © © ª ¨§ © © ª ¸ ¸ ¹S ant ¹ 4 ¹ ¹ º ¹ ¹ ¹ º

i

a

Decis ± 10% D1 10% D2
¨ ©i © © © © ª

......

10% D8 10% D9 10%

D

i

!

¨§ © © 10 ª

¸ ¸ ¹S an t ¹ ¹ ¹ º ¹ ¹ ¹ º

a

Percentis ± 1% P1 1% P2

......

1% P98 1% P99 1%
Pi !
¨ ©i © © © © ª

¸ ¨§ ¸ © ¹ S a n t ¹ © 100 ¹ ¹ ª º ¹ a ¹ ¹ º

Medidas Separatrizes
Exemplo
Considere a distribuição de frequência obtida anteriormente com os dados a seguir. Obtenha o valor abaixo do qual há 75% dos dados, e o valor abaixo do qual há 10% dos dados . Comente os resultados.

Tempo de processamento (s)
18 18 17 16 19 19 17 18 20 20 22 25 23 22 21 21 19 17 18 16 15 20

Assimetria
Quantifica o deslocamento/afastamento da distribuição em relação a medidas centrais

Ö X  X Ass ! S
X é a Média Ö X é a Moda

S é o Desvio padrão

Assimetria
Situações que a literatura apresenta

Ass > 0 Ass < 0

Ass = 0

Assimetria
Exemplo
Considere a distribuição de frequência obtida anteriormente com os dados a seguir, bem como a média, moda e desvio padrão. Obtenha a Assimetria. Comente o resultado.

Tempo de processamento (s)
18 18 17 16 19 19 17 18 20 20 22 25 23 22 21 21 19 17 18 16 15 20

Apresentação gráfica
Histograma
Gráfico de barra de classes e porcentagens

Polígono de frequência
Gráfico de linha de pontos médios e porcentagens

Apresentação gráfica
Exemplo
Considere a distribuição de frequência obtida anteriormente com os dados a seguir. Obtenha histograma e polígono de frequência. Comente o resultado.

Tempo de processamento (s)
18 18 17 16 19 19 17 18 20 20 22 25 23 22 21 21 19 17 18 16 15 20

Diagrama de Pareto
Gráfico de barra, por ordem de ocorrência Frequência em ordem decrescente Frequencia acumulada à direita

Diagrama em setores
Gráfico em forma de círculo: partes em um total Recomenda-se um máximo de 7 partes

R e c e it a d o

u n ic íp io

7

-

7 7

33,3%

25%

41,7%

1975

1976

1977

Probabilidade
Significado Axiomas de Probabilidade Probabilidade condicional Distribuição de Probabilidade Valor Esperado Variância Distribuições Discretas Distribuições Contínuas

Significado
Experimento aleatório Espaço amostral - S Eventos - E Probabilidade Clássica P(E) = n(E)/n(S)

Axiomas
(1) Se Ø é um Evento vazio (evento impossível), então P(Ø)=0 (2) Se Ac é o complemento do evento A, então P(Ac) = 1 ± P(A) (3) Se A e B são dois eventos quaisquer, então: P(A ŠB) = P (A) + P (B) ± P (A ‰ B)

Exemplo
Em um lançamento de um dado, qual é probabilidade de se obter a FACE 4? Experimento lançar um dado Espaço amostral S={1,2,3,4,5,6} Evento FACE 4; E = {4} P(E) = 1/6

Exemplo
Em um grupo de alunos do Curso de Análise de Sistemas, há 10 alunos que pagam Estatística, 5 que pagam Programação e 3 que pagam essas duas Disciplinas. Um aluno foi selecionado, qual é probabilidade dele pagar Estatística ou Programação?

Probabilidade condicional
Para dois eventos E1 e E2, a Probabilidade de E2 ocorrer, sabendo que E1 já havia ocorrido é dada por: P(E2/E1) = P(E1 ‰ E2)/ P(E1), onde: P(E1) é probabilidade de E1 ocorrer (só, sem E2) P (E1‰E2) é a probabilidade dos dois ocorrerem juntos.

Exemplo
Em um lote de lâmpadas, há 8 boas, 2 com pequenos defeitos e 2 com grandes defeitos. Desse lote,são retiradas 2 lâmpadas, uma após a outra sem reposição. Qual a probabilidade de que ambas sejam defeituosas? Sabe-se que P(E2/E1) = P(E1 ‰ E2)/ P(E1) , logo tem-se: P(E1 P(E1 P(E1 P(E1 P(E1 ‰ ‰ ‰ ‰ ‰ E2)= E2)= E2)= E2)= E2)= P(E1)* P(E2/E1) (4/12)* P(E2/E1) (4/12)* (3/11) (4*3)/(12*11) 12/132 = 0,0909

Distribuição de Probabilidade
Variável aleatória Valores possíveis para Variável Probabilidade de cada valor Soma das Probabilidades igual a 1

Exemplo
Em um lançamento de um dado, construa a Distribuição de Probabilidade da face obtida em cada lançamento.
Experimento lançar um dado Valores possíveis S={1,2,3,4,5,6} P(1) = 1/6, P(2) = 1/6, P(3) = 1/6, P(4) = 1/6, P(5) = 1/6, P(6) = 1/6
X P(X) 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 SOMA 6/6=1

Valor Esperado
É o valor esperado para o experimento. Por exemplo, quando lança-se um dado, espera-se que ocorra a face ...

E ( ) ! § x ™ p( x)
X é a variável em questão x é cada valor que X pode assumir p(x) é cada probabilidade de x

Exemplo
Em um lançamento de um dado, a partir da Distribuição de Probabilidade da face obtida em cada lançamento, obter o Valor Esperado.
X P(X) 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 SOMA 6/6=1

E(X) = 1*1/6+2*1/6+3*1/6+4*1/6+5*1/6+6*1/6 E(X) = (1+2+3+4+5+6)/6 = 21/6 = 3,5 Portanto ao lançar-se um dado espera-se que ocorra as faces 3 e 4.

Variância
É uma medida de dispersão. V(X) = E(X2) [E(X)]2, onde:

E ( X ) ! § x ™ p ( x)
E ( X ) ! § x ™ p( x)
2 2

X é a variável em questão x é cada valor que X pode assumir p(x) é cada probabilidade de x

Exemplo
Em um lançamento de um dado, a partir da Distribuição de Probabilidade da face obtida em cada lançamento, obter a Variância.
X P(X) 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 SOMA 6/6=1

E(X2) = 12*1/6+22*1/6+32*1/6+42*1/6+52*1/6+62*1/6 E(X2) = (1+4+9+16+25+36)/6 = 91/6 = 15,17 E(X) = 3,5 V(X) = 15,17 (3,5)2 = 2,92

Distribuições discretas
Variável aleatória discreta assume valores inteiros, geralmente tipo 0,1,2, ..., n>=0 X - gols em uma partida de futebol X - votos de determinado candidato X - lâmpadas queimadas em uma indústria X - clientes em débito com determinada empresa Uma variável aleatória é caracterizada pelo valor esperado E(X) e variância V(X), e possui determinada distribuição de probabilidade

Distribuições Binomial
Variável aleatória discreta que pode assumir apenas dois valores, um de sucesso ou outro de fracasso, tipo 0,1. X alunos aprovados;X acertos em uma prova

¨ n ¸ x n x P ( X ! x) ! © ¹ p q © x¹ ª º
¨n¸ n! © ¹ ! © x¹ x!( n  x ) ! ª º

n repetições do experimento p probabilidade de sucesso q probabilidade de fracasso, q=1-p x valor de ocorrência de sucesso E(X) = n*p ; V(X) = n*p*q

Exemplo
Em oito lançamentos de uma moeda, qual é a probabilidade de se obter 3 caras? Calcular o Valor Esperado e a Variância?
X-número de caras em lançamentos da moeda X~B(n,x,p) n=8 repetições, x=3 caras, p=½ probabilidade de cara (sucesso) X~B(8,3,1/2) P(X=3) = C8,3*(1/2)3*(1-1/2)8-3 P(X=3) = 56*0,125*0,03125 = 0,21875 E(X) = n*p = 8*(1/2) = 4 caras V(X) = n*p*q = 8*(1/2)*(1-1/2)=8*(1/2)*(1/2) = 2

Distribuições Poisson
Variável aleatória discreta que pode assumir valores de sucesso em determinado intervalo. Este intervalo pode ser de tempo, de área, de volume. X veículos que passam em uma rua por hora X erros ortográficos em uma página de texto

e  t .t x P( X ! x) ! x!
t taxa histórica de sucesso x valor de ocorrência de sucesso E(X) = t; V(X) = t

Exemplo
Qual é a probabilidade de se obter 1 chamada em 90 minutos, em um telefone que recebe em média 2 chamadas por hora?
X-número de chamadas telefônica por hora X~P(x,t) x=1 chamada, t: 2 chamadas em 60 minutos t chamadas em 90 minutos t = 2*90/60 = 3 X~P(1,3)

e 3 .31 0,049787 * 3 ! ! 0,149361 P( X ! 1) ! 1! 1

Distribuições contínuas
Variável aleatória contínua assume valores reais, não determinados. X X X X altura de alunos valor de compras de clientes tempo de vida de lâmpadas pesos de componentes eletrônicos

Uma variável aleatória é caracterizada pelo valor esperado E(X) e variância V(X), e possui determinada distribuição de probabilidade. Há várias distribuições contínuas, vamos abordar a principal delas, que é a Distribuição Normal.

Distribuições Normal
Variável aleatória contínua, simétrica em torno da média: com alta frequência em torno da média, com pequena frequência de valores altos e com pequena frequência de valores baixos.

f ( x) !

1

W E(X) = Q ;

« x  Q 2 exp ¬ 2W 2 2T ¬ ­

» ¼,g e x e g ¼ ½

V(X) = W2

Distribuições Normal
Como é possível observar é preciso integrar a função f(x) da Distribuição Normal, para poder obter o valor da probabilidade desejada. E isto é bastante difícil. O que fazer então? Gauss, que criou a Normal, propôs a seguinte Transformação Linear
XQ Z ! W

Essa variável Z tem distribuição Normal com Média 0 e variância 1. E, na maioria das vezes, -4<z<4, que é um intervalo bastante controlado.

Distribuições Normal
Assim, se X~( Q ; W ) então Z~( 0 ; 1 ). Há várias tabelas Z que permitem calcular probabilidades entre intervalos de valores de z. Por exemplo, é possível calcular a probabilidade P(-1,45 < Z < 2,33), utilizando-se dessas tabelas Z. Para utilizar essas tabelas Z, é preciso inicialmente realizar a transformação
XQ Z ! W

e utilizar as tabelas Z existentes.

Exemplo
Sabe-se que as notas de Informática seguem uma distribuição normal, X~(Q =6,55; W=2,01). Calcule a probabilidade de um aluno obter nota entre 5,0 e 7,5. P(5,0 < X < 7,5)=? Deve-se aplicar a transformação Z.
Z X

Q W

P [ (5,0-6,55)/2,01 <(X-6,55)/2,01< (7,5-6,55)/2,01 ] P [ -0,77 <Z< 0,47 ] Agora é só aplicar uma tabela Z.

Análise de Correlação
Significado Diagrama de Dispersão Correlação Linear Grau de explicação

Significado
Relação entre variáveis: duas Existência de associação entre elas Quantificação da associação Predição de uma variável, em função da outra Gráfico dos valores das variáveis

Diagrama de dispersão
Gráfico de pontos, tipo (X, Y) Variável independente - X Variável dependente - Y

Situações Possíveis
Ausência associação linear

Associação linear positiva

Associação linear negativa

Correlação Linear
Análise do relacionamento entre duas variáveis Sinal do grau de relacionamento linear

Coeficiente de Correlação Linear
Equação

r

n 7 y) (7 ) (7y) n 7 ) (7 ) n 7 y ) (7y)

Onde n é a quantidade de pares (X,Y)

Valores do coeficiente: ±1 e r e +1
Valores
0,00 a 0,19 0,20 a 0,39 0,40 a 0,69 0,70 a 0,89 0,90 a 1,00

Análise
Correlação bem fraca Correlação fraca Correlação moderada Correlação forte Correlação muito forte

Valores possíveis
r = 0, r = 0,7 r = 1,0

r = -0,3

r = -0,6

r = -0,9

Exemplo
Construa diagrama de dispersão e obtenha Coeficiente de Correlação Linear Y = valor do faturamento (R$) X = horas de Programação
MÊS FATURAMENTO HORAS 1 2001 80 2 20 8 829 3 1998 797 2030 815 5 1992 805 6 2013 811

DADOS:

Grau de explicação
Variação explicada pela Correlação Quanto maior a explicação, melhor a Correlação É a explicação que dá qualidade a Correlação Quando a explicação é baixa, outros fatores afetam a Correlação

Equação da Explicação
E = r2 100
Onde r é o Coeficiente de Correlação Linear

Situações r = 0,9 => 81% da variação é explicada r = 0,7 => 9% da variação é explicada

Exercícios
Obtenha dados reais, de sua área funcional, para fazer uma análise de Correlação Linear. Comente os resultados, do ponto de vista prático.

Análise de Regressão
Significado Modelo de Regressão Parâmetros de Regressão Erro padrão de estimativa

Significado
Descrever funcionalmente a relação entre X e Y: = f(x) Obter uma função que forneça pequenos desvios entre valores reais e os por ela gerados O grau de explicação, previamente obtido, precisa ser alto

Aplicação prática
Predizer o valor de uma variável, a partir de um valor de outra variável As variáveis não precisam ter as mesmas unidades de medidas No caso de duas variáveis, a função é afim, = a + bx.

Quando a função é uma reta
Considere os pares (10, 50) e (1 , 0). Qual reta passa entre eles?
55 50 45 40 35 10 11 12 13 14 15

Equação de uma reta:
55 50 45 40 35 10 11 12 13 14

= a + bx

15

Inclinação da reta: b = ( 0 ± 50) / (1 - 10) = -2,5 Intercepto: a = 50 ± (-2,5) 10 = 75 = 75 -2,5x

Modelo de Regressão
Visão analítica Função: = a + bx

Desvio

Modelo de Regressão
Regressão Linear: = a + bx Onde: a é o valor do intercepto da reta com o eixo Y; b é o valor da inclinação da reta. Considerações Matemáticas: para (i) (ii) § = n.a - b §x , e §x = a §x - b §x² , = a + bx

onde n é o número de pares (X,Y)

Parâmetros da Regressão
Finalmente, com o método de desvios mínimos quadrados, e as duas equações (i) e (ii), tem-se

n.7 . ) - (7 ).(7 ) n.7 ) - (7 )

a ! Y  b* X
Y !

§y
n

é a média de Y; X !

§x
n

é média de X

n é número de pares (X,Y).

Calculando previsões
Pode-se calcular valores previstos para Y a partir de um valor de X. O mesmo vale para valores de X a partir de valores de Y. Para isto, basta substituir o valor conhecido na reta e obter o valor desejado

Calculando previsões
A soma das previsões de Y para cada valor original de X, é igual à soma dos valores originais de Y:

§yp = §y
Isto prova a consistência do modelo de regressão, caso o grau de explicação seja aceitável.

Exemplo
Obtenha a reta de regressão e calcule quantas horas precisariam ser programadas para obter-se um faturamento de R$ 1500 Y = valor do faturamento (R$) X = horas de Programação
MÊS FATURAMENTO HORAS 1 2001 80 2 20 8 829 3 1998 797 2030 815 5 1992 805 6 2013 811

DADOS:

Erro padrão de estimativa
Como foi verificado há desvios, embora mínimos, na regressão. Logo, também haverá nos valores previstos, calculados a partir da reta de regressão. É preciso, portanto, quantificar esse erro de previsão.

Erro padrão de estimativa
A equação que quantifica o erro padrão é:
Se !

§ Y 

Yp

2

n2

Onde: Yp são os valores previstos de Y para cada valor original de X; Y são os valores originais da variável Y; n é o número de pares (X,Y). Cada previsão estará sujeita a este erro, para mais ou para menos.

Exercícios
Obtenha dados reais, de sua área funcional, para fazer uma análise de Regressão Linear. Comente os resultados, do ponto de vista prático.

Transformações Lineares
Quando a relação entre (X,Y) não é linear, é possível aplicar uma transformação nos valores de X, de Y, ou de ambos É preciso marcar um diagrama de dispersão, avaliar qual transformação aplicar, aplicá-la e realizar a análise de regressão Para realizar alguma previsão é preciso aplicar o inverso da transformação, para manter a consistência dos valores

Transformações Lineares
Uma das tranformações muito aplicadas é a função LOGARÍTMICA: = axb Ou seja, log ( ) = log ( axb), mas log (axb) = log (a) + log (xb), e log (xb) = b log (x) Portanto, a função será: log ( ) = log (a) + b log (x)

Transformações Lineares
Outras tranformações aplicadas são: a função POTÊNCIA e a função EXPONENCIAL Os procedimentos são os mesmos da função LOGARÍTMICA: transforma os dados, realiza a análise; e inverte a transformação para calcular previsões.

You're Reading a Free Preview

Descarregar
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->