Escolar Documentos
Profissional Documentos
Cultura Documentos
Responsável Técnico:
Cícero Fernando Prates Bastos
PLANO DE ENSINO
Ementa
• Aspectos preliminares do trabalho estatístico.
• Descrição, Organização e Apresentação de Dados.
• Medidas de tendência central e dispersão.
• Variáveis aleatórias.
• Distribuição de probabilidades discretas e contínuas.
• Técnicas de amostragem.
• Estimativas pontuais e intervalar.
• Testes de Hipóteses.
• Regressão linear.
• Correlação.
Objetivos
• Fornecer ao aluno noções de probabilidade e
estatística.
• Capacitar o aluno na construção,
interpretação e uso de tabelas e gráficos
estatísticos.
• Desenvolver no aluno a habilidade para os
cálculos estatísticos e sua interpretação.
• Familiarizar o aluno com as aplicações da
estatística nos trabalhos de engenharia.
Conteúdo Programático
• O que é Estatística
• Descrição e Exploração de Dados
– Variáveis
– Séries Estatísticas
– Gráficos
– Distribuições de Freqüência
• Medidas de Tendência Central
– Média, Mediana, Moda
– Outras medidas de Tendência Central
Conteúdo Programático
• Medidas de Dispersão
– Desvio Padrão
– Outras medidas de Dispersão
• Probabilidade
– Teoria Elementar da Probabilidade
– Probabilidade Condicional
– Regra de Bayes
• Variáveis Aleatórias e Probabilidades
Conteúdo Programático
• Distribuição de Probabilidades
– Binomial e Poisson
– Normal e Exponencial
• Regressão Linear
• Correlação
• Técnicas de Amostragem e Pesquisas
• Intervalos de Confiança
• Testes de Hipóteses
– Erros Tipo I e Tipo II
• Testes Unilaterais e Bilaterais
INTRODUÇÃO A ESTATÍSTICA –
REVISÃO DO ENSINO MÉDIO
Conceito de Estatística
É uma parte da matemática que vai encaixar
Relatando a coleção de dados, para uma
determinada análise
Para podermos entender algumas coisas
precisamos entender alguns conceitos:
1.Evento
2.Evento Aleatório
3.Espaço Amostral
Conceito de Estatística
Evento Evento aleatório
• Todo evento bem • É o evento em que você
concluído que obtém conhece todos os
resultados resultados possíveis
• Os eventos são más não sabe qual vai
realizados através de dar.
um experimento, o qual Espaço Amostral
irá conduzir a um • É o conjunto de todos
resultado os eventos
Conceito de Estatística
• Os processos de obtenção, organização e
análise de dados sobre uma população ou
sobre uma coleção de seres quaisquer
Experimento e espaço amostral
Experimento
• Procedimento claramente definido que
conduz a um resultado.
• A realização de um experimento é chamada
de tentativa,
• Cada tentativa tem o seu resultado
Experimento e espaço amostral
Experimentos aleatórios Espaço amostral “S”
• Experimento onde não • Conjunto de todos os
é possível prever o resultados possíveis de
resultado um experimento
• Embora sejam aleatório
conhecidos os
resultados prováveis
População- Amostra - Evento
• População- Todo o conjunto de seres em
estudo
• Amostra- Parte da população a ser analisada
• Evento- Subconjunto do espaço amostral tal
que todos os elementos a este pertencente
satisfaçam a regra comum
• Especificação de um evento- Pela regra que os
elementos satisfazem ou pela enumeração de
todos os seus elementos
Exemplo
• Com base no Dado
• Espaço amostral- S = {1,2,3,4,5,6}
• Evento= A= {Número mostrado menor que
quatro} ou A= {1,2,3}
Experimento
• Lançar uma moeda, pode dar ou par ou impar.
• Só existem dois resultados
• Evento: Para o Dado mostrar par
• A= {mostrar um número par}
• A= {2,4,6}
• S= {1,2,3,4,5,6}
Exemplos
• Na ordem Experimento – Espaço amostral –
Exemplo de Evento
• Lançar duas moedas e observar os fatos:
• S={CaCa, CaCo, CoCa, CoCo}
• A= {no mínimo uma cara e/ou (por ser oposta)
no máximo uma coroa}
• A= {CaCa, CaCo, CoCa} A= {CaCo, CoCa, CoCo}
Exemplos
• Na ordem Experimento – Espaço amostral –
Exemplo de Evento
• Lançar duas moedas e ver o número mostrado
• S= {1,2,3,4,5,6}
• B= {n menor que 4}= {1,2,3}
Tipos de Eventos
PROBABILIDADE
Probabilidade
Probabilidade
Exemplos de Aplicação
Escolhido um anagrama da palavra ESCOLA, qual a
probabilidade de que as consoantes apareçam juntas?
ESCOLA
Casos possíveis:
6! = 720 anagramas.
ESCLOA
Casos favoráveis:
4!.3! = 144 têm consoantes juntas.
P = 144 = 1
720 5
Exemplo de Aplicação
União de eventos
Eventos mutamente exclusivos
Exemplo de Aplicação
• Em um colégio foi realizada uma pesquisa
sobre atividades extracurriculares.
• Dos 500 alunos entrevistados, 240 praticavam
um tipo de esporte, 180 freqüentavam um
curso de idiomas e 120 realizavam estas duas
atividades.
• Escolhido um aluno ao acaso, qual a
probabilidade de que ele realize pelo menos
uma dessas atividades?
Resolução
Resolução
Probabilidade Condicional
Eventos Independentes
Exemplo de Aplicação
• Num grupo de 400 homens e 600 mulheres, a
probabilidade de um homem sofrer de miopia
é de 0,05 e a probabilidade de uma mulher ter
a mesma doença é de 0,10.
• Uma dessas pessoas é escolhida, ao acaso.
• Calcule:
a) a probabilidade de ela ter a doença;
b) sabendo que ela tem a doença, a
probabilidade de ser um homem.
Resolução
Resolução
DEFINIÇÕES DE PROBABILIDADE
Definições de Probabilidade
• Se um experimento pode ocorrer de N
maneiras e se o evento “A” pode ocorrer um
“n” destes então é:
P(A)= n/N
• Probabilidade calculada pelo método de
análise de experimento
• Ex: Dado;Moeda
Definições de Probabilidade
• Se um evento com atributo “A”, ocorre n vezes
em N experimentos, então para valores grandes
de N,
• P(A) se aproxima de n/N.
• Probabilidade calculada pelo método de
freqüência relativa
• N=6
• n= 3
• P(A)= lim N ∞ (n/N)
Teorema de Probabilidade
• Teorema 1: Se A e B são
eventos em um espaço 1,1 1,2 1,3 1,4 1,5 1,6
amostral, então P(A ou B) 2,1 2,2 2,3 2,4 2,5 2,6
• P(A U B)= P (A) + P(B)- P(A 3,1 3,2 3,3 3,4 3,5 3,6
∩ B) 4,1 4,2 4,3 4,4 4,5 4,6
• Experimento: 5,1 5,2 5,3 5,4 5,5 5,6
• Lançar dois dados 6,1 6,2 6,3 6,4 6,5 6,6
• A={número 5 mostrado}
• B= {número 6 mostrado}
Teorema de Probabilidade
• P(A)= 11/36
• Probabilidade do n°5
1,1 1,2 1,3 1,4 1,5 1,6 aparecer
2,1 2,2 2,3 2,4 2,5 2,6 • P(B)= 11/36
3,1 3,2 3,3 3,4 3,5 3,6 • P(A e B)= 2/36
4,1 4,2 4,3 4,4 4,5 4,6 • P(A U B)= P (A) + P(B)- P(A
5,1 5,2 5,3 5,4 5,5 5,6 ∩ B)
6,1 6,2 6,3 6,4 6,5 6,6 • P(A U B)= 11/36 + 11/36 –
2/36 =
• P(A U B)= 20/36
Teorema de Probabilidade - OBS
• 1- Se A e B são mutuamente exclusivos ou seja
• P(A ∩ B) = 0 tem-se:
• P(A U B) = P(A) + P(B)
• 2- Se A1,A2,..., Ak, são eventos mutuamente
exclusivos então P(A1 U A2 U ... U Ak)=
P(A1)+P(A2)+...+P(Ak)
EXERCÍCIOS
Exercícios
S
QUANDO UMA MOEDA É
ARREMESSADA DUAS VEZES QUAL A
PROBABILIDADE DE QUE NO MÍNIMO
UMA CARA APAREÇA?
Exemplo
• S={CaCa, CaCo, CoCa, CoCo}
• Ac = {no mínimo uma coroa apareça
• A={Nenhuma cara apareça}
• P(Ac)= 1-P(A)
• P(Ac)= 1-(1/4)= 3/4
Teorema da Probabilidade
• Teorema 3: Se A e B são eventos
independentes então
• P(A∩ B) = P(A) . P(B)
Exemplos
• 1- Uma urna contém 7 bolas pretas e 5
brancas, se são retiradas 2 bolas com
reposição qual a probabilidade de que ambas
sejam pretas?
Solução
• Primeira retirada
• A={retirar uma bola
preta} P(A∩B)= P(A) . P(B)
• P(A) = 7/12 = 7/12 . 7/12
• Segunda retirada = 49/144
• B= {Retirar uma bola
preta}
• P(B) = 7/12
Exemplos
• Arremessados dois dados. E1, é o evento em
que a soma é 6. Em E2 a soma é 7 e F é o
evento em que o primeiro número é 3.
Verifique
• A)E1 e F são independentes?
• B)E2 e F são independentes?
Solução
• E1= {Soma dar 6} = 1,1 1,2 1,3 1,4 1,5 1,6
P(E1)=5/36 2,1 2,2 2,3 2,4 2,5 2,6
• E2= {Soma dar 7 } = 3,1 3,2 3,3 3,4 3,5 3,6
• x
•
• μ1 μ2 μ3
Variância σ²x e desvio padrão σx
• Mostram o quanto a distribuição está dispersa
em torno da média. Quanto maior a variância ou
o desvio padrão, mais alargado o formato da
curva.
• σ1 σ2 σ3
Distribuições de probabilidade
• Distribuições são modelos matemáticos para
descrever o comportamento de variáveis
aleatórias. Tais modelos são usados em
controle de qualidade e confiabilidade.
• Serão vistas as seguintes distribuições:
• Binomial (discreta)
• Poisson (discreta)
• Normal (contínua)
DISTRIBUIÇÃO BINOMIAL
Distribuição Binomial
• Diz-se que a variável x tem distribuição,
binomial com parâmetros n e p se a função é
• P(x) = n
• x
• X= 0,1,...,n
• Parâmetros “n” e “p”
• Onde n = n!____
• x x!(n-x)!
• Esta distribuição descreve a variável aleatória “x”
• que representa o número de sucessos “x” em
“n” tentativas independentes “ (1-p)” de
fracasso.
• Cn,x: Combinação de x sucessos em n tentativas
• Probabilidade de x sucessos
•
• Probabilidade de n-x fracassos
Medidas características
• Média μx= n.p (número de tentativas x
probabilidade de sucesso)
• Variância= σx²= n.p. (1-p)
• Desvio padrão = σx= (n.p.(1-p))¹/²
•
Exemplo de variáveis aleatórias
binomiais
• 1)X: Número de caras quando uma moeda
honesta é lançada 10 vezes
• X~B(10,1/2)
• 2) Y: Número de cestas feitas por um jogador de
basquete em 12 arremessos se sua média é 0,4
(cestas/arremessos) y~B(12;0,4)
• 3)W: Número de produtos defeituosos em uma
amostra de 20 unidades retirada de um grande
lote que contém 2% de defeituosos
W~B(20;0,02)
Comentários
• Os eventos são obviamente independentes
• É aceitável tomar os eventos como
independentes
• Atenção:
• Para um lote pequeno, a retirada sem repetição
de um produto afeta a probabilidade do próximo
ser defeituoso
• Más para um lote grande comparado com o
tamanho da amostra, pode-se desprezar a
dependência e utilizar o modelo binomial
EXERCÍCIOS
DISTRIBUIÇÃO DE POISSON
Distribuição de Poisson
• Diz-se que a variável aleatória x segue a distribuição de
Poisson se a sua f.d.p. é:
• P(x)=
• x= 0,1,2,...
• x!=x(x-1)(x-2)....(x-n)!
• Parâmetro λ
• x ~Po (λ)
• Média μx = λ
• Variância σ²x = λ
• Desvio Padrão σx = λ¹/²
Distribuição de Poisson (Aplicações)
• Esta distribuição é um bom modelo para
descrever um comportamento das variáveis nos
seguintes exemplos:
1. Número de nós por folha de madeira tratada
2. Número de acidentes por mês numa fábrica
3. Número de imperfeições por peça de tecido
4. Número de chamadas que chegam a uma central
telefônica em um determinado tempo
5. Número de glóbulos sanguíneos visíveis ao
microscópio num campo visível de área “A”.
Requisitos de um processo de Poisson
• Os números de eventos durante intervalos
constituem de variáveis aleatórias
independentes
• A distribuição do número de eventos durante
um intervalo ( tempo ou espaço) depende
apenas do comprimento do intervalo e não de
seus pontos extremos
Requisitos de um processo de Poisson
• Para pequenos intervalos a probabilidade de
ocorrência de um evento é diretamente
proporcional ao comprimento do intervalo
• A probabilidade de ocorrência de dois ou mais
eventos para intervalos infinitesimais é
desprezível
• A solução inicial do processo é que o evento
não ocorreu. No instante, zero ainda não
ocorreu
EXERCÍCIOS
DISTRIBUIÇÃO NORMAL
Introdução
• Os estudos de probabilidade apresentam
características próprias
• A depender do tipo de variável a ser estudada
• Ou seja estamos lidando com uma variável
discreta ou contínua
Introdução
• As variáveis contínuas têm suas distribuições
de probabilidade apresentadas na forma de
uma função densidade de probabilidade
(FDP).
• Considere uma variável X. que assume um
conjunto contínuo de valores
•
• O gráfico apresenta uma função derivada da
probabilidade (FDP)
• A área compreendida entre a curva e o eixo é igual a 1,
(área de 100%)
• A área entre a e b corresponde à probabilidade de um
evento acontecer dentro deste intervalo
Introdução
A seleção de distribuição teórica mais
conveniente irá depender da:
1. Abordagem
2. Hipótese considerada
3. Problema específico tratado
Distribuição Normal
Distribuição Normal
Tabela
Exemplo: Seja Z ~ N (0; 1), calcular
a) P(Z 0,32)
z 0 1 2
Tabela
b) P(0 < Z 1,71)
= A(1,71) – A(0)
Tabela
d) P(Z 1,5)
= 1 – 0,9332 = 0,0668.
Tabela
e) P(Z –1,3)
= 1 – 0,9032 = 0,0968.
Tabela
f) P(-1,5 Z 1,5)
= 2 0,9332 – 1 = 0,8664.
Tabela
g) P(–1,32 < Z < 0)
Tabela
h) P( -2,3 < Z -1,49)
= 0,9893 - 0,9319
= 0,0574.
Tabela
i) P(-1 Z 2)
Tabela
Como encontrar o valor z da distribuição N(0;1) tal que:
(i) P(Z z) = 0,975
z Z
z Z
Tabela
(iii) P(Z z) = 0,3
z Z
z Z
z Z
–z z Z
Tabela
Exemplo: Seja X ~ N(10 ; 64) ( = 10, 2 = 64 e = 8 )
Calcular: (a) P(6 X 12)
6 10 X 10 12 10
P P 0,5 Z 0,25
8 8 8
= A(0,25) - (1 - A(0,5) )
= 0,5987- ( 1- 0,6915 )
= 0,5987- 0,3085 = 0,2902
Z
Tabela
(b) P( X 8 ou X > 14)
8 10 14 10
P( X 8) P( X 14) P Z PZ
8 8
PZ 0,25 PZ 0,5
= 1 - A(0,25) + 1 - A(0,5)
= 1 - 0,5987 + 1 - 0,6915 = 0,7098
Tabela
c) k tal que P( X k) = 0,05
X 10 k 10 k 10
P ( X k ) 0,05 P P Z 0,05.
8 8 8
k 10
Então, z 1,64.
8
Logo k = 10 + 1,64 8 = 23,12.
Tabela
d) k tal que P( X k) = 0,025
X 10 k 10 k 10
P( X k ) 0,025 P P Z 0,025.
8 8 8
k 10
Então , z 1,96.
8
Logo k = 10 – 1,96 8 = – 5,68.
Tabela
Observação : Se X ~ N( ; 2), então
(i)
P( X ) P Z
P 1 Z 1
2 (A(1) 0,5)
2 (0,8413 0,5)
0,6826
Z
isto é, P( - X + ) = 0,683.
100 120
P( X 100) P Z P(Z 1,33)
15
1 A(1,33)
1 0,9082 0,0918.
Z
Tabela
b) Qual deve ser o tempo de prova de modo a permitir que 95% dos
vestibulandos terminem no prazo estipulado?
x 120
P ( X x ) 0,95 P Z 0,95 .
15
x 1 120 x 2 120
P( x 1 X x 2 ) 0,80 P Z 0,80.
15 15
x 1 120
1,28 x1= 120 - 1, 28 15 x1 = 100,8 min.
15
x 2 120
1,28 x2 = 120 +1,28 15 x2 = 139,2 min. Tabela
15
Distribuição Normal : Valores de P( Z < z ) = A(z)
Parte inteira e primeira decimal de z
Segunda decimal de z
0 1 2 3 4 5 6 7 8 9
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 Volta
O que é ESTATÍSTICA
179
O QUE ESTATÍSTICA ?
• Estatística pode ser pensada como a ciência
de aprendizagem a partir de dados.
180
O que é ESTATÍSTICA
• Parte de perguntas/desafios do mundo REAL:
– cientistas querem verificar se uma vacina contra a gripe
faz efeito.
– um político quer saber qual é o percentual de eleitores
que pretende votar nele nas próximas eleições.
– a Ford quer verificar a qualidade de um lote inteiro de
peças fornecidas através de uma pequena amostra.
– o departamento de matemática da AREA1 quer saber o
percentual de alunos que aprovados na disciplina de
Calculo III.
181
APLICAÇÕES DA ESTATÍSTICA
Área social
pesquisa de opinião
Área de saúde
medicamentos genéricos
epidemia de meningite
Área industrial
controle de qualidade
Área financeira
investimentos no
mercado financeiro
182
Por que usar Estatística?
• Por que a natureza apresenta VARIABILIDADE:
– Variações de indivíduo para indivíduo;
– Variações no mesmo indivíduo;
• “A Estatística estuda como controlar, minimizar
e observar a variabilidade INEVITÁVEL de todas
as medidas e observações”.
• Sem Métodos Estatísticos, sem validade
científica!
183
ESTATÍSTICA DESCRITIVA
• A coleta, a organização, a descrição dos
dados, o cálculo e a interpretação de
coeficientes pertencem á ESTATÍSTICA
DESCRITIVA, enquanto a análise e a
interpretação desses dados ficam a cargo da
ESTATÍSTICA INDUTIVA OU INFERENCIAL
184
ESTATISTICA DESCRITIVA
185
População e Amostra
• População: conjunto de indivíduos com pelo menos
uma característica observável(valores, pessoas,
medidas)
X1 X2 X3 ...
187
Subdivisões da Estatística
188
Tipos de Variáveis
Em Estatística, variável é atribuição de um número a
cada característica da unidade experimental de
uma amostra ou população.
– Sexo
– Educação
– Estado Civil
– Religião
– Cor de olhos
– Faixa etária
Uma variável qualitativa esta ligada a qualidade
do indivíduo pesquisado.
190
Exemplos de variável quantitativa
– a) Peso
– b) Idade
– c) Número de filhos
– d) Estatura
– e) Salário
. Uma variável quantitativa pode ser discreta ou
contínua.
191
Aula1. Acurácia e Precisão
192
Análise Exploratória de Dados
Tabelas
(freqüências ou
Variáveis percentuais)
qualitativas Gráfico
s Tabelas
(freqüências ou
percentuais)
Variáveis Gráfico
quantitativas s
Medidas de síntese:
média, mediana,
. desvio padrão
193
GRÁFICOS
• A grande utilização de gráficos como forma
de apresentação de dados pode ser
justificada através de um ditado popular de
que "uma imagem vale mais que 1000
palavras“.
194
GRÁFICOS
A representação gráfica deve ser utilizada levando-se em conta algumas qualidades essenciais
básicas para a construção destes:
-Simplicidade:
as informações contidas em um gráfico devem ser diretas e detalhes secundários
devem ser omitidos;
195
GRÁFICOS
196
GRÁFICOS
197
GRÁFICOS
De acordo com Levin(1987),
Arrecadação enquanto
Mensa ICMS que algumas
- Paraná 2001
pessoas parecem "desligar-se" ao serem expostas a
informações estatísticas em forma de tabelas, elas
700
podem600 prestar bastante atenção às mesmas
Meses do Ano
informações
500 apresentadas em forma gráfica. Este fato
400 a grande utilização por parte dos pesquisadores
justifica
300
e da 200mídia escrita e impressa dos gráficos em
substituição
100 das tabelas.
0
Valores em milhões
198
GRÁFICOS DE COLUNAS
199
GRÁFICOS DE BARRA
200
GRÁFICOS DE LINHAS
EVOLUÇÃO DA POPULAÇÃO
Este gráfico utiliza-se de uma linha para representar
UBATUBA
uma série estatística. Seu principal objetivo é evidenciar
a tendência ou a forma como o fenômeno está
80000
crescendo ou decrescendo através de um período de
tempo. Seu traçado deve ser realizado considerando o
POPULAÇÃO
60000
eixo "x" (horizontal) a escala de tempo e o eixo "y“
(vertical)
40000
freqüência observada dos valores.
20000
0
1980 1990 2000
ANOS
201
GRÁFICOS DE SETORES
202
PICTOGRAMAS
203
CARTOGRAMA
204
Polígono de freqüência
205
HISTOGRAMA
12
30 40 50 60 70 80 90 100
206
DISTRIBUIÇÃO DE FREQUÊNCIA
• È UM TIPO DE TABELA QUE CONDENSA UMA COLEÇÃO DE
DADOS CONFORME AS FREQUÊNCIAS
• Dados Brutos- É o conjunto dos dados numéricos obtidos
após a coleta dos dados:
• Ex.: Idade dos alunos do curso de Engenharia Civil da UFBA,
no ano de 2007.
• 24 23 22 28 35 21 23 33 34
24 21 25 36 26 22 30 32
25 26 33 34 21 31 25 31
26 25 35 33 31
207
DISTRIBUIÇÃO DE FREQÜÊNCIA
166 160 161 150 162 160 165 167 164 160
162 161 168 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164
154 161 156 172 153 157 156 158 158 161
208
ESTA FREQ. ESTA FREQ. ESTA FREQ.
T. T. T.
(CM) (CM) (CM)
150 1 158 2 167 1
151 1 160 5 168 2
152 1 161 4 169 1
153 1 162 2 170 1
154 1 163 2 172 1
155 4 164 3 173 1
156 3 165 1
Total 40
157 1 166 1
209
No exemplo que trabalhamos, a variável em
questão, estatura, será observada e estudada
muito mais facilmente quando dispusermos
valores ordenados em uma coluna e
colocarmos, ao lado de cada valor, o número
de vezes que aparece repetido.
Denominamos freqüência o número e alunos
que fica relacionado a um determinado valor
da variável. Obtemos, assim, uma tabela que
recebe o nome de distribuição de freqüência
210
Rol - É o arranjo dos dados brutos em uma determinada
ordem crescente ou decrescente.
211
• Limites de Classe - Os limites de classe são seus valores
extremos. No exemplo anterior de distribuição de
freqüência o valor 21 é denominado limite inferior da
primeira classe, enquanto o valor 24 é denominado
limite superior da primeira classe.
• Número de classes - É representado por k. É
importante que a distribuição conte com um número
adequado de classes. Para determinar o número de
classes há diversos métodos. Nós aprenderemos duas
soluções:
• Para n =< 25, para n > 25. K= 30 5, 4
Amplitude do Intervalo de Classe (h) - O intervalo de uma
classe corresponde ao comprimento desta classe .
Numericamente, sua amplitude pode ser definida como a
diferença existente entre os limites superior
212
h = 24 – 21 = 3
Para construção de tabelas de freqüência para dados
agrupados em classe, algumas definições far-se-ão a seguir:
Freqüências
Idade (fi)
21 |--- 24 7
24 |--- 27 8
27 |--- 30 1
30 |--- 33 5
33 |---| 36 9
Total 30
213
TIPOS DE FREQÜÊNCIAS
• Freqüência Simples:
nº fri
Idade Aluno fri (% Fiab
s ( fi ) )
21 |-- 24 7 0,23 23 7
24 |-- 27 8 0,27 27 15
27 |-- 30 1 0,03 3 16
30 |-- 33 5 0,17 17 21
33 |-- 36 9 0,30 30 30
Total 30 1,00 100
215
Histograma
Idade dos alunos do curso de Engenharia Civil da
UFBA, no ano de 2007.
10
9
8
7
Freqüência
6
5
4
3
2
1
0
21 |--- 24 24 |--- 27 27 |--- 30 30 |--- 33 33 |---| 36
Idade
216
217
218
219
220
221
222
223
MEDIDAS DE POSIÇÃO
• É a parte da estatística que representam uma serie de dados
orientando-nos quanto a posição em relação ao eixo
horizontal .São medidas de tendência central, visto que
ocupam posições centrais numa distribuição
224
Media Aritmética
• È o quociente da divisão da
soma dos valores da variável
pelo número delas.
___
X
x i
225
Média Aritmética Ponderada
A média aritmética ponderada p de um conjunto de
números x1, x2, x3, ..., xn cuja importância relativa
("peso") é respectivamente p1, p2, p3, ..., pn .
Ex: Alcebíades participou de um concurso, onde foram realizadas
provas de Português, Matemática, Biologia e História. Essas
provas tinham peso 3, 3, 2 e 2, respectivamente. Sabendo que
Alcebíades tirou 8,0 em Português, 7,5 em Matemática, 5,0 em
Biologia e 4,0 em História, qual foi a média que ele obteve?
___
8 x3 7,5 x3 5 x 2 4 x 2 64,5
Xp 6,45
33 2 2 10
226
Mediana
• A Mediana de um conjunto ordenado de valores é o valor
do meio deste conjunto, ou o valor médio dos dois valores centrais.
• Observe-se que s Mediana divide o grupo ordenado de
valores em 2 partes iguais (50% acima e 50% abaixo da Mediana).
• Se o número de itens é par, a Mediana será a media dos 2
valores do meio. Se o número de itens for ímpar, a Mediana será o
valor do meio.
• EXEMPLO: Calcular a mediana para os seguintes conjuntos de
dados:
a) 10, 12, 12, 14, 15, 18, 19
• Posição da mediana = (7 + 1) / 2 = 4 ,a mediana é o 4º valor
• Então o valor da mediana para estes dados é Md = 14.
b) 18, 19, 23, 25, 29, 30
• Posição da mediana = (6 + 1) / 2 = 3,5 , a mediana é o valor
médio entre o 3º e o 4º valores, ou seja: Md = (23 + 25) / 2 = 24.
227
Moda
• A Moda é o valor mais freqüente num conjunto de
valores.
• EXEMPLO: Verificar o valor da moda, para os
seguintes conjuntos de dados:
• a) 12, 18, 20, 15, 12, 19, 15, 12. >>> Mo = 12
• b) 15, 19, 21, 12, 15, 21, 17, 14. >>> Mo = 15 e Mo
= 21
• c) 12, 16, 13, 18, 20, 14, 25, 11 >>> amodal.
228
Idade dos alunos do curso de medicina
veterinária da UFBA, no ano de 2001
Ponto f i . xi
Freqüências
Idade Médio FA
(fi)
(xi)
21 |--- 7 22,5 157,5
7
24 8 25,5 204
15
24 |--- 27 1 28,5 28,5
16
27 |--- 30 5 31,5 157,5
21
30 |--- 33 9 34,5 310
30
33 |---| 30 ,5
36 ---- 858 ---
Total
229
MÉDIA PARA DADOS TABULADOS AGRUPADOS EM
CLASSES:
Li Ls 21 24
xi 22,5
2 2
X
fi .xi 858
28,6
fi 30
230
MEDIANA PARA DADOS TABULADOS
AGRUPADOS EM CLASSES
PMd
f 30
i
15 Idade
Freqüências
(fi)
FA
2 2
7
( PMd Fac) 21 |--- 24 7
Md Li h. 24 |--- 27 8 15
16
fi 27 |--- 30
30 |--- 33
1
5 21
30
(15 7) 33 |---| 36 9
Md 24 3. 24
8 Total 30 ---
251
Amostragem
• Representatividade da amostra
• Tamanho da amostra
– Para uma “margem de erro” de 3% precisamos de
pelo menos 1112 elementos.
– Aleatoriedade da amostra
• Garantir que TODOS os elementos da população
tenham chance de pertencer à amostra.
• Sorteio NÃO VICIADO.
• Única forma de poder generalizar estatisticamente os
resultados para a população.
252
REGRESSÃO
Introdução
A análise de regressão linear pretende-se
estudar, ou avaliar, o efeito de uma variável:
Designada variável independente ou explicativa
Sobre uma variável designada dependente ou a
explicar.
Em outras palavras pretende-se estudar a
relação entre duas variáveis,
Tendo em conta que existe uma relação de
causa-efeito entre elas.
Alguns exemplos
• Relação existente entre a altura de uma
criança e a altura do pai (ou mãe).
• Variável dependente, ou a explicar, deverá ser
a altura da criança
• E a variável explicativa, ou independente, a
altura do pai (ou mãe);
Alguns exemplos
A relação entre a A relação entre o
despesa de uma consumo privado, num
família em bens determinado país de
alimentares e o seu uma carne de porco e
rendimento. o rendimento
A primeira variável é disponível das famílias.
dependente e a A primeira variável é
segunda é explicativa; dependente e a
segunda é explicativa;
Alguns exemplos
• A relação entre o • A relação entre o
salário de um nível de produção de
indivíduo e o seu energia e o consumo
nível de instrução de carvão numa
(anos de central elétrica.
escolaridade, por • A primeira variável é
exemplo) dependente e a
• A primeira variável é segunda é
dependente e a explicativa.
segunda é
explicativa;
O modelo de regressão linear
• A teoria postula uma função linear, f:
• Y=f(X),
• Em que Y é a variável dependente, ou
explicada
• E X é a variável independente ou explicativa
• Ou uma transformação desta variável
O modelo de regressão linear
• É de sublimar que a função linear tem dois
parâmetros, α e β,
• Que importa calcular, de modo a se conhecer
a função que descreve a relação entre as
variáveis X e Y.
• Veja o seguinte exemplo:
Exemplo 1
Onde estão inscritas as seis observações
efetuadas, em pontos destacados na reta
O cálculo dos coeficientes do modelo
• Na realidade, o tipo de observações do
exemplo anterior é praticamente inexistente
• De fato, as observações raramente se
inscrevem sobre uma reta, havendo desvios
dos pontos relativamente à reta
• Veja o seguinte exemplo ilustrativo.
Exemplo 2
Neste caso, a relação entre as duas variáveis é
aleatória
No sentido em que não é completamente expressa
por uma função linear do tipo indicado no exemplo
anterior
Y = 2,5 + 0,04X,
más sim por:
Y = 2,5 + 0,04x + u,
Em que u representa os desvios das observações das
vendas relativamente à reta.
Que descreve a relação entre o lucro e as vendas.
Note que...
Na prática não se conhece a expressão da reta
que descreve a relação entre as vendas e o lucro.
A única informação de que se dispõe À partir de
um conjunto das observações sobre as duas
variáveis cuja relação se pretende estudar
Colocando-se portanto o problema de calcular a
reta, isto é, os seus parâmetros (ordenada na
origem e declive)
• A partir de uma amostra de dados:
• (x1,y1), (x2,y2),...,(xi,yi),..., (xn,yn)
• Tem de resolver-se o seguinte problema:
• Como obter uma estimativa dos parâmetros α
e β desconhecidos do modelo?
Exemplo 3
• Admita-se que a verdadeira relação entre:
• O resultado de um teste de potencial de
aprendizagem, Y,
• E o coeficiente de Inteligência (QI), X,
• É dada por:
• Y=-40+0,95X
No entanto, o problema é que esta relação é
desconhecida
Isto é, não se conhecem os valores numéricos
dos parâmetros α e β do modelo
Que no exemplo são – 40 e 0,95,
respectivamente.
Na realidade, a única informação que se
dispõe é a de uma amostra que foi recolhida
• Admita-se que se
recolheu a seguinte
amostra aleatória
referente aos
resultados de 14
alunos:
• Com base nesta amostra deverá retirar
alguma conclusão quanto aos parâmetros α e
β do modelo
• Que descrevem a relação entre o QI e o
potencial de aprendizagem dos alunos
Vale ressaltar que os pontos não se inscrevem
numa linha reta.
Dado o caráter amostral dos dados de que se
dispõe, é necessário incorporar no modelo acima
apresentado a existência de desvio das
observações amostrais face à relação linear
teórica do modelo:
Y = α+ βX + u
Em que u é o desvio da observação
relativamente á reta teórica do modelo.
Assim o modelo tem duas partes:
• Uma parte determinística dada por α +βx, isto
é, pelo valor situado na reta de regressão
• Uma parte aleatória, dada por u, isto é, pelos
desvios dos pontos relativamente à reta de
regressão.
• Pode, então, considerar-se que qualquer reta
que passe entre a nuvem de pontos, que
representa a amostra de dados:
• (xi,yi) i= 1,2,...,n pode ser considerada uma
estimativa da relação estabelecida pelo
modelo teórico:
• Esta reta, que passa pela nuvem de pontos,
tem a seguinte equação:
• Y= a + bX
Podendo ser estabelecida
conhecendo-se os valores de a e b :
• É de notar que, uma vez que a reta atravessa a
nuvem de pontos, alguns destes se encontram
acima da reta e os restantes abaixo da reta
• Resta resolver um problema fundamental e
que é:
• Como determinar a reta de regressão que
passa entre a nuvem de pontos e que, de
algum modo, revela a relação entre as duas
variáveis?
• Será razoável escolher uma reta que minimize
o valor dos resíduos
• Isto é, dos desvios dos pontos relativamente
à reta escolhida ,
• Na medida em que quanto mais próxima
estiver a reta da nuvem de pontos, mais esta
reflete a relação entre as duas variáveis.
• É, por conseguinte,
mais adequado
utilizar um conceito
de distância de um
ponto à reta:
• Segundo a direção:
• A opção entre o • Ema particular, se o
desvio Médio analista pretende
Absoluto e a Soma evitar resíduos de
dos Quadrados grande dimensão a
depende, da atitude todo o custo
do analista em • Deve escolher a
relação aos resíduos Soma dos quadrados
como critério de
seleção
• Tome-se como medida a soma dos quadrados
dos resíduos
• Esta soma depende dos coeficientes a e b da
seguinte forma:
Como se referiu anteriormente
• É razoável escolher uma reta que minimize o
valor dos resíduos
• O mesmo é dizer escolher uma reta que
minimize o quadrado do valor dos resíduos,
isto é, da sua soma.
• Esta reta será aquela cujos valores dos
coeficientes a e b minimizam a função.
• Os coeficientes são apurados pelo
denominado método dos mínimos quadrados
ordinários
• Demonstra-se que estes coeficientes são
dados pelas expressões:
Exemplo 4
• Registrou-se, para 15 trabalhadores, o salário
horário ( em euros) ,Y,
• E o nível de escolaridade (em anos), X.
Os dados recolhidos foram os
seguintes:
• Uma vez que a variável independente é o nível
de escolaridade e a variável dependente é o
salário horário,
• O coeficiente b tem uma leitura com um
significado econômico importante:
• Trata-se acréscimo do nível de salário horário
obtido com um ano adicional de educação
Resíduos da regressão
Exemplo 5
INTERVALOS DE CONFIANÇA PARA
MÉDIAS E PROPORÇÕES
Intervalos de confiança (IC) para
média μ de uma população normal
com variância σ² conhecida
• Consideramos uma população normal com
média desconhecida que desejamos estimar e
com σ² conhecida , X: (N(?,σ²)
Procedimentos para a construção do
IC
• Retiramos uma amostra • Fixamos o nível de
casual simples de n significância , e com ele
elementos determinamos zα, tal
• Calculamos a média da que P( z > zα) =α , ou
amostra x. seja :
• Calculamos o desvios • P(z>zα)= α/2 e
padrão da média • P(z<-zα)= α/2
amostral • Logo devemos ter:
Procedimentos para a construção do
IC