Escolar Documentos
Profissional Documentos
Cultura Documentos
Introduo
O que vem mente quando se pronuncia a palavra estatstica? Quando surgiram as primeiras manifestaes da estatstica? O que foi inventado primeiro: o nmero ou a escrita? Nmeros representam uma inveno cultural ao invs de algo inato na cognio humana
2
Introduo
Nmeros so produto de elevada abstrao, inventados para resolver problemas de ordem prtica Nmeros no so inatos, no nascem com as pessoas, temos que aprend-los, em um processo, s vezes rduo, de aculturao O salto da contagem qualitativa para a contagem quantitativa
3
Introduo
O processo de registro numrico surge da necessidade bsica de controle, de gerar estatsticas, como diramos hoje, dando ao ser humano informaes relevantes para seu dia a dia Cuidado com os neo-pitagricos!
Introduo
O que estatstica?
Estatstica descritiva conjunto de mtodos e tcnicas utilizveis para avaliar as caractersticas exteriores de um conjunto de dados Estatstica inferencial conjunto de teoremas, modos de raciocnios e mtodos utilizados no tratamento e anlise de dados quantitativos, especialmente na relao entre amostras e populaes
9
Introduo
Papel dos computadores Dados multivariados Matriz de dados
10
Matriz de dados
11
Tarefa extra-classe 1
1. 2. Quais so as principais divises da estatstica? Descreva sucintamente a base de dados de alguma pesquisa em que voc est ou esteve recentemente envolvido.
1. 2. 3. 4. 5. Quais os propsitos da investigao? Quantos indivduos foram pesquisados? Como melhor descrev-los? Quantas variveis foram pesquisadas? Descreva-as brevemente.
3. 4.
Descreva alguma situao vivenciada em que argumentos no to lgicos tenham sido utilizados. Uma quantificao poderia ter ajudado a esclarecer a falta de lgica da argumentao? Descreva alguma situao vivenciada em que argumentos quantitativos tenham sido erroneamente utilizados. Como escapar de exageros na argumentao quantitativa?
12
Variabilidade e informao
13
14
Variabilidade no mtrica
Escala nominal (ou categrica)
Corresponde a classes de equivalncia em uma relao de equivalncia
A equivalente a A; se A equivalente a B e B equivalente a C, ento A equivalente a C; e se A equivalente a B ento B equivalente a A
A distinguir:
dicotmica com mais de duas categorias
15
Variabilidade no mtrica
Escala ordinal
Corresponde a classes de equivalncia em uma relao de equivalncia ordenadas segundo uma relao de ordem completa
A maior ou igual a A; se A maior ou igual a B e B maior ou igual a C, ento A maior ou igual a C; se A maior ou igual a B e B maior ou igual a A, ento A e C so iguais; e ou A maior ou igual a B ou B maior ou igual a A
16
Variabilidade mtrica
Escala intervalar
O zero da escala arbitrrio A intervalos iguais na escala correspondem diferenas iguais no fenmeno mensurado No h sentido para expresses do tipo a medida foi aumentada em 20%
Exemplo notvel
Escalas Likert
17
Variabilidade mtrica
Escala de razo
o zero da escala absoluto (ausncia da caracterstica mensurada) a propores (razes) iguais na escala correspondem propores iguais no fenmeno mensurado
Tipos principais
Originrias de um processo de contagem Originrias de comparaes com uma unidade tomada como padro
Outras escalas
18
Em concluso
A variabilidade pode ser capturada de distintas maneiras H um sentido hierrquico entre as escalas
Uma escala de razo tambm preserva intervalos Uma escala intervalar tambm preserva a ordem Uma escala ordinal tambm distingue categorias A escala mais elementar a nominal dicotmica
Processo de mensurao
Variabilidades reais imaginadas existirem nos fenmenos reais
Desenvolvimento de escalas
20
Instrumentos de mensurao
Instrumentos medem efeitos Fidedignidade dos instrumentos
Teoria de erros = +
2 2
Fidedignidade =
Dados e informao
22
Amostras e populaes
Representatividade Consistncia Presuno de representatividade
23
Matriz de dados
11 21 = 1 = 1 12 22 2 2 1 2
1 = 2 , onde = 1
1 2 , onde = 2
24
Tarefa extra-classe 2
1. 2. 3. 4. Defina os termos amostra e populao. Quais so as principais razes da amostragem? Para ser til, que caracterstica deve ter uma amostra? Classifique os seguintes conjuntos de dados (quanto ao nvel de mensurao):
1. 2. 3. 4. 5. 6. nmero semanal de acidentes em uma dada empresa; tamanhos de camisa em um mostrurio; tenso de rompimento de fibras de l (em quilos); nmero dirio de empregados ausentes; percentagem de tanques de combustvel com vazamentos atravs de seus pontos de solda; estado civil de funcionrios de uma empresa.
25
6. Como o conceito de fidedignidade de um instrumento se distingue do conceito de validade de um instrumento? So conceitos completamente independentes?
26
10. O que uma amostra representativa da populao? Como saber se uma amostra representativa da populao?
28
1. Comente sobre a representatividade da amostra utilizada para embasar as concluses da cronista. 2. Como voc conduziria um estudo mais rigoroso para sustentar (ou no?) as concluses da cronista?
29
30
55%
31
40,0%
13,9%
10,0% 10,0%
32
Importante
Em tabelas e grficos de percentuais deve-se sempre mencionar o nmero de elementos na amostra O nmero de categorias no deve ser excessivo
33
34
35
36
37
Notao
1 2 = =
=1
Mdia
38
2 =
Desvio-padro =
=1
=1
2 =
39
para = 1, ,
40
Propriedades
+ = + 2 = 2 2 + 2 = 2 = =
+
+ = = 0 2 = 1
41
3 = 3 =
=1
42
Tarefa extra-classe 3
1. Construa a distribuio de frequncia e o histograma do seguinte conjunto de dados (tenso de rompimento de fibra de l, medido em quilos). 66 92 99 94 117 137 85 105 132 91 95 103 111 84 89 96 107 96 102 100 85 97 100 101 89 100 98 98 79 105 97 97 91 104 104 97 97 137 114 101 138 80 111 102 103 104 98 98 111 104 99 94 86 106 102 100 78 84 91 98 96 92 95 99 93 86 111 92 101 104 104 102 102 132 97 87 110 94 98 99 95 99 102 62 96 102 109 92 88 101 88 100 122 104 91 96 115 107 103 98
1. 2. 3. 4. 5. 6. 7. 8. Calcule a mdia. Determine a mediana. Calcule o desvio-padro. Qual o intervalo modal? Calcule a amplitude. Calcule o desvio absoluto mdio. Calcule a amplitude inter-quartlica. A distribuio simtrica?
45
46
8.
O desvio-padro (em geral) pode ser zero? Pode ser negativo? Explique.
47
50
53
54
55
56
57
58
=
Propriedades
= 2 + 2 = 2 + 2 + 2 = , onde =
59
desde que 0 e 0
Propriedades
1 +1
60
62
Equao de regresso
Genericamente, a relao matemtica entre as variveis expressa por = (), onde representa a varivel dependente e = 1 2 um vetor de variveis independentes Se = 1, o modelo dito modelo de regresso simples, se > 1, dito modelo de regresso mltiplo Se uma funo linear, o modelo dito modelo de regresso linear (simples ou mltiplo)
63
64
65
66
67
69
O problema fundamental da anlise de regresso simples consiste em estimar, a partir de observaes empricas, os valores dos coeficientes e
70
, =
=1
=
=1
Trata-se, portanto, de um problema de minimizao de uma funo real (quadrtica) de duas variveis reais
75
76
=1
2
=1
=1
=1
77
=1
=1
=1
=1
=1 =1
78
Forma normal
Formando-se a matriz 1 1 = 1 A equao de soluo equivalente a T = T Cuja soluo 1 T T =
79
Soluo analtica
= 2 = = Para dados padronizados (isto com mdias nulas e desvios-padres iguais unidade), a reta de regresso passa pela origem com inclinao igual ao coeficiente de correlao de Pearson, isto , = 0 e = .
80
=1
=1
2 =1
Utilizam-se tambm as tcnicas para analisar variveis categricas, com tabelas de contingncia, mais populares e de maior apelo informacional, ignorando, de certa forma, a caracterstica ordinal dos dados
83
Tarefa extra-classe 4
Escolha um banco de dados qualquer em que voc esteja interessado. Para a realizao dos exerccios propostos a seguir recomendvel a utilizao de alguma planilha de clculo ou algum pacote estatstico. 1. Escolha duas variveis categricas do banco de dados e faa uma anlise relacionando as informaes existentes. H algum outlier entre os dados analisados? Em caso afirmativo, corrija a situao e refaa a anlise. Qual a correo proposta? H necessidade de reagrupar categorias? 2. Repita o exerccio anterior para outro par de variveis categricas.
88
94
Muitas vezes vrias destas bases so utilizadas simultaneamente, havendo alguma redundncia entre elas.
97
O sbio e o tolo
Sabes qual o grande mal deste mundo?, pergunta o filsofo ao estpido No, qual ?, pergunta o estpido O grande mal que os parvos tm certezas, e os sensatos tm dvidas ... , filosofa o filsofo Mas tens mesmo certeza?, interrompe o estpido Claro que tenho!, responde o filsofo.
98
Modelagem determinista
Com base em observaes e experimentao, a cincia chega a leis que governam o curso dos fenmenos, chamados de modelos causais deterministas So ditos deterministas porque o conhecimento das causas determinam integralmente os efeitos Em tais modelos, um dado de entrada (input) produzir sempre o mesmo resultado (output) Usam-se quantificadores como sempre e nunca, com uma linguagem de certeza absoluta
99
Modelagem determinista
O esquema mais elementar e difundido de expresso de regularidade (leis universais)
Em qualquer realizao de um conjunto (em geral complexo) de condies , o evento ocorre
100
Exemplos
A gua pura, a uma presso atmosfrica (760 mm Hg), aquecida acima de 100C (conjunto de condies ), transforma-se em vapor (evento ) Para qualquer reao qumica sem trocas com o meio externo (conjunto de condies ), a quantidade total de matria permanece constante (evento ) lei de conservao da matria ...
101
Tipologia de eventos
Eventos certos, eventos impossveis e eventos aleatrios As definies subordinam-se a um conjunto de condies rotuladas pelo smbolo Muitas vezes estas condies so tomadas implicitamente em nossas expresses
Perigo de interpretaes dbias
102
Modelagem estocstica
Para vrios fenmenos, entretanto, pode-se no somente estabelecer a aleatoriedade do evento , mas tambm uma estimativa quantitativa da possibilidade de sua ocorrncia. O esquema mais elementar e difundido de regularidade (leis universais) estendido ento para
A probabilidade de que o evento ocorra quando da realizao de um conjunto de condies igual a
103
Exemplo
No h como prever se um determinado tomo de rdio decair em um determinado intervalo de tempo ou no, mas possvel, com base em resultados experimentais, determinar a probabilidade de tal decaimento
Um tomo de rdio decai em um intervalo de tempo de anos com uma probabilidade = 1 0,000433
104
Exemplo
O conjunto de condies estabelece que o tomo de rdio no esteja sujeito a aes externas no usuais, como bombardeamento com partculas em alta velocidade Suas condies de existncia no importam: em que meio ele se encontra, que temperatura ele tem, etc. O evento consiste no fato de que o tomo decair no intervalo de tempo de anos.
105
Outro exemplo
No h como prever se uma particular central telefnica receber uma chamada em um determinado intervalo de tempo ou no, mas possvel, com base em observaes sistemticas, estimar a probabilidade de tal evento
Teoriza-se que uma central telefnica receber uma chamada em um intervalo de tempo de segundos com uma probabilidade = 1 (cada central telefnica possui um valor para o parmetro )
106
Outro exemplo
O conjunto de condies estabelece que a central telefnica esteja sujeita a aes externas usuais, como hbitos e tamanho da populao usuria estveis, canais de acesso em perfeito funcionamento, etc. O evento consiste no fato de que a central telefnica receber uma chamada no intervalo de tempo de segundos.
107
Crditos
A ideia de que a probabilidade de um evento aleatrio , sob condies conhecidas, admite uma avaliao quantitativa = (), que hoje nos parece to natural, foi formalizada no sculo 17, muito embora o interesse pelo assunto por certo se perca no tempo A formalizao terica est documentada em uma troca de correspondncias entre o advogado e matemtico amador francs Pierre de Fermat (1601-1665) e o matemtico francs Blaise Pascal (1623-1662), debruados sobre um problema prtico envolvendo jogos de azar
Pierre de Fermat (1601-1665)
Blaise Pascal(1623-1662)
108
Crditos
Luca Bartolomeo Pacioli (1445-1517) Niccol Fontana Tartaglia (1499-1557) Girolamo Cardano (1501-1576) Giovanni Francesco Peverone (1509-1559) Galileo Galilei (1564-1642) Antoine Gombaud (1607-1684) - Chevalier de Mr John Graunt (1620-1674) Johan de Witt (1625-1672) Christiaan Huygens (1629-1695) Gottfried Leibniz (1646-1716) Jac Bernoulli (1654-1705) Edmond Halley (1656-1742) Abraham de Moivre (1667-1754)
109
Crditos
Pierre Rmond de Montmort (1678-1719) Nicolau Bernoulli (1687-1759) Thomas Bayes (1701-1761) Giuseppe Lodovico (Luigi) Lagrangia (1736-1813) Pierre Simon de Laplace (1749-1827) Carl Friedrich Gauss (1777-1855) Simon-Denis Poisson (1781-1840) Augustus de Morgan (1806-1871) Pafnuty Lvovich Chebyshev (1821-1894) Andrei Andreevich Markov (1856-1922) Alexandr Mikhailovich Lyapunov (1857-1918) Werner Heisenberg (1901-1976) Andrey Nikolaevich Kolmogorov (1903-1987)
110
Modelagem informacional
Pode-se generalizar a interpretao da modelagem no determinista, aplicando-se as mesmas ideias a situaes envolvendo incertezas a respeito da veracidade de afirmaes, estimando-se quantitativamente a possibilidade de sua veracidade com base em informaes disponveis O esquema pode ento ser estendido para
A probabilidade de que a afirmao A seja verdadeira, considerando um conjunto de informaes igual a
111
Modelagem informacional
Passa-se a tratar probabilidade subjetivamente, como um grau de crena, na acepo de Poisson e de de Morgan
112
Modelagem informacional
A probabilidade de um evento a razo que temos de crer que ele ocorrer ou que ele ocorreu A probabilidade depende dos conhecimentos que temos sobre um evento; ela pode ser diferente para um mesmo evento e para diversas pessoas. (Poisson, 1837, p. 30)
113
Modelagem informacional
Por grau de probabilidade ns efetivamente queremos dizer, ou deveramos querer dizer, grau de crena Eu considero a palavra (probabilidade) como significando o estado de esprito com respeito a uma assero, um evento futuro, ou qualquer outro assunto sobre o qual o conhecimento absoluto no existe (de Morgan, 1847, p. 172-173)
114
lgebra de eventos
A relao uma relao de ordem parcial no conjunto de eventos, pois a relao
Reflexiva Anti-simtrica Transitiva
Propriedades
+ = + = + + = + + = + = + + = + + + = =
117
Propriedades
se ento + = e = . + = + = = = + = = + =
118
Formalizao da teoria
Todo problema em teoria da probabilidade envolve um determinado conjunto de condies e uma determinada famlia de eventos que podem ocorrer ou no a cada realizao do conjunto de condies Estaremos particularmente interessados em um conjunto (um espao) de eventos elementares (isto , que no possam ser decompostos) e uma famlia de subconjuntos de que seja fechado s operaes de produto, soma e diferena ser chamado de campo de eventos
119
Campo de eventos
Para quaisquer pares de eventos pertencentes ao campo de eventos , digamos e , temse que os eventos , + e tambm pertencem a Qualquer campo no vazio de eventos, isto com pelos menos um elemento, contm o evento impossvel, pois = para qualquer evento
120
-lgebra de eventos
Chama-se -lgebra de eventos ao campo de eventos que contenha o evento certo e for fechado s operaes de produto e de soma de infinitos eventos Ou seja, exige-se que , assim como e =1 =1 para quaisquer eventos .
121
[A2] normalizao
() = 1
[A3] -aditividade
Para eventos na -lgebra de eventos , se = =1 e = para , ento = =1
122
[A2] normalizao
() = 1
[A3B] continuidade
Para uma sequncia decrescente de eventos na lgebra de eventos , isto , com 1 2 , se =1 = ento lim = 0
123
Alguns teoremas
= 1 () = 0 0 1 = + () se ento () () + = + () + + = ()
124
Probabilidade condicional
Em vrias situaes til avaliar a probabilidade de um evento considerada a informao adicional (em relao ao conjunto de condies ) de que outro evento tenha ocorrido Denota-se tal avaliao por Com 0, define-se = Se = 0, indefinido
125
Probabilidade condicional
Fixado um evento , com 0, a avaliao probabilstica dos demais eventos condicionada ocorrncia do evento equivale a redefinir o evento certo na lgebra de eventos, restringindo-o ao evento (pois o evento ocorreu, esta a informao disponvel) fcil ver que a definio de probabilidade condicional satisfaz todos os axiomas da teoria da probabilidade Nestes termos, todos os teoremas e propriedades de probabilidades podem ser estendidos s probabilidades condicionais
126
=1
127
reduz a (|) = (), que pode ser interpretada como se ocorrncia do evento (mais genericamente, se a informao acerca de sua ocorrncia) no altera a probabilidade do evento
128
se
Tarefa extra-classe 5
1. Dada a tabela abaixo, determine:
FABRICANTE
TIPOS DE DEFEITOS
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
e
132
3.
Variveis aleatrias
Intuitivamente, pode-se pensar que uma varivel aleatria to somente uma medida numrica associada a eventos aleatrios FDA funo distribuio acumulada
= ()
Exemplo
Distribuio binomial
134
Variveis aleatrias
Propriedades das FDA
1 < 2 = 2 1 A FDA de uma varivel aleatria uma funo no decrescente 0 () 1
Variveis aleatrias
Qualquer descrio de uma varivel aleatria da qual se possa obter sua FDA chamada uma lei de distribuio Variveis discretas: = ( = ) Exemplo
Distribuio binomial
136
Distribuio uniforme
137
Variveis aleatrias
Variveis contnuas
Variveis aleatrias
Propriedades das fdp
Se a FDA de diferencivel, = () 0, para qualquer valor de
1 < 2 =
2 1
= 1
139
140
Variveis aleatrias
Distribuies condicionais Distribuies multidimensionais
FDA e fdp Distribuies marginais Exemplo
Distribuio Normal bivariada
Independncia
141
Variveis aleatrias
Valor esperado
()
=
=1
142
Exemplos
Se distribuda Normalmente (distribuio Normal padro), ento = 0 Se distribuda uniformemente no intervalo + , , ento = Se se distribui segundo uma distribuio de Poisson, ento = Se se distribui segundo uma distribuio Binomial, com parmetros e , ento =
143
Variveis aleatrias
Varincia
()
A frmula equivalente a
145
Exemplos
Se distribuda Normalmente (distribuio Normal padro), ento = 1 Se distribuda uniformemente no intervalo 2 , , ento =
Se se distribui segundo uma distribuio de Poisson, ento = Se se distribui segundo uma distribuio Binomial, com parmetros e , ento = 1
146
12
Propriedades da varincia
() 0 = 0 Se 1 , 2 , , so independentes, ento (1 + 2 + + ) = (1 ) + (1 ) + + ( ) () = 2 ()
147
Padronizao de variveis
=
() ()
= 0 = 1
= +
= = 2
Exemplo
Distribuio Normal
148
Variveis aleatrias
Covarincia
, =
A frmula equivalente a , =
149
Propriedades da covarincia
, = , , = , = 0 , = , , + = , + (, ) Se e so variveis aleatrias independentes, ento , = 0 + = + 2 , + ()
150
Matriz de covarincia
1 , 1 2 , 1 = , 1 1 , 2 2 , 2 , 2 1 , 2 , ,
positiva semidefinida 0
151
Variveis aleatrias
Coeficiente de correlao linear , =
152
O coeficiente de correlao linear entre duas variveis igual covarincia entre suas correspondentes variveis padronizadas
153
Matriz de correlao
1 21 = 1 12 1 2 1 2
1 positiva semidefinida 0
154
Variveis aleatrias
Momentos
Se = 0, o momento chamado de -simo momento em torno da origem = Se = (), o momento chamado de -simo momento central = ()
155
Variveis aleatrias
A mediana de uma varivel aleatria qualquer valor que satisfaz s seguintes desigualdades 1 lim () () 2 Se () contnua, as desigualdades se 1 reduzem a =
2
156
Variveis aleatrias
Para variveis aleatrias contnuas, qualquer raiz da equao () = chamada de quantil de ordem Para variveis aleatrias discretas, o quantil de ordem o valor que satisfaz s seguintes desigualdades lim () ( )
157
Variveis aleatrias
A mediana o quantil de ordem
1 2 , 4 4 3 4 1 2
Os quantis de ordem e so chamados quartis (usualmente denotados por 1 , 2 e 3 ) Os quantis de ordem 0,1; 0,2; ... e 0,9 so chamados decis Os quantis de ordem 0,01; 0,02; ... e 0,99 so chamados percentis
158
Variveis aleatrias
Para uma distribuio contnua, portanto com funo densidade de probabilidades definida, (), seu ponto de mximo chamado de moda da distribuio, isto (moda) = max () Para uma distribuio discreta, com possveis valores 1 , 2 , ... e respectivas probabilidades = ( = ), a definio adaptada, a moda sendo definida como o valor que maximiza a funo = ( = )
159
Variveis aleatrias
Coeficiente de assimetria
() Distribuies perfeitamente simtricas tero coeficiente de assimetria igual a zero Distribuies com coeficiente de assimetria negativo sero mais pesadas direita, com caudas mais longas esquerda Distribuies com coeficiente de assimetria positivo sero mais pesadas esquerda, com caudas mais longas direita.
160
() =
3
3
Exemplos
Se distribuda Normalmente, ento = 0 Se distribuda uniformemente no intervalo , , ento = 0 Se se distribui segundo uma distribuio de 1 Poisson, ento = > 0 Se se distribui segundo uma distribuio Binomial, com parmetros e , ento 12 =
1
1 2
161
Variveis aleatrias
Curtose
4
4
() A curtose da distribuio Normal igual a 0 Distribuies com curtoses menores do que 0 so chamadas platicrticas (s vezes chamadas subgaussianas)
Apresentam picos mais arredondados do que a distribuio Normal e caudas mais curtas e finas
3=
4
2
Distribuies com curtoses maiores do que 0 so chamadas leptocrticas (s vezes chamadas de supergaussianas)
Apresentam picos mais proeminentes do que a distribuio Normal, com caudas mais longas e espessas
162
Exemplos
A curtose da distribuio uniforme 1,2
163
165
Inferncia estatstica
A estatstica inferencial emerge da utilizao da teoria de probabilidades no estudo das relaes existentes entre populaes e amostras delas retiradas Engloba um conjunto de teoremas, modos de raciocnios e mtodos utilizados no tratamento e anlise de dados quantitativos Conceito fundamental: variabilidade das estatsticas amostrais (entre amostras possveis)
167
Representatividade da amostra
Questo mais metodolgica do que estatstica Avaliada qualitativamente, checando (e validando) os procedimentos de amostragem A estatstica inferencial se preocupa com a generalizao em si, possibilitada pelo exame da amostra em lugar da populao A preocupao fundamental validar quantitativamente a generalizao, chegando-se ao mago do problema da estatstica inferencial: medir a qualidade da inferncia
168
A B C D E F G H I J
1 2 3 4 5 6 7 8 9 10
170
Provocao do exerccio
H vrias escolhas possveis para uma amostra de tamanho = 4 de uma populao de tamanho = 10 Cada uma delas oferece um valor para a estatstica Se as condies de escolha forem idnticas (nossa base qualitativa de avaliao da representatividade da amostra), nenhuma delas ser mais confivel como base de inferncia do que as outras De fato, a estatstica est mais para varivel do que para constante, no? Qualquer estatstica constante dentro da amostra, mas varivel entre amostras
172
Distribuio amostral
2,5 2,75 3 3,25 3,5 3,75 4 4,25 4,5 4,75 5 5,25 5,5 5,75 6 6,25 6,5 6,75 7 7,25 7,5 7,75 8 8,25 8,5 Total Frequncia 1 1 2 3 5 6 9 10 13 14 16 16 18 16 16 14 13 10 9 6 5 3 2 1 1 210 % 0,48 0,48 0,95 1,43 2,38 2,86 4,29 4,76 6,19 6,67 7,62 7,62 8,57 7,62 7,62 6,67 6,19 4,76 4,29 2,86 2,38 1,43 0,95 0,48 0,48 100
Esquema de relacionamento
174
175
Amostragem aleatria
Em situaes bem particulares, quando se tm em mos informaes precisas a respeito de todos os indivduos da populao de interesse, como uma listagem completa dos indivduos, por exemplo, a ausncia de vis pode ser obtida sorteando aleatoriamente os elementos que faro parte da amostra Ou seja, deixa-se ao acaso a escolha, sem qualquer influncia do pesquisador Diz-se neste caso que o processo de amostragem aleatrio
180
Aleatoriedade presumida
Raramente se tem disposio uma listagem completa dos indivduos na populao de interesse Na maior parte das aplicaes, a representatividade da amostra presumida, estabelecendo-se protocolos de amostragem que parecem, salvo melhor juzo, no viciados A estrutura probabilista julgada adequada, portanto
181
Esquema de relacionamento
Induo de aleatoriedade nas estatsticas amostrais a partir da presuno de ausncia de vis no protocolo de amostragem
183
Base terica
A estatstica inferencial evidenciar, em uma linguagem tcnica e precisa, a relao entre as distribuies A linguagem utilizada a linguagem da matemtica, exata, na forma de teoremas, que nada mais so do que expresses do tipo se ... ento ... Isto , fazem-se suposies sobre a distribuio da varivel (na populao de indivduos) e conclui-se algo a respeito da distribuio amostral
184
Validade do modelo
E se houver vcio no processo de amostragem? No h alternativa seno desconsiderar completamente os resultados O teorema pode ser preciso, mas se suas suposies no so vlidas, suas concluses no tm qualquer significado preciso distinguir a modelagem em si de sua instanciao
187
parmetros e
(isto , ~ ,
188
Relao entre a distribuio da varivel de interesse na populao de indivduos e as distribuies das mdias amostrais de distintos tamanhos 189
Exemplo aplicado
Suponha-se que nossa varivel de interesse seja Normalmente distribuda, com parmetros e Suponha-se ainda que = 10, e que no se conhea o valor de Retira-se uma amostra no viciada de tamanho = 50, calculando-se a mdia amostral Suponha-se que = 130,5 O que se pode inferir sobre o valor de ?
190
Modelagem
A suposio de Normalidade da varivel de interesse, , combinada com a suposio de ausncia de vcio no procedimento de amostragem induz uma distribuio Normal para a varivel E, embora no se saiba o valor de , sabe-se que = = Ou seja, a varivel distribui-se simetricamente em torno de , qualquer que seja seu valor, com maior probabilidade de estar prximo de seu valor do que distante de seu valor
191
Instanciao
Mais ainda, sabe-se que o desvio-padro da 10 varivel dado por = = = 1,414 A partir destas informaes, pode-se avaliar com preciso as chances relativas (probabilidades) de que a mdia da amostra se situe a uma dada distncia de , qualquer que seja esta distncia
192
50
Respostas
Por exemplo, digamos que se deseje precisar a probabilidade de que a mdia da amostra esteja a uma distncia no maior do que 3 unidades de Mais formalmente, deseja-se determinar 3 A teoria da distribuio Normal nos d 3 = 0,966105
193
Exemplo aplicado
Probabilidade de que a mdia da amostra esteja no intervalo , + para uma amostra de = indivduos, com =
194
Conhecido x desconhecido
Sob uma tica informacional, o valor conhecido na equao 3 = 0,966105 o valor , concretamente calculado com base na amostra colhida, igual a 130,5 em nosso exemplo O valor desconhecido o valor , abstratamente conjecturado como parmetro populacional
195
Expresses equivalentes
A expresso a mdia da amostra est a uma distncia no maior do que 3 unidades de equivalente expresso est a uma distncia no maior do que 3 unidades da mdia da amostra, pois so expresses logicamente simtricas Assim, pode-se interpretar a equao 3 = 0,966105 como uma expresso probabilista a respeito do valor
196
197
Exemplo aplicado
198
200
Modelagem
Pode-se raciocinar que a regulagem desejada corresponde ao valor esperado ( mdia) do contedo de todas as garrafas que sero envasadas neste particular ciclo de produo (uma populao de garrafas) Chamando de varivel volume de lquido envasado em uma garrafa, o que se deseja ao regular o processo que = 610 Assim, a suposio terica fundamental que se distribui Normalmente com parmetros = 610 e = 5, em se aceitando a argumentao do fabricante do equipamento Isto , ~ 610; 5
202
Respostas
A suposio de Normalidade para induz a suposio de Normalidade para a distribuio de mdias amostrais, , com parmetros e , ou seja, ~ 610, , e a pergunta pode ser respondida Deseja-se 604 , ou seja, 604 , onde a FDA da distribuio Normal com 5 parmetros = 610 e = 10 A funo DIST.NORM.N do Microsoft Excel fornece 604 = 0,0000739
203
5 10
Instanciao
As suposies de nossos clculos so
a varivel se distribui conforme a distribuio Normal, com mdia igual a 610 ml e desviopadro igual a 5 ml a amostra retirada no contm vcios
As suposies so bastante plausveis em situaes como a descrita, desde que o gerente de produo saiba o que est fazendo...
204
Informao factual
Suponha-se agora que o gerente de produo seja informado pelo pessoal de controle que a ltima amostragem realizada produziu a estatstica = 604 E da? A informao til, serve para alguma coisa?
205
Modelagem
H suposies tericas importantes embutidas no clculo da probabilidade 0,0000739
A distribuio Normal A amostragem no contm vcios O desvio-padro da distribuio 5 ml A mdia da distribuio (isto , a regulagem da mquina) 610 ml
Crtica instanciao
A informao est queimando nossas mos... O que fazer? Em geral, nossa postura a respeito de eventos raros de desconfiana, embora admitamos que eles possam acontecer
207
Crtica instanciao
O que se pode inferir sobre o processo de envase? No contexto apresentado, parece quase imediata a desconfiana em alguma das hipteses embutidas nos clculos
O clculo foi bem feito? A aritmtica est correta? Deu tilt na mquina de calcular? A amostra foi viciada? A distribuio no Normal? O desvio-padro no igual a 5 ml? A regulagem de 610 ml foi pro brejo?
208
Postura acrtica
Qual das hipteses a mais fraca? Alternativamente, podemos nos sentar contemplativamente e imaginar como a vida pode trazer surpresas inesperadas Se tivssemos tal sorte na MEGA-SENA...
209
Crtica instanciao
Usa-se o procedimento de amostragem para controlar o processo, para informar o processo decisrio A emergncia concreta de uma amostra com tal estatstica amostral, com probabilidade de ocorrncia terica to pequena, nos faz rejeitar a teoria, abstratamente concebida, em razo da evidncia concreta da verificao emprica
210
Crtica instanciao
Quando a suposio terica e a evidncia emprica entram em conflito, ficamos com a evidncia emprica, rejeitando a teoria Ou, mais precisamente, buscamos alguma alternativa terica, evoluindo em nosso conhecimento
211
A regulagem depende das condies locais, havendo inmeros fatores concorrendo para sua degenerao, desde limitaes humanas a desgaste nos materiais utilizados
212
Suposio alternativa
Se tivesse havido uma variao da mdia da varivel para menos do que 610 ml, a mdia da varivel acompanharia esta variao, e a probabilidade de haver uma mdia amostral to extrema quanto 604 ml seria certamente maior do que a calculada, o que talvez reconciliasse nosso achado emprico com a teoria A ttulo de ilustrao
Se = 608, 604 = 0,0057060, mantendo-se as demais suposies Se = 606, 604 = 0,1029516, mantendo-se as demais suposies
213
Suposio alternativa
214
Teste de hipteses
Em termos formais, testa-se uma hiptese bsica a respeito do valor do parmetro populacional, = 610, contra uma hiptese alternativa, < 610 A observao emprica = 604 improvvel sob a primeira hiptese A probabilidade de sua ocorrncia estimada em 0,0000739, favorecendo a segunda hiptese
215
Hiptese nula
A hiptese bsica rotulada como hiptese nula, sendo uma hiptese inercial
A regulagem inicial, de 610 ml, no se modificou ( = 610) No h variao da regulagem em relao ao valor inicialmente utilizado, de 610 ml nula a diferena entre a regulagem e o valor de 610 ml ( 610 = 0) Ou seja, o satus quo permanece inalterado
Hiptese alternativa
A hiptese alternativa denotada por 1 , acompanhando nossa compulso pela lgica bivariada (h somente dois estados possveis, a veracidade ou a falsidade de 0 ) Tem-se, portanto, no exemplo apresentado:
0 : = 610 1 : < 610
217
Deciso estatstica
O teste resume-se a escolher qual hiptese mais plausvel, dentre 0 e 1 , dadas as evidncias encontradas na amostra Como o valor de encontrado na amostra improvvel sob 0 (se 0 fosse verdadeira), rejeita-se 0 , aceitando-se consequentemente 1
218
Deciso estatstica
Ou seja, julga-se que 0 implausvel (embora no impossvel, tratando-se de uma argumentao probabilstica) e, portanto, que 1 mais plausvel do que 0 Em outras palavras, acredita-se mais na hiptese de degenerao da regulagem do processo do que na hiptese inercial de no degenerao Em funo disso, nosso gerente talvez tome algumas providncias, mas estas j no so objeto da estatstica...
219
222
Estimadores
Se estivermos interessados simplesmente em estimar os valores dos parmetros populacionais, as estatsticas amostrais correspondentes so chamadas de estimadores dos parmetros populacionais Trata-se de um processo indutivo, em que a parte generalizada para o todo
224
Estimadores
Digamos que se represente o parmetro de interesse na populao de interesse por (assim, , , , , , etc. so apenas instncias de ), e a correspondente estatstica amostral por (assim, , , , , etc. so instncias de ) Mais formalmente, denota-se (estatstica amostral) um estimador de (parmetro populacional)
225
Estatsticas de teste
Se estivermos interessados em verificar a plausibilidade de hipteses a respeito dos valores dos parmetros populacionais, as estatsticas amostrais so chamadas de estatsticas de teste sobre os parmetros populacionais, denotadas por
226
Estatsticas de teste
Trata-se de um processo dedutivo, em que a suposio feita para o todo induz um comportamento esperado na parte, que, em no sendo verificado empiricamente, pode ser utilizado para contestar a suposio inicialmente feita para o todo Mais formalmente, denota-se (estatstica amostral) uma estatstica de teste sobre (parmetro populacional)
227
229
230
231
Intervalos de confiana
Genericamente, um intervalo de confiana nada mais do que um intervalo numrico associado a uma avaliao probabilista de que ele contenha o verdadeiro valor do parmetro sendo estimado Definem-se valores e (limites inferior e superior do intervalo) de modo que se possa fazer alguma afirmao a respeito da probabilidade de que o intervalo assim definido contenha o parmetro populacional, pelo menos aproximadamente
232
Intervalos de confiana
Mais formalmente = 1 Os valores e so determinados a partir dos dados de uma particular amostra, devendo ser pensados como variveis aleatrias (variando entre as possveis amostras) tanto quanto a estimativa pontual So, portanto, de fato, duas estatsticas amostrais, embora relacionadas entre si Muitas vezes e so definidos a partir da estimativa pontual 233
Intervalos de confiana
O valor 1 chamado de nvel de confiana do intervalo, representando a probabilidade de que o intervalo contenha o verdadeiro valor do parmetro sendo estimado Seu complemento, o valor , representa, assim, o risco de erro, a chance de que o parmetro populacional no esteja contido no intervalo
234
Testes de hipteses
Todos os testes de hipteses a respeito de parmetros populacionais seguem a mesma estrutura lgica Deseja-se testar o valor do parmetro populacional, , formulando-se uma hiptese nula 0 : = 0 Formula-se tambm uma hiptese alternativa, em geral a negao da hiptese nula 1 : 0
235
Testes de hipteses
Para testar 0 , toma-se uma amostra no viciada da populao, calculando-se uma estatstica de teste, ser interpretada como uma varivel aleatria (variando entre possveis amostras) Pode-se estudar seu comportamento e verificar algumas de suas caractersticas, especialmente sua relao com o parmetro testado, , assim como com o particular valor de teste, 0
236
valor
Em cada contexto, definida com base em alguma teoria que assegure o conhecimento de sua distribuio de probabilidades, pelo menos aproximadamente, sob 0 (isto , se 0 for verdadeira) Determina-se a probabilidade de a varivel aleatria ser to ou mais extrema quanto o valor encontrado na particular amostra investigada, Denota-se tal probabilidade por valor
237
Deciso estatstica
O valor pode ser utilizado para avaliar a plausibilidade de 0 , versus 1 Valores muito pequenos para o valor evidenciam que o valor da estatstica de teste, , encontrado na amostra improvvel sob 0 (se 0 fosse verdadeira), rejeitando-se, portanto, 0 Por outro lado, valores no to pequenos para o valor evidenciam que o valor de encontrado na amostra no to improvvel sob 0 (se 0 fosse verdadeira), aceitando-se, portanto, 0
238
Nvel de significncia
Nas cincias sociais aplicadas, utiliza-se em geral o valor limite = 0,05 para discernir o que pode ser considerado uma probabilidade pequena do que no uma probabilidade to baixa assim Assim, cria-se a regra emprica se valor , rejeita-se 0 ; se valor > , aceita-se 0 O valor limite, representado por , chamado de nvel de significncia do teste
239
241
Erros de deciso
Ao se reduzir o problema a apenas duas hipteses, 0 x 1 , esta representando a rejeio daquela, potencialmente enfrentamos dois tipos de erro em nossa deciso, que merecem ser distinguidos Tanto se pode rejeitar 0 indevidamente (erro tipo I) como se pode aceit-la incorretamente (erro tipo II) So os dois lados de uma deciso em ambiente de incerteza
242
243
Probabilidades de erros
Como se est diante de uma deciso sob incerteza, til associar probabilidades a cada um dos dois tipos de erros representa um limite para a probabilidade de erro do tipo I, isto erro tipo = rejeitar 0 0 Verdadeira Define-se = erro tipo = aceitar 0 0 Falsa
244
Probabilidades de erros
Estado da natureza 0 Verdadeira Aceita-se 0 Deciso Rejeita-se 0 0 0 0 Falsa
245
Probabilidades de erros
Inexoravelmente os dois erros esto ligados de uma maneira inversa (embora no linear), ou seja, se tentarmos diminuir , o valor se v aumentado, e vice-versa Dada a fora da hiptese inercial, o erro tipo I quase sempre considerado mais importante, de modo que nos preocupamos em avaliar precisamente, tanto quanto possvel, o valor , pois a deciso de aceitao ou no de 0 se dar com base neste valor, em comparao com o nvel de significncia do teste,
246
247
248
249
250
lim
=1
1 2
2 2
=1
=1
257
Testes de aderncia
Teste qui-quadrado de aderncia Teste de Kolmogorov-Smirnov (KS) Teste de Lilliefors de aderncia distribuio Normal
260
Tarefa extra-classe 6
1. Considere os dados relativos rentabilidade diria das aes preferenciais nominativas da Petrobrs apresentada no Exemplo 3 do Captulo 4 (primeiros valores de cada par de valores apresentados no Quadro 1 do Captulo 4). Considere que os 247 valores representam nossa populao de interesse.
1. 2. 3. Qual o valor da mdia da varivel na populao? Selecione aleatoriamente 200 amostras de tamanho 5; quais so os valores da mdia da varivel nas diferentes amostras colhidas? Represente as 200 mdias amostrais em um histograma; qual o valor da mdia das mdias? Selecione aleatoriamente 200 amostras de tamanho 10; quais so os valores da mdia da varivel nas diferentes amostras colhidas? Represente as 200 mdias amostrais em um histograma; qual o valor da mdia das mdias? Selecione aleatoriamente 200 amostras de tamanho 20; quais so os valores da mdia da varivel nas diferentes amostras colhidas? Represente as 200 mdias amostrais em um histograma; qual o valor da mdia das mdias? Qual dos valores o melhor estimador da mdia da populao? Por qu?
4.
5. 6. 7. 8.
261
262
263
264
Figura 29: Charge publicada no Chicago Tribune em 1987 Fonte: Arquivo pessoal do autor
265