Você está na página 1de 265

ADD010 - Mtodos Estatsticos

Joo Luiz Becker jlbecker@ea.ufrgs.br

Introduo
O que vem mente quando se pronuncia a palavra estatstica? Quando surgiram as primeiras manifestaes da estatstica? O que foi inventado primeiro: o nmero ou a escrita? Nmeros representam uma inveno cultural ao invs de algo inato na cognio humana
2

Introduo
Nmeros so produto de elevada abstrao, inventados para resolver problemas de ordem prtica Nmeros no so inatos, no nascem com as pessoas, temos que aprend-los, em um processo, s vezes rduo, de aculturao O salto da contagem qualitativa para a contagem quantitativa
3

Quanto andares tem o prdio abaixo?

Quanto andares tem o prdio abaixo?

Quanto andares tem o prdio abaixo?

Introduo
O processo de registro numrico surge da necessidade bsica de controle, de gerar estatsticas, como diramos hoje, dando ao ser humano informaes relevantes para seu dia a dia Cuidado com os neo-pitagricos!

Quando a estatstica emergiu como disciplina?


Quando a palavra estatstica foi criada? Estatstica como cincia que trata de dados sobre as condies de um estado Gottfried Aschenwall (1719-1772) ou comunidade de 1770 Para Aschenwall, a estatstica representa o conjunto de conhecimentos que um homem de estado deve possuir O significado mais amplo, de ramo da cincia que trata da coleo e classificao de dados numricos, de 1829
8

Introduo
O que estatstica?
Estatstica descritiva conjunto de mtodos e tcnicas utilizveis para avaliar as caractersticas exteriores de um conjunto de dados Estatstica inferencial conjunto de teoremas, modos de raciocnios e mtodos utilizados no tratamento e anlise de dados quantitativos, especialmente na relao entre amostras e populaes
9

Introduo
Papel dos computadores Dados multivariados Matriz de dados

10

Matriz de dados

11

Tarefa extra-classe 1
1. 2. Quais so as principais divises da estatstica? Descreva sucintamente a base de dados de alguma pesquisa em que voc est ou esteve recentemente envolvido.
1. 2. 3. 4. 5. Quais os propsitos da investigao? Quantos indivduos foram pesquisados? Como melhor descrev-los? Quantas variveis foram pesquisadas? Descreva-as brevemente.

3. 4.

Descreva alguma situao vivenciada em que argumentos no to lgicos tenham sido utilizados. Uma quantificao poderia ter ajudado a esclarecer a falta de lgica da argumentao? Descreva alguma situao vivenciada em que argumentos quantitativos tenham sido erroneamente utilizados. Como escapar de exageros na argumentao quantitativa?
12

Variabilidade e informao

13

Variabilidade e sua mensurao


A busca de conhecimento passa necessariamente pelo reconhecimento de variabilidades imperativo represent-las adequadamente, utilizando o que passou a se chamar escalas de mensurao, classificadas em nveis hierrquicos

14

Variabilidade no mtrica
Escala nominal (ou categrica)
Corresponde a classes de equivalncia em uma relao de equivalncia
A equivalente a A; se A equivalente a B e B equivalente a C, ento A equivalente a C; e se A equivalente a B ento B equivalente a A

A distinguir:
dicotmica com mais de duas categorias
15

Variabilidade no mtrica
Escala ordinal
Corresponde a classes de equivalncia em uma relao de equivalncia ordenadas segundo uma relao de ordem completa
A maior ou igual a A; se A maior ou igual a B e B maior ou igual a C, ento A maior ou igual a C; se A maior ou igual a B e B maior ou igual a A, ento A e C so iguais; e ou A maior ou igual a B ou B maior ou igual a A
16

Variabilidade mtrica
Escala intervalar
O zero da escala arbitrrio A intervalos iguais na escala correspondem diferenas iguais no fenmeno mensurado No h sentido para expresses do tipo a medida foi aumentada em 20%

Exemplo notvel
Escalas Likert
17

Rensis Likert (1903-1981)

Variabilidade mtrica
Escala de razo
o zero da escala absoluto (ausncia da caracterstica mensurada) a propores (razes) iguais na escala correspondem propores iguais no fenmeno mensurado

Tipos principais
Originrias de um processo de contagem Originrias de comparaes com uma unidade tomada como padro

Outras escalas
18

Em concluso
A variabilidade pode ser capturada de distintas maneiras H um sentido hierrquico entre as escalas
Uma escala de razo tambm preserva intervalos Uma escala intervalar tambm preserva a ordem Uma escala ordinal tambm distingue categorias A escala mais elementar a nominal dicotmica

Sempre se pode reduzir o nvel de mensurao desprezando-se informaes


19

Processo de mensurao
Variabilidades reais imaginadas existirem nos fenmenos reais

Efeitos percebidos efetivamente

Desenvolvimento de escalas

20

Instrumentos de mensurao
Instrumentos medem efeitos Fidedignidade dos instrumentos
Teoria de erros = +
2 2

Fidedignidade =

Validade dos instrumentos

Estimativas de fidedignidade (coeficiente de Cronbach) 2 =1 = 1 2 1

21 Lee Joseph Cronbach (1916-2001)

Dados e informao

22

Amostras e populaes
Representatividade Consistncia Presuno de representatividade

23

Matriz de dados
11 21 = 1 = 1 12 22 2 2 1 2

1 = 2 , onde = 1

1 2 , onde = 2

24

Tarefa extra-classe 2
1. 2. 3. 4. Defina os termos amostra e populao. Quais so as principais razes da amostragem? Para ser til, que caracterstica deve ter uma amostra? Classifique os seguintes conjuntos de dados (quanto ao nvel de mensurao):
1. 2. 3. 4. 5. 6. nmero semanal de acidentes em uma dada empresa; tamanhos de camisa em um mostrurio; tenso de rompimento de fibras de l (em quilos); nmero dirio de empregados ausentes; percentagem de tanques de combustvel com vazamentos atravs de seus pontos de solda; estado civil de funcionrios de uma empresa.

25

Tarefa extra-classe 2 (cont.)


5. Escolha um banco de dados qualquer e classifique os dados nele constantes quanto aos nveis de mensurao.
1. 2. 3. 4. H dados coletados com nvel de mensurao nominal? Quais? Quantas categorias possveis? Quais categorias? H dados coletados com nvel de mensurao ordinal? Quais? Quantas categorias possveis? Quais categorias? H dados coletados com nvel de mensurao intervalar? Quais? So utilizadas escalas discretas ou contnuas? H dados coletados com nvel de mensurao de razo? Quais? So utilizadas escalas discretas ou contnuas?

6. Como o conceito de fidedignidade de um instrumento se distingue do conceito de validade de um instrumento? So conceitos completamente independentes?

26

Tarefa extra-classe 2 (cont.)


7. Considere um instrumento de medida com o qual voc esteja familiarizado. Tendo como pano de fundo a representao esboada na Figura 10, analise o correspondente processo de instrumentao. 8. (Adaptado de Mendenhall, 1990) Uma companhia fabricante de fast-food quer saber quanto o pblico (16 anos ou mais) gastar em lanches rpidos na primeira semana de um ms.
1. Descreva a populao de interesse para a companhia. 2. Explique como a empresa poderia obter a informao desejada.
27

Tarefa extra-classe 2 (cont.)


9. Em um estudo mercadolgico realizado em Porto Alegre, entrevistaram-se 200 clientes de um supermercado para determinar se eles preferiam escutar msica ambiental enquanto realizavam suas compras.
1. 2. 3. Descreva a populao e a amostra associada a tal pesquisa. Seria possvel entrevistar toda a populao se quisssemos? Explique. A percentagem de clientes da amostra que preferem msica de fundo ao comprar ser igual percentagem de clientes da populao com a mesma preferncia? Explique.

10. O que uma amostra representativa da populao? Como saber se uma amostra representativa da populao?

28

Tarefa extra-classe 2 (cont.)


11. Em uma crnica publicada no Caderno Donna ZH, a cronista inicia mencionando:
Passei alguns dias em Curitiba a trabalho e, nas rpidas andanas pelas redondezas do hotel, observei pequenas coisas. Curitiba muito mais limpa que Porto Alegre. Mas muito mais limpa mesmo, at porque cultiva a fama de ser uma cidade ecolgica. Curitiba tambm mais barata que Porto Alegre. A comida, o transporte, o bsico e o nem tanto, existe diferena para menos em quase tudo. (Tajes, 2012, p.26).

1. Comente sobre a representatividade da amostra utilizada para embasar as concluses da cronista. 2. Como voc conduziria um estudo mais rigoroso para sustentar (ou no?) as concluses da cronista?

29

Descrio monovariada de dados categricos


Distribuio de frequncias das categorias

30

Descrio monovariada de dados categricos


Grfico de pizza
Distribuio dos respondentes segundo o local de trabalho ( n=410) 10% 21%

14% 1 direo geral 2 superintend. 3 agncias 4 rgos regionais

55%

31

Descrio monovariada de dados categricos


Grfico de barras
Distribuio dos respondentes segundo o local de trabalho ( n=410) 60,0% 55,1% 50,0%

40,0%

30,0% 21,0% 20,0%

13,9%
10,0% 10,0%

0,0% 1 direo geral 2 superintend. 3 agncias 4 rgos regionais

32

Importante
Em tabelas e grficos de percentuais deve-se sempre mencionar o nmero de elementos na amostra O nmero de categorias no deve ser excessivo

33

Nmero excessivo de categorias

34

Descrio monovariada de dados categricos


Medidas descritivas: limitadas a percentuais em cada categoria Moda categoria mais frequente

35

Descrio monovariada de dados mtricos


Distribuio de frequncias
Algumas arbitrariedades
Categorizao da escala Quantos intervalos? Onde iniciar?

36

Descrio monovariada de dados mtricos


Histograma

37

Descrio monovariada de dados mtricos


Moda intervalo mais frequente
dependente da classificao realizada

Notao

1 2 = =
=1

Mdia

38

Descrio monovariada de dados mtricos


Varincia

2 =
Desvio-padro =

=1


=1

2 =

39

Descrio monovariada de dados mtricos


Coeficiente de variao (para 0) = Padronizao de dados

Momento central de ordem k =1 =

para = 1, ,

40

Propriedades
+ = + 2 = 2 2 + 2 = 2 = =
+

+ = = 0 2 = 1

41

Descrio monovariada de dados mtricos


Coeficiente de assimetria

3 = 3 =

=1

42

Descrio monovariada de dados ordinais


Distribuio de frequncias Histograma e grfico de barras Medidas descritivas:
Mnimo Mximo Amplitude (para dados mtricos) Mediana Quartis, percentis Amplitude interquartlica (para dados mtricos)
43

Descrio monovariada de dados mtricos


Grfico-caixa

John Wilder Tukey (1915-2000)

Identificao de outliers Winsorizao


44

Tarefa extra-classe 3
1. Construa a distribuio de frequncia e o histograma do seguinte conjunto de dados (tenso de rompimento de fibra de l, medido em quilos). 66 92 99 94 117 137 85 105 132 91 95 103 111 84 89 96 107 96 102 100 85 97 100 101 89 100 98 98 79 105 97 97 91 104 104 97 97 137 114 101 138 80 111 102 103 104 98 98 111 104 99 94 86 106 102 100 78 84 91 98 96 92 95 99 93 86 111 92 101 104 104 102 102 132 97 87 110 94 98 99 95 99 102 62 96 102 109 92 88 101 88 100 122 104 91 96 115 107 103 98
1. 2. 3. 4. 5. 6. 7. 8. Calcule a mdia. Determine a mediana. Calcule o desvio-padro. Qual o intervalo modal? Calcule a amplitude. Calcule o desvio absoluto mdio. Calcule a amplitude inter-quartlica. A distribuio simtrica?

45

Tarefa extra-classe 3 (cont.)


2. Se uma distribuio tem dois picos, o maior deles a moda? O que voc faria se encontrasse uma distribuio com dois picos? 3. Seguem-se quatro conjuntos de mensuraes (em mm): 106,2 105,9 105,8 106,1 105,9 107,1 106,4 105,9 106,5 106,2 106,5 106,4 106,5 106,3 105,8 106,6 106,7 106,3 106,9 106,4
1. 2. 3. Calcule a mdia de cada conjunto. Calcule a mdia de todas as 20 observaes. Calcule a mdia das quatro mdias grupais. Como esta se compara com a mdia j calculada anteriormente?

46

Tarefa extra-classe 3 (cont.)


4. 5. 6. 7. A mdia (em geral) pode ser zero? Pode ser negativa? Explique. A mediana (em geral) pode ser zero? Pode ser negativa? Explique. Quando a mediana melhor do que a mdia para caracterizar um determinado grupo de medidas? Calcule o desvio-padro de:
1. 2. 3. 4. 5. 5 6 4 2 7 105 106 104 102 107 1050 1060 1040 1020 1070 0,05 0,06 0,04 0,02 0,07 Compare os resultados. Se o desvio-padro de , qual o desvio-padro de + , onde uma constante? Qual o desviopadro de ?

8.

O desvio-padro (em geral) pode ser zero? Pode ser negativo? Explique.
47

Tarefa extra-classe 3 (cont.)


9. Porque um gerente necessitaria (gostaria de) conhecer a variabilidade das vendas dirias dos produtos sob sua responsabilidade gerencial? 10. Para uma faco interessada no grosso do mercado de roupas masculinas, no interessada no mercado dos muito pequenos nem dos muito grandes (em altura), que medidas descritivas de alturas da populao ela mais precisaria conhecer?
48

Tarefa extra-classe 3 (cont.)


11.Escolha um banco de dados qualquer em que voc esteja interessado.
1. Escolha duas variveis categricas e faa um resumo estatstico de cada uma delas. 2. Escolha duas variveis ordinais e faa um resumo estatstico de cada uma delas. 3. Escolha duas variveis intervalares e faa um resumo estatstico de cada uma delas. 4. H algum outlier entre os dados analisados? Em caso afirmativo, corrija a situao e refaa os resumos estatsticos. Qual a correo proposta?
49

Descrio bivariada de dados categricos


Tabela de contingncia

50

Descrio bivariada de dados categricos


Matriz de correspondncia

Perfis de linhas Perfis de colunas


51

Descrio bivariada de dados categricos


0,317 0,421 Perfis de linhas: 0,396 0,398 0,683 0,579 0,604 0,602

0,082 0,151 Perfis de colunas: 0,560 0,208

0,113 0,134 0,551 0,202


52

Descrio da relao entre uma varivel categrica e uma mtrica


As categorias da varivel categrica segmentam a amostra, definindo consequentemente tantas sub-amostras quantas categorias existirem Os dados so analisados utilizando-se os procedimentos descritivos monovariados em cada sub-amostra, tomados conjuntamente

53

Descrio da relao entre uma varivel categrica e uma mtrica


Distribuies de frequncias

54

Descrio da relao entre uma varivel categrica e uma mtrica


Histogramas

55

Descrio da relao entre uma varivel categrica e uma mtrica


Medidas descritivas

56

Descrio da relao entre uma varivel categrica e uma mtrica


Grficos-caixa

57

Descrio bivariada de dados mtricos


Diagrama de disperso

58

Descrio bivariada de dados mtricos


Covarincia
=1

=
Propriedades

= 2 + 2 = 2 + 2 + 2 = , onde =

59

Descrio bivariada de dados mtricos


Coeficiente de correlao linear de Pearson

desde que 0 e 0

Propriedades
1 +1

Karl Pearson (1857-1936)

60

Descrio bivariada de dados mtricos: anlise de regresso


Trata-se de uma tcnica fundamental em anlise de dados, servindo como referncia para outras tcnicas Tem origem nos trabalhos de Galton em 1886 Busca explicar a variabilidade de uma varivel (chamada dependente) pelas variabilidades de outras variveis (chamadas independentes) Deve ser observado que o conceito de explicao ou de dependncia meramente informacional, no constituindo prova irrefutvel de relao de causa e efeito
61 Francis Galton (1822-1911)

Anlise de regresso: objetivos


Determinar a forma da relao entre as variveis (uma equao matemtica) Verificar hipteses deduzidas de alguma teoria analisada Prever valores para a varivel dependente a partir das variveis independentes, realizando simulaes

62

Equao de regresso
Genericamente, a relao matemtica entre as variveis expressa por = (), onde representa a varivel dependente e = 1 2 um vetor de variveis independentes Se = 1, o modelo dito modelo de regresso simples, se > 1, dito modelo de regresso mltiplo Se uma funo linear, o modelo dito modelo de regresso linear (simples ou mltiplo)
63

64

65

66

67

Regresso linear simples


A equao de regresso linear simples toma a forma = + Ou alternativamente, considerando cada observao individualmente = + , para = 1, , . A constante chamada de coeficiente linear, ou termo independente, e a constante chamada de coeficiente angular
68

Regresso linear simples


Em um sentido emprico, a relao raramente exata, tratando-se em geral de uma aproximao da realidade (uma modelagem), em que outras variveis de importncia menor talvez tenham sido omitidas

69

Regresso linear simples


A equao, portanto, merece ser escrita como = + + , para = 1, , , Ou, em termos matriciais = + +
( representa um vetor de erros) ( representa um termo de erro associado -sima observao)

O problema fundamental da anlise de regresso simples consiste em estimar, a partir de observaes empricas, os valores dos coeficientes e
70

Regresso linear simples


Se a relao de dependncia entre as variveis fosse exata, todas as observaes se alinhariam perfeitamente Neste caso = 0 para = 1, , (ou seja, = ), e as estimativas mais adequadas (e bvias) para e seriam, respectivamente, a ordenada na origem da reta e a tangente trigonomtrica do ngulo da reta com o eixo horizontal
71

Regresso linear simples


Na prtica emprica, entretanto, raramente observa-se uma relao to perfeita, de modo que em geral as observaes no estaro perfeitamente alinhadas, mas formaro uma nuvem de pontos conveniente, pois separarmos os valores das observaes do vetor em duas componentes, uma, exata, dada pela equao, e outra, varivel, dada pelo vetor no nulo de erros
72

Regresso linear simples


A parte exata receber o nome de estimativa de a partir da equao, sendo simbolizada por , e a equao pode ser reescrita como = + Em termos das observaes individuais, teramos ento = + + = + , para = 1, , Ou ainda, enfatizando os termos de erros individuais = = + =
73

Estimao dos coeficientes


Nosso problema atribuir valores para e de modo que a reta terica se ajuste aos pontos , da melhor forma possvel O critrio de escolha dos coeficientes mais utilizado o critrio dos mnimos quadrados, atribudo a Gauss, que o teria desenvolvido no contexto de avaliao de erros de mensuraes astronmicas
Johann Carl Friedrich Gauss (1777-1855)
74

Estimao dos coeficientes


O problema pode ser matematicamente estruturado da seguinte forma genrica
fixados valores de e dos pares ordenados , , para = 1, , , quais so os valores de e que minimizam a expresso

, =
=1

=
=1

Trata-se, portanto, de um problema de minimizao de uma funo real (quadrtica) de duas variveis reais
75

Estimao dos coeficientes


Como a funo quadrtica diferencivel em seu domnio, a soluo para o problema envolve as derivadas parciais da funo (, ) em relao a cada uma de suas variveis, e , buscando-se valores que anulem tais derivadas

76

Estimao dos coeficientes


Feitas as devidas derivaes, buscam-se valores e que satisfaam equao matricial

=1

2
=1

=1


=1
77

=1

Estimao dos coeficientes


E a soluo
1

=1

=1


=1

=1 =1

78

Forma normal
Formando-se a matriz 1 1 = 1 A equao de soluo equivalente a T = T Cuja soluo 1 T T =
79

Soluo analtica
= 2 = = Para dados padronizados (isto com mdias nulas e desvios-padres iguais unidade), a reta de regresso passa pela origem com inclinao igual ao coeficiente de correlao de Pearson, isto , = 0 e = .
80

Algumas propriedades interessantes


= + Uma parcela da variabilidade de explicada pela variabilidade de uma funo linear de (de acordo com a reta de regresso) e outra parcela, no explicada pela funo linear de , atribuda a erros do modelo Coeficiente de determinao A equao equivalente a 2 2 =1 =1 1 = + 2 2 =1 =1
81

=1

=1

2 =1

Algumas propriedades interessantes


O coeficiente de determinao (geralmente expresso em percentual) representa a parte da variabilidade da varivel dependente () explicada pela varivel independente (), segundo um modelo linear Coeficiente de determinao = 2 A reta de regresso passa no centro geomtrico dos dados, isto , passa no ponto de coordenadas , =1 = 0 = 0
82

Descrio bivariada de dados ordinais


Coeficientes de correlao ordinais
Coeficiente de correlao de Spearman Coeficiente de correlao de Kendall

Utilizam-se tambm as tcnicas para analisar variveis categricas, com tabelas de contingncia, mais populares e de maior apelo informacional, ignorando, de certa forma, a caracterstica ordinal dos dados
83

Coeficiente de correlao por postos de Spearman


O coeficiente de correlao por postos de Spearman entre duas variveis, e , igual ao coeficiente de correlao de Pearson entre os postos relativos dos valores das duas variveis 2 =1 = 1 6 2 1 Ateno para as observaes empatadas!
Charles Edward Spearman (1863-1945)
84

Coeficiente de correlao por postos de Kendall


O coeficiente de correlao ordinal de Kendall entre duas variveis, e , denotado por , determinado contabilizando-se a diferena entre concordncias e discordncias nas ordenaes dos objetos com respeito a cada uma das variveis e , normalizando-se pelo total de comparaes possveis = 1 2
Maurice George Kendall (1907-1983)
85

Descrio da relao entre uma varivel categrica e uma ordinal


A variabilidade conjunta entre uma varivel categrica e uma varivel mensurada em escala ordinal analisada de forma semelhante ao que se faz para analisar a relao entre uma varivel categrica e uma varivel mtrica, isto , comparamse as distribuies da varivel ordinal nas subamostras representadas pelas categorias da varivel categrica Alternativamente, podem-se utilizar as tcnicas sugeridas para analisar duas variveis categricas, tratando a varivel ordinal como se categrica fosse
86

Descrio da relao entre uma varivel ordinal e uma mtrica


A variabilidade conjunta entre uma varivel ordinal e uma varivel mtrica pode ser realizada utilizando-se as mesmas tcnicas descritas para analisar a variabilidade conjunta de duas variveis ordinais Alternativamente, pode-se degradar a informao contida na ordenao da varivel ordinal, tratando-a como se categrica fosse
Neste caso, as tcnicas descritas para analisar a relao entre uma varivel categrica e uma mtrica podem ser todas aplicadas.
87

Tarefa extra-classe 4
Escolha um banco de dados qualquer em que voc esteja interessado. Para a realizao dos exerccios propostos a seguir recomendvel a utilizao de alguma planilha de clculo ou algum pacote estatstico. 1. Escolha duas variveis categricas do banco de dados e faa uma anlise relacionando as informaes existentes. H algum outlier entre os dados analisados? Em caso afirmativo, corrija a situao e refaa a anlise. Qual a correo proposta? H necessidade de reagrupar categorias? 2. Repita o exerccio anterior para outro par de variveis categricas.
88

Tarefa extra-classe 4 (cont.)


3. Escolha uma varivel categrica e uma varivel mtrica do banco de dados e faa uma anlise relacionando as informaes existentes. H algum outlier entre os dados analisados? Em caso afirmativo, corrija a situao e refaa a anlise. Qual a correo proposta? H necessidade de reagrupar categorias? 4. Repita o exerccio anterior para outro par de variveis (uma categrica e outra mtrica).
89

Tarefa extra-classe 4 (cont.)


5. Escolha duas variveis mtricas do banco de dados e faa uma anlise relacionando as informaes existentes. H algum outlier entre os dados analisados? Em caso afirmativo, corrija a situao e refaa a anlise. Qual a correo proposta? 6. Repita o exerccio anterior para outro par de variveis mtricas.
90

Tarefa extra-classe 4 (cont.)


7. Escolha duas variveis ordinais do banco de dados e faa uma anlise relacionando as informaes existentes. H algum outlier entre os dados analisados? Em caso afirmativo, corrija a situao e refaa a anlise. Qual a correo proposta? 8. Repita o exerccio anterior para outro par de variveis ordinais.
91

Tarefa extra-classe 4 (cont.)


9. Escolha uma varivel categrica e uma varivel ordinal do banco de dados e faa uma anlise relacionando as informaes existentes. H algum outlier entre os dados analisados? Em caso afirmativo, corrija a situao e refaa a anlise. Qual a correo proposta? H necessidade de reagrupar categorias? 10.Repita o exerccio anterior para outro par de variveis (uma categrica e outra ordinal).
92

Tarefa extra-classe 4 (cont.)


11.Escolha uma varivel ordinal e uma varivel mtrica do banco de dados e faa uma anlise relacionando as informaes existentes. H algum outlier entre os dados analisados? Em caso afirmativo, corrija a situao e refaa a anlise. Qual a correo proposta? 12.Repita o exerccio anterior para outro par de variveis (uma ordinal e outra mtrica).
93

Incerteza e sua mensurao

94

Incerteza e sua mensurao


A incerteza uma propriedade do nosso conhecimento a respeito dos eventos, e no dos eventos em si Todas as incertezas so intrinsecamente do mesmo tipo. Probabilidades so nmeros que inventamos para nos ajudar a mensurar incertezas Auxiliam a decidir quando nos vemos diante de eventos incertos
95

Bases para estimativa de probabilidades


Pressupostos tericos: a moeda tem duas faces, equilibrada perfeitamente, logo, a chance de cair com a face cara para cima de 50% Frequncia relativa: jogamos vrias vezes um percevejo para cima e observamos como ele cai ao solo, se com a ponta para cima ou no; logo, estima-se que a chance de cair com a ponta para cima de ... Simetria: so dez os dgitos decimais, e o dgito 1 apenas um deles, logo a chance de o 100.000o dgito de ser 1 de 10% Informaes disponveis: a situao scio-econmica de Moambique tal, sua histria qual, uma nica central telefnica contm 10.000 linhas, etc., logo a chance de haver mais de 10.000 telefones residenciais em Maputo de ... 96

Bases para estimativa de probabilidades


E, em ltima instncia, em julgamentos pessoais a respeito dos eventos e seu entorno
O pressuposto terico adequado ao presente caso, ou no? A frequncia relativa pode ser generalizada, ou no? A simetria pertinente ou no? As informaes so confiveis ou no?

Muitas vezes vrias destas bases so utilizadas simultaneamente, havendo alguma redundncia entre elas.
97

O sbio e o tolo
Sabes qual o grande mal deste mundo?, pergunta o filsofo ao estpido No, qual ?, pergunta o estpido O grande mal que os parvos tm certezas, e os sensatos tm dvidas ... , filosofa o filsofo Mas tens mesmo certeza?, interrompe o estpido Claro que tenho!, responde o filsofo.

98

Modelagem determinista
Com base em observaes e experimentao, a cincia chega a leis que governam o curso dos fenmenos, chamados de modelos causais deterministas So ditos deterministas porque o conhecimento das causas determinam integralmente os efeitos Em tais modelos, um dado de entrada (input) produzir sempre o mesmo resultado (output) Usam-se quantificadores como sempre e nunca, com uma linguagem de certeza absoluta
99

Modelagem determinista
O esquema mais elementar e difundido de expresso de regularidade (leis universais)
Em qualquer realizao de um conjunto (em geral complexo) de condies , o evento ocorre

100

Exemplos
A gua pura, a uma presso atmosfrica (760 mm Hg), aquecida acima de 100C (conjunto de condies ), transforma-se em vapor (evento ) Para qualquer reao qumica sem trocas com o meio externo (conjunto de condies ), a quantidade total de matria permanece constante (evento ) lei de conservao da matria ...
101

Tipologia de eventos
Eventos certos, eventos impossveis e eventos aleatrios As definies subordinam-se a um conjunto de condies rotuladas pelo smbolo Muitas vezes estas condies so tomadas implicitamente em nossas expresses
Perigo de interpretaes dbias

102

Modelagem estocstica
Para vrios fenmenos, entretanto, pode-se no somente estabelecer a aleatoriedade do evento , mas tambm uma estimativa quantitativa da possibilidade de sua ocorrncia. O esquema mais elementar e difundido de regularidade (leis universais) estendido ento para
A probabilidade de que o evento ocorra quando da realizao de um conjunto de condies igual a
103

Exemplo
No h como prever se um determinado tomo de rdio decair em um determinado intervalo de tempo ou no, mas possvel, com base em resultados experimentais, determinar a probabilidade de tal decaimento
Um tomo de rdio decai em um intervalo de tempo de anos com uma probabilidade = 1 0,000433
104

Exemplo
O conjunto de condies estabelece que o tomo de rdio no esteja sujeito a aes externas no usuais, como bombardeamento com partculas em alta velocidade Suas condies de existncia no importam: em que meio ele se encontra, que temperatura ele tem, etc. O evento consiste no fato de que o tomo decair no intervalo de tempo de anos.
105

Outro exemplo
No h como prever se uma particular central telefnica receber uma chamada em um determinado intervalo de tempo ou no, mas possvel, com base em observaes sistemticas, estimar a probabilidade de tal evento
Teoriza-se que uma central telefnica receber uma chamada em um intervalo de tempo de segundos com uma probabilidade = 1 (cada central telefnica possui um valor para o parmetro )
106

Outro exemplo
O conjunto de condies estabelece que a central telefnica esteja sujeita a aes externas usuais, como hbitos e tamanho da populao usuria estveis, canais de acesso em perfeito funcionamento, etc. O evento consiste no fato de que a central telefnica receber uma chamada no intervalo de tempo de segundos.
107

Crditos
A ideia de que a probabilidade de um evento aleatrio , sob condies conhecidas, admite uma avaliao quantitativa = (), que hoje nos parece to natural, foi formalizada no sculo 17, muito embora o interesse pelo assunto por certo se perca no tempo A formalizao terica est documentada em uma troca de correspondncias entre o advogado e matemtico amador francs Pierre de Fermat (1601-1665) e o matemtico francs Blaise Pascal (1623-1662), debruados sobre um problema prtico envolvendo jogos de azar
Pierre de Fermat (1601-1665)
Blaise Pascal(1623-1662)
108

Crditos
Luca Bartolomeo Pacioli (1445-1517) Niccol Fontana Tartaglia (1499-1557) Girolamo Cardano (1501-1576) Giovanni Francesco Peverone (1509-1559) Galileo Galilei (1564-1642) Antoine Gombaud (1607-1684) - Chevalier de Mr John Graunt (1620-1674) Johan de Witt (1625-1672) Christiaan Huygens (1629-1695) Gottfried Leibniz (1646-1716) Jac Bernoulli (1654-1705) Edmond Halley (1656-1742) Abraham de Moivre (1667-1754)
109

Crditos
Pierre Rmond de Montmort (1678-1719) Nicolau Bernoulli (1687-1759) Thomas Bayes (1701-1761) Giuseppe Lodovico (Luigi) Lagrangia (1736-1813) Pierre Simon de Laplace (1749-1827) Carl Friedrich Gauss (1777-1855) Simon-Denis Poisson (1781-1840) Augustus de Morgan (1806-1871) Pafnuty Lvovich Chebyshev (1821-1894) Andrei Andreevich Markov (1856-1922) Alexandr Mikhailovich Lyapunov (1857-1918) Werner Heisenberg (1901-1976) Andrey Nikolaevich Kolmogorov (1903-1987)
110

Modelagem informacional
Pode-se generalizar a interpretao da modelagem no determinista, aplicando-se as mesmas ideias a situaes envolvendo incertezas a respeito da veracidade de afirmaes, estimando-se quantitativamente a possibilidade de sua veracidade com base em informaes disponveis O esquema pode ento ser estendido para
A probabilidade de que a afirmao A seja verdadeira, considerando um conjunto de informaes igual a
111

Modelagem informacional
Passa-se a tratar probabilidade subjetivamente, como um grau de crena, na acepo de Poisson e de de Morgan

Simon Denis Poisson (1781-1840)

Augustus de Morgan (1806-1871)

112

Modelagem informacional
A probabilidade de um evento a razo que temos de crer que ele ocorrer ou que ele ocorreu A probabilidade depende dos conhecimentos que temos sobre um evento; ela pode ser diferente para um mesmo evento e para diversas pessoas. (Poisson, 1837, p. 30)
113

Modelagem informacional
Por grau de probabilidade ns efetivamente queremos dizer, ou deveramos querer dizer, grau de crena Eu considero a palavra (probabilidade) como significando o estado de esprito com respeito a uma assero, um evento futuro, ou qualquer outro assunto sobre o qual o conhecimento absoluto no existe (de Morgan, 1847, p. 172-173)
114

lgebra de eventos
A relao uma relao de ordem parcial no conjunto de eventos, pois a relao
Reflexiva Anti-simtrica Transitiva

A relao = uma relao de equivalncia no conjunto de eventos, pois a relao


Reflexiva Simtrica Transitiva
115

Operaes entre eventos


Produto de eventos Soma de eventos Diferena entre eventos Eventos complementares Excluso mtua Decomposio de eventos Eventos elementares
116

Propriedades
+ = + = + + = + + = + = + + = + + + = =
117

Propriedades
se ento + = e = . + = + = = = + = = + =
118

Formalizao da teoria
Todo problema em teoria da probabilidade envolve um determinado conjunto de condies e uma determinada famlia de eventos que podem ocorrer ou no a cada realizao do conjunto de condies Estaremos particularmente interessados em um conjunto (um espao) de eventos elementares (isto , que no possam ser decompostos) e uma famlia de subconjuntos de que seja fechado s operaes de produto, soma e diferena ser chamado de campo de eventos
119

Campo de eventos
Para quaisquer pares de eventos pertencentes ao campo de eventos , digamos e , temse que os eventos , + e tambm pertencem a Qualquer campo no vazio de eventos, isto com pelos menos um elemento, contm o evento impossvel, pois = para qualquer evento
120

-lgebra de eventos
Chama-se -lgebra de eventos ao campo de eventos que contenha o evento certo e for fechado s operaes de produto e de soma de infinitos eventos Ou seja, exige-se que , assim como e =1 =1 para quaisquer eventos .

121

Axiomas (Gnedenko, 1969)


[A1] existncia
Associado a cada evento na -lgebra de eventos , existe um nmero no negativo ()

[A2] normalizao
() = 1

[A3] -aditividade
Para eventos na -lgebra de eventos , se = =1 e = para , ento = =1
122

Forma equivalente (Kolmogorov, 1933)


[A1] existncia
Associado a cada evento na -lgebra de eventos , existe um nmero no negativo ()

[A2] normalizao
() = 1

[A3B] continuidade
Para uma sequncia decrescente de eventos na lgebra de eventos , isto , com 1 2 , se =1 = ento lim = 0

123

Alguns teoremas
= 1 () = 0 0 1 = + () se ento () () + = + () + + = ()
124

Probabilidade condicional
Em vrias situaes til avaliar a probabilidade de um evento considerada a informao adicional (em relao ao conjunto de condies ) de que outro evento tenha ocorrido Denota-se tal avaliao por Com 0, define-se = Se = 0, indefinido
125

Probabilidade condicional
Fixado um evento , com 0, a avaliao probabilstica dos demais eventos condicionada ocorrncia do evento equivale a redefinir o evento certo na lgebra de eventos, restringindo-o ao evento (pois o evento ocorreu, esta a informao disponvel) fcil ver que a definio de probabilidade condicional satisfaz todos os axiomas da teoria da probabilidade Nestes termos, todos os teoremas e propriedades de probabilidades podem ser estendidos s probabilidades condicionais
126

Mais alguns teoremas


= 1 2 = 1 2 1 3 1 , 2 1 , 2 , , 1
= () = =1

=1

127

Independncia entre eventos


Diz-se que os eventos e so independentes se = () Se () 0, a equao =

reduz a (|) = (), que pode ser interpretada como se ocorrncia do evento (mais genericamente, se a informao acerca de sua ocorrncia) no altera a probabilidade do evento
128

se

Independncia entre eventos


A relao de independncia entre dois eventos estende-se aos seus eventos complementares e so independentes de quaisquer outros eventos um dos problemas mais importantes da filosofia das cincias naturais alm do bem conhecido problema a respeito da essncia do prprio conceito de probabilidade estabelecer com preciso as premissas que torne possvel caracterizar quaisquer eventos reais como independentes (Kolmogorov, 1956, p. 9)
Andrey Nikolaevich Kolmogorov (1903-1987)
129

Independncia ser sempre assumida como premissa


Ao aplicar a teoria da probabilidade, raramente provamos matematicamente que dois eventos so independentes O caminho bem ao inverso, ou seja, assumese que dois eventos so independentes e passa-se a aplicar as equaes correspondentes, que simplificam sobremaneira os clculos probabilsticos
130

Independncia ser sempre assumida como premissa


A teoria em si, com toda a sofisticao da construo matemtica de seus axiomas e teoremas, no tem condies de criticar tal suposio, pois tal suposio no abrangida em sua episteme Esta ser sempre uma avaliao qualitativa, portanto subjetiva, com implicaes quantitativas
131

Tarefa extra-classe 5
1. Dada a tabela abaixo, determine:
FABRICANTE

TIPOS DE DEFEITOS
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
e

DEFEITO GRANDE DEFEITO PEQUENO DEFEITO LEVE SEM DEFEITOS TOTAL

X 250 400 450 3800 4900

Y 150 350 500 2100 3100

Z 100 250 550 1100 2000

TOTAL 500 1000 1500 7000 10000

132

Tarefa extra-classe 5 (cont.)


2. Os seguintes resultados referem-se produo semanal de duas equipes de operrios: EQUIPE N DE DEFEITOS N DE PERFEITOS A 142 564 B 86 306 Voc poderia inferir a partir desses dados que a probabilidade de produo de uma pea defeituosa independente da equipe de produo? Justifique sua resposta. Joo e Jos acham uma moeda na rua. Um rpido exame revela que a moeda sofreu alteraes em sua forma, de modo que uma face parece ser mais provvel de cair para cima do que a outra, se a moeda for jogada para o ar. Joo decide verificar, e lana a moeda 40 vezes para o ar, obtendo cara 23 vezes. Em seguida, Jos a lana 50 vezes para o ar, obtendo cara 26 vezes. Qual das estimativas de probabilidade mais confivel? Por qu? Qual a sua estimativa?
133

3.

Variveis aleatrias
Intuitivamente, pode-se pensar que uma varivel aleatria to somente uma medida numrica associada a eventos aleatrios FDA funo distribuio acumulada
= ()

Exemplo
Distribuio binomial

134

Variveis aleatrias
Propriedades das FDA
1 < 2 = 2 1 A FDA de uma varivel aleatria uma funo no decrescente 0 () 1

Variveis aleatrias podem ser


Discretas Contnuas
135

Variveis aleatrias
Qualquer descrio de uma varivel aleatria da qual se possa obter sua FDA chamada uma lei de distribuio Variveis discretas: = ( = ) Exemplo
Distribuio binomial

136

Variveis aleatrias discretas


Outros exemplos
Distribuio de Poisson

Distribuio uniforme

137

Variveis aleatrias
Variveis contnuas

A funo () chamada de funo densidade de probabilidades (fdp) da varivel aleatria Exemplo


Distribuio Normal padro
138

Variveis aleatrias
Propriedades das fdp
Se a FDA de diferencivel, = () 0, para qualquer valor de
1 < 2 =
2 1

= 1

139

Variveis aleatrias contnuas


Outro exemplo
Distribuio uniforme

Suas FDA so contnuas

140

Variveis aleatrias
Distribuies condicionais Distribuies multidimensionais
FDA e fdp Distribuies marginais Exemplo
Distribuio Normal bivariada

Independncia

141

Variveis aleatrias
Valor esperado

()

Para variveis discretas, a equao se reduz a

=
=1

Para variveis contnuas, a equao se reduz a =

142

Exemplos
Se distribuda Normalmente (distribuio Normal padro), ento = 0 Se distribuda uniformemente no intervalo + , , ento = Se se distribui segundo uma distribuio de Poisson, ento = Se se distribui segundo uma distribuio Binomial, com parmetros e , ento =
143

Propriedades do valor esperado


= (1 + 2 + + ) = (1 ) + (1 ) + + ( ) Se e so independentes, ento () = ()() () = () Se () uma funo real de varivel real contnua, ento = = () () Se 0 , ento 0 () () () 2 2 2
144

Variveis aleatrias
Varincia

()

A frmula equivalente a

145

Exemplos
Se distribuda Normalmente (distribuio Normal padro), ento = 1 Se distribuda uniformemente no intervalo 2 , , ento =

Se se distribui segundo uma distribuio de Poisson, ento = Se se distribui segundo uma distribuio Binomial, com parmetros e , ento = 1
146

12

Propriedades da varincia
() 0 = 0 Se 1 , 2 , , so independentes, ento (1 + 2 + + ) = (1 ) + (1 ) + + ( ) () = 2 ()

147

Padronizao de variveis
=
() ()

= 0 = 1

= +
= = 2

Exemplo
Distribuio Normal
148

Variveis aleatrias
Covarincia

, =

A frmula equivalente a , =

149

Propriedades da covarincia
, = , , = , = 0 , = , , + = , + (, ) Se e so variveis aleatrias independentes, ento , = 0 + = + 2 , + ()
150

Matriz de covarincia
1 , 1 2 , 1 = , 1 1 , 2 2 , 2 , 2 1 , 2 , ,

positiva semidefinida 0

151

Variveis aleatrias
Coeficiente de correlao linear , =

152

Propriedades do coeficiente de correlao linear


= 1 1 Duas variveis esto relacionadas linearmente se e somente se seu coeficiente de correlao igual a 1 O coeficiente de correlao linear entre variveis independentes nulo
O inverso, entretanto, no verdadeiro, isto , = 0 no implica na independncia entre as variveis aleatrias e

O coeficiente de correlao linear entre duas variveis igual covarincia entre suas correspondentes variveis padronizadas
153

Matriz de correlao
1 21 = 1 12 1 2 1 2

1 positiva semidefinida 0

154

Variveis aleatrias
Momentos

Se = 0, o momento chamado de -simo momento em torno da origem = Se = (), o momento chamado de -simo momento central = ()

155

Variveis aleatrias
A mediana de uma varivel aleatria qualquer valor que satisfaz s seguintes desigualdades 1 lim () () 2 Se () contnua, as desigualdades se 1 reduzem a =
2
156

Variveis aleatrias
Para variveis aleatrias contnuas, qualquer raiz da equao () = chamada de quantil de ordem Para variveis aleatrias discretas, o quantil de ordem o valor que satisfaz s seguintes desigualdades lim () ( )

157

Variveis aleatrias
A mediana o quantil de ordem
1 2 , 4 4 3 4 1 2

Os quantis de ordem e so chamados quartis (usualmente denotados por 1 , 2 e 3 ) Os quantis de ordem 0,1; 0,2; ... e 0,9 so chamados decis Os quantis de ordem 0,01; 0,02; ... e 0,99 so chamados percentis
158

Variveis aleatrias
Para uma distribuio contnua, portanto com funo densidade de probabilidades definida, (), seu ponto de mximo chamado de moda da distribuio, isto (moda) = max () Para uma distribuio discreta, com possveis valores 1 , 2 , ... e respectivas probabilidades = ( = ), a definio adaptada, a moda sendo definida como o valor que maximiza a funo = ( = )
159

Variveis aleatrias
Coeficiente de assimetria

() Distribuies perfeitamente simtricas tero coeficiente de assimetria igual a zero Distribuies com coeficiente de assimetria negativo sero mais pesadas direita, com caudas mais longas esquerda Distribuies com coeficiente de assimetria positivo sero mais pesadas esquerda, com caudas mais longas direita.
160

() =

3
3

Exemplos
Se distribuda Normalmente, ento = 0 Se distribuda uniformemente no intervalo , , ento = 0 Se se distribui segundo uma distribuio de 1 Poisson, ento = > 0 Se se distribui segundo uma distribuio Binomial, com parmetros e , ento 12 =
1

A distribuio simtrica se e somente se =

1 2
161

Variveis aleatrias
Curtose

4
4

() A curtose da distribuio Normal igual a 0 Distribuies com curtoses menores do que 0 so chamadas platicrticas (s vezes chamadas subgaussianas)
Apresentam picos mais arredondados do que a distribuio Normal e caudas mais curtas e finas

3=

4
2

Distribuies com curtoses maiores do que 0 so chamadas leptocrticas (s vezes chamadas de supergaussianas)
Apresentam picos mais proeminentes do que a distribuio Normal, com caudas mais longas e espessas
162

Exemplos
A curtose da distribuio uniforme 1,2

A curtose da distribuio de Poisson > 0


A curtose da distribuio Binomial
16+62 1

163

Distribuies notveis (discretas)


Bernoulli Binomial Geomtrica Binomial Negativa Poisson Hipergeomtrica Uniforme
164

Distribuies notveis (contnuas)


Normal Uniforme Triangular Beta Beta Generalizada Exponencial Erlang Weibull Gama Qui-quadrado Qui F

165

Distribuies notveis (contnuas)


Student Lognormal Cauchy Laplace Logstica Loglogstica Logcauchy Loglaplace Rayleigh Maxwell Pareto Gompertz ...
166

Inferncia estatstica
A estatstica inferencial emerge da utilizao da teoria de probabilidades no estudo das relaes existentes entre populaes e amostras delas retiradas Engloba um conjunto de teoremas, modos de raciocnios e mtodos utilizados no tratamento e anlise de dados quantitativos Conceito fundamental: variabilidade das estatsticas amostrais (entre amostras possveis)
167

Representatividade da amostra
Questo mais metodolgica do que estatstica Avaliada qualitativamente, checando (e validando) os procedimentos de amostragem A estatstica inferencial se preocupa com a generalizao em si, possibilitada pelo exame da amostra em lugar da populao A preocupao fundamental validar quantitativamente a generalizao, chegando-se ao mago do problema da estatstica inferencial: medir a qualidade da inferncia
168

Estatsticas amostrais e parmetros populacionais


Como em qualquer processo de mensurao, nos deparamos com o problema de verificar proximidades entre uma medida concreta (a estatstica amostral) com um valor desconhecido (o parmetro populacional) Em processos comuns de mensurao desenvolve-se uma teoria de erros de mensurao Aplicada relao entre amostras e populaes, prefere-se o termo erros de amostragem, isto erros incorridos ao usar estatsticas amostrais como parmetros populacionais
169

Brincando com a informao perfeita


Indivduo Medida

A B C D E F G H I J

1 2 3 4 5 6 7 8 9 10
170

Populao de 10 indivduos = 5,5

Variabilidade das estatsticas amostrais


Tome-se uma amostra de quatro indivduos (amostra de tamanho = 4): A, F, C, e H; sua mdia 4,5 ( = 4,5) Tome-se outra amostra de quatro indivduos: B, A, G e I; agora = 4,75 Qual das duas informaes mais confivel como base inferencial para a mdia populacional?
Lembrete: em situaes prticas factuais semelhantes, o valor da mdia populacional desconhecido!
171

Provocao do exerccio
H vrias escolhas possveis para uma amostra de tamanho = 4 de uma populao de tamanho = 10 Cada uma delas oferece um valor para a estatstica Se as condies de escolha forem idnticas (nossa base qualitativa de avaliao da representatividade da amostra), nenhuma delas ser mais confivel como base de inferncia do que as outras De fato, a estatstica est mais para varivel do que para constante, no? Qualquer estatstica constante dentro da amostra, mas varivel entre amostras
172

Distribuio amostral
2,5 2,75 3 3,25 3,5 3,75 4 4,25 4,5 4,75 5 5,25 5,5 5,75 6 6,25 6,5 6,75 7 7,25 7,5 7,75 8 8,25 8,5 Total Frequncia 1 1 2 3 5 6 9 10 13 14 16 16 18 16 16 14 13 10 9 6 5 3 2 1 1 210 % 0,48 0,48 0,95 1,43 2,38 2,86 4,29 4,76 6,19 6,67 7,62 7,62 8,57 7,62 7,62 6,67 6,19 4,76 4,29 2,86 2,38 1,43 0,95 0,48 0,48 100

Distribuio de frequncias e histograma da varivel amostras de tamanho 4


173

Esquema de relacionamento

174

Impondo uma estrutura probabilista


Pode-se avaliar que a chance de encontrar um valor de distante 3 unidades ou mais da mdia da varivel na populao de apenas 0,96%, ou, mais formalmente, 5,5 3 = 0,0096 Em contraposio, a chance de encontrar um valor de distante 2 unidades ou menos da mdia da varivel na populao de 93,33%, ou, mais formalmente, 5,5 2 = 0,9333

175

Estatstica amostral como varivel aleatria


Passa-se a tratar a varivel de interesse como uma varivel aleatria (no caso particular do exemplo, distribuda Uniformemente, com apenas 10 possveis valores), cujo valor esperado, , corresponde mdia dos indivduos na populao Como consequncia, a varivel deve tambm ser considerada como uma varivel aleatria, cujo valor esperado, , corresponde mdia das mdias amostrais A propriedade fundamental da mdia pode ser ento formalizada: =
176

Efeito do tamanho da amostra

Ogivas dos histogramas da varivel amostras de tamanho 4, 5, e 6


177

Efeito do tamanho da amostra


Na medida em que o tamanho da amostra aumenta, a varivel se agrupa mais em torno do valor de , diminuindo sua varincia Pode-se dizer que a chance de encontrar um valor de distante de diminui com o aumento do tamanho da amostra Em contraposio, a chance de encontrar um valor de prximo de se v aumentada
178

Base terica da estatstica inferencial


O embasamento terico da estatstica inferencial se d ao impor uma estrutura probabilstica ao processo de amostragem Se o processo de amostragem no viciado, isto , se no h favorecimento de qualquer espcie para qualquer indivduo fazer parte da amostra, a suposio bem razovel Afinal, neste caso, qualquer uma das tantas amostras possveis poderia ser escolhida para representar o todo
179

Amostragem aleatria
Em situaes bem particulares, quando se tm em mos informaes precisas a respeito de todos os indivduos da populao de interesse, como uma listagem completa dos indivduos, por exemplo, a ausncia de vis pode ser obtida sorteando aleatoriamente os elementos que faro parte da amostra Ou seja, deixa-se ao acaso a escolha, sem qualquer influncia do pesquisador Diz-se neste caso que o processo de amostragem aleatrio
180

Aleatoriedade presumida
Raramente se tem disposio uma listagem completa dos indivduos na populao de interesse Na maior parte das aplicaes, a representatividade da amostra presumida, estabelecendo-se protocolos de amostragem que parecem, salvo melhor juzo, no viciados A estrutura probabilista julgada adequada, portanto
181

Aleatoriedade sempre presumida


Mesmo nas situaes bem comportadas, em que h uma listagem disposio, h juzos de valor envolvidos, como, por exemplo, a escolha do dispositivo de sorteio Como nenhum dispositivo perfeito, a aleatoriedade no pode ser tomada como garantida, sendo, de fato, presumida So agruras dos pontos de tangncia entre anlise quantitativa e anlise qualitativa...
182

Esquema de relacionamento

Induo de aleatoriedade nas estatsticas amostrais a partir da presuno de ausncia de vis no protocolo de amostragem

183

Base terica
A estatstica inferencial evidenciar, em uma linguagem tcnica e precisa, a relao entre as distribuies A linguagem utilizada a linguagem da matemtica, exata, na forma de teoremas, que nada mais so do que expresses do tipo se ... ento ... Isto , fazem-se suposies sobre a distribuio da varivel (na populao de indivduos) e conclui-se algo a respeito da distribuio amostral
184

Amostra como sequncia de variveis iid


Uma amostragem aleatria de tamanho , por exemplo, pode ser interpretada como uma sequncia de variveis aleatrias, 1 , 2 , , , cada uma delas distribudas segundo a distribuio da varivel , independentes entre si No jargo da estatstica, so variveis iid independentes e identicamente distribudas
185

Amostra como sequncia de variveis iid


Independentes, pois a escolha de um indivduo no afeta a possibilidade de escolha de outro Identicamente distribudas, pois todos os indivduos selecionados fazem parte da mesma populao Mas no se deixe enganar: por detrs de tudo estar sempre a grande suposio de aleatoriedade das variveis, induzida pela ausncia de vis do processo de amostragem
186

Validade do modelo
E se houver vcio no processo de amostragem? No h alternativa seno desconsiderar completamente os resultados O teorema pode ser preciso, mas se suas suposies no so vlidas, suas concluses no tm qualquer significado preciso distinguir a modelagem em si de sua instanciao
187

Exemplo: Amostragem de varivel distribuda Normalmente inferncia sobre


Se a varivel de interesse distribuda Normalmente na populao (mais formalmente, se ~ , ), ento a varivel =
=1

distribui-se Normalmente com


parmetros e

(isto , ~ ,

188

Exemplo: Amostragem de varivel distribuda Normalmente inferncias sobre

Relao entre a distribuio da varivel de interesse na populao de indivduos e as distribuies das mdias amostrais de distintos tamanhos 189

Exemplo aplicado
Suponha-se que nossa varivel de interesse seja Normalmente distribuda, com parmetros e Suponha-se ainda que = 10, e que no se conhea o valor de Retira-se uma amostra no viciada de tamanho = 50, calculando-se a mdia amostral Suponha-se que = 130,5 O que se pode inferir sobre o valor de ?
190

Modelagem
A suposio de Normalidade da varivel de interesse, , combinada com a suposio de ausncia de vcio no procedimento de amostragem induz uma distribuio Normal para a varivel E, embora no se saiba o valor de , sabe-se que = = Ou seja, a varivel distribui-se simetricamente em torno de , qualquer que seja seu valor, com maior probabilidade de estar prximo de seu valor do que distante de seu valor
191

Instanciao
Mais ainda, sabe-se que o desvio-padro da 10 varivel dado por = = = 1,414 A partir destas informaes, pode-se avaliar com preciso as chances relativas (probabilidades) de que a mdia da amostra se situe a uma dada distncia de , qualquer que seja esta distncia
192

50

Respostas
Por exemplo, digamos que se deseje precisar a probabilidade de que a mdia da amostra esteja a uma distncia no maior do que 3 unidades de Mais formalmente, deseja-se determinar 3 A teoria da distribuio Normal nos d 3 = 0,966105
193

Exemplo aplicado

Probabilidade de que a mdia da amostra esteja no intervalo , + para uma amostra de = indivduos, com =

194

Conhecido x desconhecido
Sob uma tica informacional, o valor conhecido na equao 3 = 0,966105 o valor , concretamente calculado com base na amostra colhida, igual a 130,5 em nosso exemplo O valor desconhecido o valor , abstratamente conjecturado como parmetro populacional
195

Expresses equivalentes
A expresso a mdia da amostra est a uma distncia no maior do que 3 unidades de equivalente expresso est a uma distncia no maior do que 3 unidades da mdia da amostra, pois so expresses logicamente simtricas Assim, pode-se interpretar a equao 3 = 0,966105 como uma expresso probabilista a respeito do valor
196

Intervalo de confiana para


Pode-se argumentar, ento, que a probabilidade de que , embora desconhecido, situe-se entre 127,5 e 133,5 (130,5 3) de 96,61% O intervalo (127,5; 133,5) chamado intervalo de confiana para , com 96,61% de confiana (probabilstica)

197

Exemplo aplicado

Probabilidade de que esteja no intervalo , + para uma amostra de = indivduos, com =

198

Infere-se o desconhecido a partir do conhecido


Repare a sutileza da argumentao A varivel aleatria , para a qual a teoria permite o clculo de probabilidades de expresses envolvendo valores correspondentes sua variabilidade O valor uma constante, portanto uma no-varivel Mas, realizada a amostragem no viciada, uma constante conhecida (para aquela particular amostra colhida), e uma constante desconhecida O desconhecimento de gera uma incerteza a seu respeito (lembre-se: a incerteza uma propriedade de nosso conhecimento a respeito dos eventos e no dos eventos em si!), que ser medida probabilisticamente
199

Outro exemplo aplicado


O fabricante de um equipamento de envase garante a preciso do processo de envase com uma variao mnima, para os padres atuais do mercado, com desvio-padro igual a 5 ml, independentemente do tamanho da garrafa utilizada Variaes no processo de envase so atribudas a mltiplas causas cujos efeitos se somam, resultando em uma variao distribuda Normalmente

200

Outro exemplo aplicado


Aps regular o maquinrio para descarregar em mdia 610 ml em cada garrafa o gerente de produo de um engarrafador testa o processo de hora em hora, com 10 garrafas retiradas ao acaso da linha de produo, medindo precisamente o volume engarrafado em cada uma delas e determinando a mdia amostral Qual a probabilidade de encontrar uma mdia amostral menor ou igual a 604 ml?
201

Modelagem
Pode-se raciocinar que a regulagem desejada corresponde ao valor esperado ( mdia) do contedo de todas as garrafas que sero envasadas neste particular ciclo de produo (uma populao de garrafas) Chamando de varivel volume de lquido envasado em uma garrafa, o que se deseja ao regular o processo que = 610 Assim, a suposio terica fundamental que se distribui Normalmente com parmetros = 610 e = 5, em se aceitando a argumentao do fabricante do equipamento Isto , ~ 610; 5
202

Respostas
A suposio de Normalidade para induz a suposio de Normalidade para a distribuio de mdias amostrais, , com parmetros e , ou seja, ~ 610, , e a pergunta pode ser respondida Deseja-se 604 , ou seja, 604 , onde a FDA da distribuio Normal com 5 parmetros = 610 e = 10 A funo DIST.NORM.N do Microsoft Excel fornece 604 = 0,0000739
203

5 10

Instanciao
As suposies de nossos clculos so
a varivel se distribui conforme a distribuio Normal, com mdia igual a 610 ml e desviopadro igual a 5 ml a amostra retirada no contm vcios

As suposies so bastante plausveis em situaes como a descrita, desde que o gerente de produo saiba o que est fazendo...
204

Informao factual
Suponha-se agora que o gerente de produo seja informado pelo pessoal de controle que a ltima amostragem realizada produziu a estatstica = 604 E da? A informao til, serve para alguma coisa?

205

Modelagem
H suposies tericas importantes embutidas no clculo da probabilidade 0,0000739
A distribuio Normal A amostragem no contm vcios O desvio-padro da distribuio 5 ml A mdia da distribuio (isto , a regulagem da mquina) 610 ml

E encontrou-se uma amostra com tal resultado...


206

Crtica instanciao
A informao est queimando nossas mos... O que fazer? Em geral, nossa postura a respeito de eventos raros de desconfiana, embora admitamos que eles possam acontecer

207

Crtica instanciao
O que se pode inferir sobre o processo de envase? No contexto apresentado, parece quase imediata a desconfiana em alguma das hipteses embutidas nos clculos
O clculo foi bem feito? A aritmtica est correta? Deu tilt na mquina de calcular? A amostra foi viciada? A distribuio no Normal? O desvio-padro no igual a 5 ml? A regulagem de 610 ml foi pro brejo?
208

Postura acrtica
Qual das hipteses a mais fraca? Alternativamente, podemos nos sentar contemplativamente e imaginar como a vida pode trazer surpresas inesperadas Se tivssemos tal sorte na MEGA-SENA...

209

Crtica instanciao
Usa-se o procedimento de amostragem para controlar o processo, para informar o processo decisrio A emergncia concreta de uma amostra com tal estatstica amostral, com probabilidade de ocorrncia terica to pequena, nos faz rejeitar a teoria, abstratamente concebida, em razo da evidncia concreta da verificao emprica
210

Crtica instanciao
Quando a suposio terica e a evidncia emprica entram em conflito, ficamos com a evidncia emprica, rejeitando a teoria Ou, mais precisamente, buscamos alguma alternativa terica, evoluindo em nosso conhecimento

211

Suposio mais frgil


A suposio terica mais frgil no contexto apresentado a mdia da varivel ser igual a 610 ml
O clculo aritmtico pode ser verificado e checado O vcio no processo de amostragem pode ser evitado com protocolos adequados, cuja efetiva utilizao pode ser checada A Normalidade da distribuio pode ser checada, sendo bem suportada em estudos tcnicos desta natureza O desvio-padro pode ser checado com testes realizados pelo fabricante do equipamento, bem documentados Resta a regulagem da mquina, sendo bastante comum sua degenerao em processos desta natureza

A regulagem depende das condies locais, havendo inmeros fatores concorrendo para sua degenerao, desde limitaes humanas a desgaste nos materiais utilizados
212

Suposio alternativa
Se tivesse havido uma variao da mdia da varivel para menos do que 610 ml, a mdia da varivel acompanharia esta variao, e a probabilidade de haver uma mdia amostral to extrema quanto 604 ml seria certamente maior do que a calculada, o que talvez reconciliasse nosso achado emprico com a teoria A ttulo de ilustrao
Se = 608, 604 = 0,0057060, mantendo-se as demais suposies Se = 606, 604 = 0,1029516, mantendo-se as demais suposies

213

Suposio alternativa

214

Teste de hipteses
Em termos formais, testa-se uma hiptese bsica a respeito do valor do parmetro populacional, = 610, contra uma hiptese alternativa, < 610 A observao emprica = 604 improvvel sob a primeira hiptese A probabilidade de sua ocorrncia estimada em 0,0000739, favorecendo a segunda hiptese
215

Hiptese nula
A hiptese bsica rotulada como hiptese nula, sendo uma hiptese inercial
A regulagem inicial, de 610 ml, no se modificou ( = 610) No h variao da regulagem em relao ao valor inicialmente utilizado, de 610 ml nula a diferena entre a regulagem e o valor de 610 ml ( 610 = 0) Ou seja, o satus quo permanece inalterado

Denota-se tal hiptese como 0


216

Hiptese alternativa
A hiptese alternativa denotada por 1 , acompanhando nossa compulso pela lgica bivariada (h somente dois estados possveis, a veracidade ou a falsidade de 0 ) Tem-se, portanto, no exemplo apresentado:
0 : = 610 1 : < 610
217

Deciso estatstica
O teste resume-se a escolher qual hiptese mais plausvel, dentre 0 e 1 , dadas as evidncias encontradas na amostra Como o valor de encontrado na amostra improvvel sob 0 (se 0 fosse verdadeira), rejeita-se 0 , aceitando-se consequentemente 1

218

Deciso estatstica
Ou seja, julga-se que 0 implausvel (embora no impossvel, tratando-se de uma argumentao probabilstica) e, portanto, que 1 mais plausvel do que 0 Em outras palavras, acredita-se mais na hiptese de degenerao da regulagem do processo do que na hiptese inercial de no degenerao Em funo disso, nosso gerente talvez tome algumas providncias, mas estas j no so objeto da estatstica...
219

Testes unilaterais e bilaterais


Em algumas situaes, mais plausvel apresentar a hiptese alternativa como uma simples negao da hiptese nula, como 610, ao invs de < 610, dando origem ao que vem a ser chamado de teste bilateral A escolha de qual tipo de teste utilizar depende essencialmente de informaes disponveis no contexto de aplicao
220

Justificando um teste unilateral


No contexto apresentado, pode-se argumentar que a variao da regulagem da mquina para cima seria imediatamente verificada visualmente, pois as garrafas comeariam a transbordar na linha de produo, no havendo necessidade de realizao de um teste mais sofisticado Adicionalmente, enchimentos acima de 610 ml seriam, em princpio, benficos ao consumidor, que jamais reclamaria de uma garrafa com volume efetivo maior do que o rotulado Variaes para baixo constituem a preocupao fundamental nestes casos 221

Processos de inferncia estatstica


H duas situaes tpicas do processo de inferncia estatstica, conhecidas por intervalos de confiana e testes de hipteses A lgica embutida em tais esquemas facilmente generalizvel

222

Processos de inferncia estatstica


Em princpio estamos sempre interessados em caractersticas populacionais, que, em alguns casos, podem ser descritas por parmetros da distribuio da varivel de interesse, como , , , , , etc. Utilizam-se amostras no viciadas para inferir os valores de tais parmetros, usando correspondentes estatsticas amostrais (como ,, , , etc.)
223

Estimadores
Se estivermos interessados simplesmente em estimar os valores dos parmetros populacionais, as estatsticas amostrais correspondentes so chamadas de estimadores dos parmetros populacionais Trata-se de um processo indutivo, em que a parte generalizada para o todo

224

Estimadores
Digamos que se represente o parmetro de interesse na populao de interesse por (assim, , , , , , etc. so apenas instncias de ), e a correspondente estatstica amostral por (assim, , , , , etc. so instncias de ) Mais formalmente, denota-se (estatstica amostral) um estimador de (parmetro populacional)
225

Estatsticas de teste
Se estivermos interessados em verificar a plausibilidade de hipteses a respeito dos valores dos parmetros populacionais, as estatsticas amostrais so chamadas de estatsticas de teste sobre os parmetros populacionais, denotadas por

226

Estatsticas de teste
Trata-se de um processo dedutivo, em que a suposio feita para o todo induz um comportamento esperado na parte, que, em no sendo verificado empiricamente, pode ser utilizado para contestar a suposio inicialmente feita para o todo Mais formalmente, denota-se (estatstica amostral) uma estatstica de teste sobre (parmetro populacional)
227

Processos de inferncia estatstica

Relaes entre um parmetro populacional e uma estatstica amostral


228

Processos de inferncia estatstica


Em qualquer situao, a conexo entre e , ou entre e , ser sempre modelada probabilisticamente, o modelo sendo induzido pelo processo de amostragem no viciado Tanto a estimativa como o teste do valor do parmetro so realizados dentro de um contexto de incerteza, de relativo desconhecimento, em que a linguagem da probabilidade assume um papel preponderante

229

Processos de inferncia estatstica


No se tem o valor do parmetro, apenas uma estimativa bem calibrada, baseada nas informaes disponveis bem provvel que o valor do parmetro no seja coincidente com o valor da estimativa realizada, mas as chances de proximidade podero ser calculadas com preciso

230

Processos de inferncia estatstica


No se constata que uma determinada hiptese a respeito do valor de um parmetro seja verdadeira (ou falsa), apenas a aceitamos como verdadeira (ou a rejeitamos por acreditarmos mais em sua falsidade), dadas as informaes disponveis Pode acontecer que uma hiptese rejeitada seja verdadeira (tanto quanto uma hiptese aceita seja falsa), mas as chances de erro podero ser calculadas com preciso

231

Intervalos de confiana
Genericamente, um intervalo de confiana nada mais do que um intervalo numrico associado a uma avaliao probabilista de que ele contenha o verdadeiro valor do parmetro sendo estimado Definem-se valores e (limites inferior e superior do intervalo) de modo que se possa fazer alguma afirmao a respeito da probabilidade de que o intervalo assim definido contenha o parmetro populacional, pelo menos aproximadamente
232

Intervalos de confiana
Mais formalmente = 1 Os valores e so determinados a partir dos dados de uma particular amostra, devendo ser pensados como variveis aleatrias (variando entre as possveis amostras) tanto quanto a estimativa pontual So, portanto, de fato, duas estatsticas amostrais, embora relacionadas entre si Muitas vezes e so definidos a partir da estimativa pontual 233

Intervalos de confiana
O valor 1 chamado de nvel de confiana do intervalo, representando a probabilidade de que o intervalo contenha o verdadeiro valor do parmetro sendo estimado Seu complemento, o valor , representa, assim, o risco de erro, a chance de que o parmetro populacional no esteja contido no intervalo
234

Testes de hipteses
Todos os testes de hipteses a respeito de parmetros populacionais seguem a mesma estrutura lgica Deseja-se testar o valor do parmetro populacional, , formulando-se uma hiptese nula 0 : = 0 Formula-se tambm uma hiptese alternativa, em geral a negao da hiptese nula 1 : 0

235

Testes de hipteses
Para testar 0 , toma-se uma amostra no viciada da populao, calculando-se uma estatstica de teste, ser interpretada como uma varivel aleatria (variando entre possveis amostras) Pode-se estudar seu comportamento e verificar algumas de suas caractersticas, especialmente sua relao com o parmetro testado, , assim como com o particular valor de teste, 0

236

valor
Em cada contexto, definida com base em alguma teoria que assegure o conhecimento de sua distribuio de probabilidades, pelo menos aproximadamente, sob 0 (isto , se 0 for verdadeira) Determina-se a probabilidade de a varivel aleatria ser to ou mais extrema quanto o valor encontrado na particular amostra investigada, Denota-se tal probabilidade por valor

237

Deciso estatstica
O valor pode ser utilizado para avaliar a plausibilidade de 0 , versus 1 Valores muito pequenos para o valor evidenciam que o valor da estatstica de teste, , encontrado na amostra improvvel sob 0 (se 0 fosse verdadeira), rejeitando-se, portanto, 0 Por outro lado, valores no to pequenos para o valor evidenciam que o valor de encontrado na amostra no to improvvel sob 0 (se 0 fosse verdadeira), aceitando-se, portanto, 0
238

Nvel de significncia
Nas cincias sociais aplicadas, utiliza-se em geral o valor limite = 0,05 para discernir o que pode ser considerado uma probabilidade pequena do que no uma probabilidade to baixa assim Assim, cria-se a regra emprica se valor , rejeita-se 0 ; se valor > , aceita-se 0 O valor limite, representado por , chamado de nvel de significncia do teste
239

Risco de errar ao rejeitar 0


A deciso se d, portanto, baseada na comparao entre o nvel de significncia e o valor Se valor , o valor considerado pequeno demais para sustentar a hiptese terica, rejeitandose consequentemente 0 Ou seja, julga-se que 0 implausvel, embora no impossvel, tratando-se de uma argumentao eminentemente probabilstica O valor pode ser interpretado como um limite para o risco assumido pelo tomador da deciso, ou seja, a probabilidade de errar ao rejeitar 0 240

Resultado significativo x no significativo


Quando se aceita 0 , diz-se que o teste revelou-se no significativo (ao nvel de significncia ) ou ainda no significante J quando se rejeita , diz-se que o teste revelou-se significativo (ao nvel de significncia ) ou significante

241

Erros de deciso
Ao se reduzir o problema a apenas duas hipteses, 0 x 1 , esta representando a rejeio daquela, potencialmente enfrentamos dois tipos de erro em nossa deciso, que merecem ser distinguidos Tanto se pode rejeitar 0 indevidamente (erro tipo I) como se pode aceit-la incorretamente (erro tipo II) So os dois lados de uma deciso em ambiente de incerteza

242

Erros tipo I e tipo II


Estado da natureza 0 Verdadeira Aceita-se 0 Deciso Rejeita-se 0 Erro tipo I 0 Falsa Erro tipo II

243

Probabilidades de erros
Como se est diante de uma deciso sob incerteza, til associar probabilidades a cada um dos dois tipos de erros representa um limite para a probabilidade de erro do tipo I, isto erro tipo = rejeitar 0 0 Verdadeira Define-se = erro tipo = aceitar 0 0 Falsa

244

Probabilidades de erros
Estado da natureza 0 Verdadeira Aceita-se 0 Deciso Rejeita-se 0 0 0 0 Falsa

245

Probabilidades de erros
Inexoravelmente os dois erros esto ligados de uma maneira inversa (embora no linear), ou seja, se tentarmos diminuir , o valor se v aumentado, e vice-versa Dada a fora da hiptese inercial, o erro tipo I quase sempre considerado mais importante, de modo que nos preocupamos em avaliar precisamente, tanto quanto possvel, o valor , pois a deciso de aceitao ou no de 0 se dar com base neste valor, em comparao com o nvel de significncia do teste,
246

Falso positivo e falso negativo


Como 0 corresponde a uma hiptese inercial, de nulidade, de ausncia de desvio em relao ao status quo, o erro tipo I tambm rotulado falso positivo, pois corresponde a rejeitar erroneamente a hiptese nula, ou seja, considerar erroneamente que h, positivamente, um desvio em relao ao status quo Da mesma forma, o erro tipo II rotulado falso negativo, pois corresponde a aceitar erroneamente a hiptese nula, ou seja, negar erroneamente que haja algum desvio em relao ao status quo

247

Outros conceitos relevantes


Potncia de um teste de hipteses Valores crticos para a estatstica de teste Regio de aceitao (ou de rejeio) de um teste de hipteses Relao entre intervalos de confiana e testes de hipteses

248

Amostragem de varivel distribuda Normalmente resumo

249

Amostragem de varivel distribuda Normalmente resumo

250

Amostragem de varivel no Normal inferncias sobre ()


O processo de inferncia a respeito do parmetro da distribuio Normal bem-comportado e exato, dada a estrutura formal da distribuio Normal Entretanto, a suposio de que a varivel de interesse seja Normalmente distribuda um tanto quanto restritiva, pois muitos fenmenos no seguem tal distribuio O que fazer nestes casos? H vrios caminhos a seguir, sendo o mais relevante o determinado pelo teorema do limite central, que pe em evidncia toda a fora da distribuio Normal
251

Teorema do limite central


Se 1 , 2 , , so variveis aleatrias iid, com 0 finita, ento

lim
=1

1 2

2 2

Ou seja, a distribuio da varivel aleatria =

Normal padro na medida em que o nmero de parcelas da soma, , aumenta indefinidamente


252

=1

converge para a distribuio

Teorema do limite central


O teorema vlido para quaisquer distribuies, sejam elas discretas ou contnuas, sejam elas simtricas ou no No importa a forma da distribuio, a convergncia da FDA da varivel = Normal padro inescapvel, desde que as variveis sejam independentes e identicamente distribudas, com 0 finita
253

=1

para a FDA da varivel

Teorema do limite central


Embora o nmero de parcelas da varivel aumente, h uma espcie de compensao, pois as parcelas somadas so desvios das variveis em torno de seu valor esperado, divididas por , algumas parcelas sendo, portanto, positivas, enquanto outras sero negativas Por outro lado, a variabilidade de permanece travada pela presena do fator em seu denominador
254

Teorema do limite central


Tem-se que = 0 e = 1 O que no nada bvio a emergncia da FDA da distribuio Normal no processo de convergncia da FDA da varivel , o que, de certa forma, explica a reverncia universal distribuio Normal, que tanto fascina a humanidade O teorema nada diz sobre a velocidade de convergncia, mas pode ser evidenciado empiricamente que a convergncia mais rpida se as distribuies forem simtricas e contnuas
255

Amostragem de varivel no Normal inferncias sobre ()


Inferncias sobre (quando a varivel de interesse na populao no se distribui conforme a distribuio Normal) so quase idnticas s inferncias sobre (quando a varivel de interesse na populao se distribui conforme a distribuio Normal) O teorema do limite central assegura que os processos de inferncia sobre (para distribuies Normais) so vlidos aproximadamente mesmo quando as distribuies no so Normais, bastando tomar amostras grandes
256

Robustez do processo de estimao


A constatao deu origem ao termo robustez do processo de estimao, para designar processos que apresentam resultados vlidos aproximadamente, mesmo quando alguns de seus pressupostos fundamentais so relaxados Deve ser ressaltado, entretanto, que nem todos os processos de inferncia so robustos ao relaxamento da suposio de Normalidade da varivel de interesse na populao

257

Amostragem de varivel no Normal inferncias sobre ()


Intervalos de confiana e testes de hipteses sobre (para distribuies Normais) no so robustos, de modo que sua utilizao deve ser realizada com cuidado, pois seus resultados no so vlidos quando a distribuio da varivel de interesse na populao no se ajusta distribuio Normal Neste caso, recomenda-se a utilizao do intervalo de confiana de Bonett para , e o correspondente teste de hipteses
Exige-se apenas que a varivel de interesse na populao, , seja contnua, com varincia finita e no nula, assim como tendo momento central de ordem 4 finito (isto , 258 4 < )

Testes paramtricos x no paramtricos


Rotulam-se testes de hipteses como paramtricos quando a hiptese nula toma a forma 0 : = 0 , onde algum parmetro populacional de interesse Alternativamente, pode-se desenvolver um teste no paramtrico, que no faa uso de qualquer informao sobre a forma das distribuies, no testando, portanto, o valor de seus parmetros So tambm chamados de testes livres de distribuio (distribution-free tests)
259

Testes de aderncia
Teste qui-quadrado de aderncia Teste de Kolmogorov-Smirnov (KS) Teste de Lilliefors de aderncia distribuio Normal

260

Tarefa extra-classe 6
1. Considere os dados relativos rentabilidade diria das aes preferenciais nominativas da Petrobrs apresentada no Exemplo 3 do Captulo 4 (primeiros valores de cada par de valores apresentados no Quadro 1 do Captulo 4). Considere que os 247 valores representam nossa populao de interesse.
1. 2. 3. Qual o valor da mdia da varivel na populao? Selecione aleatoriamente 200 amostras de tamanho 5; quais so os valores da mdia da varivel nas diferentes amostras colhidas? Represente as 200 mdias amostrais em um histograma; qual o valor da mdia das mdias? Selecione aleatoriamente 200 amostras de tamanho 10; quais so os valores da mdia da varivel nas diferentes amostras colhidas? Represente as 200 mdias amostrais em um histograma; qual o valor da mdia das mdias? Selecione aleatoriamente 200 amostras de tamanho 20; quais so os valores da mdia da varivel nas diferentes amostras colhidas? Represente as 200 mdias amostrais em um histograma; qual o valor da mdia das mdias? Qual dos valores o melhor estimador da mdia da populao? Por qu?

4.
5. 6. 7. 8.

261

Tarefa extra-classe 6 (cont.)


2. Antes de tomar a deciso de modificar o sabor da CocaCola em 1985, a companhia testou os sabores alternativos com aproximadamente 190.000 consumidores em vrias cidades americanas (Pendergrast, 1993, p.324). Sem qualquer marca de identificao (teste cego), 55% preferiram a nova frmula anterior. H boa confiana de que os 190.000 consumidores constituem uma amostra representativa da populao de consumidores de refrigerantes tipo cola.
1. 2. Descreva a distribuio amostral de . Encontre a probabilidade de que se localize a menos de 0,005 da proporo populacional dos consumidores que preferem o novo sabor.

262

Tarefa extra-classe 6 (cont.)


3. A companhia esperava recuperar o primeiro lugar no ndice Nielsen de vendas em supermercados, perdido para a Pepsi-Cola h cerca de um ano.
Durante 20 anos, a fatia de mercado da bebida mais famosa do mundo declinara ininterruptamente. Em 1984, a Coca-Cola perdeu 1% de sua parcela de mercado, enquanto a Pepsi-Cola subia 1,5 ponto percentual. A companhia tentara tudo publicidade macia, eficaz; marketing dinmico; promoes de preos; distribuio quase universal e nada detivera a queda gradual. Era difcil evitar a concluso de que, exatamente como afirmara o Desafio da Pepsi, o problema real estava no sabor do produto. As pessoas no apreciavam mais o travo da CocaCola. Queriam uma bebida mais doce. (Pendergrast, 1993, p. 320)

263

Tarefa extra-classe 6 (cont.)


3. (cont.) Apesar do lanamento em grande estilo e da enorme capacidade promocional da companhia (afinal a Coca-Cola a responsvel pela cor vermelha do papai Noel, introduzida na campanha publicitria de 1925!), a New Coke foi um fracasso junto ao pblico. No primeiro ms aps o lanamento, as vendas despencaram, enquanto estoques da velha Coke eram vendidos com gio. Tudo leva a crer que os consumidores sentiramse trados pela companhia. Milhares de telefonemas e cartas indignadas chegavam diariamente sede da companhia. A revista Newsweek estampou a manchete a Coke falsifica o sucesso, identificando o velho refrigerante como o carter americano dentro de uma lata. Parece, efetivamente, que a Coca-Cola um smbolo americano, to forte quanto a esttua da liberdade ou as listras e estrelas de sua bandeira. Incrivelmente, ningum examinara as repercusses psicolgicas da retirada da velha frmula. (Pendergrats, 1993, p. 325). Trs meses depois de seu lanamento, a velha frmula foi relanada como Classic Coke. A New Coke nunca foi vendida fora dos Estados Unidos. Em 1987 a companhia gastou mais de 21 milhes de dlares promovendo a New Coke, contra 36 milhes destinados promoo da Classic Coke, apesar da fatia de mercado daquela ser menor do que 3% (a fatia de mercado da Classic Coke j era maior do que 27%). A New Coke foi reposicionada no incio da dcada de 1990 no mercado americano como Coke II. Pouco depois sua produo foi interrompida. O que teria acontecido? A informao colhida pela pesquisa no est correta? A confiana (probabilista) nos resultados no est correta?

264

Tarefa extra-classe 6 (cont.)

Figura 29: Charge publicada no Chicago Tribune em 1987 Fonte: Arquivo pessoal do autor

265

Você também pode gostar