Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística frequencista
Professor: Pedro da Silveira Ferreira
Período: 2019/2
Leis de potência e distribuição/Lei de
Pareto (80/20)
Leis de potência são muito comuns na ciência (por ex: 3a Lei de Kepler, lei
de Stefan–Boltzmann, lei da gravitação de Newton e lei de Coulomb).
Essas leis relacionam duas variáveis, sendo uma delas proporcional a outra
elevada à um exponente. Muitas distribuições podem ter suas caudas
(regiões de eventos de baixa probabilidade) aproximadas por leis de
potência.
Existem outras parametrizações. Veremos com mais detalhes quando formos ver
a estatística Bayesiana.
A Distribuição Gama gera toda uma família de
distribuições, de acordo com os parâmetros
escolhidos. As distribuições Exponenciais e de
Chi-Quadrado são geradas por uma escolha
de parâmetros da distribuição Gama.
6
Distribuições contínuas
T de Student
A distribuição T de Student (pseudônimo de William Sealy Gosset que não podia
usar seu nome verdadeiro para publicar trabalhos enquanto trabalhasse para a
cervejaria Guinness) é simétrica e semelhante a distribuição Normal, porém
com caldas mais largas.
7
Distribuições contínuas
2
χ e estimadores
É a distribuição das somas de amostras É comum gerar estimadores a
aleatórias de uma distribuição normal partir do processo de
padronizada elevadas ao quadrado. O minimização do Chi-
número de graus de liberdade (k) é o Quadrado. É similar ao MMQ
número de amostras sendo somadas. porém ponderamos pelo
desvio padrão ou erro
associado (teórico). Podemos
criar também estimadores em
Estimadores
múltiplas componentes.
8
Distribuições contínuas
2
χ e estimadores
É a distribuição das somas de amostras É comum gerar estimadores a
aleatórias de uma distribuição normal partir do processo de
padronizada elevadas ao quadrado. O minimização do Chi-
número de graus de liberdade (k) é o Quadrado. É similar ao MMQ
número de amostras sendo somadas. porém ponderamos pelo
desvio padrão ou erro
X −μ
Z=
σ
associado (teórico). Podemos
μ (Z )=0 , σ =1 criar também estimadores em
Estimadores
múltiplas componentes.
9
Distribuições contínuas
2
χ e estimadores
É a distribuição dasésomas
A padronização deobrigatória
praticamente amostras para se determinar É acomum gerar
média de um estimadores
conjunto de notas. a
Tome-se o vestibular, por exemplo, que é constituído de várias provas (5 a 10 disciplinas
aleatórias de uma
diferentes). Seriadistribuição normal
praticamente impossível classificar ospartir do processo
candidatos de
pelos seus escores
padronizada elevadas
brutos originais. Assimao quadrado.
é necessário O das várias
fazer a média minimização
provas. Só que asdo Chi-
provas são
de matérias diferentes, com graus de dificuldade diferentes e não necessariamente
número de graus de liberdade (k) é o Quadrado. É similar ao MMQ
com o mesmo número de questões, isto é, cada uma tem sua própria unidade de
número medida.
de amostras sendoqual
Como não sabemos somadas.
é a média entre um jacaré porém e umaponderamos
lagartixa, pelo
precisamos antes de calcularmos a média transformarmos todas as diferentes
unidades em uma única comum. Essa medida
desvio padrão ou erro
X −μ comum é a variável padronizada, que é um
valor sem unidade, isto é, a variável Z é o Znúmero
=
σ
associado
de desvios padrão a contar (teórico). Podemos
da média. Assim,
ao invés de termos 15 acertos em matemática ou 20 acertos em português, teremos 0,5 ou 1,5
desvios acima ou abaixo da média.
μ (Z )=0 , σ =1 criar também estimadores em
Estimadores
múltiplas componentes.
A pergunta que poderia ser feita é: se a média e o desvio padrão de todas as provas são iguais
então as variáveis (conjuntos de dados) são iguais. Claro que não. Se você pesa 75 kg e mede
1,80 e o Brad Pitt tem o mesmo peso e a mesma altura, você é o Brad Pitt! O que então
diferencia um conjunto de outro? Os conjuntos serão diferentes porque eles terão
assimetrias e curtoses diferentes e são essas medidas que moldam os conjuntos, isto
é, definem sua aparência e personalidade. Tanto a assimetria quanto a curtose não se
alteram quando a variável é padronizada, isto é, são medidas invariantes a
transformações desse tipo.
Convém salientar que padronização não é normalização, como erroneamente aparece em alguns
textos. Se a variável é normal então padronizando não se altera a normalidade, contudo se a
variável não é normal então a padronização não a tornará normal, quer dizer, loucura não se cura
com xarope para a tosse.
Assim, meu amigo, se na sua escola ou faculdade, existe um prêmio para o melhor aluno ou
láurea acadêmica, tente descobrir como os responsáveis estão calculando o desempenho médio
dos candidatos e veja se eles estão utilizando a padronização. Caso isso não ocorra eles estão
fazendo média entre cobra e porco espinho e achando que isso dá arame farpado.
10 Prof. Lorí Viali - Puc-RS
Distribuições contínuas
2
χ e estimadores
Podemos utilizar o teste de Pearson do Chi-Quadrado para verificar se uma
distribuição de valores observados segue o esperado/previsto/modelo.
O quanto se difere do
valor de contagens
11
Distribuições contínuas
2
χ e estimadores
Teste de Pearson do Chi-Quadrado (aderência)
Dia 2ª 3ª 4ª 5ª 6ª Sáb. Comparando Hipóteses:
13
Distribuições contínuas
2
χ e estimadores
Teste de Pearson do Chi-Quadrado (aderência)
Isso
2 poderia
(30−20) 2
ser aplicado
(14−20) 2
(34−30)por
2
exemplo
(45−40) 2
para
(57−60) 2
a taxa 2
(20−30)
χ =algum evento
+ + + + + =11 ,44
de 20 20 astronômico
30 dado
40 um modelo!
60 30
Graus de liberdade = 6 – 1 = 5 (Pois conseguimos um dos valores utilizando a
média) Corte:11,07
Aproveitando que está padronizado podemos utilizar uma distribuição
Chi-Quadrado com 5 graus de liberdade para obter o valor crítico.
14
P-value
O que é o valor-p?
O valor-p é a probabilidade de, considerando a hipótese nula, obter-se uma
estatística teste igual ou mais extrema que a observada. Um valor-p pequeno
significa que a probabilidade de obter um valor da estatística de teste como
o observado é muito improvável, levando assim à rejeição da hipótese
nula → Nível de significância. Os valores de corte normalmente
utilizados são 5% e 1%.
•O valor-p não é a probabilidade da hipótese nula de um teste ser
verdadeira.
•O valor-p não é a probabilidade de um dado resultado ter sido obtido de um
"acaso".
•O valor-p não é a probabilidade da hipótese nula ter sido enganosamente
rejeitada.
•A magnitude do valor-p não indica o tamanho ou a importância de um efeito
observado. Por exemplo, em uma pesquisa clínica onde são comparados dois
tratamentos, um valor-p bastante pequeno não é um indicador de que existe
uma grande diferença entre os efeitos dos tratamentos comparados.
O grande uso, muitas vezes equivocado do valor-p levou a ASA a publicar um
artigo em 2016 discutindo o significado, uso e relevância do valor-p (de forma
informal).
15
https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108
P-value
O que é o valor-p?
O valor-p é a probabilidade de, considerando a hipótese nula, obter-se uma
estatística teste igual ou mais extrema que a observada. Um valor-p pequeno
significa que a probabilidade de obter um valor da estatística de teste como
o observado é muito improvável, levando assim à rejeição da hipótese
nula → Nível de significância. Os valores de corte normalmente
utilizados são 5% e 1%.
•O valor-p não é a probabilidade da hipótese nula de um teste ser
verdadeira.
O valor-p
•O valor-p não é aéprobabilidade
utilizado de para descartar
um dado resultado termodelos,
sido obtido de um
"acaso".
comparando uma hipótese e uma contra hipótese,
•O valor-p não é a probabilidade da hipótese nula ter sido enganosamente
rejeitada. considerando um valor de corte.
•A magnitude do valor-p não indica o tamanho ou a importância de um efeito
observado. Por exemplo, em uma pesquisa clínica onde são comparados dois
tratamentos, um valor-p bastante pequeno não é um indicador de que existe
uma grande diferença entre os efeitos dos tratamentos comparados.
O grande uso, muitas vezes equivocado do valor-p levou a ASA a publicar um
artigo em 2016 discutindo o significado, uso e relevância do valor-p (de forma
informal).
16
https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108
P-value
Moeda trapaceira
1 1 1 1 1
Cara Cara Cara Cara Cara
× × × × =0 ,03125
2 2 2 2 2
17
P-value
Moeda trapaceira
1 1 1 1 1
Cara Cara Cara Cara Cara
× × × × =0 ,03125
2 2 2 2 2
1 1 1 1 1
Cara Cara Cara Cara Cara
× × × × =0 ,03125
2 2 2 2 2
20
Comparando grupos
Estatística/Teste Z (2 Grupos)
A estatística Z é utilizada para comparar médias de amostras com a
média esperada de um modelo/população/outra amostra. Dessa forma
podemos verificar se a mostra pertence a uma população.
21
Comparando grupos
Estatística/Teste Z (2 Grupos)
A estatística Z é utilizada para comparar médias de amostras com a
média esperada de um modelo/população/outra amostra. Dessa forma
podemos verificar se a mostra pertence a uma população.
O problema desse teste é que, ou a amostra dever ser grande o suficiente para aproximar o
desvio padrão ou devemos conhecer a população. Outra limitação é a necessidade de saber a
média
23 paramétrica. Logo esse tipo de teste é mais útil para comparar pequenas
amostras com uma grande população.
Comparando grupos
Estatística/Teste Z (2 Grupos)
24
Comparando grupos
Teste T de Student (2 Grupos)
Assim como para pequenas amostras passamos da distribuição normal para a
de Student, quando parâmetros da população são desconhecidos ou a amostra é
pequena a estatística Z baseada na distribuição normal padronizada é
substituída pela estatística T (da distribuição T de Student). A equação é a
mesma, porém calculamos o valor-p integrando a distribuição T de Student.
25
Comparando grupos
Teste T de Student (2 Grupos)
26
Comparando grupos
Teste T de Student (2 Grupos)
27
Algumas questões formais
Parâmetros da população Vs Parâmetros da amostra
28
Algumas questões formais
Momentos estatísticos (decompondo uma distribuição)
A solução do “Problema dos momentos de Hausdorff” mostrou que é possível,
embora não seja fácil, para um intervalo finito de uma distribuição que
obedece a relação monotônica (praticamente todas largamente utilizadas),
recuperar distribuição dados seus momentos estatísticos.
N-ésimo Momento
Monotônico
=
N-ésimo Momento central padronizado
Outros tipos de
decomposição?
29
Momentos estatísticos
30
Reamostragem
A reamostragem é um processo baseado no conceito de “plug-in”, onde
estimamos parâmetros da população a partir de uma amostra, considerando
a mesma como uma distribuição empírica aproximada, logo é uma
extrapolação.
Dessa amostra podemos gerar várias outras através de fatias ou sorteio com
reposição. Não obtemos informação nova, porém podemos analisar várias
características da população, independente da distribuição da população.
31
Jackknife (analisando fatias)
Fatiamos os resultados, obtendo todas as possíveis amostras com um
elemento retirado.
Os resultados são sempre os mesmos (ideal para reprodução).
Obtemos uma
distribuição dos
valores de cada sub-
amostra, como por
exemplo a distribuição
das médias.
32
Reamostragem com reposição
Também podemos gerar novas amostras sorteando itens
de uma amostra. Se repormos os itens sorteados,
basicamente estaremos utilizando a amostra original
como distribuição de probabilidade (pense em termos
do número de elementos sobre espaço amostral). Podemos
assim gerar “novas” amostras com o mesmo
tamanho que a original, mas serão valores diferentes,
pois o mesmo elemento pode ser sorteado mais de uma
vez ou não ser sorteado.
Não ganhamos nova informação com isso, porém podemos
estimar o erro padrão através deste método.
Isso pode ser provado pela “Lei dos grandes números” da
estatística. É um conhecimento estabelecido que
Passo a passo amostras com 30 elementos ou mais já fornecem
uma boa aproximação, amostras com mais de 100
elementos são ideais. O número de reamostragens ideal
é de 1000 ou mais (embora 100 já forneça uma boa
33
aprox.).
Bootstrap
No slide anterior descrevemos na verdade um método de
reamostragem chamado de Bootstrap (alça da botina). Esse
método foi um novo passo na era da estatística
computacionalmente custosa (veremos em aulas futuras
outros métodos custosos utilizadas atualmente).
Criado por
Bradley Efron
em 1979
34
Bootstrap
35
Bootstrap (parâmetros enviesados)
36
Aplicações Bootstrap
- Metrologia
(industria)
- Eleições
- Estimativas do
governo sobre a
população
(intervalo de
confiança da altura
média de homens e
mulheres dada uma
amostra)
- Intervalo de
confiança de um
resultado cientifico.
37
Exemplo Bootstrap - Proporção
38
Método dos Mínimos Quadrados (MMQ
Ajuste linear
Fim do primeiro
tempo
39
Comparação de grupos
ANOVA (ANálise de Variância) (≥3 grupos)
A reamostragem é uma forma de lidar quando temos apenas
uma amostra e queremos obter mais informação da população.
Os testes Z e T comparam quando temos 2 amostras/grupos. A
ANOVA será nossa ferramenta para comparar 3 ou mais grupos.
Nesse caso vamos considerar a estatística F que é a distribuição
do coeficiente de duas distribuições chi-quadrado, porém
vamos ver isso na próxima aula.
40
Erro estatístico e erro sistemático/viés
A dispersão de uma amostra pode estar
relacionada a dois tipos de “erros”:
Acumulo
de
amostras
41
Erro estatístico e erro sistemático/viés
Viés típico
Tipo soma Tipo multiplicativo
42
Erro estatístico e erro sistemático/viés
43
Erro quadrático médio (MSE)
Variância do
resíduo
Viés do
tipo soma
44
Outliers e parâmetros sensíveis
Outlier é um valor aberrante, atípico que destoa, “um ponto fora da
curva”, pode ser um dado “defeituoso” ou apenas um evento
extremamente raro.
45
Outliers e parâmetros sensíveis
Outlier é um valor aberrante, atípico que destoa, “um ponto fora da
curva”, pode ser um dado “defeituoso” ou apenas um evento
extremamente raro.
46
Outliers e outliers
Detectar parâmetros
de forma sensíveis
automatizada pode ser
problemático.
Outlier é um valor aberrante, atípico que destoa, “um ponto fora da
curva”, pode ser um dado “defeituoso” ou apenas um evento
extremamente raro.
47
Outliers e parâmetros sensíveis
Tipos de outliers
48
Técnicas de detecção de outliers
49
Método dos Mínimos Quadrados (MMQ
Ajuste linear
50
Método dos Mínimos Quadrados (MMQ
Ajuste linear
Na próxima aula
Computacional:
- Paralelização de códigos
- Estimadores
a
- Solução da lista 2 (1 parte)
51
Introdução à paralelização no Python
(PARTE 1)
Cores
Threads
Processes
Programação paralela, concorrente e distribuída
variáveis globais e locais
Gargalos → GIL, leitura escrita, memória ram
MPI
OpenMP
fork, pymp e multiprocessing
Bash e moreutils parallel
CUDA e OpenCL
NUMBA
DASK
parâmetros externos
52
Comentários sobre a lista 2
53