Você está na página 1de 53

Astroestatística – Aula 2 e 3

Estatística frequencista
Professor: Pedro da Silveira Ferreira
Período: 2019/2
Leis de potência e distribuição/Lei de
Pareto (80/20)
Leis de potência são muito comuns na ciência (por ex: 3a Lei de Kepler, lei
de Stefan–Boltzmann, lei da gravitação de Newton e lei de Coulomb).
Essas leis relacionam duas variáveis, sendo uma delas proporcional a outra
elevada à um exponente. Muitas distribuições podem ter suas caudas
(regiões de eventos de baixa probabilidade) aproximadas por leis de
potência.

Podemos ter distribuições estatísticas na


forma de lei de potência:

Um caso específico, sendo a primeira


distribuição na forma de lei de potência
descoberta, é a Lei de Pareto (α =1,16 ).

A lei de Pareto, também chamada de lei 80-20, é um caso específico de distribuição


onde 80% da probabilidade acumulada (integral) se deve a 20% dos valores possíveis
2 x. Esse fenômeno acontece em diversas áreas desde o número de ervilhas por
para
vagem, parcela da população saudável até a massa de meteoritos e erros de HDs.
Leis de potência e distribuição/Lei de
Pareto (80/20)
Leis de potência são muito comuns na ciência (por ex: 3a Lei de Kepler, lei
de Stefan–Boltzmann, lei da gravitação de Newton e lei de Coulomb).
Essas leis relacionam duas variáveis, sendo uma delas proporcional a outra
elevada à um exponente. Muitas distribuições podem ter suas caudas
(regiões de eventos de baixa probabilidade) aproximadas por leis de
potência.

Podemos ter distribuições estatísticas na


forma de lei de potência:

Um caso específico, sendo a primeira


distribuição na forma de lei de potência
descoberta, é a Lei de Pareto (α =1,16 ). CDF

A lei de Pareto, também chamada de lei 80-20, é um caso específico de distribuição


onde 80% da probabilidade acumulada (integral) se deve a 20% dos valores possíveis
3 x. Esse fenômeno acontece em diversas áreas desde o número de ervilhas por
para
vagem, parcela da população saudável até a massa de meteoritos e erros de HDs.
Distribuições contínuas
Log-normal
Uma variável aleatória X tem a distribuição log-normal quando o seu logaritmo
Y = log(X) tem a distribuição normal.
Podemos estender o
teorema do limite
central para o produto
de variáveis aleatórias,
demonstrando que
obtemos
aproximadamente uma
distribuição Log-normal.

Exemplos (Voids e núcleos ativos):


https://arxiv.org/pdf/1612.03180.pdf
4 https://www.aanda.org/articles/aa/pdf
/2009/33/aa12303-09.pdf
Distribuições contínuas
Log-normal
Uma variável aleatória X tem a distribuição log-normal quando o seu logaritmo
Y = log(X) tem a distribuição normal.
Podemos estender o
teorema do limite
central para o produto
de variáveis aleatórias,
demonstrando que
obtemos
aproximadamente uma
distribuição Log-normal.

Exemplos (Voids e núcleos ativos):


https://arxiv.org/pdf/1612.03180.pdf
5 https://www.aanda.org/articles/aa/pdf
/2009/33/aa12303-09.pdf
Distribuições contínuas
Gamma
A distribuição Gama é usada para modelar valores de dados positivos que
são assimétricos à direita e maiores que 0. Ela é comumente usada em
estudos de sobrevivência de confiabilidade.

Existem outras parametrizações. Veremos com mais detalhes quando formos ver
a estatística Bayesiana.
A Distribuição Gama gera toda uma família de
distribuições, de acordo com os parâmetros
escolhidos. As distribuições Exponenciais e de
Chi-Quadrado são geradas por uma escolha
de parâmetros da distribuição Gama.

Na medida que β tende a zero as distribuições


Gamma tendem à Normal.

6
Distribuições contínuas
T de Student
A distribuição T de Student (pseudônimo de William Sealy Gosset que não podia
usar seu nome verdadeiro para publicar trabalhos enquanto trabalhasse para a
cervejaria Guinness) é simétrica e semelhante a distribuição Normal, porém
com caldas mais largas.

O parâmetro υ determina o número de graus de liberdade. Quanto maior o


seu valor, mais se aproximará da distribuição Normal.

Aparece naturalmente ao observarmos


amostras muito pequenas de
populações com distribuição normal
(normalmente menor que 30). Sendo
importante para verificar a significância da
diferença da média de duas amostras
pequenas.

7
Distribuições contínuas
2
χ e estimadores
É a distribuição das somas de amostras É comum gerar estimadores a
aleatórias de uma distribuição normal partir do processo de
padronizada elevadas ao quadrado. O minimização do Chi-
número de graus de liberdade (k) é o Quadrado. É similar ao MMQ
número de amostras sendo somadas. porém ponderamos pelo
desvio padrão ou erro
associado (teórico). Podemos
criar também estimadores em

Estimadores
múltiplas componentes.

8
Distribuições contínuas
2
χ e estimadores
É a distribuição das somas de amostras É comum gerar estimadores a
aleatórias de uma distribuição normal partir do processo de
padronizada elevadas ao quadrado. O minimização do Chi-
número de graus de liberdade (k) é o Quadrado. É similar ao MMQ
número de amostras sendo somadas. porém ponderamos pelo
desvio padrão ou erro
X −μ
Z=
σ
associado (teórico). Podemos
μ (Z )=0 , σ =1 criar também estimadores em

Estimadores
múltiplas componentes.

9
Distribuições contínuas
2
χ e estimadores
É a distribuição dasésomas
A padronização deobrigatória
praticamente amostras para se determinar É acomum gerar
média de um estimadores
conjunto de notas. a
Tome-se o vestibular, por exemplo, que é constituído de várias provas (5 a 10 disciplinas
aleatórias de uma
diferentes). Seriadistribuição normal
praticamente impossível classificar ospartir do processo
candidatos de
pelos seus escores
padronizada elevadas
brutos originais. Assimao quadrado.
é necessário O das várias
fazer a média minimização
provas. Só que asdo Chi-
provas são
de matérias diferentes, com graus de dificuldade diferentes e não necessariamente
número de graus de liberdade (k) é o Quadrado. É similar ao MMQ
com o mesmo número de questões, isto é, cada uma tem sua própria unidade de
número medida.
de amostras sendoqual
Como não sabemos somadas.
é a média entre um jacaré porém e umaponderamos
lagartixa, pelo
precisamos antes de calcularmos a média transformarmos todas as diferentes
unidades em uma única comum. Essa medida
desvio padrão ou erro
X −μ comum é a variável padronizada, que é um
valor sem unidade, isto é, a variável Z é o Znúmero
=
σ
associado
de desvios padrão a contar (teórico). Podemos
da média. Assim,
ao invés de termos 15 acertos em matemática ou 20 acertos em português, teremos 0,5 ou 1,5
desvios acima ou abaixo da média.
μ (Z )=0 , σ =1 criar também estimadores em

Estimadores
múltiplas componentes.
A pergunta que poderia ser feita é: se a média e o desvio padrão de todas as provas são iguais
então as variáveis (conjuntos de dados) são iguais. Claro que não. Se você pesa 75 kg e mede
1,80 e o Brad Pitt tem o mesmo peso e a mesma altura, você é o Brad Pitt! O que então
diferencia um conjunto de outro? Os conjuntos serão diferentes porque eles terão
assimetrias e curtoses diferentes e são essas medidas que moldam os conjuntos, isto
é, definem sua aparência e personalidade. Tanto a assimetria quanto a curtose não se
alteram quando a variável é padronizada, isto é, são medidas invariantes a
transformações desse tipo.
Convém salientar que padronização não é normalização, como erroneamente aparece em alguns
textos. Se a variável é normal então padronizando não se altera a normalidade, contudo se a
variável não é normal então a padronização não a tornará normal, quer dizer, loucura não se cura
com xarope para a tosse.
Assim, meu amigo, se na sua escola ou faculdade, existe um prêmio para o melhor aluno ou
láurea acadêmica, tente descobrir como os responsáveis estão calculando o desempenho médio
dos candidatos e veja se eles estão utilizando a padronização. Caso isso não ocorra eles estão
fazendo média entre cobra e porco espinho e achando que isso dá arame farpado.
10 Prof. Lorí Viali - Puc-RS
Distribuições contínuas
2
χ e estimadores
Podemos utilizar o teste de Pearson do Chi-Quadrado para verificar se uma
distribuição de valores observados segue o esperado/previsto/modelo.
O quanto se difere do
valor de contagens

Podemos aproximar pela


Como trata-se de um problema distribuição Chi-Quadrado (que
de contagens a distribuição
está associada à distrib. Normal)
esperada é Poisson.
para contagens maiores que 5
(Poisson tende à Normal).

11
Distribuições contínuas
2
χ e estimadores
Teste de Pearson do Chi-Quadrado (aderência)
Dia 2ª 3ª 4ª 5ª 6ª Sáb. Comparando Hipóteses:

H0= Hipótese nula


Distribuição 10% 10% 15% 20% 30% 15%
esperada = O antigo dono diz a verdade
H1= Hipótese alternativa
Observado 30 14 34 45 57 20 = O antigo dono está mentindo
Esperado 20 20 30 40 60 30

2 (30−20) 2 (14−20) 2 (34−30) 2 (45−40) 2 (57−60) 2 (20−30) 2


χ = + + + + + =11 ,44
20 20 30 40 60 30
Graus de liberdade = 6 – 1 = 5 (Pois conseguimos um dos valores utilizando a
média)
Para descartar uma hipótese sempre devemos escolher um valor crítico de
corte (tipicamente 0,5% ou 0,1, vamos ver mais sobre isso nos próximos slides).
O quão provável é obter o
valor observado
12 considerando a hipótese
nula.
Distribuições contínuas
2
χ e estimadores
Teste de Pearson do Chi-Quadrado (aderência)

2 (30−20) 2 (14−20) 2 (34−30) 2 (45−40) 2 (57−60) 2 (20−30) 2


χ = + + + + + =11 ,44
20 20 30 40 60 30
Graus de liberdade = 6 – 1 = 5 (Pois conseguimos um dos valores utilizando a
média)
Aproveitando que está padronizado podemos utilizar uma distribuição
Chi-Quadrado com 5 graus de liberdade para obter o valor crítico.

13
Distribuições contínuas
2
χ e estimadores
Teste de Pearson do Chi-Quadrado (aderência)
Isso
2 poderia
(30−20) 2
ser aplicado
(14−20) 2
(34−30)por
2
exemplo
(45−40) 2
para
(57−60) 2
a taxa 2
(20−30)
χ =algum evento
+ + + + + =11 ,44
de 20 20 astronômico
30 dado
40 um modelo!
60 30
Graus de liberdade = 6 – 1 = 5 (Pois conseguimos um dos valores utilizando a
média) Corte:11,07
Aproveitando que está padronizado podemos utilizar uma distribuição
Chi-Quadrado com 5 graus de liberdade para obter o valor crítico.

Considerando o nosso corte o dono está errado!


Temos 95% de certeza disso.
Esse tipo de teste mede a “Bondade de um
ajuste”, conceito que veremos em aulas futuras.

14
P-value
O que é o valor-p?
O valor-p é a probabilidade de, considerando a hipótese nula, obter-se uma
estatística teste igual ou mais extrema que a observada. Um valor-p pequeno
significa que a probabilidade de obter um valor da estatística de teste como
o observado é muito improvável, levando assim à rejeição da hipótese
nula → Nível de significância. Os valores de corte normalmente
utilizados são 5% e 1%.
•O valor-p não é a probabilidade da hipótese nula de um teste ser
verdadeira.
•O valor-p não é a probabilidade de um dado resultado ter sido obtido de um
"acaso".
•O valor-p não é a probabilidade da hipótese nula ter sido enganosamente
rejeitada.
•A magnitude do valor-p não indica o tamanho ou a importância de um efeito
observado. Por exemplo, em uma pesquisa clínica onde são comparados dois
tratamentos, um valor-p bastante pequeno não é um indicador de que existe
uma grande diferença entre os efeitos dos tratamentos comparados.
O grande uso, muitas vezes equivocado do valor-p levou a ASA a publicar um
artigo em 2016 discutindo o significado, uso e relevância do valor-p (de forma
informal).
15
https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108
P-value
O que é o valor-p?
O valor-p é a probabilidade de, considerando a hipótese nula, obter-se uma
estatística teste igual ou mais extrema que a observada. Um valor-p pequeno
significa que a probabilidade de obter um valor da estatística de teste como
o observado é muito improvável, levando assim à rejeição da hipótese
nula → Nível de significância. Os valores de corte normalmente
utilizados são 5% e 1%.
•O valor-p não é a probabilidade da hipótese nula de um teste ser
verdadeira.
O valor-p
•O valor-p não é aéprobabilidade
utilizado de para descartar
um dado resultado termodelos,
sido obtido de um
"acaso".
comparando uma hipótese e uma contra hipótese,
•O valor-p não é a probabilidade da hipótese nula ter sido enganosamente
rejeitada. considerando um valor de corte.
•A magnitude do valor-p não indica o tamanho ou a importância de um efeito
observado. Por exemplo, em uma pesquisa clínica onde são comparados dois
tratamentos, um valor-p bastante pequeno não é um indicador de que existe
uma grande diferença entre os efeitos dos tratamentos comparados.
O grande uso, muitas vezes equivocado do valor-p levou a ASA a publicar um
artigo em 2016 discutindo o significado, uso e relevância do valor-p (de forma
informal).
16
https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108
P-value
Moeda trapaceira

1 1 1 1 1
Cara Cara Cara Cara Cara
× × × × =0 ,03125
2 2 2 2 2

17
P-value
Moeda trapaceira

1 1 1 1 1
Cara Cara Cara Cara Cara
× × × × =0 ,03125
2 2 2 2 2

Two-tailed (duas caudas) Single-tailed (uma cauda)

O valor-p é muito utilizado em métodos de comparação de


18 grupos.
P-value
Moeda trapaceira

1 1 1 1 1
Cara Cara Cara Cara Cara
× × × × =0 ,03125
2 2 2 2 2

Two-tailed (duas caudas) Single-tailed (uma cauda)


for
n ão
ca? ibuição
sim a distr
étri
E se

O valor-p é muito utilizado em métodos de comparação de


19 grupos.
Comparação de grupos

Comparar grupos pode ser importante para verificar se


algum comportamento se alterou (como um grupo de
pacientes que tomou e um que não tomou um medicamento),
se pertencem a mesma população ou se possuem
desvio significativo (comparar alunos de professores ou
escolar diferentes) e por ai vai.
Como vimos, o teste de Chi Quadrado de Pearson é útil para
comparar frequências entre dois grupos, porém as vezes
outras grandezas, como a média e o desvio padrão, são as de
interesse e para isso vamos introduzir outros testes.
O valor-P associado a um critério de corte será importante
nesses casos para classificar se os grupos são ou não
diferentes de forma estatisticamente significativa.

20
Comparando grupos
Estatística/Teste Z (2 Grupos)
A estatística Z é utilizada para comparar médias de amostras com a
média esperada de um modelo/população/outra amostra. Dessa forma
podemos verificar se a mostra pertence a uma população.

X̄ amostra−μ população X̄ amostra−μ população


Z= σ população ≈ σ amostra
√ N suficientemente
Se N é
√N
grande

21
Comparando grupos
Estatística/Teste Z (2 Grupos)
A estatística Z é utilizada para comparar médias de amostras com a
média esperada de um modelo/população/outra amostra. Dessa forma
podemos verificar se a mostra pertence a uma população.

X̄ amostra−μ população X̄ amostra−μ população


Z= σ população ≈ σ amostra
√ N suficientemente
Se N é
√N
grande

O quanto se afasta da média em termos do erro padrão (SE). Como a


distribuição das médias tende à distribuição normal, sendo o SE o desvio
padrão, estamos fazendo uma padronização da distribuição das médias.

Logo para calcular o valor-p basta


calcularmos integrarmos a
Gaussiana com média 0 e desvio
padrão 1.
22
Comparando grupos
Estatística/Teste Z (2 Grupos)

O problema desse teste é que, ou a amostra dever ser grande o suficiente para aproximar o
desvio padrão ou devemos conhecer a população. Outra limitação é a necessidade de saber a
média
23 paramétrica. Logo esse tipo de teste é mais útil para comparar pequenas
amostras com uma grande população.
Comparando grupos
Estatística/Teste Z (2 Grupos)

Ao dividirmos uma distribuição em


partes/regiões de mesma
probabilidade estamos dividindo a
mesma em quantis.
Alguns casos especiais são o 2-
quantil (mediana), 4-quantil
(quartil, em 4 partes) e o 100-
quantil (percentil).
Gráficos com valores-p
frequentemente aparecem
divididos em quantis.

24
Comparando grupos
Teste T de Student (2 Grupos)
Assim como para pequenas amostras passamos da distribuição normal para a
de Student, quando parâmetros da população são desconhecidos ou a amostra é
pequena a estatística Z baseada na distribuição normal padronizada é
substituída pela estatística T (da distribuição T de Student). A equação é a
mesma, porém calculamos o valor-p integrando a distribuição T de Student.

25
Comparando grupos
Teste T de Student (2 Grupos)

26
Comparando grupos
Teste T de Student (2 Grupos)

27
Algumas questões formais
Parâmetros da população Vs Parâmetros da amostra

Até o momento não fomos muito


formais/rigorosos com relações as definições.
Embora já tenha citado, é importante ressaltar
que:

σ → Desvio padrão da população


s → Desvio padrão da amostra
μ → Média da população
X̄ → Média da amostra
^ → Estimador , teórico ou ajustado /estimado

28
Algumas questões formais
Momentos estatísticos (decompondo uma distribuição)
A solução do “Problema dos momentos de Hausdorff” mostrou que é possível,
embora não seja fácil, para um intervalo finito de uma distribuição que
obedece a relação monotônica (praticamente todas largamente utilizadas),
recuperar distribuição dados seus momentos estatísticos.

N-ésimo Momento

Monotônico

N-ésimo Momento central

=
N-ésimo Momento central padronizado

Outros tipos de
decomposição?

29
Momentos estatísticos

30
Reamostragem
A reamostragem é um processo baseado no conceito de “plug-in”, onde
estimamos parâmetros da população a partir de uma amostra, considerando
a mesma como uma distribuição empírica aproximada, logo é uma
extrapolação.

Dessa amostra podemos gerar várias outras através de fatias ou sorteio com
reposição. Não obtemos informação nova, porém podemos analisar várias
características da população, independente da distribuição da população.

-Utilidade: Erro padrão, mediana (apenas o Bootstrap), intervalos de


confiança (assim é possível saber a certeza com relação a
extrapolação), proporções e estimativa de viés. ML.
-Benefícios: Não depende da distribuição, estimar parâmetros da
população quando não é viável expandir a amostra, é pouco sensível a
outliers.
-Cuidados: Não funciona para distribuições com variância
indefinida/“cauda extensa”, por exemplo Leis de Potência. Se a
amostra é enviesada os resultados de reamostragem também serão.

31
Jackknife (analisando fatias)
Fatiamos os resultados, obtendo todas as possíveis amostras com um
elemento retirado.
Os resultados são sempre os mesmos (ideal para reprodução).
Obtemos uma
distribuição dos
valores de cada sub-
amostra, como por
exemplo a distribuição
das médias.

32
Reamostragem com reposição
Também podemos gerar novas amostras sorteando itens
de uma amostra. Se repormos os itens sorteados,
basicamente estaremos utilizando a amostra original
como distribuição de probabilidade (pense em termos
do número de elementos sobre espaço amostral). Podemos
assim gerar “novas” amostras com o mesmo
tamanho que a original, mas serão valores diferentes,
pois o mesmo elemento pode ser sorteado mais de uma
vez ou não ser sorteado.
Não ganhamos nova informação com isso, porém podemos
estimar o erro padrão através deste método.
Isso pode ser provado pela “Lei dos grandes números” da
estatística. É um conhecimento estabelecido que
Passo a passo amostras com 30 elementos ou mais já fornecem
uma boa aproximação, amostras com mais de 100
elementos são ideais. O número de reamostragens ideal
é de 1000 ou mais (embora 100 já forneça uma boa
33
aprox.).
Bootstrap
No slide anterior descrevemos na verdade um método de
reamostragem chamado de Bootstrap (alça da botina). Esse
método foi um novo passo na era da estatística
computacionalmente custosa (veremos em aulas futuras
outros métodos custosos utilizadas atualmente).

Os resultados nunca serão idênticos pois são


realizações aleatórias.

Criado por
Bradley Efron
em 1979

34
Bootstrap

35
Bootstrap (parâmetros enviesados)

Quanto maior o número de


amostras geradas menor o
viés.

36
Aplicações Bootstrap

- Metrologia
(industria)
- Eleições
- Estimativas do
governo sobre a
população
(intervalo de
confiança da altura
média de homens e
mulheres dada uma
amostra)
- Intervalo de
confiança de um
resultado cientifico.

37
Exemplo Bootstrap - Proporção

38
Método dos Mínimos Quadrados (MMQ
Ajuste linear

Fim do primeiro
tempo

39
Comparação de grupos
ANOVA (ANálise de Variância) (≥3 grupos)
A reamostragem é uma forma de lidar quando temos apenas
uma amostra e queremos obter mais informação da população.
Os testes Z e T comparam quando temos 2 amostras/grupos. A
ANOVA será nossa ferramenta para comparar 3 ou mais grupos.
Nesse caso vamos considerar a estatística F que é a distribuição
do coeficiente de duas distribuições chi-quadrado, porém
vamos ver isso na próxima aula.

40
Erro estatístico e erro sistemático/viés
A dispersão de uma amostra pode estar
relacionada a dois tipos de “erros”:

Erro estatístico: De natureza aleatória.

Erro sistemático: Por exemplo defeito no


detector, falha humana, desconhecimento de
um efeito, falha no modelo ou simplificação
das variáveis.

Repetindo um experimento podemos estimar


melhor um observável reduzindo o erro
estatístico mas não o sistemático.

Acumulo
de
amostras

41
Erro estatístico e erro sistemático/viés

Viés típico
Tipo soma Tipo multiplicativo

42
Erro estatístico e erro sistemático/viés

43
Erro quadrático médio (MSE)

O viés pode ser útil no cálculo do erro quadrático médio

Variância do
resíduo

Viés do
tipo soma

O EQM nos ajuda a estimar o erro


de um ajuste por mínimos
quadrados.

44
Outliers e parâmetros sensíveis
Outlier é um valor aberrante, atípico que destoa, “um ponto fora da
curva”, pode ser um dado “defeituoso” ou apenas um evento
extremamente raro.

-É chamado de medida robusta aquela que não é muito sensível a outliers


(como a Mediana) → Média, desvio padrão e covarância são parâmetros
sensíveis a outliers, por tanto o ajuste linear por MMQ é sensível.
-Eliminar Outliers é perigoso (você pode acabar manipulando os dados)

45
Outliers e parâmetros sensíveis
Outlier é um valor aberrante, atípico que destoa, “um ponto fora da
curva”, pode ser um dado “defeituoso” ou apenas um evento
extremamente raro.

-É chamado de medida robusta aquela que não é muito sensível a outliers


(como a Mediana) → Média, desvio padrão e covarância são parâmetros
sensíveis a outliers, por tanto o ajuste linear por MMQ é sensível.
-Eliminar Outliers é perigoso (você pode acabar manipulando os dados)

46
Outliers e outliers
Detectar parâmetros
de forma sensíveis
automatizada pode ser
problemático.
Outlier é um valor aberrante, atípico que destoa, “um ponto fora da
curva”, pode ser um dado “defeituoso” ou apenas um evento
extremamente raro.

-É chamado de medida robusta aquela que não é muito sensível a outliers


(como a Mediana) → Média, desvio padrão e covarância são parâmetros
sensíveis a outliers, por tanto o ajuste linear por MMQ é sensível.
-Eliminar Outliers é perigoso (você pode acabar manipulando os dados)

47
Outliers e parâmetros sensíveis

Tipos de outliers

-Erro de amostragem: ao avaliar a média nas notas


em física, normalmente baixas, algumas notas de
educação física foram incluídas.
-Erro ao processar dados: ao fazer o pré-
processamento dos dados pode-se utilizar algum
método que crie um outlier.
-Erro na entrada de dados: erros de digitação ou
coleta de informações.
-Erro de medida: são os mais comuns. Instrumentos
danificados ou usados de forma incorreta são fontes
constantes de outliers.
-Erro intencional: ao verificar-se a quantidade de
álcool ingerida na última semana em uma classe de
jovens, a maior parte intencionalmente, fornece valores
abaixo dos reais. Dessa forma, um jovem que fornece
os valores reais aparecerá como um outlier.

48
Técnicas de detecção de outliers

- Visualmente: amostras pequenas e dados pouco tratados


- Via CDF, quantil (intervalo de valores dos quantis centrais), comparação da
mediana com a média, e barreira interna.

O que fazer com o valor detectado. Temos algumas possibilidades:

-Eliminar o valor: se nosso conjunto de dados é grande o suficiente,


poderemos simplesmente deletar os valores anômalos sem maiores prejuízos
para a análise.
-Transformação logarítmica: a transformação logarítmica dos dados pode
reduzir a variação causada por valores extremos.
-Filtragem de dados: alguns filtros podem ser utilizados, como o média-
móvel (veremos isso em séries temporais).
-Tratamento separado: se a quantidade de outliers é significante, podemos
tratá-los separadamente. Podemos separar os valores em dois grupos e criar
modelos individuais.

49
Método dos Mínimos Quadrados (MMQ
Ajuste linear

Fim da parte teórica


da aula 2

50
Método dos Mínimos Quadrados (MMQ
Ajuste linear

Na próxima aula
Computacional:

- Paralelização de códigos
- Estimadores
a
- Solução da lista 2 (1 parte)

51
Introdução à paralelização no Python
(PARTE 1)

Cores
Threads
Processes
Programação paralela, concorrente e distribuída
variáveis globais e locais
Gargalos → GIL, leitura escrita, memória ram
MPI
OpenMP
fork, pymp e multiprocessing
Bash e moreutils parallel
CUDA e OpenCL
NUMBA
DASK
parâmetros externos

52
Comentários sobre a lista 2

53

Você também pode gostar