Aula 01 - Estatística e Probabilidade - Com Mateus Marcuzzo e Filipe Teixeira-Apresentação

Probabilidade e
Estatística
●
Filipe Teixeira:
ftcardoso@latam.stefanini.com
●
Mateus Marcuzzo:
mmrosa@latam.stefanini.com
Roteiro de Apresentação
I. Conceitos básicos: III. Medidas de Tendências Centrais: – Contínua:
– Áreas da Estatística: Descritiva, – Média amostral; ●
Função Densidade de Probabilidade
(FDP);
Probabilidade e Inferência; – Mediana;
●
Função de Distribuição Acumulada
– População x Amostra; – Moda; (FDA);
– Amostragem Probabilística: – Outliers; ●
Distribuições Contínuas:
●
Balanceamento (Estratificação IV. Representações Gráficas:  Uniforme;
Uniforme);  Normal:
– Tipos de Representação;
●
Estratificação (Estratificação ➔
Média;
Proporcional);
– Scatter Plot; ➔
Variância e Desvio Padrão (Erro
– Tipos de Variáveis:
– Boxplot; padrão x Desvio Padrão);
– Histograma; ➔
Teorema do Limite Central;
●
Qualitativas:
 Nominais; V. Variáveis Aleatórias: VI. Correlação e Causalidade:
 Ordinais; – Definições e Notações Importantes: – Correlação de Pearson;
●
Quantitativas Fenômeno Aleatório, Espaço Amostral, – Correlações não-lineares;
 Discretas; Eventos (Complementares, Disjuntos),
 Contínuas; P(.) e suas propriedades; VII. Probabilidade Condicional e
II. Combinatória: – Discreta: Independência:
Função Massa de Probabilidade (FMP);
Probabilidade Condicional;
●
–
– Conjuntos; ●
Função de Distribuição Acumulada (FDA);
– Princípios de Contagem: ●
Distribuições Discretas:
– Eventos Independentes x Eventos
●
Fatorial;  Uniforme; Mutualmente Exclusivos;
●
Permutação;
 Bernoulli; – Teorema de Bayes;
 Binomial;
●
Arranjo;
 Geométrica; VIII. Tópicos Complementares;
●
Combinação;
Conceitos Básicos
Áreas da Estatística
●
Estatística Descritiva – conjunto de técnicas destinadas a
descrever e resumir dados, a fim de tirar conclusões a
respeito de características de interesse;
●
Probabilidade – teoria matemática utilizada para se estudar
a incerteza oriunda de fenômenos de caráter aleatório;
●
Inferência Estatística – estudo de técnicas que possibilitam
a extrapolação, a um grande conjunto de dados, das
informações e conclusões obtidas a partir de subconjuntos
de valores, usualmente de dimensão muito menor;
População x Amostra
Referência da Imagem: https://learninglink.oup.com/static/5e29bfc369c98b0010b09170/index.html

[Acesso: 12/07/2021]
Amostragem Probabilística
●
Amostragem Não-Probabilística – envolve seleção
não-aleatória baseada em critérios definidos.
Exemplo: amostragem por conveniência (incluir
indivíduos mais acessíveis de uma população);
●
Probabilística - pois envolve seleção aleatória,
de forma a permitir a constatação de inferências
fortes sobre a população. Exemplo: amostra
casual simples (seleção ao acaso, com ou sem
reposição) – mais comumente utilizada;
Amostragem Probabilística
Referência da Imagem: https://www.scribbr.com/methodology/population-vs-sample/ [Acesso:

12/07/2021]
Balanceamento (Estratificação Uniforme):
classes balanceadas na amostra
Referência da Imagem (Modificada): https://www.scribbr.com/methodology/population-vs-sample/

[Acesso: 12/07/2021]
Estratificação (Estratificação Proporcional):
classes proporcionais na amostra
Referência da Imagem: https://www.scribbr.com/methodology/stratified-sampling/ [Acesso:

12/07/2021]
Tipos de Variáveis – variam
dependendo do contexto
●
Qualitativas:
– Nominais – Ex.: Sexo (M,F);
– Ordinais – Ex.: Tamanho de
roupa (P, M, G);
●
Quantitativas:
– Discretas – Ex.: Número de
irmãos;
– Contínuas – Ex.: Peso;
●
Como caracterizar uma
variável “Idade”?
Referência da Imagem: https://statsandr.com/blog/variable-types-and-examples/ [Acesso:
12/07/2021]
Combinatória
Combinatória
 Conjuntos
 Princípios de Contagem
 Fatorial
 Permutação
 Arranjo
 Combinação
Conjuntos
 Possuem relações e operações:

 α∈B B
 (α pertence ao conjunto B ou α é elemento de B)pertence pertence ao conjunto B ou α é elemento de B)ao pertence ao conjunto B ou α é elemento de B)conjunto pertence ao conjunto B ou α é elemento de B)B pertence ao conjunto B ou α é elemento de B)ou pertence ao conjunto B ou α é elemento de B)α pertence ao conjunto B ou α é elemento de B)é pertence ao conjunto B ou α é elemento de B)elemento pertence ao conjunto B ou α é elemento de B)de pertence ao conjunto B ou α é elemento de B)B)
 A⊂B B
 (A pertence ao conjunto B ou α é elemento de B)está pertence ao conjunto B ou α é elemento de B)contido pertence ao conjunto B ou α é elemento de B)em pertence ao conjunto B ou α é elemento de B)B pertence ao conjunto B ou α é elemento de B)ou pertence ao conjunto B ou α é elemento de B)A pertence ao conjunto B ou α é elemento de B)é pertence ao conjunto B ou α é elemento de B)sub-conjunto pertence ao conjunto B ou α é elemento de B)de pertence ao conjunto B ou α é elemento de B)B)
 AUB
 (Conjunto com todos os elementos de A OU de B)
 A∩B
 (Conjunto com os elementos que estão simultaneamente em A e em
B)
Ã
 (A complementar, ou conjunto dos elementos NÃO pertencentes a A)
Conjuntos
Princípios de Contagem
Princípio Princípio
Multiplicativo Aditivo
Princípio Aditivo
 Se existem n1 maneiras do evento E1 ocorrer,

 n2 maneiras do evento E2 ocorrer, …,
 nk maneiras do evento Ek ocorrer, então:
 Se estes eventos são mutuamente exclusivos par-a-par, então o número
de maneiras que pelo menos um destes eventos ocorra é:
Princípio Multiplicativo
 Assuma que um evento E pode ser decomposto em r eventos

ordenados: E1,E2,…,Er e que existam:
 n1 maneiras do evento E1 ocorrer,
 n2 maneiras do evento E2 ocorrer, …,
 nk maneiras do evento Ek ocorrer, então o número de maneiras do
evento E ocorrer é:
Princípios de contagem, exemplos:
 Meu dataset possui duas colunas: coluna A e

coluna B, a Coluna A tem 5 categorias, e a coluna
B tem apenas 3. Queremos contar a quantidade de
pares possíveis da forma (elemento da coluna A,
elemento da coluna B):
 5 x 3 = 15
Princípios de contagem, exemplos:
 Tenhoum dataset com locais de nascimento

de um conjunto de pessoas que podem ser
cidades do DF ou de MG.
 Quantos locais de nascimento existem no
total?
 Total_cidades(DF) + Total_cidades(MG)
Mais exemplos:
 A região SUL do País é composta pelos estados de

SC, PR, RS
 Quero escolher duas cidades de estados diferentes
de qualquer um destes estados, de quantas formas
podemos escolher estas duas cidades? (c1,c2)
 Com os dois princípios:
 (Total(RS) x Total(PR)) + (Total(RS) x Total(SC)) + (Total(SC)
x Total(PR))
 Vamos fingir que as regiões de SC, PR e RS tem respectivamente
4,3,2 cidades.
RS
PR
4x2 + 4x3 + (?)
SC
 Vamos fingir que as regiões de SC, PR e RS tem respectivamente
4,3,2 cidades.
RS
PR
4x2 + 4x3 + 2x3
SC
Fatorial:
 Definição:
 Fatorial(N) ou N! É dado por:
Permutação:
 Dequantas formas podemos ordenar N

elementos diferentes? N!
 Direto do princípio multiplicativo.
N (N-1) (N-2) (N-3) … 2 1

Arranjo:
 Mas se quisermos mostrar apenas K desses N?

 Temos o Arranjo:
N (N-1)(N-2) … (1)
 Portanto: N!/(N-K)! (Sobram apenas os K primeiros)

Arranjo exemplo:
 Estamos montando uma build de habilidades

de um personagem de MOBA, que tem as
habilidades diferentes numeradas de 1 até N.
 Apesar disso, ele não pode escolher todas,

apenas 5. De quantas formas ele pode montar
a build do personagem até atingir a última
habilidade?
Arranjo exemplo:
 Resposta: N x (N-1) x (N-2) x (N-3) x (N-4)
 Ou: Arranjo de N,5 = N!/(N-5)!
 Aqui a ordem é importante.

Combinação:
E se quiséssemos considerar apenas quais

habilidades foram escolhidas? Palavra-chave:
escolha:
N x (N-1) x (N-2) x (N-3) x (N-4) / 5!
 Mais genericamente: N!/((N-5)!(5!))

 Se fossem K:
 N!/((N-K)!(K!))
Combinação:
 Escolha K (diferentes) de N: N!/((N-K)!(K!))

 No python:
Combinatória
Para gerar combinações, arranjos e

afins:
https://docs.python.org/3/library/itertools.h
tml
Medidas de Tendências Centrais
Medidas de tendência central
 Média Amostral
 Mediana
 Moda
 Outliers
Média Amostral
A média amostral de uma variável

aleatória X de N amostras é dada por:
 Onde x1, x2, …, xN são realizações da

variável aleatória X
Média Amostral
 Muitasvezes confundida com a Média/

Esperança Matemática da Variável
aleatória
 Ocorre no mundo real, não no ideal.
 Ela
mesma uma variável aleatória
(tem distribuição!)
Média Amostral - Exemplo
 Suponha termos uma população de

pessoas.
 Suponham que sejam de um país.
 Queremos saber a altura média desta
população.
 Uma estratégia é adotar a média amostral

e estimar um erro. Afinal, não sabemos a
média real. Portanto, estamos estimando-
a com a média amostral.
 Com uma amostra aleatória N destas
pessoas, temos uma média amostral. Se
realizarmos este processo de amostragem
várias vezes, teremos uma distribuição
destas médias
 Portanto, a média real é um valor do

tipo:
Mediana
A mediana é o valor central de valores

quando ordenados. No caso contínuo,
pode ser considerada o ponto em que
a distribuição acumulada alcança 0.5
de probabilidade.
Mediana
 Ex: 1,1,1,2,2,2,2,3,3,3,4,4,4,4,5,6,7
 Temos aqui 17 valores (já ordenados).
O valor que "divide" ao meio é:
 1,1,1,2,2,2,2,3,3,3,4,4,4,4,5,6,7
Mediana
E se tivéssemos uma quantidade par

de valores? Exemplo:
 4,3,2,1
 Ordenamos: 1,2,3,4
E entre 2 e 3, tomamos a média
destes dois, como se houvesse um
número entre eles: (2+3)/2 = 2.5
Mediana
 Por que usar a mediana?

 Alternativa à média.
 Mais resistente a outliers
Outliers
 Sãoamostras que não obedecem à regra

geral e devem ser consideradas exceções
 Chamados também de anomalias ou
novidades (novelty)
 Podem afetar desempenho de modelos
 Podem indicar falha na medição do fenômeno
 Podem não ser ruído
 Exigem cautela no tratamento
Moda
 Valor
mais frequentemente observado
nos dados
 Nem sempre os dados tem uma
natureza ordenada e/ou numérica
(suas frequências que contam)
 Pode
indicar alguma tendência ou
comportamento de interesse
Representações Gráficas
Tipos de Representação
●
Existem diversos tipos de representações
(gráficas ou tabulares), cada qual melhor
adaptada para certos contextos – relacionados
por exemplo ao tipo de variável em estudo:
– Tabela de Frequência (absoluta, relativa,
acumulada) – qualitativas e quantitativas;
– Diagrama Circular ou Gráfico de Disco/Pizza –
qualitativas nominais;
– Gráfico de Barras – quantitativas discretas ou
qualitativas ordinais;
– Gráfico de Linhas – quantitativas contínuas (ex.:
séries temporais);
●
É preciso cuidado ao interpretar/gerar
estatísticas e representações gráficas ou
tabulares de estatísticas para não se enganar
nem enganar aos outros! Vídeo sobre o assunto
com legendas:
https://www.youtube.com/watch?v=bVG2OQp6j
EQ
Referência da Imagem: https://www.guru99.com/histogram-vs-bar-chart.html [Acesso: 25/07/2021]

Scatter Plot – Relações lineares/não-
lineares entre variáveis
Referência da Imagem:
https://www.flai.com.br/juscudilio/scatter-plot-um-guia-completo-para-graficos-de-dispersao/
[Acesso: 25/07/2021]
Scatter Plot – Relações de agrupamento
entre variáveis
https://www.flai.com.br/juscudilio/scatter-plot-um-guia-completo-para-graficos-de-dispersao/
[Acesso: 25/07/2021]
Scatter Plot – Exemplo: erupções Short wait
short duration vs. Long wait long duration
Referência da Imagem: https://en.wikipedia.org/wiki/Scatter_plot [Acesso: 25/07/2021]

Boxplot – Interpretação de variabilidade
e simetria dos dados
Referência da Imagem: https://www.kdnuggets.com/2019/11/understanding-boxplots.html [Acesso:

12/07/2021]
Boxplot – Comparação com FDP de
uma distribuição (quase) Normal
Referência da Imagem: https://www.kdnuggets.com/2019/11/understanding-boxplots.html [Acesso:

12/07/2021]
Boxplot – Exemplo: amostras de peso
para cada um dos dois sexos
Referência da Imagem: Noções de Probabilidade e Estatística 6ª Edição, pg. 19 , Magalhães e

Pedroso, 2004
Histograma
●
Representa uma distribuição em
frequência da ocorrência de
observações para um certo intervalo de
valores (bins);
●
Frequência absoluta (em azul) ou relativa
(em verde);
●
Histograma x Gráfico de Barras (algumas
diferenças gerais):
– Dados numéricos x categóricos;
– Contato entre barras x barras espaçadas;
– Largura pode ser variável x largura fixa;
– Exibe frequência de ocorrência x compara
diferentes categorias de dados;
– Blocos ordenados x blocos podem estar fora
de ordem;
Referência da Imagem: https://chartio.com/learn/charts/histogram-complete-guide/ [Acesso:

12/07/2021]
Histograma – Exemplo de variável
quantitativa discreta (relacionado à FMP)
https://www.researchgate.net/figure/Example-of-histogram-equalization-a-The-input-image-and-b-it
s-graylevel-histogram_fig1_269694707
[Acesso: 12/07/2021]
Histograma – Exemplo de variável
quantitativa contínua (relacionado à FDP)
Referência da Imagem: https://chartio.com/learn/charts/histogram-complete-guide/ [Acesso:

12/07/2021]
Variável Aleatória
Definições e Notações Importantes
●
Fenômeno aleatório: situação ou acontecimento cujos resultados não podem ser
previstos com certeza;
●
Espaço amostral: conjunto de todos os resultados possíveis de um evento aleatório –
Ω;
●
Evento: subconjuntos de Ω – A,B,… (evento vazio – ϕ););
●
Eventos complementares: A∪B = A∪AC = Ω e A∩B = A∩Ac = ϕ);, B = AC (união e
intersecção);
●
Eventos disjuntos ou mutualmente exclusivos: A∩B = ϕ);;
●
Probabilidade de um evento A: 0 ≤ P(A) ≤ 1, Ɐ A ⊂B Ω;
●
P(A) = 1 – P(Ac);
●
P(Ω) = 1 e P(ϕ);) = 0;
●
Regra da adição de probabilidades: P(A∪B) = P(A)+P(B)-P(A∩B);
●
P/ eventos disjuntos, P(A∪B) = P(A)+P(B) – Ex.: B = AC -> P(A∪B) = P(A)+P(B);
Discreta
●
Uma quantidade X, associada a cada possível resultado do espaço
amostral, é denominada de uma variável aleatória discreta, se
assume valores num conjunto enumerável, com certa
probabilidade. Por outro lado, será denominada variável aleatória
contínua, se seu conjunto de valores é qualquer intervalo dos
números reais, o que será um conjunto não enumerável;
●
Função Discreta de Probabilidade (Magalhães e Pedroso) ou Função
Massa de Probabilidade (FMP): P(X = xi) = p(xi) = pi, i = 1, 2, …
onde 0 ≤ pi ≤ 1 e Σi pi = 1;
●
Função de Distribuição de Probabilidade (Magalhães e Pedroso) ou
Função Distribuição Acumulada (FDA): F(x) = P(X ≤ x), x∈B R;
Uniforme Discreta
●
Interpretação: modela um numero
finito n de eventos igualmente
prováveis;
●
Exemplo: jogar um dado justo;
●
Notação: X ~ U{a,b};
● FMP: P(X = xk) = 1/n, Ɐ k = a, a+1, …,
b-1, b;
● FDA: F(xk) = (⌊k⌋ - a + 1)/(b-a+1) = (⌊k⌋
- a + 1)/n;
●
Média: (a+b)/2;
●
Mediana: (a+b)/2;
●
Moda: N/A;
●
Variância: (n2-1)/12;
Referência das Imagens: https://en.wikipedia.org/wiki/Discrete_uniform_distribution [Acesso:

12/07/2021]
Bernoulli - Ensaio de Bernoulli
●
Interpretação: modela a probabilidade de dois eventos
complementares – sucesso e falha - com probabilidade p de sucesso
e 1-p de falha;
●
Exemplo: jogar cara ou coroa com uma moeda viciada, verificada a
probabilidade de cada face;
●
Notação: X ~ Bernoulli(p);
●
FMP: P(X = k) = pk (1-p)1-k , k = 0, 1;
●
FDA: F(k) =
– 0 se k < 0;
– 1-p se 0 ≤ k < 1;
– 1 se k ≥ 1;
●
Média: p;
●
Mediana:
– 0 se p < ½;
– [0,1] se p = ½;
– 1 se p > ½;
●
Moda:
– 0 se p < ½;
– 0,1 se p = ½;
– 1 se p > ½;
●
Variância: p(1-p) = pq, q = 1-p;
Referência das Imagens: https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_de_Bernoulli

[Acesso: 12/07/2021]
Binomial
●
Interpretação: modela a probabilidade de k
sucessos na realização de n ensaios de
Bernoulli com probabilidade de sucesso p;
●
Exemplo: ao realizar 5 jogos de cara ou
coroa com uma moeda justa, verificar a
probabilidade de 3 resultados “cara”;
●
Notação: X ~ b(n,p) ou X ~ B(n,p);
●
FMP: P(X = k) = B(n,k)pk(1-p)n-k, k = 0, 1, …,
n com B(n,k) = n!/[k!(n-k)!];
● FDA: F(k) = Σ⌊k⌋i=0B(n,i)pi(1-p)n-i, com B(n,i) =
n!/[k!(n-i)!];
●
Média: np;
●
Mediana: ⌊np⌋ ou ⌈np⌉ ;
●
Moda: ⌊(n+1)p⌋ ou ⌈(n+1)p⌉-1;
●
Variância: np(1-p) = npq, q = 1-p;
Referência das Imagens: https://en.wikipedia.org/wiki/Binomial_distribution [Acesso: 12/07/2021]

Geométrica – Definição 1 (Magalhães e
Pedroso)
●
Interpretação: modela a probabilidade de um
número k de falhas em ensaios de Bernoulli
necessárias até um primeiro sucesso;
●
Exemplo: em uma linha de produção, calcular
probabilidade de uma peça (com p = 0.2 de
uma peça individual ter um defeito) vir
defeituosa após 99 peças sem defeitos terem
sido observadas – P(X = 99);
●
Notação: X ~ G(p);
●
FMP: P(X = k) = p(1-p)k, 0 ≤ p ≤ 1 e k = 0, 1,
2, ...;
● FDA: F(xk) = 1-(1-p)k+1;
●
Média: (1-p)/p;
● Mediana: ⌈-1/log2(1-p)⌉-1 *;
●
Moda: 0;
●
Variância: (1-p)/p2;
Referência das Imagens: https://en.wikipedia.org/wiki/Geometric_distribution [Acesso: 12/07/2021]

Geométrica – Definição 2
●
Interpretação: modela a probabilidade de um
número k de ensaios de Bernoulli necessários
até um primeiro sucesso;
●
Exemplo: em uma linha de produção, calcular
probabilidade de uma peça (com p = 0.2 de
uma peça individual ter um defeito) vir
defeituosa na 100ª observação, após 99
observações negativas – P(X = 100);
●
Notação: X ~ G(p);
●
FMP: P(X = k) = p(1-p)k-1, 0 ≤ p ≤ 1 e k = 1,
2, ...;
● FDA: F(xk) = 1-(1-p)k;
●
Média: 1/p;
● Mediana: ⌈-1/log2(1-p)⌉ *;
●
Moda: 1;
●
Variância: (1-p)/p2;
Referência das Imagens: https://en.wikipedia.org/wiki/Geometric_distribution [Acesso: 12/07/2021]

Distribuições contínuas
 Uniforme
 Normal
 Média de uma distribuição contínua
 Variância e desvio padrão de distribuição
contínua
 Comentários acerca de erro
 Teorema do Limite Central
Distribuição uniforme
Retirado da Wikipédia
Distribuição normal
Distribuição normal
10_000 amostras, bin='auto'

Média de distribuição contínua
Variância de distribuição contínua
= Estimativa
Comentários acerca do erro
 Nós
esboçamos a média amostral
como:
Comentários acerca do erro
É possível estimamos o erro?

O que nos garante?
 Sobre uso de erro:

 https://www.ncbi.nlm.nih.gov/pmc/arti
cles/PMC1255808/
Teorema do limite central
A distribuição das médias amostrais

de X (X representa as médias
amostrais) converge para uma
distribuição normal de média E[X] e
variância var(X) para N grande:
 Obs: variância finita
 Não depende da distribuição de X!
 Isto
quer dizer que podemos
encontrar um intervalo de confiança
para o erro da média amostral
 Vamos chamar E[X] = µ e var(X) de σ2
 Caso 1: Conhecemos o desvio-padrão

 Confiança de 95%:
 0.95 = P(|X'-µ|< erro) =
 P(-erro < X'-µ < erro) =
 Continuando na inequação:
 =P( (-erro/(σ/sqrt(N)) < (X'
- µ)/(σ/sqrt(N)) < (erro)/(σ/sqrt(N))
 Caso 2: variância desconhecida:

 =P( (-erro/(S/sqrt(N)) < (X'
- µ)/(S/sqrt(N)) < (erro)/(S/sqrt(N))
Correlação e Causalidade
Correlação, causalidade e
associação
Correlação Correlações
de Pearson não-
(linear) lineares
Correlação de Pearson
 Mede associação linear entre duas

variáveis aleatórias/conjunto de dados
 Definição: (populacional vs amostral)
Correlação não-linear
 Existemassociações entre dados que

não seguem a relação linear
 Como metrizar?
E se não estivermos lidando com números

reais? E se forem símbolos? Sinais?
Categorias?
 Algumas métricas para associações

não-lineares:
Correlação de Spearman
Correlação de Kendall
Métricas/Medidas baseadas em teoria
da informação (Informação Mútua, por
ex)
Probabilidades bayesianas
Probabilidade Condicional e
Independência
Probabilidade Condicional
●
Dados dois eventos A e B, a probabilidade condicional de A dado que ocorreu B é
dada por: P(A|B) = P(A∩B)/P(B) p/ P(B) > 0, P(A|B) = P(A) p/ P(B) = 0 (Magalhães e
Pedroso);
●
P(A) e P(B) são as probabilidades a priori;
●
Regra do produto de probabilidades: P(A∩B) = P(A|B)P(B) p/ P(B) > 0;
●
Exemplo:
– A: evento “Chuva”, com P(A) = 0.2;
– B: evento “Tempo Nublado”, com P(B) = 0.8;
– A∩B: evento “Chuva com Tempo Nublado”, com P(A∩B) = 0.4;
– P(A|B): probabilidade de chover, dado que o tempo está nublado → P(A|B) = 0.4/0.8
= 0.5;
– Observa-se que probabilidade condicional P(A|B) = 0.5 é maior do que a
probabilidade a priori P(A) = 0.2, justamente por estarmos efetivamente
“diminuindo” nosso espaço amostral;
Eventos Independentes x Mutualmente
Exclusivos
●
Dois eventos A e B são independentes, se a informação da ocorrência ou não de B não altera a
probabilidade da ocorrência de A (ou vice-versa). Matematicamente:
– P(A|B) = P(A), P(B) > 0;
– P(A∩B) = P(A)P(B);
●
Exemplo:
– A: evento “Chuva”, com P(A) = 0.2;
– B: evento “Coroa”, com P(B) = 0.5;
– A∩B: evento “Chuva com Coroa”, com P(A∩B) = 0.1;
– P(A|B): probabilidade de chover, dado que a face da moeda observada no jogo foi coroa → P(A|B) =
0.1/0.5 = 0.2;
–Observa-se que probabilidade condicional P(A|B) = 0.2 é a mesma que a probabilidade a priori P(A)
= 0.2, justamente por A e B se tratarem de eventos independentes;
●
Obs.: ϕ); é independente de qualquer evento;
●
Resgatando a definição matematica de eventos disjuntos/mutualmente exclusivos: A∩B = ϕ); →
P(A∩B) = 0;
– Eventos Independentes ≠ Eventos disjuntos!
Teorema de Bayes
●
Os eventos C1, C2, …, Ck formam uma
partição do espaço amostral, se eles
não tem intersecção entre si e se sua
união é igual ao espaço amostral:
– Ci ∩ Cj = ϕ); p/ i ≠ j e ∪k i=1Ci = Ω
●
Teorema de Bayes: Suponha que os
eventos F1, F2, …, Fk formem uma
partição de Ω e que suas probabilidades
sejam conhecidas. Suponha, ainda, que
para um evento A, se conheçam as
probabilidades P(A|Fi) para todo i = 1, 2,
…, k. Então para qualquer j,
P(Fj|A) = [P(A|Fj)P(Fj)]/[Σki=1 P(A|Fi)P(Fi)], j
= 1, 2, …, k;
Teorema de Bayes
●
Exemplo ilustrado pela figura anterior:
– Um fabricante de sorvetes recebe 20% de todo o leite que utiliza de uma fazenda F 1, 30%
de uma outra fazenda F2 e 50% de F3 – P(F1) = 0.2, P(F2) = 0.3 e P(F3) = 0.5 (Fi: evento
“leite vem da fazenda Fi” → F1, F2 e F3 formam uma partição do espaço amostral);
– Um órgão de fiscalização observou que 20% do leite produzido por F 1 estava adulterado,
enquanto que para F2 e F3, essa proporção era de 5% e 2%, respectivamente – P(A|F1) =
0.20, P(A|F2) = 0.05 e P(A|F3) = 0.02 (A: evento "o leite está adulterado");
– Se na indústria de sorvetes os galões de leite são armazenados sem identificação das
fazendas, qual a probabilidade de que a amostra de um galão adulterado qualquer tenha
sido obtida do leite fornecido pela fazenda F 1, P(F1|A)? E pela fazenda F2, P(F2|A)? E pela
fazenda F3, P(F3|A)?
● P(F1|A) = P(F1∩A)/P(A) = P(A|F1)P(F1)/[P(A|F1)P(F1)+P(A|F2)P(F2)+P(A|F3)P(F3)] = 0.615;
Tópicos Complementares
Tópicos Complementares
●
Regressão – Linear e Logística;
●
Testes de Hipótese;
●
Variáveis Aleatórias Conjuntamente Distribuídas;
●
Esperança;
●
Processos Estocásticos;
●
Médias Móveis;
●
Estimadores;
●
Teoria da Informação;
Referências
●
Dos tópicos apresentados:
– Conceitos Básicos;
– Representações Gráficas;
– Variável Aleatória:
●
Definições e Notações
Importantes: Definições e
Notações Importantes;
●
Discreta;
– Probabilidade Condicional e
Independência;
Referências
●
Dos tópicos apresentados:
– Medidas de tendências centrais;
– Variáveis Aleatórias:
●
Contínua;
– Correlação e Causalidade;
●
Do tópico apresentado:
– Combinatória;
Referências Complementares
Referências Complementares
Obrigado pela atenção!
Dúvidas?

Aula 01 - Estatística e Probabilidade - Com Mateus Marcuzzo e Filipe Teixeira-Apresentação

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 01 - Estatística e Probabilidade - Com Mateus Marcuzzo e Filipe Teixeira-Apresentação

Enviado por

Direitos autorais:

Formatos disponíveis

Probabilidade e

Referência da Imagem: https://learninglink.oup.com/static/5e29bfc369c98b0010b09170/index.html

Referência da Imagem: https://www.scribbr.com/methodology/population-vs-sample/ [Acesso:

Referência da Imagem (Modificada): https://www.scribbr.com/methodology/population-vs-sample/

Referência da Imagem: https://www.scribbr.com/methodology/stratified-sampling/ [Acesso:

 Possuem relações e operações:

 Se existem n1 maneiras do evento E1 ocorrer,

 Assuma que um evento E pode ser decomposto em r eventos

 Meu dataset possui duas colunas: coluna A e

 Tenhoum dataset com locais de nascimento

 A região SUL do País é composta pelos estados de

4x2 + 4x3 + (?)

4x2 + 4x3 + 2x3

 Dequantas formas podemos ordenar N

N (N-1) (N-2) (N-3) … 2 1

 Mas se quisermos mostrar apenas K desses N?

 Portanto: N!/(N-K)! (Sobram apenas os K primeiros)

 Estamos montando uma build de habilidades

 Apesar disso, ele não pode escolher todas,

 Resposta: N x (N-1) x (N-2) x (N-3) x (N-4)

 Ou: Arranjo de N,5 = N!/(N-5)!

 Aqui a ordem é importante.

E se quiséssemos considerar apenas quais

 Mais genericamente: N!/((N-5)!(5!))

 Escolha K (diferentes) de N: N!/((N-K)!(K!))

Para gerar combinações, arranjos e

A média amostral de uma variável

 Onde x1, x2, …, xN são realizações da

 Muitasvezes confundida com a Média/

 Suponha termos uma população de

 Uma estratégia é adotar a média amostral

 Portanto, a média real é um valor do

A mediana é o valor central de valores

E se tivéssemos uma quantidade par

 Por que usar a mediana?

 Sãoamostras que não obedecem à regra

Referência da Imagem: https://www.guru99.com/histogram-vs-bar-chart.html [Acesso: 25/07/2021]

Referência da Imagem: https://en.wikipedia.org/wiki/Scatter_plot [Acesso: 25/07/2021]

Referência da Imagem: https://www.kdnuggets.com/2019/11/understanding-boxplots.html [Acesso:

Referência da Imagem: https://www.kdnuggets.com/2019/11/understanding-boxplots.html [Acesso:

Referência da Imagem: Noções de Probabilidade e Estatística 6ª Edição, pg. 19 , Magalhães e

Referência da Imagem: https://chartio.com/learn/charts/histogram-complete-guide/ [Acesso:

Referência da Imagem: https://chartio.com/learn/charts/histogram-complete-guide/ [Acesso:

Referência das Imagens: https://en.wikipedia.org/wiki/Discrete_uniform_distribution [Acesso:

Referência das Imagens: https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_de_Bernoulli

Referência das Imagens: https://en.wikipedia.org/wiki/Binomial_distribution [Acesso: 12/07/2021]

Referência das Imagens: https://en.wikipedia.org/wiki/Geometric_distribution [Acesso: 12/07/2021]

Referência das Imagens: https://en.wikipedia.org/wiki/Geometric_distribution [Acesso: 12/07/2021]

10_000 amostras, bin='auto'

É possível estimamos o erro?

 Sobre uso de erro:

A distribuição das médias amostrais

 Caso 1: Conhecemos o desvio-padrão

 Caso 2: variância desconhecida:

 Mede associação linear entre duas

 Existemassociações entre dados que

E se não estivermos lidando com números

 Algumas métricas para associações

Você também pode gostar