Você está na página 1de 56

CC-226

Introduo Anlise de Padres


Prof. Carlos Henrique Q. Forster
Variveis, Estatsticas e Distribuies de
Probabilidades

Tpicos de hoje





Definies
Alguns estimadores estatsticos
Distribuies de probabilidades
Histogramas

Fenmeno


Fenmeno aleatrio um fenmeno emprico


caracterizado pela propriedade que sua observao sob
um dado conjunto de circunstncias no leva sempre ao
mesmo resultado observado, mas a outros resultados
mantendo uma regularidade estatstica. (Parzen)
Evento aleatrio aquela condio cuja freqncia de
ocorrncia aproxima-se de um valor limite estvel quando
o nmero de observaes tende ao infinito. (Parzen)
Espao de descrio amostral de um fenmeno o
espao das descries de todos os possveis resultados
do fenmeno. (Parzen)

Eventos


Formalmente, eventos so representados por conjuntos e


podem ser definidos atravs das operaes de
complemento e unies contveis de conjuntos. O conjunto
de todos os eventos (um conjunto de conjuntos) mais as
operaes de complemento e unies contveis formam
uma -lgebra.
Definidos complemento e unio, a interseco
conseqncia do Teorema de DeMorgan. Assim,
operaes booleanas podem ser aplicadas a eventos.

Mais definies







Amostra, observao ou instncia a descrio do resultado


observado de um fenmeno aleatrio.
Populao o conjunto de objetos de interesse. O conjunto de
amostra um subconjunto da populao. (Devore)
Uma varivel qualquer caracterstica (associada a um valor) que
pode mudar de um objeto a outro da populao. (Devore)
Dados univariados, bivariados e multivariados contm
respectivamente uma, duas ou mltiplas variveis.
Uma varivel aleatria um mapa do espao amostral sobre a
reta de Borel (reta real mais os smbolos + e -).
Varivel discreta aquela cujo espao amostral finito.

Estatstica


Inferncia Estatstica consiste na generalizao


das informaes a respeito de uma amostra, para
a sua populao.
A Probabilidade considera modelos para estimar
informaes sobre instncias. um processo de
deduo lgica.
A Estatstica considera informaes sobre
instncias pra gerar um modelo para toda a
populao. um processo de raciocnio indutivo.

Exerccio


Considere um dado de seis lados. Qual a mdia


esperada para jogadas desse dado?

Suponha que joguei o dado 5 vezes e obtive: 2, 3,


3, 6, 1, o que plenamente possvel. Qual foi a
mdia amostral obtida?

Descritores de tendncia central






Descritores de tendncia central buscam representar uma varivel aleatria por


um nico valor representativo.
mdia relacionada ao centro de massa. Valores muito discrepantes tm grande
influncia sobre a medida.
mediana freqncia de valores acima igual freqncia de valores abaixo. No
importa a posio desses valores, s se so maiores ou menores que a mediana.
Valores distantes no afetam a mediana.
moda representa o valor mais freqente. Pode-se falar em mais de uma moda
quando h tendncia de freqncia alta em valores dspares ou h mistura de
modelos.
mediatriz representa o ponto central do intervalo que contm as amostras.
Depende apenas da amostra de valor mnimo e da de valor mximo.

Mdia amostral


Para amostras de tamanho n {x1; x2; ... ; xn} a mdia


amostral definida como

Mediana amostral e mdias aparadas

Considere os dados ordenados. A mdia aparada consiste na


mdia dos elementos centrais, descartando, por exemplo, os
valores 10% maiores e os 10% menores. Quando a porcentagem
descartada se aproxima de zero, a mdia aparada equivale
mdia, quando se aproxima de 100%, equivale mediana.

Reviso de distncias

Distncias de Minkowski

Distncias importantes

Algumas outras distncias




A distncia de Hamming de duas cadeias de bits de mesmo


comprimento corresponde ao nmero de bits invertidos de uma
cadeia para outra. No caso de conjuntos corresponde ao nmero
de elementos presente em A e no-presente em B, mais o nmero
de elementos presente em B, mas no-presente em A.
Distncias de edio entre dois objetos corresponde ao nmero de
operaes de edio que devem ser efetuadas para transformar um
objeto no outro. Exemplo: distncia de Levenshtein.
A distncia de Haussdorff para conjuntos de pontos A e B
corresponde maior distncia mnima entre um ponto de A e um
ponto de B.

Descritores de mnima distncia

A mediana como mnima distncia L1

Medidas de Variabilidade ou Disperso






A amplitude a diferena entre o maior e o menor valor.


A diferena inter-quartil a diferena entre o quartil superior e o
quartil inferior. Os quartis so valores que separam 25% dos dados.
A varincia uma medida de disperso relacionada a um modelo
de inrcia da amostra. Considere os desvios em relao mdia
amostral.
i
O somatrio dos desvios nulo. Para nmero de elementos da
amostra n grande, a varincia dada pela mdia dos quadrados
dos desvios chamada 2.
O desvio-padro a raiz-quadrada da varincia. No caso de uma
distribuio normal, referimo-nos ao nmero de sigmas que uma
amostra est distante da mdia.

x x

Varincia e varincia amostral

Probabilidade


Probabilidade caracteriza um fenmeno aleatrio e


um modelo para a freqncia que ocorre um
evento quando se tende a um nmero infinito de
experimentos, jogadas, amostras.
Seja A um evento, ento:

Outras propriedades

Densidade de uma Varivel Aleatria





Definimos a distribuio de probabilidades ou funo de densidade de


probabilidade (pdf - probability density function) sobre pontos da reta de Borel.
No caso de variveis discretas, o valor da funo de densidade de probabilidade
corresponde freqncia relativa de que o resultado de um experimento seja
igual ao argumento da funo.




No caso de variveis contnuas, o valor da densidade de probabilidade tal que a


integral da funo sobre um intervalo corresponda freqncia relativa do
resultado de um experimento caia dentro do intervalo.

Distribuio uniforme


Na distribuio uniforme discreta, cada elemento


do espao amostral igualmente provvel. No
caso contnuo, a probabilidade proporcional ao
tamanho do intervalo (desde que dentro do
intervalo em que a distribuio definida). Para
um intervalo [A;B] utilizamos a definio:

Distribuio de Bernoulli

Exemplo

Rodadas de Bernoulli


Experimentos de Bernoulli (jogadas, rodadas,


tentativas)





n experimentos chamados tentativas;


resultado de cada experimento sucesso S ou falha
F;
tentativas so independentes;
probabilidade de sucesso (p) constante de uma
tentativa para outra.

Exemplo

Distribuio Binomial


Distribuio binomial definida por:




Lembrando nmeros binomiais

Funo de Densidade Acumulada




A funo de densidade acumulada (cdf - cumulative density


function) definida para variveis discretas como

No caso contnuo, a definio a seguinte:




Assim, a probabilidade de um intervalo pode ser obtida por:

CDF Propriedades


Os casos contnuos e discretos podem ser unificados


utilizando ou funes impulso de Dirac ou definio da
integral de Lebesgue sobre espaos mensurveis
(incluindo sigma-lgebras).







A cdf sempre crescente.


A cdf diferencivel direita
A pdf a derivada:

Amostras aleatrias sintticas




Para fins de simulao, se possumos um gerador de nmeros pseudo-aleatrios


entre 0 e 1 (exclusive) e com distribuio uniforme, podemos utilizar a cdf para
obter nmeros aleatrios sorteados de acordo com uma determinada distribuio
de probabilidades.
Se F a cdf da distribuio de que queremos obter amostras, ento a
probabilidade de obtermos um valor no intervalo (a; b)
F(b)-F(a). Como F varia de 0 a 1, assim como o nosso gerador de nmeros
aleatrios, e crescente, ento se obtivermos um valor sorteado uniformemente
entre F(a) e F(b) podemos considerar como um valor no intervalo (a; b) sorteado
de acordo com a distribuio almejada.
Assim, basta sortear uniformemente um valor x entre 0 e 1 e aplicar a inversa da
cdf:

Mediana e quantis populacionais pela


CDF


A mediana de uma distribuio corresponde ao


valor que separa 50% da probabilidade, assim:

Da mesma forma qualquer quantil (quartis ou


percentis) podem ser obtidos.

Grficos


H trs tipos de grficos mais importantes para


descrever uma ou mais variveis aleatrias.




Histogramas
Diagramas de disperso (scatterplots ou scattergrams)
Boxplots

Construo do histograma





A construo do histograma de uma varivel


(dadas vrias observaes) compreende a
partio do espao em um conjunto de classes e
plotar o nmero de ocorrncias ou a freqncia
relativa de um valor dentro de cada partio.
Fenmeno: jogar pares de dados e obter a soma.
Valores obtidos: 9 7 10 7 10 8 8 5 5 6 7 7 8 8 4 10
7 9 11 8

Histograma


Para parties
de mesmo
tamanho, a
altura do
retngulo
proporcional
freqncia
relativa.

Variaes do histograma


Parties no uniformes

Escala de densidade


O certo seria utilizar uma escala


baseada na rea do retngulo, de
forma que esta represente a
densidade dos pontos.
Para parties uniformes, isso j
verdade. Para parties nouniformes, devemos calcular a
altura do retngulo para que a sua
rea seja proporcional freqncia
relativa correspondente.
Essa chamada de escala de
densidade.

No caso em que as parties no


so uniformes, a altura do retngulo
deve representar a densidade e
pode ser calculada da seguinte
maneira:
altura do retngulo =
freq relativa da classe / largura da classe

onde
freq relativa de um valor =
ocorrncias do valor / nmero de observ


Box-plot

Esperana


Esperana o valor mdio esperado de uma


varivel aleatria.

No caso contnuo:

Exemplos

Trata-se do somatrio da srie harmnica que no


converge. Dessa forma, a mdia
no uma boa medida para caracterizar esse tipo
de distribuio.

Crianas so distribudas na escala Apgar de 0 a 10.

X o nmero de entrevistas pelas quais um estudante


passa antes de conseguir um emprego.

Esperana de uma funo




Definio:

Propriedade de operador linear

Varincia da distribuio



Seja o valor mdio esperado dado por =E(x)


A varincia o valor esperado pelo quadrado dos
desvios:
Outras frmulas que podem ser utilizadas para
obter a varincia:

Momentos Estatsticos







Alm da mdia e varincia, possvel definir


descritores de ordem mais alta da distribuio.
O momento de ordem n definido como a
esperana de xn.
m0 = E(x0) = E(1) =
m1 = E(x) =
m2 = E(x2)
m3 = E(x3)

Momentos Centrais


A partir dos momentos de ordem 2, podem-se


utilizar momentos baseados nos desvios em
relao mdia. Esses so momentos centrais.

Obliquidade e Curtose


Duas medidas importantes para caracterizar uma distribuio no-normal so os


coeficientes de skewness e de kurtosis. No caso do skewness, coeficiente
prximo de zero significa simetria, caso contrrio, uma tendncia esquerda para
nmeros negativos e, direita para nmeros positivos.

A kurtosis mede a concentrao prxima a mdia (ou pico). No caso da


normalidade, o valor 3. Menos que 3, a distribuio mais achatada chamada
platykurtic. Maior que 3, o pico mais acentuado e a distribuio chamada
leptokurtic.

Desigualdades interessantes sobre


momentos

Entropia

Exemplo

Exemplo

Distribuio de mxima entropia




Encontrar a distribuio de mxima entropia consiste em


determinar a pdf p(x) que maximiza H sob as restries que regram
as pdfs. Assim, procura-se maximizar:




Sujeito a:




Vamos procurar a pdf de mxima entropia, dado que conhecemos a


mdia e a varincia. As restries so:

Continuao


Formulando com multiplicadores de Lagrange, o


novo funcional a minimizar

Continuao


Derivando em funo de p e igualando a zero,


obtemos que




Substituindo p(x) nas restries, determinamos os


multiplicadores.

A Distribuio Gaussiana (ou Normal)

Para mdia zero e varincia unitria (e desviopadro), definimos a distribuio normal padro:

Padronizao da normal


A funo cumulativa de densidade da normal


padro baseada na funo de erro:

Qualquer distribuio normal pode ser


padronizada utilizando a transformao linear:

Propriedade dos desvio-padro da


distribuio normal


A probabilidade de uma amostra ser obtida dentro


de 1 desvio-padro da mdia dada por:




Vamos tabelar para alguns desvios-padro de


distncia

Esperana e varincia da binomial








A esperana e a varincia de uma distribuio


binomial so dadas por:
E(x) = n p
Var(x) = n p (1-p)
A distribuio binomial pode aproximar uma
normal com mdia np e varincia np(1-p)

Você também pode gostar