Você está na página 1de 5

Probabilidade

A probabilidade mede a verosimilhança com que um evento ocorre e é a base da Inferência Estatística. Apesar de ter uma história longa, foi Kolmogorov no século XX que definiu as suas axiomas:

Probabilidade A probabilidade mede a verosimilhança com que um evento ocorre e é a base da

Essencial para a aplicação da probabilidade para problemas de estatística é a sua definição frequencista que declara a probabilidade de um evento é a proporção de ocorrências deste evento se a experiência for repetida até chegar ao seu limite.

Existem várias inovações dentro da probabilidade que nos têm permitido perceber a natureza de fenómenos. Vamos agora examinar o Teorema de Bayes para entender um destas evoluções.

Se os eventos qualquer evento

de
de

constituem uma participação do espaço amostral

, temos:

Probabilidade A probabilidade mede a verosimilhança com que um evento ocorre e é a base da

, então, para

Probabilidade A probabilidade mede a verosimilhança com que um evento ocorre e é a base da

A probabilidade de

Probabilidade A probabilidade mede a verosimilhança com que um evento ocorre e é a base da

por causa do evento

.
.

Bernoulli e as distribuições discretas

Na base da estatística é o estudo da incerteza e a probabilidade de eventos. Apesar de ter sido estudado desde os tempos de Galileu, o primeiro grande passo para o estabelecimento da estatística como ciência foi dado pelo J. Bernoulli. A sua lei fraca dos grandes números diz que a probabilidade P tende para a certeza quando o número de observações N cresce indefinidamente.

Isso pode ser observado num processo de Bernoulli - por exemplo no lançamento de uma moeda - no qual a função de probabilidade é:

Probabilidade A probabilidade mede a verosimilhança com que um evento ocorre e é a base da

Foi notado depois que a distribuição do processo de Bernoulli, a Distribuição de Bernoulli, é um caso da Distribuição Binomial. A Distribuição Bernoulli permite o cálculo da probabilidade para o caso de n tentativas independentes e tem, portanto, x como uma variável aleatória na seguinte função de probabilidade:

Probabilidade A probabilidade mede a verosimilhança com que um evento ocorre e é a base da

Uma outra distribuição discreta importante é a Distribuição de Poisson. Usa-se para calcular a probabilidade de um número definido de eventos que ocorrem num dado intervalo de tempo ou espaço.

Probabilidade A probabilidade mede a verosimilhança com que um evento ocorre e é a base da

O número e é o número de Napier e intervalo de tempo.

O número e é o número de Napier e intervalo de tempo. é o número médio

é o número médio de eventos que ocorrem num dado

As distribuições contínuas começaram com De Moivre

A descoberta da função de densidade contínua, que calculou o limite da função de probabilidade binomial para um número infinito de tentativas, foi a primeira vez que alguém notou numa distribuição contínua. Porém, a importância da distribuição normal foi estabelecida mais tarde por Gauss e Laplace através da distribuição de erros e do Teorema do Limite Central respectivamente.

A distribuição normal é a mais importante distribuição porque representa muitos fenómenos no mundo real e, por consequente, é muito usada na inferência estatística. Também, como De Moivre demonstrou, outras distribuições podem ser aproximada pela distribuição normal.

Ao variar , a média, ou , o desvio padrão, alteramos a localização e forma da
Ao variar
, a média, ou
, o desvio padrão, alteramos a localização e forma da curva

respectivamente. O gráfico à esquerda mostra um desvio padrão de 2 e à direita uma média de 1.

O número e é o número de Napier e intervalo de tempo. é o número médio
O número e é o número de Napier e intervalo de tempo. é o número médio

A variação mais conhecida é a distribuição normal estandardizada que tem Utilizando a fórmula:

O número e é o número de Napier e intervalo de tempo. é o número médio

=0 e

O número e é o número de Napier e intervalo de tempo. é o número médio

=1.

O número e é o número de Napier e intervalo de tempo. é o número médio

podemos calcular o número de desvios padrões entre

O número e é o número de Napier e intervalo de tempo. é o número médio

e a média.

Relacionada com esta fórmula é o Teorema do Limite Central de Laplace que diz que para uma amostra suficientemente grande, a distribuição da variável aleatória será aproximadamente normal:

O número e é o número de Napier e intervalo de tempo. é o número médio

Amostragem

O Laplace é também conhecido por ter utilizado a amostragem na estimação da população da França, embora as técnicas não sejam as mesmas que são utilizadas hoje; foi âmbito das ciências naturais que as técnicas modernas foram desenvolvidas. De forma a poder fazer inferências sobre a média de uma população a partir de uma amostra, e quando não se sabe a variância, a distribuição t-Student foi elaborada. A distribuição de t-Student ajuda porque as suas caudas são mais pesadas que as da normal que significa que quantos mais graus de liberdade uma amostra tem, mais aproxima-se a distribuição normal. Desta forma, consegue calcular um valor, a média por exemplo, mas com menos confiança.

Os métodos de seleccionar a amostra também avançaram na altura de Student. A amostragem

aleatória simplesmente permite que qualquer elemento da população tenha a mesma

probabilidade de ser selecionado e pode ser feito com ou sem reposição. Foi Kiaer que propôs

amostrar com base na estratificação. Este método pede a divisão da população em grupos

relativamente homogéneos (em termos das características que não queremos investigar) e

selecionar amostras aleatórias simples e independentes de cada estrato. Assim podemos fazer

inferências acerca de subgrupos da população. Se conhecermos a distribuição de probabilidade

da população, podemos basear o processo de amostragem nela. Se a distribuição for normal,

podemos gerar cada elemento da população de acordo com a média e a variância desejada.

Estimação

Com base numa amostra aleatória, ao utilizar métodos de estimação, podemos fazer inferências

acerca dos parâmetros população.

O método da máxima verosimilhança, dada uma amostra de valores já observados x 1 , x 2

,

...

,x

n ,

escolhe o valor do parâmetro , da distribuição de probabilidade que maximiza o valor da função

de verosimilhança. Utiliza-se a função de probabilidade conjunta com uma variável discreta ou a

função densidade de probabilidade conjunta com uma variável contínua para na maximização da

função de verosimilhança:

Os métodos de seleccionar a amostra também avançaram na altura de Student. A amostragem aleatória simplesmente

A estimativa de máxima verosimilhança

Os métodos de seleccionar a amostra também avançaram na altura de Student. A amostragem aleatória simplesmente

, é a estimativa que melhor explica os valores

observados da amostra.

Se, por exemplo, quisermos calcular o valor de que maximiza a verosimilhança da média de

uma variável com distribuição normal, o valor será a média da amostra, visto que a média será o

vértice na parábola da função quadrática derivada.

A melhor escolha para estimar parâmetros, quando a amostra é grande e não tem casos

anormais, é optar por método de máxima verosimilhança.

Os estimadores, como as variáveis aleatórias, têm as suas propriedades. O estimador

Os métodos de seleccionar a amostra também avançaram na altura de Student. A amostragem aleatória simplesmente

, que é

utilizado para gerar um único valor

Os métodos de seleccionar a amostra também avançaram na altura de Student. A amostragem aleatória simplesmente

como estimativa do parâmetro, também é uma variável

aleatória e tem o seu desvio padrão que é definido como o erro padrão

Os métodos de seleccionar a amostra também avançaram na altura de Student. A amostragem aleatória simplesmente

. A estimação do erro

padrão permite que seja avaliada a qualidade do estimador

Os métodos de seleccionar a amostra também avançaram na altura de Student. A amostragem aleatória simplesmente

. Por outro lado, o enviesamento é a

diferença entre a média de

Os métodos de seleccionar a amostra também avançaram na altura de Student. A amostragem aleatória simplesmente

e o parâmetro . Também temos de considerar a eficiência de um

estimador, o que é a variância da sua distribuição amostral. De vez em quando, pode ser

necessário comparar dois estimadores, um que sofre de uma variância significante e outro que é

enviesado. Qual será o melhor estimador da variável? De forma a combinar a variância e o

enviesamento de cada estimador é criar um único parâmetro que indica a melhor aproximação

da variável, calculamos o erro quadrático médio (EQM) de cada estimador

.
.
Os métodos de seleccionar a amostra também avançaram na altura de Student. A amostragem aleatória simplesmente

É aconselhável, quando se estima de uma população, conhecer o erro de amostragem que é

definido como a diferença entre a estimativa obtida da amostra e a estimativa que seria obtida de

um censo nas mesmas condições da amostra. Um caminho para chegar a esta informação é

determinar um intervalo no qual se possa esperar encontrar o valor do parâmetro - um

intervalo de confiança. O intervalo de confiança de (1 - )x 100% para o parâmetro é

demarcado pelos limites de confiança

e para que
e
para que
Os métodos de seleccionar a amostra também avançaram na altura de Student. A amostragem aleatória simplesmente

Tipicamente, os valores do coeficiente de confiança 1 - são 0.99 (= 0.01), 0.95 (= 0.05) e

0.90 (= 0.1). Este coeficiente deve ser interpretado como uma probabilidade que depender da

população e a sua distribuição, do método de amostragem, do tamanho da amostra e da definição

de

Tipicamente, os valores do coeficiente de confiança 1 -  são 0.99 (  = 0.01),

e

.
.

Os intervalos de confiança podem ser usados para calcular a confiança na média, na diferença

entre médias, em proporções de uma população que têm uma característica predefinida (e que

seguirá a distribuição Bernoulli) e na variância.

Teste de Hipóteses

De forma a possibilitar conclusões definitivas com uma pergunta a qual se pode responder “sim”

ou “não”, Fisher, seguido por Neyman e Pearson definiram o Teste de Hipótese. Antes de estudar

um fenómeno e tentar chegar a uma conclusão acerca de um parâmetro, definem-se a hipótese

alternativa (

) que se considera verosímil e contém, em geral, uma desigualdade (>, < ou

) que se considera verosímil e contém, em geral, uma desigualdade (>, < ou

alternativa ( ) que se considera verosímil e contém, em geral, uma desigualdade (>, < ou

). A

hipótese nula (

) é considerada inverosímil e contém, em geral, uma igualdade. Encontra-se

abaixo um exemplo.

Se aceitarmos
Se aceitarmos

, implica que a evidência não basta para rejeitar

  • - ao contrário do que era

esperada. Ao rejeitarmos

Tipicamente, os valores do coeficiente de confiança 1 -  são 0.99 (  = 0.01),

, sabemos que a probabilidade de obter a amostra quando

Tipicamente, os valores do coeficiente de confiança 1 -  são 0.99 (  = 0.01),

é

verdadeiro é muito reduzido. O resultado, portanto, é que o teste é conclusivo e podemos aceitar

  • como foi postulado. É utilizada a estatística de teste para atingir esta conclusão; se o teste for

um de um parâmetro, a estatística de teste será um estimador deste parâmetro.

A fim de finalizar a tomada de decisão, é essencial que haja uma regra de tomada de decisão. Por

exemplo, com o teste bilateral apresentado acima, se a estimativa

  • for bem longe do valor

,
,

podemos rejeitar

  • . Para podermos fazer isso, temos de estabelecer, antes da experiência, a

região de rejeição de

Um outro factor para levar em consideração durante um teste paramétrico é a possibilidade de

cometer um erro de inferência: tirar a conclusão errada num teste estatístico a partir da

informação contida na amostra. Encontra-se abaixo um sumário dos possíveis erros.

Tipo de erro de inferência

Tipo de erro de inferência verdadeira falsa

verdadeira

Tipo de erro de inferência verdadeira falsa

falsa

Aceitar

Aceitar Decisão correcta Risco 1 -  Erro tipo II

Decisão correcta Risco 1 -

Erro tipo II

Rejeitar

Rejeitar Erro tipo I Risco  Nível de significância Risco  Decisão correcta Risco 1 -

Erro tipo I Risco Nível de significância

Risco Decisão correcta Risco 1 - Potência de teste

Quando se comete um erro tipo I, uma

Tipicamente, os valores do coeficiente de confiança 1 -  são 0.99 (  = 0.01),

verdadeira é rejeitada e comete-se um erro tipo II

quando é aceite uma

  • falsa. A probabilidade de um erro tipo I tem a probabilidade (ou nível de

significância):

Tipicamente, os valores do coeficiente de confiança 1 -  são 0.99 (  = 0.01),

mas a probabilidade de rejeitar uma

Tipicamente, os valores do coeficiente de confiança 1 -  são 0.99 (  = 0.01),

falsa (a potência do teste) é:

Tipicamente, os valores do coeficiente de confiança 1 -  são 0.99 (  = 0.01),

Temos de definir o valor crítico para ser capaz de fixar o valor de , e por conseguinte . A

relação interdependente entre e faz com que, ao diminuir , aumente.