Você está na página 1de 9

INTRODUÇÂO

A distribuição hipergeométrica é uma distribuição de probabilidade discreta que


descreve a probabilidade de sucessos em retiradas, sem reposição, de
uma população de tamanho que contém exatamente sucessos, sendo cada retirada um
sucesso ou um fracasso

OBJECTIVOS DE PESQUISA

Objectivo Geral:

Compreender a importância do modelo Hipergeométrico nos estudos estatísticos

Objectivos Específicos:

Identificar as caracteristicas de empregabilidade do modelo Hipergeométrico

Descrever as concepções técnicas do modelo de distribuição Hipergeométrica

1. DEFINIÇÕES DE TERMOS E CONCEITOS

A estatística é o campo da matemática que relaciona fatos e números em que


há um conjunto de métodos que nos possibilita coletar dados e analisá-los, assim
sendo possível realizar alguma interpretação deles.

A estatística é dividida em duas partes: descritiva e inferencial.

A estatística descritiva é caracterizada pela organização, análise e apresentação dos


dados, enquanto a estatística inferencial tem como característica o estudo de uma
amostra de determinada população e, com base nela, a realização de análises e a
apresentação de dados.

A estatística inferencial, por sua vez, é caracterizada não por coletar dados dos
elementos de uma população um a um, e sim por realizar a análise de uma amostra
dessa população, tirando conclusões sobre ela.

Na estatística descritiva, temos como principais ferramentas as medidas de posição,


como média, mediana e moda, assim como as medidas de dispersão, como variância e
desvio-padrão, temos também tabelas de frequências e gráficos.

Ainda na estatística descritiva, temos uma metodologia muito bem definida para uma
apresentação de dados com grau considerável de confiabilidade que passa por
organização e coleta, resumo, interpretação e representação e, por fim, análise de dados

A estatística inferencial é utilizada, por exemplo, nas pesquisas eleitorais. Escolhe-se


uma amostra da população, de forma que a represente, e assim é realizada a
pesquisa.
Página | 1
Na escolha de uma amostra que não represente muito bem essa população, dizemos que
a pesquisa é tendenciosa e, por consequência, não confiável. Por isso, deve-se tomar
cuidado na escolha da amostra, pois ela deve representar muito bem a população.

1.1. Principais conceitos e princípios da estatística

População ou universo estatístico: A população ou universo estatístico é o conjunto


formado por todos os elementos que participam de um determinado tema pesquisado.

Dado estatístico: O dado estatístico é um elemento que pertence ao conjunto da


população, obviamente esse dado deve estar envolvido com o tema da pesquisa.

Amostra: Chamamos de amostra o subconjunto formado com base no universo


estatístico. Uma amostra é utilizada quando a população é muito grande ou
infinita.

Em casos em que coletar todas as informações do universo estatístico é


inviável por motivos financeiros ou logísticos, também se faz necessário a
utilização de amostras.

A escolha de uma amostra é de extrema importância para uma pesquisa, e ela deve
representar de maneira fidedigna a população.

Rol: Em casos em que os dados podem ser representados por números, ou seja,
quando a variável é quantitativa, utiliza-se o rol para organização desses dados.
Um rol pode ser crescente ou decrescente.

Caso uma variável não seja quantitativa, ou seja, caso seja qualitativa, não é possível
utilizar-se o rol, por exemplo, se os dados são sentimentos sobre determinado produto.

Tabela de distribuição de frequência: Em casos nos quais há muitos elementos no rol


e muitas repetições de dados, o rol torna-se obsoleto, pois a organização desses dados é
inviável. Nesses casos, as tabelas e a distribuição de frequências servem como uma
excelente ferramenta de organização.

Na tabela de distribuição de frequência absoluta, devemos colocar a freqüência em que


cada dado aparece, ou seja, a quantidade de vezes que ele aparece.

Classes: Em casos em que a variável é contínua, isto é, quando ela possui diversos
valores, é necessário agrupá-los em intervalos reais. Na estatística esses intervalos são
chamados de classes.

Variáveis: As variáveis nos estudos estatísticos são os valores que assumem


determinadas características dentro de uma pesquisa e podem ser classificadas
em qualitativas ou quantitativas.

Variáveis qualitativas: Esse tipo de variável representa uma qualidade ou atributo de


um indivíduo pesquisado e não podem ser expressas numericamente.

Página | 2
Essas variáveis podem ser de dois tipos:

 Variável nominal: essa variável representa um tipo de variável empregada


quando não existe nenhuma ordenação nas possíveis representações, essas
variáveis são identificadas pela utilização de nomes. Alguns exemplos são: sexo,
cor dos olhos, cor do cabelo, fumante/não fumante.

 Variável ordinal: apesar de não serem numéricos, seus valores apresentam uma
ordem nos seus resultados. Alguns exemplos são: Classes de uma escola (1ª
classe, 2ª classe,…), Meses (janeiro, fevereiro,…, dezembro) e etc.

Variáveis quantitativas: Esse tipo de variável é geralmente representado por meio de


números resultantes de uma contagem ou mensuração.

Esse tipo de variável pode ser dois tipos:

 Variáveis discretas: os valores representam um conjunto finito ou enumerável


de números, e que resultam de uma contagem, por exemplo: Número de filhos
(0, 1, 2,…), número de bactérias por amostra, número de copos de cerveja
tomados por dia.

 Variáveis contínuas: nesse tipo de variável os valores pertencem a um intervalo


de números reais e devem representar uma mensuração, ou seja, deve servir
como “métrica” para algo (por exemplo, altura ou peso de uma pessoa). Nesse
tipo de variável também podemos usar números fracionais.

2. DISTRIBUIÇÃO DE PROBABILIDADES

A distribuição de probabilidade é o processo que descreve o comportamento aleatório


de fenômenos, pode ser entendida também como uma forma de descrevermos o
comportamento de um tipo de fenômeno com resultados que podem ser finitos ou
contáveis.

Seu foco principal são estudos de casos aleatórios que vão desde jogos de azar como par
e coroa, roleta, rolar dos dados, e diversos outros. Sendo que, podem ser aplicados a
qualquer amostra aleatória.

Um experimento que pode gerar diferentes resultados se realizado mais de uma vez sob
as mesmas condições é chamado de experimento aleatório.

Há dois tipos de distribuição de probabilidade:

 Distribuições contínuas;

 Distribuições discretas.

Distribuições Contínuas: Quando a variável que está sendo medida é expressa em uma
escala contínua, como no caso de uma característica dimensional.

Página | 3
No caso de variáveis contínuas, as probabilidades são especificadas em termos de
intervalos, pois a probabilidade associada a um número específico é zero.
x
F ( x )= ∫ f (t)dt , para todo x ∈ R.
−∞

 Distribuição ou Modelo Exponencial


 Distribuição ou Modelo Weibull
 Distribuição ou Modelo de Gama
 Distribuição ou Modelo de Beta
 Distribuição ou Modelo de Pareto
 Distribuição ou Modelo Normal
 Distribuição ou Modelo uniforme

Distribuições Discretas: Quando a variável que está sendo medida só pode assumir
certos valores, como por exemplo os valores inteiros: 0, 1, 2, etc.

O gráfico da função de distribuição das variáveis aleatórias discretas sempre será do


tipo escada. Cada degrau dessa escada está localizado no elemento da imagem da
variável aleatória.

Alem disso, o tamanho do salto no degrau localizado em X = x é exatamente


P(X = x).

Para determinar o comportamento das variáveis aleatórias discretas, temos que achar a
função de probabilidade.

Função de Probabilidade

Seja X uma variável aleatória discreta. A função de probabilidade de X é a função pX

Definida por: pX ( x ) =P (X =x)

Para encontrar a função de probabilidade de uma variável aleatória temos que primeiro
encontrar a sua imagem e em seguida calcular a probabilidade de ocorrer cada elemento
da imagem.

Todos os valores reais que não pertencem a imagem têm probabilidade nula de ocorrer,
logo para esses valores a função de probabilidade também é nula.

 Distribuição ou Modelo de Bernoulli


 Distribuição ou Modelo Binomial
 Distribuição ou Modelo Geométrico
 Distribuição ou Modelo Hipergeométrico
 Distribuição ou Modelo de Poisson

Página | 4
3. MODELO DE DISTRIBUIÇÃO HIPERGEOMÉTRICA
A distribuição hipergeométrica é uma distribuição de probabilidade discreta que
descreve a probabilidade de k sucessos em n retiradas, sem reposição, de
uma população de tamanho N que contém exatamente sucessos, sendo cada retirada
um sucesso ou um fracasso.

3.1. Relevância e Usos da Fórmula de Distribuição Hipergeométrica

A distribuição hipergeométrica tem muitos usos em estatística e na vida prática. O uso


mais comum da distribuição hipergeométrica, que vimos acima nos exemplos, é calcular
a probabilidade de amostras quando extraídas de um conjunto sem reposição. Na vida
real, o melhor exemplo é a loteria.
Em uma loteria, uma vez que o número sai, ele não pode voltar e pode ser substituído,
então a distribuição hipergeométrica é perfeita para esse tipo de situação.
Uma das principais aplicações da distribuição hipergeométrica é em situações
envolvendo amostragem aleatória simples sem reposição.

Na área de Controle Estatístico de Qualidade, aplica-se em problemas de amostragem


de aceitação de lotes.

Para realizar esse tipo de experimento ou distribuição, há vários critérios que precisam
ser atendidos.
 Primeiro e principal requisito é que os dados coletados sejam discretos por natureza.
 Cada escolha ou sorteio não deve ser substituído por outro, pois sempre que uma
variável aleatória é sorteada sem reposição, então ela não é independente e tem relação
com o que foi sorteado anteriormente.
 Deve haver 2 conjuntos de grupos diferentes e você deseja saber a probabilidade de um
número específico de membros de um grupo.

Por exemplo, no exemplo de votação, temos homens e mulheres. No exemplo do saco,


temos um grupo amarelo e preto.
Junto com essas suposições, o conhecimento da combinação também desempenha um papel
vital na realização da distribuição hipergeométrica. Portanto, é imperativo que se conheça
os conceitos de combinação antes de proceder à distribuição hipergeométrica

Para o calculo da distribuição Hipergeométrica são definidos 3 parâmetros:

 Tamanho da população
 A contagem de eventos na população
 Tamanho Amostral

3.2. Formulas usadas para a Distribuição Hipergeométrica

Formula representativa da distribuição hipergeométrica:

Página | 5
p ( X=k )=
( k ) ( n−k )
K ∗ N −K

( Nn )
Formula para o calculo da média:

n∗K
N

Formula para o calculo da moda:

( n+ 1 ) (K +1)
⌊ ⌋
N +2

Formula para o calculo da Variância

K ( N− K) N−n
n
N N N −1

Em que:

 N é o tamanho da população,
 K é o número de estados de sucessos na população,
 n é o número de retiradas,
 k é o número de sucessos observados,
 ❑ ( )(
❑ a
b )
é um coeficiente binomial.

3.3. Principais propriedades da distribuição hipergeométrica

As principais propriedades da distribuição hipergeométrica são as seguintes:

 A amostra deve ser sempre pequena, mesmo que a população seja grande.
 Os elementos da amostra são extraídos um a um, sem incorporá-los de volta à
população.
 A propriedade a ser estudada é binária, ou seja, pode assumir apenas dois
valores: 1 ou 0, ou verdadeiro ou falso.

Em cada etapa de extração de elemento, a probabilidade muda dependendo dos


resultados anteriores.

3.4. Teste Hipergeométrico

O teste hipergeométrico usa a distribuição hipergeométrica para calcular a significância


estatística de obtenção de um número específico de sucessos (a partir de um total
de retiradas).

Página | 6
O teste é frequentemente usado para identificar quais subpopulações estão super-
representadas ou sub-representadas em um amostra.

O teste hipergeométrico usa a distribuição hipergeométrica para medir a significância


estatística da obtenção de uma amostra que consiste de um número específico
de sucessos (dentre um total de retiradas) a partir de uma população de
tamanho contendo sucessos.
Em um teste para a super-representação de sucessos na amostra, o valor-p
hipergeométrico é calculado como a probabilidade de obter aleatoriamente ou mais
sucessos a partir da população em um total de retiradas.
Em um teste para sub-representação, o valor-p é a probabilidade de obter
aleatoriamente ou menos sucessos.

3.5. Relação com o teste exato de Fisher


O teste baseado na distribuição hipergeométrica, o teste hipergeométrico, é idêntico à
versão unicaudal correspondente do teste exato de Fisher.
Reciprocamente, o valor-p de um teste exato de Fisher bicaudal pode ser calculada
como a soma de dois testes hipergeométricos apropriados.

3.6. Comparações existentes entre a Distribuição Binomial e a


Distribuição Hipergeométrica

Vamos fazer agora algumas comparações entre as distribuições binomiais e


hipergeométrica, considerando que elas descrevem a extração de amostra de tamanho n.

No contexto da binomial, a amostra é retirada com reposição, enquanto na


hipergeométrica as extrações são feitas sem reposição.

A esperança da binomial é igual ao produto do tamanho da amostra pela probabilidade


de sucesso; Na hipergeométrica, a esperança também é o produto do tamanho da
amostra pela probabilidade de sucesso, probabilidade essa tomada apenas na primeira
extração.

A variância da binomial é igual ao produto do tamanho da amostra pelas probabilidades


de sucesso e fracasso.

Na hipergeométrica, considerando apenas a primeira extração, a variância é igual a esse


produto, mas corrigido pelo fator N − n N − 1 .

Em pesquisas estatísticas por amostragem, normalmente lidamos com amostragem sem


reposição.

No entanto, os resultados teóricos sobre amostragem com reposição são bem mais
simples, pois envolvem variáveis independentes; assim, costuma-se usar uma
aproximação, sempre que possível. Ou seja, quando a população (tamanho N) é
suficientemente grande (de modo que podemos encará-la como uma população infinita)
Página | 7
e o tamanho da amostra é relativamente pequeno, podemos “ignorar” o fato de as
extrações serem feitas sem reposição.

Lembre-se que a probabilidade em extrações sucessivas são 1 N , 1 N−1 , . . . , 1 N−n .

Então, se N é “grande” e n é pequeno, temos que N ≈ N − 1 ≈ · · · ≈ N − n.

Nessas condições, extrações com e sem reposição podem ser consideradas como
equivalentes.

O termo que aparece na variância da hipergeométrica, N−n N−1 , é chamado correção


para populações finitas, exatamente porque, se a população é pequena, não podemos
ignorar o fato de as extrações estarem sendo feitas sem reposição.

Página | 8
CONCLUSÃO
A distribuição hipergeométrica é uma distribuição de probabilidade discreta em que
quando um elemento da população é escolhido para saber o resultado de uma
determinada característica, esse mesmo elemento não pode ser escolhido novamente, as
principais propriedades a se ter em conta nessa distribuição são que a amostra deve ser
sempre pequena, mesmo que a população seja grande, os seus elementos da amostra são
extraídos um a um, sem incorporá-los de volta à população, a propriedade a ser estudada
é binária, ou seja, pode assumir apenas dois valores: 1 ou 0, ou verdadeiro ou falso, e p ara
realizar esse tipo de experimento ou distribuição, há vários requisitos que precisam ser
atendidos, o primeiro e principal requisito é que os dados coletados sejam discretos por
natureza, cada escolha ou sorteio não deve ser substituído por outro, pois sempre que
uma variável aleatória é sorteada sem reposição, então ela não é independente e tem
relação com o que foi sorteado anteriormente e deve haver 2 conjuntos de grupos
diferentes e você deseja saber a probabilidade de um número específico de membros de
um grupo

Página | 9

Você também pode gostar