Escolar Documentos
Profissional Documentos
Cultura Documentos
Apresentação dos conceitos de Probabilidade e Estatística. Definição de amostra aleatória e suas propriedades — resultados e
noções importantes. Conjecturas sobre uma população a partir de uma amostra — conceitos de viés e erro quadrático médio.
Principais teoremas-limite da Estatística — Lei Fraca dos Grandes Números e Teorema Central do Limite.
PROPÓSITO
Examinar as propriedades teóricas de amostras aleatórias e os resultados para o desenvolvimento do exercício de inferência sobre
uma população a partir de um subconjunto dela, tal como as conclusões a respeito dessa população a partir de pequenos recortes,
algo fundamental no cotidiano profissional de várias áreas.
PREPARAÇÃO
Antes de iniciar o conteúdo deste tema, certifique-se de ter papel e lápis por perto para acompanhar os exemplos e demonstrações.
OBJETIVOS
MÓDULO 1
Descrever uma amostra aleatória e o que a torna especial em relação a outros subconjuntos da população de interesse
MÓDULO 2
MÓDULO 3
Empregar os principais teoremas-limite da teoria estatística, assim como suas intuições e utilidades práticas no exercício da Estatística
INTRODUÇÃO
O conceito de amostra, de um subconjunto de uma determinada população, é central para o exercício da Estatística.
Começaremos caracterizando uma amostra aleatória e suas propriedades, e as possíveis relações entre seus elementos. Assim,
começaremos a transição da Teoria da Probabilidade para a Estatística.
Usaremos amostras para fazer conjecturas a respeito de populações. Para isso, teremos que desenvolver um ferramental específico e
um novo conjunto de hipóteses que permitam fazer inferências sobre a população que queremos estudar.
Chegaremos a alguns dos resultados mais importantes da Estatística: a Desigualdade de Chebyshev, a Lei (Fraca) dos Grandes
Números e o Teorema Central do Limite.
MÓDULO 1
Descrever uma amostra aleatória e o que a torna especial em relação a outros subconjuntos da população de interesse
AMOSTRAS ALEATÓRIAS
Pesquisadores frequentemente coletam dados sobre diversas informações em um experimento. Esses dados consistem em várias
observações sobre diferentes variáveis de interesse.
Fonte: geralt/pixabay
Um grupo de pesquisadores da área de saúde pode coletar informações sobre altura, peso e pressão sanguínea da população de uma
cidade.
Quase sempre, porém, é inviável coletar essas informações para todas as pessoas. Para isso, utilizam-se técnicas de amostragem
que buscam selecionar uma subpopulação (a amostra) a fim de chegar a conclusões que sejam generalizáveis para o restante da
população.
O principal método de amostragem é chamado de amostragem aleatória, vamos conhecer sua definição.
X1,…,Xn se forem mutuamente independentes e se a distribuição marginal de cada Xi for a mesma função fX(x). De modo alternativo,
X1,…,Xn são chamadas de variáveis aleatórias independentes e identicamente distribuídas, com distribuição fX(X). Comumente,
INFORMAÇÃO 1
INFORMAÇÃO 2
INFORMAÇÃO 3
INFORMAÇÃO 1
Descreve um tipo de situação em que a variável de interesse X tem uma distribuição dada por fX(x).
INFORMAÇÃO 2
Na maioria dos experimentos, não observamos somente uma realização de X, mas n > 1 observações repetidas dessa variável
aleatória. Medimos a altura para n > 1 indivíduos, ou o peso para n > 1 indivíduos, por exemplo.
INFORMAÇÃO 3
De acordo com o modelo de amostragem aleatória descrito, cada observação Xi tem uma distribuição marginal dada por fX(x). Além
disso, essas observações não têm relação entre si, ou seja, são mutualmente independentes.
FX1 . . . XN ( X 1, . . . , X N ) = 1
( ) ( )
F X X 1 F X X 2 . . . F XN X N = ∏ I =N1F X X I
2
( ) I
( )
Atenção! Para visualização completa da equação utilize a rolagem horizontal
Podemos utilizar a equação apresentada para calcular probabilidades envolvendo uma amostra aleatória iid.
PRIMEIRA IGUALDADE
Na primeira igualdade, utilizamos a independência para separar a densidade marginal conjunta em um produto de densidades
marginais individuais.
SEGUNDA IGUALDADE
Na segunda igualdade, utilizamos o fato de elas seguirem a mesma distribuição.
Uma vez que X1,…,Xn são identicamente distribuídas, todas as densidades marginais fX (x) são iguais, ou seja, fX (x) = fX (x) = ⋯ =
i 1 2
fXn(x). Isso vale, inclusive, para distribuições paramétricas, como a exponencial do exemplo a seguir:
EXEMPLO
Sejam X1,…,Xn uma amostra aleatória de uma população exponencial com parâmetro β. Mais especificamente, essa amostra
corresponde aos períodos decorridos (medidos em anos) até que ocorra uma falha em n circuitos idênticos, que são testados e
utilizados até falharem. A distribuição conjunta da amostra é dada por:
(
f X 1 . . . X x 1, . . . , x n
n
| β ) = ∏i =n1fX (xi | β ) =
i β
1 1
∏ i =n1 e - x i / β = e -
β
( X1 + ... + Xn ) /β
Essa distribuição pode ser utilizada para responder a questões relacionadas à amostra, como por exemplo:
Qual a probabilidade de que todos os circuitos tenham uma duração maior do que cinco anos?
XI
(
P X 1 > 5, . . . , X N > 5 = ) ∫∞
5
. . . ∫ ∞
∏ N 1 -
5 I=1Β
E Β DX 1. . . DX N
= E-Β
5
[ ∞ ∞ N 1 -
XI
∫ 5 . . . ∫ 5 ∏ I = 2 E Β DX2. . . DX N
Β ]
( )[ ] ( )
5 2 XI 5 N
N 1 -
= E-Β ∫∞
5
. . . ∫ ∞
∏
5 I=3Β
E Β DX
3. . . DX N = ... = E-Β
5N
-
= E Β
Se β, tempo de duração médio de um circuito, for grande em relação ao número n de observações da amostra, verificamos que
essa probabilidade é próxima de 1.
Esse cálculo ilustra como a distribuição de uma amostra aleatória iid pode ser utilizada para calcular probabilidades sobre essa
amostra.
Perceba que a propriedade das variáveis de serem independentes e identicamente distribuídas dentro dessa amostra também pode
ser utilizada diretamente nos cálculos. Por exemplo, podemos chegar ao mesmo resultado da seguinte maneira:
( ) 5 N 5N
( ) ( )
P X 1 > 5, . . . , X N > 5 = P X 1 > 5 . . . P X N > 5 = P X 1 > 5 ( ) [( )] N = E-Β = E- Β
O modelo de amostragem aleatória utilizado anteriormente é chamado de amostragem de uma população infinita.
2° Repetimos o experimento e obtemos X2 = x2.
A suposição de independência no processo de amostragem aleatória implica que a distribuição de probabilidade de X2 não é afetada
pelo fato de termos observado X1 = x1. Se removermos x1> da população infinita, essa população não é modificada; logo, X2 = x2
RESUMINDO
Quando temos uma população infinita, a amostragem equivale a uma amostragem aleatória. Esse não será sempre o caso para
amostras de uma população finita, como veremos agora.
AMOSTRAS FINITAS
Uma população finita é descrita por um conjunto de números {x1,…,xN}. Uma amostra X1,…,Xn, onde n ≤ N, deve ser obtida a partir
dessa população.
PRIMEIRO
Suponha que um valor seja escolhido dentro dessa população, de modo que cada um dos N valores tenha a mesma probabilidade de
ser escolhido (i.e., probabilidade igual a 1/N). Esse valor sorteado é registrado como X1 = x1.
SEGUNDO
O processo é repetido, e obtemos X2 = x2. Esse processo é repetido n vezes, até que tenhamos gerado a amostra X1, ..., Xn.
Esse tipo de processo de amostragem é considerado com reposição.
As mesmas propriedades que obtemos para a amostragem com uma população infinita, isto é, de uma amostragem onde X1, ..., Xn
Cada Xi é uma variável aleatória discreta que assume cada um dos valores x1, ..., xN com a mesma probabilidade, logo, são
identicamente distribuídas.
Elas também são independentes porque o processo para escolha de qualquer Xi é o mesmo, independentemente dos valores que são
Vamos considerar um segundo caso. Queremos obter uma amostra aleatória a partir de uma população finita, mas sem reposição.
PASSO 1
PASSO 2
PASSO 1
Escolhemos um valor a partir da população finita descrita por {x1,…,xN}, de modo que cada um dos N valores tenha a mesma
probabilidade de ser escolhido igual a 1/N. Esse valor é registrado como X1 = x1.
PASSO 2
Agora, um segundo valor é sorteado dentre os N - 1 restantes. Desse modo, a probabilidade de escolhermos um desses N - 1 valores
é igual a 1/(N - 1). O segundo valor sorteado é registrado como X2 = x2.
OBSERVAÇÃO
Assim que um valor é escolhido, ele se torna indisponível para a escolha em qualquer estágio posterior, pois não é reposto na
população. A escolha dos valores restantes continua dessa maneira, gerando a amostra X1,…,Xn.
segunda rodada se já o tiver sido anteriormente. Contudo, note que P(X2 = y │ X1 = x) = 1/(N - 1) pois, apesar de termos sorteado x na
primeira rodada e reduzido o tamanho da população de N para N-1, o valor y ainda pode ser sorteado. Desse modo, podemos dizer
que a distribuição de X2 depende do valor que é observado para X1 e, logo, X1 e X2 não são independentes.
( )
P X 2 = X = ∑ I =N1P X 2 = X ( | X1 = XI )P (X1 = XI )
Atenção! Para visualização completa da equação utilize a rolagem horizontal
Para um valor do índice i, digamos i = k, temos x = xk e P(X2 = x│X1 = xk) = 0. Para todos os outros, j ≠ k e P(X2 = x │ X1 =xj ) = 1/(N -
1). Portanto:
( )
P X 2 = X = (N - 1)
( ) 1
N-1 N
1
=
1
N
Argumentos similares podem ser utilizados para mostrar que cada um dos X_i tem a mesma distribuição marginal.
Por último, vale observar a consequência de amostras aleatórias independentes e identicamente distribuídas para o operador
esperança. Caso X1, …,Xn sejam iid, temos:
[ ] [ ] [ ]
E X 1X 2. . . X N = E X 1 E X 2 . . . E X N [ ] = E X1 [ ]N
Atenção! Para visualização completa da equação utilize a rolagem horizontal
Onde a independência garante a primeira igualdade e a distribuição idêntica da amostra garante a segunda.
Neste vídeo, o professor Raphael Bruce apresentará e resolverá um exercício para a fixação dos conceitos vistos durante o módulo.
VERIFICANDO O APRENDIZADO
{
1, SE X I > Μ
YI =
0, SE X I ≤ Μ
Y1 = MAX(X1, X2)
Y2 = MAX(X1, X3)
Y3= MAX(X2, X3)
Y = Y 1 + Y2 + Y3
GABARITO
1. Sejam X1,…,Xn variáveis aleatórias iid com função de distribuição acumulada contínua FX (x), e suponha que E[Xi ] = μ.
Yi =
{ 1, se X i > μ
0, se X i ≤ μ
Note que Yi ~ Bernoulli com pi = P(Xi > μ) = 1 - FX (μ) para cada i, onde pi é a probabilidade de sucesso da Bernoulli. Para constatar,
basta notar que cada Yi assume o valor 1, caso satisfaça a condição Xi > μ, e, em caso contrário, assume o valor 0 (zero). Como as
variáveis Yi são iid com distribuição Bernoulli, e uma sequência de variáveis aleatórias que seguem uma Bernoulli é representada pela
2. Sejam X1, X2 e X3 três variáveis aleatórias iid que seguem uma distribuição Bernoulli (p = 1/2) com probabilidade de
Y1 = max(X1, X2)
Y2 = max(X1, X3)
Y = Y1 + Y2 + Y3
Encontre E[Y] e Var[Y] e assinale a alternativa que corresponde aos valores corretos:
Também temos:
Var[Y] = Var[Y1 ] + Var[Y2 ] + Var[Y3 ] +2 Cov[Y1, Y2 ] + 2Cov[Y1, Y3 ] + 2Cov[Y2, Y3 ] = 3Var[Y1 ] + 6Cov[Y1, Y1]
Note que Y1, Y2 e Y3, apesar de terem igualmente distribuição Bernoulli, assim como X1, X2 e X3, não são independentes. Em
particular, temos:
E[Y1 ] = 2p - p2 = p(2-p)
Logo, temos:
Uma vez que esta atividade envolve cálculo de valores específicos, caso o aluno tenha encontrado os valores das opções “a”, “c” ou
“d”, terá cometido algum erro de cálculo.
MÓDULO 2
DEFINIÇÕES INICIAIS
Fonte: geralt/pixabay
O objetivo da Estatística é aprender características de uma população a partir de uma amostra. Tecnicamente, é a partir da
introdução do conceito de amostra, explanado no módulo anterior, que é feita a transição da probabilidade para a estatística.
Essas “características populacionais” que procuramos aprender são chamadas de parâmetros e costumam ser denotadas por letras do
alfabeto grego como μ, β ou θ, apesar de, ocasionalmente, também serem representadas por caracteres do nosso alfabeto.
Parâmetro - definição
EXEMPLO
A média populacional μ = E[X] é uma função de fX (x); no caso, é o primeiro momento de fX (x).
Estatística ‒ definição
Sejam X1,…,Xn uma amostra aleatória de tamanho n a partir de uma população, e seja T(x1,…,xn) uma função com valor real ou por
vetor, cujo domínio inclui o espaço amostral de (X1,…,Xn). Então, a variável aleatória ou vetor aleatório θ̂ = T(X1,…,Xn) é chamado de
uma estatística.
O sumário da amostra aleatória fornecido por uma estatística pode incluir muitos tipos de informação.
EXEMPLO
Ela pode dar o menor ou o maior valor na amostra, o valor médio, ou uma medida de variabilidade nas observações da amostra.
Assim como há uma diferença entre variáveis aleatórias (e.g. Xi) e suas realizações (e.g. x), há também uma distinção entre uma
estatística como função de uma amostra aleatória (neste caso, a estatística é uma variável aleatória) e uma estatística como função da
realização da amostra.
No primeiro caso, a entendemos como função de amostra de variáveis aleatórias, enquanto no segundo a entendemos como função
de valores já realizados. Uma maneira de perceber essa distinção de maneira mais clara é pensar em termos de “antes de ver os
dados da pesquisa” e “depois de ver os dados da pesquisa”:
Estatística como função de uma amostra aleatória
Quando pensamos em uma estatística “antes de ver os dados da pesquisa” não sabemos o valor que ela pode tomar. Sob o nosso
ponto de vista — o do pesquisador — ela é desconhecida e aleatória.
Estatística como função da realização da amostra.
Após observar os dados ― ou seja, “depois de examinar os dados da pesquisa” ― e, mais especificamente, computar a estatística,
ela é um número específico e, assim, uma realização. Ou seja, não irá tomar outros valores.
Estimador ‒ definição
Um estimador θ̂ ̂para um parâmetro θ é uma estatística entendida como uma conjectura sobre θ.
Note que definimos o estimador utilizando a expressão vaga de “conjectura” (i.e. um palpite). Isso é intencional. Ao introduzir a
definição de estimador, desejamos incluir nela o maior número de possíveis estimadores.
Algumas vezes chamamos θ̂ de estimador e outras, de estimativa. Há, porém, uma diferença fundamental entre esses nomes.
θ̂ estimador
Chamamos θ̂ de estimador quando ele é expresso em função de variáveis aleatórias e, portanto, também é uma variável aleatória.
Assim, podemos utilizar a teoria de probabilidade que conhecemos para obter a distribuição de θ̂. Enquanto estivermos desenvolvendo
a teoria a respeito de θ ̂, o chamaremos de estimador de θ.
θ̂ estimativa
Chamamos θ̂ de estimativa quando ele é um valor específico (ou realizado) calculado para uma amostra específica. Assim, em
aplicações específicas iremos nos referir a θ̂ como estimativa de θ.
Um dos parâmetros fundamentais para o campo da Estatística é a esperança populacional representada por μ = E[X]. Por meio de
transformações, diversos parâmetros de interesse podem ser escritos em termos de esperanças populacionais.
ESPERANÇAS POPULACIONAIS
A média amostral é a média aritmética dos valores de uma amostra aleatória. Isso geralmente é denotado por:
X1 + . . . + Xn 1 n
Xn = n
= n ∑ i = 1X i
A média amostral é uma estatística, uma vez que é função da amostra. É também aleatória, como previamente discutido.
( )
1 n
S2 = n - 1 ∑i = 1 Xi - Xn 2
S = √S 2
Em geral, suprimimos a notação funcional nas definições anteriores a respeito dessas estatísticas. Isto é, escrevemos:
S EM VEZ DE S(X1,…,XN).
A dependência da estatística na amostra é subentendida. Assim como antes, grafaremos os valores observados de estatísticas com
letras minúsculas. Desse modo:
X, 𝑠2 E 𝑠 DENOTAM VALORES OBSERVADOS DE X, 𝑆2 𝑒 𝑆.
PROPRIEDADES
Neste vídeo, o professor Raphael Bruce falará sobre as propriedades de uma amostra aleatória, por meio de seus teoremas.
Um assunto que é tratado com maior profundidade em estimação pontual, mas que vale ser introduzido desde já, é o de viés
estatístico. Sem nos aprofundarmos muito nesse assunto, dizemos que as estatísticas X n e S2 são, respectivamente, estimadores
Um estimador é dito não viesado se a sua esperança é igual à sua contrapartida populacional.
Um detalhe importante a respeito de S2 é que se definirmos esse estimador como a média usual dos desvios quadráticos com n ao
invés de n - 1 no denominador, então E[S2 ] seria igual a (n - 1)/n σ2, e, portanto, S2 não seria um estimador não viesado de σ2.
Por fim, apresentaremos algumas propriedades das quantidades amostrais obtidas a partir de uma população normal, que consiste em
um dos modelos estatísticos mais amplamente utilizados.
A amostragem a partir de uma população normal leva a muitas propriedades úteis da estatística e a muitas distribuições amostrais
bastante conhecidas.
Definição
( )
1 1
Sejam X1,…,Xn uma amostra aleatória de uma distribuição N(μ, σ2), e que X n = n ∑ i =n1 X i e S 2 = n - 1 ∑ i =n1 X i - X n 2. Então:
( n - 1 ) S2
tem uma distribuição qui-quadrado com n - 1 graus de liberdade.
σ2
VERIFICANDO O APRENDIZADO
1. SEJA TO O TEMPO NECESSÁRIO PARA TERMINAR O SIMULADO AO FINAL DESTE TEMA. PARA
ESTIMAR A MÉDIA E A VARIÂNCIA DE T, OBSERVAMOS UMA AMOSTRA ALEATÓRIA T1,T2,…,T6. ASSIM,
OS TI SÃO INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDAS E TEM A MESMA DISTRIBUIÇÃO DE T:
2. SEJA X1,…,XN UMA AMOSTRA ALEATÓRIA COM UMA DISTRIBUIÇÃO UNIFORME U(0,Θ), EM QUE Θ É
DESCONHECIDO. DEFINA O ESTIMADOR:
Θ̂ N = MAX(X1,…,XN)
2θ 2
( ) ( )
θ
A) B θ̂ n = - e EQM θ̂ n = ( n + 2 ) ( n + 1 )
n+1
2θ 2
( ) ( )
θ
B) B θ̂ n = n + 1 e EQM θ̂ n = ( n + 2 ) ( n + 1 )
θ2
( ) ( )
θ
C) B θ̂ n = - n + 1 e EQM θ̂ n = ( n + 2 ) ( n + 1 )
2θ 2
( ) ( )
θ
D) B θ̂ n = e EQM θ̂ n =
n+1 (n+2) (n+1) 2
GABARITO
1. Seja To o tempo necessário para terminar o simulado ao final deste tema. Para estimar a média e a variância de T,
observamos uma amostra aleatória T1,T2,…,T6. Assim, os Ti são independentes e identicamente distribuídas e tem a mesma
distribuição de T:
Encontre os valores para a média amostral, a variância amostral e o desvio-padrão amostral para essa amostra observada e
assinale a alternativa com os valores corretos:
Como vimos na seção 1, para obter a média aleatória, efetuamos o seguinte cálculo:
( T1 + T2 + T3 + T4 + T5 + T6 )
T = 6
=
8 + 21 + 17 + 16 + 24 + 20 )
T = 6
= 19. 33
( )
1 6
S 2 = n - 1 ∑ i = 1 T i - 19. 33 2 = 8. 67
Por fim, para obter o desvio-padrão amostral basta tirar a raiz quadrada da variância amostral, ou seja:
S = √8. 67 = 2. 94
2. Seja X1,…,Xn uma amostra aleatória com uma distribuição uniforme U(0,θ), em que θ é desconhecido. Defina o estimador:
θ̂ n = max(X1,…,Xn)
Encontre o viés de θ̂ n, dado por B(θ̂ n) = E[θ̂ n] - θ, e o erro quadrático médio de θ̂ n, dado por EQM(θ̂ n) = E[θ̂ n - θ]2.
() [ ]
Para facilitar o cálculo use o fato de que f θˆ y = nf X(y) F X(y) ( n - 1 ) .
n
{
1
, se x ∈ [0, θ]
f X(x) = θ
0, caso contrário
{
0, se x < 0
x
F X(x) = θ , se 0 ≤ x ≤ θ
1, se x > θ
{
ny n - 1
, se y ∈ [0, θ]
f θˆ (y) = nf x(y) F x(y)
n
[ ] (n-1) = θn
0, se caso contrário
[ ] θ ny n
E θ̂ n = ∫ 0y n d y = n+1θ
θ
( ) [ ]
n θ
B θ̂ n = E θ̂ n - θ = θ-θ= -
n+1 n+1
Resta agora obter EQM(θ̂ n). Note que, pela fórmula do erro quadrático médio dada no enunciado, obtemos:
[
= E θ̂ n - E θ̂ n [ ]]2 + 2 (E [θ̂n ] - E [θ̂n])(E[θ̂n] - θ ) + (E[θ̂n] - θ )2
2 2
= E[ θ̂ n − E[ θ̂ n ]] + 2(E[ θ̂ n ]−E[ θ̂ n ])(E[ θ̂ n ]−θ)+(E[ θ̂ n ]−θ)
[
= E θ̂ n - E θ̂ n [ ]]2 + 2(0) (E [θ̂n] - θ ) + (E [θ̂n ] - θ ) 2
2 2
= E[ θ̂ n − E[ θ̂ n ]] + 2(0)(E[ θ̂ n ]−θ)+(E[ θ̂ n ]−θ)
[
= E θ̂ n - E θ̂ n [ ]]2 + (E[θ̂n ] - θ )2 = Var (θ̂n ) + B (θ̂n ) 2
2 2 2
= E[ θ̂ n − E[ θ̂ n ]] + ( E[ θ̂ n ]−θ) = Var( θ̂ n )+B( θ̂ n )
A derivação do erro quadrático médio em termos da variância e do viés é muito útil e importante. Recomenda-se que o aluno pratique
[ ] [ ]
até entender os passos. Existem duas passagens cruciais. A primeira, logo no início, consiste em somar - E θ̂ n + E θ̂ n dentro da
esperança original. Isso equivale a somar por zero e permite a derivação posterior. Na segunda passagem importante, utilizamos o
[ ] [ ]
fato de E θ̂ n - θ ser uma constante para chegar ao resultado. Isso se dá, pois, a esperança E θ̂ n é uma constante e θ também.
Desse modo, temos:
( ) ( )2 = Var (θ̂n ) + (- n + 1 )
2
( )
θ
EQM θ̂ n = Var θ̂ n + B θ̂ n
[ ]
2
( )
Precisamos obter E θ̂ n para chegarmos a Var θ̂ n ). Temos, portanto:
[ ]
n-1
2 ny n
E θ̂ n = ∫ 0θy 2 dy = θ2
θn n+2
( ) [ ] [ ]
2
Var θ̂ n = E θ̂ n - E θ̂ n
2 2 n
= n + 2 θ2 - ( )
n
n+1
θ
2
=
n
(n+2) (n+1) 2
θ2
MÓDULO 3
Empregar os principais teoremas-limite da teoria estatística, assim como suas intuições e utilidades práticas no exercício da
Estatística
NOÇÕES DE CONVERGÊNCIA
Este módulo aborda a ideia um tanto fantasiosa de permitir que o tamanho da amostra aproxime-se do infinito e investiga o
comportamento de determinadas estatísticas amostrais à medida que isso acontece.
Embora a noção de uma amostra de tamanho infinito seja um artefato puramente teórico, isso nos oferece algumas aproximações
úteis para o caso da amostra finita, uma vez que, geralmente, expressões algebricamente complexas tornam-se simplificadas no
limite.
Fonte: Freepik
Neste estágio, estamos preocupados, principalmente, com dois tipos de convergência e as abordaremos em níveis de detalhes
diferentes. Em particular, queremos observar o comportamento de X n, a média de n observações, à medida que n ⟶ ∞.
Primeiro, iremos explorar o conceito de convergência em probabilidade. Esse tipo de convergência é o mais fraco e, por isso,
geralmente, é bastante fácil de ser verificado.
Uma sequência de variáveis aleatórias, X1,X1,…, converge em probabilidade para uma variável aleatória X se, para cada ϵ > 0:
lim
n→ ∞
P (|Xn - X | ≥ ∈ ) = 0
Ou, de modo equivalente:
lim
n→ ∞
P (|Xn - X | < ∈ ) = 1
Vamos analisar as duas expressões:
1° expressão
A primeira expressão nos diz que se a probabilidade da sequência Xn ficar distante de X, vai diminuindo à medida que a amostra
aumenta.
2° expressão
A segunda expressão enuncia a afirmação equivalente de que a probabilidade de os valores tomados por Xn serem próximos dos
As variáveis aleatórias da sequência X1, X2,… são, tipicamente, variáveis aleatórias independentes e identicamente distribuídas, como
A distribuição de Xn modifica-se à medida que o subscrito se modifica, e os conceitos de convergência discutidos neste módulo
descrevem diversos modos pelos quais a distribuição de Xn converge para alguma distribuição limite.
Neste caso, dizemos, que X é o limite em probabilidade de Xn. Muitas vezes, é utilizado também o termo “plim” (do inglês probability
Apesar de a definição anterior ser um tanto técnica, ela transmite uma intuição simples, que ficará mais clara com o teorema abaixo,
que é um dos principais resultados da teoria estatística.
LIM P
N→ ∞
(|Xˉ N - Μ | < ∈ ) = 1
Atenção! Para visualização completa da equação utilize a rolagem horizontal
Exemplo
Imagine uma bolsa cheia de dados honestos de seis faces. Se tirarmos o valor esperado de um dado de seis faces, obteremos o valor
1+2+3+4+5+6
μ= = 3, 5.
6
PIRO4D/pixabay
Inicialmente, jogamos apenas dois dados e tiramos a média dos valores sorteados.
Em seguida, jogamos três dados e tiramos novamente a média desses três valores sorteados.
Em cada rodada ,aumentamos o número de dados que jogamos e tiramos a média dos valores sorteados.
O que a LFrGN nos diz é que quanto maior o número de dados usarmos para tirar a média amostral, mais próximo o valor dela será da
esperança populacional μ = 3,5.
Sob a luz do exemplo apresentado, o uso da probabilidade na definição da LFrGN enuncia que quanto maior o número de dados de
seis faces que jogamos, maior a certeza de que a média amostral está próxima da média populacional.
Vejamos, por exemplo, o caso da consistência da variância amostral S2. Suponha que tenhamos uma sequência X1,X2,…, de
[ ] = Μ E VAR [X ] = Σ
E XI I
2
< ∞.
Se definimos:
( )2
2 1 N
SN = ∑ ˉ
XI - X
N-1 I = 1 N
Será possível provar a LFrGN para S 2n utilizando a Desigualdade de Chebyshev, um resultado muito útil de estatística, especialmente
para demonstrações da LFrGN.
Seja X uma variável aleatória e g(x) uma função não negativa. Então, para qualquer δ > 0, temos:
VAR [ X ]
P(|X - E[X]| ≥ Δ) ≤
Δ2
| ≥ ∈ ) = P(( )
E SN VAR S N
P (| 2
SN - Δ2 2
SN - Δ2)2
≥ ∈2 ≤
∈2
=
∈2
[ ]
Por esse resultado, encontramos que a condição necessária para que S 2n seja um estimador consistente de σ2 é que Var S 2n → 0 à
medida que n ⟶ ∞.
CONVERGÊNCIA EM DISTRIBUIÇÃO
Sejam X1,X2,… uma sequência de variáveis aleatórias. Dizemos que essa sequência converge em distribuição para uma variável
É comum referir-se a FX (x) como a distribuição assintótica de Xn. Apesar de o nome indicar que a sequência de variáveis aleatórias
converge em distribuição, são realmente as funções de distribuição acumulada que convergem, não as variáveis aleatórias.
Nesse sentido, a convergência em distribuição é muito diferente da convergência em probabilidade. Porém, vale notar que essa
convergência é implícita à convergência em probabilidade, como mostra o 1º teorema a seguir:
1° Teorema
Se a sequência de variáveis aleatórias X1,X2,… converge em probabilidade para uma variável aleatória X, ela também converge em
distribuição para X.
2° Teorema
A sequência de variáveis aleatórias X1,X2,… converge em probabilidade para uma constante c, se, e somente se, também convergir
ATENÇÃO
Vale frisar que a implicação contrária citada no 1° teorema nem sempre é verdadeira: nem toda sequência de variáveis aleatórias
X1,X2,… que converge em distribuição para X converge também em probabilidade para essa variável aleatória. Existe uma exceção
importante: quando a sequência converge para uma constante. Nesse caso, vale o 2° teorema.
ˉ :
VAMOS OBSERVAR O CASO DA MÉDIA AMOSTRAL X N
1
Vimos, anteriormente, como consequência da LFrGN, que essa variável converge em probabilidade para μ.
No segundo teorema vimos que a convergência em probabilidade para uma constante implica convergência em distribuição para a
mesma.
3
ˉ converge em distribuição para μ.
Temos também que X n
Uma distribuição desse tipo tem pouca utilidade para fins estatísticos. Para que esses resultados adquiram alguma utilidade,
precisamos ponderar Xˉ n de maneira um pouco diferente.
Σ2
ˉ -Μ =
VAR X N [ ] N
Vamos chamar Z n = √n (Xˉ n - μ ), de modo que temos E [Z n ] = 0 e Var [Z n ] = σ 2. Possuímos, assim, a esperança populacional e a
variância para essa variável aleatória.
Outro resultado de considerável relevância para a estatística, que nos dará a resposta para essa pergunta, é o Teorema do Limite
Central.
Definição
Seja X1,X2,… uma sequência de variáveis aleatórias independentes e identicamente distribuídas, com E[Xi] = μ e Var[Xi] = σ2 > 0.
1
Defina a média amostral como Xˉ n = n ∑ i =n1X i.
( )
Então, temos que à medida que n ⟶ ∞, √n X n - μ converge em distribuição para uma normal N(0,σ2>) e, consequentemente,
√n ( X n - μ )
σ
converge em distribuição para uma normal padrão N(0,1).
Nessa definição, utilizamos o fato de que uma variável aleatória qualquer X, que segue uma normal N(μ,σ^2 ), pode ser padronizada
para uma variável aleatória Z=(X-μ)/σ, que segue uma normal N(0,1). Essa formulação do teorema central do limite (TCL) é conhecida
como formulação Lindeberg-Lévy.
LINDEBERG-LÉVY
Matemáticos que deixaram contribuições essenciais para que o resultado do TCL fosse alcançado.
PRIMEIRO
SEGUNDO
PRIMEIRO
Começamos com pouquíssimas hipóteses, basicamente exigimos amostragem aleatória e variância finita, e terminamos com
normalidade. Essa normalidade no limite surge da soma de pequenos distúrbios independentes (representados pela variância σ2
finita).
SEGUNDO
O TCL nos diz que, se temos um problema no qual estamos interessados na soma de muitas variáveis aleatórias iid X_i, é possível
obter de imediato a distribuição dessa soma se soubermos a média e a variância de Xi.
Voltando para o exemplo da bolsa cheia de dados de seis faces, cada dado segue uma distribuição uniforme: a probabilidade de cair
qualquer uma das seis faces é igual. Assim, se jogarmos o mesmo dado 500 vezes, veremos algo próximo de uma distribuição
uniforme. Porém, esse resultado não vale para o valor da média amostral.
Vamos continuar analisando o exemplo dos dados honestos e um novo exemplo baseado na altura de todos os cidadãos do Brasil.
DADOS HONESTOS
Suponha agora que dois dados sejam jogamos 500 vezes, computando a média do valor de ambos para as 500 rodadas.
A distribuição ficará mais densa em torno da média 3,5 e mais “leve” nas caudas, perto de 1 e 6. Se repetirmos esse procedimento
anotando 500 vezes a média para três dados, quatro dados, e assim por diante, a distribuição se aproximará de uma distribuição
normal.
Assim, a média de variáveis aleatórias com distribuição uniforme tem distribuição assintótica normal. Isso não vale somente para uma
distribuição uniforme. Qualquer distribuição com variância finita terá, como distribuição assintótica de sua média, uma distribuição
normal.
Se fizéssemos um histograma dessas médias, ele lembraria o formato de sino da distribuição normal. Repetindo o mesmo
procedimento com 100 amostras aleatórias, o histograma ficaria mais semelhante a uma distribuição normal. À medida que
aumentássemos o número de amostras, mais o histograma convergiria para a distribuição normal.
Um detalhe fascinante do TCL é que, mesmo sabendo o histograma verdadeiro da altura dos cidadãos brasileiros, o histograma
dessas médias amostrais seguirá o formato de uma distribuição normal.
HISTOGRAMA
Representação gráfica em colunas ou em retângulo de um conjunto de dados previamente tabulado e dividido em classes
uniformes ou não uniformes. A base de cada retângulo representa uma classe.
ATENÇÃO
Um detalhe importante sobre o TCL é que podemos relaxar a hipótese de que todas as variáveis aleatórias da sequência precisam ser
identicamente distribuídas.
Agora, vamos deixar que cada X_i tenha sua própria esperança populacional μi e variância σi2. Desse modo, temos a seguinte
Neste teorema, seja X1,X2,…, uma sequência de variáveis aleatórias independentes, com E[Xi] = μi e Var[Xi] = σi2 > 0. Defina a média
amostral como:
1
ˉ =
X N ∑ I =N1X I
N
Sob algumas condições gerais, temos que à medida que n⟶∞, consequentemente:
∑ I =N1X I - ∑ I =N1Μ I
N 2
√∑ I = 1Σ I
As condições gerais mencionadas no enunciado dessa formulação do TCL podem ser descritas da seguinte maneira:
Neste vídeo, o professor Raphael Bruce mostrará exemplos numéricos para ilustrar alguns teoremas apresentados.
VERIFICANDO O APRENDIZADO
TAIS QUE E[XI]= Μ < ∞. SE VAR[XI] CONVERGE PARA 0 À MEDIDA QUE A AMOSTRA AUMENTA,
PROBABILIDADE PARA UMA CONSTANTE Μ SE, E SOMENTE SE, ESSA SEQUÊNCIA TAMBÉM
CONVERGE EM DISTRIBUIÇÃO PARA Μ.
SEJA X1,…,XN UMA AMOSTRA ALEATÓRIA MÉDIA X ̅ E VARIÂNCIA 0 < S2 < ∞. PODEMOS AFIRMAR
GABARITO
1. (ANPEC 2006 ‒ modificada): Indique se as afirmações abaixo são falsas ou verdadeiras e assinale a opção que contêm
todas as verdadeiras:
A desigualdade de Chebyshev é útil para calcular o limite inferior para a probabilidade de uma variável aleatória com
distribuição conhecida quando se tem apenas a variância da população.
Sejam Y1,…,Yn variáveis aleatórias independentes com média μ e variância finita. Pela Lei dos Grandes Números,
E [ 1
n ]
∑ i =n1Y i = μ.
Sejam em>Y1,…,Yn variáveis aleatórias independentes com média μ e variância finita. Pelo Teorema Central do Limite,
1 n
para um n suficientemente grande, podemos dizer que a distribuição da média amostral Y = n ∑ i = 1Y i segue,
( )
aproximadamente, uma distribuição normal N μ, n .
σ2
n n
∑ i = 1Y i - ∑ i = 1μ i ( )(
1
n
∑ i =n1Y i - nμ ) Y-μ
Utilizando a versão mais geral do TCL, temos que = = onverge em distribuição para uma normal
( )√
n 2 σ2
√ ∑ i = 1σ i 1
n
nσ 2
√ n
padrão N(0,1), ou seja, à medida que a amostra cresce, Y - μ se aproxima de uma normal N 0, n
( ) σ2
e, por fim, Y se aproxima de uma
( )
normal N μ,
σ2
n
.
2. (ANPEC 2012 ‒ modificada): Indique se as afirmações abaixo são falsas ou verdadeiras e assinale a opção que contêm
todas as verdadeiras:
Sejam X1,…,Xn variáveis aleatórias independentes e identicamente distribuídas, tais que E[Xi]= μ < ∞. Se Var[Xi]
converge para 0 à medida que a amostra aumenta, então Xi converge em probabilidade para μ.
Seja X1,X2,…, uma sequência de variáveis aleatórias. Essa sequência converge em probabilidade para uma constante μ
Seja X1,…,Xn uma amostra aleatória média X ̅ e variância 0 < s2 < ∞. Podemos afirmar que W = cX com c ∈ ℝ converge
σ2
para uma distribuição normal com média μ e variância .
n
σ 2n
(| | )
Var [ X ]
A afirmação I é verdadeira. Pela desigualdade de Chebyshev, temos que P(|X - E[X]| ≥ σ) ≤ ou seja, P Xn - μ ≤ ∈ >1- .
σ2 ∈2
2
Se σ n → n, temos que lim
n→ ∞
P (|Xn - μ | ≤ ∈ ) = 1, ou seja Xn converge em probabilidade para μ.
A afirmação II também é verdadeira. Se uma sequência de variáveis aleatórias converge em probabilidade para uma variável aleatória
X, também converge em distribuição para X. O inverso não é sempre verdadeiro. Uma exceção importante é o caso em que X é uma
constante, como no enunciado. Nesse caso, a convergência em distribuição para uma constante X = μ implica convergência em
probabilidade para essa mesma constante.
(X-μ)
A afirmação III é falsa, como vimos na seção 3. Pelo TCL temos que converge em distribuição para uma normal padrão N(0,1).
σ2
√ n
( W - cμ )
Como W = cX, temos que também converge em distribuição para uma normal padrão N(0,1). Rearranjando os termos,
c 2σ 2
√ n
( ) ( )
obtemos que W - cμ converge para N 0, c 2σ 2 e, por fim, W converge em distribuição para N cμ, n
c 2σ 2
.
CONCLUSÃO
CONSIDERAÇÕES FINAIS
Amostras são subconjuntos de alguma população. Analisamos amostras porque, em geral, não é factível estudar a população como
um todo. Por exemplo, ao testar a eficácia de uma vacina, usamos uma amostra de pessoas suscetíveis à doença contra a qual
busca-se proteção.
O objetivo da análise de amostras é, no fim das contas, fazer inferências sobre a população como um todo: se a vacina funcionar bem
em amostras aleatórias, também deve funcionar para a população. Formalizamos isso ao estudar inferências a partir de amostras.
Finalmente, estabelecemos alguns dos resultados fundamentais para esse tipo de inferência: a Desigualdade de Chebyshev, a Lei
(Fraca) dos Grandes Números e o Teorema Central do Limite.
REFERÊNCIAS
CASELLA, G.; BERGER, R. L. Inferência estatística. 2. ed. São Paulo: Cengage Learning, 2011.
MEYER, P. L. Probabilidade: aplicações à Estatística. 2. ed. Rio de Janeiro: Livros Técnicos e Científicos, 1983.
ROSS, S. Probabilidade: um curso moderno com aplicações. 8. ed. Porto Alegre: Bookman, 2009.
EXPLORE+
Para fixar os conceitos, recomenda-se a leitura do Capítulo 8 do livro Probabilidade: um curso moderno com aplicações (8ª edição), de
Sheldon Ross. Esse capítulo abrange uma grande variedade de exercícios sobre os conteúdos do Módulo 3.
Do livro Probabilidade: aplicações à Estatística (2ª edição), de Paul Meyer, recomenda-se a seção 7.8 (referente à desigualdade de
Chebyshev) e os capítulos 12 e 13. O Capítulo 12 cobre, em maior profundidade, os tópicos do Módulo 3, enquanto o Capítulo 13
cobre o Módulo 1.
CONTEUDISTA
Raphael Guinâncio Bruce
CURRÍCULO LATTES