Amostras Aleatórias e Suas Propriedades 2

DEFINIÇÃO
Apresentação dos conceitos de Probabilidade e Estatística. Definição de amostra aleatória e suas propriedades — resultados e
noções importantes. Conjecturas sobre uma população a partir de uma amostra — conceitos de viés e erro quadrático médio.
Principais teoremas-limite da Estatística — Lei Fraca dos Grandes Números e Teorema Central do Limite.
PROPÓSITO
Examinar as propriedades teóricas de amostras aleatórias e os resultados para o desenvolvimento do exercício de inferência sobre
uma população a partir de um subconjunto dela, tal como as conclusões a respeito dessa população a partir de pequenos recortes,
algo fundamental no cotidiano profissional de várias áreas.
PREPARAÇÃO
Antes de iniciar o conteúdo deste tema, certifique-se de ter papel e lápis por perto para acompanhar os exemplos e demonstrações.
OBJETIVOS
MÓDULO 1
Descrever uma amostra aleatória e o que a torna especial em relação a outros subconjuntos da população de interesse
MÓDULO 2
Descrever média e variância amostral e suas relações com as contrapartidas populacionais
MÓDULO 3
Empregar os principais teoremas-limite da teoria estatística, assim como suas intuições e utilidades práticas no exercício da Estatística
INTRODUÇÃO
O conceito de amostra, de um subconjunto de uma determinada população, é central para o exercício da Estatística.
Há diferentes tipos de amostra. Sobre este tópico:
Começaremos caracterizando uma amostra aleatória e suas propriedades, e as possíveis relações entre seus elementos. Assim,
começaremos a transição da Teoria da Probabilidade para a Estatística.
Usaremos amostras para fazer conjecturas a respeito de populações. Para isso, teremos que desenvolver um ferramental específico e
um novo conjunto de hipóteses que permitam fazer inferências sobre a população que queremos estudar.
Chegaremos a alguns dos resultados mais importantes da Estatística: a Desigualdade de Chebyshev, a Lei (Fraca) dos Grandes
Números e o Teorema Central do Limite.
MÓDULO 1
 Descrever uma amostra aleatória e o que a torna especial em relação a outros subconjuntos da população de interesse
AMOSTRAS ALEATÓRIAS
Pesquisadores frequentemente coletam dados sobre diversas informações em um experimento. Esses dados consistem em várias
observações sobre diferentes variáveis de interesse.
Fonte: geralt/pixabay
Um grupo de pesquisadores da área de saúde pode coletar informações sobre altura, peso e pressão sanguínea da população de uma
cidade.
Quase sempre, porém, é inviável coletar essas informações para todas as pessoas. Para isso, utilizam-se técnicas de amostragem
que buscam selecionar uma subpopulação (a amostra) a fim de chegar a conclusões que sejam generalizáveis para o restante da
população.
O principal método de amostragem é chamado de amostragem aleatória, vamos conhecer sua definição.
AMOSTRA ALEATÓRIA - DEFINIÇÃO

As variáveis aleatórias X1,…,Xn são chamadas de amostra aleatória de tamanho n da população com densidade marginal fX(x) se
X1,…,Xn se forem mutuamente independentes e se a distribuição marginal de cada Xi for a mesma função fX(x). De modo alternativo,
X1,…,Xn são chamadas de variáveis aleatórias independentes e identicamente distribuídas, com distribuição fX(X). Comumente,
chama-se esse tipo de variável de “variável aleatória iid”.
Vamos analisar algumas informações sobre o modelo de amostragem aleatória:
INFORMAÇÃO 1
INFORMAÇÃO 2
INFORMAÇÃO 3
INFORMAÇÃO 1
Descreve um tipo de situação em que a variável de interesse X tem uma distribuição dada por fX(x).
INFORMAÇÃO 2
Na maioria dos experimentos, não observamos somente uma realização de X, mas n > 1 observações repetidas dessa variável
aleatória. Medimos a altura para n > 1 indivíduos, ou o peso para n > 1 indivíduos, por exemplo.
INFORMAÇÃO 3
De acordo com o modelo de amostragem aleatória descrito, cada observação Xi tem uma distribuição marginal dada por fX(x). Além
disso, essas observações não têm relação entre si, ou seja, são mutualmente independentes.
Desse modo, chegamos à função de distribuição conjunta, dada por:
FX1 . . . XN ( X 1, . . . , X N ) = 1
( ) ( )
F X X 1 F X X 2 . . . F XN X N = ∏ I =N1F X X I
2
( ) I
( )
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Podemos utilizar a equação apresentada para calcular probabilidades envolvendo uma amostra aleatória iid.
PRIMEIRA IGUALDADE
Na primeira igualdade, utilizamos a independência para separar a densidade marginal conjunta em um produto de densidades
marginais individuais.
SEGUNDA IGUALDADE
Na segunda igualdade, utilizamos o fato de elas seguirem a mesma distribuição.
Uma vez que X1,…,Xn são identicamente distribuídas, todas as densidades marginais fX (x) são iguais, ou seja, fX (x) = fX (x) = ⋯ =
i 1 2
fXn(x). Isso vale, inclusive, para distribuições paramétricas, como a exponencial do exemplo a seguir:
EXEMPLO
Sejam X1,…,Xn uma amostra aleatória de uma população exponencial com parâmetro β. Mais especificamente, essa amostra
corresponde aos períodos decorridos (medidos em anos) até que ocorra uma falha em n circuitos idênticos, que são testados e
utilizados até falharem. A distribuição conjunta da amostra é dada por:
(
f X 1 . . . X x 1, . . . , x n
n
| β ) = ∏i =n1fX (xi | β ) =
i β
1 1
∏ i =n1 e - x i / β = e -
β
( X1 + ... + Xn ) /β
Essa distribuição pode ser utilizada para responder a questões relacionadas à amostra, como por exemplo:
Qual a probabilidade de que todos os circuitos tenham uma duração maior do que cinco anos?
Podemos obter esse valor a partir do seguinte cálculo:
XI
(
P X 1 > 5, . . . , X N > 5 = ) ∫∞
5
. . . ∫ ∞
∏ N 1 -
5 I=1Β
E Β DX 1. . . DX N
= E-Β
5
[ ∞ ∞ N 1 -
XI
∫ 5 . . . ∫ 5 ∏ I = 2 E Β DX2. . . DX N
Β ]
( )[ ] ( )
5 2 XI 5 N
N 1 -
= E-Β ∫∞
5
. . . ∫ ∞
∏
5 I=3Β
E Β DX
3. . . DX N = ... = E-Β
5N
-
= E Β
Se β, tempo de duração médio de um circuito, for grande em relação ao número n de observações da amostra, verificamos que
essa probabilidade é próxima de 1.
Esse cálculo ilustra como a distribuição de uma amostra aleatória iid pode ser utilizada para calcular probabilidades sobre essa
amostra.
Perceba que a propriedade das variáveis de serem independentes e identicamente distribuídas dentro dessa amostra também pode
ser utilizada diretamente nos cálculos. Por exemplo, podemos chegar ao mesmo resultado da seguinte maneira:
( ) 5 N 5N
( ) ( )
P X 1 > 5, . . . , X N > 5 = P X 1 > 5 . . . P X N > 5 = P X 1 > 5 ( ) [( )] N = E-Β = E- Β
Vamos analisar as passagens apresentadas na fórmula:
DA PRIMEIRA PARA A SEGUNDA

Utilizamos a propriedade de independência.
DA SEGUNDA PARA A TERCEIRA

Utilizamos a propriedade de as variáveis serem identicamente distribuídas.
O modelo de amostragem aleatória utilizado anteriormente é chamado de amostragem de uma população infinita.
Considere a obtenção dos valores de X1,…,Xn sequencialmente.
1° Realizamos o experimento e observamos X1 = x1.

2° Repetimos o experimento e obtemos X2 = x2.
A suposição de independência no processo de amostragem aleatória implica que a distribuição de probabilidade de X2 não é afetada
pelo fato de termos observado X1 = x1. Se removermos x1> da população infinita, essa população não é modificada; logo, X2 = x2
ainda é uma observação aleatória da mesma população.

Fonte: Free-Photos/pixabay
 RESUMINDO
Quando temos uma população infinita, a amostragem equivale a uma amostragem aleatória. Esse não será sempre o caso para
amostras de uma população finita, como veremos agora.
AMOSTRAS FINITAS
Fonte: Adaptado de Freepik
Uma população finita é descrita por um conjunto de números {x1,…,xN}. Uma amostra X1,…,Xn, onde n ≤ N, deve ser obtida a partir
dessa população.
PRIMEIRO
Suponha que um valor seja escolhido dentro dessa população, de modo que cada um dos N valores tenha a mesma probabilidade de
ser escolhido (i.e., probabilidade igual a 1/N). Esse valor sorteado é registrado como X1 = x1.
SEGUNDO
O processo é repetido, e obtemos X2 = x2. Esse processo é repetido n vezes, até que tenhamos gerado a amostra X1, ..., Xn.
Esse tipo de processo de amostragem é considerado com reposição.
PROCESSO DE AMOSTRAGEM COM REPOSIÇÃO

Neste processo de amostragem, o valor escolhido em cada rodada é “reposto” na população e está novamente disponível para ser
sorteado na rodada seguinte.
Para esse tipo de amostragem temos:
As mesmas propriedades que obtemos para a amostragem com uma população infinita, isto é, de uma amostragem onde X1, ..., Xn
são variáveis aleatórias independentes e identicamente distribuídas.
Cada Xi é uma variável aleatória discreta que assume cada um dos valores x1, ..., xN com a mesma probabilidade, logo, são
identicamente distribuídas.
Elas também são independentes porque o processo para escolha de qualquer Xi é o mesmo, independentemente dos valores que são
obtidos para qualquer uma das outras variáveis.
Vamos considerar um segundo caso. Queremos obter uma amostra aleatória a partir de uma população finita, mas sem reposição.
PASSO 1
PASSO 2
PASSO 1
Escolhemos um valor a partir da população finita descrita por {x1,…,xN}, de modo que cada um dos N valores tenha a mesma
probabilidade de ser escolhido igual a 1/N. Esse valor é registrado como X1 = x1.
PASSO 2
Agora, um segundo valor é sorteado dentre os N - 1 restantes. Desse modo, a probabilidade de escolhermos um desses N - 1 valores
é igual a 1/(N - 1). O segundo valor sorteado é registrado como X2 = x2.
OBSERVAÇÃO
Assim que um valor é escolhido, ele se torna indisponível para a escolha em qualquer estágio posterior, pois não é reposto na
população. A escolha dos valores restantes continua dessa maneira, gerando a amostra X1,…,Xn.
NOTE QUE ESSE TIPO DE AMOSTRA NÃO SATISFAZ TODAS AS CONDIÇÕES

DA DEFINIÇÃO DE AMOSTRA ALEATÓRIA DADA NO COMEÇO DESSE
MÓDULO. PRIMEIRO,X1,…,XN NÃO SÃO MUTUAMENTE INDEPENDENTES.
COMO PODEMOS VERIFICAR ISSO?

Tome x e y como elementos distintos de {x1,…,xN}. Segue que P(X2 = y │ X1 = y) = 0, pois o valor y não pode ser escolhido na
segunda rodada se já o tiver sido anteriormente. Contudo, note que P(X2 = y │ X1 = x) = 1/(N - 1) pois, apesar de termos sorteado x na
primeira rodada e reduzido o tamanho da população de N para N-1, o valor y ainda pode ser sorteado. Desse modo, podemos dizer
que a distribuição de X2 depende do valor que é observado para X1 e, logo, X1 e X2 não são independentes.
( )
P X 2 = X = ∑ I =N1P X 2 = X ( | X1 = XI )P (X1 = XI )
Para um valor do índice i, digamos i = k, temos x = xk e P(X2 = x│X1 = xk) = 0. Para todos os outros, j ≠ k e P(X2 = x │ X1 =xj ) = 1/(N -
1). Portanto:
( )
P X 2 = X = (N - 1)
( ) 1
N-1 N
1
=
1
N
Argumentos similares podem ser utilizados para mostrar que cada um dos X_i tem a mesma distribuição marginal.
Por último, vale observar a consequência de amostras aleatórias independentes e identicamente distribuídas para o operador
esperança. Caso X1, …,Xn sejam iid, temos:
[ ] [ ] [ ]
E X 1X 2. . . X N = E X 1 E X 2 . . . E X N [ ] = E X1 [ ]N
Onde a independência garante a primeira igualdade e a distribuição idêntica da amostra garante a segunda.
Neste vídeo, o professor Raphael Bruce apresentará e resolverá um exercício para a fixação dos conceitos vistos durante o módulo.
VERIFICANDO O APRENDIZADO
1. SEJAM X1,…,XN VARIÁVEIS ALEATÓRIAS IID COM FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA

CONTÍNUA FX (X), E SUPONHA QUE E[XI ] = Μ. DEFINA AS VARIÁVEIS ALEATÓRIAS Y1,…, YI POR:
{
1, SE X I > Μ
YI =
0, SE X I ≤ Μ
ENCONTRE A DISTRIBUIÇÃO DE ∑N(I = 1) YI E ASSINALE A ALTERNATIVA CORRESPONDENTE.
A) ∑n(i = 1) Yi ~ Bernoulli (p = 1 - FX (μ))
B) ∑n(i = 1) Yi ~ Bernoulli (p = FX (μ))
C) ∑n(i = 1) Yi ~ Binomial (n, p = 1 - FX (μ))
D) ∑n(i = 1) Yi ~ Binomial (n, p = FX (μ))

2. SEJAM X1, X2 E X3 TRÊS VARIÁVEIS ALEATÓRIAS IID QUE SEGUEM UMA DISTRIBUIÇÃO BERNOULLI
(P = 1/2) COM PROBABILIDADE DE SUCESSO E COM AS VARIÁVEIS Y1,Y2,Y3 DEFINIDAS COMO:
Y1 = MAX⁡(X1, X2)
Y2 = MAX⁡(X1, X3)
Y3= MAX⁡(X2, X3)
Y = Y 1 + Y2 + Y3
ENCONTRE E[Y] E VAR[Y] E ASSINALE A ALTERNATIVA QUE CORRESPONDE AOS VALORES

CORRETOS:
A) E[Y] = 7/4 e Var[Y] = 37/16
B) E[Y] = 9/4 e Var[Y] = 33/16
C) E[Y] = 7/4 e Var[Y] = 33/16
D) E[Y] = 9/4 e Var[Y] = 37/16
GABARITO
1. Sejam X1,…,Xn variáveis aleatórias iid com função de distribuição acumulada contínua FX (x), e suponha que E[Xi ] = μ.
Defina as variáveis aleatórias Y1,…, Yi por:
Yi =
{ 1, se X i > μ
0, se X i ≤ μ
Encontre a distribuição de ∑n(i = 1) Yi e assinale a alternativa correspondente.
A alternativa "C " está correta.
Note que Yi ~ Bernoulli com pi = P(Xi > μ) = 1 - FX (μ) para cada i, onde pi é a probabilidade de sucesso da Bernoulli. Para constatar,
basta notar que cada Yi assume o valor 1, caso satisfaça a condição Xi > μ, e, em caso contrário, assume o valor 0 (zero). Como as
variáveis Yi são iid com distribuição Bernoulli, e uma sequência de variáveis aleatórias que seguem uma Bernoulli é representada pela
distribuição Binomial, temos ∑n(i = 1) Yi ~ Binomial (n, p = 1 - FX (μ)).
2. Sejam X1, X2 e X3 três variáveis aleatórias iid que seguem uma distribuição Bernoulli (p = 1/2) com probabilidade de
sucesso e com as variáveis Y1,Y2,Y3 definidas como:
Y1 = max⁡(X1, X2)
Y2 = max⁡(X1, X3)
Y3= max⁡(X2, X3)
Y = Y1 + Y2 + Y3
Encontre E[Y] e Var[Y] e assinale a alternativa que corresponde aos valores corretos:
A alternativa "B " está correta.

Por Y1, Y2 e Y3 serem identicamente distribuídas, segue que:
E[Y] = E[Y1 ] + E[Y2 ] + E[Y3 ] = 3E[Y1]
Também temos:
Var[Y] = Var[Y1 ] + Var[Y2 ] + Var[Y3 ] +2 Cov[Y1, Y2 ] + 2Cov[Y1, Y3 ] + 2Cov[Y2, Y3 ] = 3Var[Y1 ] + 6Cov[Y1, Y1]
Note que Y1, Y2 e Y3, apesar de terem igualmente distribuição Bernoulli, assim como X1, X2 e X3, não são independentes. Em
particular, temos:
P(Y1 = 1) = P((X1 = 1) ∪ (X2 = 1)) = P(X1 = 1) + P(X2 = 1) - P((X1 = 1) ∩ (X2 = 1)) = 2p - p2
Logo Y1 ~ Bernoulli (2p - p2) e podemos obter:
E[Y1 ] = 2p - p2 = p(2-p)
Var[Y1]=(2p - p2 )(1 - 2p + p2 ) = p(2 - p)(1 - p2)
Resta encontrar Cov(Y1,Y1). Podemos escrever:
Cov(Y1, Y2 ) = E[Y1 Y2 ] - E[Y1 ]E[Y2 ] = E[Y1 Y2 ] - p2 (2 - p)2
Como Y1 Y2 também segue uma distribuição Bernoulli, temos:
E[Y1 Y2 ] = P(Y1 = 1, Y2 = 1) = P((X1 = 1) ∪ (X2 = 1, X3 = 1)) = P(X1 = 1) + P(X2 = 1, X3 = 1) - P(X1 = 1, X2 = 1, X3 = 1) = p + p2 - p3
Logo, temos:
Cov(Y1, Y1 ) = E[Y1 Y2 ] - p2 (2 - p)2 = p + p2 - p3 - p2 (2 - p)2
Finalmente, E[Y] = 3E[Y1 ] = 3p(2 - p), e:
Var[Y] = 3Var[Y1 ] + 6 Cov[Y1, Y2 ] = 3p(2 - p)(1 - p2 ) + 6(p + p2 - p3 - p2 (2 - p)2 )
Como p = 1/2, temos que: E[Y] = 9/4 e Var[Y] = 33/16
Uma vez que esta atividade envolve cálculo de valores específicos, caso o aluno tenha encontrado os valores das opções “a”, “c” ou
“d”, terá cometido algum erro de cálculo.
MÓDULO 2
 Descrever média e variância amostral e suas relações com as contrapartidas populacionais
DEFINIÇÕES INICIAIS
Fonte: geralt/pixabay
O objetivo da Estatística é aprender características de uma população a partir de uma amostra. Tecnicamente, é a partir da
introdução do conceito de amostra, explanado no módulo anterior, que é feita a transição da probabilidade para a estatística.
Essas “características populacionais” que procuramos aprender são chamadas de parâmetros e costumam ser denotadas por letras do
alfabeto grego como μ, β ou θ, apesar de, ocasionalmente, também serem representadas por caracteres do nosso alfabeto.
Parâmetro - definição
Um parâmetro θ é qualquer função de uma população representada pela distribuição marginal f.
 EXEMPLO
A média populacional μ = E[X] é uma função de fX (x); no caso, é o primeiro momento de fX (x).
Estatística ‒ definição
Sejam X1,…,Xn uma amostra aleatória de tamanho n a partir de uma população, e seja T(x1,…,xn) uma função com valor real ou por
vetor, cujo domínio inclui o espaço amostral de (X1,…,Xn). Então, a variável aleatória ou vetor aleatório θ̂ = T(X1,…,Xn) é chamado de
uma estatística.
A DISTRIBUIÇÃO DE PROBABILIDADE DE UMA ESTATÍSTICA Θ̂ É CHAMADA

DISTRIBUIÇÃO AMOSTRAL DE Θ̂
O sumário da amostra aleatória fornecido por uma estatística pode incluir muitos tipos de informação.
 EXEMPLO
Ela pode dar o menor ou o maior valor na amostra, o valor médio, ou uma medida de variabilidade nas observações da amostra.
Assim como há uma diferença entre variáveis aleatórias (e.g. Xi) e suas realizações (e.g. x), há também uma distinção entre uma
estatística como função de uma amostra aleatória (neste caso, a estatística é uma variável aleatória) e uma estatística como função da
realização da amostra.
No primeiro caso, a entendemos como função de amostra de variáveis aleatórias, enquanto no segundo a entendemos como função
de valores já realizados. Uma maneira de perceber essa distinção de maneira mais clara é pensar em termos de “antes de ver os
dados da pesquisa” e “depois de ver os dados da pesquisa”:
Estatística como função de uma amostra aleatória
Quando pensamos em uma estatística “antes de ver os dados da pesquisa” não sabemos o valor que ela pode tomar. Sob o nosso
ponto de vista — o do pesquisador — ela é desconhecida e aleatória.

Estatística como função da realização da amostra.
Após observar os dados ― ou seja, “depois de examinar os dados da pesquisa” ― e, mais especificamente, computar a estatística,
ela é um número específico e, assim, uma realização. Ou seja, não irá tomar outros valores.
QUANDO REPETIMOS A AMOSTRAGEM ALEATÓRIA SOBRE UMA

POPULAÇÃO, GERAMOS REALIZAÇÕES DIFERENTES E, PORTANTO,
ESTATÍSTICAS DIFERENTES.
Algumas estatísticas podem ser utilizadas para estimar parâmetros:
Estimador ‒ definição
Um estimador θ̂ ̂para um parâmetro θ é uma estatística entendida como uma conjectura sobre θ.
Note que definimos o estimador utilizando a expressão vaga de “conjectura” (i.e. um palpite). Isso é intencional. Ao introduzir a
definição de estimador, desejamos incluir nela o maior número de possíveis estimadores.
Algumas vezes chamamos θ̂ de estimador e outras, de estimativa. Há, porém, uma diferença fundamental entre esses nomes.
θ̂ estimador
Chamamos θ̂ de estimador quando ele é expresso em função de variáveis aleatórias e, portanto, também é uma variável aleatória.
Assim, podemos utilizar a teoria de probabilidade que conhecemos para obter a distribuição de θ̂. Enquanto estivermos desenvolvendo
a teoria a respeito de θ ̂, o chamaremos de estimador de θ.

θ̂ estimativa
Chamamos θ̂ de estimativa quando ele é um valor específico (ou realizado) calculado para uma amostra específica. Assim, em
aplicações específicas iremos nos referir a θ̂ como estimativa de θ.
COMO OBTER UM ESTIMADOR Θ̂?

Um jeito simples é utilizando o princípio da analogia: expressar primeiro o parâmetro θ como função da população e, em seguida,
expressar θ̂ como função análoga para a amostra. Isso ficará mais claro a seguir, ao examinarmos a média amostral.
Um dos parâmetros fundamentais para o campo da Estatística é a esperança populacional representada por μ = E[X]. Por meio de
transformações, diversos parâmetros de interesse podem ser escritos em termos de esperanças populacionais.
ESPERANÇAS POPULACIONAIS
É a média tirada para toda a população.
PARA ESTIMAR Μ PELO PRINCÍPIO DA ANALOGIA, BASTA APLICAR A

MESMA FUNÇÃO À AMOSTRA. COMO Μ É A MÉDIA DE X PARA A
POPULAÇÃO, O ESTIMADOR ANÁLOGO É A MÉDIA DE X PARA A AMOSTRA.
Média amostral - definição
A média amostral é a média aritmética dos valores de uma amostra aleatória. Isso geralmente é denotado por:
X1 + . . . + Xn 1 n
Xn = n
= n ∑ i = 1X i
A média amostral é uma estatística, uma vez que é função da amostra. É também aleatória, como previamente discutido.
O QUE ISSO SIGNIFICA?

Significa que a média amostral não terá sempre o mesmo valor se utilizarmos amostras aleatórias diferentes, à distinção da média
populacional μ, que é um parâmetro populacional.
Agora, vamos definir os estimadores amostrais para variância e desvio-padrão:
VARIÂNCIA AMOSTRAL ‒ DEFINIÇÃO

A variância amostral é a estatística definida por:
( )
1 n
S2 = n - 1 ∑i = 1 Xi - Xn 2
DESVIO PADRÃO AMOSTRAL – DEFINIÇÃO

O desvio padrão amostral é a estatística definida por:
S = √S 2
Em geral, suprimimos a notação funcional nas definições anteriores a respeito dessas estatísticas. Isto é, escrevemos:
S EM VEZ DE S(X1,…,XN).
A dependência da estatística na amostra é subentendida. Assim como antes, grafaremos os valores observados de estatísticas com
letras minúsculas. Desse modo:
X, 𝑠2 E 𝑠 DENOTAM VALORES OBSERVADOS DE X, 𝑆2 𝑒 𝑆.
A média amostral já é, provavelmente, familiar para o leitor.
A VARIÂNCIA E O DESVIO-PADRÃO DA AMOSTRA

A variância e o desvio-padrão da amostra são medidas de variabilidade na amostra, relacionadas à variância e ao desvio-padrão da
população que veremos a seguir. Começamos derivando algumas propriedades da média e da variância amostral.
PROPRIEDADES
Neste vídeo, o professor Raphael Bruce falará sobre as propriedades de uma amostra aleatória, por meio de seus teoremas.
Um assunto que é tratado com maior profundidade em estimação pontual, mas que vale ser introduzido desde já, é o de viés
estatístico. Sem nos aprofundarmos muito nesse assunto, dizemos que as estatísticas X n e S2 são, respectivamente, estimadores
não viesados de μ e σ2.
Estimadores não viesados ‒ definição
Um estimador é dito não viesado se a sua esperança é igual à sua contrapartida populacional.
Nesses casos, E[X n] = μ e E[S2 ] = σ2..
Um detalhe importante a respeito de S2 é que se definirmos esse estimador como a média usual dos desvios quadráticos com n ao
invés de n - 1 no denominador, então E[S2 ] seria igual a (n - 1)/n σ2, e, portanto, S2 não seria um estimador não viesado de σ2.
Por fim, apresentaremos algumas propriedades das quantidades amostrais obtidas a partir de uma população normal, que consiste em
um dos modelos estatísticos mais amplamente utilizados.
A amostragem a partir de uma população normal leva a muitas propriedades úteis da estatística e a muitas distribuições amostrais
bastante conhecidas.
Definição
( )
1 1
Sejam X1,…,Xn uma amostra aleatória de uma distribuição N(μ, σ2), e que X n = n ∑ i =n1 X i e S 2 = n - 1 ∑ i =n1 X i - X n 2. Então:
X n e S2 são variáveis aleatórias independentes;
X n tem uma distribuição N μ, n ;

( ) σ2
( n - 1 ) S2
tem uma distribuição qui-quadrado com n - 1 graus de liberdade.
σ2
1. SEJA TO O TEMPO NECESSÁRIO PARA TERMINAR O SIMULADO AO FINAL DESTE TEMA. PARA
ESTIMAR A MÉDIA E A VARIÂNCIA DE T, OBSERVAMOS UMA AMOSTRA ALEATÓRIA T1,T2,…,T6. ASSIM,
OS TI SÃO INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDAS E TEM A MESMA DISTRIBUIÇÃO DE T:
18, 21, 17, 16, 24, 20
ENCONTRE OS VALORES PARA A MÉDIA AMOSTRAL, A VARIÂNCIA AMOSTRAL E O DESVIO-PADRÃO

AMOSTRAL PARA ESSA AMOSTRA OBSERVADA E ASSINALE A ALTERNATIVA COM OS VALORES
CORRETOS:
A) T = 14.76, S2 = 4.32, S = 2.07
B) T = 23.42, S2 = 7.61, S = 2.75
C) T = 15.92, S2 = 5.12, S = 2.26
D) T = 19.33, S2 = 8.67, S = 2.94
2. SEJA X1,…,XN UMA AMOSTRA ALEATÓRIA COM UMA DISTRIBUIÇÃO UNIFORME U(0,Θ), EM QUE Θ É
DESCONHECIDO. DEFINA O ESTIMADOR:
Θ̂ N = MAX⁡(X1,…,XN)
ENCONTRE O VIÉS DE Θ̂ N, DADO POR B(Θ̂ N) = E[Θ̂ N] - Θ, E O ERRO QUADRÁTICO MÉDIO DE Θ̂ N,

DADO POR EQM(Θ̂ N) = E[Θ̂ N - Θ]2.
PARA FACILITAR O CÁLCULO USE O FATO DE QUE F Θˆ
N () [
Y = NF X(Y) F X(Y) ] (N-1).
ASSINALE A ALTERNATIVA CORRETA:
2θ 2
( ) ( )
θ
A) B θ̂ n = - e EQM θ̂ n = ( n + 2 ) ( n + 1 )
n+1
2θ 2
( ) ( )
θ
B) B θ̂ n = n + 1 e EQM θ̂ n = ( n + 2 ) ( n + 1 )
θ2
( ) ( )
θ
C) B θ̂ n = - n + 1 e EQM θ̂ n = ( n + 2 ) ( n + 1 )
2θ 2
( ) ( )
θ
D) B θ̂ n = e EQM θ̂ n =
n+1 (n+2) (n+1) 2
GABARITO
1. Seja To o tempo necessário para terminar o simulado ao final deste tema. Para estimar a média e a variância de T,
observamos uma amostra aleatória T1,T2,…,T6. Assim, os Ti são independentes e identicamente distribuídas e tem a mesma
distribuição de T:
18, 21, 17, 16, 24, 20
Encontre os valores para a média amostral, a variância amostral e o desvio-padrão amostral para essa amostra observada e
assinale a alternativa com os valores corretos:
A alternativa "D " está correta.
Como vimos na seção 1, para obter a média aleatória, efetuamos o seguinte cálculo:
( T1 + T2 + T3 + T4 + T5 + T6 )
T = 6
=
8 + 21 + 17 + 16 + 24 + 20 )
T = 6
= 19. 33
Para obter a variância amostral efetuamos o seguinte cálculo:
( )
1 6
S 2 = n - 1 ∑ i = 1 T i - 19. 33 2 = 8. 67
Por fim, para obter o desvio-padrão amostral basta tirar a raiz quadrada da variância amostral, ou seja:
S = √8. 67 = 2. 94
Desse modo, a resposta certa é a letra d.
2. Seja X1,…,Xn uma amostra aleatória com uma distribuição uniforme U(0,θ), em que θ é desconhecido. Defina o estimador:
θ̂ n = max⁡(X1,…,Xn)
Encontre o viés de θ̂ n, dado por B(θ̂ n) = E[θ̂ n] - θ, e o erro quadrático médio de θ̂ n, dado por EQM(θ̂ n) = E[θ̂ n - θ]2.
() [ ]
Para facilitar o cálculo use o fato de que f θˆ y = nf X(y) F X(y) ( n - 1 ) .
n
Assinale a alternativa correta:
A alternativa "A " está correta.

Se X ~U(0,θ), então a distribuição marginal e a distribuição acumulada de X são dadas por:
{
1
, se x ∈ [0, θ]
f X(x) = θ
0, caso contrário
{
0, se x < 0
x
F X(x) = θ , se 0 ≤ x ≤ θ
1, se x > θ
Utilizando a o resultado auxiliar dado no enunciado θ̂ n:
{
ny n - 1
, se y ∈ [0, θ]
f θˆ (y) = nf x(y) F x(y)
n
[ ] (n-1) = θn
0, se caso contrário
Com a densidade marginal de θ̂ n, podemos agora obter E[θ̂ n]:

n-1
[ ] θ ny n
E θ̂ n = ∫ 0y n d y = n+1θ
θ
Logo, o viés de θ̂ n é dado por:
( ) [ ]
n θ
B θ̂ n = E θ̂ n - θ = θ-θ= -
n+1 n+1
Resta agora obter EQM(θ̂ n). Note que, pela fórmula do erro quadrático médio dada no enunciado, obtemos:
( ) [ ]2 = E [θ̂n - E[θ̂n ] + E [θ̂n ] - θ] 2

EQM θ̂ n = E θ̂ n - θ
E [θ̂ n - E [θ̂ n ]] + 2E [(θ̂ n - E [θ̂ n ])(E [θ̂ n ] - θ )] + (E [θ̂ n ] - θ )

2 2
=
E [θ̂ n - E [θ̂ n ]] + 2E [(θ̂ n - E [θ̂ n ])](E [θ̂ n ] - θ ) + (E [θ̂ n ] - θ )

2 2
=
2 2
= E[ θ̂ n − E[ θ̂ n ]] + 2E[( θ̂ n − E[ θ̂ n ])](E[ θ̂ n ]−θ)+(E[ θ̂ n ]−θ)
[
= E θ̂ n - E θ̂ n [ ]]2 + 2 (E [θ̂n ] - E [θ̂n])(E[θ̂n] - θ ) + (E[θ̂n] - θ )2
2 2
= E[ θ̂ n − E[ θ̂ n ]] + 2(E[ θ̂ n ]−E[ θ̂ n ])(E[ θ̂ n ]−θ)+(E[ θ̂ n ]−θ)
[
= E θ̂ n - E θ̂ n [ ]]2 + 2(0) (E [θ̂n] - θ ) + (E [θ̂n ] - θ ) 2
2 2
= E[ θ̂ n − E[ θ̂ n ]] + 2(0)(E[ θ̂ n ]−θ)+(E[ θ̂ n ]−θ)
[
= E θ̂ n - E θ̂ n [ ]]2 + (E[θ̂n ] - θ )2 = Var (θ̂n ) + B (θ̂n ) 2
2 2 2
= E[ θ̂ n − E[ θ̂ n ]] + ( E[ θ̂ n ]−θ) = Var( θ̂ n )+B( θ̂ n )
A derivação do erro quadrático médio em termos da variância e do viés é muito útil e importante. Recomenda-se que o aluno pratique
[ ] [ ]
até entender os passos. Existem duas passagens cruciais. A primeira, logo no início, consiste em somar - E θ̂ n + E θ̂ n dentro da
esperança original. Isso equivale a somar por zero e permite a derivação posterior. Na segunda passagem importante, utilizamos o
[ ] [ ]
fato de E θ̂ n - θ ser uma constante para chegar ao resultado. Isso se dá, pois, a esperança E θ̂ n é uma constante e θ também.
Desse modo, temos:
( ) ( )2 = Var (θ̂n ) + (- n + 1 )
2
( )
θ
EQM θ̂ n = Var θ̂ n + B θ̂ n
[ ]
2
( )
Precisamos obter E θ̂ n para chegarmos a Var θ̂ n ). Temos, portanto:
[ ]
n-1
2 ny n
E θ̂ n = ∫ 0θy 2 dy = θ2
θn n+2
Logo, a variância de θ̂ n é dada por:
( ) [ ] [ ]
2
Var θ̂ n = E θ̂ n - E θ̂ n
2 2 n
= n + 2 θ2 - ( )
n
n+1
θ
2
=
n
(n+2) (n+1) 2
θ2
Segue que a resposta certa é o item “a”.
MÓDULO 3
 Empregar os principais teoremas-limite da teoria estatística, assim como suas intuições e utilidades práticas no exercício da
Estatística
NOÇÕES DE CONVERGÊNCIA
Este módulo aborda a ideia um tanto fantasiosa de permitir que o tamanho da amostra aproxime-se do infinito e investiga o
comportamento de determinadas estatísticas amostrais à medida que isso acontece.
Embora a noção de uma amostra de tamanho infinito seja um artefato puramente teórico, isso nos oferece algumas aproximações
úteis para o caso da amostra finita, uma vez que, geralmente, expressões algebricamente complexas tornam-se simplificadas no
limite.
Fonte: Freepik
Neste estágio, estamos preocupados, principalmente, com dois tipos de convergência e as abordaremos em níveis de detalhes
diferentes. Em particular, queremos observar o comportamento de X n, a média de n observações, à medida que n ⟶ ∞.
Primeiro, iremos explorar o conceito de convergência em probabilidade. Esse tipo de convergência é o mais fraco e, por isso,
geralmente, é bastante fácil de ser verificado.
Convergência em probabilidade ‒ definição
Uma sequência de variáveis aleatórias, X1,X1,…, converge em probabilidade para uma variável aleatória X se, para cada ϵ > 0:
lim
n→ ∞
P (|Xn - X | ≥ ∈ ) = 0
Ou, de modo equivalente:
lim
n→ ∞
P (|Xn - X | < ∈ ) = 1
Vamos analisar as duas expressões:
1° expressão
A primeira expressão nos diz que se a probabilidade da sequência Xn ficar distante de X, vai diminuindo à medida que a amostra
aumenta.

2° expressão
A segunda expressão enuncia a afirmação equivalente de que a probabilidade de os valores tomados por Xn serem próximos dos
valores de X aumenta à medida que a amostra aumenta.
As variáveis aleatórias da sequência X1, X2,… são, tipicamente, variáveis aleatórias independentes e identicamente distribuídas, como
em uma amostra aleatória.
A distribuição de Xn modifica-se à medida que o subscrito se modifica, e os conceitos de convergência discutidos neste módulo
descrevem diversos modos pelos quais a distribuição de Xn converge para alguma distribuição limite.
Neste caso, dizemos, que X é o limite em probabilidade de Xn. Muitas vezes, é utilizado também o termo “plim” (do inglês probability
limit) para indicar o limite em probabilidade, como em plimXn = X.
Apesar de a definição anterior ser um tanto técnica, ela transmite uma intuição simples, que ficará mais clara com o teorema abaixo,
que é um dos principais resultados da teoria estatística.
a) Teorema ‒ Lei Fraca dos Grandes Números (LFrGN)

1
ˉ = ∑ n X . Então, temos que Xˉ converge em
Sejam X1, X2,…, variáveis aleatórias iid com E[Xi] = μ e Var[Xi] = σ2 < ∞. Definimos X n n i=1 i n
probabilidade para μ. Ou seja, para cada ϵ > 0, segue que:
LIM P
N→ ∞
(|Xˉ N - Μ | < ∈ ) = 1
ESTE TEOREMA, DE MODO BASTANTE ELEGANTE ESTABELECE QUE, SOB

CONDIÇÕES GERAIS, A MÉDIA AMOSTRAL APROXIMA-SE DA MÉDIA
POPULACIONAL À MEDIDA QUE AUMENTAMOS O TAMANHO DA NOSSA
AMOSTRA, OU SEJA, À MEDIDA QUE N ⟶ ∞.
Exemplo
Imagine uma bolsa cheia de dados honestos de seis faces. Se tirarmos o valor esperado de um dado de seis faces, obteremos o valor
1+2+3+4+5+6
μ= = 3, 5.
6
Imagine que cada dado representa uma variável aleatória Xi.
PIRO4D/pixabay
Seguindo o exemplo apresentado:
Inicialmente, jogamos apenas dois dados e tiramos a média dos valores sorteados.

Em seguida, jogamos três dados e tiramos novamente a média desses três valores sorteados.

Em cada rodada ,aumentamos o número de dados que jogamos e tiramos a média dos valores sorteados.
O que a LFrGN nos diz é que quanto maior o número de dados usarmos para tirar a média amostral, mais próximo o valor dela será da
esperança populacional μ = 3,5.
Sob a luz do exemplo apresentado, o uso da probabilidade na definição da LFrGN enuncia que quanto maior o número de dados de
seis faces que jogamos, maior a certeza de que a média amostral está próxima da média populacional.
QUANDO UMA SEQUÊNCIA DE VARIÁVEIS ALEATÓRIAS ATENDE ÀS

HIPÓTESES DA LFRGN, DIZEMOS QUE ELA É CONSISTENTE.
Vejamos, por exemplo, o caso da consistência da variância amostral S2. Suponha que tenhamos uma sequência X1,X2,…, de
variáveis aleatórias independentes e identicamente distribuídas com:
[ ] = Μ E VAR [X ] = Σ
E XI I
2
< ∞.
Se definimos:
( )2
2 1 N
SN = ∑ ˉ
XI - X
N-1 I = 1 N
Será possível provar a LFrGN para S 2n utilizando a Desigualdade de Chebyshev, um resultado muito útil de estatística, especialmente
para demonstrações da LFrGN.
b) Teorema ‒ Desigualdade de Chebyshev
Seja X uma variável aleatória e g(x) uma função não negativa. Então, para qualquer δ > 0, temos:
VAR [ X ]
P(|X - E[X]| ≥ Δ) ≤
Δ2
INTUITIVAMENTE, O QUE ESSA DESIGUALDADE NOS DIZ É QUE QUANTO

MAIS LONGE UMA VARIÁVEL ALEATÓRIA ESTÁ DE SUA ESPERANÇA
POPULACIONAL, MAIS RARA É SUA OCORRÊNCIA. ELA MOSTRA O “GRAU
DE CONCENTRAÇÃO” DA PROBABILIDADE PERTO DE E[X].
Desse modo, temos:

[ 2
- Δ2 ] 2
[ ]2
| ≥ ∈ ) = P(( )
E SN VAR S N
P (| 2
SN - Δ2 2
SN - Δ2)2
≥ ∈2 ≤
∈2
=
∈2
[ ]
Por esse resultado, encontramos que a condição necessária para que S 2n seja um estimador consistente de σ2 é que Var S 2n → 0 à
medida que n ⟶ ∞.
CONVERGÊNCIA EM DISTRIBUIÇÃO
Agora, exploraremos um novo tipo de convergência: a convergência em distribuição.
Convergência em distribuição ‒ definição
Sejam X1,X2,… uma sequência de variáveis aleatórias. Dizemos que essa sequência converge em distribuição para uma variável
aleatória X. Se, para todos os pontos x em que FX(x) é contínua, temos:.
lim F X n(x) = F X(x)

n→ ∞
É comum referir-se a FX (x) como a distribuição assintótica de Xn. Apesar de o nome indicar que a sequência de variáveis aleatórias
converge em distribuição, são realmente as funções de distribuição acumulada que convergem, não as variáveis aleatórias.
Nesse sentido, a convergência em distribuição é muito diferente da convergência em probabilidade. Porém, vale notar que essa
convergência é implícita à convergência em probabilidade, como mostra o 1º teorema a seguir:
1° Teorema
Se a sequência de variáveis aleatórias X1,X2,… converge em probabilidade para uma variável aleatória X, ela também converge em
distribuição para X.

2° Teorema
A sequência de variáveis aleatórias X1,X2,… converge em probabilidade para uma constante c, se, e somente se, também convergir
em distribuição para essa constante.
 ATENÇÃO
Vale frisar que a implicação contrária citada no 1° teorema nem sempre é verdadeira: nem toda sequência de variáveis aleatórias
X1,X2,… que converge em distribuição para X converge também em probabilidade para essa variável aleatória. Existe uma exceção
importante: quando a sequência converge para uma constante. Nesse caso, vale o 2° teorema.
ˉ :
VAMOS OBSERVAR O CASO DA MÉDIA AMOSTRAL X N
1
Vimos, anteriormente, como consequência da LFrGN, que essa variável converge em probabilidade para μ.
No segundo teorema vimos que a convergência em probabilidade para uma constante implica convergência em distribuição para a
mesma.
3
ˉ converge em distribuição para μ.
Temos também que X n
Uma distribuição desse tipo tem pouca utilidade para fins estatísticos. Para que esses resultados adquiram alguma utilidade,
precisamos ponderar Xˉ n de maneira um pouco diferente.
Para isso, lembre-se que:
Σ2
ˉ -Μ =
VAR X N [ ] N
Isso significa que:
VAR [√N (Xˉ N - Μ )] = Σ2
Vamos chamar Z n = √n (Xˉ n - μ ), de modo que temos E [Z n ] = 0 e Var [Z n ] = σ 2. Possuímos, assim, a esperança populacional e a
variância para essa variável aleatória.
COMO PODEMOS DEFINIR A DISTRIBUIÇÃO ASSINTÓTICA DE ZN, ISSO É, A

FZ(X) DA QUAL A FZN(X) É O LIMITE?
Outro resultado de considerável relevância para a estatística, que nos dará a resposta para essa pergunta, é o Teorema do Limite
Central.
c) Teorema central do limite
Definição
Seja X1,X2,… uma sequência de variáveis aleatórias independentes e identicamente distribuídas, com E[Xi] = μ e Var[Xi] = σ2 > 0.
1
Defina a média amostral como Xˉ n = n ∑ i =n1X i.
( )
Então, temos que à medida que n ⟶ ∞, √n X n - μ converge em distribuição para uma normal N(0,σ2>) e, consequentemente,
√n ( X n - μ )
σ
converge em distribuição para uma normal padrão N(0,1).
Nessa definição, utilizamos o fato de que uma variável aleatória qualquer X, que segue uma normal N(μ,σ^2 ), pode ser padronizada
para uma variável aleatória Z=(X-μ)/σ, que segue uma normal N(0,1). Essa formulação do teorema central do limite (TCL) é conhecida
como formulação Lindeberg-Lévy.
LINDEBERG-LÉVY
Jarl Lindeberg (1876-1932) e Paul Lévy (1886-1971)
Matemáticos que deixaram contribuições essenciais para que o resultado do TCL fosse alcançado.
O TCL é extremamente poderoso.
PRIMEIRO
SEGUNDO
PRIMEIRO
Começamos com pouquíssimas hipóteses, basicamente exigimos amostragem aleatória e variância finita, e terminamos com
normalidade. Essa normalidade no limite surge da soma de pequenos distúrbios independentes (representados pela variância σ2
finita).
SEGUNDO
O TCL nos diz que, se temos um problema no qual estamos interessados na soma de muitas variáveis aleatórias iid X_i, é possível
obter de imediato a distribuição dessa soma se soubermos a média e a variância de Xi.
UM CASO DE INTERESSE QUE ENVOLVE A SOMA DE MUITAS VARIÁVEIS

ALEATÓRIAS É A MÉDIA AMOSTRAL.
Voltando para o exemplo da bolsa cheia de dados de seis faces, cada dado segue uma distribuição uniforme: a probabilidade de cair
qualquer uma das seis faces é igual. Assim, se jogarmos o mesmo dado 500 vezes, veremos algo próximo de uma distribuição
uniforme. Porém, esse resultado não vale para o valor da média amostral.
Vamos continuar analisando o exemplo dos dados honestos e um novo exemplo baseado na altura de todos os cidadãos do Brasil.
DADOS HONESTOS
Suponha agora que dois dados sejam jogamos 500 vezes, computando a média do valor de ambos para as 500 rodadas.
A distribuição ficará mais densa em torno da média 3,5 e mais “leve” nas caudas, perto de 1 e 6. Se repetirmos esse procedimento
anotando 500 vezes a média para três dados, quatro dados, e assim por diante, a distribuição se aproximará de uma distribuição
normal.
Assim, a média de variáveis aleatórias com distribuição uniforme tem distribuição assintótica normal. Isso não vale somente para uma
distribuição uniforme. Qualquer distribuição com variância finita terá, como distribuição assintótica de sua média, uma distribuição
normal.
ALTURA DOS CIDADÃOS DO BRASIL

Suponha que tenhamos uma base de dados com informações sobre a altura de todos os cidadãos do Brasil. Para testar o TCL,
pegaríamos 10 amostras aleatórias dessa base de dados e tiraríamos a altura média para cada uma dessas alturas.
Se fizéssemos um histograma dessas médias, ele lembraria o formato de sino da distribuição normal. Repetindo o mesmo
procedimento com 100 amostras aleatórias, o histograma ficaria mais semelhante a uma distribuição normal. À medida que
aumentássemos o número de amostras, mais o histograma convergiria para a distribuição normal.
Um detalhe fascinante do TCL é que, mesmo sabendo o histograma verdadeiro da altura dos cidadãos brasileiros, o histograma
dessas médias amostrais seguirá o formato de uma distribuição normal.
HISTOGRAMA
Representação gráfica em colunas ou em retângulo de um conjunto de dados previamente tabulado e dividido em classes
uniformes ou não uniformes. A base de cada retângulo representa uma classe.
 ATENÇÃO
Um detalhe importante sobre o TCL é que podemos relaxar a hipótese de que todas as variáveis aleatórias da sequência precisam ser
identicamente distribuídas.
Agora, vamos deixar que cada X_i tenha sua própria esperança populacional μi e variância σi2. Desse modo, temos a seguinte
formulação alternativa do teorema TCL:
Teorema central do limite (versão mais geral).
Neste teorema, seja X1,X2,…, uma sequência de variáveis aleatórias independentes, com E[Xi] = μi e Var[Xi] = σi2 > 0. Defina a média
amostral como:
1
ˉ =
X N ∑ I =N1X I
N
Sob algumas condições gerais, temos que à medida que n⟶∞, consequentemente:
∑ I =N1X I - ∑ I =N1Μ I
N 2
√∑ I = 1Σ I
Converge em distribuição para uma normal padrão N(0,1).
As condições gerais mencionadas no enunciado dessa formulação do TCL podem ser descritas da seguinte maneira:
CADA PARCELA DA SOMA CONTRIBUI COM UM VALOR SEM IMPORTÂNCIA

PARA A VARIAÇÃO DA SOMA, SENDO MUITO IMPROVÁVEL QUE QUALQUER
PARCELA ISOLADA DÊ UMA CONTRIBUIÇÃO MUITO GRANDE PARA A
MESMA. FORMALMENTE, ESSAS CONDIÇÕES SÃO CONHECIDAS COMO
CONDIÇÕES DE LYAPUNOV.
ALEKSANDER LYAPUNOV (1857-1918)
Matemático russo, pioneiro na formulação do TCL nesses termos.
Neste vídeo, o professor Raphael Bruce mostrará exemplos numéricos para ilustrar alguns teoremas apresentados.
1. (ANPEC 2006 ‒ MODIFICADA): INDIQUE SE AS AFIRMAÇÕES ABAIXO SÃO FALSAS OU

VERDADEIRAS E ASSINALE A OPÇÃO QUE CONTÊM TODAS AS VERDADEIRAS:
A DESIGUALDADE DE CHEBYSHEV É ÚTIL PARA CALCULAR O LIMITE INFERIOR PARA A

PROBABILIDADE DE UMA VARIÁVEL ALEATÓRIA COM DISTRIBUIÇÃO CONHECIDA QUANDO SE
TEM APENAS A VARIÂNCIA DA POPULAÇÃO.
SEJAM Y1,…,YN VARIÁVEIS ALEATÓRIAS INDEPENDENTES COM MÉDIA Μ E VARIÂNCIA FINITA.
PELA LEI DOS GRANDES NÚMEROS, E [ 1

N ]
∑ I =N1Y I = Μ.
SEJAM EM>Y1,…,YN VARIÁVEIS ALEATÓRIAS INDEPENDENTES COM MÉDIA Μ E VARIÂNCIA
FINITA. PELO TEOREMA CENTRAL DO LIMITE, PARA UM N SUFICIENTEMENTE GRANDE,

1
PODEMOS DIZER QUE A DISTRIBUIÇÃO DA MÉDIA AMOSTRAL Y = N
∑ I =N1Y I SEGUE,
APROXIMADAMENTE, UMA DISTRIBUIÇÃO NORMAL N Μ,

( ) Σ2
N
.
A) Apenas as afirmações II e III são verdadeiras.
B) Apenas a afirmação I é verdadeira.
C) Apenas a afirmação II é verdadeira.
D) Apenas a afirmação III é verdadeira.
2. (ANPEC 2012 ‒ MODIFICADA): INDIQUE SE AS AFIRMAÇÕES ABAIXO SÃO FALSAS OU

VERDADEIRAS E ASSINALE A OPÇÃO QUE CONTÊM TODAS AS VERDADEIRAS:
SEJAM X1,…,XN VARIÁVEIS ALEATÓRIAS INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDAS,
TAIS QUE E[XI]= Μ < ∞. SE VAR[XI] CONVERGE PARA 0 À MEDIDA QUE A AMOSTRA AUMENTA,
ENTÃO XI CONVERGE EM PROBABILIDADE PARA Μ.
SEJA X1,X2,…, UMA SEQUÊNCIA DE VARIÁVEIS ALEATÓRIAS. ESSA SEQUÊNCIA CONVERGE EM
PROBABILIDADE PARA UMA CONSTANTE Μ SE, E SOMENTE SE, ESSA SEQUÊNCIA TAMBÉM
CONVERGE EM DISTRIBUIÇÃO PARA Μ.
SEJA X1,…,XN UMA AMOSTRA ALEATÓRIA MÉDIA X ̅ E VARIÂNCIA 0 < S2 < ∞. PODEMOS AFIRMAR
QUE W = CX COM C ∈ ℝ CONVERGE PARA UMA DISTRIBUIÇÃO NORMAL COM MÉDIA Μ E

Σ2
VARIÂNCIA N
.
A) Apenas as afirmações I e II são verdadeiras.
B) Apenas as afirmações II e III são verdadeiras.
C) Apenas a afirmação I é verdadeira.
D) Apenas as afirmações I e III são verdadeiras.
GABARITO
1. (ANPEC 2006 ‒ modificada): Indique se as afirmações abaixo são falsas ou verdadeiras e assinale a opção que contêm
todas as verdadeiras:
A desigualdade de Chebyshev é útil para calcular o limite inferior para a probabilidade de uma variável aleatória com
distribuição conhecida quando se tem apenas a variância da população.
Sejam Y1,…,Yn variáveis aleatórias independentes com média μ e variância finita. Pela Lei dos Grandes Números,
E [ 1
n ]
∑ i =n1Y i = μ.
Sejam em>Y1,…,Yn variáveis aleatórias independentes com média μ e variância finita. Pelo Teorema Central do Limite,
1 n
para um n suficientemente grande, podemos dizer que a distribuição da média amostral Y = n ∑ i = 1Y i segue,
( )
aproximadamente, uma distribuição normal N μ, n .
σ2
A alternativa "D " está correta.

Var [ X ]
A afirmação I é falsa, como visto na seção 1. Lembre-se que a desigualdade de Chebyshev é dada por P(|X - E[X]| ≥ σ) ≤ , ou
σ2
seja, é necessário saber a média E[X] além da variância Var[X].
A afirmação II é falsa, como visto na seção 1. O resultado E [ 1

n
n
∑ i = 1Y i ] = μ é consequência da propriedade da esperança, e não da
lei dos grandes números, pois E [ 1

n
n
∑ i = 1Y i ] =
1
n [ n
E ∑ i = 1Y i ]=
1
n
(n)μ = μ.
Finalmente, temos que a afirmação III é verdadeira, como visto na seção 2.

1 n 1 n nμ 1 n 2 1 n nσ 2
Veja que μ = n ∑ i = 1μ i = n ∑ i = 1μ = n = μ e σ 2 = n ∑ i = 1σ = n ∑ i = 1σ 2 = n
= σ 2.
i
n n
∑ i = 1Y i - ∑ i = 1μ i ( )(
1
n
∑ i =n1Y i - nμ ) Y-μ
Utilizando a versão mais geral do TCL, temos que = = onverge em distribuição para uma normal
( )√
n 2 σ2
√ ∑ i = 1σ i 1
n
nσ 2
√ n
padrão N(0,1), ou seja, à medida que a amostra cresce, Y - μ se aproxima de uma normal N 0, n
( ) σ2
e, por fim, Y se aproxima de uma
( )
normal N μ,
σ2
n
.
2. (ANPEC 2012 ‒ modificada): Indique se as afirmações abaixo são falsas ou verdadeiras e assinale a opção que contêm
todas as verdadeiras:
Sejam X1,…,Xn variáveis aleatórias independentes e identicamente distribuídas, tais que E[Xi]= μ < ∞. Se Var[Xi]
converge para 0 à medida que a amostra aumenta, então Xi converge em probabilidade para μ.
Seja X1,X2,…, uma sequência de variáveis aleatórias. Essa sequência converge em probabilidade para uma constante μ
se, e somente se, essa sequência também converge em distribuição para μ.
Seja X1,…,Xn uma amostra aleatória média X ̅ e variância 0 < s2 < ∞. Podemos afirmar que W = cX com c ∈ ℝ converge
σ2
para uma distribuição normal com média μ e variância .
n
A alternativa "A " está correta.
σ 2n
(| | )
Var [ X ]
A afirmação I é verdadeira. Pela desigualdade de Chebyshev, temos que P(|X - E[X]| ≥ σ) ≤ ou seja, P Xn - μ ≤ ∈ >1- .
σ2 ∈2
2
Se σ n → n, temos que lim
n→ ∞
P (|Xn - μ | ≤ ∈ ) = 1, ou seja Xn converge em probabilidade para μ.
A afirmação II também é verdadeira. Se uma sequência de variáveis aleatórias converge em probabilidade para uma variável aleatória
X, também converge em distribuição para X. O inverso não é sempre verdadeiro. Uma exceção importante é o caso em que X é uma
constante, como no enunciado. Nesse caso, a convergência em distribuição para uma constante X = μ implica convergência em
probabilidade para essa mesma constante.
(X-μ)
A afirmação III é falsa, como vimos na seção 3. Pelo TCL temos que converge em distribuição para uma normal padrão N(0,1).
σ2
√ n
( W - cμ )
Como W = cX, temos que também converge em distribuição para uma normal padrão N(0,1). Rearranjando os termos,
c 2σ 2
√ n
( ) ( )
obtemos que W - cμ converge para N 0, c 2σ 2 e, por fim, W converge em distribuição para N cμ, n
c 2σ 2
.
CONCLUSÃO
CONSIDERAÇÕES FINAIS
Amostras são subconjuntos de alguma população. Analisamos amostras porque, em geral, não é factível estudar a população como
um todo. Por exemplo, ao testar a eficácia de uma vacina, usamos uma amostra de pessoas suscetíveis à doença contra a qual
busca-se proteção.
O objetivo da análise de amostras é, no fim das contas, fazer inferências sobre a população como um todo: se a vacina funcionar bem
em amostras aleatórias, também deve funcionar para a população. Formalizamos isso ao estudar inferências a partir de amostras.
Finalmente, estabelecemos alguns dos resultados fundamentais para esse tipo de inferência: a Desigualdade de Chebyshev, a Lei
(Fraca) dos Grandes Números e o Teorema Central do Limite.
REFERÊNCIAS
CASELLA, G.; BERGER, R. L. Inferência estatística. 2. ed. São Paulo: Cengage Learning, 2011.
MEYER, P. L. Probabilidade: aplicações à Estatística. 2. ed. Rio de Janeiro: Livros Técnicos e Científicos, 1983.
ROSS, S. Probabilidade: um curso moderno com aplicações. 8. ed. Porto Alegre: Bookman, 2009.
EXPLORE+
Para fixar os conceitos, recomenda-se a leitura do Capítulo 8 do livro Probabilidade: um curso moderno com aplicações (8ª edição), de
Sheldon Ross. Esse capítulo abrange uma grande variedade de exercícios sobre os conteúdos do Módulo 3.
Do livro Probabilidade: aplicações à Estatística (2ª edição), de Paul Meyer, recomenda-se a seção 7.8 (referente à desigualdade de
Chebyshev) e os capítulos 12 e 13. O Capítulo 12 cobre, em maior profundidade, os tópicos do Módulo 3, enquanto o Capítulo 13
cobre o Módulo 1.
CONTEUDISTA
Raphael Guinâncio Bruce
 CURRÍCULO LATTES

Amostras Aleatórias e Suas Propriedades 2

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Amostras Aleatórias e Suas Propriedades 2

Enviado por

Direitos autorais:

Formatos disponíveis

DEFINIÇÃO

Descrever média e variância amostral e suas relações com as contrapartidas populacionais

Há diferentes tipos de amostra. Sobre este tópico:

AMOSTRA ALEATÓRIA - DEFINIÇÃO

chama-se esse tipo de variável de “variável aleatória iid”.

Vamos analisar algumas informações sobre o modelo de amostragem aleatória:

Desse modo, chegamos à função de distribuição conjunta, dada por:

Podemos obter esse valor a partir do seguinte cálculo:

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Vamos analisar as passagens apresentadas na fórmula:

DA PRIMEIRA PARA A SEGUNDA

DA SEGUNDA PARA A TERCEIRA

Considere a obtenção dos valores de X1,…,Xn sequencialmente.

1° Realizamos o experimento e observamos X1 = x1.

ainda é uma observação aleatória da mesma população.

Fonte: Adaptado de Freepik

PROCESSO DE AMOSTRAGEM COM REPOSIÇÃO

Para esse tipo de amostragem temos:

são variáveis aleatórias independentes e identicamente distribuídas.

obtidos para qualquer uma das outras variáveis.

NOTE QUE ESSE TIPO DE AMOSTRA NÃO SATISFAZ TODAS AS CONDIÇÕES

COMO PODEMOS VERIFICAR ISSO?

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

1. SEJAM X1,…,XN VARIÁVEIS ALEATÓRIAS IID COM FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA

ENCONTRE A DISTRIBUIÇÃO DE ∑N(I = 1) YI E ASSINALE A ALTERNATIVA CORRESPONDENTE.

A) ∑n(i = 1) Yi ~ Bernoulli (p = 1 - FX (μ))

B) ∑n(i = 1) Yi ~ Bernoulli (p = FX (μ))

C) ∑n(i = 1) Yi ~ Binomial (n, p = 1 - FX (μ))

D) ∑n(i = 1) Yi ~ Binomial (n, p = FX (μ))

ENCONTRE E[Y] E VAR[Y] E ASSINALE A ALTERNATIVA QUE CORRESPONDE AOS VALORES

A) E[Y] = 7/4 e Var[Y] = 37/16

B) E[Y] = 9/4 e Var[Y] = 33/16

C) E[Y] = 7/4 e Var[Y] = 33/16

D) E[Y] = 9/4 e Var[Y] = 37/16

Defina as variáveis aleatórias Y1,…, Yi por:

Encontre a distribuição de ∑n(i = 1) Yi e assinale a alternativa correspondente.

A alternativa "C " está correta.

distribuição Binomial, temos ∑n(i = 1) Yi ~ Binomial (n, p = 1 - FX (μ)).

sucesso e com as variáveis Y1,Y2,Y3 definidas como:

Y3= max⁡(X2, X3)

A alternativa "B " está correta.

E[Y] = E[Y1 ] + E[Y2 ] + E[Y3 ] = 3E[Y1]

P(Y1 = 1) = P((X1 = 1) ∪ (X2 = 1)) = P(X1 = 1) + P(X2 = 1) - P((X1 = 1) ∩ (X2 = 1)) = 2p - p2

Logo Y1 ~ Bernoulli (2p - p2) e podemos obter:

Var[Y1]=(2p - p2 )(1 - 2p + p2 ) = p(2 - p)(1 - p2)

Resta encontrar Cov(Y1,Y1). Podemos escrever:

Cov(Y1, Y2 ) = E[Y1 Y2 ] - E[Y1 ]E[Y2 ] = E[Y1 Y2 ] - p2 (2 - p)2

Como Y1 Y2 também segue uma distribuição Bernoulli, temos:

E[Y1 Y2 ] = P(Y1 = 1, Y2 = 1) = P((X1 = 1) ∪ (X2 = 1, X3 = 1)) = P(X1 = 1) + P(X2 = 1, X3 = 1) - P(X1 = 1, X2 = 1, X3 = 1) = p + p2 - p3

Cov(Y1, Y1 ) = E[Y1 Y2 ] - p2 (2 - p)2 = p + p2 - p3 - p2 (2 - p)2

Finalmente, E[Y] = 3E[Y1 ] = 3p(2 - p), e:

Var[Y] = 3Var[Y1 ] + 6 Cov[Y1, Y2 ] = 3p(2 - p)(1 - p2 ) + 6(p + p2 - p3 - p2 (2 - p)2 )

Como p = 1/2, temos que: E[Y] = 9/4 e Var[Y] = 33/16

 Descrever média e variância amostral e suas relações com as contrapartidas populacionais

Um parâmetro θ é qualquer função de uma população representada pela distribuição marginal f.

A DISTRIBUIÇÃO DE PROBABILIDADE DE UMA ESTATÍSTICA Θ̂ É CHAMADA

QUANDO REPETIMOS A AMOSTRAGEM ALEATÓRIA SOBRE UMA

Algumas estatísticas podem ser utilizadas para estimar parâmetros:

COMO OBTER UM ESTIMADOR Θ̂?

É a média tirada para toda a população.

PARA ESTIMAR Μ PELO PRINCÍPIO DA ANALOGIA, BASTA APLICAR A

Média amostral - definição

O QUE ISSO SIGNIFICA?