Aula 17

N u b i a A l v e s d e O l i v e i r a , C P F : 7 1 3 5 9 2 2 2 2 0 0
Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados

Profs. Alexandre Lima e Moraes Junior
Raciocínio Lógico-Quantitativo para Traumatizados
Aula 17
Variável Aleatória Bivariada, Correlação, Regressão e Função
Geratriz de Momentos
17. Variável Aleatória Bivariada, Correlação, Regressão e Função Geratriz de

Momentos ......................................................................................................................................... 4
17.1 Funções de Probabilidade Conjunta ...................................................................... 4
17.2 Funções de Probabilidade Marginal ....................................................................... 8
17.3 Funções de Probabilidade Condicional ............................................................... 11
17.4 Variáveis Aleatórias Independentes.................................................................... 18
17.5 Esperanças Envolvendo Duas ou Mais Variáveis Aleatórias ...................... 19
17.5.1 Correlação e Covariância ............................................................................................. 19
17.5.2 Média e Variância de Uma Combinação Linear de Variáveis Aleatórias ................... 29
17.6 Regressão ...................................................................................................................... 30
17.6.1 A Natureza da Análise de Regressão ........................................................................... 30
17.6.2 Regressão Linear Simples ............................................................................................ 33
17.6.3 Coeficiente de Determinação ....................................................................................... 43
17.7 Momentos e Função Geratriz de Momentos .................................................... 49
17.7.1 Momentos de Uma Variável Aleatória ........................................................................ 49
17.7.2 Função Geratriz de Momentos ..................................................................................... 50
17.8 Memorize para a prova ............................................................................................ 55
17.9 Exercícios de Fixação ................................................................................................ 59
17.10 Gabarito ....................................................................................................................... 67
17.11 Resolução dos Exercícios de Fixação ............................................................... 67
Profs. Alexandre Lima e Moraes Junior 1
O conteúdo deste curso é de uso exclusivo de Nubia Alves de Oliveira, CPF:71359222200, vedada, por quaisquer
meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.

Olá, tudo bem? Estudou a aula passada? Dúvidas? Use (e abuse) o forum!
Prezado(a) aluno(a), você constatará que “não fugimos da raia” nesta aula. Os
tópicos variável aleatória bivariada, correlação, regressão linear e função
geratriz de momentos são realmente ensinados. Infelizmente, não há como
evitar, em uma exposição teórica razoavelmente séria de tais assuntos,
símbolos de integrais simples e duplas, somatórios, etc. Precisamos enfrentar
a realidade. Você observará que um mínimo de embasamento conceitual é
necessário para resolver questões de provas anteriores. É claro que tópicos
como função geratriz de momentos raramente caem em concursos (cai na
SUSEP, por exemplo). Entretanto, lembre-se que a nossa proposta é cobrir, se
possível, 100% do “espaço amostral” da matéria de estatística que poderá cair
na sua prova. Nós não temos como adivinhar, neste momento, como virá o
edital de raciocínio lógico-quantitativo do seu concurso. Portanto, não custa
nada ampliar um pouco o nosso leque da matéria e construir a base. Depois a
gente “ajusta os ponteiros” na reta final do concurso, conforme o programa do
edital.
Antes de começarmos a exposição dos tópicos previstos para aula de hoje,

gostaríamos de complementar/detalhar dois assuntos vistos na aula 14: box
plots e coeficiente de assimetria. Essa complementação foi motivada por
algumas dúvidas que nos foram enviadas por e-mails recentemente.
Re-examinando os Conceitos de Box Plot e Coeficiente de

Assimetria
Diagrama de Caixa (pág. 29 da Aula 14)
Um diagrama de caixa ou box plot ou “caixa-de-bigodes” é um retângulo

que representa o desvio interquartílico (IQR) (é a estatística dQ definida
por (18)). Para construir esse diagrama (veja a próxima figura), consideramos
um retângulo onde estão representados a mediana, o primeiro quartil (Q1) e o
terceiro quartil (Q3). A partir do retângulo, para cima, segue uma linha até o
ponto mais remoto que não pode exceder LS = Q3 + 1,5.IQR, chamado limite
superior. De modo análogo, a partir do retângulo, para baixo, segue uma
linha até o ponto mais remoto que não seja menor que LS = Q1 –1,5.IQR,
chamado limite inferior. Os valores compreendidos entre esses dois limites
são chamandos valores adjacentes. As observações que estiverem acima do
limite superior ou abaixo do limite inferior serão denominadas pontos
exteriores. Essas observações são destoantes das demais e podem ou não
ser o que chamamos de outliers ou valores atípicos. Um outlier pode ser
produto de um erro de observação ou de arredondamento. Contudo, as
denominações pontos exteriores e outliers são frequentemente usadas com o
mesmo significado por alguns autores: observações fora de lugar, discrepantes
ou atípicas.

2

O box plot nos dá uma noção da posição, dispersão, assimetria, caudas e
dados discrepantes da distribuição. A posição central é dada pela mediana e a
dispersão por IQR. As posições relativas de Q1, Q2 e Q3 nos dão uma idéia da
assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas
que vão do retângulo aos valores remotos e pelos valores atípicos. Os
comprimentos das caudas são dados pelas linhas que vão do retângulo aos
valores remotos e pelos valores atípicos.
Coeficiente de Assimetria (pág. 33 da Aula 14)
O momento centrado de terceira ordem pode ser usado como medida da

assimetria de uma distribuição. Entretanto, uma medida mais conveniente de
assimetria, por ser adimensional, é dada pelo coeficiente de assimetria (A),
definido como a razão entre o momento centrado de terceira ordem e o
cubo do desvio padrão:
m3
(28) A = .
s x3
O coeficiente de assimetria (28) indica o sentido da assimetria e pode ser
usado para comparar vários casos porque é adimensional. O sinal do
coeficiente de assimetria será positivo ou negativo se a distribuição for
assimétrica à direita ou à esquerda, respectivamente.

3

17. Variável Aleatória Bivariada, Correlação, Regressão e
Função Geratriz de Momentos
17.1 Funções de Probabilidade Conjunta
Na aula anterior, estudamos as distribuições de probabilidade para uma única

variável aleatória. Entretanto, em muitas situações práticas, atribuímos a um
mesmo ponto amostral os valores de duas ou mais variáveis aleatórias ao
descrevermos os resultados de um experimento. Nesta aula, nos
concentraremos no caso de um par de variáveis aleatórias.
Exemplo. Considere o lançamento simultâneo de duas moedas não viciadas.

Os resultados desse experimento aleatório são cara-cara (CC), cara-coroa
(CK), coroa-cara (KC) e coroa-coroa (KK). Logo, o espaço amostral é Ω = {CC,
CK, KC, KK}. Defina as variáveis aleatórias X=0 se pelo menos uma das
moedas der cara (X=1 para os demais casos) e Y=-1 se der uma cara e uma
coroa (Y=+1 para os demais casos). Então
P[X=0] = P[CC] + P[CK] + P[KC] = 1/4 + 1/4 + 1/4 = 3/4,
P[X=1] = P[KK] = 1/4 = 1 - P[X=0],
P[Y=-1] = P[CK] + P[KC] = 1/2 e
P[Y=+1] = P[CC] + P[KK] = 1/2 = 1 - P[Y=-1].
Considere o evento resultante da interseção dos eventos obter pelo menos

uma cara e não obter uma cara e uma coroa, ou seja, {(CC ∪ CK ∪ KC) ∩ (CC
∪ KK)} = {CC}. Esse evento pode ser representado pela notação compacta
(X=0,Y=+1). Como P(CC) = 1/4, temos que
P(X=0,Y=+1) = 1/4. O evento (X=0,Y=+1) é dito conjunto porque envolve
as variáveis X e Y.
Os demais eventos conjuntos são: (X=0,Y=-1), (X=1,Y=+1) e (X=1,Y=-1).

Diz-se que o par (X,Y) é uma variável aleatória bivariada ou
bidimensional.
Exemplo. A variável aleatória contínua X representa o comprimento de uma

dimensão de uma peça moldada por injeção, enquanto a variável aleatória
contínua Y denota o comprimento de outra dimensão. Estamos interessados
em probabilidades que possam ser escritas em termos de X e Y. Suponha que
as especificações para X e Y sejam (3,95 a 4,05) e (8,10 a 8,20) milímetros,
respectivamente. Então podemos estar interessados na probabilidade de uma
peça satisfazer as duas especificações simultaneamente, ou seja, P[(3,95 < X
< 4,05) e (8,10 < Y < 8,20)].

4

Variáveis Discretas
Sejam X e Y variáveis aleatórias discretas, como no primeiro exemplo da

página anterior. Então a função discreta de probabilidade conjunta (ou
distribuição conjunta) de X e Y, denotada por f(x,y), satisfaz
(1) f(x,y) ≥ 0
(2) Σx Σy f(x,y) = 1.
(3) f(x,y) = P(X = x, Y = y)
Exemplo. Um total de 15.064.859 alunos estão matriculados no ensino

superior, divididos entre cursos com duração de 4 anos, de 2 anos e de menos
de 2 anos. A matrícula, separada por sexo, é mostrada na tabela a seguir.
4 anos 2 anos Menos de 2 anos

Homens 4.076.416 2.437.905 172.874
Mulheres 4.755.790 3.310.086 311.788
Fonte: Digest of Educational Statistics 1997, Tabela 170.
Nessa população, as probabilidades aproximadas de matrícula em um dos tipos

de instituição de ensino superior, por sexo, são

Homens 0,27 0,16 0,01
Mulheres 0,32 0,22 0,02
Considere o experimento de extrair aleatoriamente um estudante matriculado

dessa população. Defina a variável aleatória X = 0, se um homem é
selecionado, e X = 1, se uma mulher é selecionada. Defina a variável aleatória
Y = 1, se o estudante escolhido é de um curso de 4 anos, Y = 2, se o
estudante escolhido é de um curso de 2 anos e Y = 3, se é de um curso de
menos de 2 anos.
Seja f(x,y) a função discreta de probabilidade conjunta da população de

homens e mulheres da questão. Sendo assim, temos as seguintes
probabilidades conjuntas:
f ( x = 0, y = 1) = 0,27 = P(homens matriculados em cursos de 4 anos)

f ( x = 0, y = 2) = 0,16 = P(homens matriculados em cursos de 2 anos)
f ( x = 0, y = 3) = 0,01 = P(homens matriculados em cursos < 2 anos)
f ( x = 1, y = 1) = 0,32 = P(mulheres matriculadas em cursos de 4 anos)
f ( x = 1, y = 2) = 0,22 = P(mulheres matriculadas em cursos de 2 anos)
f ( x = 1, y = 3) = 0,02 = P(mulheres matriculadas em cursos < 2 anos)

5

Note que
2 3
∑∑ f ( x , y
i =1 k =1
i k ) = 0,27 + 0,16 + 0,01 + 0,32 + 0,22 + 0,02 = 1
é a probabilidade do evento certo.

_______________________________________________________
Já caiu em prova! (Analista da SUSEP/Atuária/2001/ESAF) Uma loja

vende lavadoras e secadoras de roupa. A distribuição conjunta do número N1
de secadoras e do número N2 de lavadoras vendidas num mesmo dia é dada
na tabela abaixo. Assinale a opção que dá a probabilidade de que a venda,
num mesmo dia, de lavadoras seja igual à de secadoras.
N1|N2 0 1 2 3
0 0,25 0,13 0,04 0,02
1 0,15 0,11 0,02 0,01
2 0,08 0,06 0,05 0,02
3 0,01 0,01 0,01 0,03
A) 0,54
B) 0,50
C) 0,49
D) 0,44
E) 0,19
Resolução
P(N1=N2) = f(N1=0;N2=0) + f(N1=1;N2=1) + f(N1=2;N2=2) + f(N1=3;N2=3) =

0,25 + 0,11 + 0,05 + 0,03 = 0,44
GABARITO: D
Variáveis Contínuas
Sejam X e Y duas variáveis aleatórias contínuas. Neste caso, a distribuição

conjunta das duas variáveis é caracterizada por uma função f(x,y) chamada
função de densidade conjunta de X e Y, que satisfaz
(4) f(x,y) ≥ 0;
∞ ∞
(5) ∫ ∫ f ( x, y)dxdy = 1 ;
− ∞− ∞

6

b d
(6) P(a ≤ X ≤ b, c ≤ Y ≤ d ) = ∫ ∫ f ( x, y )dydx .
a c
A relação (5) nos diz que o volume sob a superfície representada por f(x,y) é
igual a 1. A figura abaixo mostra uma função de densidade conjunta.
0.15
0.1
0.05
2
3
2
0 1
0
-2 -1
-2
y -3
x
A equação (6) dá a probabilidade do par (x,y) estar num retângulo de lados b-

a e d-c.
Exemplo. Seja f(x,y) = 4xy, 0 ≤ x ≤ 1, 0 ≤ y ≤ 1. Então

1 1 1 1
∫ ∫ 4 xydxdy = 4 ∫ xdx ∫ ydy = 4[x /2] [y /2]

1 1
2
0
2
0
= 4(1/2 − 0)(1/2 − 0) = 1
0 0 0 0
e a probabilidade P(X ≤ 1/2, Y ≤ 1/2) é dada por

0,5 0,5 0,5 0,5
∫ ∫ 4 xydxdy = 4 ∫ xdx ∫ ydy = 4[x /2] [y /2]

0,5 0,5
2
0
2
0
= 4(1/8 − 0)(1/8 − 0) = 4 /64 = 1/16 .
0 0 0 0
Exemplo. Suponha que a variável aleatória (X,Y) esteja uniformemente

distribuída no quadrado da figura abaixo.

7

y
0 1 x
Então f(x,y) = K para 0≤x≤1 e 0≤y≤1 (K é uma constante) e f(x,y) = 0 caso

contrário. A figura a seguir ilustra a densidade conjunta uniforme (é a
superfície delimitada pelo perímetro azul). Sabemos que o volume do cubo
deve ser 1 x 1 x K = 1, pois o volume delimitado por uma densidade de
probabilidade conjunta é igual a 1 por definição. Logo K =1 é a altura do cubo.
f(x,y)
1
0 1
y
1 (1,1)
17.2 Funções de Probabilidade Marginal
Dada uma função densidade de probabilidade conjunta, pode-se obter a função

densidade de probabilidade de cada uma das variáveis aleatórias individuais.

8

Sejam X e Y variáveis aleatórias contínuas com densidade conjunta f(x,y).
Então fX(x) e fY(y) são denominadas densidades marginais de X e Y,
respectivamente, se são obtidas de f(x,y) por meio das expressões
∞
(7) f X ( x) = ∫ f ( x, y)dy
−∞
∞
(8) fY ( y) = ∫ f ( x, y)dx
−∞
Note que as funções de densidade de probabilidade marginal fX(x) e fY(y)

correspondem às funções de densidade de probabilidade individuais de X e Y,
respectivamente.
Exemplo. Seja a função densidade conjunta de X e Y dada por
f(x,y) = e-x-y, x>0, y>0.
Então,
∞ ∞
dy =e −x ∫ e − y dy =e −x [−e −y ]0 = e −x [−e −∞ + e 0 ] = e −x [0 +1] = e −x , para x>0.
∞
fX ( x) = ∫e −x − y
0 0
1 1 1
Note que foi usado o seguinte limite acima: lim e − y = lim = ∞ = =0. E
y →∞ y →∞ e y
e ∞
∞ ∞
∫ e −x −y dx =e −y ∫ e − x dx =e −y [−e −x ]0 = e −y [−e −∞ + e 0 ] = e −y [0 +1] = e −y , para y>0.

∞
f Y (y) =
0 0
_______________________________________________________
Podemos obter resultados similares para variáveis aleatórias discretas. Dada a

função discreta de probabilidade conjunta f(xi,yk), as funções discretas de
probabilidade marginal são dadas por
(9) f X (x i ) = ∑ f (x i, y k )
k
(10) f Y (y k ) = ∑ f (x i , y k )
i
Exemplo. Considere o terceiro exemplo do item anterior, cuja tabela está

reproduzida abaixo.
(Y=1) (Y=2) (Y=3)
Homens (X=0) 0,27 0,16 0,01
Mulheres (X=1) 0,32 0,22 0,02
9

A probabilidade P[ X = 0] (probabilidade de o estudante escolhido

aleatoriamente ser homem) é igual à probabilidade marginal f X (x) no ponto x
=0. Vimos que f X ( xi ) = ∑ f ( xi , y k ) . Logo,
k
3
P[ X = 0] = f X ( x = 0) = ∑ f ( x = 0, yk ) = f ( x = 0, y = 1) + f ( x = 0, y = 2) + f ( x = 0, y = 3)
k =1
P[ X = 0] = 0,27 + 0,16 + 0,01 = 0,44 ⇒ soma da 1ª linha da tabela.
A probabilidade P[ X = 1] , probabilidade de o estudante selecionado

aleatoriamente ser mulher, é igual à probabilidade marginal f X (x) no ponto x
=1. Então
3
P[ X = 1] = f X ( x = 1) = ∑ f ( x = 1, yk ) = f ( x = 1, y = 1) + f ( x = 1, y = 2) + f ( x = 1, y = 3)
k =1
P[ X = 1] = 0,32 + 0,22 + 0,02 = 0,56 ⇒ soma da 2ª linha da tabela.
Note que fX(x=0) + fX(x=1) = 0,44 + 0,56 = 1, e isto acontece porque a soma
das probabilidades de uma função discreta de probabilidades é unitária, por
definição.
A probabilidade P[Y = 1] , que representa a probabilidade de o estudante

escolhido ao acaso estar matriculado em um curso de 4 anos, é igual à
probabilidade marginal f Y ( y ) no ponto y =1, dada por
P[Y = 1] = f Y (y = 1) = ∑ f (x i , y = 1) = f (x = 0, y = 1) + f (x = 1, y = 1)
i=1
P[Y = 0] = 0,27 + 0,32 = 0,59 ⇒ soma da 1ª coluna da tabela.
A probabilidade P[Y = 2] é a probabilidade de o estudante estar matriculado em

um curso de 2 anos e é igual à probabilidade marginal f Y ( y ) no ponto y =2:
i=1
Finalmente, a probabilidade P[Y = 3] denota a probabilidade de o estudante

estar matriculado em um curso com duração menor que 2 anos e corresponde
à probabilidade marginal f Y ( y ) no ponto y =3:

10

i=1
Não por acaso, temos que fY(y=1) + fY(y=2) + fY(y=3) = 0,59 + 0,38 = 0,03
= 1.
Y=1 Y=2 Y=3 fX(x)

X=0 0,27 0,16 0,01 0,44
X=1 0,32 0,22 0,02 0,56
fY(y) 0,59 0,38 0,03 1
A tabela acima mostra que as probabilidades marginais fX(x) e fY(y) são

obtidas somando as linhas e colunas, respectivamente (memorize para a
prova!).
_______________________________________________________
17.3 Funções de Probabilidade Condicional
Exemplo. Considere os dados do exemplo anterior, em especial a última

tabela. Qual seria a distribuição das matrículas no ensino superior, sabendo-se
que o curso tem 4 anos de duração? Em outras palavras, queremos calcular as
probabilidades P(X=x|Y=1). Da definição de probabilidade condicional,
obtemos
P ( X = x, Y = 1)
P ( X = x | Y = 1) = .
P (Y = 1)
Assim, P(X=0|Y=1) = P(X=0,Y=1)/P(Y=1) = 0,27/0,59 = 0,458 e P(X=1|Y=1)

= P(X=1,Y=1)/P(Y=1) = 0,32/0,59 = 0,542. Note que P(X=0|Y=1) +
P(X=1|Y=1) = 0,458 + 0,542 = 1.
A função discreta de probabilidade condicional (ou simplesmente

distribuição condicional) de X, dado que Y=1, denotada por fX|Y(x|y=1),
está na tabela a seguir.
x 0 1
fX|Y(x|y=1) 0,458 0,542
Podemos calcular a média da distribuição condicional de X, dado que Y=1, a

saber
E(X|Y=1) = (0 x 0,458) + (1 x 0,542) = 0,542.

11

Qual seria a distribuição das matrículas no ensino superior, sabendo-se que os
alunos são do sexo feminino? Ou seja, quais são as probabilidades
P(Y=y|X=1)? Aplicando a probabilidade condicional, obtemos
P(Y=1|X=1) = P(Y=1,X=1)/P(X=1) = 0,32/0,56 = 0,571,
P(Y=2|X=1) = P(Y=2,X=1)/P(X=1) = 0,22/0,56 = 0,393,
P(Y=3|X=1) = P(Y=3,X=1)/P(X=1) = 0,02/0,56 = 0,036.
A distribuição condicional de Y, dado que X=1, denotada por fY|X(y|x=1),

está na tabela abaixo.
y 1 2 3
fY|X(y|x=1) 0,571 0,393 0,036
A média da distribuição condicional de Y, dado que X=1, é igual a
E(Y|X=1) = (1 x 0,571) + (2 x 0,393) + (3 x 0,036) = 1,465.
Vamos formalizar o que foi visto no exemplo acima? Sejam X e Y variáveis

aleatórias discretas com função de probabilidade conjunta f(xi,yk). Então as
funções discretas de probabilidade condicional (ou distribuições
condicionais)
P[X=xi|Y=yk] = fX|Y(xi|yk) e
P[Y=yk|X=xi] = fY|X(yk|xi) são definidas como
f (x i , y k )
(11) f X |Y (x i | y k ) = , fY ( yk ) > 0
f Y (y k )
f (x i , y k )
(12) f Y | X (y k | x i ) = , f X ( xi ) > 0
f X (x i )
De (11) e (12) resulta que
(13) f (x i , y k ) = f X |Y (x i | y k ) f Y (y k ) = fY |X (y k | x i ) f X (x i ) .
A esperança condicional de X, dado que Y = yj, é dada por
(14) E(X |Y = y j ) = ∑ x i P(X = x i |Y = y j ) .

i =1

12

Uma definição análoga vale para E(Y|X=xi).
Podemos definir as densidades condicionais associadas a duas variáveis

aleatórias contínuas X e Y (com densidade conjunta fXY(x,y) e densidades
marginais fX(x) e fY(y)) de forma similar. A densidade condicional de Y dado o
resultado X = x é definida por
f XY (x, y)
(15) f Y / X (y | x) = , f X (x) > 0
f X (x)
e a densidade condicional de X dado o resultado Y = y como
f XY (x, y)
(16) f X /Y (x | y) = , fY ( y) > 0 .
fY (y)
A fórmula (13) também é válida para o caso de variáveis contínuas.
A interpretação de (15) e (16) é a seguinte. Seja a densidade conjunta f(x,y)

= z = 1 para 0≤x≤1 e 0≤y≤1 e f(x,y) = 0 caso contrário representada na
figura abaixo. Considere o plano paralelo ao plano xz que passa por y=1/2.
Esse plano determina na superfície f(x,y) a densidade condicional
fX|Y(x|y=1/2). Por exemplo, suponha que X denote o salário de uma população
e que Y represente o consumo da mesma população. Então, fixado o consumo
y=y0, a densidade condicional fX|Y(x|y0) representa a densidade dos salários
para o nível y0 de consumo.
fX|Y(x|y=1/2)
z=f(x,y)
1
0 1/2 1
y
1 (1,1)

13

As densidades condicionais fX|Y(x|y) e fY|X(y|x) também podem ser
caracterizadas por meio de suas médias, variâncias, etc.
Exemplo. Seja a densidade de (X,Y) dada por
f(x,y) = 6(1-x-y), 0<x<1, 0<y<1-x.
A região de variação dos pares (x,y) é o triângulo delimitado pelos eixos x e y

e pela reta y = 1-x (vide a próxima figura).
1
y = 1-x
0 1 x
Sabemos que a densidade marginal fX(x) é resultante da integração da

densidade conjunta na variável y. Neste caso, os limites inferior e superior da
integral em y são y=0 e y=1-x, respectivamente, pois o triângulo da figura
acima é percorrido no sentido vertical (de baixo para cima). Então a densidade
marginal fX(x) é dada por:
1− x
∫ 6(1 − x − y)dy = 6[y − xy − y /2]

1− x
f X (x) = 2
0
= 3(x −1) 2 , 0 < x < 1 .
0
A densidade marginal fY(y) é calculada pela integração da densidade conjunta

na variável x. Os limites inferior e superior da integral em x são x=0 e x=1-y,
respectivamente, pois o triângulo da figura acima é percorrido no sentido
horizontal (da esquerda para a direita). Então a densidade marginal fY(y) é
dada por:
1− y
f Y (y) = ∫ 6(1 − x − y)dx = 3(y −1) , 2

0 < y <1.
0
Por conseguinte, as densidades condicionais são
2(1 − x − y)
f X |Y (x | y) = , 0 < x <1− y ,
(y −1) 2
14

2(1 − x − y)
f Y |X (y | x) = , 0 < y <1 − x.
(x −1) 2
Vale a pena conferir se fX|Y(x|y) é uma densidade de probabilidade válida, para

y fixado. Temos que
∞ ∞ ∞
∫ f X |Y (x | y)dx = ∫ f (x, y) / f Y (y)dx =1/ fY (y) ∫ f (x, y)dx = f Y (y) / f Y (y) = 1

−∞ −∞ −∞
⇒ Portanto, fX|Y(x|y) é uma densidade de probabilidade válida.

_______________________________________________________
Exemplo (Estatística/ANPEC/2009/Adaptada) Considere duas variáveis

aleatórias X e Y. Suponha que X seja distribuída de acordo com a seguinte
função de densidade:
1, 0 < x < 1

f X (x) = 
0, c.c.
em que c.c. significa “caso contrário” e suponha ainda que
1/ x, 0 < y < x

f Y |X (y | x) = 
 0, c.c.
Calcule E(Y). Multiplique o resultado por 100.
Resolução
Pede-se a média não condicional E(Y), dada por
∞
E (Y ) = ∫f
−∞
Y ( y )dy .
Logo, precisamos determinar a densidade marginal fY(y). Vimos que
f ( x, y ) = f X |Y ( x | y ) f Y ( y ) = f Y | X ( y | x) f X ( x)
O enunciado forneceu as densidades fX(x) e fY|X(y|x). Portanto,
1
f ( x, y ) = f Y | X ( y | x ) f X ( x ) = , 0 < x < 1, 0 < y < x .
x
O domínio de f(x,y) é o triângulo hachurado da figura a seguir.

15

y
y=x
0 1 x
A figura abaixo ilustra a densidade conjunta z = f ( x, y ) = 1 / x , 0 < x < 1 , 0 < y < x .
70
60
50
40
z
30
20
10
0
1
1
0.8
0.5 0.6
0.4
0.2
y 0 0
x
A densidade marginal fY(y) é obtida através de

1
1
f Y (y) = ∫ x dx = [ln x] 1
y
= 0 − ln y = − ln y , 0<y<1.
y

16

Densidade Marginal de Y
7
-lny
3
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
y
Finalmente, a esperança de Y é dada por

1 1
E(Y) = ∫ y(−ln y)dy = − ∫ y ln ydy
0 0
Aplicaremos a fórmula da integração por partes:
∫ f (y)g'(y)dy = f (y)g(y) − ∫ g(y) f '(y)dy

com f ( y ) = ln y e g'(y) = y ⇒ f '(y) = 1/ y e g ( y ) = y 2 / 2 .
Assim,
 y2 y2 1 
1
 y2 y 
1
E(Y) = −ln y ×
 2
− ∫ × dy  = −ln y ×
2 y 0  2
− ∫ dy 
2 0
1 2 y2  1  y2 1
1
1
[ ∫ ydy ]
1
E(Y) = − y 2 ln y − = −  y ln y −  =  − y ln y 
2
2 0 2 2 0 2  2 0
Observação: o limite de y2lny quando y tende a zero pela direita (y→0+) é uma
indeterminação do tipo 0.∞, ou seja,
lim y 2 ln y = 0 × ∞
y → 0+
Pela regra de L´Hôpital (derivar o numerador e o denominador da razão):
ln y 1/ y  y2 
lim y ln y = lim −2 = lim2
−3 = lim  − =0
y → 0+ y → 0+ y y → 0 + −2y y → 0+  2

17

Então,
1 1  1
E (Y ) =  − 1 × ln 1 − 0 + 0 = = 0,25
2 2  4
Resposta: 100.E(Y) = 25
______________________________________________________
A esperança condicional de Y, dado que X=x, é dada por

∞
(17) E(Y | x) = ∫ yf Y |X (y | x)dy .
−∞
Definição análoga pode ser dada para E(X|y). Observe que E(Y|x) é uma
função de x, isto é, E(Y|x) = f(x), sendo denominada curva de regressão
de Y sobre x (memorize para a prova!). A regressão será vista em detalhes
mais adiante.
Exemplo. Seja a densidade condicional
fY|X(y|x) = 1/x, 0<y<x.
A esperança condicional E(Y|x) é dada por
1  y2  1  x2  x
x x x
1 1
E(Y | x) = ∫ y dy =
x x
∫ ydy =   =  − 0 = .
x  2 0 x  2  2
0 0
Note que E(Y|x) é, de fato, uma função de x.
17.4 Variáveis Aleatórias Independentes
Quando X e Y são variáveis aleatórias independentes a função de probabilidade

conjunta é igual ao produto das funções marginais de probabilidade, ou seja
(18) f ( x, y ) = f X ( x ) f Y ( y ) .
Exemplo. Vimos que as densidades marginais da densidade conjunta
f(x,y) = e-x-y, x>0, y>0
são dadas por
f X ( x) = e − x , para x>0 e

18

−y
f Y ( y ) = e , para y>0.
Como f(x,y) = fX(x)fY(y) = e-x.e-y = e-x-y, concluímos que X e Y são

independentes.
_______________________________________________________
Podemos generalizar a fórmula (18). Sejam X1, X2, ..., Xn variáveis

aleatórias independentes com função de probabilidade conjunta f(x1, x2, ...,
xn) e funções marginais de probabilidade f X 1 (x1 ), f X 2 (x 2 ),..., f X n (x n ) . Então é válida
a expressão
(19) f (x1, x 2 ,..., x n ) = f X 1 (x1) f X 2 (x 2 )... f X n (x n ) .
Se X e Y são independentes, então a densidade condicional de X, dado que Y =

y é,
f (x, y) f X (x) fY (y)

(20) f X |Y (x | y) = = = f X (x) .
f Y (y) f Y (y)
e a densidade condicional de Y, dado que X = x é,
f (x, y) f X (x) fY (y)

(21) f Y |X (y | x) = = = f Y (y) .
f X (x) f X (x)
17.5 Esperanças Envolvendo Duas ou Mais Variáveis Aleatórias
Conforme já visto nesta aula, é muito comum estarmos interessados no

comportamento conjunto de duas ou mais variáveis aleatórias. Apresentamos
para você os conceitos de funções de probabilidade conjunta, marginal e
condicional para variáveis discretas e contínuas. Também estudamos a noção
de independência entre variáveis aleatórias.
Nesta seção, daremos continuidade ao estudo da associação entre

variáveis. Frequentemente, estamos interessados em saber se existe uma
associação entre duas variáveis. Considere, por exemplo, a Economia. Em
geral, estamos interessados em investigar as relações que possam existir entre
variáveis econômicas. Por exemplo: quão estreitamente caminham duas
variáveis preço? Veremos que os conceitos de covariância e correlação nos
ajudam a responder a essa pergunta.
17.5.1 Correlação e Covariância
Seja uma amostra de dez pessoas adultas, do sexo masculino, e sejam a

altura (cm) e o peso (kg) dessas pessoas denotadas por X e Y,
respectivamente. Para cada elemento da amostra, temos um par ordenado (x,

19

y). Teremos então n = 10 pares de valores das duas variáveis, que poderão
ser representadas em um diagrama cartesiano bidimensional denominado
diagrama de dispersão.
Tabela
Pessoa Altura (cm) Peso (kg)
1 174 74
2 161 68
3 171 63
4 181 92
5 182 80
6 165 73
7 155 61
8 168 64
9 176 90
10 175 81
Suponha que tenham sido obtidos os valores apresentados na tabela acima. O

diagrama de dispersão correspondente é o da próxima figura. A vantagem do
diagrama de dispersão está em que, muitas vezes, sua simples observação já
nos dá uma boa idéia de como as duas variáveis se correlacionam, isto é,
qual a tendência de variação conjunta que apresentam.
95
90
85
80
75
70
65
60
55
150 155 160 165 170 175 180 185
Observando o diagrama de dispersão acima com atenção, constatamos que

existe, para maiores valores de X (altura), uma tendência a obtermos maiores
valores de Y (peso) e vice-versa. Quando isso ocorre, diz-se que há
correlação linear positiva entre X e Y.
20

Entretanto, também podemos ter casos em que o diagrama de dispersão

apresenta o aspecto da figura que se segue, indicando que, para maiores
valores de X, a tendência é observarem-se menores valores de Y e vice-versa.
Diz-se que nesse caso a correlação é negativa. Por exemplo, a renda per
capita de países e o índice de analfabetismo são variáveis negativamente
correlacionadas.
É claro que também pode ocorrer o caso em que as variáveis são não
correlacionadas. Neste caso, o aspecto do diagrama de dispersão é o da
próxima figura.

21

4
-1
-2
-3
-4 -3 -2 -1 0 1 2 3 4
Vimos que o sinal da correlação indica a tendência da variação conjunta das

duas variáveis. Além disso, devemos considerar também a intensidade ou o
grau da correlação. A correlação linear (em valor absoluto) entre X e Y na
figura em que a correlação é negativa é mais intensa do que a da figura em
que a correlação é positiva, pois os pontos da primeira apresentam uma
tendência mais acentuada de se colocarem segundo uma reta do que os da
última.
Sejam X e Y variáveis aleatórias. Então a covariância de X e Y é definida por
(22) Cov(X,Y ) = E[(X − X )(Y − Y )] = E[XY ] − XY .
em que X = E[X ] e Y = E[Y ] .
Se X e Y são variáveis aleatórias discretas e f (xi,yj) é sua função de

probabilidade conjunta, a covariância entre X e Y é dada por
(23) Cov(X,Y ) = E[(X − X )(Y − Y )] = ∑ ∑[x i − X ][y j − Y ] f (x i , y j ) .

i j
Caso X e Y sejam variáveis aleatórias contínuas com função densidade de

probabilidade conjunta f(x,y), a covariância é calculada pela integral
∞ ∞
(24) Cov(X,Y ) = ∫ ∫ (x − X )(y − Y ) f (x, y)dxdy .
−∞ −∞

22

A covariância é uma medida da intensidade e do sinal da correlação linear
entre duas variáveis. Suponha que tenhamos uma amostra de n pares
ordenados (x,y). Neste caso, a covariância pode ser estimada pela estatística
∑ (x i − x )(y i − y )
i =1
(25) sxy ≈ .
n
em que x é a média amostral de X (estimativa de X ), y é a média amostral

de Y (estimativa de Y ) e n é suficientemente grande (n>30, por exemplo).
Observe que a covariância depende das unidades de medida das variáveis X e

Y. Percebe-se mais claramente o significado da covariação dividindo-se a
covariância entre X e Y por seus respectivos desvios-padrão. Define-se a razão
resultante como a correlação entre as variáveis aleatórias X e Y, denotada
pela letra grega ρ (rô)
cov(X,Y )
(26) ρ(X,Y ) =
σ X σY
em que σ X e σ Y denotam os desvios-padrão de X e Y, respectivamente.
A correlação é estimada pelo coeficiente de correlação linear de Pearson,

ou, simplesmente, coeficiente de correlação, definido por
s xy
(27) R=
sx s y
em que s xy é a covariância amostral de X e Y (25), sx é o desvio-padrão

amostral de X
∑ (x i − x )2
i =1
(28) sx ≈
n
e sY é o desvio-padrão amostral de Y
∑ (y i − y )2
i =1
(29) sy = .
n
Substituindo (25), (28) e (29) em (27), obtemos

23

n
∑ (x i − x )(y i − y )
Sxy
i =1
(30) R= n n
= .
Sxx Syy
∑ (x i − x ) 2 ∑ (y i − y ) 2
i =1 i =1
n n n
em que Sxy = ∑ (x i − x )(y i − y ) , Sxx = ∑ (x i − x ) e Syy = ∑ (y i − y ) 2 . 2
i =1 i =1 i =1
A representação abreviada dos somatórios de (30) por meio de S xy , S xx e S yy é

útil. Não é difícil mostrar que
   
∑ x i  ×  ∑ y i 
   i 
(31) Sxy = ∑ x i y i − i .
i n
 2
∑ x i 
 
(32) Sxx = ∑ x i − i
2
.
i n
 2
∑ y i 
 
(33) Syy = ∑ y i − i
2
.
i n
As fórmulas (31), (32) e (33) devem ser memorizadas porque são importantes
para a prova.
Combinando as expressões anteriores, podemos também chegar à fórmula

abaixo, para o cálculo direto do coeficiente de correlação linear de Pearson:
   
n∑ x i y i − ∑ x i  ×  ∑ y i 
 i   i 
(34) R= i
.
   2    2
n ∑ x i 2 − ∑ x i   ×  n∑ y i 2 −  ∑ y i  
 i  i    i  i  
O coeficiente de correlação tem as importantes propriedades de ser

adimensional e de variar entre -1 e +1, o que não ocorre com a covariância. A
vantagem de ser adimensional está no fato de seu valor não ser afetado pelas
unidades adotadas. Por outro lado, o fato de termos − 1 ≤ R ≤ 1 faz com que um
dado valor de R seja facilmente interpretado. Note que R = -1 corresponde ao
caso de correlação linear negativa perfeita e R = +1 corresponde ao caso de
correlação linear positiva perfeita.

24

O coeficiente de correlação para os dados da tabela de alturas e pesos é de

aproximadamente 0,771 (você pode conferir este resultado com uma
calculadora ou com algum programa de computador). O coeficiente de
correlação para os dados da figura em que a correlação é negativa é igual a -
0,9854. O coeficiente de correlação para os dados da figura em que
aparentemente não há correlação entre X e Y é igual a 0,0164. Este último
resultado indica que não há qualquer associação linear entre as variáveis X e Y
(neste caso a covariância amostral também dará próxima de zero). Quanto
maior é o valor absoluto (ou módulo) |ρ|, melhor é a associação linear entre os
valores.
Deve-se frisar que um alto valor do coeficiente de correlação, embora

estatisticamente significativo, pode não implicar qualquer relação de causa e
efeito, mas simplesmente a tendência de variação conjunta das variáveis em
questão.
Ressaltamos que a correlação nula, isto é, ρ = 0, significa que não há

associação linear entre X e Y. Mesmo que X e Y tenham covariância zero, elas
podem ter uma associação não linear, como em X 2 + Y 2 = 1 (equação de uma
circunferência centrada em (0,0) e de raio 1).
Uma importante conseqüência da independência estatística é a seguinte:
- se X e Y são variáveis aleatórias independentes, então a covariância e a

correlação entre elas é nula (memorize para a prova!).
Exemplo. Admita que X e Y sejam variáveis aleatórias independentes. Então é

válida a expressão
A) E[ XY ] = E[ X 2 ]E[Y 2 ]
B) E[ XY ] = E[ X ]E[Y ]
C) E[ XY ] = E[ X ] / E[Y ]
D) E[ XY ] = Cov ( X , Y )
E) E[ XY ] = ( E[ X ]E[Y ]) 2
Resolução
Provaremos que E[ XY ] = E[ X ]E[Y ] supondo que X e Y sejam variáveis contínuas.

Prova similar pode ser dada para o caso das variáveis serem discretas (tente
você mesmo fazer após estudar a nossa solução para variáveis contínuas).
Primeiramente, lembre que f ( x, y ) = f X ( x) × f Y ( y ) , pois X e Y são independentes.

Aplicando esse conceito na integral de E[XY], obtemos

25

∞ ∞ ∞  ∞ 
E [ XY ] = ∫ ∫ xyf XY ( x, y ) dxdy =  ∫ xf X ( x )dx  ×  ∫ yfY ( y )dy  = E [ X ] E [Y ]
−∞ −∞  −∞   −∞ 
Note que variáveis independentes são não correlacionadas, pois
Cov ( X , Y ) = E[ XY ] − XY = 0 .
GABARITO: B
Distribuição Normal Bidimensional
A distribuição normal bivariada ou bidimensional é um modelo importante para

variáveis aleatórias contínuas bidimensionais.
A variável (X,Y) tem distribuição normal bidimensional se sua densidade

conjunta for dada por
  2  y − µ 2 
 1  x −
1 µ (x − µ )(y − µ ) 
f (x, y) = exp −  − 2ρ +  
x y y
(35) x
 2(1 − ρ )  σ x  σ xσ y  σ y  

2
2πσ xσ y 1 − ρ 2
 

para −∞ < x < ∞ , −∞ < y < ∞ (foi usada a notação exp(x) = ex). Observe que a
densidade normal conjunta depende de cinco parâmetros: µX e µY (médias), σX
e σY (desvios padrões) e ρ (coeficiente de correlação entre Y e X). A figura
abaixo mostra a superfície normal obtida para os seguintes parâmetros: µX =
µY = 0, σX = σY = 1 e ρ = 0,3.
0.15
0.1
z = f(x,y)
0.05
2
3
2
0 1
0
-2 -1
-2
y -3
x

26

A normal bidimensional possui as seguintes propriedades:
(a) As distribuições marginais de X e Y são normais unidimensionais: X ~

N(µx,σ2x) e Y ~ N(µy,σ2y).
(b) As distribuições condicionais são normais, com
 σy 
f Y |X ( y | x ) ~ N  µy + ρ ( x − µx ),σ y2 (1 − ρ 2 ) e
 σx 
 σ 
f X |Y ( x | y ) ~ N  µx + ρ x ( y − µy ),σ x2 (1 − ρ 2 ) .
 σy 
σy σ
Logo E (Y | x ) = µy + ρ ( x − µx ) e E ( X | y ) = µx + ρ x ( y − µy ) .
σx σy
Se X e Y são conjuntamente normais e não correlacionadas (ρ=0),

podemos escrever a densidade (35) como
1 y −µy 
2
1  x −µx 
2
−   −  
1 2 σ x  1 2 σ y 
(36) f (x, y) = e × e ,
σ x 2π σy 2π
ou seja, a densidade conjunta é o produto das duas marginais, que são

normais. Isto quer dizer que X e Y são independentes no caso em que X e Y
tiverem densidade conjunta normal com ρ=0 (memorize para a prova!)
Atenção! A não correlação entre X e Y implica independência estatística

somente quando X e Y são variáveis aleatórias conjuntamente
normais. Isto não é verdade quando X e Y tem distribuição conjunta diferente
da normal bidimensional.
Já caiu em prova! (Fiscal de Rendas-MS/2006/FGV) Analise as

afirmativas a seguir, a respeito de duas variáveis aleatórias X e Y:
I. se X e Y são independentes, então Cov(X,Y) = 0;

II. se Cov(X,Y) = 0, então X e Y são independentes;
III. se X e Y são independentes, então E(XY) = E(X).E(Y);
IV. se E(XY) = E(X).E(Y), então X e Y são independentes.
Assinale:
A) se nenhuma afirmativa estiver correta.

B) se somente as afirmativas I e III estiverem corretas.
27

C) se somente as afirmativas I e IV estiverem corretas.
D) se somente as afirmativas II e IV estiverem corretas.
E) se todas as afirmativas estiverem corretas.
Resolução
Sejam X e Y variáveis aleatórias. Então a covariância de X e Y é definida como
Cov(X,Y) = E[(X-µX) (Y-µY)] = E(XY) - µXµY
em que µX = E(X) e µY = E(Y). Se X e Y são variáveis aleatórias

independentes, então a covariância entre elas é nula (o que indica que não há
associação linear entre elas!), ou seja,
Cov(X,Y) = 0 (p/ X e Y independentes) ⇒ E(XY) = µXµY.

Diz-se que X e Y são não correlacionadas quando Cov(X,Y) = 0.
A relação recíproca não é verdadeira: se X e Y são não correlacionadas não

podemos afirmar que X e Y sejam independentes. Porém, a não correlação
entre X e Y implica independência estatística quando X e Y são variáveis
aleatórias conjuntamente normais (e somente neste único caso!).
Análise das afirmativas:
I. “se X e Y são independentes, então Cov(X,Y) = 0” ⇒ Verdadeira, por

definição.
II. “se Cov(X,Y) = 0, então X e Y são independentes” ⇒ Falsa, pois a relação
recíproca não é verdadeira: se X e Y são não correlacionadas não podemos
afirmar que X e Y sejam independentes.
III. “se X e Y são independentes, então E(XY) = E(X).E(Y)” ⇒ Verdadeira, pois
Cov(X,Y) = 0 implica E(XY) = E(X).E(Y).
IV. “se E(XY) = E(X).E(Y), então X e Y são independentes” ⇒ Falsa, pois a não
correlação não implica independência.
GABARITO: B
Já caiu em prova! (Analista da SUSEP/Atuária/2010/ESAF). Y e X são

variáveis aleatórias com distribuição normal conjunta com E(Y) = µY, E(X) =
µX, e Cov(Y,X) = ρσYσX, onde σY e σX são os desvios padrões de Y e X,
respectivamente, e ρ o coeficiente de correlação entre Y e X. Qual a expressão
da regressão de X em Y, E(X|Y=y)?
A) µY + ρσY(x – µX)/σX.
28

B) µY + ρσX(x – µX)/σY.
C) µY + ρσY(y – µY)/σX.
D) µX + ρσX(y – µY)/σY.
E) µX + ρσY(y – µY)/σX.
Resolução
A média condicional
σx
E ( X | y) = µ x + ρ (y − µy)
σy
é uma função linear de y, ou seja E(X|y) = g(y). Desta forma, E(X|Y=y) é a

regressão de X em Y e isso implica que as opções A e B poderiam ser
descartadas logo de início, pois ambas são funções da variável x.
A opção D contém a expressão correta.
GABARITO: D
17.5.2 Média e Variância de Uma Combinação Linear de Variáveis

Aleatórias
Sejam X e Y variáveis aleatórias e Z=g(X,Y) uma função dessas variáveis.

Vamos admitir que essa função tenha a forma
(37) Z = aX + bY
em que a e b são constantes. Essa expressão é uma combinação linear (ou

soma ponderada). A esperança de (37) é dada por
(38) E[ Z ] = aE[ X ] + bE[Y ] .
A Eq. (38) nos diz que o valor esperado de uma combinação linear de
duas variáveis aleatórias é a combinação linear de seus respectivos
valores esperados. Essa regra pode ser generalizada para um número
arbitrário de variáveis aleatórias, quer elas sejam discretas ou contínuas.
As seguintes regras relativas à variância são válidas:
1. Se X, Y e Z são variáveis aleatórias e a, b e c são constantes, então
(39) var[aX + bY + cZ ] = a 2 var[ X ] + b 2 var[Y ] + c 2 var[Z ] +

2ab cov( X , Y ) + 2ac cov( X , Z ) + 2bc cov(Y , Z )

29

Note que var(aX + bY ) = a 2 var( X ) + b 2 var(Y ) + 2ab cov( X , Y ).
2. Se X, Y e Z são independentes ou não correlacionadas
(40) var[aX + bY + cZ ] = a 2 var[ X ] + b 2 var[Y ] + c 2 var[Z ]
Se fizermos a = b= c =1 em (40), obtemos
(41) var[ X + Y + Z ] = var[ X ] + var[Y ] + var[Z ] .
A expressão (41) nos diz que a variância da soma de variáveis aleatórias

independentes é igual à soma das variâncias (memorize para a prova!).
As regras sobre a variância de três variáveis aleatórias podem ser

generalizadas para n variáveis aleatórias.
17.6 Regressão
17.6.1 A Natureza da Análise de Regressão
Na análise de regressão simples, estamos interessados na dependência

estatística entre as variáveis X e Y. Não podemos confundir a dependência
estatística com o conceito de dependência determinista ou funcional. Por
exemplo, a Segunda Lei de Newton da Física clássica (lei determinista) afirma
que
“A resultante das forças que agem num corpo é igual ao produto de sua massa
pela aceleração adquirida.”
Ou seja, Newton postulou que há uma dependência determinista entre força e

aceleração, dada pela fórmula
∑F

= m×a

i
i

em que Fi denota a i-ésima força que age num corpo, m é a massa e a é a

aceleração. Repare que a fórmula acima NÃO contém um termo de

perturbação ou erro aleatório, sendo, portanto, de caráter não
probabilístico, isto é, determinista. Outros exemplos de relações físicas
deterministas são as duas leis de Kirchhoff dos circuitos elétricos (lei das
malhas e lei dos nós), as quatro equações de Maxwell do eletromagnetismo e a
lei do gás de Boyle.

30

Regressão versus Causação
A análise de regressão ocupa-se do estudo da dependência de uma variável, a

variável dependente, em relação a uma ou mais variáveis, as variáveis
explicativas (ou independentes), com o objetivo de estimar e/ou prever a
média (da população) ou o valor médio da dependente em termos dos valores
conhecidos ou fixos (em amostragem repetitiva) das explicativas.
Considere o experimento aleatório hipotético ilustrado pela próxima figura, em

que a variável explicativa é a estatura do pai (em metros) e a variável
dependente é a estatura do filho (em metros). Essa figura mostra três
distribuições da estatura do filho correspondentes a valores fixos de estatura
do pai (1,70 m, 1,80 m e 1,90 m). Note que a uma dada altura do pai
corresponde uma população (distribuição) com cinco possíveis estaturas para o
filho. A reta de regressão na figura (linha tracejada) sugere que a estatura
média do filho tende a aumentar quando aumenta a estatura do pai.
Portanto, a regressão linear permite que o valor médio da variável dependente
(estatura do filho) seja estimado por meio dos valores observados das
estaturas dos pais (variável explicativa).
2.2
2.15
2.1
2.05
1.95
1.9
1.85
1.8
1.75
1.6 1.65 1.7 1.75 1.8 1.85 1.9 1.95 2
A regressão não implica necessariamente causalidade ou causação.

Uma relação estatística, por mais forte que seja, não pode estabelecer uma
relação de causa e efeito; a causação deve vir de fora da estatística, de outra
teoria.
Por exemplo, considere um agrônomo que esteja interessado em estudar a

dependência da colheita de soja em relação à chuva. Consideramos que a
colheita de soja é dependente da precipitação de chuva por uma questão de

31

bom senso (e esta consideração é não estatística!). Mas a estatística não teria
nada contra o fato do agrônomo estabelecer que a relação de dependência é
inversa, ou seja, que a precipitação de chuva depende do rendimento da
colheita de soja, apesar disso ser um evidente absurdo.
Uma relação estatística, por si só, não pode logicamente implicar causalidade.
Para atribuir causalidade, deve-se recorrer a considerações teóricas. Deste
modo, podemos afirmar que o consumo depende da renda real com base na
teoria econômica.
Ideias Fundamentais
Aprendemos que a análise de correlação tem como objetivo medir a

intensidade ou grau de associação linear entre duas variáveis aleatórias. Por
exemplo, podemos estar interessados em determinar a correlação existente
entre o hábito de fumar e a incidência de câncer no pulmão, entre as notas das
provas de física e matemática do exame vestibular, etc. Por outro lado, na
análise de regressão estamos interessados em estimar ou prever o valor
médio de uma variável aleatória com base nos valores fixos de outra
variável (variável explanatória). Repare, portanto, que na análise de
regressão há uma assimetria na maneira como as variáveis dependente e
explanatória são tratadas. Supõe-se que a variável dependente seja
estocástica (ou aleatória) e que as variáveis explicativas tenham valores
fixados, isto é, sejam não estocásticas.
O problema da regressão consiste em determinar a relação funcional entre as

variáveis dependente e explicativa.
Assim, se os pares ordenados (x,y) se apresentarem como na figura a seguir,

admitiremos existir um relacionamento funcional entre os valores de y e x,
responsável pelo aspecto do diagrama e que explica grande parte da variação
de y com x. Esse relacionamento funcional corresponderia à linha existente na
figura, que seria a linha de regressão, que pode não ser uma reta, como no
caso indicado pela figura.

32

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
2000 2500 3000 3500 4000 4500
Uma parcela da variação, contudo, permanece em geral sem ser explicada, e

será atribuída ao acaso. Repare, na figura acima, que os valores de y flutuam
aleatoriamente em torna da linha de regressão estimada (essa linha deve ser
calculada por meio de algum método estatístico). Essa flutuação ou variação
em torno da linha de regressão é devida à existência de uma variação aleatória
adicional, que chamaremos de variação residual. A função de regressão,
portanto, nos dá o valor médio de uma das variáveis em função do valor
observado da outra, isto é, E[Y/x] = ŷ .
O problema da regressão é simplificado quando sabemos de antemão qual é a

relação funcional ou modelo entre as variáveis. Um problema bastante
estudado em Estatística é a questão da seleção ou identificação do modelo (é
uma reta? é um polinômio de grau 2?). Mas este estudo está fora do escopo
deste curso. No estudo que se segue, admitiremos que a forma da linha
de regressão seja uma reta. Teremos então o problema da regressão
linear simples. O termo “simples” significa que apenas duas variáveis estão
envolvidas.
17.6.2 Regressão Linear Simples
Seja Y a variável dependente e X a variável suposta sem erro, ou seja, não

aleatória. A regressão linear simples pressupõe que seja adotado o modelo
(42) Y = α + βX + ε ,
em que α é o intercepto, β é a declividade e ε denota a componente

aleatória da variação de Y ( ε é uma variável aleatória).

33

É razoável supor que a variável aleatória ε tenha média nula, a fim de que
toda a variação explicada de Y fique em torno da reta de regressão. Isso
implica que a reta de regressão fornece a média de Y para cada valor de x
considerado, como já mencionamos.
Uma outra suposição básica que pode ser adotada é a de que a variação
residual da variável Y seja independente de x. Ou seja, usualmente
admite-se que a variação de Y em torno da linha teórica de regressão pode ser
descrita por um desvio-padrão residual que independe do ponto em
consideração.
Por fim, admitiremos que a variação de Y em torno da linha teórica de

regressão se dê segundo distribuições normais independentes, para
qualquer valor de x; o que implica dizer que as variações residuais em
relação à reta de regressão são independentes e normalmente distribuídas
(vide figura a seguir).
x1 x2 x
Nota: Os autores estão cientes do fato de que os resíduos do modelo ajustado

nem sempre seguem uma distribuição normal. Contudo, o importante é ter em
mente que as variações residuais em relação à reta de regressão são
independentes e normalmente distribuídas por hipótese. Isto não implica dizer
que os resíduos, de fato, sejam normalmente distribuídos. Acredite: há muitos
dados empíricos que violam a hipótese de normalidade!
Suponhamos que a reta estimativa de (42) seja
(43) yˆ = a + bx

34

em que ŷ denota os valores dados pela reta estimativa, a é a estimativa do
parâmetro α, e b , também denominado coeficiente de regressão linear, é a
estimativa do parâmetro β.
Existem diversos métodos de estimação da reta de regressão. Podemos até

mesmo estimar a reta visualmente. O método de ajuste visual consiste em
traçar diretamente a reta, com auxílio de uma régua, no diagrama de
dispersão, procurando fazer, da melhor forma possível, com que essa reta
passe por entre os pontos. Esse procedimento, por ser subjetivo, somente será
razoável se a correlação linear for muito forte, caso contrário levará a
resultados pobres.
Por outro lado, o ajuste pode ser feito pelo método dos mínimos
quadrados, segundo o qual a reta a ser adotada deverá ser aquela que torna
mínima a soma dos quadrados das distâncias da reta aos pontos experimentais
(em que a distância é igual ao erro aleatório no ponto em consideração como
ilustrado pela próxima figura). Ou seja, devemos procurar a reta para a qual
n
se consiga minimizar ∑e
i =1
2
i . A idéia central desse procedimento é simplesmente
a de minimizar a variação residual em torno da reta estimativa.
Tendo em vista a expressão (43), devemos, portanto, impor a condição
(44) min ∑ ei2 = min ∑ ( yi − yˆ i ) 2 = min ∑ ( yi − a − bxi ) 2 .

i i i

35

De acordo com o Cálculo (você lembra daquelas aulas “chatas” sobre derivada
e integral nos dois primeiros anos da faculdade?!), os parâmetros a e b que
minimizam (44) serão aqueles que anulam as derivadas parciais de (44)
∂ ∂
(45) ∑ ei2 = 0
∂a i
e ∑ ei2 = 0 .
∂b i
Não é difícil chegar às expressões
(46) − 2∑ ( yi − a − bxi ) = 0 ,
i
(47) − 2∑ xi ( yi − a − bxi ) = 0
i
as quais fornecem o seguinte sistema de duas equações a duas incógnitas:
 n n
 ∑ i y = na + b ∑ xi
i =1 i =1
(48) n n n
∑ xi yi = a ∑ xi + b ∑ xi2
 i=1 i =1 i =1
Os pontos (x,y) fornecem os elementos para a montagem de (48), cuja

solução forneceria os coeficientes a e b. Entretanto, é mais fácil considerar de
uma vez a solução analítica do sistema, segundo a qual
 S xy
 b=
(49)  S xx
a = y − bx
Exemplo. Determine a equação da reta para os pontos
x 1 2 3 4 5 6 7 8
Y 0,5 0,6 0,9 0,8 1,2 1,5 1,7 2,0
utilizando o método dos mínimos quadrados. Trace a reta no diagrama de

dispersão e calcule o coeficiente de correlação linear. A Tabela abaixo contém
os valores necessários para a determinação dos parâmetros da reta.
xi yi xi yi x 2i y 2i
1 0,5 0,5 1 0,25
2 0,6 1,2 4 0,36
3 0,9 2,7 9 0,81
4 0,8 3,2 16 0,64

36

5 1,2 6,0 25 1,44
6 1,5 9,0 36 2,25
7 1,7 11,9 49 2,89
8 2,0 16,0 64 4,00
∑ xi = 36 ∑ yi = 9,2 ∑ xi yi = 50,5 ∑ x i = 204 ∑ y i2 = 12,64
2
Vimos que
   
∑ x i  ×  ∑ y i 
   i 
Sxy = ∑ x i y i − i ,
i n
 2
∑ x i 
 
Sxx = ∑ x i − i
2
i n
 S xy
 b=
 S xx
a = y − bx
Fazendo os cálculos, temos que
36 × 9,2
S xy = 50,5 − = 9,1
8
36 2
S xx = 204 − = 42
8
Logo,
 9,1
 b= ≈ 0,217
42
 9,2 36
a = y − bx = − 0,217 × = 0,174
 8 8
A equação da reta de mínimos quadrados, ilustrada na figura a seguir, é
yˆ = 0,174 + 0,217 x .
Para o cálculo do coeficiente de correlação, é necessário usar os valores da

coluna yi2 da Tabela dada:

37

  2
∑ y i 
 
Syy = ∑ y i 2 − i
i n
9,2 2
S yy = 12,64 − ≈ 2,06
8
S xy 9,1
R= = ≈ 0,98
S xx S yy 42 × 2,06
1.5
y
0.5
0
0 1 2 3 4 5 6 7 8 9
x
O alto valor do coeficiente de correlação linear de Pearson justifica o traçado

da reta de regressão.
Pressupostos do Modelo de Regressão Linear Simples
Comentamos anteriormente alguns dos pressupostos (ou hipóteses básicas) do

modelo de regressão:
I. o erro aleatório ε tem média nula;

II. a reta de regressão fornece a média de Y para cada valor de x
considerado;
III. a variação residual de Y é constante com x e
IV. a variação de Y em torno da linha teórica de regressão se dá segundo
distribuições normais independentes, para qualquer valor de x, o que
implica dizer que as variações residuais em relação à reta de regressão
são independentes e normalmente distribuídas.

38

É usual formular as hipóteses do modelo de regressão em termos do erro

aleatório ε :
1. o valor de y para cada valor de x, é
Y = α + βX + ε .
2. o valor médio do erro aleatório é
E (ε ) = 0
pois admitimos que
E (Y ) = α + β x
3. a variância do erro aleatório é
var(ε ) = σ 2 = var(Y )
4. a covariância entre qualquer par de erros aleatórios ε i e ε j é
cov(ε i , ε j ) = cov(Yi , Y j ) = 0
5. a variável x não é aleatória.
6. A variável ε têm distribuição normal
ε ~ N (0, σ 2 )
se Y tem distribuição normal e vice-versa.
Já caiu em prova! (Analista da SUSEP/Atuária/2010/ESAF) A partir de

uma amostra aleatória (X1,Y1), (X2,Y2),..., (X20,Y20) foram obtidas as
estastísticas:
médias X = 12,5 e Y = 19, variâncias amostrais sx2 = 30 e sy2 = 54 e

covariância Sxy = 36.
Qual a reta de regressão estimada de Y em X?
A) Yî = 19 + 0,667X i
B) Yˆ = 12,5 +1,2X
i i
C) Yî = 4 +1,2X i
39

ˆ
D) Yi = 19 +1,2X i
E) Yˆ = 80 + 22,8X
i i
Resolução
A reta a estimar é
Yî = a + bX i ,
em que o parâmetro b (estimativa da declividade) é dado por
Sxy ∑i =1 (X i − X )(Yi − Y )
n
b= = ,
∑
n
Sxx (X − X ) 2
i =1 i
e o parâmetro a (estimativa do intercepto) por
a = Y − bX .
Observe que estamos usando uma notação diferente do enunciado: a

quantidade Sxy definida acima não é a covariância entre X e Y.
Podemos calcular b adaptando a fórmula dada acima:
∑
n
(X i − X )(Yi − Y )
i=1
n sxy
b= = .
∑
n
(X i − X ) 2 sx2
i=1
n
Ou seja, b pode ser calculado, de forma alternativa, pela razão entre a

covariância amostral sxy (estamos usando uma notação diferente da do
enunciado, mas que está coerente com a vista no texto!) e a variância
amostral sx2 . Logo,
36
b= = 1,2
30
a = 19 −1,2 × 12,5 = 4,0 .
Deste modo, a reta de regressão estimada de Y em X é Yî = 4 +1,2X i .

GABARITO: C

40

Já caiu em prova! (Técnico de Defesa Aérea e Controle de Tráfego
Aéreo/Estatística/2009/CESGRANRIO) Um pesquisador estudou a relação
entre o tempo, medido em segundos, que um inspetor leva para reagir a um
estímulo visual (Y) e a idade (X), medida em anos completos. Os dados de 25
inspetores foram coletados e obtidas as seguintes informações:
25 25
∑ Yi = 2.000 ∑Y
i =1
i
2
= 235.000
i =1
25 25
∑X i = 500 ∑X
i =1
i
2
= 20.000
i =1
25
∑X Yi =1
i i = 65.000
As estimativas dos mínimos quadrados, para o coeficiente linear e a inclinação

da reta, respectivamente, são:
(A) 80 e 3,25
(B) 50 e 2,85
(C) 30 e 2,50
(D) 20 e 4,0
(E) 10 e 3,62
Resolução
O modelo de regressão linear simples é
yˆ = a + bx
Pede-se os valores de a e b, respectivamente.
 2
∑ x i 
 i  500 2
Sxx = ∑ x i −
2
= 20000 − = 10000
i
n 25
   
∑ x i  × ∑ y i 
   i  500 × 2000
Sxy = ∑ x i y i − i = 65000 − = 25000
i
n 25
Logo,
S xy 25000
b= = = 2,5
S xx 10000

41

em que b é a inclinação da reta ajustada. Como a única opção em que a
inclinação é 2,50 é o item (C), na prova já marcaríamos essa opção sem
continuar os cálculos.
Não obstante, calcularemos o coeficiente linear (ou intercepto).
2000 500
a = y − bx = − (2,5) × = 30
25 25
Assim, encontramos a reta ajustada yˆ = 30 + 2,5 x .
GABARITO: C
Já caiu em prova! (ICMS-SP/2009/FCC) O gráfico abaixo demonstra a

evolução da receita tributária anual no estado de São Paulo desde 1999, com
os valores arrecadados em bilhões de reais.
Para estimar a receita tributária em um determinado ano com base no

comportamento sugerido pelo gráfico, adotou-se o modelo Yt = α + βt + εt; t
= 1, 2, 3, ..., sendo Yt = ln(RTt), em que RTt é a receita tributária no ano
(1998+t) em bilhões de reais e ln o logaritmo neperiano (ln e = 1). α, β são
parâmetros desconhecidos e εt o erro aleatório com as respectivas hipóteses
consideradas para o modelo de regressão linear simples. Utilizando o método
dos mínimos quadrados, com base nas observações de 1999 a 2008, obteve-
se para a estimativa de β o valor de 0,12, sabendo-se que:
10
∑Y t = 39,0
t =1
A previsão da receita tributária para 2009, em bilhões de reais, em função da

equação obtida pelo método dos mínimos quadrados é igual a

42

4,58
A) e
B) e4,56
C) e4,44
D) e4,32
E) e4,20
Resolução
Dados: b = βˆ = 0,12 , 1998 + t = 2009∴ t = 11.
Yˆ = a + bt = a + (0,12 × 11) = a +1,32
a = Y − bT
10
∑Y 39,0
t
t =1
Y = = 3,9 =
10 10
1+ 2 + 3 + ...+10
T= = 5,5
10
a = 3,9 − 0,12 × 5,5 = 3,24
Logo,
Yˆ = 3,24 +1,32 = 4,56

ˆ
Yt = ln RT ∴RTestimada = eYt = e 4,56
GABARITO: B
17.6.3 Coeficiente de Determinação
De (43) e (49) resulta que
(50) yˆ i = y − bx + bxi .
Se considerarmos a média y de todos os valores yi e tomarmos as diferenças

entre os valores yi e y , teremos
n n n
∑ ( yˆ i − y )2 = ∑ (y − bx + bx i − y ) 2 = b2 ∑ (x i − x )2 .
i =1 i =1 i =1
Usando (32) e (33) (fórmulas de S xx e S yy , respectivamente) e (49) (fórmula

do coeficiente b), temos

43

n
Sxy2
(51) ∑ ( yˆ i − y ) = b Sxx = bSxy = S ,
2 2
i =1 xx
em que a soma de quadrados ∑ ( yˆ i − y ) 2 é calculada com base nos desvios da

i =1
reta de mínimos quadrados em relação à horizontal y , como ilustrado pela
abaixo.
Considerando as diferenças residuais, podemos escrever

n n n
∑ (y i − yˆ i )2 = ∑ (y i − y + bx − bx i ) 2 = ∑ [(y i − y ) − b(x i − x )] =
2
i =1 i =1 i =1
= ∑ [(y i − y ) 2 − 2b(y i − y )(x i − x ) + b 2 (x i − x ) 2 ].

i =1
Distribuindo o somatório acima e usando (49) (fórmula de a), chega-se à

expressão
n
(52) ∑ (y i − yˆ i ) 2 = Syy − bSxy .

i =1

44

n
Substituindo (51) e ∑ (y i − y ) 2 = Syy em (52), obtemos

i =1
n n n
(53) ∑ (y i − y )2 = ∑ (y i −yˆ i )2 + ∑ ( yˆ i −y ) 2 .
i =1 i =1 i =1
É usual escrever (53) usando a notação
(54) SQT = SQE + SQR,
em que
• SQT = Syy = ∑ (y i − y ) 2 é a soma dos quadrados total (variação total),

i =1
n
• SQE = ∑ (y i −yˆ i ) 2 é a soma dos quadrados dos erros (variação

i =1
residual) e
n
• SQR = ∑ ( yˆ i −y ) 2 é a soma dos quadrados da regressão (variação

i =1
explicada).
⇒ variação total = variação residual +variação explicada
A soma de quadrados SQT mede a variação total de Y independentemente

de X, a soma de quadrados SQE mede a variação residual e a soma de
quadrados SQR mede o desvio da reta de mínimos quadrados em relação à
média y (é a variação “explicada” pela reta de regressão).
Dividindo ambos os membros da equação (54) por SQT, temos
SQE SQR
(55) 1 = +
SQT SQT
Podemos querer saber quanto representa proporcionalmente a parcela da

variação total de Y que é explicada pela reta de regressão, ou seja, quanto
vale a razão SQR/SQT. Utilizando (51), podemos escrever
SQR bS xy
(56) = .
SQT S yy
S xy
Substituindo b = em (56) obtemos
S xx

45

SQR Sxy Sxy S xy2
(57) = × = = R2
SQT Sxx Syy Sxx Syy
ou
SQE
(58) R2 = 1 − .
SQT
A fórmula (57) mostra que o coeficiente R2 de uma regressão linear simples

exprime a porcentagem da variação total de Y (SQT) que é explicada
pela reta de regressão ajustada. Essa grandeza é chamada coeficiente de
determinação (1-R2 é o coeficiente de indeterminação). O R2 quantifica o
grau de ajuste de um conjunto de dados à reta de regressão estimada.
Quanto mais próximo de 1 estiver R2 melhor terá sido nosso trabalho para
explicar a variação em y, com yˆ = a + bx , e maior será a capacidade de
previsão de nosso modelo sobre todas as observações amostrais.
Observe que o coeficiente de determinação é igual ao quadrado do

coeficiente de correlação linear de Pearson R. Logo, 0 ≤ R2 ≤ 1 (R2 é um
adimensional).
No caso de ajuste perfeito, temos R2 = 1, e não há variação residual, pois

todos os pontos estão alinhados. Para R = ±0,7, teremos um coeficiente de
determinação igual a 0,49, significando que a reta de regressão não consegue
explicar nem mesmo a metade da variação de Y. Para |R| ≥ 0,9, a reta de
regressão explicará mais de 80% da variação total de Y. Observe que R2 ≤ 1.
Já caiu em prova! (APOFP-SP/2009/ESAF) Uma amostra aleatória simples

(X1,Y1), (X2,Y2), ..., (Xn,Yn) de duas variáveis aleatórias X e Y forneceu as
seguintes quantidades:
11 11 11
∑ (X i − X ) 2 = 414 ∑ (Yi − Y )2 = 359 ∑ (X i − X )Yi = 345

i =1 i =1 i =1
Calcule o valor mais próximo do coeficiente de determinação da regressão

linear de Y em X.
A) 0,85
B) 0,83
C) 0,80
D) 0,88
E) 0,92

46

Resolução
Vimos que
2
SQR S
R =2
= xy
SQT S xx S yy
Temos que
11
∑ (X i − X ) 2 = 414 = Sxx
i =1
11
∑ (Y − Y ) i
2
= 359 = Syy
i =1
11 11
11 11 11 11 11 11 ∑ X ∑Y i i
345 = ∑ ( X i − X )Yi = ∑ X iYi − ∑ XYi =∑ X iYi − X ∑Yi =∑ X iYi − i =1 i =1
=S XY
i =1 i =1 i =1 i =1 i =1 i =1 11
Logo,
345 × 345
R2 = ∴ R 2 ≈ 0,80
414 × 359
O valor mais próximo é 0,80 (C).
GABARITO: C
Já caiu em prova! (ICMS-SP/2006/FCC) Em um determinado país, deseja-

se determinar a relação entre a renda disponível (Y), em bilhões de dólares, e
o consumo (C), também em bilhões de dólares. Foi utilizado o modelo linear
simples Ci = α + βYi + εi, em que Ci é o consumo no ano i, Yi é o valor da
renda disponível no ano i e εi o erro aleatório com as respectivas hipóteses
para a regressão linear simples. α e β são parâmetros desconhecidos, cujas
estimativas foram obtidas através do método dos mínimos quadrados. Para
obtenção desta relação considerou-se ainda as seguintes informações colhidas
através da observação nos últimos 10 anos:
10 10 10
S1 = ∑ Ci = 90 S2 = ∑Yi = 100 S3 = ∑YiCi = 1.100

i =1 i =1 i =1
10 10
S4 = ∑Yi2 = 1.250 S5 = ∑ Ci2 = 1.010

i =1 i =1

47

Para o cálculo do coeficiente de correlação de Pearson (R), usou-se a fórmula:
Cov (Y , C )
R= em que Cov (Y , C ) é a covariância de Y e C, DP(Y) é o desvio-
DP (Y ) DP (C )
padrão de Y e DP(C) é o desvio-padrão de C.
Então,
A) o coeficiente de explicação (R2) correspondente é igual a 64%.

B) utilizando a equação da reta obtida pelo método dos mínimos quadrados,
tem-se que, em um ano, caso a renda disponível seja igual a 15 bilhões de
dólares, o consumo será igual a 13 bilhões de dólares.
C) obtendo para um determinado ano uma previsão para o consumo de 10
bilhões de dólares, significa que a renda disponível considerada foi de 12,5
bilhões de dólares.
D) o valor da estimativa encontrado para o parâmetro β é igual a 0,4.
E) o valor da estimativa encontrado para o parâmetro α é igual a 10.
Resolução
Atenção: a variável independente é Y (renda disponível) e a

dependente é C (consumo).
Seja um conjunto de n pares ordenados (y1,c1), (y2,c2), ..., (yn,cn) das

variáveis Y e C. Vimos que
n
∑(y i − y )(c i − c )
i =1
Cov (Y , C ) n Syc
R= = = .
DP (Y ) DP (C ) 1 n n
Syy Scc
n
∑(y i − y) 2
∑ (c i − c) 2
i =1 i =1
Essa quantidade é denominada coeficiente de correlação quando Y e C são

tratadas como variáveis aleatórias. O quadrado da mesma quantidade é
chamado coeficiente de determinação. No contexto da regressão linear
simples, uma das variáveis é considerada determinística ou não estocástica
(na questão, a variável independente ou explicativa é Y) e a outra (a variável
dependente C) é considerada aleatória.
O problema da regressão consiste em determinar a relação funcional entre as

variáveis dependente e explicativa.
A função de regressão Cˆ = a + by nos dá o valor médio de uma das variáveis

( Ĉ ) em função do valor observado da outra ( y ), isto é, E[C|y] = Ĉ .

48

Análise das alternativas:
∑ y ×∑c 90 × 100
A) Syc = ∑i y ic i−
i i
i i
= 1.100 − = 200
n 10
(∑ y ) = 1.250 − 100
2
2
Syy = ∑ y i2 −
i i
= 250
i n 10
( ) = 1.010 − 90
2
∑ ci 2
Scc = ∑ c i2 −
i
= 200
n i 10
2
S 200 2
R2 =
yc
= = 0,8 ≠ 0,64 ⇒ FALSA
S yy Scc 250 × 200
S yc
B) b = βˆ = = 200 / 250 = 0,8
S yy
90 100
a = αˆ = c − by = − 0,8 × = 9 −8 =1
10 10
Logo,
Cˆ = 1 + 0,8 y ∴ Cˆ = 1 + 0,8 × 15 = 1 + 12 = 13 (em bilhões de dólares) ⇒ VERDADEIRA
C) FALSA (vide item B).

D) FALSA (vide item B).
E) FALSA (vide item B).
GABARITO: B
17.7 Momentos e Função Geratriz de Momentos
17.7.1 Momentos de Uma Variável Aleatória
Apresentamos, na Aula 14, os momentos que caracterizam uma distribuição de

freqüências. Naquela aula, o contexto era o da Estatística Descritiva. Nesta
aula, veremos os momentos que caracterizam a distribuição de probabilidades
de uma dada variável aleatória.
O r-ésimo momento de uma variável aleatória X em torno da sua média µ,

também denominado r-ésimo momento central, é definido como
(59) µ r = E[( X − µ ) r ]
em que r = 0,1,2,... . Segue-se que µ0 = 1 , µ1 = 0 e µ 2 = σ 2 (variância). Temos

49

(60) µr = ∑ ( x − µ) r f ( x ) para variável discreta,
∞
(61) µr = ∫ ( x − µ) r
f ( x ) dx para variável contínua.
−∞
O r-ésimo momento de X em torno da origem, também denominado r-ésimo

momento ordinário, é definido como
(62) ξ r = E( X r )
em que r = 0,1,2,... . Temos então
(63) ξr = ∑ x r f ( x ) para variável discreta,
∞
(64) ξr = ∫x r
−∞
Note que o primeiro momento em torno da origem é apenas a média, ou seja,

ξ1 = E ( X ) = µ . Além disso, uma vez que o segundo momento em torno da
origem é ξ 2 = E ( X 2 ) , tem-se que
(65) σ 2 = E ( X 2 ) − [ E ( X )]2 = ξ2 − µ 2 .
Os momentos ordinários de uma variável aleatória podem ser determinados

diretamente, por meio de (63) e (64). Não obstante, há um procedimento
alternativo, frequentemente útil, que faz uso de uma função especial, que será
vista no próximo item.
17.7.2 Função Geratriz de Momentos
A função geratriz (ou geradora) de momentos da variável aleatória X é o

valor esperado de etX: E(etX) = MX(t). Temos
(66) M X ( t ) = ∑ e tx f ( x ) para variável discreta,
∞
(67) M X (t) = ∫e tx
−∞
A função geratriz de momentos pode ser usada para obter todos os momentos
ordinários de uma variável aleatória:
Seja X uma variável aleatória com função geratriz de momento MX(t). Então

50

r
d M X (t )
(68) E(X r ) =
dt r t = 0
Exemplo. Suponha que X seja uma variável aleatória com distribuição

binomial
n
f ( x) =   p x (1 − p ) n− x , x = 0,1,2,..., n .
 x
em que n denota o número de tentativas e p representa a probabilidade de

sucesso em uma tentativa. Determine a função geradora de momentos e use a
mesma para verificar que a média e a variância de X são dadas por µ = np e σ2
= np(1-p), respectivamente.
 n x
n n  
n
M X (t) = ∑ e   p (1 − p) =∑ ( pe t ) x (1 − p) n − x =
txn −x
x=0  x x = 0 
x
o último somatório é a expansão binomial (*) de [ pet + (1 − p )]n ; deste modo,
M X (t ) = [ pet + (1 − p)]n .
n
n
(*) O teorema do binômio de Newton afirma que (A+B)n = ∑  x  A B x n− x
.
x =0  
Tomando a primeira e a segunda derivadas (**), obtemos
dM X (t )
= M ´X (t ) = npet [ pet + (1 − p )]n −1 = npet [1 + p (et − 1)]n −1
dt
d 2 M X (t )
2
= M ´´X (t ) = npet [ pet + (1 − p )]n −1 = npet [1 + p (et − 1)]n −1
dt
M ´´X (t ) = npet [ pet + (1 − p )]n −1 + npet (n − 1) pet [ pet + (1 − p )]n − 2
M ´´X (t ) = npet (1 − p + npet )[1 + p (et − 1)]n − 2
(**) Regras de derivação:

• Se f(t) = [v(t)]n, então f´(t) = n[v(t)]n-1v´(t)
• Se f(t) = u(t).v(t), então f´(t) = u´(t).v(t) + u(t).v´(t)
• (et)´ = et
Se fizermos t = 0 em M ´X (t ) obteremos

51

M ´X (t ) = ξ1 = µ = np
t =0
que é a média da distribuição binomial. Se fizermos t = 0 em M ´´X (t ) teremos
M ´´X (t ) = ξ 2 = E ( X 2 ) = np(1 − p + np) .

t =0
Consequentemente, a variância da distribuição binomial é dada por
σ 2 = ξ 2 − µ 2 = np (1 − p + np ) − (np ) 2 = np − np 2 = np (1 − p ) .
Exemplo. Encontre a função geratriz de momentos da variável aleatória

normal e use-a para mostrar que a média e a variância dessa variável aleatória
são µ e σ2, respectivamente.
A função geratriz de momentos é
∞ ( x −µ )2
1 −
M X (t ) = ∫ e e tx 2σ 2
dx
−∞ σ 2π
∞ 2 tσ 2 x ( x 2 − 2 µx + µ 2 )
1 −
M X (t ) = ∫ 2σ 2σ 2
2
e e dx
−∞σ 2π
∞ [ x 2 − 2 ( µ + tσ 2 ) x + µ 2 ]
1 −
M X (t ) = ∫ e 2σ 2
dx
− ∞σ 2π
Completando o quadrado no expoente, teremos
x 2 − 2( µ + tσ 2 ) x + µ 2 = [ x − ( µ + tσ 2 )]2 − 2 µtσ 2 − t 2σ 4
e a função geratriz de momentos pode ser reescrita na forma
∞ {[ x − ( µ + tσ 2 )]2 − 2 µtσ 2 − t 2σ 4 }
1 −
M X (t ) = ∫ e 2σ 2
dx
− ∞σ 2π
σ 2t 2 ∞ [ x − ( µ + tσ 2 )] 2
µt + 1 −
M X (t ) = e 2
∫−∞ σ 2π e 2σ 2
dx
fazendo u = [ x − ( µ + tσ 2 )] / σ ⇒ dx = σdu e a integral acima se torna
σ 2t 2 ∞ 2
µt + 1 − u2
M X (t ) = e 2
−∞
∫ 2π
e du

52

Note que a integral na expressão acima é apenas a área total sob a densidade
normal, a qual, por definição, é igual a 1. Logo,
σ 2t 2
µt +
M X (t ) = e 2
.
Tomando a primeira e a segunda derivadas (*), obtemos
σ 2t 2
µt +
M ( t ) = (µ + σ t )e
'
X
2 2
σ 2t 2 σ 2t 2
2 µt + 2 µt +
+ (µ + σ t ) e
2
M (t) = σ e
''
X
2 2
(*) (ef(t))´ = f(t)éf(t).
Se fizermos t = 0 em M ´X (t ) e M ´´X (t ) , obteremos
M ´X (t ) = ξ1 = µ .
t =0
M ´´X (t ) = ξ2 = σ 2 + µ 2
t =0
Por conseguinte, a variância da distribuição normal é
var( X ) = ξ 2 − µ 2 = σ 2 + µ 2 − µ 2 = σ 2 .
Propriedades das Funções Geratrizes de Momentos
A seguir estão listadas, sem as respectivas demonstrações, algumas

propriedades importantes das funções geradoras de momentos que poderão
ser cobradas na prova.
(1) Unicidade: a função geratriz de momentos de uma variável aleatória é

única quando ela existe; logo, se tivermos duas variáveis aleatórias X e Y
com funções geratrizes de momentos MX(t) e MY(t), respectivamente, então, se
MX(t) = MY(t), isto quer dizer que X e Y tem a mesma distribuição de
probabilidades.
(2) Seja a uma constante e X uma variável aleatória. Então vale
MX+a(t) = eatMX(t).
(3) Seja a uma constante e X uma variável aleatória. É válida a relação

53

MaX(t) =MX(at).
(4) Sejam a e b constantes (b ≠ 0) e X uma variável aleatória. Então
t
M ( X + a ) / b (t ) = e at / b M X   .
b
(5) Se X 1 , X 2 ,..., X n forem variáveis aleatórias independentes, com funções

geradoras de momento M X 1 (t ), M X 2 (t ),..., M X n (t ) , respectivamente, e se
Y = X 1 + X 2 + ... + X n , então a função geratriz de momentos de Y será
M Y (t ) = M X 1 (t ) × M X 2 (t ) × ... × M X n (t ) .
Exemplo. Seja X uma variável aleatória de Poisson com distribuição
e − λ λx
f ( x) = , x = 0,1,2,...
x!
Mostre que a sua função geradora de momentos é M X (t ) = eλ ( e

t
−1)
.
Para resolver este exemplo, é preciso conhecer a série
∞  yn  y
∑ n!  = e .
n =0
Sendo assim
∞ ∞
λx ( λe t ) x − λ ∞ (λe t ) x
M X (t) = ∑ e tx e − λ =∑ e − λ =e ∑ = e − λ e λe = e λ ( e −1) .
t t
x=0 x! x =0 x! x=0 x!
Exemplo. Sejam X1 e X2 variáveis aleatórias independentes com distribuições

de Poisson, com parâmetros λ1 e λ2, respectivamente. Determine a função
geratriz de momentos de Y = X1 + X2.
De acordo com o exemplo anterior, temos que as funções geradoras de X1 e X2

são M X 1 (t ) = eλ1 ( e −1) e M X 2 (t ) = eλ2 ( e −1) , respectivamente. Como X1 e X2 são
t t
independentes e Y = X1 + X2 ⇒ M Y (t ) = M X 1 (t ) × M X 2 (t ) . Logo,
M Y (t ) = M X 1 (t ) × M X 2 (t ) = eλ1 ( e × e λ2 ( e = e( λ1 + λ2 )( e
t t t
−1) −1) −1)
.
Observe que M Y (t ) = e( λ1 + λ 2 )( e −1) é a função geratriz de momentos de uma variável

t
aleatória de Poisson com parâmetro λ = λ1 + λ2. Portanto, demonstramos que

54

a soma de duas variáveis aleatórias independentes de Poisson, com
parâmetros λ1 e λ2, também é uma variável aleatória de Poisson, com
parâmetro λ = λ1 + λ2.
Já caiu em prova! (Analista MPE-PE/Estatística/2006/FCC) Uma

distribuição Gama com parâmetros α (α>-1) e β (β>0) tem função geratriz de
momentos dada por m(t) = (1-βt)-(α+1) para t<1/β. Se α=1, o momento de
ordem dois, não centrado, de X é igual a
A) β2
B) 2β2
C) 4β2
D) 6β2
E) 8β2
Resolução
Lembre que:
M ´´X (t ) = ξ2 = E( X 2 )
t =0
M ´X (t ) = −(α + 1) × (1 − β t ) −α − 2 × (− β ) = β (α + 1)(1 − βt ) −α − 2
M ´´X (t ) = (−α − 2) × β × (α + 1) × (1 − β t ) −α − 3 × (− β ) = β 2 (α + 1)(α + 2)(1 − βt ) −α − 3
Com α=1 ⇒ M ´´X (t ) = β 2 × 2 × 3 × (1 − β 0) −4 = 6β 2 .

t =0
GABARITO: D
17.8 Memorize para a prova
- Variável discreta (X,Y):
⇒ f(x,y)≥0, Σx Σy f(x,y) = 1 e f(x,y) = P(X=x,Y=y)

- Variável contínua (X,Y):
∞ ∞ b d
⇒ f(x,y)≥0, ∫ ∫ f ( x, y)dxdy = 1 e P(a ≤ X ≤ b, c ≤ Y ≤ d ) = ∫ ∫ f ( x, y )dydx .
− ∞− ∞ a c
- Distribuições marginais:

55

∞ ∞
⇒ f X ( x) = ∫ −∞
f ( x, y )dy e f Y ( y ) =
−∞
∫ f ( x, y)dx para variáveis contínuas
⇒ fX (x ) = ∑ f (x , y )
i i k e fY (y ) = ∑ f (x , y ) para variáveis discretas
k i k
k i
- Distribuições condicionais:
a) Variáveis Discretas:
f (x i , y k ) f (x i , y k )
⇒ f X |Y (x i | y k ) = e f Y |X (y k | x i ) =
f Y (y k ) f X (x i )
⇒ f (x i , y k ) = f X |Y (x i | y k ) f Y (y k ) = fY |X (y k | x i ) f X (x i )
n
⇒ E(X |Y = y j ) = ∑ x i P(X = x i |Y = y j )
i=1
k
⇒ E (Y | X = x i ) = ∑ y j P (Y = y j | X = x i )
j =1
b) Variáveis Contínuas:
f ( x, y ) f ( x, y )
⇒ f X |Y ( x | y ) = e f Y |X ( y | x ) =
fY ( y ) f X ( x)
⇒ f (x, y) = f X |Y (x | y) f Y (y) = fY |X (y | x) f X (x)
⇒ E(X | y) = ∫ xf X |Y (x | y)dx
⇒ E(Y | x) = ∫ yf Y |X (y | x)dy
- Variáveis aleatórias X e Y independentes:
⇒ f (x, y) = f X (x) f Y (y)

⇒ f X |Y (x | y) = f X (x)
⇒ f Y |X (y | x) = f Y (y) .
- Covariância: Cov(X,Y ) = E[(X − X )(Y − Y )]
⇒ Cov(X,Y ) = ∑ ∑[x i − X ][y j − Y ] f (x i , y j ) (variáveis discretas)

i j
∞ ∞
⇒ Cov(X,Y ) = ∫ ∫ (x − X )(y − Y ) f (x, y)dxdy (variáveis contínuas)
−∞ −∞
- Covariância amostral (estimador da covariância):

56

n
∑ (x i − x )(y i − y )
i =1
⇒ sxy =
n
Cov(X,Y )
- Correlação: ρ(X,Y ) = , -1≤ρ≤1.
σ XσY
- Correlação amostral (estimador da correlação) ou coeficiente de

correlação linear de Pearson R:
sxy
⇒ R= ou
sx s y
R = cov. amostral/(desvio padrão amostral de X . desvio padrão amostral de Y)
∑ (x i − x )2
i =1
⇒ sx ≈ (desvio padrão amostral de X)
n
n
∑ (y i − y )2
i =1
⇒ sy ≈ (desvio padrão amostral de Y)
n
- Cálculo “maceteado” de R:
Sxy
⇒ R=
Sxx Syy
em que Sxy, Sxx e Syy são as seguintes “somas de quadrados”:
   
∑ x i  ×  ∑ y i 
   i 
⇒ Sxy = ∑ x i y i − i .
i n
 2
∑ x i 
 
⇒ Sxx = ∑ x i − i
2
.
i n
 2
∑ y i 
 
⇒ Syy = ∑ y i − i
2
.
i n
- Se X e Y são variáveis aleatórias independentes, então a covariância e a

correlação entre elas é nula, ou seja, X e Y são não correlacionadas:

57

⇒ Cov( X , Y ) = E[ XY ] − µ X µ Y = 0
⇒ E[ XY ] = XY (a esperança de XY é igual ao produto das médias µX e µY).
- Variáveis aleatórias X e Y e Z = aX + bY, em que a e b denotam constantes:
⇒ E(Z) = aE(X) + bE(Y)

⇒ Var(Z) = a2var(X) + b2var(Y) + 2abCov(X,Y)
⇒ Var(Z) = a2var(X) + b2var(Y), se X e Y são independentes
- Modelo de regressão linear simples:
⇒ Y = α + βX + ε ,
⇒ yˆ = a + bx (reta estimativa),
em que ŷ denota os valores dados pela reta estimativa, a é a estimativa
do parâmetro α, e b é a estimativa do parâmetro β.
S xy s xy
⇒ b= = 2
= cov.amostral/(desvio padrão amostral de X)2
S xx s x
⇒ a = y − bx = média de Y menos (declividade x média de X)
⇒ SQT = SQE + SQR
• SQT = Syy = ∑ ( y i − y ) 2 é a soma dos quadrados total (variação total),

i =1
n
• SQE = ∑ ( y i −yˆ i ) 2 é a soma dos quadrados dos erros (variação

i =1
residual) e
n
• SQR = ∑ ( yˆ i −y ) 2 é a soma dos quadrados da regressão (variação

i =1
explicada).
⇒ variação total = variação residual +variação explicada

SQE S xy2
⇒ Coeficiente de determinação: R 2 = 1 − =
SQT S xx S yy
- r-ésimo momento ordinário de X:
⇒ ξ r = E ( X r ) , em que r = 0,1,2,....
⇒ ξ r = ∑ x r f (x) para variável discreta
58

∞
⇒ ξr = ∫x
r
f ( x)dx para variável contínua
−∞
- função geratriz (ou geradora) de momentos, MX(t) = E(etX):
⇒ M X (t ) = ∑ etx f ( x) para variável discreta

∞
⇒ M X (t ) = ∫ etx f ( x)dx para variável contínua
−∞
d r M X (t )
⇒ E( X ) = r
dt r t =0
17.9 Exercícios de Fixação
1. (ICMS-RJ/2007/FGV) A probabilidade de um candidato acertar esta

questão de múltipla escolha, (Y = 1), é função da proficiência em matemática,
θ, do candidato e pode ser calculada por meio de:
e −0,5+ 0, 2θ
P (Y = 1 | θ ) = ,
1 + e − 0,5+0, 2θ
sendo θ um número real que representa a medida de proficiência em

matemática do candidato. Pode-se, então, afirmar que:
A) a cada acréscimo de uma unidade na medida θ de proficiência matemática,

a probabilidade de o candidato acertar a questão aumenta em 20%.
B) a probabilidade de acertar a questão (Y=1) é maior do que a probabilidade
de errar a questão (Y=0), para todos os candidatos com θ > 0.
C) essa função de probabilidade tem máximo em θ =0.
D) candidatos com θ = 2,5 de proficiência têm probabilidade 0,5 de acertar a
questão.
E) a razão entre a probabilidade de acertar e a de errar é uma função linear
em θ, e expressa por -0,5 + 0,2θ.
2. (ICMS-RJ/2008/FGV) Sejam X e Y duas variáveis aleatórias quaisquer.

Então:
A) VAR(X-Y) = VAR(X) – VAR(Y)

B) VAR(X-Y) = VAR(X) + VAR(Y) – COV(X,Y)
C) VAR(X-Y) = VAR(X) + VAR(Y) – 2COV(X,Y)
D) VAR(X-Y) = VAR(X) + VAR(Y) + COV(X,Y)
E) VAR(X-Y) = VAR(X) + VAR(Y) + 2COV(X,Y)

59

3. (Analista Técnico da SUSEP/2006/ESAF) Sendo X uma v. a. d. –
variável aleatória discreta e sendo Y = aX + b, pode concluir-se que var (aX +
b) é igual a:
A) = var X.
B) = E(X2) – (EX)2.
C) = E(X – E(X))2.
D) = a2 var X.
E) = a2 var X – b.
4. (AFRF/2005/ESAF) Para uma amostra de dez casais residentes em um

mesmo bairro, registram-se os seguintes salários mensais (em salários
mínimos):
Identificação do casal 1 2 3 4 5 6 7 8 9 10
Salário do marido (Y) 30 25 18 15 20 20 21 20 25 27
Salário da esposa (X) 20 25 12 10 10 20 18 15 18 13
Sabe-se que:
10 10 10
∑Yi = 221 ∑Yi2 = 5069 ∑X Y i i = 3940

i =1 i =1 i =1
10 10
∑X i = 171 ∑X 2
i = 3171
i =1 i =1
Assinale a opção cujo valor corresponda à correlação entre os salários dos

homens e os salários das mulheres.
A) 0,72
B) 0,75
C) 0,68
D) 0,81
E) 0,78
5. (Analista do BACEN/Área 3/2006/FCC) Sejam X e Y duas variáveis

aleatórias e
I. E(X) e E(Y) as expectâncias de X e Y, respectivamente;

II. Var(X) e Var(Y) as variâncias de X e Y, respectivamente;
III. Cov(X,Y) a covariância de X e Y.

60

Tem-se, em qualquer situação,
A) E(X).E(Y) = E(XY) – Cov(X,Y)

B) Cov(X,Y) = Var(X).Var(Y)
C) E(2X+5) = 4E(X)
D) Se E(XY)=E(X).E(Y), então X e Y são independentes.
E) Var(X+10) = Var(X)+10
6. (AFRF/2009/ESAF) Na análise de regressão linear simples, as estimativas

αˆ e βˆ dos parâmetros α e β da reta de regressão podem ser obtidas pelo
método de Mínimos Quadrados.
Nesse caso, os valores dessas estimativas são obtidos através de uma amostra
de n pares de valores Xi Yi com (i =1, 2, ....,n), obtendo-se:
Yˆ i= αˆ + βˆX i , onde Yˆ i é a estimativa de Yi = α + βXi. Para cada par de valores Xi
Yi com (i =1, 2, ...,n) pode-se estabelecer o desvio ou resíduo − aqui denotado
por ei − entre a reta de regressão Yi e sua estimativa Yˆ i . Sabe-se que o
Método de Mínimos Quadrados consiste em adotar como estimativas dos
parâmetros α e β os valores que minimizam a soma dos quadrados dos desvios
ei.
Desse modo, o Método de Mínimos Quadrados consiste em minimizar a
expressão dada por:
A) ∑[Y − (αˆ − βˆ X )]
i i
2
i =1
n
B) ∑[Y − αˆ − βˆ X ]
i i
2
i =1
n
C) ∑[Y − (α − βX )]
i i
2
i =1
n
D) ∑[Y i
2
− Yî 2 ]
i =1
n
E) ∑[Y i
2
− (α − βX i ) 2 ]
i =1
O enunciado a seguir refere-se às questões de números 7 e 8.
A função densidade de probabilidade conjunta de duas variáveis aleatórias

discretas é dada pela tabela a seguir:
Y
1 3 9
2 1/8 1/24 1/12

61

X 4 1/4 1/4 0
6 1/8 1/24 1/12
7. A covariância entre X e Y é
A) 1
B) 3
C) 4
D) 12
E) 0
8. Assinale a alternativa correta.
A) X e Y não são independentes.

B) X e Y são independentes.
C) X e Y são correlacionadas.
D) X e Y têm distribuição conjuntamente normal.
E) X e Y têm distribuições marginais normais.
Considere as variáveis aleatórias independentes X 1 , X 2 ,..., X n . Suponha que

essas n variáveis possuam a mesma distribuição de probabilidades com média
µ e variância σ 2 . Seja
1 n
X= ∑X .
n i =1 i
9. Podemos afirmar que o valor esperado de X é igual a
A) µ / σ 2
B) σ 2
C) µ
D) σ 2 / µ.
E) 0
10. Podemos afirmar que a variância de X é
A) µ / σ 2

62

B) σ / n
2
C) nσ 2
D) σ 2 / µ
E) 0
11. (Analista do BACEN/Área 3/2006/FCC) Uma empresa, com a

finalidade de determinar a relação entre os gastos anuais com propaganda (X),
em R$ 1 000,00, e o lucro bruto anual (Y), em R$1.000,00, optou por utilizar o
modelo linear simples Yi = α + βX i + ε i , em que Yi é o valor do lucro bruto
auferido no ano i, X i é o valor gasto com propaganda no ano i e ε i o erro
aleatório com as respectivas hipóteses consideradas para a regressão linear
simples ( α e β são parâmetros desconhecidos).
Considerou, para o estudo, as seguintes informações referentes às

observações nos últimos 10 anos da empresa:
10 10 10
∑Yi = 100 ∑ X i = 60 ∑X Y i i = 650

i =1 i =1 i =1
10 10
∑X 2
i
= 400 ∑Y 2
i
= 1.080
i =1 i =1
Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-
se que, caso haja um gasto anual com propaganda de 80 mil reais, a previsão
do lucro bruto anual, em mil reais, será de
A) 84
B) 102,5
C) 121
D) 128,4
E) 158
12. (INÉDITA) Considere os dados da questão 11. O coeficiente de correlação

é de
A) 0
B) 2,5
C) 1,25
D) 0,88
E) 0,63

63

13. (ICMS-RJ/2008/FGV) Sejam X, Y e Z três variáveis com correlações de
Pearson expressas pela matriz abaixo:
X Y Z
X 1,000
Y 0,800 1,000
Z 0,000 -0,500 1,000
Pode-se, então, afirmar que:
A) X e Z são independentes.
B) a correlação parcial entre X e Y, após a correção para Z, é negativa.
C) o coeficiente de determinação da regressão de Y em X é maior do que 60%.
D) a correlação entre V = a + b.X e W = c + d.Z, com a ≠ 0, c ≠ 0, b>0 e d<0
é negativa.
E) a covariância entre X e Y é igual a 0,64.
14. (ICMS-RJ/2009/FGV) Utilizando uma análise de regressão linear

simples, um pesquisador obteve um ajuste Y = a1X + b1 e um coeficiente de
determinação R12 . Um segundo pesquisador analisou os mesmos dados, mas
antes aplicou a cada observação de Y a transformação Y´ = 10Y + 100, obtendo
um outro ajuste Y´ = a2X + b2, com um coeficiente de determinação R22 . Considere
as afirmativas abaixo, relativas à comparação entre os valores obtidos nas
duas análises:
I. a2 = 10a1 ;
II. b2 = b1 + 100;
III. R22 = R12 .
Assinale:
A) se somente a afirmativa I for verdadeira.

B) se somente as afirmativas I e II forem verdadeiras.
C) se somente as afirmativas I e III forem verdadeiras.
D) se somente as afirmativas II e II forem verdadeiras.
E) se todas as afirmativas forem verdadeiras.
15. Seja a função densidade de probabilidade f ( x) = 2 x para 0 ≤ x ≤ 1 e f ( x) = 0

para os demais valores de x. Suponha que X1 e X2 sejam variáveis aleatórias
independentes, cada uma delas com a função densidade de probabilidade f(x).
Então podemos afirmar que a função densidade de probabilidade conjunta
f(x1,x2) é

64

A) f ( x1 , x 2 ) = 4 x1 x 2 .
B) f ( x1 , x2 ) = x1 x2 / 4 para 0 ≤ x1 ≤ 1 e 0 ≤ x2 ≤ 1 , e f ( x1 , x2 ) = 0 caso contrário.
C) f ( x1 , x2 ) = x1 x2 para 0 ≤ x1 ≤ 1 e 0 ≤ x2 ≤ 1 , e f ( x1 , x2 ) = 0 caso contrário.
D) f ( x1 , x 2 ) = 4 x1 x 2 para 0 ≤ x1 ≤ 1 e 0 ≤ x2 ≤ 1 , e f ( x1 , x2 ) = 0 caso contrário.
E) f ( x1 , x2 ) = 4 x1 / x2 para 0 ≤ x1 ≤ 1 e 0 ≤ x2 ≤ 1 , e f ( x1 , x2 ) = 0 caso contrário
16. (IBGE/ESTATÍSTICA/2010/CESGRANRIO) Seja X uma variável

aleatória com função geratriz de momentos
e −2t
M X (t ) = et + , − ∞ < t < ∞.
4
O valor esperado e a variância de X são, respectivamente,
A) 1/4 e 3/2
B) 1/4 e 1/2
C) 1/2 e 7/4
D) 1/2 e 3/2
E) 1/2 e 2
17. (Fiscal de Rendas do Município do RJ/2010/ESAF) A partir de uma

amostra aleatória simples formada por 22 observações das variáveis X e Y
calculou-se
22 22 22
∑X i = 22 ∑Y i = 286 ∑ (X i − X ) 2 = 850 ,
i =1 i =1 i =1
22 22
∑ (Y − Y )i
2
= 1.690 ∑ (X i − X )(Yi − Y ) = 1.105
i =1 i =1
Obtenha a reta de regressão linear de Y em X.
A) Yî = 13 + 0,65X i
B) Yˆ = 13 +1,3X
i i
C) Yî = 20 + 0,65X i
D) Yˆ = 20 + 2X
i i
E) Yî = −13 +1,3X i
18. (Fiscal de Rendas do Município do RJ/2010/ESAF) Com os dados da

questão anterior, calcule o valor mais próximo do coeÞciente de determinação
R2 da regressão linear de X em Y.

65

A) 0,65
B) 0,81
C) 0,85
D) 0,91
E) 0,88
(AFTM-SP/2007/FCC/Adaptada) Instruções: para responder à próxima

questão, utilize, dentre as informações abaixo, as que julgar adequadas. Se Ζ
tem distribuição normal padrão, então:
P(0< Ζ < 1) = 0,341, P(0< Ζ < 1,6) = 0,445, P(0< Ζ < 2) = 0,477
19. Os depósitos efetuados no Banco B, num determinado mês, têm

distribuição normal com média R$ 9.000,00 e desvio padrão R$ 1.500,00. Um
depósito é selecionado ao acaso dentre todos os referentes ao mês em
questão. A probabilidade de que o depósito exceda R$ 6.000,00 é de
A) 97,7%
B) 94,5%
C) 68,2%
D) 47,7%
E) 34,1%
20. (AFTE-RS/2009/Fundatec) Seja X uma variável aleatória contínua, com

função densidade de probabilidade dada por f(x) = 1 + cx, se -1 ≤ x ≤ 0, f(x) =
1 – cx, se 0 ≤ x ≤ 1, f(x) = 0 se x < -1 ou se x > 1. O valor da média de X é
A) 0,5
B) 0
C) 2/3
D) 1
E) 1/3
21. (AFTE-RS/2009/Fundatec) Seja Z uma variável aleatória contínua

normalmente distribuída com média zero e desvio padrão um. Seja
P(Z < −1) = 0,1587 e P(Z > 2) = 0,0228 . Seja X uma variável aleatória contínua
normalmente distribuída com média 200 e desvio padrão 20, então
P(180<X<240), é:
A) 0,9772
B) 0,8413
C) 0,3413

66

D) 0,8185
E) 0,4772
17.10 Gabarito
1–D
2–C
3–D
4–B
5–A
6–B
7–E
8–A
9–C
10 – B
11 – B
12 – D
13 – C
14 – C
15 – D
16 – C
17 – E
18 – C
19 – A
20 – B
21 – D
17.11 Resolução dos Exercícios de Fixação
1. (ICMS-RJ/2007/FGV) A probabilidade de um candidato acertar esta

questão de múltipla escolha, (Y = 1), é função da proficiência em matemática,
θ, do candidato e pode ser calculada por meio de:
e −0,5+0, 2θ
P (Y = 1 | θ ) = ,
1 + e −0,5+0, 2θ
sendo θ um número real que representa a medida de proficiência em

matemática do candidato. Pode-se, então, afirmar que:
A) a cada acréscimo de uma unidade na medida θ de proficiência matemática,

a probabilidade de o candidato acertar a questão aumenta em 20%.
B) a probabilidade de acertar a questão (Y=1) é maior do que a probabilidade
de errar a questão (Y=0), para todos os candidatos com θ > 0.
C) essa função de probabilidade tem máximo em θ =0.
D) candidatos com θ = 2,5 de proficiência têm probabilidade 0,5 de acertar a
questão.
67

E) a razão entre a probabilidade de acertar e a de errar é uma função linear
em θ, e expressa por -0,5 + 0,2θ.
Resolução
Análise da alternativas
(A) “a cada acréscimo de uma unidade na medida θ de proficiência

matemática, a probabilidade de o candidato acertar a questão aumenta em
20%.”
A probabilidade de um candidato acertar esta questão de múltipla escolha, (Y

= 1), é função da proficiência em matemática, θ, do candidato, e é dada por:
e −0,5+0, 2θ
P (Y = 1 | θ ) = .
1 + e − 0,5+ 0, 2θ
Então, P(Y=1|θ) denota a probabilidade de que Y = 1 para um dado θ. A

probabilidade P(Y=1|θ) NÃO representa que, a cada acréscimo de uma
unidade na medida θ de proficiência matemática, a probabilidade de o
candidato acertar a questão aumenta em 20%. Ademais, a função P(Y=1|θ)
não é linear. Logo a alternativa é INCORRETA.
(B) “a probabilidade de acertar a questão (Y=1) é maior do que a

probabilidade de errar a questão (Y=0), para todos os candidatos com θ > 0.”
Seja
 e −0,5 + 0,2θ 
 P(Y = 1 | θ )   
W = ln  1+ e −0,5 + 0,2θ  = ln(e −0,5 + 0,2θ ) = −0,5 + 0,2θ
 = ln  −0,5 + 0,2θ
 P(Y = 0 | θ )  1 − e 
 1+ e −0,5 + 0,2θ 
em que W denota o logaritmo neperiano da razão entre a probabilidade do

candidato acertar esta questão e a de não acertar. Observe que W é uma
função linear em X, expressa por -0,5 + 0,2θ, isto é, W = -0,5 + 0,2θ. A
função W = 0 para θ = 2,50 (é a raiz da equação -0,5 + 0,2θ = 0). Isto quer
dizer que
 P (Y = 1 / θ = 2,5)  P (Y = 1 / θ = 2,5)
ln   =0⇒ = e0 = 1
 P (Y = 0 / θ = 2,5)  P (Y = 0 / θ = 2,5)
⇒ P (Y = 1 / θ = 2,5) = P (Y = 0 / θ = 2,5) ⇒ i) a probabilidade do candidato acertar esta

questão (Y=1) é igual a probabilidade do candidato não acertar esta questão
(Y=0), se a proficiência em matemática do candidato é θ=2,5; ii) a
probabilidade do candidato acertar esta questão (Y=1) é menor do que a
68

probabilidade do candidato não acertar esta questão (Y=0), se a proficiência
em matemática do candidato é θ<2,5 e iii) a probabilidade do candidato
acertar esta questão (Y=1) é maior do que a probabilidade do candidato não
acertar esta questão (Y=0), se a proficiência em matemática do candidato é
θ>2,5. Portanto, esta alternativa é INCORRETA.
(C) “essa função de probabilidade tem máximo em θ =0.”
O gráfico da função
e −0,5+ 0, 2θ
P (Y = 1 | θ ) =
1 + e −0,5+0, 2θ
tem o seguinte comportamento assintótico: P (Y = 1 / θ ) → 1 para θ → ∞ e

P (Y = 1 / θ ) → 0 para θ → −∞ . Portanto, não há um máximo da função quando
θ = 0 ⇒ afirmação INCORRETA.
(D) “candidatos com θ = 2,5 de proficiência têm probabilidade 0,5 de acertar a

questão.”
e −0,5 + 0, 2× 2,5 e0 1
P(Y=1|θ=2,5) = − 0 , 5 + 0 , 2× 2 , 5
= = = 0,5 ⇒ afirmação CORRETA
1+ e 1+ e 0
1+1
(E) “a razão entre a probabilidade de acertar e a de errar é uma função linear

em θ, e expressa por -0,5 + 0,2θ.”
É o logaritmo neperiano da razão entre a probabilidade de acertar e a de

errar que é uma função linear em θ, expressa por -0,5 + 0,2θ ⇒ afirmação
INCORRETA.
GABARITO: D
2. (ICMS-RJ/2008/FGV) Sejam X e Y duas variáveis aleatórias quaisquer.

Então:
A) VAR(X-Y) = VAR(X) – VAR(Y)

B) VAR(X-Y) = VAR(X) + VAR(Y) – COV(X,Y)
C) VAR(X-Y) = VAR(X) + VAR(Y) – 2COV(X,Y)
D) VAR(X-Y) = VAR(X) + VAR(Y) + COV(X,Y)
E) VAR(X-Y) = VAR(X) + VAR(Y) + 2COV(X,Y)
Resolução
Sejam a e b constantes. Então

69

VAR(aX + bY) = a2VAR(X) + b2VAR(Y) + 2abCOV(X,Y).
Nesta questão, a =1 e b = -1. Logo,
VAR(X-Y) = VAR(X) + VAR(Y) – 2COV(X,Y).
GABARITO: C
3. (Analista Técnico da SUSEP/2006/ESAF) Sendo X uma v. a. d. –

variável aleatória discreta e sendo Y = aX + b, pode concluir-se que var (aX +
b) é igual a:
A) = var X.
B) = E(X2) – (EX)2.
C) = E(X – E(X))2.
D) = a2 var X.
E) = a2 var X – b.
Resolução
Var(cX) = c2 Var(X), sendo c = constante

Var(X + a) = Var (X), sendo a = constante.
Var(aX + b) = a2 Var(X)
GABARITO: D
4. (AFRF/2005/ESAF) Para uma amostra de dez casais residentes em um

mesmo bairro, registram-se os seguintes salários mensais (em salários
mínimos):
Identificação do casal 1 2 3 4 5 6 7 8 9 10
Salário do marido (Y) 30 25 18 15 20 20 21 20 25 27
Salário da esposa (X) 20 25 12 10 10 20 18 15 18 13
Sabe-se que:
10 10 10
∑Yi = 221 ∑Yi2 = 5069 ∑X Y i i = 3940

i =1 i =1 i =1
10 10
∑X i = 171 ∑X 2
i = 3171
i =1 i =1
Assinale a opção cujo valor corresponda à correlação entre os salários dos

homens e os salários das mulheres.
70

A) 0,72
B) 0,75
C) 0,68
D) 0,81
E) 0,78
Resolução
   
∑ x i  × ∑ y i 
   i  171 × 221
Sxy = ∑ x i y i − i = 3940 − = 160,9
i n 10
 2
∑ x i 
 i  1712
Sxx = ∑ x i −
2
= 3171 − = 246,90
i n 10
 2
∑ y i 
 i  2212
Syy = ∑ y i −
2
= 5069 − = 184,90
i n 10
Logo,
Sxy 160,9
R= = ≈ 0,75
S xx Syy 246,9 × 184,9
GABARITO: B
5. (Analista do BACEN/Área 3/2006/FCC) Sejam X e Y duas variáveis

aleatórias e
IV. E(X) e E(Y) as expectâncias de X e Y, respectivamente;

V. Var(X) e Var(Y) as variâncias de X e Y, respectivamente;
VI. Cov(X,Y) a covariância de X e Y.
Tem-se, em qualquer situação,
A) E(X).E(Y) = E(XY) – Cov(X,Y)

B) Cov(X,Y) = Var(X).Var(Y)
C) E(2X+5) = 4E(X)
D) Se E(XY)=E(X).E(Y), então X e Y são independentes.
E) Var(X+10) = Var(X)+10

71

Resolução
Aprendemos que
Cov ( X , Y ) = E[( X − X )(Y − Y )] = E[ XY ] − XY

em que X = E[X ] e Y = E[Y ] . Portanto, a alternativa correta é a (A).
A alternativa (B) está errada porque não está de acordo com a definição de
covariância.
A alternativa (C) não é verdadeira, pois E(2X+5) = 2E(X) + 5.
A alternativa (D) é incorreta porque E(XY)=E(X).E(Y) (variáveis X e Y não

correlacionadas) não implica independência (mas a recíproca é verdadeira, ou
seja, independência implica a não correlação).
A alternativa (E) é falsa porque Var(X+10) = Var(X).
GABARITO: A
6. (AFRF/2009/ESAF) Na análise de regressão linear simples, as estimativas

αˆ e βˆ dos parâmetros α e β da reta de regressão podem ser obtidas pelo
método de Mínimos Quadrados.
Nesse caso, os valores dessas estimativas são obtidos através de uma amostra
de n pares de valores Xi Yi com (i =1, 2, ....,n), obtendo-se:
Yˆ i= αˆ + βˆX i , onde Yˆ i é a estimativa de Yi = α + βXi. Para cada par de valores Xi
Yi com (i =1, 2, ...,n) pode-se estabelecer o desvio ou resíduo − aqui denotado
por ei − entre a reta de regressão Yi e sua estimativa Yˆ i . Sabe-se que o
Método de Mínimos Quadrados consiste em adotar como estimativas dos
parâmetros α e β os valores que minimizam a soma dos quadrados dos desvios
ei.
Desse modo, o Método de Mínimos Quadrados consiste em minimizar a
expressão dada por:
A) ∑[Y − (αˆ − βˆ X )]
i i
2
i =1
n
B) ∑[Y − αˆ − βˆ X ]
i i
2
i =1
n
C) ∑[Y − (α − βX )]
i i
2
i =1
n
D) ∑[Y i
2
− Yî 2 ]
i =1

72

n
E) ∑[Y i
2
− (α − βX i ) 2 ]
i =1
Resolução
A questão forneceu todas as informações necessárias para a resolução.
Pelo Método dos Mínimos Quadrados temos que minimizar a soma dos
quadrados das diferenças entre os valores de Yi e as respectivas estimativas
Yˆ i , por meio da reta de regressão. Logo teríamos:
n n n
∑[ ] =∑ [ ] [ ]
2 2
=∑ Yi − αˆ − βˆ X i
2
Yi − Yî Yi − (αˆ + βˆ X i )
i =1 i =1 i =1
Logo alternativa correta é a “B”. O gabarito oficial preliminar indicou a

alternativa “A”, mas está errado.
GABARITO: B
A função densidade de probabilidade conjunta de duas variáveis aleatórias

discretas é dada pela tabela a seguir:
Y
1 3 9
2 1/8 1/24 1/12
X 4 1/4 1/4 0
6 1/8 1/24 1/12
7. A covariância entre X e Y é
A) 1
B) 3
C) 4
D) 12
E) 0
Resolução
A covariância entre as variáveis aleatórias discretas X e Y é dada pela

expressão

73

Cov ( X , Y ) = ∑∑ [ xi − X ][ y j − Y ] f ( xi , y j ) .
i j
Antes, é preciso calcular os valores das médias X = E[ X ] e Y = E[Y ] .
X = E[ X ] = ∑ xi g X ( xi ) , em que gX(x) é a função de probabilidade marginal de X,

i
dada por
g X ( xi ) = ∑ f ( xi , y j ) . Logo
j
1 1 1 1 1 1 1
g X ( x = 2) = g X ( x = 6) = + + = e g X ( x = 4) = + + 0 = .
8 24 12 4 4 4 2
1 1 1
E[ X ] = X = 2 × + 4 × + 6 × = 4
4 2 4
E[Y ] = ∑ yhY ( y j ) , em que hY(y) é a função de probabilidade marginal de Y, dada

j
por
hY ( y j ) = ∑ f ( xi , y j ) . Logo
i
1 1 1 1 1 1 1 1 1 1 1
hY ( y = 1) = + + = , hY ( y = 3) = + + = e hY ( y = 9) = + 0 + = .
8 4 8 2 24 4 24 3 12 12 6
1 1 1
E[Y ] = Y = 1× + 3 × + 9 × = 3
2 3 6
Agora já podemos calcular a covariância, pois temos os valores de X e Y .

Sendo assim,
Cov ( X ,Y ) = ∑ ∑[ x i − X ][ y j − Y ] f ( x i , y j ) =
i j
= (2 − 4) × (1 − 3) × 1 / 8 + (2 − 4) × (3 − 3) × 1 / 24 + (2 − 4) × (9 − 3) × 1 / 12 +
+ (4 − 4) × (1 − 3) ×1 / 4 + (4 − 4) × (3 − 3) × 1 / 4 + (4 − 4) × (9 − 3) × 0 +
+ (6 − 4) × (1 − 3) × 1 / 8 + (6 − 4) × (3 − 3) × 1 / 24 + (6 − 4) × (9 − 3) × 1 / 12 =
Cov ( X , Y ) = 1 / 2 + 0 − 1 + 0 + 0 + 0 − 1 / 2 + 0 + 1 = 0
Logo, X e Y são variáveis não correlacionadas.
Você também chegaria ao mesmo resultado se usasse a fórmula equivalente

74

Cov ( X , Y ) = E[ XY ] − XY
Confirme você mesmo que E[ XY ] = 12 . Portanto,
Cov ( X , Y ) = 12 − 4 × 3 = 0
GABARITO: E
8. Assinale a alternativa correta.
A) X e Y não são independentes.

B) X e Y são independentes.
C) X e Y são correlacionadas.
D) X e Y têm distribuição conjuntamente normal.
E) X e Y têm distribuições marginais normais.
Resolução
(A) Se X e Y são independentes, deve valer
f ( xi , y j ) = g X ( xi ) × hY ( y j ) para quaisquer valores de X e Y.
Entretanto, observe que
1 1 1 1
f XY (2,3) = ≠ g X (2) × hY (3) = × =
24 4 3 12
Logo, X e Y não são independentes, apesar de serem não correlacionadas

⇒ alternativa CORRETA.
(B) Alternativa INCORRETA, haja vista o explicado acima.
(C) Alternativa INCORRETA, pois X e Y são não correlacionadas.
(D) Nada se pode afirmar sobre a distribuição conjunta de X e Y ⇒ alternativa

INCORRETA.
(E) Nada se pode afirmar sobre as distribuições marginais de X e Y ⇒

alternativa INCORRETA.
GABARITO: A

75

Considere as variáveis aleatórias independentes X 1 , X 2 ,..., X n . Suponha que

essas n variáveis possuam a mesma distribuição de probabilidades com média
µ e variância σ 2 . Seja
1 n
X= ∑X .
n i =1 i
9. Podemos afirmar que o valor esperado de X é igual a
A) µ / σ 2
B) σ 2
C) µ
D) σ 2 / µ.
E) 0
Resolução
1  1
E[X ] = E  (X1 + X 2 + ...+ X n ) = (E[X1 ] + E[X 2 ] + ...+ E[X n ])
n  n
1 nµ
= (µ + µ + ...+ µ) = =µ
n n
GABARITO: C
10. Podemos afirmar que a variância de X é
A) µ / σ 2
B) σ 2 / n
C) nσ 2
D) σ 2 / µ
E) 0
Resolução
1  1 σ2
n  n
( n
1 2
)
var (X ) = var (X1 + X 2 + ...+ X n ) = 2 var (X1 )+ var (X 2 )+ ...+ var (X n ) = 2 nσ =
n
Observação: os resultados obtidos nas questões 09 e 10 são conseqüência da

Lei (fraca) dos Grandes Números. Por exemplo, assuma que você tenha
registrado o conjunto de observações {x 1 , x 2 ,..., x n } de uma variável aleatória X
76

com média µ (desconhecida) e variância σ 2 (também desconhecida). Suponha
que n seja um número suficientemente grande. Então a média µ pode ser
estimada pela média amostral
1 n
x= ∑ x ≈ µ.
n i =1 i
1 n
As questões 09 e 10 mostram que o estimador X = ∑ X é não viesado
n i =1 i
( E [ X ] = µ ) e consistente ( var( X ) → 0 para n →∞ ). Essas são duas qualidades
desejadas para qualquer estimador (este assunto será visto com detalhes em
aula posterior).
GABARITO: B
11. (Analista do BACEN/Área 3/2006/FCC) Uma empresa, com a

finalidade de determinar a relação entre os gastos anuais com propaganda (X),
em R$ 1 000,00, e o lucro bruto anual (Y), em R$1.000,00, optou por utilizar o
modelo linear simples Yi = α + βX i + ε i , em que Yi é o valor do lucro bruto
auferido no ano i, X i é o valor gasto com propaganda no ano i e ε i o erro
aleatório com as respectivas hipóteses consideradas para a regressão linear
simples ( α e β são parâmetros desconhecidos).
Considerou, para o estudo, as seguintes informações referentes às

observações nos últimos 10 anos da empresa:
10 10 10
∑Y i = 100 ∑X i = 60 ∑X Y i i = 650
i =1 i =1 i =1
10 10
∑ X 2i = 400 ∑Y 2
i
= 1.080
i =1 i =1
Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-
se que, caso haja um gasto anual com propaganda de 80 mil reais, a previsão
do lucro bruto anual, em mil reais, será de
A) 84
B) 102,5
C) 121
D) 128,4
E) 158
Resolução

77

   
∑ x i  ×  ∑ y i 
   i 
Sxy = ∑ x i y i − i ,
i n
 2
∑ x i 
 
Sxx = ∑ x i − i
2
i n
 S
 b = xy
 Sxx
 a = y − bx
Fazendo os cálculos, temos que
60 × 100
Sxy = 650 − = 50
10
60 2
Sxx = 400 − = 40
10
Logo,
 50
 b= = 1,25
 40
 a = y − bx = 100 −1,25 × 60 = 10 − 7,5 = 2,5
 10 10
A equação da reta de mínimos quadrados é
yˆ = 2,5 +1,25x .
Substituindo o valor x = 80 na equação acima obtemos
yˆ = 2,5 +1,25 × 80 = 2,5 +100 = 102,5 .
GABARITO: B
12. (INÉDITA) Considere os dados da questão 11. O coeficiente de correlação

é de
A) 0
B) 2,5
C) 1,25
D) 0,88
78

E) 0,63
Resolução
Sxy
R=
Sxx Syy
 2
∑ y i 
 i  100 2
Syy = ∑ y i −
2
= 1.080 − = 80
i n 10
50
R= ≈ 0,88
40 × 80
GABARITO: D
13. (ICMS-RJ/2008/FGV) Sejam X, Y e Z três variáveis com correlações de

Pearson expressas pela matriz abaixo:
X Y Z
X 1,000
Y 0,800 1,000
Z 0,000 -0,500 1,000
Pode-se, então, afirmar que:
A) X e Z são independentes.
B) a correlação parcial entre X e Y, após a correção para Z, é negativa.
C) o coeficiente de determinação da regressão de Y em X é maior do que 60%.
D) a correlação entre V = a + b.X e W = c + d.Z, com a ≠ 0, c ≠ 0, b>0 e d<0
é negativa.
E) a covariância entre X e Y é igual a 0,64.
Resolução
(A) “X e Z são independentes.”
A tabela indica que X e Z são não correlacionadas, pois RXZ = 0. Contudo, a

não correlação não implica independência ⇒ alternativa INCORRETA.
(B) “a correlação parcial entre X e Y, após a correção para Z, é negativa.”

79

A tabela indica que a correlação ente X e Y é igual a 0,8 (positiva) ⇒
alternativa INCORRETA.
(C) “o coeficiente de determinação da regressão de Y em X é maior do que

60%.”
A tabela indica que a correlação ente X e Y é R = 0,8. Logo o coeficiente de

determinação é R2 = 0,82 = 0,64 = 64% (maior do que 60%) ⇒ alternativa
CORRETA.
(D) “a correlação entre V = a + b.X e W = c + d.Z, com a ≠ 0, c ≠ 0, b>0 e

d<0 é negativa.”
Note que V e W são funções lineares de X e Z, respectivamente. Se a

correlação entre X e Z é nula, então a correlação entre V e W também é nula
⇒ alternativa INCORRETA.
(E) “a covariância entre X e Y é igual a 0,64.”
Aprendemos que R = sxy /( sx s y ) , em que sxy é a covariância amostral entre X e Y,

sx denota o desvio-padrão amostral de X e sy denota o desvio-padrão amostral
de Y. Como não foram dados os valores de sx e de sy, nada se pode afirmar
sobre o valor da covariância entre X e Y ⇒ alternativa INCORRETA.
GABARITO: C
14. (ICMS-RJ/2009/FGV) Utilizando uma análise de regressão linear

simples, um pesquisador obteve um ajuste Y = a1X + b1 e um coeficiente de
determinação R12 . Um segundo pesquisador analisou os mesmos dados, mas
antes aplicou a cada observação de Y a transformação Y´ = 10Y + 100, obtendo
um outro ajuste Y´ = a2X + b2, com um coeficiente de determinação R22 . Considere
as afirmativas abaixo, relativas à comparação entre os valores obtidos nas
duas análises:
I. a2 = 10a1 ;
II. b2 = b1 + 100;
III. R22 = R12 .
Assinale:
A) se somente a afirmativa I for verdadeira.

B) se somente as afirmativas I e II forem verdadeiras.
C) se somente as afirmativas I e III forem verdadeiras.
D) se somente as afirmativas II e II forem verdadeiras.
80

E) se todas as afirmativas forem verdadeiras.
Resolução
Y = a1 X + b1 ⇒ Y ' = 10Y +100 = 10(a1 X + b1 ) +100 = (10a1)X + (10b1 +100) = a2 X + b2
Logo, a2 = 10a1 e b2 = 10b1 + 100 .
Análise das afirmativas:
(I) VERDADEIRA, pois a2 = 10a1 , conforme demonstrado acima.
(II) FALSA, dado que b2 = 10b1 + 100 .
(III) Aprendemos que
Syy = ∑ ( y i − y ) 2 =∑ ( y i − yˆ ) 2 +∑ ( yˆ i − y ) 2
em que a primeira soma de quadrados ( S yy ) mede a variação total de Y

independentemente de X, a segunda soma de quadrados mede a variação
residual e a terceira mede o desvio da reta de mínimos quadrados em relação
à média y (é a variação “explicada” pela reta de regressão). É usual escrever
a equação acima na forma
SQT = SQE + SQR
em que
• SQT = S yy é a soma dos quadrados total (variação total),

• SQE = ∑ ( y i − yˆ ) 2 é a soma dos quadrados dos erros (variação residual)
e
• SQR = ∑ ( y i − y ) 2 é a soma dos quadrados da regressão (variação
explicada).
Podemos escrever que
SQR ∑ ( yˆ i − y )
2
= = R2 .
SQT ∑ (y i − y ) 2
A fórmula acima mostra que o coeficiente R2 de uma regressão linear simples

do tipo Y = aX + b exprime a proporção da variação total de Y (SQT) que é
“explicada” pela reta de mínimos quadrados. A grandeza R2 é chamada
de coeficiente de determinação (e 1 - R2 de coeficiente de

81

indeterminação) porque os seus valores indicam o quanto a reta de
regressão fica bem determinada em função da correlação (linear) entre os
pontos experimentais, dizendo respeito, portanto, à qualidade da regressão.
Assim, no caso ideal de R2 = 1, não haveria variação residual, e todos os

pontos estariam alinhados. Por outro lado, para R = ±0,7, teremos um
coeficiente de determinação igual a 0,49, significando que a reta de regressão
não consegue explicar nem mesmo a metade da variação de Y. Por isto, para -
0,7 < R < 0,7, não se deve, em geral, considerar a reta de mínimos
quadrados. Para |R| ≥ 0,9, a reta de regressão explicará mais de 80% da
variação total de Y, sendo neste caso bastante útil. Observe que R2 ≤ 1.
A assertiva (III) afirma que R22 = R12 . Ela é VERDADEIRA, uma vez que a
transformação linear Y´ = 10Y + 100 não altera a qualidade da regressão original Y
= a 1X + b 1.
GABARITO: C
15. Seja a função densidade de probabilidade f ( x) = 2 x para 0 ≤ x ≤ 1 e f ( x) = 0

para os demais valores de x. Suponha que X1 e X2 sejam variáveis aleatórias
independentes, cada uma delas com a função densidade de probabilidade f(x).
Então podemos afirmar que a função densidade de probabilidade conjunta
f(x1,x2) é
A) f ( x1 , x 2 ) = 4 x1 x 2 .
B) f ( x1 , x2 ) = x1 x2 / 4 para 0 ≤ x1 ≤ 1 e 0 ≤ x2 ≤ 1 , e f ( x1 , x2 ) = 0 caso contrário.
C) f ( x1 , x2 ) = x1 x2 para 0 ≤ x1 ≤ 1 e 0 ≤ x2 ≤ 1 , e f ( x1 , x2 ) = 0 caso contrário.
D) f ( x1 , x 2 ) = 4 x1 x 2 para 0 ≤ x1 ≤ 1 e 0 ≤ x2 ≤ 1 , e f ( x1 , x2 ) = 0 caso contrário.
E) f ( x1 , x2 ) = 4 x1 / x2 para 0 ≤ x1 ≤ 1 e 0 ≤ x2 ≤ 1 , e f ( x1 , x2 ) = 0 caso contrário
Resolução
Como x1 e x2 são independentes temos que f ( x1 , x2 ) = f ( x1 ) × f ( x2 ) . Sabemos

que para i= 1,2:
f ( xi ) = 2 xi para 0 ≤ xi ≤ 1 e f ( xi ) = 0 para os demais valores de xi.
Logo,
f ( x1 , x 2 ) = 4 x1 x 2 para 0 ≤ x1 ≤ 1 e 0 ≤ x2 ≤ 1 , e f ( x1 , x2 ) = 0 caso contrário.
GABARITO: D

82

16. (IBGE/ESTATÍSTICA/2010/CESGRANRIO) Seja X uma variável
aleatória com função geratriz de momentos
e −2t
M X (t ) = et + , − ∞ < t < ∞.
4
O valor esperado e a variância de X são, respectivamente,
A) 1/4 e 3/2
B) 1/4 e 1/2
C) 1/2 e 7/4
D) 1/2 e 3/2
E) 1/2 e 2
Resolução
Lembre que:
M ´X (t ) = ξ1 = µ , M ´´X (t ) = ξ2 = E( X 2 ) e
t =0 t =0
σ 2 = E ( X 2 ) − µ 2 = M ´´X (t ) t = 0 − [ M ´X (t ) t = 0 ]2
 e −2t  e −2t e0 1
M ´X (t ) = et +  × −2  = e t − ⇒ M ´X (t ) = e0 − = = µ
t =0
 4  2 2 2
⇒ valor esperado de X = 1/2
 e −2t 
M (t ) = e − 
´´
X × −2 = et + e − 2t ⇒ M ´´X (t ) = e0 + e0 = 2 = E ( X 2 )
t
t =0
 2 
2
1 1 7
σ = M (t ) − [ M (t ) ] = 2 −   = 2 − = .
2 ´´
X
´
X
2
t =0 t =0
2 4 4
⇒ variância de X = 7/4
GABARITO: C
17. (Fiscal de Rendas do Município do RJ/2010/ESAF) A partir de uma

amostra aleatória simples formada por 22 observações das variáveis X e Y
calculou-se
22 22 22
∑ X i = 22 ∑Yi = 286 ∑ (X i − X ) 2 = 850 ,

i =1 i =1 i =1

83

22 22
∑ (Y − Y )i
2
= 1.690 ∑ (X i − X )(Yi − Y ) = 1.105
i =1 i =1
Obtenha a reta de regressão linear de Y em X.
A) Yî = 13 + 0,65X i
B) Yˆ = 13 +1,3X
i i
C) Yî = 20 + 0,65X i
D) Yî = 20 + 2X i
E) Yˆ = −13 +1,3X
i i
Resolução
Modelo de regressão linear simples:
⇒ Y = α + βX + ε ,
⇒ Yˆ = a + bX (reta estimativa),
em que Yˆ denota os valores dados pela reta estimativa, a é a estimativa do
parâmetro α, e b é a estimativa do parâmetro β.
S xy s xy
⇒ b= = 2
= cov.amostral/(desvio padrão amostral de X)2
S xx s x
⇒ a = y − bx = média de Y menos (declividade x média de X)
Dados:
1 22 1.105
- cov. amostral = sxy = ∑
n i =1
(X i − X )(Yi − Y ) =
n
1 22 850
- (desvio padrão amostral de X)2 = sx2 = ∑
n i =1
(X i − X ) 2 =
n
1 22 286
- média de Y = Y = ∑Yi = = 13
n i =1 22
1 22 440
- média de X = X = ∑ X i = = 20
n i =1 22
Logo,

84

1.105
sxy 1.105 n 1.105
b= 2 = n = × = = 1,3
sx 850 n 850 850
n
a = y − bx = 13 −1,3 × 20 = 13 − 26 = −13
Reta estimativa: Yˆ = a + bX i = −13 +1,3X i (opção E).
GABARITO: E
18. (Fiscal de Rendas do Município do RJ/2010/ESAF) Com os dados da

questão anterior, calcule o valor mais próximo do coeÞciente de determinação
R2 da regressão linear de X em Y.
A) 0,65
B) 0,81
C) 0,85
D) 0,91
E) 0,88
Resolução
Nunca podemos esquecer os conceitos fundamentais. Lembre que a

correlação entre as variáveis aleatórias X e Y, denotada por ρ(X,Y), é dada
por:
Cov ( X , Y )
ρ ( X ,Y ) = = covariância/(desvio padrão de X . desvio padrão de Y)
σ XσY
O módulo da correlação sempre é menor ou igual a 1: -1 ≤ ρ(X,Y) ≤ 1.
A correlação amostral ou coeficiente de correlação linear de Pearson

(R) é o estimador da correlação ρ(X,Y), sendo dada por:
R = cov. amostral/(desv. padrão amostral de X . desv. padrão amostral de Y)
ou
22 22
1 1
sxy
∑ (X − X )(Yi − Y )
n i =1 i
∑ (X − X )(Yi − Y )
n i =1 i
R= = =
sx sy 1
22
1
22
1
22 22
∑ (X − X ) 2 ×
n i =1 i
∑ (Y − Y )2
n i =1 i n
× ∑ (X i − X )2 × ∑ (Y − Y )
i
2
i =1 i =1

85

22
∑ (X i − X )(Yi − Y )
1.105 1.105
i =1
R= = = = 0,92
22 22
850 × 1.690 29,15 × 41,11
∑ (X i − X) ×
2
∑ (Y − Y )
i
2
i =1 i =1
R 2 = 0,92 2 = 0,85.
NOTA: não confunda correlação amostral R com correlação ρ(X,Y)! A primeira

é uma estimativa da segunda. A correlação é um momento estatístico. Só
conseguimos calcular a correlação ρ(X,Y) quando conhecemos a distribuição
conjunta de probabilidade de X e Y, ou seja, quando sabemos quem é a função
f(X,Y).
GABARITO: C
(AFTM-SP/2007/FCC/Adaptada) Instruções: para responder à próxima

questão, utilize, dentre as informações abaixo, as que julgar adequadas. Se Ζ
tem distribuição normal padrão, então:
P(0< Ζ < 1) = 0,341, P(0< Ζ < 1,6) = 0,445, P(0< Ζ < 2) = 0,477
19. Os depósitos efetuados no Banco B, num determinado mês, têm

distribuição normal com média R$ 9.000,00 e desvio padrão R$ 1.500,00. Um
depósito é selecionado ao acaso dentre todos os referentes ao mês em
questão. A probabilidade de que o depósito exceda R$ 6.000,00 é de
A) 97,7%
B) 94,5%
C) 68,2%
D) 47,7%
E) 34,1%
Resolução
Dados: X é uma variável aleatória normal com µ = 9.000 e σ = 1.500.
Normal padrão:
Z = (X – µ)/σ = (6.000 – 9.000)/1.500 = -2,0
P(Z > -2,0) = P(Z < 2,0) = 0,5 + P(0,0 < Z < 2,0) = 0,5 + 0,477 = 0,977 =
97,7%
GABARITO: A

86

20. (AFTE-RS/2009/Fundatec) Seja X uma variável aleatória contínua, com
função densidade de probabilidade dada por f(x) = 1 + cx, se -1 ≤ x ≤ 0, f(x) =
1 – cx, se 0 ≤ x ≤ 1, f(x) = 0 se x < -1 ou se x > 1. O valor da média de X é
A) 0,5
B) 0
C) 2/3
D) 1
E) 1/3
Resolução
O gráfico da figura acima ilustra a forma da função densidade de probabilidade

de X, denotada por f(x). Como f(x) é simétrica em relação a zero, temos
que a média de X é zero (opção B). Repare que resolvemos a questão sem
fazer nenhuma conta! Bastou saber esboçar o gráfico de f(x).
Por completeza, calculemos o valor da constante “c”. Sabemos que a área sob
f(x) é unitária. Então,
2 x (área do triângulo retângulo delimitado por 0<x<1/c) = 1
2 x (base x altura)/2 = 1
base x altura = 1
(1/c) x 1 = 1 ⇒ c = 1.
A figura a seguir mostra o gráfico de f(x).

87

GABARITO: B
21. (AFTE-RS/2009/Fundatec) Seja Z uma variável aleatória contínua

normalmente distribuída com média zero e desvio padrão um. Seja
P(Z < −1) = 0,1587 e P(Z > 2) = 0,0228 . Seja X uma variável aleatória contínua
normalmente distribuída com média 200 e desvio padrão 20, então
P(180<X<240), é:
A) 0,9772
B) 0,8413
C) 0,3413
D) 0,8185
E) 0,4772
Resolução
Dados: X1 = 180, X2 = 240, P(Z < −1) = 0,1587 e P(Z > 2) = 0,0228 .
Z1 = (180 – 200)/20 = -1
Z2 = (240 – 200)/20 = 2
Pede-se P(180<X<240) = P(-1<Z<2).
P(-1<Z<2) = P(-1<Z<0) + P(0<Z<2)
Mas P(-1<Z<0) = 0,5 – P(Z<-1) e P(0<Z<2) = 0,5 – P(Z>2). Logo,
P(-1<Z<2) = 0,5 – P(Z<-1) + 0,5 – P(Z>2) = 0,5 – 0,1587 + 0,5 – 0,0228 =

0,8185 (opção D).
GABARITO: D
Até a próxima aula. Bom estudo!

88

Alexandre e Moraes Jr.

89

Aula 17

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 17

Enviado por

Direitos autorais:

Formatos disponíveis

N u b i a A l v e s d e O l i v e i r a , C P F : 7 1 3 5 9 2 2 2 2 0 0

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados

17. Variável Aleatória Bivariada, Correlação, Regressão e Função Geratriz de

Profs. Alexandre Lima e Moraes Junior 1

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados

Antes de começarmos a exposição dos tópicos previstos para aula de hoje,

Re-examinando os Conceitos de Box Plot e Coeficiente de

Diagrama de Caixa (pág. 29 da Aula 14)

Um diagrama de caixa ou box plot ou “caixa-de-bigodes” é um retângulo

Profs. Alexandre Lima e Moraes Junior

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados

Coeficiente de Assimetria (pág. 33 da Aula 14)

O momento centrado de terceira ordem pode ser usado como medida da

Profs. Alexandre Lima e Moraes Junior

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados

17.1 Funções de Probabilidade Conjunta

Na aula anterior, estudamos as distribuições de probabilidade para uma única

Exemplo. Considere o lançamento simultâneo de duas moedas não viciadas.

P[X=0] = P[CC] + P[CK] + P[KC] = 1/4 + 1/4 + 1/4 = 3/4,

P[X=1] = P[KK] = 1/4 = 1 - P[X=0],

P[Y=-1] = P[CK] + P[KC] = 1/2 e

P[Y=+1] = P[CC] + P[KK] = 1/2 = 1 - P[Y=-1].

Considere o evento resultante da interseção dos eventos obter pelo menos

Os demais eventos conjuntos são: (X=0,Y=-1), (X=1,Y=+1) e (X=1,Y=-1).

Exemplo. A variável aleatória contínua X representa o comprimento de uma

Profs. Alexandre Lima e Moraes Junior

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados

Sejam X e Y variáveis aleatórias discretas, como no primeiro exemplo da

Exemplo. Um total de 15.064.859 alunos estão matriculados no ensino

4 anos 2 anos Menos de 2 anos

Nessa população, as probabilidades aproximadas de matrícula em um dos tipos

4 anos 2 anos Menos de 2 anos

Considere o experimento de extrair aleatoriamente um estudante matriculado

Seja f(x,y) a função discreta de probabilidade conjunta da população de

f ( x = 0, y = 1) = 0,27 = P(homens matriculados em cursos de 4 anos)

Profs. Alexandre Lima e Moraes Junior

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados

é a probabilidade do evento certo.

Já caiu em prova! (Analista da SUSEP/Atuária/2001/ESAF) Uma loja

P(N1=N2) = f(N1=0;N2=0) + f(N1=1;N2=1) + f(N1=2;N2=2) + f(N1=3;N2=3) =

Sejam X e Y duas variáveis aleatórias contínuas. Neste caso, a distribuição

Profs. Alexandre Lima e Moraes Junior

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados

A equação (6) dá a probabilidade do par (x,y) estar num retângulo de lados b-

Exemplo. Seja f(x,y) = 4xy, 0 ≤ x ≤ 1, 0 ≤ y ≤ 1. Então

∫ ∫ 4 xydxdy = 4 ∫ xdx ∫ ydy = 4[x /2] [y /2]

e a probabilidade P(X ≤ 1/2, Y ≤ 1/2) é dada por

∫ ∫ 4 xydxdy = 4 ∫ xdx ∫ ydy = 4[x /2] [y /2]

Exemplo. Suponha que a variável aleatória (X,Y) esteja uniformemente

Profs. Alexandre Lima e Moraes Junior

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados

Então f(x,y) = K para 0≤x≤1 e 0≤y≤1 (K é uma constante) e f(x,y) = 0 caso

17.2 Funções de Probabilidade Marginal

Dada uma função densidade de probabilidade conjunta, pode-se obter a função

Profs. Alexandre Lima e Moraes Junior

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados

Note que as funções de densidade de probabilidade marginal fX(x) e fY(y)

Exemplo. Seja a função densidade conjunta de X e Y dada por

f(x,y) = e-x-y, x>0, y>0.

∫ e −x −y dx =e −y ∫ e − x dx =e −y [−e −x ]0 = e −y [−e −∞ + e 0 ] = e −y [0 +1] = e −y , para y>0.

Podemos obter resultados similares para variáveis aleatórias discretas. Dada a

Exemplo. Considere o terceiro exemplo do item anterior, cuja tabela está

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados