Escolar Documentos
Profissional Documentos
Cultura Documentos
Notas de
Probabilidades e Estatı́stica
Departamento de Matemática
FCTUC
2023 – 2024
Versão em construção
Grande parte dos exercı́cios presentes nestes textos de apoio foram recolhidos de folhas
práticas e de outros textos de apoio elaboradas ao longo dos anos pelos docentes do grupo
de Probabilidades e Estatı́stica do Departamento de Matemática da FCTUC. Em especial,
agradeço à Professora Esmeralda Gonçalves e à Professora Cristina Martins os conteúdos dis-
ponibilizados recentemente.
♣♦♠♥
Então
a estatı́stica é a arte de tirar conclusões
a partir de um conjunto de dados!!
Conteúdo
1
2 Conteúdo
Capı́tulo 1
Wembley, 1986. Manchester United e Benfica disputam a final da Taça dos Campeões
Europeus. A minutos do fim, com resultado 1-1, um passe longo lança Eusébeio. O Pantera
Negra corre como um felino entre dois defesas, domina a bola à entrada da área e mal a
pisa remata em potência com o pé esquerdo. Uma bomba. Parecia golo certo, mas a bola
teimosamente deixou-se abraçar pelas mãos e pelo corpo do guarda-redes Alexander Stepney.
Alı́vio para uns. Desespero para outros – o Benfica via esfumar-se uma oportunidade de ouro
para conquistar o troféu. Para Eusébio, o protagonista, apenas surpresa e reconhecimento. Não
ergueu as mãos ao céu, nem maldisse a sua sorte. Limitou-se a cumprimentar o adversário pelo
que acabara de fazer, primeiro com uma festa na cabeça, depois de braço esticado à procura
de um aperto de mão que nunca aconteceu. (...) A diferença esteve na grandeza humana de
Eusébio. O seu gesto é um hino ao desporto, uma ode ao respeito, uma lição de vida.
De um modo geral, a teoria das probabilidades tem por objectivo encontrar modelos mate-
máticos que descrevam certos fenómenos naturais em que se supõe intervir o acaso, isto é,
fenómenos para os quais não é possı́vel, a partir do passado, prever deterministicamente o
futuro. A estes fenómenos chamamos fenómenos aleatórios.
Neste contexto surge também a noção de experiência aleatória que aqui definimos como
um processo ou conjunto de circunstâncias sujeitos a factores casuais capaz de produzir efeitos
observáveis mas incertos.
3
4 Capı́tulo 1. Teoria das Probabilidades
#A
P (A) = .
#Ω
1.1. Diferentes conceitos de Probabilidade 5
Suponhamos agora que lançamos uma moeda equilibrada com as faces representadas por C
e K. Sendo a moeda equilibrada, sabemos que P (C) = P (K) = 1/2. No entanto se lançarmos
a moeda um número reduzido de vezes, a frequência relativa de C dificilmente será igual a 1/2.
Mas, sabemos também que se prolongarmos a realização da experiência “indefinidamente”, a
frequência relativa de C vai estabilizando em torno de 1/2. Este exemplo, aqui apresentado
com um ponto de vista meramente académico, motiva uma outra definição de probabilidade
que assenta essencialmente na regularidade estatı́stica associada a certos fenómenos aleatórios
e que permite definir a probabilidade como limite de uma frequência relativa.
Devemos observar que, mesmo realizando um número grande de vezes a experiência aleatória,
a atribuição de probabilidade a um acontecimento que advém da definição frequencista não é
mais do que tomar a frequência relativa desse acontecimento como aproximação da sua verda-
deira probabilidade.
Perante a indecisão de saber qual das duas definições deveremos usar e em que circunstâncias,
coloca-se a questão de saber se não se poderá definir a probabilidade de uma forma unificadora
e que, portanto, abranja as duas anteriores. Ora, a resposta a esta questão é dada pela de-
finição de probabilidade que se deve a um trabalho publicado em 1933 pelo matemático russo
Kolmogorov. Antes porém há que apresentar a definição de tribo sobre Ω.
6 Capı́tulo 1. Teoria das Probabilidades
i) P (Ω) = 1
ii) Para qualquer sucessão de acontecimentos A1 , A2 , ..., An , ..., dois a dois incompatı́veis,
+∞
[ +∞
X
tem-se P ( Ai ) = P (Ai ).
i=1 i=1
1. P (∅) = 0.
P (A ∪ B) = P (A ∩ B) + P (A ∩ B) + P (A ∩ B)
= P (A) − P (A ∩ B) + P (B) − P (A ∩ B) + P (A ∩ B)
Exercı́cio 1.1.1. Um atirador efectua três disparos consecutivos sobre o mesmo alvo. Um
disparo é considerado bem sucedido se o projéctil atinge o alvo e mal sucedido no caso contrário.
Considere a experiência aleatória que consiste em observar os resultados dos sucessivos dispa-
ros.
D, B ∪ D, B ∩ C, B ∪ D, D\B, B ∩ D, A ∪ B ∪ D, A ∩ B ∩ C.
Exercı́cio 1.1.3. Uma roleta tem 20 sectores equiprováveis numerados de 1 a 20. Roda-se
e regista-se o número em que esta se imobilizou. Considere os acontecimentos : A=“Sai um
número menor ou igual que 10”e B=“Sai um número superior a k”. Sabendo que P (A∪B) = 1
e que P (A ∩ B) = 0.1, determine o valor de k.
8 Capı́tulo 1. Teoria das Probabilidades
Exercı́cio 1.1.8. Uma colecção de 100 programas de computador foi examinada para
detectar erros de “sintaxe”, “input/output”e de “outro tipo”diferente dos anteriores. Desses
100 programas, 20 tinham erros de “sintaxe”, 10 tinham erros de “input/output”e 5 tinham
erros de “outro tipo”, 6 tinham erros de “sintaxe” e de “input/output”, 3 tinham erros de
“sintaxe” e de “outro tipo”, 3 tinham erros de “input/output” e de “outro tipo” e 2 tinham
os três tipos de erros considerados. Um programa é seleccionado ao acaso desta colecção.
Determine a probabilidade de que o programa seleccionado tenha
P (A ∩ B)
P (A|B) = .
P (B)
Observação 1.2.1. Notamos que, para qualquer acontecimento B tal que P (B) 6= 0, a
aplicação P (·|B) ( também denotada por PB (·)) que a um acontecimento A faz corresponder
P (A|B) é uma probabilidade.
Exemplo 1.2.3. Dos três fornecedores de um produto para um armazém (em partes de
30%, 50% e 20% respectivamente) todos fornecem o produto em lotes que por vezes estão em
condições indesejadas (atraso, peso insuficiente, impurezas, falta de especificidade, etc),
sendo a percentagem de lotes em condições indesejadas sobre o total fornecido por cada
um dos fornecedores de 0.7%, 0.5% e 0.4%, respectivamente.
Ao escolher aleatoriamente um lote desse produto e verificado que se encontrava em
condições indesejadas, qual o seu fornecedor mais provável?
Consideremos os acontecimentos A=“ o lote é fornecido pelo fornecedor A”, B=“ o
10 Capı́tulo 1. Teoria das Probabilidades
lote é fornecido pelo fornecedor B”e C=“ o lote é fornecido pelo fornecedor C”e I=“ o lote
é fornecido em condições indevidas”.
Tem-se P (A) = 0.3, P (B) = 0.5, P (C) = 0.2, P (I|A) = 0.007, P (I|B) = 0.005 e
P (I|C) = 0.004.
P (I ∩ A) P (I|A)P (A)
Por outro lado P (A|I) = = onde
P (I) P (I)
0.007 × 0.3
Então P (A|I) = ' 0.389.
0.0054
Também se tem
P (I ∩ B) P (I|B)P (B) 0.005 × 0.50
P (B|I) = = = ' 0.463
P (I) P (I) 0.0054
e
P (C|I) = 1 − P (A|I) − P (B|I) = 1 − 0.389 − 0.463 = 0.148.
Concluı́mos que o fornecedor mais provável é B.
Calculemos também a probabilidade de um determinado lote, escolhido ao acaso, ter
vindo do primeiro fornecedor e se apresentar em condições indesejadas. Esta probabilidade
é P (A ∩ I) = P (A|I)P (I) = 0.389 × 0.0054 ' 0.0021.
Exemplo 1.2.5. Um grupo de alunos por vezes, em vez de ir às aulas, fica na residen-
cial a jogar dois jogos, sendo igualmente provável optarem por um ou por outro. Os jogos
consistem em adivinhar o número de pintas obtidas no lançamento de dados. No primeiro
jogo joga-se apenas com um dado e no segundo com dois dados. Sabendo que o resultado
1.2. Condicionamento e independência estocástica de acontecimentos 11
P (A ∩ B) P (B|A)P (A) 6
P (A|B) = = = .
P (B) P (B|A)P (A) + P (B|A)P (A) 7
Note-se que, na definição anterior, no caso em que A e B têm probabilidade não nula, a
igualdade P (A∩B) = P (A)P (B) é equivalente a P (A|B) = P (A) bem como a P (B|A) = P (B).
Observamos ainda que qualquer acontecimento com probabilidade nula é independente de
qualquer outro do mesmo espaço e que qualquer acontecimento é independente do aconteci-
mento certo e do acontecimento impossı́vel. Mais ainda, dois acontecimentos disjuntos só são
independentes se pelo menos um deles tiver probabilidade nula.
P (A ∩ B) = P (A − B) = P (A) − P (A ∩ B)
Similarmente se prova que A e B são independentes. Por outro lado, também se tem
P (A ∩ B) = P (A ∪ B) = 1 − P (A ∪ B) = 1 − P (A) − P (B) + P (A ∩ B)
Exercı́cio 1.2.1. São efetuados dois lançamentos sucessivos de um dado equilibrado com
as faces numeradas de 1 até 6, registando-se o número da face que fica voltada para cima em
cada lançamento.
Exercı́cio 1.2.2. Sabe-se que existe petróleo numa certa região com probabilidade 0.8 e
que, caso haja petróleo, a probabilidade de sair petróleo na primeira perfuração é de 0.5. Qual
é a probabilidade de sair petróleo na primeira perfuração?
Exercı́cio 1.2.3. Uma empresa produz peças de determinado tipo para o mercado naci-
onal e para exportação, sendo a produção para o mercado nacional metade da que se destina
à exportação. Um controlo de qualidade permitiu afirmar que 5% das peças lançadas no mer-
cado interno apresentam deficiências, sendo essa percentagem de 2% na produção destinada ao
mercado externo. Qual a percentagem de peças defeituosas na produção total da empresa?
1. P(A);
2. a probabilidade de existir água no lote, sabendo que o aparelho indica a existência de água
nesse lote.
2. Sabendo que na 2ª tentativa o rato saiu pela direita, qual a probabilidade de ter saı́do pela
esquerda na 1ª?
Exercı́cio 1.2.7. Para saber se uma porta está aberta, um robot emite um feixe radiante
na sua direcção e mede a intensidade I do feixe reflectido, embora se saiba que I é também
afectada por outros factores. Concretamente, o robot é programado para considerar a porta
aberta quando I < I0 , tendo-se apurado, na fase de treino do robot, que P(I < I0 /Porta
aberta)=0.6 e P(I < I0 /Porta fechada)=0.3. Suponha que, na fase de trabalho autónomo do
robot, este se encontra diante de uma porta e obtém uma medição I inferior a I0 . Sabendo
que a probabilidade de a porta estar aberta é 0.5, determine a probabilidade do robot embater
contra uma porta fechada.
• 70% das chamadas com mais de um minuto foram feitas dentro da mesma rede;
• 40% das chamadas foram feitas para a rede fixa e 20% para outras redes móveis;
• 80% das chamadas que foram feitas para outras redes móveis duraram quando muito um
minuto.
1. Mostre que a probabilidade de essa chamada ter sido feita para a rede fixa e ter durado
mais de um minuto é 0.08.
2. Qual é a probabilidade de a chamada durar mais de um minuto se não tiver sido feita
dentro da mesma rede?
Exercı́cio 1.2.9. Sejam A e B dois acontecimentos do mesmo espaço.
1. Mostre que, se A e B são independentes, então P (A) × P (B) = P (A ∪ B) − P (A).
2. Sabendo que A e B são independentes, P (A) = 1/3 e P (B) = 2/5, determine P (A ∪ B).
Exercı́cio 1.2.10. Sejam A e B acontecimentos com probabilidade não nula. Mostre que
se P (B|A) = P (B|A), então A e B são independentes.
Exercı́cio 1.2.11. Um sistema é constituı́do apenas por duas componentes, C1 e C2 , que
funcionam em paralelo. Admita que as componentes falham independentemente uma da outra
e que a probabilidade de cada componente falhar é 0.05.
1. Determine a probabilidade de o sistema funcionar.
2. Qual é a probabilidade de que apenas uma das componentes funcione?
3. É acrescentada uma componente ao sistema, C3 , à qual se recorre apenas quando nenhu-
ma das componentes C1 e C2 funciona. Sabe-se que quando C1 e C2 não funcionam a
probabilidade de C3 funcionar é 0.2.
A palavra variável é utilizada para enfatizar o facto de se tratar de uma função que tem
como domı́nio o espaço fundamental de uma experiência aleatória.
Refira-se que habitualmente se designa a variável aleatória por letra maiúscula enquanto que
os valores particulares que esta assume são representados pela letra minúscula correspondente.
Se X1 , X2 , ..., Xn são variáveis aleatórias e f é uma função real de n variáveis reais contı́nua,
então f (X1 , X2 , ..., Xn ) é uma variável aleatória. Um caso particular muito importante é o da
variável aleatória
X n : Ω −→ IR
n
1X
ω −→ X n (ω) = Xi (ω)
n
i=1
1. F é crescente.
Prova. Sejam x e y números reais tais que x ≤ y. Basta observar que F (x) = P (X ≤
x) = P (X ∈] − ∞, x]) ≤ P (X ∈] − ∞, y]) = F (y).
2. F é limitada.
Prova. Tratando-se de uma probabilidade tem-se F (x) = P (X ≤ x) ∈ [0, 1], sendo
portanto uma função limitada.
3. F é contı́nua à direita;
Observemos que a variável aleatória que representa o número de clientes que, diariamente,
entram num armazém entre as 9 e as 10 horas e a variável aleatória que representa o tempo
que cada cliente espera até ser atendido são duas variáveis que assumem valores em conjuntos
com caracterı́sticas diferentes. Na verdade, a primeira toma valores num conjunto de números
naturais e a segunda toma valores num intervalo real. Esta diferença condiciona o tipo de
distribuição (ou lei) das variáveis aleatórias, as quais, do ponto de vista das aplicações relevantes
em Estatı́stica, se dividem em discretas e contı́nuas.
Definição 1.3.4. Uma variável aleatória X diz-se discreta (ou que tem distribuição
discreta) se assume valores num conjunto finito ou infinito numerável S, tendo-se portanto
P (X ∈ S) = 1.
Definição 1.3.5. Dada uma variável aleatória real discreta X, chamamos suporte de
X (ou da distribuição de X) ao menor dos conjuntos S que verificam P (X ∈ S) = 1.
Definição 1.3.6. Dada uma variável aleatória real discreta X, damos o nome de
função de probabilidade à aplicação
f : R −→ [0, 1]
x −→ P (X = x)
Para uma variável aleatória discreta de suporte SX = {..., xi , xi+1 , ...}, a função de distri-
buição é dada por X
F (x) ≡ P (X ≤ x) = P (X = xi )
xi ≤x
sendo consequentemente uma função constante em cada intervalo [xi , xi+1 [, apresentando des-
continuidades (saltos) apenas nos pontos do suporte. Podemos mesmo afirmar que o suporte
de uma variável aleatória discreta coincide com o conjunto dos pontos de descontinuidade da
sua função de distribuição. Em conclusão, uma variável aleatória real tem distribuição (ou lei)
discreta se e só se a sua função de distribuição é uma função em escada com um número finito
ou infinito numerável de pontos de descontinuidade.
São exemplos de variáveis aleatórias discretas: o número de caras obtidas ao lançar três
moedas equilibradas ou não, o número de embalagens que é preciso retirar de um lote até
18 Capı́tulo 1. Teoria das Probabilidades
encontrar duas em condições indevidas, o número de falhas mensais de uma máquina, o número
de dias por ano em que a temperatura de determinado local excede um valor previamenmte
fixado, etc.
Exemplo 1.3.1. Seja X a variável aleatória real que representa o número de caras
obtidas ao efectuar dois lançamentos sucessivos de uma moeda equilibrada.
Temos Ω = {(c, c), (c, k), (k, c), (k, k)}, SX = {0, 1, 2} e a função de distribuição é
definida por
0 se x<0
0.25 se 0≤x<1
F (x) = P (X ≤ x) = ,
0.75
se 1≤x<2
1 se x≥2
F
1
0.75
0.25
0 1 2
Do ponto de vista das aplicações estatı́sticas, no conjunto das variáveis contı́nuas interessa-
nos um subconjunto especial que designamos variáveis aleatórias absolutamente contı́nuas ou
variáveis aleatórias com distribuição absolutamente contı́nua. Devemos mesmo afirmar que,
no contexto de tais aplicações e no âmbito em que se insere este texto, as variáveis que são
contı́nuas mas não absolutamente contı́nuas perdem a sua importância teórica.
São exemplos de variáveis aleatórias absolutamente contı́nuas todas as que representam
medidas; nomeadamente a velocidade, o tempo, a temperatura, as medidas de capacidade, o
comprimento e massa (peso), as medidas de áreas e volumes, os preços, os lucros, as resistências,
as tensões, etc.
No sentido de definir variável aleatória absolutamente contı́nua é necessário definir função
densidade.
1.3. Variáveis aleatórias e distribuições 19
Definição 1.3.8. Damos o nome de função densidade sobre R a uma função real de
variável real f que seja não negativa e que verifique
Z +∞
f (t)dt = 1.
−∞
Depois disto definimos uma variável aleatória X como absolutamente contı́nua como se
segue.
Definição 1.3.9. Uma variável aleatória real X diz-se absolutamente contı́nua se existe
uma densidade sobre R tal que a função de distribuição de X se escreve na forma
Z x
F (x) = f (t)dt, x ∈ IR.
−∞
Em consequência desta última propriedade podemos afirmar que, se X for uma variável
aleatória absolutamente contı́nua, a probabilidade de X pertencer ao intervalo [a, b] é a medida
da área limitada inferiormente pela recta de equação y = 0, superiormente pelo gráfico de f e
lateralmente pelas rectas de equação x = a e x = b. Este facto é ilustrado na figura seguinte,
onde a medida da área a tracejado representa a referida probabilidade.
a b
Observação 1.3.1. Uma vez que, no âmbito das aplicações estatı́sticas, as variáveis que
são contı́nuas mas não absolutamente contı́nuas não têm relevância, no que se segue usamos
a designação contı́nua para significar absolutamente contı́nua.
Exemplo 1.3.2. Seja X uma variável aleatória contı́nua com densidade definida pela
expressão analı́tica
20 Capı́tulo 1. Teoria das Probabilidades
0 se x<a
1
f (x) = b−a se a≤x≤b .
0 se x>b
1 F
b−a 1
f
a b a b
Neste caso dizemos que X segue a lei uniforme no intervalo [a, b] e escrevemos
X ∼ U([a, b]).
P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y),
Notamos que no caso em que as variáveis aleatórias X1 , X2 , ..., Xn são discretas, uma
condição necessária e suficiente para que sejam independentes é que se verifique
P (X1 = x1 , X2 = x2 , · · · , Xn = xn ) = P (X1 = x1 )P (X2 = x2 ) · · · P (Xn = xn ),
para x1 ∈ SX1 , x2 ∈ SX2 , · · · , xn ∈ SXn .
todas as contı́nuas e discretas de que dispomos. A tarefa seguinte será a de conhecer os seus
parâmetros desconhecidos, os quais nos permitem especificar caracterı́sticas tão importantes
como a localização e a dispersão dos valores que tal variável assume.
Neste contexto, surgem as noções de média e de variância de uma variável que são particu-
larizações dos momentos simples e centrados de uma variável aleatória, noção com a qual nos
ocupamos de seguida.
Definição 1.3.11.
X
1. Seja X uma variável aleatória real discreta. Se |x|P (X = x) < +∞, então
x∈SX
existe esperança matemática ou média de X que é definida por
X
E(X) = xP (X = x).
x∈SX
Z +∞
2. Seja X uma variável aleatória contı́nua. Se |x|f (x)dx for convergente, então
−∞
existe esperança matemática ou média de X que é dada por
Z +∞
E(X) = xf (x)dx.
−∞
Exemplo 1.3.4. Seja X uma variável aleatória contı́nua com função densidade defi-
nida por
αe−αx se x ≥ 0
f (x) = ,
0 se x < 0
onde α é um número real positivo. Tem-se
Z +∞ Z +∞
|x|f (x) dx = xαe−αx dx.
−∞ 0
22 Capı́tulo 1. Teoria das Probabilidades
i) se P (X ≥ 0) = 1 então E(X) ≥ 0;
v) |E(X)| ≤ E(|X|).
As propriedades ii), iii) e iv) são facilmente generalizáveis a um número finito de variáveis
aleatórias. Concretamente, tem-se
•E(a1 X1 + a2 X2 + ... + an Xn ) = a1 E(X1 ) + a2 E(X2 ) + ... + an E(Xn ), ∀a1 , ..., an ∈ IR;
•se X1 , X2 , ..., Xn são independentes, então E(X1 X2 · · · Xn ) = E(X1 )E(X2 ) · · · E(Xn ).
Apresentamos de seguida a noção de esperança matemática de uma função real de uma
variável aleatória.
1.3. Variáveis aleatórias e distribuições 23
Definição 1.3.12. Seja h : IR −→ IR uma função tal que h(X) é ainda uma variável
aleatória real.
X
1. Se X é uma variável aleatória discreta tal que |h(x)|P (X = x) é convergente,
x∈SX
então existe esperança matemática de h(X), tendo-se
X
E(h(X)) = h(x)P (X = x).
x∈SX
Z +∞
2. Se X é uma variável aleatória contı́nua tal que o integral |h(x)|f (x)dx é con-
−∞
vergente, então existe esperança matemática de h(X) tendo-se
Z +∞
E(h(X)) = h(x)f (x)dx.
−∞
iv) Var(X) = 0 ⇔ ∃a ∈ R : P (X = a) = 1.
• V ar(aX) = a2 V ar(X), ∀a ∈ R
• V ar(−X) = V ar(X)
• V ar(X + b) = V ar(X), ∀b ∈ R.
Além disso a propriedade ii) é generalizável a qualquer número finito de variáveis aleatórias.
Os quantis de uma distribuição, que passamos a definir, são parâmetros que permitem
estudar em simultâneo a localização e a concentração dos valores assumidos por uma variável
aleatória.
Definição 1.3.13. Seja p ∈ ]0, 1[. Dada uma variável aleatória X, chamamos quantil
de probabilidade p da distribuição de X a um número Q(p) que verifica lim F (x) ≤ p
x→Q(p)−
e lim F (x) ≡ F (Q(p)) ≥ p .
x→Q(p)+
Observamos que no caso em que existe um intervalo de valores x que verificam F (x) = p
qualquer um dos valores deste intervalo satisfaz a definição anterior. Existem na literatura
várias convenções adoptadas por diferentes autores no sentido de determinar Q(p) de forma
única. Neste curso consideramos Q(p) igual ao ponto médio de tal intervalo. Um caso particular
interessante é o dos três quartis da distribuição de X e que correspondem aos casos em que
p toma os valores 1/4, 1/2 e 3/4. Os três quartis são denotados por Q1 , Q2 e Q3 e verificam
lim F (x) ≤ i/4 e F (Qi ) ≥ i/4, para i ∈ {1, 2, 3}.
x→Q−
i
Exemplo 1.3.7. Retomemos a variável aleatória do exemplo 1.3.1. Neste caso como
qualquer valor do intervalo [0, 1[ serve para primeiro quartil. Assim, de acordo com a
convenção referida acima consideramos Q1 = 0.5.
Similarmente, como
F (1) = lim F (x) = 0.75,
x→2−
qualquer valor do intervalo [1, 2[ serve para terceiro quartil pelo que consideramos Q3 = 1.5.
Mais, uma vez que lim F (x) = 0.25 < 0.5 e lim F (x) = F (1) = 0.75 > 0.5, concluı́mos
x→1− x→1+
que o segundo quartil da distribuição de X é igual a 1.
1
6 q
0.8 q b
0.4 q b
0.25 q b
c -
1 1.5 2 3
1. Justifique que se trata de uma função de distribuição correspondente a uma variável
aleatória X discreta.
Exercı́cio 1.3.7. Uma variável aleatória X tem densidade f (x) = c(2x − x2 )1I[0,2] (x).
Calcule o valor de c e P (0.5 < X < 1.5). Calcule E(X).
Exercı́cio 1.3.8. O número de acidentes de trabalho por semana num laboratório é re-
presentado por uma variável aleatória X com distribuição caracterizada por P (X = 0) =
0.97, P (X = 1) = 0.02, P (X = 2) = 0.01. A variável aleatória que representa o número de
acidentes de trabalho durante uma quinzena é Y = X1 + X2 , onde as variáveis X1 e X2 têm a
mesma distribuição que X e são independentes. Qual a distribuição de Y ?
Exercı́cio 1.3.9. Duas pessoas, A e B, jogam determinado jogo, composto por várias
partidas independentes entre si. Sabe-se que cada partida admite sempre um vencedor e que a
probabilidade de A vencer uma partida é o dobro da de B. Suponha que ambos iniciam o jogo
com um capital de três euros. Em cada partida, o jogador que perde dá um euro ao que vence.
O jogo termina quando qualquer um dos jogadores fica sem dinheiro.
2. Qual é a probabilidade de o gabinete usar, numa semana, mais do que 1 hora de CPU?
3. O tempo de CPU custa 250 euros por hora. Além disso, o gabinete paga, semanalmente,
uma taxa fixa de 50 euros pela utilização deste recurso informático. Considere a variável
aleatória Y que representa a quantia gasta semanalmente pelo gabinete com a utilização
da CPU.
3. Mostre que E(X) = 0.9, E(Y ) = 1.4, E(XY ) = 1.15 e calcule Cov(X, Y ).
Exercı́cio 1.3.13. Numa prova de um concurso de tiro, uma equipa de dois participantes,
A e B, atira sobre o mesmo alvo. Cada participante efectua duas tentativas, sendo o seu
objectivo acertar no alvo o maior número de vezes.
Considere o vector aleatório real (X, Y ), em que X e Y denotam, respectivamente, o número
de tiros que os jogadores A e B acertam no alvo naquela prova. No quadro que se segue
apresenta-se um resumo da função de probabilidade de (X, Y ).
28 Capı́tulo 1. Teoria das Probabilidades
Y =0 Y =1 Y =2
X=0 0.01 0.03 0.06
X=1 0.04 0.12 0.24
X=2 0.05 0.15 0.3
3. Calcule a probabilidade de
Exercı́cio 1.3.14. O rendimento mensal, expresso em milhares de Euros, dos casais que
habitam em determinada região é bem modelado pelo vector aleatório contı́nuo (X, Y ), em que
X e Y representam, respectivamente, os rendimentos mensais da esposa e do marido. Admita
que a função densidade de (X, Y ) é dada por
1
f (x, y) = 2, 0 < x ≤ y ≤ 2 .
0, caso contrário
2. Determine o valor da função de distribuição de (X, Y ) no ponto (1.5, 1.5) e interprete tal
valor.
3. Calcule a probabilidade de
Exercı́cio 1.3.16. Seja (X, Y ) um vector aleatório real com função densidade dada por
kxy, se 0 < x < 1 e 0 < y < 2
f (x, y) = ,
0, caso contrário
1. Mostre que k = 1.
I- Distribuição de Bernoulli
As variáveis aleatórias com distribuição ou lei de Bernoulli estão quase sempre relaciona-
das com experiências dicotómicas, sendo por isso variáveis que assumem apenas dois valores.
Formalmente convencionamos que tais valores são 0 e 1.
30 Capı́tulo 1. Teoria das Probabilidades
Concretamente, dizemos que uma variável aleatória X tem distribuição de Bernoulli ou que
segue a lei de Bernoulli de parâmetro p , e escreve-se X ∼ B(p), se X assume apenas os dois
valores 0 e 1, com P (X = 1) = p. Tem-se E(X) = p e V ar(X) = p(1 − p).
Nas aplicações mais comuns, dada uma experiência aleatória e um acontecimento A cuja
probabilidade p = P (A) conhecemos, definimos a variável aleatória X que assume o valor 1 se,
ao realizar a experiência, A ocorre e que assume o valor 0 em caso contrário.
Às experiências que apresentam apenas dois resultados possı́veis damos o nome de ex-
periências de Bernoulli.
Exemplo 1.3.9. O número de caras obtidas ao lançar uma moeda equilibrada dez
vezes é uma variável aleatória com distribuição B(10, 1/2).
Atendendo a que “haver lugar para todos” significa que “no mı́nimo não comparecerem
duas pessoas”, vamos calcular P (X ≥ 2). Ora
P (X ≥ 2) = 1 − P (X < 2) = 1 − (P (X = 0) + P (X = 1))
= 1 − C052 × 0.050 × 0.9552 + C152 × 0.051 × 0.9551
Exemplo 1.3.11. Num armazém são vendidas torneiras de várias marcas incluindo a
sua própria marca A. Seja Y a variável aleatória que representa o número de clientes que
compram torneiras até surgir o primeiro (inclusivé) que opte por uma torneira da marca
A. Sabendo que a probabilidade de um cliente que compra torneiras escolher a marca A é
0.05, calculemos P (Y ≥ 3).
A variável aleatória Y tem distribuição geométrica de parâmetro p = 0.05. Assim
P (Y ≥ 3) = 1 − P (Y ≤ 2)
= 1 − (P (Y = 1) + P (Y = 2))
= 1 − (0.05 + 0.95 × 0.05) = 0.9025.
Exemplo 1.3.12. Uma máquina produz peças que são defeituosas com probabilidade
0.02. Qual o número médio de peças sem defeito que serão produzidas consecutivamente?
Seja X a variável aleatória que representa o número de peças que a máquina produz
consecutivamente sem defeito. A variável X + 1 tem distribuição (ou lei) Geométrica de
parâmetro 0.02, tendo-se, consequentemente, E(X + 1) = 1/0.02 = 50. Assim E(X) = 49.
V- Distribuição de Poisson
As variáveis aleatórias com distribuição de Poisson (ou variáveis aleatórias de Poisson)
surgem em muitas aplicações como, por exemplo, nos estudos de filas de espera quando se
pretende modelar o número de chegadas num dado intervalo de tempo, previamente fixado. Este
tipo de variáveis aleatórias surge também nas situações em que se pretende estudar o número
de ocorrências de um acontecimento raro, quando não limitamos o número de realizações da
experiência.
Assim, com alguma regularidade, encontramos variáveis aleatórias com distribuição de Pois-
son em estudos sobre a emissão de partı́culas por um corpo radioactivo num dado perı́odo de
tempo, em estatı́sticas de acidentes ou mesmo quando se estuda o número de “errus de dacti-
lugrafia”por página de um texto.
Podemos também afirmar que o número de bactérias encontradas numa dada cultura, o
número de leituras erradas da pluviosidade, o número de clientes de um armazém que se mos-
tram insatisfeitos com determinado produto são, em muitas circunstâncias, variáveis aleatórias
com distribuição ou lei de Poisson.
Dizemos que uma variável aleatória X tem distribuição ou lei de Poisson de parâmetro λ,
com λ > 0, e escreve-se X ∼ P(λ), se SX = IN0 e
λk
P (X = k) = e−λ ,
k!
para k ∈ IN0 . Prova-se que E(X) = V ar(X) = λ.
22 23
P (1 < X ≤ 3) = P (X = 2) + P (X = 3) = e−2 + e−2 = 0.4511.
2! 3!
Suponhamos agora que a emissão de partı́culas em diferentes perı́odos de 20 segundos
ocorre de forma independente. Sabendo que foi observada a emissão de partı́culas durante 5
perı́odos de 20 segundos, calculemos a probabilidade de em pelo menos um desses 5 perı́odos
serem emitidas exactamente duas partı́culas.
1.3. Variáveis aleatórias e distribuições 33
P (W ≥ 3) = 1 − P (W ≤ 2) = 1 − (P (W = 1) + P (W = 2))
= 1 − 0.2706 − 0.7294 × 0.2706 = 0.5320.
P (X ≥ 2) = 1 − P (X< 2) = 1
− P (X = 0) − P (X = 1)
30 31
= 1 − 0.05 + = 1 − 0.2 = 0.8.
0! 1!
Calculemos agora a probabilidade de que numa amostra de dois cm3 de água existam
quando muito 3 bactérias.
Sejam X1 e X2 as variáveis aleatórias que representam o número de bactérias em cada
um dos cm3 de água e Y = X1 + X2 a variável aleatória que representa, obviamente, o
número de bactérias em dois cm3 de água.
Supondo X1 e X2 independentes, podemos afirmar que Y ∼ P(3 + 3). Então
a+b (b−a)2
Prova-se que E(X) = 2 e V ar(X) = 12 .
Notemos que a intervalos contidos em [a, b] com amplitudes iguais correspondem probabi-
lidades iguais.
Uma variável aleatória X tem distribuição ou lei exponencial de parâmetros α > 0 e β ∈ IR,
e escreve-se X ∼ E(α, β), se a sua densidade é dada por
αe−α(x−β) se x ≥ β
f (x) = .
0 se x < β
Observemos que se X ∼ E(α, β) então X − β ∼ E(α, 0). Por outro lado no exemplo 1.3.4
provámos que uma variável aleatória com distribuição E(α, 0) tem média igual a α1 . Assim,
para X ∼ E(α, β), tem-se
1
E(X) = E(X) − β + β = E(X − β) + β = + β.
α
Mais, prova-se que V ar(X) = 1/α2 .
Exemplo 1.3.16. Seja X uma variável aleatória com distribuição E(2, 0). Vamos
calcular P (X > 3.5). Tem-se
Z +∞
t
2e−2x dx = lim −e−2x 3.5 = e−7 .
P (X > 3.5) =
3.5 t→+∞
1 − 1 x−m 2
f (x) = √ e 2 ( σ ) , x ∈ IR.
2πσ
-3 3
3. Se Z ∼ N (0, 1) então
As propriedades que acabámos de apresentar, para além de tornarem a lei normal bastante
atraente para estudos teóricos, como já dissemos e confirmamos adiante, são obviamente úteis
em qualquer aplicação prática. Com efeito, sempre que dispomos de uma variável aleatória com
distribuição simétrica ou aproximadamente simétrica, devido à simplicidade deste modelo, é
usual começar por ajustar uma distribuição normal. No caso da média não ser 0 ou da variância
não ser igual a 1 podemos sempre usar a transformação apresentada na observação 1.3.2 e
determinar probabilidades ou quantis usando sempre uma tabela de probabilidades associadas
à lei N (0, 1). Apresentamos seguidamente uma das versões possı́veis para a referida tabela.
Trata-se da tabela da função de distribuição da lei N (0, 1).
38 Capı́tulo 1. Teoria das Probabilidades
P (Z ≤ z(p)) = p
z(p)
z(p) = a + b
a↓ b→ 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586
0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535
0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409
0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793
0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240
0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490
0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524
0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327
0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891
1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214
1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298
1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147
1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91309 0,91466 0,91621 0,91774
1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189
1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408
1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449
1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327
1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062
1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900
1.3. Variáveis aleatórias e distribuições 39
Exemplo 1.3.17. Uma ponte foi projectada para suportar uma sobrecarga total de
1530 KN. Estudos estatı́sticos permitiram concluir que a variável aleatória que representa
o peso de automóveis ligeiros tem distribuição normal de média 15 KN e desvio padrão 1.5
KN. Se, em determinado momento, estão sobre a ponte 100 automóveis ligeiros, determi-
nemos a probabilidade de serem causados danos na sua estrutura, isto é, do peso total dos
automóveis exceder a sobrecarga de 1530 KN.
Denotemos por Xi a variável aleatória que representa o peso do automóvel i, para
100
X
i = 1, ..., 100. Como a variável aleatória Xi representa o peso total dos 100 automóveis,
i=1
100
X
serão causados danos na estrutura da ponte se ocorrer o acontecimento { Xi > 1530}.
i=1
Ora, usando a estabilidade da lei normal, sabemos que
100
X
Xi ∼ N 100 × 15, 100 × 1.52
i=1
100 100
!
X X
1
ou seja Xi ∼ N (1500, 225) o que equivale a Z = 15 Xi − 1500 ∼ N (0, 1).
i=1 i=1
Então
100 100
! ! !
X X
1 1530−1500
P Xi > 1530 = P 15 Xi − 1500 > 15
i=1 i=1
= P (Z > 2) = 1 − P (Z ≤ 2) = 1 − 0.97725 = 0.02275.
No que se segue denotamos por z(p) o quantil de probabilidade p da lei N (0, 1). Por outras
palavras, denotamos por z(p) o número real que verifica P (Z ≤ z(p)) = p, onde Z ∼ N (0, 1).
Devemos observar que a função INV.NORM do EXCEL(1 ) permite determinar o inverso
da função de distribuição de uma variável aleatória com lei N (m, σ 2 ), para quaisquer m e σ 2 .
Concretamente, o valor real x onde a função de distribuição assume o valor p é determinado
por x=INV.NORM(p; m; σ).(2 ) Por exemplo, para X ∼ N (3, 4) o valor de x onde a função de
distribuição é igual a 0.7 é determinado por x=INV.NORM(0.7;3;2)=4.0488.
Deste modo, o valor de z(p), para qualquer valor de p, pode ser encontrado usando a função
INV.NORM do Excel, pois z(p) é o número real para o qual a função de distribuição da lei
N (0, 1) é igual a p. Concretamente, tem-se z(p) =INV.NORM(p; 0; 1). Por exemplo z0.975 =
INV.NORM(0.975; 0; 1) = 1.959.
Exercı́cio 1.3.18. Uma determinada praga atacou uma unidade agrı́cola tendo contami-
nado três quartos da sua produção de maçã. Considere 4 maçãs escolhidas ao acaso. Deter-
mine:
1
Ou NORM.INV em algumas versões do EXCEL.
2
É de notar que se colocam média seguida do desvio padrão e não variância como na notação usual da lei
normal.
40 Capı́tulo 1. Teoria das Probabilidades
1. Mostre que o peso total do referido grupo é uma variável aleatória real gaussiana de média
960 kg e de desvio padrão 30 kg.
2. Calcule a probabilidade de, nestas condições, ser excedida a carga máxima do elevador.
Exercı́cio 1.3.27. Uma empresa comercializa computadores, impressoras e mobiliário de
escritório. Sabe-se que as variáveis aleatórias que representam o lucro mensal (em milhares de
euros) da venda de computadores, impressoras e mobiliário são independentes e que possuem
leis N (10, 16), N (8, 8) e N (3, 1), respetivamente. Calcule a probabildade de o lucro mensal em
mobiliário e impressoras exceder o de computadores.
Exercı́cio 1.3.28. Os tempos de funcionamento de determinado tipo de dispositivos (ex-
presso em anos) produzidos por dois fabricantes A e B são considerados independentes e nor-
malmente distribuı́dos. Estas duas variáveis aleatórias têm, respetivamente, média 6 e desvio
padrão 1 e, média 6.5 e desvio padrão 2. Determine a probabilidade de que o tempo de funcio-
namento de um dispositivo do fabricante A exceda o tempo de funcionamento de um dispositivo
do fabricante B.
IX - Distribuição do qui-quadrado
Consideremos k variáveis aleatórias independentes X1 ,..., Xk , todas com lei N (0, 1).
A variável aleatória
Xk
Uk = Xi2
i=1
segue a distribuição ou lei do qui-quadrado com k graus de liberdade, denotada por Xk2 . Nestas
condições escrevemos Uk ∼ Xk2 .
A distribuição Xk2 é contı́nua e uma variável aleatória com distribuição Xk2 assume apenas
valores positivos. Para esta variável aleatória tem-se
E(Uk ) = k e Var(Uk ) = 2k.
Na figura seguinte apresentamos alguns esboços de gráficos da função densidade da lei do
qui-quadrado para diferentes graus de liberdade.
5 10 15 20
O quantil de probabilidade p da lei χ2k será denotado por χk (p) e, para alguns valores
particulares de p e de k pode ser consultado na tabela que apresentamos de seguida.
O valor do quantil χk (p), para qualquer valor de k e de p, pode ser encontrado usando a
função INV.CHI do Excel(3 ). Concretamente, tem-se χk (p) = IN V.CHI(1−p; k). Por exemplo
χ9 (0, 97) = IN V.CHI(0, 03; 9) = 18.4796.
3
Ou CHI.INV em algumas versões do EXCEL.
42 Capı́tulo 1. Teoria das Probabilidades
χk (p)
V ∼ χ2k P (V ≤ χk (p)) = p
p
k↓ 0,999 0,995 0,99 0,98 0,975 0,95 0,05 0,025 0,02 0,01
1 10,82756 7,87944 6,63489 5,41189 5,02388 3,84146 0,00393 0,000982 0,00062 0,00016
2 13,81551 10,59663 9,21034 7,82404 7,37776 5,99146 0,10258 0,05063 0,04041 0,02010
3 16,26623 12,83815 11,34486 9,83741 9,34840 7,81472 0,35184 0,21579 0,18483 0,11483
4 18,46682 14,86025 13,27670 11,66784 11,14328 9,48773 0,71072 0,48441 0,42939 0,29711
5 20,51500 16,74960 15,08627 13,38822 12,83250 11,07049 1,14548 0,83121 0,75188 0,55429
6 22,45774 18,54758 16,81189 15,03321 14,44937 12,59158 1,63538 1,23734 1,13442 0,87209
7 24,32188 20,27774 18,47531 16,62242 16,01276 14,06714 2,16735 1,68987 1,56429 1,23904
8 26,12448 21,95495 20,09023 18,16823 17,53455 15,50731 2,73264 2,17973 2,03247 1,64649
9 27,87716 23,58935 21,66599 19,67902 19,02276 16,91897 3,32511 2,70038 2,53237 2,08790
10 29,58829 25,18818 23,20925 21,16076 20,48317 18,30703 3,94029 3,24697 3,05905 2,55821
11 31,26413 26,75685 24,72497 22,61794 21,92004 19,67513 4,57481 3,81575 3,60868 3,05348
12 32,90949 28,29951 26,21696 24,05395 23,33666 21,02607 5,22602 4,40379 4,17828 3,57057
13 34,52817 29,81947 27,68824 25,47150 24,73560 22,36203 5,89186 5,00875 4,76545 4,10692
14 36,12327 31,31935 29,14124 26,87276 26,11895 23,68479 6,57063 5,62873 5,36819 4,66043
15 37,69729 32,80132 30,57791 28,25949 27,48839 24,99579 7,26094 6,26214 5,98492 5,22935
16 39,25235 34,26719 31,99992 29,63317 28,84535 26,29622 7,96164 6,90766 6,61424 5,81221
17 40,79022 35,71847 33,40866 30,99505 30,19101 27,58711 8,67176 7,56418 7,25500 6,40776
18 42,31239 37,15645 34,80531 32,34616 31,52638 28,86929 9,39045 8,23075 7,90622 7,01491
19 43,82019 38,58226 36,19087 33,68742 32,85232 30,14352 10,11701 8,90652 8,56703 7,63272
20 45,31474 39,99685 37,56625 35,01963 34,16961 31,41043 10,85081 9,59077 9,23669 8,26039
21 46,79704 41,40106 38,93217 36,34344 35,47887 32,67057 11,59131 10,28289 9,91456 8,89719
22 48,26794 42,79565 40,28936 37,65949 36,78071 33,92444 12,33801 10,98232 10,60003 9,54249
23 49,72823 44,18127 41,63839 38,96831 38,07563 35,17246 13,09051 11,68855 11,29260 10,19571
24 51,17859 45,55851 42,97982 40,27036 39,36407 36,41503 13,84842 12,40115 11,99182 10,85636
25 52,61965 46,92789 44,31410 41,56607 40,64647 37,65249 14,61140 13,11972 12,69727 11,52397
26 54,05196 48,28988 45,64168 42,85583 41,92317 38,88513 15,37915 13,84391 13,40858 12,19814
27 55,47602 49,64491 46,96294 44,13999 43,19451 40,11327 16,15139 14,57338 14,12542 12,87850
28 56,89228 50,99337 48,27823 45,41884 44,46079 41,33713 16,92787 15,30786 14,84748 13,56470
29 58,30117 52,33562 49,58788 46,69269 45,72228 42,55697 17,70836 16,04707 15,57448 14,25645
30 59,70306 53,67196 50,89218 47,96180 46,97924 43,77297 18,49266 16,79077 16,30617 14,95345
31 61,09831 55,00270 52,19139 49,22639 48,23188 44,98534 19,28056 17,53873 17,04232 15,65545
32 62,48722 56,32811 53,48577 50,48670 49,48043 46,19425 20,07191 18,29076 17,78271 16,36221
33 63,87009 57,64844 54,77553 51,74292 50,72508 47,39988 20,86653 19,04666 18,52714 17,07351
34 65,24722 58,96392 56,06090 52,99524 51,96599 48,60236 21,66428 19,80625 19,27543 17,78915
35 66,61883 60,27477 57,34207 54,24383 53,20335 49,80185 22,46502 20,56938 20,02743 18,50893
1.3. Variáveis aleatórias e distribuições 43
p
k↓ 0,999 0,995 0,99 0,98 0,975 0,95 0,05 0,025 0,02 0,01
36 67,98517 61,58118 58,61921 55,48886 54,43729 50,99846 23,26861 21,33588 20,78295 19,23268
37 69,34645 62,88334 59,89250 56,73047 55,66797 52,19232 24,07494 22,10563 21,54185 19,96023
38 70,70289 64,18141 61,16209 57,96880 56,89552 53,38354 24,88390 22,87848 22,30401 20,69144
39 72,05466 65,47557 62,42812 59,20398 58,12006 54,57223 25,69539 23,65432 23,06929 21,42616
40 73,40196 66,76596 63,69074 60,43613 59,34171 55,75848 26,50930 24,43304 23,83757 22,16426
41 74,74494 68,05273 64,95007 61,66538 60,56057 56,94239 27,32555 25,21452 24,60875 22,90561
42 76,08376 69,33600 66,20624 62,89181 61,77676 58,12404 28,14405 25,99866 25,38271 23,65009
43 77,41858 70,61590 67,45935 64,11554 62,99036 59,30351 28,96472 26,78537 26,15935 24,39760
44 78,74952 71,89255 68,70951 65,33667 64,20146 60,48089 29,78748 27,57457 26,93859 25,14803
45 80,07673 73,16606 69,95683 66,55527 65,41016 61,65623 30,61226 28,36615 27,72034 25,90127
46 81,40033 74,43654 71,20140 67,77143 66,61653 62,82962 31,43900 29,16005 28,50450 26,65724
47 82,72042 75,70407 72,44331 68,98524 67,82065 64,00111 32,26762 29,95620 29,29101 27,41585
48 84,03713 76,96877 73,68264 70,19676 69,02259 65,17077 33,09808 30,75451 30,07979 28,17701
49 85,35056 78,23071 74,91947 71,40608 70,22241 66,33865 33,93031 31,55492 30,87076 28,94065
50 86,66082 79,48998 76,15389 72,61325 71,42020 67,50481 34,76425 32,35736 31,66386 29,70668
55 93,16753 85,74895 82,29212 78,61914 77,38047 73,31149 38,95803 36,39811 35,65921 33,57048
60 99,60723 91,95170 88,37942 84,57995 83,29768 79,08194 43,18796 40,48175 39,69942 37,48485
65 105,98814 98,10514 94,42208 90,50124 89,17715 84,82065 47,44958 44,60299 43,77900 41,44361
70 112,31693 104,21490 100,42518 96,38754 95,02318 90,53123 51,73928 48,75757 47,89345 45,44172
75 118,59909 110,28558 106,39292 102,24253 100,83934 96,21667 56,05407 52,94194 52,03909 49,47503
80 124,83922 116,32106 112,32879 108,06934 106,62857 101,87947 60,39148 57,15317 56,21285 53,54008
85 131,04120 122,32458 118,23575 113,87057 112,39337 107,52174 64,74940 61,38878 60,41211 57,63393
90 137,20835 128,29894 124,11632 119,64846 118,13589 113,14527 69,12603 65,64662 64,63466 61,75408
95 143,34354 134,24655 129,97268 125,40493 123,85797 118,75161 73,51984 69,92487 68,87857 65,89836
100 149,44925 140,16949 135,80672 131,14168 129,56120 124,34211 77,92947 74,22193 73,14218 70,06490
X - Distribuição de Student
Sejam U e V duas variáveis aleatórias independentes tais que U ∼ N (0, 1) e V ∼ Xk2 .
U
A variável aleatória T = p segue uma lei ou distribuição de Student com k graus de
V /k
liberdade que se denota por tm . Escreve-se T ∼ tk . A lei tk é contı́nua e simétrica em
relação à origem, para qualquer valor de k ∈ N. Na figura seguinte apresentamos o esboço
do gráfico da densidade de uma distribuição t30 . O quantil de probabilidade p da lei tk será
-2 -1 1 2
denotado por tk (p) e, para alguns valores particulares de p e de k pode ser consultado na
tabela seguinte. O valor do quantil tk (p), para quaisquer k e p, pode ser encontrado usando
a função INVT do Excel. Concretamente, tem-se tk (p) = IN V T (2(1 − p); m). Por exemplo,
t52 (0, 975) = IN V T (0, 05; 52) = 2.0066.
44 Capı́tulo 1. Teoria das Probabilidades
tk (p)
T ∼ tk P (T ≤ tk (p)) = p
p
k↓ 0,75 0,80 0,85 0,90 0,95 0,975 0,99 0,995 0,999
p
k↓ 0,75 0,80 0,85 0,90 0,95 0,975 0,99 0,995 0,999
No caso em que aquelas variáveis aleatórias seguem uma lei normal e são independentes, a
estabilidade da lei normal dá resposta a esta questão. Por outro lado, não tendo as variáveis
X1 , X2 , · · · , X49 distribuição normal, ou no caso em que tal distribuição é desconhecida, um
resultado teórico que nos permita obter uma distribuição aproximada para a soma de variáveis
aleatórias será bastante útil.
Consideremos agora um exemplo mais “académico”. Se realizarmos 100 lançamentos de um
dado equilibrado com as faces numeradas de 1 a 6, qual a probabilidade de que a proporção de
faces 2 seja superior a 0.3? Para responder a esta pergunta consideramos, para cada lançamento,
uma variável aleatória de Bernoulli de parâmetro 1/6. Temos assim 100 variáveis aleatórias
independentes e estamos interessados em calcular
100 100
! !
1 X X
P Xi > 0.3 = P Xi > 30 .
100
i=1 i=1
Mais uma vez teremos de conhecer P100a distribuição da soma de variáveis aleatórias independentes.
1
Embora neste caso particular i=1 Xi ∼ B(100, 6 ) os cálculos são bastante extensos. É mais
uma vez desejável obter uma aproximação para a distribuição da soma de variáveis aleatórias
independentes.
O Teorema Limite Central, que expomos de seguida, dá resposta a esta questão desde que
as variáveis intervenientes na soma, para além de independentes, tenham a mesma distribuição
de variância finita, seja tal distribuição conhecida ou não.
De acordo com o teorema anterior, podemos concluir que a soma de variáveis aleatórias
independentes e igualmente distribuı́das admitindo variância finita σ 2 e média m tem uma
função de distribuição que, para um número de parcelas suficientemente grande, pode ser
aproximada pela função de distribuição da lei N (nm, nσ 2 ).
Exemplo 1.4.1. Uma ponte foi projectada para suportar uma sobrecarga total de
1500 KN. Suponhamos que a variável aleatória que representa o peso de um automóvel
tem média 15 KN e desvio padrão 1.5 KN. Pretendemos determinar o número máximo de
automóveis que a ponte poderá suportar de modo que a probabilidade de serem causados
danos na sua estrutura não exceda 0.01.
Ora, considerando as variáveis X1 , X2 , · · · , Xn que representam o peso dos diferentes
n automóveis que a ponte pode suportar naquelas condições, e admitindo que estas podem
ser consideradas independentes, pelo Teorema Limite Central, podemos afirmar que
Pn
i=1 X√i − 15n ·
∼ N (0, 1).
1.5 n
De acordoPcom o que foi exposto pretendemos determinar o maior valor de n para o qual
se tem P ( ni=1 Xi > 1500) ≤ 0.01.
Uma vez que
n
! Pn
i − 15n
i=1 X√ 1500 − 15n
X
P Xi > 1500 = P > √ ,
1.5 n 1.5 n
i=1
para i ∈ {1, 2, ..., 225}. Sabemos que E(Xi ) = 10, V ar(Xi ) = 10 e obviamente, que a v.a.
48 Capı́tulo 1. Teoria das Probabilidades
225
X
T = Xi representa o total de multas pagas em 225 dias. Admitindo a independência
i=1
daquelas 225 v.a’s, podemos afirmar, usando o Teorema Limite Central, que
P225
i=1√Xi − 2250 ·
∼ N (0, 1).(a )
2250
Assim
225
! P225 !
X
i=1√X i − 2250 2350 − 2250
P (T > 2350) = P Xi > 2350 =P > √
i=1
2250 2250
' P Z> √100 ' P (Z > 2.11) = 1 − FZ (2.11) = 0.01743,
2250
Observemos agora que, conciliando a primeira e a quarta destas conclusões podemos afirmar
que
• a função de distribuição da lei B(r, p), para r suficientemente grande, pode ser apro-
ximada pela função de distribuição da lei N (rp, rp(1 − p)).
Muitos autores afirmam que esta aproximação deve ser considerada apenas para p perten-
cente ao intervalo ]0.1, 0.9[.
Analogamente, uma vez que a soma de n variáveis aleatórias independentes com distribuição
P(λ) segue a lei P(nλ), concluı́mos, usando de novo o Teorema Limite Central, que
• a função de distribuição da lei P(nλ) pode ser aproximada, para n suficientemente
grande, pela função de distribuição da lei N (nλ, nλ).
1.4. Teorema Limite Central 49
950 950
! ! !
X X
1 8900−9025
P Ni > 8900 = P 95 Ni − 9025 > 95
i=1 i=1
' P (Z > −1.32) = P (Z ≤ 1.32) = 0.90658,
Exercı́cio 1.4.1. Os registos dos jogos do campeonato europeu de futebol, desde 1984,
permitiram concluir que a variável aleatória que representa o número de golos por jogo (em
tempo regulamentar) tem média 1.8 e desvio padrão 1.1. Admitindo a independência entre o
número de golos em jogos diferentes, determine a probabilidade de se marcarem pelo menos 50
golos em 51 jogos do Euro 2024.
Exercı́cio 1.4.2. Uma refinaria de petróleo possui, num dos parques de abastecimento, um
equipamento recentemente renovado que lhe permite encher, por mês, uma média de 280 tanques
com um desvio padrão de 18 tanques. Admitindo a independência entre os abastecimentos
mensais, calcule uma aproximação para a probabilidade de, em três anos, este equipamento
encher menos de 10400 tanques.
Exercı́cio 1.4.3. As quantidades mensais (em toneladas) de matéria recolhida para reci-
clar, em determinada região, são representadas por variáveis aleatórias que podem ser consi-
deradas independentes e identicamente distribuı́das de média 10 e desvio padrão 2. Determine
uma aproximação para a probabilidade de que o total de matéria recolhida, em três anos, seja
superior a 380 toneladas.
Exercı́cio 1.4.5. Um posto de transformação permite uma carga total de 2800 KW.
Sabe-se que este posto de transformação alimenta uma fábrica com um consumo permanente
de 2500 KW. Por outro lado, alimenta 100 consumidores domésticos. Em electrodomésticos,
cada um gasta em média 2KW com desvio padrão de 0.5KW e, em iluminação, gasta em
média 0.5KW com desvio padrão de 0.25KW. Admitindo a independência destes dois tipos de
consumo, calcule a probabilidade de o transformador disparar por excesso de carga.
2.1 Introdução
Perante uma amostra como a que apresentamos a seguir:
0.367, 2.169, 2.268, 1.649, 2.347, 2.335, 1.546, 0.378, 1.608, 0.121, 1.875, 0.212, 0.367, 1.162,
1.328, 1.053, 1.578, 0.613, 2.340, 2.119, 0.928, 1.750, 1.266, 1.799, 0.710, 0.354, 1.459, 2.224,
2.036, 1.333, 2.197, 2.293, 0.601, 0.522, 2.167, 1.874, 2.042, 0.677, 0.448, 0.073, 0.969, 0.840,
0.615, 0.579, 0.135, 1.389, 1.621, 0.413, 1.857, 2.075,
♣♦♥♠
51
52 Capı́tulo 2. Análise exploratória de dados
Uma observação mais cuidada dos exemplos acima permite-nos concluir que os atributos
quantitativos não são todos do mesmo tipo. Por exemplo, a idade de um aluno assume valo-
res num intervalo e o número de irmãos assume valores num conjunto finito. À semelhança
da distinção que apresentámos entre variável aleatória discreta e variável aleatória contı́nua,
também definimos como atributo discreto aquele cujas modalidades pertencem a um conjunto
finito ou infinito numerável e como atributo contı́nuo aquele cujas modalidades pertencem a
um intervalo.
Damos o nome de variável estatı́stica, que denotamos por X ∗ , à função que a cada elemento
da amostra faz corresponder a modalidade do atributo que estamos a estudar. Naturalmente,
uma variável estatı́stica quantitativa diz-se discreta ou contı́nua se o atributo que lhe está
associado é discreto ou contı́nuo, respectivamente.
Voltemos aos métodos probabilistas. Estes incluem várias formas de amostragem, entre
as quais destacamos a amostragem aleatória e a amostragem estratificada. Na amostragem
aleatória todos os elementos da população têm a mesma probabilidade de ser incluı́dos na
amostra, sendo cada um resultado de uma selecção aleatória sem reposição. Na amostragem
estratificada começamos por dividir a população em estratos disjuntos e homogéneos, seleci-
onando depois, em cada estrato, uma amostra aleatória simples de dimensão proporcional à
dimensão do estrato. A amostra completa resulta da união de todas estas sub-amostras.
Atendendo a que uma variável estatı́stica X ∗ tem associada uma variável aleatória X,
uma amostra observada (x1 , x2 , ..., xn ) não é mais que um valor observado de um vector
(X1 , X2 , ..., Xn ), constituı́do por variáveis independentes e todas com a lei de X, a que chama-
remos adiante amostra aleatória de X.
Suponhamos que x∗1 , x∗2 , ..., x∗k são os k elementos distintos da amostra observada inicial
(x1 , x2 , ..., xn ), com k ≤ n, tendo-se
k
X
Representemos por ni a frequência absoluta do valor x∗i , para a qual se tem ni = n, e
i=1
Xk
ni
representemos por fi = n a frequência relativa simples de x∗i , para o que se tem fi = 1.
i=1
Na presença de uma variável estatı́stica discreta começamos o seu tratamento estatı́stico
pela construção de um gráfico a que damos o nome de diagrama de barras. Trata-se de um
gráfico de barras verticais que unem os pontos de coordenadas (x∗i , 0) e (x∗i , fi ), para i =
1, · · · , k, como o que apresentamos a seguir.
f3
fk
f2
f1
F∗
1
0
x∗1 x∗2 x∗3 ··· x∗k−1 x∗k
(1, 2, 2, 2, 3, 3, 4, 4, 4, 5, 6, 18)
Outras medidas de localização da amostra que nos interessa estudar são os quantis de ordem
p da amostra, com p ∈ ]0, 1[. Perante uma amostra, damos o nome de quantil de ordem p,
com p ∈ ]0, 1[, ao valor real, não necessariamente pertencente à amostra, que denotamos por
q(p) e que verifica
Observação 2.2.2. Realçamos aqui o facto, de certa forma incómodo para o leitor, de
que estamos a usar várias notações diferentes para a mesma entidade. Por exemplo a mediana
da amostra é denotada por q(1/2), med e q2 .
Seguindo outros autores, apresentamos a seguir uma fórmula de cálculo simples e alternativa
ao que expusémos acima para q1 e q3 :
x 3n se 3n/4 inteiro
x n4 :n se n/4 inteiro
4
:n
q1 = q3 = .
x[ n4 +1]:n se não x 3n se não
[ +1]:n
4
De uso bastante generalizado são os percentis Pi = qi/100 , i ∈ {1, 2, ..., 99}, os quais dividem
a distribuição da amostra em 100 partes iguais (ou pelo menos com sensivelmente o mesmo
número de observações), desde que o número de observações seja suficiente para tornar este
conceito possı́vel.
À semelhança do que foi exposto para as variáveis aleatórias, iremos apresentar algumas
medidas de dispersão dos dados que constituem a amostra. Na verdade, a moda, a média e a
mediana, quando observadas isoladamente, não nos permitem tirar conclusões precisas acerca
da concentração dos valores que constituem a amostra. Todavia, a posição dos três quartis
em relação ao máximo e ao mı́nimo amostrais e a amplitude entre o primeiro e o terceiro
quartis, onde se concentram 50% dos dados, fornecem-nos indicação bastante completa sobre
a dispersão dos valores amostrais.
As medidas de dispersão que consideramos são a amplitude amostral An = xn:n − x1:n ,
a amplitude interquartis AIQ = q3 − q1 e a variância e o desvio padrão amostrais que
definiremos adiante.
O diagrama de extremos e quartis (ou caixa com bigodes) é um gráfico com o qual se
pretende ilustrar a variabilidade dos elementos da amostra em torno da mediana. Este diagrama
é naturalmente utilizado para evidenciar tendências assimétricas na distribuição dos dados. Por
exemplo, se a mediana, o terceiro quartil e o máximo estão relativamente próximos, quando
comparados com as amplitudes entre a mediana e o primeiro quartil e entre este e o mı́nimo
amostral, teremos uma amostra que evidencia assimetria negativa.
Na figura seguinte apresentamos um esboço de um diagrama de extremos e quartis.
max
q3
med
q1
min
Uma outra forma de estudar a variabilidade dos elementos amostrais consiste em avaliar a
dispersão com que estes se situam em relação à média da amostra. Este propósito consegue-se
considerando inicialmente o quadrado dos desvios entre a média e cada um dos valores da
2.2. Variáveis estatı́sticas quantitativas unidimensionais 57
é uma partição adequada daquele intervalo. Devemos observar que a escolha desta partição,
incluindo a amplitude de cada uma destas classes, está muitas vezes relacionada com a natureza
do fenómeno que se está a estudar. Por exemplo, é comum considerar classes de amplitudes
58 Capı́tulo 2. Análise exploratória de dados
4
40
2
40
0 1 2 3 4 5 6 7 8
2.2. Variáveis estatı́sticas quantitativas unidimensionais 59
2 4 6 8 10 14
0 1
Face a um conjunto de dados a partir do qual foi possı́vel construir o histograma acima
podemos começar por admitir que a função densidade da variável aleatória em estudo é da
forma: θ−1
θt se t ∈ [0, 1]
f (t) = ,
0 se t 6∈ [0, 1]
onde θ é um parâmetro real superior a 1, desconhecido.
A função cumulativa associada a uma variável estatı́stica contı́nua é uma função real de
variável real F ∗ : IR → [0, 1] com expressão analı́tica:
0 se x < a0
x−a0
f1 a1 −a0 se a0 ≤ x < a1
x−a1
se a1 ≤ x < a2
F1 + f2 a2 −a1
∗
F (x) =
... ...
x−a
Fk−1 + fk ak −ak−1 se ak−1 ≤ x < ak
k−1
se x ≥ ak
1
F∗
1
7/8
5/8
7/16
3/8
1/8
−1 0 1 2 3 4 5 6
2.2. Variáveis estatı́sticas quantitativas unidimensionais 61
Nas circunstâncias em que estamos na presença de uma variável estatı́stica contı́nua, defi-
nimos quantil de ordem p, para p ∈ ]0, 1[, à custa da função cumulativa, como aliás fizemos no
caso em que a variável era discreta. Concretamente, o quantil de ordem p é o número real q(p)
que verifica
F ∗ (q(p)) = p, p ∈]0, 1[.
Para finalizar este capı́tulo, observamos que no caso do histograma dar alguma evidência à
normalidade da distribuição da variável aleatória em estudo, podemos afirmar que:
Exercı́cio 2.2.1. Fez-se um estudo acerca da idade em que é diagnosticada uma certa
doença, obtendo-se os seguintes registos: 18, 18, 25, 19, 23, 20, 42, 18, 21, 18, 18, 20, 18, 18,
20, 18, 19, 28, 17, 18. Calcule a média, o desvio padrão e os quartis da amostra. Construa o
diagrama de extremos e quartis. Nota-se alguma concentração especial dos valores?
3. Por que motivo podemos começar por ajustar uma distribuição normal à variável X?
-17,53 -12,07 -9,72 -8,46 -7,00 -6,74 -6,44 -6,25 -6,03 -4,83
-4,73 -3,92 -3,85 -3,02 -2,06 -1,98 -,37 -,05 -,03 ,94
1,13 1,14 1,15 1,17 1,48 1,60 2,07 2,32 3,00 3,70
3,87 3,97 4,13 4,24 4,54 4,59 5,14 6,77 7,60 7,66
7,68 8,32 9,26 10,26 10,62 11,15 11,44 12,72 13,12 13,52
13,54 13,68 14,24 14,33 16,19 16,27 16,85 17,65 19,85 25,1
4. Por que motivo podemos começar por ajustar uma distribuição normal à variável X?
0,02 0,03 0,05 0,07 0,08 0,21 0,23 0,26 0,26 0,29
0,30 0,33 0,34 0,35 0,35 0,43 0,47 0,49 0,49 0,52
0,60 0,81 0,84 0,87 0,90 0,92 0,96 0,98 0,99 1,05
1,08 1,09 1,19 1,26 1,29 1,54 1,65 1,76 1,84 1,84
2,04 2,19 2,20 2,21 2,27 2,30 2,32 2,38 2,43 2,50
2,81 3,34 3,44 3,82 3,96 4,39 4,45 4,88 5,63 6,01
4,02 4,04 4,10 4,10 4,12 4,12 4,14 4,16 4,19 4,21
4,23 4,23 4,24 4,26 4,28 4,34 4,35 4,38 4,38 4,41
4,46 4,47 4,48 4,59 4,59 4,60 4,68 4,72 4,73 4,75
4,78 4,78 5,11 5,14 5,30 5,41 5,45 5,46 5,49 5,58
5,74 5,78 5,79 5,88 5,92 6,06 6,10 6,17 6,24 6,30
6,33 6,36 6,41 6,44 6,55 6,70 6,80 8,36 9,44 9,73
0,11 0,13 0,16 0,16 0,18 0,20 0,29 0,30 0,30 0,31
0,36 0,38 0,42 0,42 0,46 0,47 0,56 0,62 0,66 0,68
0,71 0,79 0,85 0,87 0,95 0,98 1,02 1,04 1,04 1,05
1,22 1,29 1,34 1,49 1,52 1,57 1,58 1,61 1,68 1,73
1,83 1,84 1,87 1,99 2,03 2,08 2,10 2,11 2,15 2,17
2,20 2,22 2,30 2,32 2,60 2,76 2,78 2,81 2,86 2,95
1. Determine a média, a variância e os quartis desta amostra.
2. Construa um histograma e o gráfico de extremos e quartis. Qual a distribuição que se
pode começar por ajustar à v.a. U ?
Exercı́cio 2.2.7. Considere a seguinte amostra observada de uma variável aleatória V .
-1,99 -1,98 -1,96 -1,94 -1,89 -1,86 -1,78 -1,61 -1,45 -1,42
-1,33 -1,25 -1,23 -1,14 -1,12 -1,06 -1,02 -00,98 -0,96 -0,93
-0,64 -0,50 -0,41 -0,33 -0,30 -0,25 -0,23 -0,21 -0,13 -0,09
-0,08 0,07 0,08 0,12 0,14 0,16 0,23 0,29 0,41 0,51
0,61 0,70 0,82 0,92 1,01 1,07 1,11 1,26 1,30 1,31
1,40 1,46 1,49 1,71 1,72 1,74 1,76 1,79 1,80 1,89
1. Determine estimativas para a média e para a variância de V .
2. Determine os quartis desta amostra.
3. Construa um histograma e o gráfico de extremos e quartis. Qual a distribuição que se
pode começar por ajustar à v.a. V ?
Exercı́cio 2.2.8. Considere a seguinte amostra observada de uma variável aleatória dis-
creta T .
0 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4
4 4 4 4 4 4 4 4 5 5 5 5 6 6 6 6 6 8 8 8
A partir dos valores da média e da variância desta amostra poderemos negar que T tem uma
distribuição de Poisson?
Exercı́cio 2.2.9. O histograma seguinte foi construı́do a partir de uma amostra de nı́veis
obtidos num teste classificado de 0 a 100.
0.5
0.4
0.3
0.2
0.1
0
20 40 60 80 100
1. Entre os nı́veis 20 e 40 houve 10% dos alunos. Determine uma aproximação para a
percentagem de alunos que obteve nı́vel entre 60 e 80. Determine uma aproximação para
a percentagem de alunos com nı́vel pelo menos 60.
2. Calcule aproximações para a média, para a mediana e para os quartis da referida amostra.
64 Capı́tulo 2. Análise exploratória de dados
A distribuição dos n elementos da amostra por cada uma das células (Ai , Bj ) dá lugar a
uma tabela de dupla entrada, designada tabela de contingência r × s, como a que se segue
B1 ... Bs Totais
A1 n11 ... n1s n1·
.. .. .. .. ..
. . . . .
Ar nr1 ... nrs nr·
Totais n·1 ... n·s n
s
X
onde nij representa a frequência absoluta observada da célula (Ai , Bj ), ni· = nij para
j=1
r
X
i = 1, 2, ..., r e n·j = nij para j = 1, 2, ..., s.
i=1
Em alternativa à tabela de contingência podemos connstruir um gráfico de barras agrupadas
(ou empilhadas) como o que se inclui a seguir.
O coeficiente de associação usado neste caso é o Coeficiente Eta. Para o cálculo deste
coeficiente, a variável qualitativa deve ser codificada numericamente. Eta pode tomar valores
entre 0 e 1. Valores próximos de 1 indicam forte associação e valores próximos de 0 indicam
fraca associação. Como habitualmente, o valor 0 indica total ausência de associação.
...................................................................................................................................................................................................................................................................................................................................................................................................
...
..
... • • ..
...
...
....
• ••• • • ...
• ••
... ...
• • ••• • •• ••
... ...
... ...
... ...
...
...
... • • •• • •• • ...
...
...
• ...
...
...
..
................................................................................................................................................................................................................................................................................................................................................................................................
Este coeficiente mede a intensidade e o sentido de uma relação linear entre as observações
de X e de Y , assumindo-se que estas variáveis são normalmente distribuı́das. R pode tomar
valores entre −1 e 1. A relação entre as variáveis está tão mais próxima da linear quanto mais
próximo de 1 ou de −1 estiver o valor do coeficiente de correlação. Se o sinal é positivo, então
o crescimento dos valores de uma das variáveis é acompanhado do crescimento dos valores da
outra; se o sinal é negativo, então o crescimento dos valores de uma das variáveis é acompanhado
do decrescimento dos valores da outra. Se o coeficiente de correlação R está próximo de 0 é de
excluir a existência de uma relação linear entre as variáveis. Contudo R próximo de zero tanto
pode indicar ausência de associação entre as variáveis como a presença de relações não lineares
nas quais pode existir forte associação entre as variáveis.