Apostila Estatistica I

Universidade de São Paulo

!"$#%&'
(
Departamento de Ciências Básicas

)+*-,-.0/21435-67-8:9;)<=.=> ?48-@-8-A B C-D-E F GIH JK2L2L-M-N-M-N2OPK Q RTS U V-W-X2Y[Z;\]0^_-`0a-b-c-b d e0f4ePgih-jg-k-lPk m e0fPf4n m o2p=qr;s t0u4v-w x-y:u z {-|P}-|
APOSTILA
DE
ESTATÍSTICA I
Prof. Dr. César Gonçalves de Lima

E_mail: cegdlima@usp.br
Pirassununga - SP
2002
1
1. NOÇÕES DE ESTATÍSTICA DESCRITIVA
1.1. INTRODUÇÃO
Em alguma fase de seu trabalho, o pesquisador estará interessado em analisar e entender um
conjunto de dados importante ao seu particular objeto de estudos. Numa primeira fase, precisa-
rá resumir os seus dados para que estes sejam mais informativos e possa, posteriormente, compará-los
com outros resultados já obtidos ou verificar a adequação desses dados a algum modelo teórico.
Nesta primeira parte do nosso curso, estaremos interessados em estudar algumas técnicas
usadas para resumir um conjunto de dados. Esta fase preliminar de análise é chamada Análise
Exploratória dos Dados e objetiva conseguir informações, através de gráficos, tabelas e medidas de
tendência central, dispersão, achatamento e simetria, que indiquem possíveis modelos a serem utiliza-
dos numa fase final, chamada Inferência Estatística.
1.2. ALGUMAS DEFINIÇÕES INICIAIS

Ao conjunto de indivíduos ou objetos sobre os quais desejamos desenvolver algum estudo e que
têm alguma característica em comum, chamamos população ou universo. Uma população estará bem
definida quando conseguirmos afirmar se um indivíduo (ou objeto) pertence ou não a este conjunto.
Quanto ao número de elementos, uma população pode ser finita ou infinita.
Entende-se por amostra qualquer subconjunto de elementos retirados de uma população. Se
uma amostra for bem representativa da população (situação ideal), as conclusões tiradas a partir desta
amostra podem ser inferidas (expandidas, induzidas) para toda a população.
De um modo geral, a cada elemento investigado associamos um ou mais resultados que corres-
pondem à realização de uma ou mais variáveis. Basicamente, essas variáveis podem ser qualitativas e
quantitativas. Uma variável é dita qualitativa quando apresenta como possíveis realizações um atributo
ou qualidade do indivíduo pesquisado. Por exemplo: raça, mês da desmama, sexo, cor de pelagem etc.
Uma variável qualitativa pode ser classificada, de acordo com sua escala de medida, como:
• nominal, quando não é possível uma ordenação dos seus resultados (por exemplo: sexo, raça,
etc.),
• ordinal, quando permite uma ordenação dos seus resultados (por exemplo: conceitos finais em
uma disciplina de pós-graduação, classes sociais etc.)
Uma variável é dita quantitativa quando suas realizações são expressas em números resultantes
de uma contagem ou de uma mensuração. Podem ser classificadas como:
• discretas: quando as suas realizações formam um conjunto finito ou enumerável de valores
sendo, freqüentemente, resultantes de uma contagem. Por exemplo: número de leitões nascidos
vivos e natimortos num certo mês, produção diária de ovos no aviário do Campus etc., ou
• contínuas: quando os seus possíveis valores formam um intervalo de números reais resultantes,
geralmente, de uma mensuração. Por exemplo: peso da leitegada ao nascer, produção diária de
leite, produção de matéria verde por hectare, etc.
Geralmente, designamos as variáveis por letras latinas maiúsculas (X, Y, Z por exemplo) e os
seus resultados, por letras latinas minúsculas com ou sem índices. Por exemplo, os cinco resultados da
variável X podem ser escritos, genericamente, como X = {x1, x2, x3, x4, x5}.
1.3. ESTATÍSTICA DESCRITIVA

Após a definição do problema a ser estudado e do estabelecimento da forma pela qual os dados
serão coletados, cronograma das atividades, custos envolvidos, exame das informações disponíveis
sobre o assunto, delineamento da amostra etc. (planejamento da pesquisa) o passo seguinte é a coleta
dos dados, que consiste na busca ou na compilação dos dados.
Após a coleta dos dados, objetivando a eliminação de erros capazes de provocar futuros
enganos de apresentação e análise, procede-se a uma revisão crítica dos dados, suprimindo os valores
reconhecidamente estranhos ao levantamento. Após essa crítica dos dados, convém organizarmos os
dados de maneira prática e racional para o melhor entendimento do fenômeno que se está estudando.
A apresentação de dados pode ser feita através de Tabelas (ou Quadros) e Gráficos. Para cada
tipo de variável estudada (qualitativa ou quantitativa) existem dispositivos mais apropriados para a
apresentação e resumo das informações, muito embora as alternativas usadas numa situação possam
ser adaptadas para outras.
Material elaborado pelo Prof. Dr. César Gonçalves de Lima

2
1.3.1. APRESENTAÇÃO TABULAR DOS DADOS
As tabelas ou quadros são constituídos, basicamente, de:

• corpo: é a parte estrutural da tabela na qual se inscrevem os dados, sendo constituído de linhas e
colunas onde cada cruzamento linha-coluna é chamado de casela ou célula;
• título: é a definição clara e concisa da natureza do fato estatístico, o espaço geográfico abrangido e a
referência no tempo a que fato corresponde;
• cabeçalho: especifica a informação apresentada em cada coluna;
• coluna indicadora: identifica o tipo de informação que cada linha contem;
• fonte: é a identificação da entidade responsável pelo levantamento dos dados, registros estatísticos
ou por séries estatísticas derivadas;
• notas: são informações de natureza geral destinadas a conceituar ou esclarecer o conteúdo das
tabelas, a indicar o critério adotado no levantamento ou o método de elaboração das estatísticas
derivadas;
• chamadas: são informações específicas relativas a uma parte da tabela destinadas a complementar
informações sobre os dados numéricos.
Tabela 1. Evolução do quadro de docentes na USP por categoria - 1988/1996.

Categoria docente (*)
ANO MS-1 MS-2 MS-3 MS-5 MS-6 TOTAL
1988 614 1.253 2.140 855 527 5.389
1989 593 1.271 2.267 864 550 5.545
1990 516 1.258 2.347 828 630 5.579
1991 383 1.191 2.392 817 637 5.420
1992 320 1.129 2.396 782 682 5.309
1993 254 1.047 2.484 788 703 5.276
1994 175 947 2.553 797 720 5.192
1995 113 804 2.522 831 673 4.943
1996 107 771 2.510 804 664 4.856
(*) MS-1: Auxiliar de Ensino; MS-2: Assistente; MS-3: Doutor; MS-5: Associado; MS-6: Titular
Fonte: Anuário Estatístico da USP - 1996
Toda tabela deve ter título, cabeçalho e corpo; os demais componentes podem até não existir,
dependendo da natureza do problema e nunca do gosto de quem constrói a tabela. A apresentação de
dados em tabelas foi regulamentada pelas Normas de Apresentação Tabular do FIBGE (Rio de Janeiro,
1979, 21 p.) e são reproduzidas, parcialmente, a seguir:
(a) a estrutura da tabela, constituída de traços (retas perpendiculares) é delimitada em suas partes supe-
rior e inferior por traços horizontais paralelos;
(b) é admissível a exclusão dos traços verticais entre as colunas, desde que o número delas não prejudi-
que a leitura dos dados inscritos em colunas contíguas;
(c) o título deve preceder a tabela;
(d) a fonte, as notas e as chamadas são incluídas no rodapé da tabela;
(e) as tabelas, intercaladas em texto corrido, devem situar-se na parte do texto em que são citadas pela
primeira vez;
(f) as tabelas devem ter significado próprio, isto é, devem prescindir de consultas ao texto em que even-
tualmente se achem inseridas;
(g) não se indica a fonte nos casos em que a tabela é apresentada pelo próprio autor ou pela instituição
que obteve os dados.

3
1.3.2. APRESENTAÇÃO GRÁFICA DOS DADOS

A apresentação gráfica das séries estatísticas tem por finalidade dar uma idéia, a mais imediata
possível, dos resultados obtidos numa pesquisa, permitindo chegar-se a conclusões sobre a evolução do
fenômeno ou sobre como se relacionam os valores da série. A escolha do tipo de gráfico mais
apropriado para representar a série estatística em estudo ficar a critério do pesquisador, contudo, os
elementos simplicidade, clareza e veracidade devem ser considerados quando da elaboração do
mesmo.
3000
MS-1
2500 MS-2
Número de docentes
MS-3
2000
1500
1000
500
0
1988 1989 1990 1991 1992 1993 1994 1995 1996
(*) MS-1: Auxiliar de Ensino; MS-2: Assistente; MS-3: Doutor

Fonte: Anuário Estatístico da USP - 1996
Figura 1. Evolução do quadro de docentes das categorias MS-1, MS-2 e MS-3 da USP - 1988 a 1996.
Na apresentação gráfica de dados são necessários alguns cuidados, tais como:

(a) todo gráfico deve ter título e escala, para que possa ser interpretado sem que haja necessidade de
esclarecimentos adicionais no texto;
(b) no eixo das abcissas a escala cresce da esquerda para a direita e é escrita sob o eixo; no eixo das
ordenadas a escala cresce de baixo para cima e é escrita à esquerda do eixo;
(c) podem ser feitas setas para indicar a direção dos eixos;
(d) as variáveis representadas em cada eixo devem ser claramente identificadas, bem como suas unida-
des de medidas;
(e) quando o valores inicial do conjunto de dados for muito alto, deve ser feita uma interrupção no eixo
correspondente, com indicação clara da posição da origem;
(f) as legendas explicativas devem ser colocadas à direita do gráfico;
(g) sempre que possível deve-se indicar a fonte de onde os dados foram obtidos.
A seguir, são apresentados alguns exemplos de gráficos e descritas as situações mais comuns
onde podem ser usados:
• Gráfico de Linhas (Figura 2) é usado, principalmente, para apresentar séries cronológicas.
• O Gráfico de Barras ou Colunas (Figuras 1, 3 e 4) é usado para apresentar séries cronológicas,
geográficas e categóricas ou classificatórias. As barras podem ser construídas na posição horizontal
quando as categorias são identificadas por nomes muito extensos.
• Os Gráficos de Áreas ou de Setores (Figura 5) são usados para comparar proporções ou evidenciar a
composição percentual de uma parte dos dados.
• O Gráfico Polar é usado para representar dados que variam ao longo de um intervalo de tempo
limitado.
• Os Gráficos Comparativos são usados para representar comparativamente duas ou mais variáveis
quantitativas. Muitas vezes são desenhados dois gráficos, lado a lado, para melhor estabelecer a
comparação do fenômeno e outras vezes, os dados obtidos em situações distintas são apresentados
no mesmo gráfico para evidenciar a comparação.

4
25
Zootecnia
20 Matemática Aplicada
15
Número
10
0
1986 1987 1988 1989 1990 1991 1992
ANO
Figura 2. Evolução do número de alunos formados nos cursos de Zootecnia e Matemática

Aplicada -1986/1992.
600
Docentes
500 Não docentes
400
Número
300
200
100
0
ESALQ FAU FEA FM FMVZ FZEA
Unidade
Figura 3. Número de docentes e funcionários não docentes em algumas unidades da USP em julho de
1996.
100%
80% Não docentes

Docentes
60%
40%
20%
0%
ESALQ FAU FEA FM FMVZ FZEA
UNIDADE
Figura 4. Porcentagens de docentes e funcionários não docentes em algumas unidades da USP em

julho de 1996.
5
FEA
Mestrado
ESALQ 20%
Mestrado
32% Doutorado
9%
Especiais
46%
Especiais
71%
Doutorado
22%
Figura 5. Alunos de pós-graduação distribuídos por categoria na ESALQ e FEA em 1995.
Jan
400
Dez 350 Fev
300
250
200
Nov Mar
150
100
50
0
Out Mai
Set Jun
Ago Jul
Figura 6. Altura total da precipitação pluviométrica em Manaus no ano de 1983, segundo o mês

6
2. DISTRIBUIÇÃO DE FREQÜÊNCIAS
Podemos resumir os resultados de uma variável qualitativa ou quantitativa discreta associando

a cada uma de suas categorias a freqüência correspondente, apresentando esses resultados numa
tabela, que é chamada, genericamente, de Distribuição de Freqüências dessa variável. Uma medida
bastante útil na interpretação dessas tabelas e na comparação com os resultados de outra série de
dados onde essa mesma variável tenha sido avaliada, é a proporção (f ri) ou a porcentagem (f pi) que
cada categoria assume, quando comparada com o total de elementos da série.
Tabela 2 Distribuição de freqüências da raça da mãe de coelhos desmamados no primeiro trimestre de

1989 - Setor de cunicultura do Campus de Pirassununga.
Freqüência
RAÇA
absoluta (fi) relativa (fri) percentual (fpi)
Califórnia 6 0,150 15,0
Nova Zelândia 17 0,425 42,5
Selecta 10 0,250 25,0
Borboleta 3 0,075 7,5
Fulvo de Borgonha 4 0,100 10,0
Total 40 1,000 100,0
Com base na Tabela 2, que apresenta a distribuição de freqüências da raça da mãe de coelhos
desmamados no primeiro trimestre de 1989, no setor de Cunicultura do Campus, podemos afirmar, por
exemplo, que 42,5% das ninhadas de coelhos nascidos no primeiro trimestre de 1989, provêm de mães
da raça Nova Zelândia, enquanto apenas 7,5% provêm de mães da raça Borboleta.
A distribuição de freqüências da variável quantitativa discreta “tamanho da ninhada” de coelhos
(Tabela 3) foi construída de maneira análoga à da variável qualitativa raça da mãe. Nesta tabela pode-
mos perceber, por exemplo, que é mais freqüente encontrarmos ninhadas de tamanho 4 ou 5, que
juntas totalizaram 40% das ninhadas.
Tabela 3 Distribuição de freqüências do tamanho de ninhadas de coelhos desmamados no primeiro

trimestre de 1989.
Tamanho da Freqüência
ninhada absoluta (fi) percentual (fpi)
1 1 2,5
2 2 5,0
3 7 17,5
4 8 20,0
5 8 20,0
6 6 15,0
7 5 12,5
8 2 5,0
9 1 2,5
Total de ninhadas 40 100,0
Já a construção de distribuições de freqüências para variáveis quantitativas contínuas é um

pouco mais trabalhosa, pois os dados precisam ser agrupados, não mais em categorias, mas sim em
classes de freqüências.

7
Para ilustrar tal procedimento, vamos utilizar os dados de pesos (em gramas) de 40 coelhos
desmamados, que são apresentados a seguir:
770 716 900 808 910 960 1020 1000 1000 960
697 880 1040 963 992 940 560 798 552 657
842 860 817 842 727 830 1000 823 731 873
823 657 878 583 666 883 737 750 492 699
Para facilitar o agrupamento dos pesos, podemos ordená-los segundo sua ordem crescente de
grandezas, resultando em:
492 552 560 583 657 657 666 697 699 716
727 731 737 750 770 798 808 817 823 823
830 842 842 860 873 878 880 883 900 910
940 960 960 963 992 1000 1000 1000 1020 1040
Para decidirmos quantas classes de freqüência serão usadas, precisamos conhecer a amplitude
(H) do conjunto de dados, que é definida como a diferença entre o maior e o menor dos valores obser-
vados. Para o conjunto de pesos em questão, H = 1040 − 492 = 548g, ou seja, os pesos variam dentro
de um intervalo de 548 unidades. Vamos dividir esse intervalo de H = 548 unidades em k = 6 classes de
tamanho h = 100 gramas (note que a amplitude de classe h ≅ H/k e é um múltiplo de dez), quais sejam:
490 |− 590; 590 |− 690; 690 |− 790; 790 |− 890; 890 |− 990 e 990 |− 1090
Cada classe de freqüências é definida por dois números denominados limites inferior (Li) e
superior (li) da classe. Por exemplo: a primeira classe (i = 1) tem limite inferior igual L1 = 490g, limite
superior l1 = 590g e deverá incluir todos os pesos iguais ou maiores a 490 e menores que 590 gramas; a
última classe (i = 6) tem limite inferior L6 = 990g, limite superior l6 = 1090g e deverá incluir todos os
pesos iguais ou maiores a 990 e menores que 1090 gramas.
Após a definição das classes de freqüência, precisamos classificar cada um dos 40 pesos
médios em uma destas classes, obtendo assim as respectivas freqüências absolutas (f i).
Outra medida bastante usada em distribuições de freqüências é a freqüência acumulada que
indica quantos elementos (Fi), ou qual a proporção (Fri), ou ainda, qual a porcentagem (Fpi) de elementos
que estão abaixo do limite superior da classe i (i = 1, 2, ..., k).
Quando resumimos os resultados de uma variável contínua em classes de freqüências sempre
perdemos alguma informação. Por exemplo: na confecção da Tabela 4, perdemos a informação sobre
os valores numéricos individuais dos quatro pesos classificados na primeira classe de freqüência. Para
representar bem uma classe de freqüência, elegemos o seu ponto médio, que é calculado como o valor
médio dos limites inferior e superior da classe. Por exemplo: o ponto médio da primeira classe é igual a
Pm1 = (490 + 590)/2 = 540 gramas e assumimos que os quatro pesos incluídos na primeira classe são
todos iguais a este valor.
Tabela 4. Distribuição de freqüências dos pesos de coelhos desmamados no primeiro trimestre de 1989.
Peso (g) fi Pmi fri fpi Fi Fri Fpi

490 |- 590 4 540 0,100 10,0 4 0,100 10,0
590 |- 690 3 640 0,075 7,5 7 0,175 17,5
690 |- 790 8 740 0,200 20,0 15 0,375 37,5
790 |- 890 13 840 0,325 32,5 28 0,700 70,0
890 |- 990 6 940 0,150 15,0 34 0,850 85,0
990 |- 1090 6 1040 0,150 15,0 40 1,000 100,0
Total 40 - 1,000 - - - -

8
Com base na Tabela 4, podemos afirmar, por exemplo, que:

• é mais freqüente encontrarmos coelhos ao desmame com pesos entre 790 e 890 gramas;
• essa classe de peso inclui 32,5% dos coelhos;
• 70% dos coelhos ao desmame têm peso médio inferior a 890 gramas;
• 15% dos coelhos ao desmame têm peso igual ou superior a 990 gramas etc.
Ainda sobre as distribuições de freqüências, é sempre bom lembrar que:

• as escolhas do número (k) de classes e dos seus limites (inferior e superior) são arbitrárias;
• com um número pequeno de classes perde-se muita informação e com um número grande o
objetivo de resumir os dados fica prejudicado;
• é de bom senso construir classes de mesma amplitude (h), pois isto facilitará bastante os cálculos
baseados em tabelas de freqüência;
• sempre que possível, construir classes cujas amplitudes são múltiplos de 10;
• uma fórmula empírica para calcular o número de classes: k = 1 + 3,3Log(n). Por esta fórmula,
para n = 40 pesos, precisaríamos construir k = 1 + 3,3Log(40) = 6,287 ≅ 6 classes!
2.1. REPRESENTAÇÃO GRÁFICA DE DISTRIBUIÇÕES DE FREQÜÊNCIAS
A representação gráfica de uma distribuição de freqüências pode ser feita, principalmente, atra-
vés de histogramas e do dispositivo chamado ramo-e-folhas ("stem-and-leaf").
O Histograma é a representação gráfica de uma distribuição através de retângulos proporcionais
à freqüência absoluta (ou proporcional ou percentual) de cada classe ou categoria. No caso de variáveis
discretas, os retângulos ou segmentos de reta deverão estar separados uns dos outros e no caso de
variáveis contínuas, esses retângulos deverão ser justapostos (colados um ao outro).
As Figuras 7 e 8 apresentam exemplos de histogramas associados às variáveis tamanho de
ninhada (variável discreta) e peso de coelhos desmamados (variável contínua), respectivamente. Os
retângulos do histograma da Figura 8 têm alturas proporcionais às freqüências absolutas e bases
constituídas por segmentos cujos extremos representam os limites inferior e superior das classes de
freqüências. Para melhorar o entendimento, podemos colocar acima de cada retângulo o valor da
freqüência absoluta, relativa ou percentual da respectiva classe de freqüência.
9
8 8
8
7
7
6
6
5
5
Número
3
2 2
2
1 1
1
0
1 2 3 4 5 6 7 8 9
Tamanho da ninhada de coelhos
Figura 7. Histograma de freqüências absolutas do tamanho de ninhadas de coelhos
Uma outra representação gráfica que também pode ser utilizada com variáveis contínuas é o
chamado Polígono de Freqüências (ver Figura 9), que se obtém unindo-se os pontos médios dos
patamares. Para completar a figura e formar o polígono, consideram-se duas classes laterais com
freqüências nulas.

9
14
12
10
Freqüência absoluta
8
0
390 490 590 690 790 890 990 1090 1190
Peso de coelhos ao desmame (g)
Figura 8. Histograma de freqüências absolutas dos pesos (em gramas) de coelhos desmamados no
primeiro trimestre de 1989.
14
13
12
10
Freqüência absoluta
8
8
6 6
6
4
4
3
0 0
0
390 490 590 690 790 890 990 1090 1190
Figura 9. Polígono das freqüências absolutas dos pesos (em gramas) de coelhos desmamados no
primeiro trimestre de 1989.
100
85
80
70
60
Porcentagem
38
40
20 17
10
0
0
390 490 590 690 790 890 990 1090 1190
Figura 10. Ogiva de Galton das freqüências percentuais acumuladas dos pesos (em gramas) de coelhos
desmamados no primeiro trimestre de 1989.

10
O gráfico mais indicado para descrever as freqüências acumuladas é chamado ogiva de Galton.
Uma Ogiva de Galton das freqüências percentuais acumuladas é definida como uma linha poligonal que
une os pontos (li, Fpi), onde li é o limite superior e Fpi é a freqüência percentual acumulada da classe i. A
Figura 10 apresenta a ogiva de Galton dos pesos (em gramas) de coelhos desmamados no primeiro
trimestre de 1989.
Um procedimento alternativo usado também para resumir um conjunto de dados é o Diagrama
de Ramos-e-Folhas. Este dispositivo é, na realidade, uma variação da distribuição de freqüências, com
uma forma de apresentação que facilita muito a observação de características importantes dos dados,
tais como: distribuição, simetria, presença de valores discrepantes, concentração de observações etc.
No dispositivo de ramo-e-folhas, cada linha é um ramo e cada valor em uma linha é uma folha.
O número de ramos (linhas) pode ser determinado, aproximadamente, através da fórmula:
R = [10.log(n)]
onde [ • ] representa o maior número inteiro que não ultrapassa o argumento.
A Figura 11 ilustra o diagrama de ramo-e-folhas do peso (em gramas) de coelhos desmamados
no primeiro trimestre de 1989. Note que na primeira coluna estão os algarismos das centenas e as
folhas são formadas por dois algarismos correspondentes às dezenas e unidades dos pesos. Observe
também que:
• os valores correspondentes às folhas estão ordenados;
• uma classe típica (com maior freqüência) deste conjunto de dados é a que inclui pesos de coe-
lhos desmamados entre 800 e 900 gramas;
• a distribuição é levemente assimétrica;
• o peso de 492 gramas é um candidato a valor discrepante (muito pequeno!).
4 92
5 52 60 83
6 57 57 66 97 99
7 16 27 31 37 50 70 98
8 08 17 23 30 42 42 60 72 72 78 80 83
9 00 10 40 60 60 62 92
10 00 00 00 20 40
Figura 11. Ramo-e-folhas dos pesos (em gramas) de coelhos desmamados no primeiro trimestre de
1989.

11
3. ALGUMAS MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS
Já percebemos que a redução dos dados através de diagramas de ramo-e-folhas e tabelas de

freqüências fornece mais informações sobre o comportamento de uma variável do que a própria série
original de dados. O problema que se apresenta agora é o de analisar essas variáveis com o intuito de
descrever os seus aspectos mais importantes. Procuraremos resumir ainda mais esses conjuntos de
dados, através de alguns valores representativos da série.
3.1. MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL
As medidas de posição ou de tendência central visam determinar o centro de uma distribuição.

A seguir, estudaremos, com alguns detalhes, as seguintes medidas de posição: média aritmética, moda
e mediana.
A média aritmética (Me) é definida como a soma das observações dividida pelo número delas.
Se uma variável X assume os valores x1, x2, ..., xn, a média da variável X é calculada como:
n
x1 + x 2 + ~ + xn j =1
xj ∑
Me(X) = = (1)
n n
Por exemplo, a média aritmética dos valores 6, 4, 8 e 4 é igual a Me(X) = (6+4+8+4)/4 = 5,5.
Quando os dados de uma variável quantitativa discreta (X) são apresentados numa tabela de
freqüências, a média pode ser calculada através da fórmula:
k
x × f + x 2 × f2 + ~ + x k × fk
∑xf
i =1
i i
Me(X) = 1 1 = (2)
n n
Por exemplo, a partir da distribuição de freqüências do tamanho das ninhadas,

Tamanho da
fi
ninhada
1 1
2 2
3 7
4 8
5 8
6 6
7 5
8 2
9 1
Total 40
⇒ a sua média é igual a Me(X) =

(1 × 1 + 1 × 2 + + 9 × 1)
=
194
= 4,85 coelhos/ninhada.
40 40
No caso de uma variável quantitativa contínua, cujos dados estão tabulados numa distribuição
de freqüências, a média pode ser obtida de modo similar, através da fórmula:
k
Pm1 × f1 + Pm 2 × f 2 + + Pm k × f k i =1
Pm i fi ∑
Me(X) = = , (3)
n n
onde Pmi é o ponto médio da classe i e é considerado o valor mais representativo desta classe.
12
Por exemplo, a partir da distribuição de freqüências dos pesos de coelhos ao desmame:

Peso (g) fi Pmi
490 |− 590 4 540
590 |− 690 3 640
690 |− 790 8 740
790 |− 890 13 840
890 |− 990 6 940
990 |− 1090 6 1040
Total 40 -
⇒ a média aritmética é igual a: Me(X) =

(540 × 4 + + 1040 × 6 )
=
32800
= 820 gramas.
40 40
A moda (Mo) de uma série é definida como "o seu valor mais freqüente”. Embora o seu signifi-
cado seja bastante simples, a moda nem sempre existe e nem sempre é única. Por exemplo, na série
de valores de tamanhos de ninhada (ver Tabela 3), temos duas modas: 4 e 5 (que ocorrem 8 vezes), ou
seja, são mais freqüentes ninhadas com 4 e 5 coelhos. Dizemos, neste caso, que o tamanho de ninha-
das é uma série bimodal.
Se quisermos estimar o valor da moda de um conjunto de dados oriundos de uma variável con-
tínua (X), apresentados numa distribuição de freqüência, podemos utilizar a seguinte fórmula:
(fmo − f a )
×h
(fmo − fa ) + (fmo − fp )
Mo(X) = Lmo + (4)
onde: Lmo é o limite inferior da classe modal (de maior freqüência); f mo é a freqüência absoluta da classe
modal; f a é a freqüência absoluta da classe anterior à modal; f p é a freqüência absoluta da classe
posterior à modal e h é a amplitude da classe modal.
Por exemplo, a moda do peso de coelhos ao desmame é:
⇒ Mo(X) = 790 +
(13 − 8) × 100 = 790 + 41,7 = 831,7 gramas, ou seja, é mais freqüente en-
(13 − 8) + (13 − 6)
contrarmos coelhos desmamados com peso de 831,7 gramas.
A mediana (Md) é definida como "o valor que ocupa a posição central da série ordenada se-
gundo sua ordem de grandeza". Desse modo, quando o número (n) de valores da série é ímpar a
mediana é igual ao valor que ocupa a posição (n+1)/2 e se n é par, a mediana coincide com a média
aritmética dos dois valores centrais, que ocupam as posições n/2 e (n+2)/2.
Por exemplo, para calcularmos a mediana do tamanho da ninhada precisamos, primeiramente,
ordenar os seus valores:
13
1 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 5 5
5 5 5 5 5 5 6 6 6 6 6 6 7 7 7 7 7 8 8 9
⇒ a mediana do tamanho de ninhadas é igual à média dos valores que ocupam as posições 40/2 = 20 e
42/2 = 21 da série ordenada, ou seja, Md(X) = (5+5)/2 = 5 coelhos/ninhada. Neste caso, podemos
afirmar que 50% das ninhadas têm tamanho inferior (ou superior) a 5 coelhos.
No caso de variáveis contínuas, quando os dados já estão tabulados numa distribuição de fre-
qüências, a mediana pode ser calculada através da fórmula:
n 
 − Fa 
2 
Md(X) = Lmd + ×h (5)
f md
onde: Lmd é o limite inferior da classe que contem a mediana (classe mediana); n é o número de ele-
mentos da série; Fa é a freqüência acumulada da classe anterior à classe mediana; f md é a fre-
qüência absoluta da classe mediana e h é a amplitude da classe mediana.
Usando esta fórmula, podemos calcular a mediana do peso de coelhos ao desmame:
 40 
 − 15 
 2 
⇒ Md = 790 + × 100 = 790 + 38,5 = 828,5 gramas e podemos afirmar que em 50% das ni-
13
nhadas encontramos coelhos com peso ao desmame inferior (ou superior) a 828,5 gramas.
Qualquer uma das medidas de posição calculadas: Me = 820,0, Mo = 831,7 ou Md = 828,5

gramas pode representar (ou resumir) bem a série de pesos de coelhos ao desmame. Não temos ainda
um critério para decidir qual medida é a melhor ou a mais representativa da série.
Além da mediana existem outras medidas de ordem que têm a propriedade de deixar a sua
esquerda uma certa proporção (ou porcentagem) das observações da série ordenada. Essas medidas
são denominadas, genericamente, de separatrizes ou quantis. As principais separatrizes são os quartis
e os percentis.
• QUARTIS (Qj, j = 1, 2 e 3): são os valores que dividem a série ordenada em 4 partes iguais e foram
utilizados, primeiramente, por GALTON (1882). O quartil inferior (Q1) de uma série ordenada é o
valor que deixa 25% dos valores à sua esquerda e 75% dos valores à sua direita; o quartil superior
(Q3) é o valor da série que deixa 75% dos valores à sua esquerda e 25% dos valores à sua direita.
Quando o tamanho da série (n) é um múltiplo de 4, o primeiro quartil (Q1) corresponde à média entre
os valores que ocupam as posições n/4 e (1+n/4) e o terceiro quartil, à média entre os valores que
ocupam as posições 3n/4 e (1+3n/4). Quanto n é impar ou não é um múltiplo de 4, deveremos usar
interpolação (ver exemplo apresentado a seguir).

14
• PERCENTIS (Pj, j = 1, 2,..., 99) são os valores que dividem a série ordenada em 100 partes iguais e
foram utilizados, primeiramente, por GALTON (1885). O percentil Pj de uma série ordenada, é o
valor que deixa j% dos valores da série à sua esquerda e (100-j)% dos valores à sua direita. Vale a
pena notar que: Q1 = P25; Q2 = Md = P50 e Q3 = P75.
No caso de uma variável discreta, o percentil Pj (ou o quartil Qj) é calculado como o valor da
n× j
série ordenada que ocupa a posição . Para a série ordenada de tamanhos de ninhada:
100
1 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 5 5
5 5 5 5 5 5 6 6 6 6 6 6 7 7 7 7 7 8 8 9
• o quartil inferior (Q1 = P25) é a média entre o 10 e o 11 valores da série, ou seja, Q1 = P25 = (3+4)/2
o o
= 3,5 coelhos/ninhada é o valor que deixa 25% dos valores da série ordenada à sua direita e 75% à
sua esquerda;
• de modo análogo, o segundo quartil, que corresponde à mediana da série, Q2 = Md = P50 = (5+5)/2 =
5 coelhos/ninhada, deixa 50% dos valores à esquerda e 50% dos valores à direita;
• o quartil superior (Q3 = P75) é a média entre o 30 e o 31 valores da série, ou seja, Q3 = P75 =
o o
(6+6)/2 = 6 coelhos/ninhada é o valor que deixa 75% dos valores da série ordenada à sua esquerda e
25% à sua direita.
No caso da posição do percentil (ou quartil) não ser um número inteiro, devemos usar interpo-
o 45 × 25
lação. Por exemplo, a posição do 25 percentil de uma série com n = 45 valores é = 11,25.
100
o o
Neste caso, P25 = X11 + 0,25 (X12-X11), onde X11 e X12 são, respectivamente, o 11 e 12 valores da série
ordenada.
Para variáveis contínuas apresentadas em tabelas de freqüências calculamos o j-ésimo quartil

(j = 1, 2 e 3) através da fórmula:
 j×n 
 − Fa 
Qj = LQj +  4 ×h (6)
 f Qj 
 
 
onde: LQj é o limite inferior da classe que contem o j-ésimo quartil; j é a ordem do quartil; n é o número
de elementos da série; Fa é a freqüência acumulada da classe anterior à classe que contem o
quartil; f Qj é a freqüência absoluta da classe que contem o quartil e h é a amplitude desta classe.
De maneira análoga, calculamos o j-ésimo percentil (j = 1, 2, ..., 98, 99) através da seguinte
fórmula:
 j×n 
 − Fa 
Pj = LPj +  100 ×h (7)
 f Pj 
 
 
Utilizando as fórmulas já definidas e a distribuição de freqüências dos pesos de coelhos desma-

mados (Tabela 4), vamos calcular algumas separatrizes:
10 − 7 30 − 28
• Q1 = P25 = 690 + × 100 = 727,5g; Q3 = P75 = 890 + × 100 = 923,3g.
8 6
6−4 36 − 34
• P15 = 590 + × 100 = 656,7g; P90 = 990 + × 100 = 1023,3g.
3 6
15
Freqüentemente estamos interessados em saber qual é a posição que um determinado valor

ocupa numa certa série ordenada de valores. Se os dados (variável contínua) já estão agrupados numa
distribuição de freqüências, a posição "j" do valor Pj pode ser estimada pela fórmula:
( )
 Pj − L Pj × fPj  100
j=  + Fa  × (7a)
 h  n
Ainda no exemplo dos pesos de coelhos desmamados (Tabela 4), queremos calcular a porcen-
tagem de animais com peso superior a 1000g e vamos usar a fórmula (7a) para fazermos isso:
 (1000 − 990 ) × 6  100
j=  + 34  × = 86,5
 100  40
então, podemos concluir que abaixo de 1000g estão 86,5% dos coelhos e acima deste peso, 13,5%.
Algumas considerações importantes sobre as medidas de posição:

• a média aritmética é a medida mais usada para representar uma série;
• a média aritmética é bastante influenciada por valores aberrantes ou discrepantes (muito grandes
ou muito pequenos), o que não acontece com a moda e a mediana;
• em se tratando de dados agrupados em classes de freqüências, os valores da média, moda e
mediana são afetados pela maneira como as classes de freqüências são escolhidas e pela quanti-
dade delas;
• para distribuições de freqüências unimodais e moderadamente assimétricas vale a relação empí-
rica: Média - Moda ≅ 3(Média - Mediana).
3.2. MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE
As medidas de tendência central dão o valor da abcissa de um ponto, em torno do qual os

dados se distribuem. Assim, com a informação de que o tamanho médio de ninhadas de coelhos é apro-
ximadamente igual a 5 coelhos (4,85 coelhos, exatamente), nada podemos concluir sobre a distribuição
dos dados ao redor desse valor central. Numa situação mais crítica temos séries diferentes com médias
iguais como, por exemplo, as seguintes séries de idades de três grupos de alunos:
Grupo A: 18 19 19 20
Grupo B: 19 18 17 19 22
Grupo C: 19 19 19
cujas distribuições, em torno da média (19 anos), podem ser visualizadas nos gráficos:
Grupo A Grupo B Grupo C
3 3 3
2 2 2
1 1 1
0 0 0
17 18 19 20 21 22 17 18 19 20 21 22 17 18 19 20 21 22
Idade (anos) Idade (anos) Idade (anos)
Torna-se conveniente a criação de uma medida de dispersão, que resuma a variabilidade de

uma série de valores e que nos permita, por exemplo, comparar diferentes séries quanto a distribuição
dos seus valores em torno de uma medida de posição.

16
Freqüentemente, são definidas medidas de dispersão em torno da média aritmética, como por
exemplo: o desvio médio, a variância e o desvio padrão, que serão apresentados, com detalhes, a
seguir.
O Desvio Médio [DM(X)] de uma variável quantitativa é definido como a soma dos módulos
dos desvios de cada observação em relação à média, dividida por n, ou seja:
n
∑X
i =1
i − Me( X)
DM(X) = (8)
n
A Variância [Var(X)] é definida como a soma dos quadrados dos desvios de cada observação
em relação à média, dividida por n, ou seja:
n
∑ [X − Me( X )]
2
i
i =1
Var(X) = (9)
n
Sendo a variância uma medida que expressa um desvio quadrático médio, sua unidade de
medida é igual ao quadrado da unidade de medida da variável estudada. Devido a este fato, convém
definirmos uma outra medida de dispersão que tenha a mesma unidade de medida da variável em
estudo. Esta medida é o Desvio Padrão [DP(X)], que corresponde à raiz quadrada positiva da
variância, ou seja:
DP(X) = + Var( X ) (10)
Tendo sido definidas estas medidas de dispersão, podemos calcular os seus valores para os três
grupos de idades:
Grupo A: DM(X) = 0,50; Var(X) = 0,50 e DP(X) = 0,7071
Grupo B: DM(X) = 1,20; Var(X) = 2,80 e DP(X) = 1,6733
Grupo C: DM(X) = Var(X) = DP(X) = 0
e podemos dizer que o Grupo C é o mais homogêneo porque tem os menores valores para o desvio
médio, variância e desvio padrão. O Grupo B é o mais heterogêneo porque tem os maiores valores para
o desvio médio, variância e desvio padrão.
Quando os valores de uma variável discreta estão agrupados em classes de freqüências, as

fórmulas de cálculo do desvio médio e da variância precisam ser adaptadas:
k
∑X
i =1
i − Me( X) × f i
DM(X) = (11)
n
k
∑ [X
i=1
i − Me( X)] × f i
2
Var(X) = (12)
n
Para os dados de tamanho da ninhada (Tabela 3) temos:

1 − 4,85 × (1) + 2 − 4,85 × (2) + + 9 − 4,85 × (1)
• DM(X) = = 1,46 coelhos/ninhada
40
• Var(X) =
(1 − 4,85)2 (1) + + (9 − 4,85 ) (1)
2
=
129,10
= 3,2275 (coelhos/ninhada)
2
40 40
• DP(X) = 3,2275 = 1,80 coelhos/ninhada.

17
Quando os valores de uma variável contínua estão agrupados em classes de freqüências, usa-
mos as seguintes fórmulas de cálculo do desvio médio e da variância:
k
∑ Pm
i=1
i − Me( X) × f i
DM(X) = (13)
n
k
∑ [Pm
i=1
i − Me( X)] × f i
2
Var(X) = (14)
n
Para o peso de coelhos ao desmame temos:

540 − 820 × 4 + 1040 − 820 × 6
• DM(X) = = 115 gramas
40
• Var(X) =
(540 − 820 )2 ( 4) + + (1040 − 820 ) (6)
2
=
844.000
= 21.100 gramas
2
40 40
• DP(X) = 21100
. = 145,26 gramas
Uma medida de dispersão (relativa) que pode ser usada na comparação de variáveis que te-
nham unidades de medida diferentes é o Coeficiente de Variação [CV(X)], que tem como unidade de
medida a porcentagem e é calculado por:
100 × DP( X)
CV(X) = (15)
Me( X)
O Coeficiente de Variação do tamanho da ninhada é CV(X) = (100x1,80)/4,85 = 37,1% e do
peso de coelhos ao desmame é CV(X) = (100x145,26)/820 = 17,7%. Comparando estas duas variáveis
quanto ao valor do coeficiente de variação, podemos afirmar que o tamanho da ninhada tem uma
dispersão relativa maior que o peso de coelhos ao desmame.
Uma outra estratégia de análise, denominada Esquema dos Cinco Números, sugerida por
TUKEY (1977), envolve o cálculo de cinco medidas: a mediana, os extremos (o menor e o maior valores
da série) e os quartis (ou juntas) inferior e superior.
Por exemplo, para o tamanho da ninhada, temos: Q1 = 3,5; Q3 = 6; Md(X) = 5 e os extremos
inferior e superior são 1 e 9, respectivamente. Para a distribuição de freqüências do peso de coelhos ao
desmame (Tabela 4), temos: Q1 = 727,5g; Md = 828,5g; Q3 = 923,3g e os extremos inferior e superior
são 490 e 1040g, respectivamente. O Esquema dos Cinco Números dessas duas variáveis são repre-
sentados por:
(a) Tamanho da ninhada (b) Peso de coelhos ao desmame
n=40 n=40
Md(X) 5 Md(X) 828,5
J 3,5 6,0 J 727,5 923,3
∗ 1,0 9,0 ∗ 490,0 1090,0
As informações contidas no Esquema dos Cinco Números podem ser traduzidas num Desenho
Esquemático ou Box-Plot, que tem as seguintes características:
a) o grosso das observações está numa caixa retangular de amplitude df = Q3 - Q1, que é chamado
intervalo inter-quartílico;
b) um traço transversal na caixa indica a posição da mediana Md(X) = Q2;

18
c) os valores Q1 − 1,5df e Q3 + 1,5df são chamados de limites críticos inferior e superior da série, res-
pectivamente;
d) a partir de Q3 (e de Q1 ) é traçada uma linha paralela ao eixo das abcissas até o ponto mais afastado
da série, que pode ser o limite crítico superior (e inferior) ou até o maior (e menor) valor observado;
e) a posição dos limites críticos ou dos extremos é marcada com traços verticais;
f) os valores da série que se localizarem além (ou aquém) do limite crítico superior (ou inferior) são
identificados no gráfico com um círculo cheio (ou um “x” ou um asterisco) e são chamados “outliers”
ou valores discrepantes.
Figura 12. Exemplo de um desenho esquemático ou box-plot
O Box-plot permite a comparação de diferentes conjuntos de dados através de algumas caracte-

rísticas de sua distribuição (simetria e dispersão, por exemplo), além de indicar a presença de pontos
discrepantes (“outliers”) que se destacam no conjunto de valores. A localização da série é representada
pela mediana; o comprimento da caixa mostra-nos qual a dispersão dos dados e, a partir da localização
da mediana e dos quartis inferior e superior, inferimos qual é o tipo de assimetria da distribuição. Neste
caso, se a mediana está mais perto do quartil inferior do que do quartil superior, há uma indicação de
que a distribuição tem uma assimetria positiva (ou à direita).
10 1150
1050
8
950
6 850
750
4
650
2
550
0 450
Tamanho da ninhada Peso ao desmame (g)
Figura 13. Desenhos esquemáticos do tamanho da ninhada e do peso de coelhos ao desmame
Para a construção do box-plot do peso ao desmame temos:

• menor valor é 490,0g e maior valor é 1040g
• df = 923,3-727,5 = 195,8g;
• limite crítico inferior: Q1 - 1,5df = 727,5 - 1,5x195,8 = 433,8g;
• limite crítico superior: Q3 + 1,5df = 923,3 + 1,5x195,8 = 1217,0g;
• as linhas horizontais traçadas a partir de Q1 e de Q3 encontram primeiramente o menor (490,0) e
o maior (1040,0) valores, respectivamente;
• a posição desses valores deve ser indicada com traços verticais;

19
Baseado nos box-plots apresentados na Figura 13, podemos afirmar que:

• tanto a série de dados de tamanho de ninhadas quanto à de pesos ao desmame são levemente
assimétricas à direita, a primeira um pouco mais que a última;
• nenhuma das séries apresenta valores discrepantes ou “outliers”.
3.3. MEDIDAS DE ASSIMETRIA E DE ACHATAMENTO
Uma distribuição de freqüências é chamada simétrica em torno de um valor “A”, (que

geralmente é uma medida de posição), se todos os pontos eqüidistantes deste valor tiverem a mesma
freqüência.
Assimetria (ou “skewness”) é definido como o grau do desvio ou de afastamento da simetria de
uma distribuição. Se a curva de freqüências da distribuição tem uma cauda mais longa à direita (Figura
14.a), dizemos que a distribuição tem uma assimetria positiva ou à direita; se tem uma cauda mais longa
à esquerda (Figura 14.b), diz-se que tem uma assimetria negativa ou à esquerda.
(a) assimetria positiva ou à direita (b) assimetria negativa ou à esquerda

Figura 14. Exemplo de distribuições assimétricas
Baseado no fato de que em distribuições assimétricas a média tende a situar-se entre a moda e
a cauda mais longa, Pearson propôs o seguinte coeficiente de assimetria, que é baseado na diferença
entre a média e a moda:
Me( X) − Mo( X )
sk = (16)
DP( X)
Baseado no valor dessa medida, uma distribuição é:

• assimétrica negativa ou tem uma assimetria negativa(ou à esquerda), se sk < 0;
• simétrica se sk = 0 e
• assimétrica positiva ou tem uma assimetria positiva (ou à direita), se sk > 0.
Para a distribuição dos pesos de coelhos ao desmame, temos que o seu coeficiente de assime-
tria é sk = (820 - 831,7)/145,26 = -0,08. Avaliando este valor e a Figura 8, podemos dizer que a distribui-
ção de pesos de coelhos ao desmame é levemente assimétrica à esquerda, ou tem uma leve assimetria
negativa.
Define-se como Curtose o grau de achatamento de uma distribuição (ver Figura 14). Quanto ao
grau de achatamento uma distribuição é chamada:
• leptocúrtica: quando ela tem um topo relativamente alto;
• mesocúrtica: quando ela tem um topo nem muito alto nem muito achatado, e
• platicúrtica: quando ela tem o topo muito achatado.

20
Para variáveis quantitativas, podemos calcular o Coeficiente de Curtose, que é baseado no

quarto momento centrado na média:
n
∑ [X ]
1 4
i − Me( X)
n i =1
g2 = 2 (17)
 1 n
2


 n
∑ [X
i =1
i ]
− Me( X) 

Quando os dados da variável contínua estiverem tabulados numa distribuição de freqüências, o

coeficiente de curtose é calculado através de:
k
∑ [Pm − Me( X)] × fi

1 4
i
n i=1
g2 = 2
(18)
 1 k 

 n
∑ [Pm
i=1
i − Me( X)]
2
× fi 

Comparativamente à distribuição normal, que tem coeficiente de curtose g2 = 3, definimos como

leptocúrtica uma distribuição com g2 > 3; como platicúrtica, uma distribuição com g2 < 3 e como meso-
cúrtica uma distribuição com g2 ≅ 3.
Figura 15. Exemplo de distribuições com diferentes graus de achatamento ou curtose.
19,2324
Para os dados de tamanho de ninhada (Tabela 3, página 6) temos g2 = = 1,85, ou
10,4168
seja, a distribuição de tamanhos de ninhada é platicúrtica. Para os dados de peso de coelhos ao
1.084 .120 .000
desmame (Tabela 4, página 7) temos que g2 = = 2,44, ou seja, a distribuição de pesos
445.210.000
ao des-mame é levemente achatada, pois o valor do coeficiente de achatamento está próximo de 3.
Comparati-vamente, a distribuição de dados de tamanhos de ninhada é mais achatada que a de pesos
de coelhos ao desmame.

21
4. PROBABILIDADES
Até a aula anterior preocupamo-nos em descrever as características principais de fenômenos

casuais, através de gráficos, distribuições de freqüências e medidas de tendência central, de dispersão,
de assimetria e de achatamento das variáveis associadas a esses fenômenos. Com base nesses valores
pudemos entender o comportamento de alguns conjuntos de dados.
A partir de agora, com suposições adequadas e sem observar o fenômeno, iremos criar um mo-
delo teórico que reproduza bem a distribuição de freqüências dos dados observados. Tais modelos são
chamados de Modelos Probabilísticos.
Historicamente, a Teoria da Probabilidade começou a ser desenvolvida por volta de 1650, com
Pascal, juntamente com o estudo de jogos de azar (roleta, dados, cartas, etc.). Esses jogos envolvem
duas características básicas: a incerteza e a regularidade. Assim, ao lançarmos um dado não é certo
que apareça a face 1. Entretanto, se repetirmos esse experimento muitas vezes, esperamos que todas
as faces do dado ocorram um número igual (ou bem próximo) de vezes.
Essas características criaram a idéia de que seria possível achar uma fórmula que permitisse ao
jogador ganhar sempre ou, pelo menos, ganhar muitas vezes. Sabemos (?) que isso não é possível,
porem essa idéia incentivou o estudo de tais jogos, o que levou, mais tarde, à formulação da Teoria da
Probabilidade, que é a base da Inferência Estatística.
4.1. DEFINIÇÕES INICIAIS
O conjunto de todos os resultados possíveis de um experimento aleatório é chamado de espaço

amostral e é denotado pela letra S (ou pela letra grega omega, Ω). Um elemento de S é chamado de
ponto amostral. Evento é qualquer subconjunto do espaço amostral, S, sendo representado por letras
maiúsculas. O evento que consiste de um único ponto amostral é chamado evento elementar ou evento
simples. O conjunto vazio, denotado pela letra grega ∅ (fi), é chamado evento impossível e S, o espaço
amostral, é chamado de evento certo.
Exemplo 4.1. Um experimento consiste em sortear três leitões de uma certa ninhada e anotar o
sexo de cada um deles (“M” para macho e “F” para fêmea). Os resultados possíveis desse experimento
são:
S = {MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF}
Os eventos A: "o primeiro leitão é macho" e B: "somente dois dos leitões são machos" são re-
presentados pelos conjuntos:
A = {MMM, MMF, MFM, MFF} e B = {MMF, MFM, FMM}
Podemos combinar dois eventos quaisquer, A e B, usando as operações de conjuntos, que já

são bastante conhecidas:
(i) a união dos eventos A e B é um novo evento, denotado por A B, que é formado pelos elementos
que são de A, de B ou de ambos;
(ii) a interseção dos eventos A e B é um novo evento, denotado por A B, que é formado pelos ele-
mentos que são de A e de B, simultaneamente.
(iii) o complementar do evento A em relação ao espaço amostral, S, é um novo evento, denotado
c
por A , que é formado por todos os elementos que não são de A;
(iv) a diferença entre os eventos A e B é um novo evento, A-B, formado pelos elementos de A que
não pertencem a B.
Dizemos que dois eventos A e B são mutuamente exclusivos ou disjuntos se não têm pontos
amostrais comuns, ou seja, se A B=∅. Dois eventos, A e B, são chamados exaustivos se juntos
(unidos) formarem o espaço amostral, ou seja, A B = S.

22
Usando os eventos A e B do Exemplo 4.1. temos:

(a) A B = {MMM, MMF, MFM, MFF, FMM} (b) A B = {MMF, MFM}
c
(c) A = {FMM, FFM, FMF, FFF} (d) A-B = {MMM, MFF} (e) B-A = {FMM}
Do item (a) concluímos que os eventos A e B não são exaustivos e do item (b), que não são mutua-
mente exclusivos.
As operações entre eventos possuem propriedades análogas àquelas válidas para operações
entre conjuntos. Por exemplo:
(a) (A B) = A (b) (A B) = A (c) A A = S (d) A A = ∅
c c c c c c c c
B B
(e) A ∅ = A (f) A ∅ = ∅ (g) A S = S (h) A S = A
c
(i) A = S - A
Para melhor visualizar as operações entre eventos podemos utilizar os Diagramas de Venn.
A B A B Ac
Figura 16. Diagramas de Venn: união e interseção de dois eventos e evento complementar.
4.2. AXIOMAS DE PROBABILIDADE
A definição clássica de probabilidade, que remonta dos estudos de jogos de azar, é a seguinte:
"Suponha que um evento A possa ocorrer de k maneiras diferentes num total de n maneiras possí-
veis e igualmente prováveis. Então, a probabilidade de ocorrência do evento A é definida como a
freqüência relativa k/n"
Essa definição clássica é dúbia, pois a idéia de "igualmente prováveis" é a mesma de "com
probabilidades iguais", a qual não foi definida anteriormente. Portanto, esta definição não serve para a
construção de modelos teóricos, embora sirva para calcularmos probabilidades em espaços finitos
equiprováveis. Por exemplo, se S = {s1, s2, ..., sn} é um espaço amostral finito e equiprovável (isto é,
todos os pontos amostrais têm a mesma probabilidade 1/n de ocorrer) e A é um evento com k pontos
amostrais (k<n), então P(A) = k/n.
O tratamento moderno da Teoria da Probabilidade é puramente axiomático (axioma é uma ver-
dade evidente e incontestável):
"Sejam S um espaço amostral, E uma classe de eventos e P uma função de valor real definida
em E. Então P é chamada função de probabilidade e P(A), a probabilidade do evento A, se os
seguintes axiomas são válidos:
a) 0 < P(A) < 1, para qualquer evento A;
b) P(S) = 1;
c) P(A B) = P(A) + P(B), se A e B são eventos mutuamente exclusivos;
d) Se A1, A2,... é uma seqüência de eventos mutuamente exclusivos, então, vale a igual-
dade: P(A1 A2 ...) = P(A1) + P(A2) + ..."

23
Desses axiomas, resultam alguns teoremas bastante importantes:

Teorema 1. P(∅) = 0
c
Teorema 2. P(A ) = 1 - P(A)
Teorema 3. Se A⊂B então P(A) < P(B)
Teorema 4. P(A-B) = P(A) - P(A B)
Teorema 5. P(A B) = P(A) + P(B) - P(A B), chamado Teorema da Soma de Eventos.
Exemplo 4.2. Escolha aleatoriamente uma carta de um baralho comum de 52 cartas. Sejam os
eventos A: "a carta sorteada é de espadas" e B: "a carta sorteada é uma figura". Então, a probabilidade
de ocorrência de cada um desses eventos é:
13 12
P(A) = = 0,25 e P(B) = ≅ 0,2308
52 52
A probabilidade da ocorrência simultânea de A e B, ou seja, da carta sorteada ser uma figura de espa-
3
das é igual a P(A B) = ≅ 0,0577 e a probabilidade da carta sorteada ser de espadas ou uma figura
52
13 12 3 22
é igual a P(A B) = P(A) + P(B) - P(A B) = + − = ≅ 0,4231, ou seja, se repetirmos o
52 52 52 52
sorteio de uma carta do baralho 1000 vezes, acreditamos que em aproximadamente:
• 250 das vezes, encontraremos uma carta de espadas;
• 231 das vezes, encontraremos uma figura;
• apenas 58 das vezes, encontraremos uma figura de espadas;
• em 423 das vezes, obteremos uma carta de espadas ou uma figura.
4.3. PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA
Definição 4.1. Para dois eventos quaisquer A e B, com P(B)>0, a probabilidade do evento A
ocorrer, dado que o evento B já ocorreu, ou a probabilidade condicional de A dado B, é definida por:

P(A B)
P(AB) = (19)
P(B)
Através desse diagrama de Venn, podemos

perceber que P(AB) avalia a probabilida-
de relativa de A, com respeito ao espaço
amostral reduzido B. A informação sobre a
ocorrência de B promoveu essa redução do
espaço amostral.
Para o Exemplo 4.1. a probabilidade do primeiro leitão ser um macho, dado que somente dois
P(MMF,MFM) 2
dos leitões são machos é igual a P(AB) = = ≅ 0,6667. Já para o Exemplo 4.2,
P(MMF,MFM,FMM) 3
a probabilidade da carta sorteada ser de espadas, dado que a carta é uma figura é igual a P(AB) =
3 / 52 1
= = 0,25 = P(A) , ou seja, a ocorrência do evento B não influenciou na ocorrência do evento
12 / 52 4
A, ou seja, podemos dizer que os eventos A e B são independentes.

24
Definição 4.2. Um evento B é dito independente de um outro evento A, se a probabilidade de B

ocorrer não é influenciada pelo fato de A já ter ocorrido ou não, isto é,
A) ou P(A) = P(A
A é independente de B se e somente se P(B) = P(B B)
Se multiplicarmos em cruz a equação da probabilidade condicional e usarmos o fato de que

A B = B A, obteremos a fórmula geral para o cálculo da probabilidade da multiplicação de dois
eventos A e B:
P(A B) = P(B A) = P(B) P(AB) = P(A) P(BA) (20)
que é chamada Teorema da multiplicação de dois eventos A e B.
Vale observar que, se os eventos A e B forem independentes, a probabilidade da ocorrência

simultânea dos eventos A e B é calculada por: P(A B) = P(A) P(BA) = P(A) P(B).
Para o Exemplo 4.1, a probabilidade do primeiro leitão ser um macho e somente dois dos
leitões sorteados serem machos, é igual a: P(A B) = P(B) P(AB) = (3/8) (2/3) = 1/4 = 0,25. Já para o
Exemplo 4.2, a probabilidade de uma carta sorteada ser de espadas e ser também uma figura é igual a
P(A B) = P(A) P(B) = (13/52)(12/52) = 3/52 ≅ 0,05769.
Exemplo 4.3. Consideremos três baias da granja de suínos com as características:

Baia 1: 10 leitões, 4 dos quais já foram vacinados;
Baia 2: 6 leitões, 1 dos quais já foi vacinado;
Baia 3: 8 leitões, 3 dos quais já foram vacinados.
O experimento consiste em selecionar uma das três baias e desta baia sortear um leitão. Qual é a
probabilidade deste leitão sorteado já estar vacinado?
Para descrevermos todas as possibilidades deste experimento podemos usar um Diagrama de Árvore.
Neste diagrama, os números 1, 2 e 3 identificam as baias, e as letras V e N identificam um leitão já va-
cinado ou não, respectivamente.
EVENTO PROBABILIDADE
1 V (1/3)(4/10) = 48/360 ≅ 0,1333
1 N (1/3)(6/10) = 72/360 ≅ 0,2000
2 V (1/3) (1/6) = 20/360 ≅ 0,0556
2 N (1/3) (5/6) = 100/360 ≅ 0,2778
3 V (1/3) (3/8) = 45/360 ≅ 0,1250
3 N (1/3) (5/8) = 75/360 ≅ 0,2083
A probabilidade de ocorrer um determinado caminho do diagrama é igual ao produto das

probabilidades encontradas em cada ramo do caminho (Teorema da Multiplicação). Por exemplo: a
probabilidade de escolhermos a Baia 1 e depois sortearmos um leitão vacinado, é igual a:
P(1 V) = P(1)xP(V1) = (1/3)x(4/10) = 48/360 ≅ 0,1333.
Como no diagrama acima existem três eventos (caminhos) que são mutuamente exclusivos e
que nos levam a um leitão vacinado, a probabilidade do leitão sorteado já estar vacinado é
P(V) = P(1 V) + P(2 V) + P(3 V) = (1/3)x(4/10) + (1/3)x(1/6) + (1/3)x(3/8) = 113/360

P(V) = 0,3139

25
e consequentemente, temos que:

P(N) = 1 - P(V) = 1 - (113/360) = 247/360

P(N) = 0,6861
ou seja, a probabilidade de um leitão sorteado já ter sido vacinado é 0,3139 e de ainda não ter sido
vacinado é 0,6861.
4.4. FÓRMULA DE BAYES
Suponhamos que os eventos A1, A2, ..., Ak formem uma partição do espaço amostral S, isto é,
os eventos Ai são mutuamente exclusivos e exaustivos. Seja B um outro evento qualquer. Então:
B = B S
= B (A1 A2 ... Ak)
= (B A1) (B A2) ... (B Ak)
onde os eventos (B Ai), para i = 1, 2, ..., k,

são também mutuamente exclusivos.
Consequentemente, temos que:

P(B) = P(B A1) + P(B A2) + ... + P(B Ak)
Usando o Teorema da Multiplicação de eventos, podemos escrever:
P(B) = P(A1)xP(BA1) + P(A2)xP(BA2) + ... + P(Ak)xP(BAk)

e então, a probabilidade condicional de um evento Ai dado que o evento B já ocorreu, é calculada pela
seguinte fórmula, chamada Fórmula de Bayes:

P(B Ai ) P( A i )xP(B A i )
P(AiB) = = (21)
P(B) P(B)
ou seja, para calcularmos a P(AiB) dividimos a probabilidade do caminho ⇒ Ai ⇒ B pela probabilidade
do espaço amostral reduzido B, formado por todos os caminhos que levam a este evento.
No Exemplo 4.3 queremos calcular agora, a probabilidade do leitão sorteado ser da baia 1,
sabendo que ele já foi vacinado. Pela Fórmula de Bayes temos:

P(1 V ) P(1)xP( V 1) (1 / 3)x( 4 / 10 ) 48
P(1V) = = = = ≅ 0,4248
P( V ) P( V ) (113 / 360 ) 113
ou seja, sabendo-se que um leitão está vacinado, a probabilidade dele ter sido sorteado da baia 1 é
igual a 0,4248. De maneira análoga, calculamos também as probabilidades do leitão sorteado ser da
baia 2 e da baia 3, já sabendo que ele está vacinado:
P(2)xP( V 2) (1 / 3)x(1 / 6) 20
P(2V) = = = ≅ 0,1770
P( V ) (113 / 360 ) 113
P(3 )xP( V 3) (1 / 3)x(3 / 8) 45
P(3V) = = = ≅ 0,3982.
P( V ) (113 / 360 ) 113
Vale a pena observar que os eventos (1V), (2V) e (3V) são mutuamente exclusivos e que
pelo fato de P(1V) + P(2V) + P(3V) = 0,4248 + 0,1770 + 0,3982 = 1, eles também são considerados
exaustivos.

26
5. VARIÁVEIS ALEATÓRIAS DISCRETAS
Embora os experimentos aleatórios envolvam variáveis qualitativas e quantitativas, os recursos

disponíveis para o estudo e análise das variáveis quantitativas são muito mais ricos e numerosos. Isto
sugere o uso de artifícios para transformar variáveis qualitativas em quantitativas. Por exemplo: em
experimentos genéticos com flores de ervilhas, a cor das pétalas pode ser branca, vermelha ou rosa. Da
genética sabemos que essas cores são devidas a dois alelos, W e R, de um determinado locus. Desse
modo temos a seguinte associação:
WW = flor branca,
WR ou RW = flor rosa e
RR = flor vermelha
e o espaço amostral do experimento pode ser escrito como S = {WW, WR, RW, RR}. Para quantificar
esses resultados podemos associar a cada ponto amostral o número de alelos R. Associamos o número
0 ao ponto WW, o número 1 aos pontos WR e RW e o número 2 ao ponto RR.
Definição 5.1. A função que associa a cada ponto do espaço amostral um número real é cha-
mada variável aleatória (v.a.).
Assim, para a v.a. X = "número de alelos R" temos que: X(WW) = 0, X(WR) = X(RW) = 1, e
X(RR) = 2. O domínio da v.a. X é o conjunto D(X) = {WW, WR, RW, RR} = S e a imagem, o conjunto
dos números inteiros I(X) = {0, 1, 2}.
Definição 5.2. Chamamos de variável aleatória discreta toda função definida no espaço amos-
tral S (ou Ω) que assume valores num conjunto enumerável de pontos do conjunto real.
Exemplo 5.1 Em um piquete existem dois bezerros Gir (G) e três Nelore (N). Sorteamos, sem
reposição, dois desses animais para serem submetidos a um tratamento com carrapaticida. Neste caso,
o espaço amostral é S = {GG, GN, NG, NN}. Utilizando o diagrama de árvore poderemos calcular as
probabilidades de ocorrência de cada resultado:
Evento Probabilidade
G G (2/5)(1/4) = 1/10
G N (2/5)(3/4) = 3/10
N G (3/5)(2/4) = 3/10
N N (3/5)(2/4) = 3/10
Definindo a v.a. X = "número se bezerros Gir na amostra", podemos construir a seguinte distribuição de
probabilidades:
x 0 1 2
P(X=x) 3/10 6/10 1/10
ou seja, a probabilidade do número de bezerros Gir na amostra ser igual a zero é 3/10, igual a um é
6/10 e igual a dois é 1/10.
Definição 5.3. Chamamos de Função de Probabilidade (f.p.) da v.a. discreta X, que assume
os valores x1, x2, ..., xn, a função P(xi) que associa a cada valor xi da variável aleatória X, sua
probabilidade de ocorrência, isto é, P(xi) = P(X = xi) = pi (Vale notar que p1 + p2 + ...+ pn = 1).

27
Exemplo 5.2. Um jogador lança um dado não viciado. Se ocorrer um número primo (1, 2, 3 ou
5) ele ganha este número de reais, mas se ocorrer um número que não seja primo (4 ou 6), ele perde
este número de reais.
Para trabalharmos este exemplo, definiremos a v.a. X = "número de reais que o jogador ganha
por lançamento do dado ", que pode assumir os valores 1, 2, 3, -4, 5 e -6. A distribuição de probabilida-
des desta v.a., assumindo que o dado não é viciado, está apresentada a seguir:
Face do dado 1 2 3 4 5 6
xi 1 2 3 -4 5 -6
P(X = xi) 1/6 1/6 1/6 1/6 1/6 1/6
ou então, de uma forma mais resumida:
xi -6 -4 1 2 3 5
P(X = xi) 1/6 1/6 1/6 1/6 1/6 1/6
5.1. VALOR ESPERADO DE UMA VARIÁVEL ALEATÓRIA DISCRETA
Definição 5.4. Dada uma v.a. discreta X, assumindo os valores x1, x2,... , xn, com as respectivas
probabilidades p1, p2, ..., pn, chamamos de valor médio ou esperança matemática da v.a. X, o valor
numérico calculado através da fórmula:
n n
E(X) = ∑ i=1
x iP( X = x i ) = ∑x p
i=1
i i (22)
chamamos de variância da v.a. X o valor calculado através da fórmula:

n
Var(X) = ∑ [x
i=1
i − E( X)] p i
2
(23)
e chamamos de desvio padrão da v.a. X o valor calculado através da fórmula:

DP(X) = Var( X ) (24)
O cálculo da variância de X pode ser feito de maneira mais simples se utilizarmos a seguinte
fórmula alternativa, que envolve um número menor de operações aritméticas:
n
2
Var(X) = E[X ] - [E(X)] ,
2
onde E[X ] =
2
∑x
i=1
2
i pi (25)
Desejamos resolver agora o problema do jogador de dados do Exemplo 5.2, que deseja saber
quanto ele vai conseguir ganhar, em média, por lançamento do dado. Com base na distribuição de pro-
babilidades acima, podemos calcular o ganho médio por jogada:
Ganho médio = (1)(1/6) + (2)(1/6) + (3)(1/6) + (-4)(1/6) + (5)(1/6) + (-6)(1/6)
= [1+2+3+(-4)+5+(-6)]∗(1/6)
= 1/6 ≅ 0,17 reais
ou seja, o jogador deve ganhar, em média, R$ 0,17 por lançamento do dado. Utilizando a fórmula alter-
nativa (25) para calcular a variância da v.a. X, temos:
2 2
Var(X) = E(X ) - [1/6] , pois E(X) = 1/6
E(X ) = (1) ∗(1/6) + (2) ∗(1/6) +...+ (-6) ∗(1/6) = 91/6
2 2 2 2
2
Var(X) = 91/6 - 1/36 = 545/36 = 15,14 reais

DP(X) = 545 / 36 = 3,89 reais.

28
No Exemplo 5.1 podemos calcular a esperança, a variância e o desvio padrão do número de

bezerros Gir na amostra, usando as fórmulas apresentadas acima:
• E(X) = 0∗(3/10) + 1∗(6/10) + 2∗(1/10) = 8/10 = 0,8 bezerros
• Var(X) = (0-0,8) ∗(3/10) + ... + (2-0,8) ∗(1/10) = 0,360 bezerros
2 2 2
• DP(X) = 0,360 = 0,6 bezerros.
5.2. ALGUMAS PROPRIEDADES DA ESPERANÇA MATEMÁTICA
Podemos provar que para uma v.a. X (discreta ou contínua) e um número k ∈ R, valem as
seguintes propriedades:
a) E(X + k) = k + E(X)
b) E(kX) = kE(X)
c) Var(k + X) = Var(X)
2
d) Var(kX) = k Var(X)
e) DP(k + X) = DP(X)
f) DP(kX) = kDP(X)
Ao invés de provarmos algebricamente essas propriedades, faremos apenas uma verificação
numérica, utilizando os dados do Exemplo 5.2.
Situação 1: a banca resolve presentear o jogador com 1 cruzeiro por lançamento, independente
do resultado obtido. A distribuição de probabilidades dessa nova v.a. Y = X+1 é:
xi 1 2 3 -4 5 -6
yi = xi+1 2 3 4 -3 6 -5
P(yi) 1/6 1/6 1/6 1/6 1/6 1/6
Neste caso, o ganho médio por lançamento será igual a:

E(Y) = E(X+1) = [(2) + (3) + (4) + (-3) + (5) + (-5)]∗(1/6) = 7/6

E(Y) = 1,17 reais/jogada
e a propriedade (a) está verificada, pois E(Y) = E(X+1) = 7/6 = E(X)+1. Calculando o valor da variância
e do desvio-padrão do ganho médio por lançamento, obtemos:
2 2
Var(Y) = Var(X+1) = E[(Y) ] - (7/6) , pois E(Y) = E(X+1) = 7/6
mas E[(Y) ] = 2 ∗(1/6) + ... + (-5) ∗(1/6) = 99/6
2 2 2
2
Var(Y) = Var(X+1) = 99/6 - 49/36 = 545/36 = 15,14 reais

DP(Y) = DP(X+1) = 545 / 36 = 3,89 reais
e as propriedades (c) e (e) estão verificadas, pois os valores da variância e desvio padrão não se alte-
raram quando somamos uma constante (k = 1) a todos os valores da v.a..
Vale observar que nessa situação, onde a banca resolve presentear o jogador com 1 real em
cada lançamento, o jogo de dados passa a ser mais favorável ao jogador, proporcionando um ganho
médio esperado de R$1,17 por lançamento.
Situação 2: a banca e o jogador resolvem dobrar as apostas. A distribuição de probabilidades

dessa nova v.a. Z = 2∗∗X é:
xi 1 2 3 -4 5 -6
zi = 2xi 2 4 6 -8 10 -12
P(zi) 1/6 1/6 1/6 1/6 1/6 1/6
Neste caso, o ganho médio por lançamento é:

29
E(Z) = E(2X) = (2).(1/6) + 4.(1/6) + ... + (-12).(1/6) = 2/6

E(Z) = 0,33 reais/lançamento
e a propriedade (b) está verificada, pois E(Z) = E(2X) = 2/6 = 2E(X). Calculando a variância e o desvio
padrão da v.a. Z = 2∗X obtemos:
2 2
Var(Z) = Var(2X) = E[(Z) ] - (2/6) , pois E(2X) = 2/6
mas E[(Z) ] = (2) ∗(1/6) + ... + (-12) ∗(1/6) = 364/6
2 2 2
2
Var (Z) = Var(2X) = 364/6 - 4/36 = 2180/36 = 60,56 reais

DP(Z) = DP(2X) = 2180 / 36 = 7,78 reais
e, assim as propriedades (d) e (f) também estão verificadas, pois Var(Z) = Var(2X) = 4Var(X) e DP(2X) =
2∗DP(X).
A Esperança Matemática pode ser pensada como uma média ponderada. Ainda, se conside-
rarmos cada valor da v.a. X como a abcissa de um ponto em um eixo real e interpretarmos P(x) como a
massa ou o peso concentrado no ponto x, a abcissa E(X) pode ser entendida como o centro de
gravidade do sistema, e a variância - Var(X) - como o momento de inércia. Por exemplo, se
considerarmos uma v.a. X que pode assumir os valores x1, ..., x10, cujas probabilidades são
proporcionais às colunas (“massas") apresentadas na figura abaixo, a esperança matemática desta
variável corresponde ao valor x6.
0,20
0,15 0,15
0,15
0,1 0,1 0,1 0,1 0,1

0,10
0,05 0,05 0,05

0,05
E(X)
0,00
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
Figura 17. Histograma da distribuição de probabilidades da v.a. X.
5.3. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA
Definição 5.5. Dada a v.a. X que pode assumir os valores x1, ..., xn, com probabilidades pi =
P(X=xi), respectivamente, definimos a função de distribuição acumulada (f.d.a.) ou, simplesmente, a
função de distribuição de probabilidades da v.a. X, como: F(xi) = P(X ≤ xi).
Essa função é monotônica não decrescente e o seu gráfico tem a forma de uma “escada”. É uti-
lizada no cálculo de probabilidades e também em testes de aderência de modelos probabilísticos.
Como exemplo, calcularemos a função de distribuição de probabilidades da v.a. X do Exemplo
5.2. Utilizando a Definição 5.5, obtemos:
0, se x < -6

1 / 6, se - 6 ≤ x < -4
2 / 6, - 4 ≤ x < 1
F(xi) = 3 / 6, se 1 ≤ x < 2
4 / 6, se 2 ≤ x < 3
5 / 6, se 3 ≤ x < 5

1, se 5 ≤ x

30
cujo gráfico está apresentada na Figura 18.

1.0
0.8
Probabilidade
0.6
0.4
0.2
0.0
-7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
Número de reais ganhados por lançamento do dado
Figura 18. Função distribuição do número de reais ganhados por lançamento do dado.

31
6. ALGUNS MODELOS PROBABILÍSTICOS PARA V.A. DISCRETAS
Algumas v.a. adaptam-se muito bem a uma série de problemas práticos. Como aparecem com
bastante freqüência, justificam um estudo mais pormenorizado de suas funções de probabilidades. Para
facilitar o cálculo de probabilidades existem tabelas próprias que fornecem as distribuições de probabili-
dades dos modelos mais comuns, em função de seus respectivos parâmetros. A seguir, apresentaremos
alguns modelos, enfatizando as condições em que eles aparecem e são usados, sua função de probabi-
lidade e parâmetros.
6.1. O MODELO BINOMIAL
Consideremos n repetições independentes de um experimento com dois resultados possíveis

(Experimento de Bernoulli): um desses resultados chamaremos de sucesso e o outro de fracasso. Admi-
tiremos também que a chance de ocorrer um sucesso é p = P(sucesso) e a chance de ocorrer um fra-
casso é q = 1-p = P(fracasso).
Exemplo 6.1. Consideremos uma baia com 3 leitões, que podem estar doentes (D) ou sãos (S).
Neste caso o espaço amostral é: S = {DDD, DDS, DSD, SDD, DSS, SDS, SSD, SSS}. Consideremos
também a v.a. discreta X = "número de leitões doentes" e P(sucesso) = P(D) = p. Então:
3
P(X=0) = P(SSS) = qqq = q
P(X=1) = P(DSS SDS SSD) = pqq + pqq + pqq = 3pq
2
P(X=2) = P(SDD DSD DDS) = ppq + ppq + pqq = 3p q

2
3
P(X=3) = P(DDD) = ppp = p
Se a probabilidade do leitão estar doente nessa época do ano é igual a 20%, ou seja, p = 0,20 e
q = 0,80, temos:
3
P(X=0) = (0,80) = 0,512
2
P(X=1) = 3(0,20)(0,80) = 0,384
2
P(X=2) = 3(0,20) (0,80) = 0,096
3
P(X=3) = (0,20) = 0,008
e a distribuição de probabilidades da v.a. X fica:
x 0 1 2 3
P(X=x) 0,512 0,384 0,096 0,008
Baseado nesta distribuição de probabilidades, podemos calcular a média e a variância da v.a. X,

utilizando as fórmulas convenientes:
• E(X) = 0.(0,512) + ... + 3.(0,008) = 0,60 leitões doentes
• E(X ) = 0 .(0,512) + ... + 3 .(0,008) = 0,84
2 2 2
• Var(X) = 0,84 - (0,60) = 0,48 leitões

2 2
Vale notar que este problema teve uma solução relativamente simples e pouco trabalhosa. Po-
rém, se o estudo fosse realizado em baias com um número maior de leitões, a enumeração de todos os
casos possíveis e o cálculo das probabilidades ficariam impraticáveis. Para resolver tais problemas, que
envolvem quaisquer valores de n e p, usaremos o modelo probabilístico chamado Modelo Binomial.
Teorema 6.1. A probabilidade de ocorrência de k sucessos em n repetições independentes de

um experimento de Bernoulli com p = P(sucesso), é dada por:
n  n n!
P(X = k) =  pk (1 − p)n−k , para k = 0, 1, 2, ..., n, e   = (26)
k   k k !(n − k)!
Os parâmetros do modelo binomial são: n (número de repetições) e p (probabilidade de suces-

so) e a notação usual para a distribuição binomial é X ~ B(n, p). Pode ser provado que, se a variável
aleatória X ~ B(n, p), então: E(X) = np e Var(X) = np(1−−p) = npq.

32
Exemplo 6.2. Suponhamos que a baia em estudo tenha 6 animais e que a probabilidade de um
leitão estar doente nesta época do ano seja p = 0,40. Ao invés de enumerarmos todas os casos
possíveis e a partir daí calcularmos as probabilidades, como fizemos no Exemplo 6.1, utilizaremos o
Teorema 6.1 para executar tais cálculos. Então:
 6
P(X = 0) =  0,40 0 (1 − 0,40) 6 = 0,047
0
 6
P(X = 1) =  0,40 1 (1 − 0,40 ) 5 = 0,187
 1
 6
P(X = 2) =  0,40 2 (1 − 0,40) 4 = 0,311
 2
 6
P(X = 3) =  0,40 3 (1 − 0,40) 3 = 0,276
3
 6
P(X = 4) =  0,40 4 (1 − 0,40 ) 2 = 0,138
 4
 6
P(X = 5) =  0,40 5 (1 − 0,40 )1 = 0,037
5
 6
P(X = 6) =  0,40 6 (1 − 0,40 ) 0 = 0,004
 6
a distribuição de probabilidades da v.a. X ~ B(6, 0,40) fica:

x 0 1 2 3 4 5 6
P(X=x) 0,047 0,187 0,311 0,276 0,138 0,037 0,004
O valor esperado (média) de leitões doentes é de E(X) = 6(0,40) = 2,40 leitões doentes e a variância e o
desvio padrão do número de leitões doentes, Var(X) = 6(0,40)(0,60) = 1,44 e DP(X) = 144 , = 1,2
leitões doentes, respectivamente.
6.2. O MODELO DE POISSON
A distribuição de Poisson, também chamada de distribuição dos eventos raros, é largamente

empregada em problemas nos quais contamos o número de eventos de um certo tipo que ocorrem num
intervalo de tempo, área ou volume especificados. Por exemplo:
• número de chamadas telefônicas recebidas por um PABX, em intervalos de tempo de 10 minutos;
• número de bactérias contadas em reticulados de uma placa de Petri;
• número de falhas de um computador em um dia de operação;
• número de determinadas plantas ou animais distribuídos por uma certa região bem delimitada etc.
Teorema 6.3. Se uma v.a. discreta X tem distribuição de Poisson com parâmetro λ > 0, então:
e − λ λk
P(X = k) = , para k = 0, 1, 2, ... (27)
k!
e ainda, E(X) = λ = Var(X), ou seja, o parâmetro λ > 0, representa a esperança (média) e a variância do
número de ocorrências do evento no intervalo considerado.

33
2
Exemplo 6.3. Uma região foi dividida em 20 quadrantes de 100m . Em cada quadrante foi con-
tado o número de plantas de uma determinada espécie, resultando em:
Número de plantas 0 1 2 3 4 5 6
Freqüência 3 6 5 4 1 0 1
onde a freqüência indica o número de quadrantes onde foram encontradas 0, 1, 2, ... plantas.
Como pretendemos usar a distribuição de Poisson para estudar a v.a. X = "número de plantas por
quadrante", devemos estimar o valor de λ (média), que é o parâmetro desta distribuição. Então
0(3) + 1(6) + 2(5) + + 6(1) 38
λ= = = 1,9 plantas/quadrante.
20 20
e −1,91,9k
A função de probabilidades da v.a. X pode então ser escrita como: P(X=k) = , para k =
k!
0, 1, 2, ... e com esta função poderemos calcular as probabilidades de encontrarmos 0, 1, 2, ... plantas
por quadrante. Por exemplo:
e −1,9 1,9 0 e −1,9 1,9 1
P(X = 0) = = 0,1496, P(X = 1) = = 0,2842
0! 1!
e −1,9 1,9 2 e −1,9 1,9 6
P(X = 2) = = 0,2700, ... P(X = 6) = = 0,0098, ...
2! 6!
A distribuição de probabilidades do número de plantas/quadrante é:
k 0 1 2 3 4 5 6 + de 6
P(X=k) 0,1496 0,2842 0,2700 0,1710 0,0812 0,0309 0,0098 0,0033
Usando esta distribuição de probabilidades, poderemos estimar o número de quadrantes que

contêm 0, 1, ..., 6 ou mais plantas e verificar numericamente se o modelo de Poisson é adequado a este
estudo. Para tanto, multiplicamos o número total de quadrantes (20) pela probabilidade de um quadrante
ter 0, 1, ..., 6 ou mais plantas. Agindo deste modo, teremos:
Plantas por quadrante 0 1 2 3 4 5 6 + de 6
Freq. observada 3 6 5 4 1 0 1 0
Freq. estimada 2,99 5,68 5,4 3,42 1,62 0,62 0,20 0,07
Comparando as duas últimas linhas desta tabela, podemos observar que os valores das freqüências
estimadas pelo modelo de Poisson são ótimas aproximações das freqüências observadas no experi-
mento, o que mostra a boa adequação do modelo.
Observações importantes:
i) Para uma v.a. X ~ B(n; p) com n bastante grande e p bastante pequeno, as probabilidades podem
ser obtidas, aproximadamente, usando-se a distribuição de Poisson, com λ = n.p;
ii) Existem outros modelos (distribuições) associados a v.a. discretas que são úteis em outros campos
de pesquisa, como por exemplo as distribuições geométrica e hipergeométrica, que não serão apre-
sentadas em nosso curso. A bibliografia especializada em probabilidade traz detalhes sobre todos
estes modelos;
iii) Outros exemplos de aplicações dessas (Binomial e Poisson) e de outras distribuições de probabili-
dades, podem ser encontrados no livro "Introdução à Matemática para Biocientistas", de E.
Batschelet.

34
7. VARIÁVEIS ALEATÓRIAS CONTÍNUAS
Sabemos que uma v.a. contínua é uma função que pode assumir infinitos valores num intervalo
real. Se X é uma v.a. contínua, associaremos a cada subintervalo do seu domínio uma probabilidade,
através de uma função densidade de probabilidade (f.d.p.).
Definição 7.1. Uma função f(x), definida para x∈[a, b]‚ é chamada de função densidade de
probabilidade (f.d.p.) se satisfaz as seguintes condições:
a) f(x) é positiva, para todo x ∈ [a, b];
b
b) ∫ f (x) dx
a
= 1, ou seja, a área sob a curva representativa de f(x), entre as abcissas a e b, é
igual a um.
Vale observar que:
a) a função f(x) não define uma probabilidade;
b) o que define uma probabilidade, realmente, é o resultado da integral de f(x) no intervalo [a, b],
que coincide com a área da região sob a curva de f(x), o eixo das abcissas e os limites de
integração;
c) para calcularmos a probabilidade da v.a. X assumir valores entre x1 e x2, com x1 < x2, precisa-
remos resolver a integral:
x2
P(x1 < X < x2) = ∫x1
f ( x) dx (28)
d) a probabilidade de uma v.a. contínua assumir um certo valor k é nula, pois
∫ f(x) dx = [F(x)]
k k
k
= F(k) - F(k) = 0.
k
e portanto, somente tem sentido calcularmos a probabilidade de uma v.a. contínua assumir valo-
res dentro de um intervalo real.
Exemplo 7.1. Dada a função definida por f(x) = 2x, para x ∈ [0, 1], pede-se: (i) verificar se f(x) é
uma função densidade de probabilidade; (ii) calcular P(0 < X < 0,5) e P(0,2 < X < 0,7).
Resolução:
i) Verificando as duas condições da Definição 7.1, temos:
a) analisando a Figura 19, percebemos que a função f(x) = 2x, para x ∈ [0, 1] é positiva;
2.0
1.5
1.0
f(x)
0.5
0.0
0.0 0.2 0.4 0.6 0.8 1.0
X
Figura 19. Gráfico da função densidade de probabilidade f(x) = x, para x ∈ [0, 1]
∫ 2x dx = [x ]
1 1
2
b) =1
0 0

como as duas condições estão satisfeitas, podemos dizer que a função f(x) = 2x, para x ∈ [0,1], é
uma função densidade probabilidade.

35
ii) calculando as probabilidades, temos:
∫ (2x) dx = [x ]
0,5 0,5
2 2
a) P(0<X<0,5) = = (0,5) = 0,25
0 0
[ ]
0,7
∫
0,7 2 2
b) P(0,2<X<0,7) = (2x) dx = x 2 = (0,7) - (0,2) = 0,45
0,2 0,2
a) P(0 < X < 0,5) b) P(0,2<X<0,7)
Figura 20. Cálculo das probabilidades P(0<X<0,5) e P(0,2<X<0,7) da v.a. X do Exercício 7.1.
2
Exemplo 7.2. Determinar a constante positiva "k" para que a função f(x) = kx , definida no
intervalo [0, 2], seja uma f.d.p.
Resolução: Para que a condição (a) da Definição 7.1 se verifique, é necessário que a constante k > 0 e
para a verificação da condição (b), temos que:
2
2  x3   23  8 8 3
1= ∫ 0
(kx) 2 dx = k   = k  = k ⇒ 1 = k ⇒ k = .
  0
3  3 3 3 8
3 2
e portanto, f(x) = x , para x ∈ [0,2], é uma f.d.p.
8
Definição 7.2. Se X é uma v.a. contínua definida no intervalo [a, b] e f(x) é sua função densi-
dade de probabilidade, então definimos:
(a) a esperança matemática ou a média de X:
b
E(X) = ∫ x f ( x) dx
a
(29)
(b) a variância de X:
b b
∫ [ x − E(X)] 2 f(x) dx = E(X ) − [E(X)] , onde E(X ) = ∫

2 2 2
Var(X) = x 2 f ( x) dx (30)
a a
Utilizando estas fórmulas vamos calcular a média e a variância da v.a. X, definida no Exercício 7.1:
1
1  2x 2  2
0 ∫
E(X) = x.2x) dx = 
 3 
 =
3
≅ 0,6667
0
1
1  x4  1
∫ ∫
E(X ) = x (2x) dx = 2x dx =   = 1/2 ⇒ Var(X) = 1/2 - (2/3) = 1/18.
2 2 3 2
0 0   0
2

36
Definição 7.3. Se X é uma v.a. contínua e f(x) é sua f.d.p., definimos sua função distribuição
x
acumulada (f.d.a.) ou função repartição como F(x) = P(X ≤ x) = ∫ f (t) dt .
-∞
Esta função é bastante útil para o cálculo de probabilidades. Por exemplo, se a e b são dois nú-
meros reais, com a < b e F(x) é a f.d.a. da v.a. X, então,
P(a ≤ X ≤ b) = F(b) − F(a).
Vale a pena observar que nem sempre é fácil obtermos a função de distribuição acumulada associada a
uma v.a. X. Porem, sempre que isto for possível, ela pode ser utilizada no cálculo de probabilidades.
Por exemplo: para a f.d.p. do Exercício 7.1, temos:
0, se x < 0
∫ (2t) dt = [t ]
x x 
F(x) = P(X ≤ x) = = x ⇒ F(x) = x 2 , se 0 ≤ x ≤ 1
2 2
0 0
1, se x > 1

é a função de distribuição da v.a. X, cujo gráfico está apresentado na Figura 21. Utilizando esta função,
F(x), podemos calcular:
•
2
P(0 < X < 0,5) = F(0,5) - F(0) = (0,5) - 0 = 0,25
•
2 2
P(0,2 < X < 0,7) = F(0,7) - F(0,2) = 0,7 - 0,2 = 0,49 - 0,04 = 0,45.
1,0
0,8
0,6
F(x) = x2
F(X)
0,4
0,2
0,0
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
X
Figura 21. Gráfico da função de distribuição da v.a. X do Exercício 7.1.

37
8. ALGUNS MODELOS PROBABILÍSTICOS PARA V.A. CONTÍNUAS
Podemos construir modelos teóricos para v.a. contínuas, escolhendo adequadamente as fun-
ções densidade de probabilidade. Dada uma variável aleatória contínua, interessa conhecer a sua f.d.p.,
o seu gráfico e algumas características importantes, como média e variância. A seguir apresentaremos
dois modelos de uso bastante freqüente em problemas práticos.
8.1. O MODELO EXPONENCIAL
Definição 8.1. Dizemos que a v.a. contínua X, definida para valores positivos, tem distribuição
exponencial de parâmetro λ > 0, se a sua f.d.p. é
f(x) =
1 −xλ
λ
e =
1
λ
exp − x
λ
( ) (31)
Pode-se provar que se X ~ Exp(λ), então E(X) = λ e Var(X) = λ2 e a sua função distribuição acumulada é
dada por:
−x
F(x) = P(X ≤ x) = 1 − e λ , para x > 0 (32)
O gráfico de uma distribuição exponencial de média λ =1 é ilustrado abaixo:

1,2
1,0
0,8
0,6
f(x)
0,4
0,2
0,0
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
X
Figura 22. Função densidade de probabilidade de uma variável X ~ Exp(λ=1)
Exemplo 8.1. O tempo de vida (em horas) de um transistor é uma v.a. T, contínua, com distri-
buição exponencial de média λ = 500h. Calcular a probabilidade de que o tempo de vida de um
transistor esteja entre 500 e 600 horas.
1 − t 500
Resolução: Se T ~ exp(500), sua f.d.p. é f(t) = e . Para calcularmos P(500 ≤ T ≤ 600), deve-
500
600
1 − t 500
ríamos resolver a seguinte integral definida: P(500 ≤ T ≤ 600) = ∫
500
500
e dt . Porém, como já co-
nhecemos a fórmula de sua função de distribuição, o cálculo da probabilidade se restringe a:

 − 600
500  −  1 − e
− 500
500  = e-1 − e-1,2
P(500 ≤ T ≤ 600) = F(600) − F(500) = 1 − e   
   

P(500 ≤ T ≤ 600) = 0,3679 - 0,3012 = 0,0667, ou seja, é de 6,7% a chance do transistor ter
um tempo de vida entre 500 e 600 horas.

38
8.2. O MODELO NORMAL (ou de Gauss)
A distribuição normal é uma das mais importantes distribuições de probabilidade de v.a. contí-
nuas, tendo aplicações no estudo de inúmeros fenômenos e no desenvolvimento teórico da Inferência
Estatística.
Definição 8.2. Dizemos que a v.a. contínua X tem distribuição normal, com parâmetros µ e σ
2
se a sua f.d.p. é dada por:
1  1  x − µ 2 
exp−    , para -∞ < x <∞, onde µ = E(X) e σ = Var(X)
2
f(x) = (33)
σ 2π  2  σ  
 
O gráfico da distribuição normal (Figura 23) tem algumas características interessantes:

• tem a forma de um sino;
• é simétrico em relação ao ponto de abcissa x = µ (µ = 0, neste gráfico), que também é o ponto de
máximo absoluto da função;
• tem uma assíntota horizontal: f(x) = 0;
• os pontos de abcissas µ - σ e µ + σ (-1 e 1, neste gráfico) são pontos de inflexão;
• dada a simetria da curva, a probabilidade de ocorrer um valor maior ou igual à média é igual à
probabilidade de ocorrer um valor menor ou igual à média, ou seja, P(X>µ) = P(X<µ) = 0,5.
0,5
0,4
0,3
f(x)
0,2
0,1
0,0
-4 -3 -2 -1 0 1 2 3 4
X
Figura 23. Função de densidade de probabilidade da v.a. X ~ N(µ=1; σ =0)

2
A Figura 24 apresenta os gráficos de distribuições normais com (a) variâncias iguais e médias
diferentes e (b) médias iguais e variâncias diferentes.
(a) variâncias iguais e médias diferentes (b) médias iguais e variâncias diferentes
(µ1 < µ2 < µ3) ( σ 12 < σ 22 < σ 23 )
Figura 24. Distribuições normais com algumas características interessantes.

39
Baseado na Figura 24, observamos que:

• na situação (a) as três curvas têm o mesmo grau de achatamento, porem as abcissas dos seus
pontos de máximo são diferentes: µ1 < µ2 < µ3;
• na situação (b), as abcissas dos pontos de máximo das três curvas são exatamente iguais, porem
os graus de achatamento são diferentes: σ 12 < σ 22 < σ 23 (Lembre-se que variância maior é sinôni-
mo de maior dispersão dos dados! ).
A probabilidade de X ~ N(µ, σ ) assumir um valor entre a e b, com a<b, é igual à área sob a
2
curva de f(x) entre os pontos de abcissas x = a e x = b, envolvendo a integração da função apresentada

na Definição 8.2, o que é uma operação bastante complicada.
Para facilitar o cálculo de probabilidades definimos a variável normal padronizada ou redu-
zida:
X−µ
Z= (34)
σ
que tem média 0 e variância 1, ou seja, se X ~ N(µ, σ ) ⇒ Z ~ N(0; 1), quaisquer que sejam os valo-
2
res de µ e σ2 (tente provar esses resultados, utilizando as propriedades apresentadas na seção 5.2).
Como as probabilidades envolvendo a variável padronizada Z estão tabeladas na Tábua I (pági-

b
∫
na 42), ao invés de resolvermos: P(a < X < b) = f ( x) dx , onde f(x) é a expressão apresentada na defini-
a
ção 8.2, fazemos a padronização ou redução da variável X e buscamos na Tábua I (página 42), o valor
de:
a−µ X−µ b−µ
P(z1 < Z < z2) = P  < <  = P(a < X < b) (35)
 σ σ σ 
Exemplo 8.2. Seja X uma v.a. com distribuição normal de média 10 e variância 4, ou seja, X ~
N(10; 4). Calcular as seguintes probabilidades: (a) P(X<10); (b) P(X<12); (c) P(9<X<11); (d) P(X>8)
(e) P(11<X<12) e (f) P(7<X<8)
Resolução:
 X − 10 10 − 10 
(a) P(X < 10) = P  < 
 2 2 
= P(Z < 0) = 0,5000
 X − 10 12 − 10 
(b) P(X < 12) =  <  = P(Z <1)
 2 2 
= P(Z < 0) + P(0 < Z < 1)
= 0,5000 + 0,34134 = 0,84134
(c) P(9 < X < 11) = P(-0,5 < Z < 0,5)

= 2P(0<Z<0,5) = 2(0,19146)
= 0,38292.

40
(d) P(X > 8) = P(Z > -1) =

= P(-1<Z<0) + P(Z>0) =
= 0,5000 + 0,34134 = 0,84134
(e) P(11<X<12) = P(0,5<Z<1) =

= P(0<Z<1) - P(0<Z<0,5) =
= 0,34134 - 0,19146 = 0,14988
(f) P(7<X<8) = P(-1,5<Z<-1) =

= P(1<Z<1,5)
= P(0<Z<1,5) - P(0<Z<1) =
= 0,43319 - 0,34134 = 0,09185.
8.3. APROXIMAÇÃO DA DISTRIBUIÇÃO BINOMIAL PELA NORMAL
Objetivo: usar uma distribuição associada a v.a. contínuas (normal) para aproximar valores de probabi-
lidades de uma distribuição associada a v.a. discretas (binomial).
Exemplo 8.3. Uma moeda é lançada 10 vezes. Seja a v.a. X = “número de caras obtidas nos 10
lançamentos”. A distribuição de probabilidades e o histograma da variável X ~ B(10; 0,5) estão apresen-
tados na Figura 25.
k P(X = k)
0 0,001
1 0,010
2 0,044
3 0,117
4 0,205
5 0,246
6 0,205
7 0,117
8 0,044
9 0,010
10 0,001
Figura 25. Distribuição de probabilidades da v.a. X ~ Bin(10; 0,5) e da aproximação da binomial pela
normal W ~ N(µ = 5; σ = 2,5)
2

41
A probabilidade exata da ocorrência de 7 ou mais caras (usando a binomial), é igual a:

P(X ≥ 7) = P(X = 7) + P(X = 8) + P(X = 9) + P(X = 10)
= 0, 117 + 0,044 + 0,010 + 0,001 = 0,172
que coincide com a área dos retângulos correspondentes às abcissas 7, 8, 9 e 10 da Figura 25. A nossa
proposta é aproximar a área dos retângulos hachurados pela área sob a curva normal e à direita da
abcissa 6,5 (cor preta). Esta curva normal está associada a uma nova v.a. W, com média µ = np =
(10)(0,5) = 5 e variância σ = np(1-p) = (10)(0,5)(0,5) = 2,5, ou seja, a variável W ~ N(10; 2,5). Então:
2
P(X ≥ 7) ≅ P(W ≥ 6,5)

P(W ≥ 6,5) = P(Z ≥ 0,949) = 0,5 - P(0 ≤ Z ≤ 0,949) = 0,17106
que é um valor bastante próximo do valor exato (0,172).
A probabilidade de ocorrência de exatamente 7 caras, que pela distribuição binomial é igual a

0,117, pode ser calculada de modo aproximado, utilizando a distribuição normal:
P(X = 7) ≅ P(6,5 ≤ W ≤ 7,5) = 0,11401
que também é uma valor bastante próximo do valor exato (0,117).
Observações importantes:
• podemos obter boas aproximações para probabilidades envolvendo uma v.a. com distribuição
binomial, utilizando uma distribuição normal;
• esta aproximação será tanto melhor quanto maior for o valor de "n" e mais próximo de 0,5 for
o valor de "p" (probabilidade de sucesso), ou seja, quando n → +∞ e p → 0,5;
• quando o valor de n for grande (n → +∞) e o valor de p for muito pequeno (p → 0) e quisermos
obter aproximações para as probabilidades de uma v.a. X ~ B(n,p), ao invés de usarmos a distri-
buição normal, é melhor utilizarmos a distribuição de Poisson de parâmetro λ = np.

42
TÁBUA I: DISTRIBUIÇÃO NORMAL REDUZIDA - N(0; 1)
Probabilidades p tais que p = P(0 < Z < Zc)
SEGUNDA DECIMAL DE Zc
Zc 0 1 2 3 4 5 6 7 8 9 Zc
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,0
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,1
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,2
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,3
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,4
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,5
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,6
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,7
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3079 0,3106 0,3133 0,8
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 0,9
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,0
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,1
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,2
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,3
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,4
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,5
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,6
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,7
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,8
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 1,9
2,0 0,4773 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,0
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,1
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,2
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,3
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,4
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,5
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,6
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,7
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,8
2,9 0,4981 0,4982 0,4983 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 2,9
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,0
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993 3,1
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995 3,2
3,3 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997 3,3
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998 3,4
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 3,5
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,6
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,7
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,5000 3,8
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 3,9
4,0 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 4,0

43
9. VARIÁVEIS ALEATÓRIAS BIDIMENSIONAIS
Muitas vezes, ao descrever os resultados de um experimento, atribuímos a um mesmo ponto

amostral, os valores de duas ou mais variáveis aleatórias discretas ou contínuas. Nesta aula, concen-
traremos nossas atenções no estudo de um par de v.a. discretas, apresentando os principais resultados
e conceitos envolvidos nesse estudo.
Exemplo 9.1. Suponha que estamos interessados em estudar o sexo dos filhotes de coelhos em
nascimentos triplos. Sejam as v.a. X ="número de machos", e Y ="sexo do primeiro filhote" (Y=0:
fêmea; Y=1: macho). Se estivéssemos interessados em estudar cada uma das variáveis individual-
mente, utilizaríamos as suas respectivas distribuições de probabilidades:
x 0 1 2 3
⇒ E(X) = 3/2 e Var(X) = 3/4
P(X=x) 1/8 3/8 3/8 1/8
y 0 1
⇒ E(Y) = 1/2 e Var(Y) = 1/4
P(Y=y) 1/2 1/2
Agora, se estivermos interessados em estudar conjuntamente as duas variáveis precisaremos,

para cada um dos eventos simples, associar o valor que as variáveis X e Y assumem e a respectiva pro-
babilidade de ocorrência:
Evento X Y Probabilidade
MMM 3 1 1/8
FMM 2 0 1/8
MFM 2 1 1/8
MMF 2 1 1/8
FFM 1 0 1/8
FMF 1 0 1/8
MFF 1 1 1/8
FFF 0 0 1/8
Com essas informações, podemos construir uma tabela com todos os pares de valores das v.a. X e Y e
suas respectivas probabilidades:
(x; y) P(X=x; Y=y)

(0; 0) 1/8 onde P(X=x, Y=y) é a probabilidade de ocorrência simultânea dos
(1; 0) 2/8 eventos X=x e Y=y.
(1; 1) 1/8
(2; 0) 1/8 Esta tabela é chamada distribuição conjunta das variáveis
(2; 1) 2/8 aleatórias X e Y.
(3; 1) 1/8
Uma maneira mais cômoda de apresentar esta distribuição de probabilidades conjunta, é atra-
vés da seguinte tabela de dupla entrada:
y \ x 0 1 2 3 P(Y=y)
0 1/8 2/8 1/8 0 1/2
1 0 1/8 2/8 1/8 1/2
P(X=x) 1/8 3/8 3/8 1/8 1

44
A Figura 26 apresenta o histograma da distribuição conjunta de probabilidade das variáveis

aleatórias X e Y. Vale notar que a altura do segmento de reta no ponto (x; y) é proporcional à probabi-
lidade P(X=x; Y=y).
0.25
0.25
0.125
0.125
0.125
0.125
Figura 26. Histograma da distribuição de probabilidade conjunta das variáveis aleatórias

X (número de machos) e Y (sexo do primeiro filhote).
9.1. DISTRIBUIÇÕES MARGINAIS E CONDICIONAIS
Note que a primeira e última linhas da distribuição conjunta coincidem com a distribuição de pro-
babilidades da v.a. X e que a primeira e última colunas, com a distribuição de probabilidades da v.a. Y.
Essas distribuições são chamadas Distribuições Marginais das variáveis aleatórias X e Y, respectiva-
mente. Com base na distribuição conjunta de probabilidades note também que:
P(X=1) = P(X=1,Y=0) + P(X=1,Y=1) = 2/8 + 1/8 = 3/8,
e que
P(Y=0) = P(X=0,Y=0) + P(X=1,Y=0) + P(X=2,Y=0) + P(X=3,Y=0)
= 1/8 + 2/8 + 1/8 + 0 = 4/8 = 1/2.
ou seja, as probabilidades marginais podem ser obtidas através da soma das probabilidades conjuntas.
Definição 9.1. A probabilidade condicional da v.a. X, dado que a v.a. Y assume o valor k, é
definida como
P(X = x; Y = k )
Y=k) =
P(X=x , para todos os valores da v.a. X. (36)
P(Y = k )
A Esperança e a Variância Condicionais da variável X, dado que Y=k são definidas, respectivamente,
como:
E(XY=k) = ∑ x P(X = x
i i Y = k) (37)
i
Var(XY=k) = ∑ [x i ]2 (
− E(X Y = k) P(X = x i Y = k ) = E X 2 Y = k − E(X Y = k ) ) [ ]2 (38)
i
Por exemplo, determinemos a distribuição de probabilidades, a esperança e a variância condi-

cionais do número de filhotes machos, sabendo-se que o primeiro filhote é um macho. A distribuição de
probabilidades condicionais de X dado que Y=1 é:

45
x 1 2 3
P(X=xY=1) 1/4 2/4 1/4
e a partir desta distribuição, calculamos a esperança e a variância condicionais de XY=1:

E(XY=1) = 0∗(0) +...+3∗ (1/4) = 8/4 = 2 filhotes machos
2
E(X Y=1] = 0 ∗(0) +...+ 3 ∗(1/4) = 18/4
2 2
2
Var(XY=1) = 18/4 – (2) = 1/2
e portanto, com a informação adicional de que o primeiro filhote é um macho, o número esperado de fi-
lhotes machos em nascimentos triplos, aumenta para 2 e a variância de XY=1 é igual a 1/2.
Definição 9.2. (IMPORTANTE!) As variáveis aleatórias X e Y, assumindo os valores x1, x2 ,... e

y1, y2,... respectivamente, são chamadas independentes, se e somente se, para todo par de valores (xi,
yj) de X e Y, tem-se que P(X=xi ; Y=yj) = P(X=xi) P(Y=yj).
Vale a pena observar que para mostrarmos que duas variáveis X e Y não são independentes,
basta que a igualdade P(X=xi ; Y=yj) = P(X=xi) P(Y=yj) não se verifique para um único par (xi, yj). Por
exemplo, as variáveis X e Y do Exemplo 9.1 não são independentes, porque para o par (X=0,Y=0) tem-
se: 1/8 = P(X=0,Y=0) ≠ P(X=0) P(Y=0) = (1/8) (1/2) = 1/16
9.2. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS
Na prática, é bastante comum trabalharmos não só com as variáveis aleatórias originais, mas
também com funções de variáveis aleatórias. Como exemplo, podemos trabalhar com as variáveis X =
“peso inicial”, Y = “peso final“ e também com G = Y – X = “ganho de peso”. O nosso objetivo agora é
estudar a distribuição de probabilidades de algumas funções envolvendo duas v.a. discretas, como a
soma, a diferença e o produto das variáveis X e Y.
Exemplo 9.2. Estamos interessados em comprar dois ingredientes (A e B) para a fabricação de

ração para frangos de corte. Foi feita uma pesquisa de preços com os fornecedores da região de
Pirassununga, cujos resultados possibilitaram a construção da tabela apresentada abaixo, onde X e Y
são os preços (em reais), de um quilograma dos ingredientes A e B, respectivamente:
x\y 4,00 5,00 6,00 P(X=x)

9,00 0,01 0,04 0,30 0,35
10,00 0,02 0,20 0,03 0,25
11,00 0,30 0,07 0,03 0,40
P(Y=y) 0,33 0,31 0,36 1
Baseado nesta tabela, podemos calcular:

2
E(X) = 10,05; E(X ) = 101,75 e Var(X) = 0,7475
2
E(Y) = 5,03; E(Y ) = 25,99 e Var(Y) = 0,6891
e as distribuições de probabilidades da soma (S = X + Y), diferença (D = X − Y) e produto (V = X Y), que
são funções das variáveis X e Y:
S 13 14 15 16 17
P(S=s) 0,01 0,06 0,80 0,10 0,03
D 3 4 5 6 7
P(D=d) 0,30 0,07 0,24 0,09 0,30

46
V 36 40 44 45 50 54 55 60 66
P(V=v) 0,01 0,02 0,30 0,04 0,20 0,30 0,07 0,03 0,03
A partir dessas distribuições de probabilidades podemos calcular a média e a variância de cada

uma das variáveis. Os resultados são os que seguem (refaçam as contas, por favor!):
2
E(S) = 15,08; E(S ) = 227,72 e Var(S) = 0,3136
2
E(D) = 5,02; E(D ) = 27,76 e Var(D) = 2,5596
2
E(V) = 49,99; E(V ) = 2531,99 e Var(V) = 32,9899.
Um resultado que tem interesse prático é o valor esperado do preço total de um kg dos ingredientes X e
Y, que é igual a R$ 15,08. No momento, não tem qualquer interesse prático sabermos qual é o valor
esperado ou a variância da diferença e do produto dos preços dos dois produtos X e Y.
Existem algumas relações bastante importantes que envolvem a esperança matemática (média)
de funções de variáveis aleatórias:
(a) E(S) = E(X+Y) = E(X) + E(Y)
−Y) = E(X) − E(Y)
(b) E(D) = E(X−
(c) E(V) = E(XY) = E(X)E(Y) se X e Y são independentes.
As relações (a) e (b) podem ser facilmente verificadas utilizando os resultados obtidos até agora para as
variáveis X e Y do Exemplo 9.2.
9.3. COVARIÂNCIA E CORRELAÇÃO ENTRE DUAS VARIÁVEIS ALEATÓRIAS
Definição 9.3. Uma medida da relação linear entre as variáveis X e Y é a covariância, que é
definida por
cov(X; Y) = E{[X − E(X )][Y − E(Y)]} = E(XY) – E(X)E(Y) (39)
onde E(XY) = ∑∑ x y P(X = x ; Y = y ) .
i j
i j i j
Da expressão (39), podemos dizer que a covariância corresponde ao valor médio do produto
dos desvios das variáveis X e Y, tomados em relação às suas respectivas médias. Como cov(X,Y) mede
o relacionamento linear entre essas duas variáveis, cov(X,Y) > 0 indica que as variáveis X e Y são
diretamente proporcionais e cov(X,Y) < 0, que as variáveis X e Y são inversamente proporcionais.
Se cov(X,Y) = 0 dizemos que X e Y são não correlacionadas.
É importante notar que: se X e Y são independentes ⇒ E(XY) = E(X)E(Y) ⇒ cov(X; Y) = 0, ou
seja, variáveis aleatórias independentes têm covariância nula. Porem, se cov(X,Y) = 0 não podemos
garantir que as variáveis X e Y sejam independentes; neste caso dizemos, simplesmente, que X e Y não
são correlacionadas. As variáveis X e Y podem ser consideradas independentes, se e somente se,
P(X=xi; Y=yj) = P(X=xi) P(Y=yj).
Se estivermos interessados em saber se existe alguma relação linear entre os preços dos ingre-
dientes X e Y (Exemplo 9.2) usados na fabricação de ração para frango de corte, podemos calcular a
covariância entre essas duas variáveis:
E(XY) = 49,99 ⇒ cov(X,Y) = 49,99 – (10,05)∗(5,03) = -0,5615.

E pelo sinal negativo do valor de cov(X;Y) concluímos que tais preços são inversamente proporcionais,
ou seja, existe uma tendência de nos lugares onde o preço de um ingrediente é mais baixo o do outro
ingrediente é mais alto e vice-versa.
Definida a covariância entre duas v.a., podemos conhecer algumas relações envolvendo a
variância de funções de v.a., que são:
(a) Var(S) = Var(X+Y) = Var(X) + Var(Y) + 2.cov(X,Y)
(b) Var(S) = Var(X+Y) = Var(X) + Var(Y), se X e Y são independentes
(c) Var(D) = Var(X-Y) = Var(X) + Var(Y) - 2.cov(X,Y)

47
Podemos verificar as relações (a) e (c), utilizando os resultados já obtidos do Exemplo 9.2:
( a)
Var(S) = Var(X + Y) = 0,7475 + 0,6891 + 2(-0,5615) = 0,3136 = Var(S)
(c)
Var(D) = Var(X − Y) = 0,7475 + 0,6891 - 2(-0,5615) = 2,5596 = Var(D)
Embora o valor da covariância sirva para decidir sobre o tipo de relação linear existente entre as
variáveis aleatórias, ele não serve para fazermos afirmações sobre a intensidade dessa possível
relação. Como cov(X;Y) pode assumir qualquer valor real, fica difícil garantirmos se um certo valor de
covariância é alto ou baixo. Surge então a necessidade de definirmos o coeficiente de correlação linear
- ρ(X;Y) - que assume valores no intervalo entre –1 e 1, inclusive.
Definição 9.4. Uma medida do grau de dependência linear entre duas variáveis aleatórias X e
Y, é o Coeficiente de Correlação Linear, que é definido como:
cov(X; Y)
ρ(X;Y) = , com –1 ≤ ρ(X;Y) ≤ 1 (40)
Var (X) Var(Y)
Daí, dizemos que a dependência linear entre as variáveis X e Y é perfeita quando ρ(X,Y) = +1 (ou −1).
Quanto mais próximos de +1 (ou –1) estiver o valor de ρ(X;Y) maior é o grau de dependência entre as
duas variáveis. Quando ρ(X,Y) = 0, dizemos que não existe qualquer relação linear entre as v.a. X e Y,
ou que elas são não correlacionadas.
−0,5615
No Exemplo 9.2 temos que ρ(X;Y) = = -0,7824, ou seja, existe uma correla-
(0,7475 )(0,6891)
ção linear negativa e alta entre os preços dos dois ingredientes para ração de frangos (confirmando, é
claro, o resultado obtido com a covariância).
Exemplo 9.3. Em um estudo sobre rotatividade de mão de obra especializada na lavoura foram
definidas, para uma determinada população, as variáveis X: "número de empregos que o trabalhador
teve nos cinco últimos anos" e Y: "salário atual, em número de salários mínimos". Com base nos resul-
tados organizados na tabela abaixo, podemos dizer que o salário atual de um trabalhador na lavoura
depende do número de empregos nos últimos cinco anos?
y\x 1 2 3 4 P(Y=y)
3 0 0 0,10 0,10 0,20
5 0,05 0,05 0,10 0,10 0,30
7 0,05 0,20 0,05 0 0,30
10 0,10 0,05 0,05 0 0,20
P(X=x) 0,20 0,30 0,30 0,20 1,00
Usando as fórmulas já apresentadas, calculamos:

E(X) = 2,5 empregos nos cinco últimos anos
E(Y) = 6,2 salários mínimos
E(XY) = 14,05 ⇒ cov(X;Y) = 14,05 − (2,5)(6,2) = −1,45 ou seja, existe uma relação de depen-
dência (linear) negativa entre o número de empregos e o salário atual de trabalhadores na lavoura.
E(X ) = 7,3 6 ⇒ Var(X) = 7,3 − (2,5) = 1,05
2 2
E(Y ) = 44,0 6 ⇒ Var(Y) = 44,0 − (6,2) = 5,56

2 2
−1,45
⇒ ρ(X;Y) = = −0,6001 ou seja, existe uma correlação linear negativa e relativa-
(1,05)(5,56 )
mente alta entre o número de empregos e o salário atual de trabalhadores na lavoura, indicando uma
forte tendência de salários menores para o trabalhador na lavoura com maior número de empregos nos
últimos cinco anos, ou de salários maiores para o trabalhador com menor número de empregos nos
últimos cinco anos.

48
REFERÊNCIAS BIBLIOGRÁFICAS IMPORTANTES
BLACKWELL, D., Estatística Básica, São Paulo: McGraw-Hill do Brasil, 1973, 143p.
BUSSAB, W.O., Estatística Básica, São Paulo: Atual, 1986, 329p.
COCHRAN, W.G. Técnicas de Amostragem. Rio de Janeiro: Fundo de Cultura, 1955.
COSTA NETO, P.L.O., Estatística, São Paulo: Edgard Blucher, 264p. 1988.
FONSECA, J.S. & MARTINS, G.A. Curso de Estatística. São Paulo: Atlas, 3.ed., 1982.
GOMES, F.P., Iniciação à Estatística, 6.ed., São Paulo: Nobel, 1978, 211 p.
HOEL, P.G. Estatística Elementar. São Paulo, Atlas, 430p. 1987.
HOFFMANN, R., Estatística para Economistas - Série Biblioteca Pioneira de Ciências Sociais -
Economia, São Paulo: Pioneira, 1980, 379p.
HOFFMAN, R. & VIEIRA, S. Análise de Regressão - uma Introdução à Econometria. São Paulo,
Hucitec. 1977.
MEYER, P.L. Probabilidade: Aplicações à Estatística. Rio de Janeiro: Livro Técnico e Científico,
1983.
MORETTIN,P.A. & BUSSAB, W.O. Métodos Quantitativos para Economistas e Administradores -

Estatística Básica. São Paulo, Atual. 1981.
SOUNIS, E. Bioestatística: princípios fundamentais, metodologia estatística, aplicação às

ciências biológicas. São Paulo, McGraw-Hill do Brasil, 2.ed.rev., 1976.
SPIEGEL, M., Estatística - Série: Coleção Schaum, São Paulo: McGraw-Hill do Brasil, 2.ed., 454p.,
1984.
VIEIRA, S. Introdução à Bioestatística. Rio de Janeiro: Campus, 2.ed., 1983.
VIEIRA, S. & HOFFMANN, R., Elementos de Estatística, São Paulo: Atlas, 1986, 159p.

49
REVISÃO DE SOMATÓRIOS
Define-se a soma dos n valores x1, x2, ..., xn da variável quantitativa X por:
n
x• = ∑x
i =1
i = x1 + x2 + ... + xn
e lê-se: “somatório de x índice i, para i = 1 até n”. Quando estivermos acostumados com a notação do
somatório, poderemos simplificá-la (se não houver chance de confusão!) utilizando somente ∑ x , ao
n
invés de ∑x
i =1
i .
Exemplo 1 Seja a variável X que descreve o peso corporal, em gramas de frangos de corte aos
42 dias de vida e está assumindo os seguintes valores:
X = {1900, 2050, 1950, 2100, 1950, 2050}
Então:
6
• ∑x
i=1
i = 1900 + 2050 + ... + 2050 = 12000 gramas é o peso total dos n = 6 frangos.
∑x i
12000
• x = i=1
= = 2000 gramas é o peso médio dos n = 6 frangos.
6 6
ALGUMAS PROPRIEDADES IMPORTANTES DO SOMATÓRIO:

n
P.1) Se k ∈ R ( k é uma constante real) então ∑ k = n∗k
i =1
n n
P.2) ∑ kXi=1
i =k ∑x
i =1
i
∑ (xi − k) = (x
n
P.3)
i =1
1 - k) + (x 2 - k) + ... + (x n - k) = ∑x
i =1
i − nk
n
P.4) ∑x i =1
2
i = x12 + x 22 + ... + x n2 (soma de quadrados)
2
 n 
P.5) 

∑i =1
xi  = (x1 + x2 + ... + xn) = (x•)

2 2
(quadrado da soma)
2
 n 
∑( )
n n
P.6) 
 i =1
x i − k  = ( x 1 − k ) 2 + (x 2 − k) 2 + ... + (x n − k) 2 =

∑
i =1
xi2 − 2k ∑x
i =1
i + nk
2
(soma dos quadrados dos desvios em relação à constante k)

n
P.7) ∑x yi =1
i i = x1y1 + x2y2 + ... + xnyn (soma de duplos produtos)
Exercício Os resultados experimentais apresentados na tabela a seguir, foram obtidos de um

ensaio de irrigação onde se estudou a produção de alfafa (t/ha) como uma função da quantidade de
2
água aplicada (ml/cm ).
X: Água 12 18 24 30 36 42 48
Y: Produção 5,27 5,68 6,25 7,21 8,02 8,71 8,42

50
Com base nestes dados, pede-se:

1) Desenhe um gráfico de dispersão Y vs. X e tente visualizar que o relacionamento entre as variáveis
pode ser bem explicado por uma reta.
2) Calcule:
7 7 7
(a) ∑i=1
x i = x• (b) ∑ i=1
y i = y• (c) ∑x
i =1
2
i
7 7 7
(d) ∑i =1
y i2 (e) ∑ i =1
xi yi (f) ∑ (2x
i =1
i − 3yi )
7 7
∑i=1
xi ∑y
i=1
i
(g) x = (h) y =
7 7
7  7 x• ( )2 
∑
1
∑
1
(i) s 2x = ( xi − x) = x2 −
2
7 6  i =1 i 7 
i =1  
7  7 y• ( )2 
∑
1
∑
1
(j) s 2y = ( y i − y) = 2
yi 2 −
7 6  i =1 7 
i =1  
 7  7 
7 7



∑ X i  

∑ Y i
∑ (X i − X)(Yi − Y) ∑X Y −
i =1 i =1
i i
i =1 i =1
7
(k) r(X,Y) = =
7 7
 2  2 
∑ (X i − X) ∑ (Yi − Y)  7   7 
2 2
i =1 i =1

 7

∑ X
 i =1 
i



 7

 ∑ Y
 i =1 
i




∑
 X i2 −
 i =1 7 ∑
  Yi2 −
  i =1 7


  
  
  
7 7
7 7 ∑X ∑Y i i
∑ (Xi =1
i − X)( Yi − Y) ∑X Y −
i =1
i i
i =1
7
i =1
(l) b = 7 = 2
 
∑
7
i =1
( X i − X) 2
7



∑ X i 

∑ i =1
X 2i −
i =1
7
(m) a = Y − b ∗ X
3) Para perceber para que serve a maioria dos cálculos feitos no item 2, desenhe no gráfico pedido no
item 1, a reta Y = a + b X (reta “ajustada’) e atente para o fato de que ela passa pelo “meio” dos
pontos. Utilizando esta reta você pode obter estimativas da produção de alfafa (Y) para diversas
quantidades de água aplicada (X). Por exemplo: calcule a produção (estimada) de alfafa para X = 20,
2
25 e 40 ml/cm .
Respostas do item 2:
(a) 210 (b) 49,56 (c) 7308 (d) 362,1630 (e) 1590,58 (f) 271,32 (g) 30 (h) 7,08 (i) 168
(b) 1,8797 (k) 0,9724 (l) 0,1029 (m) 3,9943.

51
EXERCÍCIOS DE APLICAÇÃO
1) Complete a distribuição de freqüências abaixo:
IDADE (anos) Pmi fi fri fpi Fi Fpi


17 | 18 3
 21
| 10

21 | 0,40

| 45 90
 27
| 5
TOTAL
Baseando-se nesta distribuição pede-se:
a) desenhar um histograma para as freqüências absolutas;
b) desenhar uma ogiva de Galton para as freqüências percentuais acumuladas e estime a idade me-
diana;
c) calcule a média, a moda e a mediana dos pesos, usando as fórmulas convenientes.
2) Um ensaio com 50 frangos de corte forneceu os seguintes pesos (em gramas) aos 56 dias de idade:
2330 2340 2350 2360 2360 2370 2370 2380 2380 2380
2380 2380 2380 2390 2390 2390 2390 2390 2390 2390
2390 2400 2400 2400 2400 2400 2400 2400 2410 2410
2410 2410 2420 2420 2420 2420 2430 2430 2430 2440
2440 2440 2440 2450 2450 2450 2450 2480 2480 2480
Com base nesses dados, pede-se:
a) construir um dispositivo de ramo-e-folhas para os pesos dos frangos;
b) calcular a média, a mediana e a moda dos pesos originais;
c) construir uma distribuição de freqüências dos pesos com, no máximo, k=7 classes de freqüências;
d) calcular a média, a mediana e a moda dos pesos com base nas informações da distribuição de
freqüências;
e) comparar os resultados obtidos em (b) e (d) e comentar se os resultados são parecidos ou não;
f) construir um histograma de freqüências percentuais;
3) Os dados apresentados abaixo se referem ao Consumo de Matéria Seca (kg) de novilhos de dois
anos, em fase de acabamento:
10,3 10,4 11,2 10,6 10,7 10,8 10,9 10,5 10,2 10,5 11,0
10,5 10,9 10,7 10,8 11,4 10,6 10,7 10,3 10,4 10,6 10,3
10,9 11,0 10,0 10,9 10,0 10,3 10,4 10,5 10,6 11,1 10,1
10,8 10,1 10,2 10,6 10,6 10,4 10,5 10,6 10,4 10,7 11,0
10,9 10,3 10,7 10,9 10,1 11,2 11,5 11,6 10,3 10,7 10,9
Construir uma distribuição de freqüências desses dados, considerando k = 6 classes, h = 0,3kg e

limite inferior da primeira classe igual a 10,0kg. A partir dessa distribuição de freqüências:
a) calcular a média, a mediana e a moda;
b) calcular a variância, o desvio-padrão, o desvio médio e o coeficiente de variação;
c) calcular Q1 , Q2 , Q3 , P20 , P53 e P95.
d) calcular os coeficientes de assimetria e de curtose e comentar sobre a simetria e o grau de acha-
tamento da distribuição;
e) construir o histograma das freqüências absolutas simples e uma ogiva de Galton das fre-qüências
percentuais acumuladas.

52
4) Baseado na distribuição de freqüências dos pesos ao nascer (em kg) de 80 leitões da raça Landrace
apresentada abaixo, pede-se:
a) estimar o peso ao nascer acima do qual estão 80%, 50%, 20% e 5% dos leitões;
b) qual a porcentagem de leitões com peso médio abaixo de 1,38 kg? E acima de 1,26 kg?
c) qual o número de leitões com peso inferior ao peso mais freqüente (moda)?
d) qual a porcentagem de leitões com pesos no intervalo [Me(X) − DP(X); Me(X) + DP(X)]?
Peso ao nascer (kg) fi
 1,28
1,20 | 8
 1,36
1,28 | 13
 1,44
1,36 | 28
 1,52
1,44 | 18
 1,60
1,52 | 9
 1,68
1,60 | 4
5) A distribuição de freqüências acumuladas do ganho de peso diário (GPD), em gramas, do gado leitei-
ro com peso vivo entre 16 e 17 arrobas de uma fazenda experimental é a seguinte:
GPD (g) Fi
 460
400 | 60
 520
460 | 130
 580
520 | 230
 640
580 | 310
 700
640 | 380
 760
700 | 430
 820
760 | 450
Pede-se:
a) A porcentagem de animais com ganho de peso abaixo da média? E abaixo da moda?
b) A porcentagem de animais com ganho de peso inferior a um desvio padrão abaixo da média?
c) A porcentagem de animais com ganho de peso superior a um desvio-padrão abaixo da média e
inferior a um desvio-padrão acima da média, ou seja, com ganho de peso diário no intervalo
[Me(X) − DP(X); Me(X) + DP(X)]?
d) Considerando que um C.V.(X) < 10% caracteriza rebanhos homogêneos, qual a sua conclusão
sobre esse rebanho?
6) O responsável pela granja do Campus pretende dividir os frangos a serem enviados para abate em
quatro categorias de peso, de tal modo que: a Categoria D inclua 20% dos frangos mais leves, a C
inclua os 30% seguintes, a B inclua os 40% seguintes e a categoria A inclua os 10% mais pesados.
Baseando-se na distribuição de freqüências apresentada a seguir, pede-se:
a) Calcular os limites de peso de frangos ao abate para as 4 categorias acima definidas?
b) Suponha que o responsável decida separar desse lote as aves com peso inferior a um desvio pa-
drão abaixo da média, para receber uma ração reforçada por mais 5 dias. Quantos frangos serão
separados?
Peso (kg) fi
 1,70
1,60 | 60
 1,80
1,70 | 160
 1,90
1,80 | 280
 2,00
1,90 | 260
 2,10
2,00 | 140
 2,20
2,10 | 60
 2,30
2,20 | 40

53
7) Defina um espaço amostral (de resultados) para cada um dos seguintes experimentos aleatórios:
a) lançamento de dois dados, anotando-se a soma das faces superiores;
b) investigação de leitegadas de tamanho 4, anotando-se a configuração segundo o sexo;
c) lançamento de uma moeda até que apareça uma cara.
8) Sejam A, B e C três eventos não disjuntos associados a um experimento cujo espaço amostral é W.
i) Interprete as seguintes operações usando os diagramas de Venn:
(a) A ∩ B ∩ C (b) A ∩ B ∩ C (c) (A ∩ B ∩ C) (d) A ∩ (B ∪ C)
c c c c c
(e) (A ∪ B) ∩ W (f) (A ∪ B ∪ C)
c
ii) Exprima em termos de operações de eventos as seguintes afirmações:

(a) ocorrência de pelo menos um dentre os eventos A, B e C;
(b) ocorrência de nenhum dos eventos A, B e C.
9) Dentre 6 números positivos e 8 negativos são sorteados dois números, sem reposição, e multiplica-
dos. Qual a probabilidade de que o produto seja positivo? E negativo? (sugestão: usar o diagrama de
árvore)
10) Considere os eventos A: "o animal sorteado tem peso superior a 200kg" e B: "o animal sorteado é
macho", com as seguintes probabilidades associadas: P(A) = 1/4, P(BA) = 1/2 e P(AB) = 1/4. Com
base nesses valores, pede-se:
a) os eventos A e B são mutuamente exclusivos? por quê?
b) os eventos A e B são independentes? por quê?
c) calcule e interprete P(A B ) e P(AB ).
c c c
11) A probabilidade de que o Palmeiras vença seu próximo jogo no Campeonato Paulista é estimada
em 70% se não chover, mas só em 50% se chover. Se os registros meteorológicos mostrarem que
tem chovido em 40% dos jogos do Palmeiras, qual a probabilidade dele vencer o próximo jogo? E de
perder?
12) Sabe-se que as aves de um box do galpão experimental para frangos de corte, escolhido ao acaso,
recebeu uma "nova" vacina. Dos seis boxes existentes, os boxes 1, 2 e 3 têm 20 fêmeas e 40 ma-
chos, o box 4 tem 20 machos e 40 fêmeas e os boxes 5 e 6 têm 30 machos e 30 fêmeas cada um.
Nosso experimento consiste em sortear um desses seis boxes e dentro dele, sortear uma ave. Pede-
se:
a) qual a probabilidade da ave sorteada de ser um macho? e ser uma fêmea?
b) sabendo-se que a ave sorteada é uma fêmea, qual a probabilidade dela ter sido retirada do box
1? E do 4? E do 5?
13) Num determinado local temos dois piquetes: no piquete 1 são colocados 3 bezerros Gir e 2 Nelore, e
no piquete 2 são colocados 2 bezerros Gir e 5 Nelore. Um piquete é sorteado e um bezerro é retirado
deste piquete e colocado no outro; daí, um bezerro é sorteado deste segundo piquete. Calcule a pro-
babilidade que,
a) o segundo bezerro sorteado seja um Nelore;
b) os dois bezerros sorteados sejam da mesma raça.
14. Sabendo-se que a v.a. X ~ B(n, p), que E(X) = 20 e Var(X) = 4, calcule:
(a) os valores dos parâmetros n e p; (b) P(X < 3) (c) P(X < 23)
( X − 20 )
(d) E(Z) e Var(Z), onde Z = .
2

54
15. Sabe-se que 20% dos animais de uma fazenda são fêmeas. Num lote de 5 animais escolhidos ao
acaso para um certo exame clínico, qual a probabilidade de encontrarmos:
(a) no máximo 3 fêmeas? (b) nenhuma fêmea? (c) pelo menos 4 fêmeas?
(d) exatamente 2 fêmeas?
16. Um avicultor recebe três propostas para a compra da sua produção de ovos de avestruz:
PROPOSTA A: serão examinados 15 ovos; se for encontrado, no máximo um ovo de baixa
qualidade o comprador A paga R$0,16 por unidade, caso contrário, paga somente R$0,07.
PROPOSTA B: serão examinados 20 ovos; se forem encontrados até 3 ovos de baixa qualidade, o
comprador B paga R$0,15 por unidade, caso contrário, paga somente R$0,06.
PROPOSTA C: serão examinados 18 ovos; se nenhum deles for de baixa qualidade, o comprador C
paga R$0,20 por unidade, caso contrário, paga somente R$0,09.
Assumindo que a v.a. X = “número de ovos de baixa qualidade” tem distribuição binomial e que a
probabilidade de um ovo sorteado ser de baixa qualidade é p = 0,10, determine qual é a melhor pro-
posta para o avicultor.
17) Um fabricante de peças de automóveis garante que qualquer caixa de peças conterá, no máximo, 2
peças defeituosas. Se uma caixa contém 20 peças e a experiência tem mostrado que o processo de
fabricação produz 5% das peças defeituosas, qual a probabilidade de que uma caixa, escolhida ao
acaso, satisfaça a garantia?
18) Suponha que um veterinário queira decidir se vai ou não aceitar um lote de vacinas. Para ajudar na
decisão, ele retira uma amostra de "n" vacinas do lote e conta o número "x" de vacinas vencidas.
Baseado no número de vacinas vencidas na amostras, decide: se x<a ele aceita o lote, mas se x>a
ele o rejeita ("a" é fixado à priori). Suponha que a amostra seja de n = 25 vacinas, que a = 2 e que a
v.a. X = “número de vacinas vencidas” tem distribuição binomial, de parâmetros n = 25 e p. Calcule
a probabilidade do veterinário aceitar o lote de vacinas, assumindo:
(a) p = 0,10 (b) p = 0,20 (c) p = 0,05
19) No PABX do Campus de Pirassununga o "número de chamadas telefônicas para professores do

ZAB" chega segundo uma distribuição de Poisson, com média λ = 6 chamadas/hora. Calcular a
probabilidade de que numa hora cheguem:
(a) 4 ou mais chamadas; (b) menos de 2 chamadas; (c) no máximo 7 chamadas.
20) Seja X uma variável aleatória contínua com função densidade de probabilidade:
x
 + ≤ ≤
f(x) =  6 k, se 0 x 3
 0, caso contrario
Calcule: (a) o valor da constante k, para que f(x) seja uma f.d.p; (b) P(1≤ X ≤2); (c) E(X) e Var(X).
21) Dizemos que uma variável aleatória contínua - X - tem distribuição uniforme no intervalo real [α; β],
se a sua função densidade de probabilidade (f.d.p.) for definida como:
1
f(x) = , para todo α ≤ x ≤ β, e β > α
β−α
Com base nesta definição, mostrar que E(X) =

α+β
e que Var(X) =
(β − α ) 2
.
2 12
22) Dada uma v.a. uniforme X definida no intervalo entre α = 5 e β = 10, ou seja X ~ U(5; 10), calcular:
(a) P(X < 7) (b) P( 8 < X < 9) (c) P(X > 8,5) (d) P( |X-7,5| > 2)

55
23) Supondo que X ~ N(µ; σ ), encontre:

2
(a) P(X ≤ µ + 2σ) (b) P( |X-µ| ≤ σ) (c) o valor k, tal que P(µ - kσ ≤ X ≤ µ + kσ) = 0,99
24) O peso de 600 estudantes é normalmente distribuído com média 65,3 kg e desvio padrão 5,5 kg.
Encontre o número de alunos com peso:
(a) entre 60 e 70 kg. (b) mais que 63,2 kg.
25) Uma fábrica de pneumáticos fez um teste e verificou que o desgaste de seus pneus obedecia a uma
distribuição normal de média 48.000 km e desvio padrão 2.000 km. Calcular a probabilidade de um
pneu escolhido ao acaso:
(a) durar mais que 46.000 km. (b) durar entre 45.000 e 50.000 km.
26) Supondo que o tempo de vida, em meses, dos equipamentos E1 e E2 tenham distribuições N(45; 9)
e N(40; 36), respectivamente. Se um desses equipamentos tiver que ser usado por um período
superior a 45 meses, qual deles deve ser preferido? E se o período de uso for superior a 48 meses?
27) O peso bruto de latas de conserva tem distribuição normal de média 1.000 g e desvio padrão 20 g.
O peso das latas também tem distribuição normal, mas de média 100 g e desvio padrão de 10 g.
Calcule a probabilidade de uma lata conter:
(a) menos de 850 g de peso líquido (b) mais de 920 g de peso líquido.
28) Uma enchedora automática de garrafas de refrigerantes está regulada para que o volume médio do
3 3
líquido em cada garrafa seja de 1.000 cm e o desvio padrão de 10 cm . Se admitirmos que a variá-
vel tem distribuição normal, calcule:
3
(a) a porcentagem de garrafas onde o volume de líquido é menor que 990 cm ;
(b) a porcentagem de garrafas onde o volume de líquido não se desvia da média em mais que 2
desvios padrões;
(c) o que acontecerá com a porcentagem calculada no item (b) se a máquina for regulada de forma
3 3
que a média seja 1.200 cm e o desvio padrão 20 cm .
29) O diâmetro X de rolamentos esféricos fabricados numa indústria pirassununguense tem distribuição
2
normal com média 6,140 mm e variância 0,625 mm . O preço de custo T de cada rolamento depen-
de do seu diâmetro, e
T = R$ 0,10 se o rolamento é considerado bom [ 6,10 ≤ X ≤ 6,18 mm]
T = R$ 0,05 se o rolamento é recuperável [6,08 ≤ X < 6,10 mm ou 6,18 < X ≤ 6,20 mm]
T = - R$ 0,10 se a esfera é defeituosa [X < 6,08 ou X > 6,20]
Com base nesses informações, calcule:
(a) a probabilidade de um rolamento ser considerado bom, recuperável e defeituoso;
(b) o preço médio de um rolamento, ou seja, E(T).
30) Uma indústria produz televisores e garante a restituição da quantia paga se qualquer televisor que
vende apresentar algum defeito considerado grave, no prazo de 6 meses. Ela produz televisores de
20 e de 29 polegadas, com um lucro médio respectivo de R$ 100 e R$ 200 se não houver
restituição, e com um prejuízo de R$ 300 e R$500 se houver restituição. Suponha que o tempo (T)
para a ocorrência de algum defeito grave seja, em ambos os casos, uma variável aleatória com
2
distribuição normal, respectivamente, com médias 9 e 12 meses e variâncias 4 e 9 meses .
(a) Se você tivesse que planejar uma estratégia de marketing para a empresa, você incentivaria as
vendas dos aparelhos de 20 ou de 29 polegadas?
(b) Sua decisão mudaria se o prazo de garantia contra defeitos graves aumentasse de 6 para 8
meses?

56
31) Um avião de turismo de 4 lugares pode levar uma carga útil de 350 kg. Suponha que o peso de um
passageiro tem distribuição normal com peso médio de 70 kg e desvio padrão 20 kg e que o peso da
bagagem de cada passageiro tenha distribuição normal de média 12 kg e desvio padrão 5 kg.
Calcular a probabilidade de:
(a) haver sobrecarga se o piloto não pesar os quatro passageiros e suas respectivas bagagens;
(b) que o piloto tenha de tirar pelo menos 50 kg de combustível do avião para evitar a sobrecarga.
32) Seja a v.a. X ~ N(100;100). Usando a tábua de probabilidades conveniente, calcule:

(a) P(X < 105) (b) P(|X-100| < 1,3) (c) o valor de a, tal que P(X > a) = 0,90
33) A altura de 10.000 alunos de um colégio tem distribuição aproximadamente normal de média 170
cm e desvio padrão 5 cm, ou seja X ~ N(170; 25). Calcule:
a) qual o número esperado de alunos com altura superior a 165 cm?
b) qual o intervalo simétrico em torno da média, que conterá 80% das alturas dos alunos? (ou seja,
obtenha o valor de k, de tal modo que P(170-k ≤ X ≤ 170+k) = 0,80)
34) A distribuição de pesos de coelhos criados numa granja pode muito bem ser representada por uma
distribuição normal, com média de 5,0kg e desvio padrão de 0,8 kg. Um abatedouro comprará 5000
coelhos e pretende classificá-los, de acordo com o peso, em quatro classes: como pequenos os 20%
dos mais leves; como médios os 55% seguintes; como grandes os 15% seguintes e como extras os
10% mais pesados. Calcule os limites de peso para cada classe.
35) Sabe-se que a v.a. X ~ N(µ; σ ) e que 28% dos valores dessa variável são superiores a 34 e 12%
2
dos valores são inferiores a 19. Baseado nessas informações, calcule o valor da média (µ) e da
2
variância (σ ) da v.a. X.
36) Sejam X e Y duas v.a. discretas, cuja distribuição conjunta é dada por P(X=x;Y=y) = kxy, para x = 1;
3; 5 e y = 2; 4.
a) Calcule o valor de k;
b) apresente a distribuição conjunta de X e Y e as respectivas distribuições marginais;
X+Y
c) calcule E(S) e Var(S) onde S = .
2
37) Durante uma grande exposição de animais, diversos eqüinos foram julgados por dois juizes, cujas
notas (de 5 a 10) foram anotadas numa planilha. Baseado na distribuição conjunta de X (notas do
juiz A) e Y (notas do juiz B), apresentada a seguir:
Y
X 6 7 8 9
5 0,10 0,10 0 0,10
6 0 0,10 0 0,10
7 0 0,10 0,10 0,10
8 0,10 0 0,10 0
a) Calcule E(X), E(Y) e r(X,Y);
b) Com base nos resultados obtidos em (a) podemos dizer que os critérios de julgamento utilizados
pelos dois juizes são bastante parecidos? Por que?
c) Obtenha a distribuição condicional das notas do juiz B, dado que a nota do juiz A foi 7.
38) Dois cartões são selecionados aleatoriamente de uma caixa que contem cinco cartões numerados:
1, 1, 2, 2 e 3. Sejam as variáveis aleatórias X: "soma " e Y: "o maior dos dois números selecionados:
(i) Determine a função de probabilidade conjunta de X e Y.
(ii) As variáveis X e Y são independentes? Por que?
(iii) Obtenha a distribuição condicional de X, dado que o maior dos números selecionados foi o 2, ou
seja, Y=2. A seguir, calcule E[X | Y=2] e Var[X | Y = 2]

57
39) Supondo que as v.a. X e Y sejam independentes com as distribuições apresentadas a seguir, encon-
tre a distribuição conjunta de X e Y e verifique que Cov(X, Y) = 0.
X 1 2 y -2 5 8
f(x) 0,7 0,3 g(y) 0,3 0,5 0,2
40) Numa comunidade em que apenas 15 casais trabalham, fez-se um levantamento onde foram obti-
dos os seguintes rendimentos mensais do homem (X) e da mulher (Y), expressos em números de
salários mínimos:
Casal 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X 10 10 5 10 15 10 5 15 10 5 15 15 10 10 15
Y 5 10 5 5 5 10 10 10 10 10 5 10 15 10 15
(a) Construa a distribuição de probabilidade conjunta de X e Y e desenhe um histograma da distri-
buição.
(b) Determine as distribuições marginais de X e de Y.
(c) X e Y são variáveis independentes? Justifique a resposta.
(d) Calcule E(X), E(Y), Var(X), Cov(X, Y) e ρ(X, Y). Explique o significado de cada valor obtido.
(e) Sabendo-se que o rendimento da mulher é igual a 10 salários mínimos, obtenha a distribuição
condicional de X, sua média e sua variância.
(f) Considere a variável T igual à soma dos vencimentos do homem e da mulher. Obtenha a distri-
buição de probabilidades da v.a. T = X + Y e calcule E(T) e Var(Z).
41) Suponha que as variáveis X e Y tenham a seguinte distribuição conjunta:

x
y
1 2 3
1 0,1 0,1 0,1
2 0,1 0,2 0,1
3 0,1 0,1 0,1
(a) Obtenha a função de probabilidade de S = X + Y, D = X − Y e V = XY e utilize essas distribuições
para calcular: E(S), E(D), E(V), Var(S), Var(D) e Var(V).
(b) Calcule esses valores utilizando as propriedades relacionadas com a soma e a diferença de va-
riáveis aleatórias.
(c) Mostre que, embora Cov(X; Y) = 0, as variáveis X e Y NÃO SÃO INDEPENDENTES!

Apostila Estatistica I

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila Estatistica I

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade de São Paulo

Departamento de Ciências Básicas

Prof. Dr. César Gonçalves de Lima

1. NOÇÕES DE ESTATÍSTICA DESCRITIVA

1.2. ALGUMAS DEFINIÇÕES INICIAIS

1.3. ESTATÍSTICA DESCRITIVA

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

1.3.1. APRESENTAÇÃO TABULAR DOS DADOS

As tabelas ou quadros são constituídos, basicamente, de:

Tabela 1. Evolução do quadro de docentes na USP por categoria - 1988/1996.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

1.3.2. APRESENTAÇÃO GRÁFICA DOS DADOS

(*) MS-1: Auxiliar de Ensino; MS-2: Assistente; MS-3: Doutor

Na apresentação gráfica de dados são necessários alguns cuidados, tais como:

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

Figura 2. Evolução do número de alunos formados nos cursos de Zootecnia e Matemática

80% Não docentes

Figura 4. Porcentagens de docentes e funcionários não docentes em algumas unidades da USP em

Figura 5. Alunos de pós-graduação distribuídos por categoria na ESALQ e FEA em 1995.

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

Podemos resumir os resultados de uma variável qualitativa ou quantitativa discreta associando

Tabela 2 Distribuição de freqüências da raça da mãe de coelhos desmamados no primeiro trimestre de

Tabela 3 Distribuição de freqüências do tamanho de ninhadas de coelhos desmamados no primeiro

Já a construção de distribuições de freqüências para variáveis quantitativas contínuas é um

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

Peso (g) fi Pmi fri fpi Fi Fri Fpi

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

Com base na Tabela 4, podemos afirmar, por exemplo, que:

Ainda sobre as distribuições de freqüências, é sempre bom lembrar que:

2.1. REPRESENTAÇÃO GRÁFICA DE DISTRIBUIÇÕES DE FREQÜÊNCIAS

Figura 7. Histograma de freqüências absolutas do tamanho de ninhadas de coelhos

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

3. ALGUMAS MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS

Já percebemos que a redução dos dados através de diagramas de ramo-e-folhas e tabelas de

3.1. MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL

As medidas de posição ou de tendência central visam determinar o centro de uma distribuição.

Por exemplo, a partir da distribuição de freqüências do tamanho das ninhadas,

⇒ a sua média é igual a Me(X) =

Por exemplo, a partir da distribuição de freqüências dos pesos de coelhos ao desmame:

⇒ a média aritmética é igual a: Me(X) =

Por exemplo, a moda do peso de coelhos ao desmame é:

Usando esta fórmula, podemos calcular a mediana do peso de coelhos ao desmame:

Qualquer uma das medidas de posição calculadas: Me = 820,0, Mo = 831,7 ou Md = 828,5

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

Para variáveis contínuas apresentadas em tabelas de freqüências calculamos o j-ésimo quartil

Utilizando as fórmulas já definidas e a distribuição de freqüências dos pesos de coelhos desma-

Freqüentemente estamos interessados em saber qual é a posição que um determinado valor

Algumas considerações importantes sobre as medidas de posição:

3.2. MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE

As medidas de tendência central dão o valor da abcissa de um ponto, em torno do qual os

Grupo A Grupo B Grupo C

Idade (anos) Idade (anos) Idade (anos)

Torna-se conveniente a criação de uma medida de dispersão, que resuma a variabilidade de

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

Quando os valores de uma variável discreta estão agrupados em classes de freqüências, as

Para os dados de tamanho da ninhada (Tabela 3) temos:

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

Para o peso de coelhos ao desmame temos:

(a) Tamanho da ninhada (b) Peso de coelhos ao desmame

Material elaborado pelo Prof. Dr. César Gonçalves de Lima

Figura 12. Exemplo de um desenho esquemático ou box-plot

onde os eventos (B Ai), para i = 1, 2, ..., k,

P(X=2) = P(SDD DSD DDS) = ppq + ppq + pqq = 3p q