Você está na página 1de 98

Universidade Estadual do Sudoeste da Bahia - UESB

Departamento de Ciências Exatas e Naturais - DCEN


Campus Juvino Oliveira, Itapetinga – BA

ESTATÍSTICA GERAL

Paulo Bonomo
Professor Pleno da UESB

Universidade Estadual do Sudoeste da Bahia


Itapetinga – Bahia
2022

1
Apresentação

Podemos considerar a Estatística como a ciência que se preocupa com a organização, descrição,
análise e interpretação dos dados experimentais. Ouvimos muito falar em estatísticas da loteria esportiva,
estatística da saúde pública, estatística do crescimento da população etc. Esta noção prende-se apenas à
parte de organização e descrição dos dados observados. Um outro campo da ciência Estatística refere-se a
análise e interpretação desses dados, caracterizando a inferência estatística. É razoável também que, para
poder-se fazer a inferência a respeito dos dados observados, deva-se primeiramente proceder a sua
organização e descrição dos mesmos.
Esta apostila é direcionada aos estudantes de graduação que estão cursando a disciplina estatística
geral. Nesta apostila são abordados os tópicos: estatística descritiva, introdução a teoria das probabilidades,
variáveis aleatórias, distribuições de probabilidade de variáveis aleatórias e introdução a teste de hipótese.
A compreensão desses tópicos permitirá ao aluno ter um suporte teórico para o entendimento da estatística
experimental, sendo esta de fundamental importância para um bom acompanhamento das demais
disciplinas dos cursos de graduação.
O presente material foi elaborado com o objetivo de dar suporte didático ao curso Estatística
Geral. No entanto não substitui a pesquisa em reconhecidos livros editados por autores nacionais e
internacionais.

Sumário

Capítulo Página

Cap. 1 - Estatística descritiva ....................................................................................... 03


Cap. 2 - Introdução a teoria das probabilidades ............................................................ 35
Cap. 3 - Variáveis aleatórias ........................................................................................ 59
Cap. 4 - Distribuições de probabilidade de V. A. e intervalo de confiança ..................... 81
Cap. 5 - Bibliografia consultada .................................................................................. 97
Cap. 6 - Tabela da distribuição normal padronizada ........................................................... 98

2
Cap 1. Estatística descritiva
1.1. Introdução
A estatística dedica-se ao desenvolvimento e ao uso de métodos para a coleta e análise de dados, isto
é, a interpretação substantiva e a construção de inferências neles baseados. No entanto a palavra estatística
lembra, à maioria das pessoas, recenseamentos. Os censos existem a milhares de anos e constituem um
grande esforço dos governos com o objetivo de conhecer seus habitantes, sua condição sócio econômica,
sua cultura, sua religião etc. Portanto, associar estatística a censo é perfeitamente correto do ponto de vista
histórico. É interessante salientar que as palavras estatística e estado tem a mesma origem latina: status.
Hoje, alguma familiaridade com os princípios básicos da estatística deve fazer parte da educação de
todo ser humano. Afinal, é difícil ser um cidadão informado sem uma compreensão dos vários índices
governamentais, dos gráficos e tabelas publicados diariamente na imprensa e nas pesquisas de opinião
pública. Na realidade, entretanto, como veremos no decorrer da disciplina estatística geral e experimental
a estatística engloba muitos outros aspectos, sendo fundamental na análise de dados provenientes de
quaisquer processos em que exista variabilidade. Por exemplo, quando testamos novos produtos, técnicas
de produção etc.
Para fins de apresentação, é usual dividir-se a estatística em três grandes áreas, embora não se trate
de ramos isolados: os mecanismos de coleta de dados, amostragem e planejamento de experimentos; a
estatística descritiva, que se ocupa da organização, apresentação e sintetização dos dados; a estatística
inferencial, que é o conjunto de métodos para a tomada de decisões, nas situações em que existem incerteza
e variação.

1.2. Coleta de dados


A coleta de dados é a fase inicial de muitos estudos tecnológicos, sociais, econômicos ou biológicos.
Constitui-se no processo de escolha das unidades de análise que serão consideradas no estudo (ex.: as
pessoas que serão entrevistadas, os clientes que serão entrevistados, as plantas que serão monitoradas, as
peças que serão medidas, os pacientes que serão acompanhados), na determinação das características de
cada unidade experimental que serão medidas e da logística de trabalho de campo. Conforme as
necessidades de cada estudo, os dados necessários são coletados através dos métodos de amostragem ou
dos métodos de planejamentos de experimentos adequado para o estudo.

1.2.1. Amostragem
Em estatística, define-se como população a coleção de todas as observações potenciais sobre
determinado fenômeno. O conjunto de dados efetivamente observados, ou extraídos, constitui uma amostra
da população. É sobre os dados da amostra que se desenvolvem os estudos, visando a produção da inferência
em relação a população. Para se chegar a amostra, em cada situação constrói-se um plano amostral.
Nesse caso, o pesquisador não submete determinadas unidades experimentais aos tratamentos
desejados. Mas executa um levantamento de dados dentro de um universo disponível e verifica a ocorrência
de determinada resposta. Ou como essa resposta está associada a outras do mesmo universo.
Determinação de consumo de óleo diesel em ônibus: Com o objetivo de determinar o consumo de óleo
diesel (quilômetros por litro) dos ônibus de Belo Horizonte, toma-se um grupo de 100 ônibus das diversas
empresas que atuam em BH e mede-se o consumo médio por quilômetro. Para tanto deve-se avaliar uma
quantidade de ônibus de cada empresa proporcional ao número total de ônibus daquela empresa.
Avaliação de um sistema de ensino: É necessário elaborar um questionário adequado para avaliar o sistema
de ensino. Também são de difícil determinação os locais onde serão aplicados os questionários.
Hábitos migratórios de animais: Toma-se um grupo de animais, coloca-se em cada um deles uma etiqueta,
observando-se posteriormente em outras localidades. A amostra aqui é o conjunto de animais etiquetados.
Pela observação da amostra, deduziremos com certa margem de erro, o comportamento da espécie quanto
as características em estudo.
Pesquisas sobre tendências de votação: Em época de eleição, é comum a realização de pesquisas eleitorais
para verificar a tendência dos eleitores. Para que os resultados sejam de fato satisfatórios, toma-se o cuidado
de entrevistar um número de pessoas com características socioeconômicas, culturais, religiosas etc. tão
próxima quanto possível da população à qual os resultados da pesquisa serão estendidos.

3
1.2.2. Planejamento de experimentos

Em muitas Em muitas situações, o problema de interesse é descobrir como uma variável resposta se
relaciona com os vários fatores explicativos. Por exemplo, como a produtividade de uma planta, medida
pela qualidade de seus frutos, relaciona-se com a qualidade do solo, a quantidade e o tipo de fertilizante
usado, o volume de irrigação disponível. Para se estudar a relação entre variável resposta e variável
explicativa, é preciso coletar dados. Para isso as técnicas agregadas, sob o nome de planejamento de
experimentos são essenciais. Com sua ajuda, determina-se em quais valores das variáveis explicativas as
medidas serão feitas.
Experimentos agrícolas: Os planejamentos estatísticos surgiram para solucionar problemas específicos da
experimentação agrícola. Por exemplo, como testar diferentes cultivares numa determinada área agrícola
sendo que todas as cultivares estejam na mesma condição.
Experimentos clínicos: Um medicamento só é liberado depois de ter sido submetido a um ensaio clínico.
Aqui, a primeira preocupação é o tratamento ético dos pacientes. Depois, é preciso garantir, através da
alocação aleatória, que os grupos que receberam o medicamento padrão e o novo medicamento tenham as
mesmas características. Ou seja, só se distinguem pelo tipo de medicamento tomado.
Experimentos industriais: Em várias indústrias, principalmente na indústria química, os fatores de operação
de um determinado processo de produção são estabelecidos depois de cuidadosa busca de condições ótimas.
Isso é feito através do uso intensivo de técnicas estatísticas de planejamento de experimentos desenvolvidas
para esse fim. Usam de forma intensiva os experimentos fatoriais.
As técnicas de planejamento e análise de dados oriundos desses experimentos serão discutidos
durante s disciplina estatística geral e com maior aprofundamento nas disciplinas estatística experimental,
estatística aplicada e planejamento e análise de experimentos.

1.3. Estatística descritiva

Trata-se da parte mais conhecida da estatística. Quem vê os noticiários, na televisão ou nos jornais
sabe quão frequente é o uso de médias, índices e gráficos na descrição de um fato social ou econômico. No
entanto, a utilidade da estatística descritiva é muito mais geral. Na realidade nunca devemos realizar análise
estatística em modelos sofisticados sem uma prévia descrição dos dados.
O INPC, Índice Nacional de Preços ao Consumidor, construído pelo IBGE. Importante índice da nossa
economia, inclusive serve de base para reajuste salarial. Sua construção envolve a sintetização, em um
único número, dos aumentos de preços dos produtos da cesta básica. Seu processo de cálculo é um sucessivo
cálculo de médias.
Anuário Estatístico Brasileiro. O IBGE publica esse anuário todo ano, apresentando em várias tabelas os
mais diversos dados sobre o Brasil. Exemplos: educação, saúde, transporte, economia, culturas etc. embora
simples e fáceis de serem entendidas, as tabelas são frutos de um processo demorado e extremamente
dispendioso de coleta e apuração de dados.

4
1.4. Inferência estatística
A tomada de decisões sobre uma população com base nos estudos feito a partir de uma amostra
constitui o problema central da inferência estatística. A tais decisões estão sempre associadas a um grau de
incerteza e, consequentemente, uma probabilidade de erro. A generalização das conclusões tomadas a partir
da amostra para a população é feita com o auxílio de um modelo estatístico para a situação em estudo. O
estudo de probabilidade é indispensável para a compreensão das análises realizadas quando se trabalha com
inferência estatística, pois a tomada de decisão está associada a probabilidade de erro na conclusão adotada.
Comparação: testes sobre medicamentos. Um experimento testa se um novo analgésico é melhor que o
produto padrão correspondente. Vinte pessoas são selecionadas, dez tomam o novo medicamento e dez
tomam o padrão. O experimento deve ser do tipo duplo cego, ou seja, nem o médico nem o paciente sabre
qual medicamento está usando. Sabendo-se que sete pessoas foram curadas usando o novo medicamento e
seis com o padrão, é lícito concluir que o novo é superior? Ou os dois medicamentos são similares e a
diferença ocorreu apenas por uma variação aleatória.
Pesquisas sobre tendências de votação: Voltando ao caso das eleições, é comum a realização de pesquisas
eleitorais para verificar a tendência dos eleitores. Quando os institutos de pesquisa informam a intenção de
voto em determinado candidato, esse valor refere-se ao observado com base em uma amostra, sendo então
uma estatística descritiva, pois descreveu o número obtido. Porém é comum ser informado a margem de
erro, essa margem de erro refere-se a inferência estatística.

1.5. Teoria da amostragem


O conhecimento de fatos que afetam a convivência sócio-econômica numa comunidade influi sempre
na tomada de decisão de um indivíduo em todos os aspectos de sua vida e de sua família. A amostragem é
naturalmente usada em nossa vida diária. Por exemplo, para verificar o tempero de um alimento em
preparação, podemos provar (observar) uma pequena porção. Estamos fazendo uma amostragem, ou seja,
extraindo do todo (população) uma parte (amostra), com o propósito de termos uma ideia (inferirmos) sobre
a qualidade quantidade do tempero que está sendo usado em todo o alimento.
Nas pesquisas científicas, em que se deseja conhecer algumas características (parâmetros) de uma
população, também podemos observar apenas uma amostra de seus elementos e, com base nos resultados
da amostra, obter valores aproximados, ou estimativas, para os parâmetros de interesse. Esse tipo de
pesquisa é usualmente chamado de levantamento por amostragem. Contudo, a seleção dos elementos que
serão efetivamente observados, deve ser feita sob uma metodologia adequada, de tal forma que os resultados
da amostra sejam suficientemente informativos para se inferir sobre os parâmetros populacionais.
Quando realizar uma amostragem e não um censo: a) Em geral, torna-se bem mais econômico o
levantamento de somente uma parte da população; b) Economia de tempo, numa pesquisa eleitoral, a três
dias de uma eleição presidencial, não haveria tempo suficiente para pesquisar toda a população de eleitores
do país, mesmo que houvesse recursos financeiros em abundância; c) Quando se pesquisa um número
reduzido de elementos, pode-se dar mais atenção aos casos individuais, evitando erros nas respostas; d) É
mais fácil realizar operações de pequena escala. Um dos problemas típicos nos grandes censos (pesquisa
de toda a população) é o controle dos entrevistadores.
Quando o uso da amostragem não é interessante: a) População pequena. Imagine que se queira saber
a percentagem de mulheres numa sala de aula com dez alunos, antes de se conhecer a turma; b)
Característica de fácil mensuração. Talvez a população não seja tão pequena, mas a variável que se quer
observar é de tão fácil mensuração que não compensa em investir em um plano de amostragem; c)
Necessidade de alta precisão. A cada dez anos o IBGE realiza um censo demográfico para estudar diversas
características da população brasileira. O número de habitantes residentes no país é um parâmetro que
precisa ser avaliado com grande precisão; por isso, se pesquisa toda população.
Quando se planeja cientificamente um levantamento por amostragem, usualmente se leva em conta
que todas as amostras possíveis da população têm probabilidade diferente de zero de serem selecionadas.
Neste caso a escolha da amostra é feita por processo aleatório, o que permite a aplicação da teoria envolvida
nas distribuições probabilísticas da Estatística. Entretanto, ocorrem situações em que restrições práticas
impedem que a seleção da amostra seja totalmente aleatória.

5
1.5.1. Amostragem probabilística

Os principais tipos são:


a) Amostra aleatória simples. É obtida quando todos os elementos da população têm a mesma
probabilidade, diferente de zero, de pertencer à amostra. É recomendado para estudo de populações
homogêneas.
b) Amostra aleatória estratificada. Quando a população for heterogênea não se deve usar a amostra
aleatória simples devido a baixa precisão das estimativas obtidas. Nessa situação, deve-se subdividir a
população em subpopulações de forma que dentro das subpopulações haja homogeneidade. Esse processo
chama-se estratificação da população, sendo cada subpopulação um estrato.
c) Amostra aleatória sistemática. É uma variação da amostra aleatória simples. Sua aplicação exige que a
população esteja devidamente ordenada de tal forma que cada um de seus elementos possa ser unicamente
identificado pela sua localização ou por outro critério qualquer. Isto ocorre, por exemplo, quando todos os
elementos da população estão anotados numa listagem, quando um grupo de pessoas está colocado numa
fila, quando se considera o conjunto das fichas de inscrição referentes aos candidatos de um concurso, numa
linha de produção quando são amostrados determinado número de elementos de acordo que vão sendo
produzidos.
d) Amostra aleatória por conglomerado. Utilizada quando a população é muito dispersa, tornando inviável
a organização de um rol com todos os elementos. Neste caso, a população é dividida em subpopulações ou
conglomerados, sendo alguns destes sorteados para constituir a amostra. Normalmente torna-se mais fácil
organizar o rol completo de todos os elementos quando se trabalha dentro dos conglomerados sorteados.

1.5.2. Amostragem não probabilística

Os principais tipos são:


a) Acessibilidade. A amostra atinge apenas parte acessível da população. Num vagão com minério, por
exemplo, a amostra pode ser feita em alguns casos, apenas nos 20 cm superiores, por dificuldade de se
atingir todos os pontos do vagão.
b) Amostra tomada a esmo. A amostra é constituída pelos elementos que se consegue tomar de uma
população. Num galpão com aves, por exemplo, a amostra pode ser constituída das aves que forem tomadas
no instante da coleta dos dados, sem entretanto ter havido um sorteio prévio.
c) Amostra intencional. O pesquisador escolhe a seu juízo os elementos da população que julga
representativos, para constituírem a sua amostra, mas sem fazer sorteio.
d) Amostra de voluntários. Casos onde o processo de obtenção dos dados é desagradável. Como por
exemplo, tem se a amostra envolvida num estudo com doadores de sangue.

6
1.5.3. O questionário e a entrevista

Em ciências sociais, como a psicologia, é possível a obtenção de dados apenas com a observação das
pessoas. Neste caso, os resultados apresentam um alto grau de precisão. Na maioria das situações,
entretanto, os dados dos levantamentos são obtidos através de perguntas respondidas com o preenchimento
de questionários ou em entrevistas.
Os dados são informados por relatos verbais do entrevistado e os resultados devem ser tomados com
muito cuidado. O relato de um fato que coloca uma pessoa em posição desfavorável deve ser tomado com
reserva. Da mesma forma se a informação solicitada servir para que a pessoa mostre alguma simpatia ou
prestígio o entrevistador deve ter senso crítico e anotar o dado com ressalva.
Apesar das limitações, o procedimento de perguntas proporciona informações que, se obtidas de
outras formas, seriam muito mais falhas. O questionário é um dos instrumentos mais usados em pesquisas
socioeconômicas. As limitações do método de perguntas devem ser consideradas pelo pesquisador para ter
o máximo de cuidado e rigor no momento da aplicação.
O questionário e a entrevista são técnicas semelhantes que se baseiam em perguntas formuladas ao
entrevistado. No questionário, as perguntas propostas pelo pesquisador são respondidas por escrito pelo
pesquisado, enquanto que na entrevista as respostas do entrevistado são anotadas pelos entrevistados.
O questionário pode ser enviado pelo correio, nesse caso é mais barata e garante o anonimato do
entrevistado, uma vez que este não precisa identificar-se. Entretanto, esta técnica exige que o entrevistado
saiba ler e escrever e esteja motivado a responder e devolver. Aplicado em grupo, permite rapidez na
aplicação, pois após os esclarecimentos são preenchidos e recolhidos imediatamente, proporcionando maior
garantia de retorno. Formulários individuais, são questionários cujas respostas são preenchidas pelo próprio
pesquisador. Podem ser aplicados a analfabetos e as pessoas com dificuldades de expressar por escrito.
Úteis na obtenção de informações sobre temas simples, mas não apresentam desempenho satisfatório
quando se pretende obter respostas à questões com maior profundidade.
A entrevista pode ser face a face, é a mais flexível de todas, pois permite ajustar-se aos mais diversos
tipos de problemas e de informantes. Permitem obter respostas em profundidade, complexas, detalhadas,
ligadas a intimidade do entrevistado, desde que o pesquisador tenha habilidade e treinamento adequados.
No entanto, está sujeita a deformações provocadas pelo pesquisador se este não tiver cuidado na condução
da entrevista, como influenciar com suas ideias o resultado da pesquisa. Por telefone, é bastante adotada
em pesquisa de opinião e de mercado, sendo rápida, econômica e garantindo altas taxas de resposta. A
desvantagem desta técnica é que nem sempre a amostra obtida é representativa da população, uma vez
quem nem todas as famílias das classes sociais mais baixas possuem telefone. Pela internet, tem sido usada
recentemente e apresenta as mesmas limitações da pesquisa por telefone.
O questionário deve traduzir os objetivos da pesquisa em itens bem redigidos. Para tanto é importante
que os objetivos tenham sido bem definidos. As perguntas devem ter conteúdos adequados para obtenção
dos dados do entrevistado, podendo ser feitas de forma aberta ou fechada. Em estudos iniciais ou
exploratórios podem ser usadas perguntas abertas, onde o entrevistado responde com suas próprias palavras
sem qualquer restrição. O número de perguntas de um questionário não deve ser superior a trinta. A ordem
das perguntas é importante devendo-se evitar mudança brusca de tema sem antes fornecer as explicações
necessárias. De maneira nenhuma a pergunta deve sugerir a resposta.
O questionário inicialmente deve ser submetido a um pré teste para evitar possíveis falhas tais como:
complexidade das perguntas, imprecisão da redação, questões desnecessárias, cansaço e constrangimento
do entrevistado.
O pesquisador deve ser cuidadoso e habilidoso na realização da entrevista. Recomenda-se uma
conversa inicial, de forma amistosa, sobre qualquer tema que possa interessar ao entrevistado procurando
obter a sua confiança. Em seguida são feitos esclarecimentos sobre a finalidade da pesquisa. Um ambiente
de diálogo, cordialidade e simpatia é recomendado.

7
1.6. Variáveis
A descrição de uma população é feita através de suas características, as de maior interesse por parte
do pesquisador. Por exemplo, o conjunto de híbridos de milho disponível no mercado define uma
população, a qual é descrita por características de interesse econômico, como produtividade, resistência a
doenças, ciclo cultural, arquitetura da planta etc.
As características que descrevem a população são chamadas variáveis, e um valor observado com
relação a uma variável é chamado dado ou observação. As variáveis são classificadas quanto à natureza
qualitativas e quantitativas.
As variáveis qualitativas correspondem a atributos, categorias. Elas são nominais quando não são
passíveis de ordenação, como por exemplo a cultura predominante em propriedades de uma região. Quando
os atributos são passíveis de ordenação, a variável qualitativa é dita ordinal; por exemplo, é o caso quando
se usa notas para avaliar uma característica. Em pesquisas eleitorais, é comum classificar os entrevistados
quanto ao nível de escolaridade (nenhum, fundamental, médio e superior), que é uma variável qualitativa
ordinal.
Quanto às variáveis quantitativas, correspondem a números resultantes de contagem ou medidas.
Quando se trata de contagens, como o número de peças defeituosas em amostras de um lote, a variável é
dita discreta, sendo passível a separação em classes distintas (não existe um valor intermediário entre 2 e 3
peças defeituosas, por exemplo). Outros exemplos são: número de folhas por planta atacadas por certa
praga, número de alunos que foram reprovados em determinada disciplina etc.
Nas variáveis quantitativas contínuas, as realizações resultam de uma medida, uma mensuração,
como o diâmetro de eixos fabricados ou o tempo de durabilidade de componentes eletrônicos, não havendo
assim classes distintas, mas um intervalo de números reais possíveis.

1.7. Organização e apresentação de dados: tabelas e gráficos

1.7.1. Tabelas
A apresentação de dados na forma de tabela é um dos métodos estatísticos mais utilizados. Uma
tabela consegue expor os resultados de determinada pesquisa sinteticamente, na qual se tem uma visão mais
clara e fácil dos resultados obtidos. Os dados devem ser apresentados em tabelas construídas de acordo com
as normas técnicas ditadas pela fundação Inst. Bras. de Geog. e Est. (Fundação IBGE).

a) Componentes das tabelas


A tabela tem título, corpo, cabeçalho e coluna indicadora. O título explica o que a tabela contém. O
corpo é formado pelas linhas e colunas de dados. O cabeçalho especifica o conteúdo das linhas. Toda tabela
deve ser delimitada por traços horizontais. Podem ser feitos traços verticais para separar as colunas, mas
não devem ser feitos traços verticais para delimitar a tabela. O cabeçalho é separado do corpo por um traço
horizontal.
As tabelas podem conter fonte, notas e chamadas. A fonte dá indicação de entidade, ou do
pesquisador que publicou ou forneceu os dados. As notas devem esclarecer aspectos relevantes do
levantamento dos dados. As chamadas dão esclarecimentos sobre os dados. Devem ser feitas através de
algarismos arábicos escritos entre parênteses e colocados a direita da coluna.
Tabela 1 - Animais abatidos no Brasil, primeiro trimestre de 2009
Animais Número de cabeças abatidas (mil)
Bovino 6.446
Suínos 7.332
Frangos 1.121.768
Fonte: IBGE (2009)

8
b) Tabelas de contingência
Muitas vezes os elementos da amostra são classificados de acordo com dois fatores. Os dados devem
então ser apresentados em tabelas de contingência, isto é, tabelas de dupla entrada, cada entrada relativa a
um dos fatores.

Tabela 2 – Índice pluviométrico registrado em Itapetinga no período de 1996 a 2005


Ano Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Total
1996 27,8 19,0 61,0 0,0 0,0 17,0 10,0 20,5 38,0 180,0 145,5 15,0 533,8
1997 57,5 165,9 445,5 82,3 14,2 20,5 35,0 13,9 6,5 75,0 61,8 53,0 1.031,1
1998 53,0 40,0 48,3 11,1 45,5 7,5 45,0 28,0 35,5 81,5 315,8 183,5 894,7
1999 37,1 49,6 82,1 51,2 111,5 30,5 101,9 67,2 13,3 66,3 449,6 283,7 1.344,0
2000 125,6 164,0 158,3 184,9 18,3 26,1 104,9 22,9 55,3 16,3 106,0 232,7 1.215,3
2001 10,5 30,0 72,5 36,5 46,7 41,7 39,8 89,4 13,3 127,7 0,0 56,7 564,8
2002 358,7 169,0 94,6 37,6 36,5 57,8 49,5 38,2 46,6 0,0 55,0 144,6 1.088,1
2003 15,0 55,3 45,5 86,9 70,0 0,1 67,2 37,1 33,9 40,0 30,5 46,0 527,5
2004 118,1 113,5 275,1 33,9 22,5 15,0 47,8 0,0 0,0 18,0 220,3 17,0 881,2
2005 121,4 139,4 35,2 95,1 225,6 75,7 37,1 24,9 19,0 0,0 152,7 105,6 1.031,6
Média 92,5 94,6 131,8 62,0 59,1 29,2 53,8 34,2 26,1 60,5 153,7 113,8 911,2
Fonte: Uesb (2009).

c) Tabelas de distribuição de frequências


As tabelas com grande número de dados são cansativas e não dão ao leitor uma visão rápida e
global do fenômeno. Quando existe uma grande quantidade de observações é preciso que os dados estejam
organizados em uma tabela de distribuição de frequencias.

Elementos de uma distribuição de frequências


1. Dados brutos são os dados coletados, que ainda não foram numericamente organizados.
2. Rol são os dados brutos organizados em ordem crescente ou decrescente.
3. Amplitude total dos dados (A) é a diferença entre o maior e o menor elemento do rol.
4. Classe são os intervalos de variação da variável.
5. Limites de classe são os valores extremos de uma classe. O maior valor é o limite superior e o menor é
o denominado limite inferior da classe.
6. Amplitude de uma classe (a) é a diferença entre os limites superior e inferior da classe.
7. Ponto médio da classe é a média aritmética dos limites da classe.
8. Frequência absoluta (f) é o número de repetições de um valor ou de uma classe de valores.
9. Frequência relativa (fr) representa a proporção de observações de um valor ou classe.
10. Frequência acumulada (fa) é obtida somando-se cada frequência com a anterior.
11. Frequência acumulada relativa (far) é obtida somando-se cada proporção com a anterior.

9
c.1. Tabela de distribuição de frequência para variável aleatória discreta
Quando a amostra é grande, mas o número de observações distintas é pequeno. Para se construir uma
distribuição de frequências, basta dispor os dados em duas colunas, uma para os valores observados e outra
para as frequências correspondentes a cada valor.
Ex: Considere uma amostra com 40 dados referentes a notas de no concurso de viola, 2012:
55555555 6666666 7777777777 888888888 999999
Tabela 3 – Notas de 40 alunos no concurso de moda de viola, 2012
Notas f fr (%) fa far (%)
5 8 20,0 8 20,0
6 7 17,5 15 37,5
7 10 25,0 25 62,5
8 9 22,5 34 85,0
9 6 15,0 40 100,0
Total 40 100,0

c.2. Tabela de distribuição de frequência para variável aleatória contínua


Quando trata-se de uma variável aleatória discreta tendo um tamanho da amostra grande, ou é uma
variável aleatória contínua. Um método para construção de uma distribuição de frequências para dados
agrupados em classes.
Obs.: Qualquer regra para determinação do número de classes da tabela não nos leva a uma decisão final;
esta vai depender de um julgamento pessoal que ligado à natureza dos dados e objetivo do trabalho.
Exemplo: Diâmetro de 50 plantas de eucalipto com 5 anos, no município de Ribeirão
12,4 13,1 13,4 13,7 14,0 14,0 15,3 15,4 15,6 15,7 16,2 16,6 16,9 16,9 17,2 17,8 17,8
18,2 18,8 18,8 18,8 18,8 19,1 19,4 19,7 19,7 19,7 19,7 20,1 20,1 20,1 20,4 20,4 20,4
20,7 20,7 20,7 21,0 21,3 21,3 21,3 21,7 21,7 21,7 22,0 22,3 22,6 22,9 23,6 23,8

1) Amplitude amostral A = 23,8 − 12,4 = 11,4


2) Número de classes k = 50 = 7,07  7 Porém utilizaremos 6 classes.
A 11,4
3) Amplitude de cada classe a= = = 1,9  2 Amplitude de classe 2.
k 6

Tabela 4 – Diâmetro de 50 plantas de eucalipto com 5 anos, no município de Ribeirão


Notas PM f fr (%) fa far (%)
12,0 I— 14,0 13,0
4 8,0 4 8,0
14,0 I— 16,0 15,0
6 12,0 10 20,0
16,0 I— 18,0 17,0
7 14,0 17 34,0
18,0 I— 20,0 19,0
11 22,0 28 56,0
20,0 I— 22,0 21,0
16 32,0 44 88,0
22,0 I— I 24,0 23,0
6 12,0 50 100,0
Obs.: O traço (I—) indica intervalo fechado à esquerda e aberto à direita, isto é, o limite inferior faz parte
dos valores do intervalo, enquanto o limite superior está fora, entrando no próximo intervalo. Pode ser
utilizado também (—I) ou (I—I).
10
1.7.2. Gráficos
A representação gráfica tem por finalidade representar os resultados obtidos, permitindo chegar a
conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores da série. Não há uma
única maneira de representar graficamente uma série estatística. A escolha do gráfico mais apropriado ficará
a critério de cada pesquisador. Contudo os elementos simplicidade, clareza e veracidade devem ser
considerados.

a) Histograma
É uma representação gráfica dos resultados da distribuição de frequências construídas por colunas
justapostas, cujas alturas são representadas pelas frequências de cada classe e as larguras pelo valor da
amplitude de cada classe, ou representado pelo ponto médio.

b) Polígono de frequências
Os dados apresentados em tabela de distribuição de frequências também pode ser apresentado em
gráficos denominados polígonos de frequências. O polígono de frequências é caracterizado por uma linha
que une os pontos correspondentes aos pontos médios das bases superiores das colunas que compõem o
histograma. Também pode ser apresentada a frequência acumulada.

11
c) Gráfico de colunas
O gráfico de colunas é usado para apresentar variáveis qualitativas ou ordinais.

d) Gráfico de barras
O gráfico de barras também é usado para apresentar variáveis qualitativas ou ordinais. Porém, como
acontece nesse exemplo onde são longos os rótulos das colunas ajusta-se melhor.

e) Gráfico de setores
O gráfico de setores também pode ser usado para apresentar variáveis qualitativas ou ordinais. Dentro
da circunferência são representadas as categorias da variável em estudo.

Figura: Estado conjugal da população brasileira segundo o IBGE, censo demográfico de 2000.

12
1.8. Revisão de matemática
1.8.1. Somatório
Muitos processos estatísticos exigem o cálculo da soma. Para simplificar a representação da operação
de adição nas expressões algébricas, utiliza-se a notação  , letra grega sigma maiúsculo.

a) As principais representações são:


n
1.  X i =X1 + X 2 + X 3 + ... + X n , soma simples.
i =1

n
2.  X i2 = X12 + X 22 + X 32 + ... + X 2n , soma de quadrados (SQ).
i =1

2
3.   X i  = (X1 + X 2 + X 3 + ... + X n )2 , quadrado da soma.
n

 i=1 
n
4.  X i Yi =X1Y1 + X 2 Y2 + X 3Y3 + ... + X n Yn , soma de produtos (SP).
i =1

n m
5.  X  Y = (X + X + X + ... + X ) (Y + Y + Y + ... + Y ) , produto da soma.
i j 1 2 3 n 1 2 3 m
i =1 j=1

n
Lê-se  X i como: somatório de X índice i, com i variando de 1 até n, em que:
i =1

✓ n é a ordem da última parcela ou limite superior (LS) do somatório.


✓ i = 1 é a ordem da primeira parcela da soma ou limite inferior (LI) do somatório.
✓ i é o índice que está indexando a variável X (outras letras como j, l, k podem ser utilizadas).

Exemplo 1: Considere as variáveis de X e Y que representam, respectivamente, as notas de duas disciplinas,


português e inglês, para um grupo de cinco alunos.
X = 9, 5, 4, 7, 10 Y = 6, 7, 8, 5, 4
2
5
 5 
 X i =35
5 5
 X i2 = 271   X i  = 1.225  X i Yi =196
5 5

i =1 i =1  i=1  i =1
 X i  Yj = 1.050
i =1 j=1

b) Número de Termos (NT) ou parcelas do somatório


O número de termos de um somatório pode ser obtido por:
NT = (LS − LI) + 1
Se o somatório está sujeito a r restrições basta fazer:
NT = (LS − LI) + 1 − r
Exemplo 2: Obter o número de termos para os seguintes somatórios:
6
NT = (6 −1) + 1 = 6 2)  X i  NT = (15 − 3) + 1 = 13 3)
15
1)  Xi 
16
 NT = (16 − 4) + 1 − 2 = 11
i =1 i =3
 Xi
i =4
i  5, 8

13
c) Propriedades de somatório
P.1) Somatório de uma constante: é igual ao número de termos multiplicado pela constante.
n
 k = k + k + k + ... + k = (NT ) K
i =1

1)  6 = (10 − 1) + 1 6 = 60
10
Exemplo 3: 2)
 X i = (8 − 3) + 1 X i = 6X i
8

i =1 j=3

P.2) Somatório do produto de uma constante por uma variável: é igual ao produto da constante multiplicado
pelo somatório da variável.
n n
 kX i = kX1 + kX 2 + kX 3 + ... + kX n = k(X1 + X 2 + X 3 + ... + X n ) = k  X i
i =1 i =1

10 10
Exemplo 4: 1)  6X i = 6 X i
i =1 i =1

P.3) Somatório de uma soma ou subtração de variáveis: é igual a soma ou subtração dos somatórios dessas
variáveis.
n n n n
 (X i + Yi − Zi ) =  X i + Yi − Zi
i =1 i =1 i =1 i =1

d) Somatório duplo
Considere a tabela a seguir, conhecida como tabela de dupla entrada:
i/j 1 2 ... K Totais de linhas
K
1 X11 X12 ... X1K  X1 j
j=1
K
2 X21 X22 ... X2K  X2j
j=1

... ... ... ... ... ...


K

I XI1 XI2 ... XIK  X Ij


j=1

I I I
Totais de ... G
colunas  X i1  Xi2  X iK
i =1 i =1 i =1

Xij  i = 1, 2, ..., I ; índice de linha.


j = 1, 2, ..., K ; índice de coluna.
I I K
G =  X ij
K
Total da i-ésima linha:  Xij Total da j-ésima coluna:  Xij Total geral:
j=1 i =1 i =1 j=1

Exemplo 5: Utilizando a tabela abaixo, calcule:


i/j 1 2 3 4
1 1 0 3 2
2 3 2 5 4
3 4 1 1 3

3 4 3 4
 X1 j = 1 + 0 + 3 + 2 = 6
3
1.  X i1 = 1 + 3 + 4 = 8 2. 3.  X ij = 29 4.  1 = 1 + 1 + 1 = 23
i =1 j=1 i =1 j=1 i =1 Xi3 3 5 1 15

14
1.8.2. Proporção e porcentagem
Proporção: Um certo número de pessoas foi classificado em quatro categorias. Essas categorias são,
naturalmente, mutuamente exclusivas e exaustivas. Em outras palavras: uma pessoa só poderá estar incluída
em uma única categoria, e todas elas deverão estar classificadas.
N = N1+N2+N3+N4 = número total de pessoas consideradas
Neste caso, a proporção de pessoas pertencentes à primeira categoria é determinada mediante o
cálculo do seguinte quociente: N1
N
Para as demais categorias, a determinação segue o mesmo procedimento.
Porcentagem: As porcentagens são obtidas a partir do cálculo das proporções, simplesmente
multiplicando-se o quociente por 100. A soma das proporções é igual a 1, e a soma das porcentagens é
sempre igual a 100, a menos que as categorias não sejam mutuamente exclusivas e exaustivas. As
porcentagens são mais usadas do que as proporções para reproduzir resultados. Normalmente, as
porcentagens são arredondadas até a primeira casa decimal, ajustando-se os últimos dígitos, de modo que
o total seja igual a 100.

1.8.3. Números significativos


Os algarismos significativos de um número são os dígitos diferentes de zero, contados a partir da
esquerda até o último dígito diferente de zero à direita, caso não haja vírgula decimal, ou até o último dígito
(zero ou não) caso haja vírgula decimal. Por exemplo, o número 2,67 tem três algarismos significativos. Se
expressarmos o número como 2,6700, entretanto, temos cinco algarismos significativos, pois os zeros à
direita dão maior exatidão para o número. Outros exemplos com 4 algarismos significativos: 56,00; 0,2301;
00,00003256; 3256000. Zeros a esquerda não são números significativos.
Quando somamos ou subtraímos dois números levando em consideração os algarismos significativos
o resultado deve manter a precisão do operando de menor precisão.
34,65 + 0,1234 = 34,7734 = 34,77
Na multiplicação e divisão, considerando os algarismos significativos, o resultado deve ter o mesmo
número de algarismos significativos do operando com a menor quantidade de algarismos significativos.
1,2345 x 0,340 = 0,419
Obs.: Se várias operações são realizadas em sequência, é desejável manter todos os dígitos nos valores
intermediários e arredondar somente o valor final.

15
Descrição dos dados
Um conjunto de dados pode ser descrito por medidas de posição e medidas de dispersão. Caracterizar
um conjunto de dados apenas por medidas de posição pode ser inadequado e perigoso, pois, conjuntos com
medidas semelhantes de posição podem apresentar características muito diferentes. Por isso, normalmente
são apresentadas para a descrição de um conjunto de valores tanto medidas de posição quanto medidas de
dispersão, simultaneamente.

1.9. Medidas de posição ou medidas de tendência central


São medidas empregadas para resumir um conjunto de dados, apresentando um ou alguns valores
que sejam “representativos” do conjunto todo. Quando usamos um só valor, obtemos uma redução
drástica dos dados. São medidas de posição: média, moda e mediana.
1.9.1. Média aritmética X( )
É chamada medida de tendência central, pois representa os fenômenos pelos seus valores médios em
torno do qual tendem a se concentrar os dados.
Se X1, X2, ..., Xn são n valores distintos da variável X, então a média aritmética de X, que
n
 Xi
denotaremos por X é dada por: X = X1 + X 2 + ... + X n = i =1 , ou seja, é a soma de todos os valores que a
n n
variável assume, dividido pelo número total de valores da mesma.

Média Aritmética Ponderada


Agora, se temos n observações da variável X associadas a frequências, então temos:
Xi X1 X2 X3 ... Xn
fi f1 f2 f3 ... fn
n

f X + f 2 X 2 + ... + f n X n fX i i
X= 1 1 = i =1
f1 + f 2 + ... + f n n

f
i =1
n

Obs.: Se quisermos saber a média aritmética ponderada para um determinado conjunto de dados, então
podemos considerar fi como sendo o peso para cada valor de Xi. Para calcular a média quando temos uma
tabela e dados agrupados em classes, basta considerar como xi o ponto médio de cada classe.

Exemplo 1: Numa avaliação 80% dos alunos obtiveram nota 10 e 20% obtiveram nota 5. Determine a nota
média da turma.
Nota (Xi) Proporção (fi) fiXi
10 0,80 8
5 0,20 1

0,80x10 + 0,20x5
X = = 9,0
0,80 + 0,20

16
Exemplo 2: Um estudante obteve as seguintes notas nas provas parciais de estatística.
Provas (i) Pesos (fi) Notas (Xi)
1 1 20
2 1 70
3 2 50
4 4 90

1x 20 + 1x70 + 2 x50 + 4 x90 550


X= = = 71,25
1+1+ 2 + 4 8
Exemplo 3 – Diâmetro de 50 plantas de eucalipto com 5 anos, no município de Ribeirão.
Notas pm f f i pmi

12,0 I— 14,0 13 4 52
14,0 I— 16,0 15 6 90
16,0 I— 18,0 17 7 119
18,0 I— 20,0 19 11 209
20,0 I— 22,0 21 16 336
22,0 I— I 24,0 23 6 138
Total 50 944
n

 f pm i i
944
X= i =1
n
= = 18,88
f
50
i
i =1

Propriedades da média aritmética


P1) Somando-se ou subtraindo-se uma constante a cada um dos valores da série X1, X2, ..., Xn, a média
aritmética fica somada ou subtraída dessa constante.
n n n n

(X i + k)  X + k  X
i i
nk
a) i =1
= i =1 i =1
= i =1
+ = X +k
n n n n
n n n n
 (X i − k )  X i −  k  X i nk
b) i =1
= i =1 i =1
= i =1
− = X−k
n n n n
Exemplo: Seja 1.000.656, 1.000.601, 1.000.310, 1.000.550. Calcule a média aritmética.
Podemos observar que todos os valores são representados por 1.000.000 acrescida de uma outra
quantia. Assim, aplicando-se a P1, temos:
 656 + 601+ 310 + 550 
X = 1.000.000 +   = 1.000.529,25
 4 
assim não precisamos trabalhar com números excessivamente grandes.

17
P2) Multiplicando-se ou dividindo-se cada um dos valores da série X1, X2, ..., Xn, por uma constante, a
média aritmética fica multiplicada ou dividida pela constante.
n n
 kX i  Xi
Prova: a) Multiplicação (kX i )  i =1
=k i =1
= kX
n n
n n
1
 k Xi  Xi
Divisão  X i  
1 1 1
b) i =1
= i =1
= X
k  n k n k

P3) A soma algébrica dos desvios em relação a média aritmética é nula.


n
Prova: SD =  ( X i − X ) = 0
i =1

Outras médias
Algumas vezes é interessante calcular médias de forma diferente para dados com características especiais.
Média geométrica: X G

Bastante empregadas para observações positivas referentes a crescimentos exponenciais (como taxas
de avanço de doenças, número de habitantes de regiões em colonização, crescimento de produtividade e
lucro em alguns negócios etc.). A média geométrica é a raiz n-ésima do produto das observações.
n

 fi
XG = n X1.X 2 .....X n ou XG = i =1
X 1f1 . X 2f2 ..... X nfn

Ex: Considere os dados:{10, 60, 360}


X G = 3 10x60x360 = 3 216.000 = 60

Aplicações da média geométrica:

a) Média de relações: Se para uma determinada empresa, se deseja estabelecer uma relação do tipo Capital
Líquido/Dívida que seja independente da dívida ou do capital de diferentes empresas envolvidas, é
recomendável o uso da média geométrica.
Empresa Capital Líquido Dívida Cap. Liq./Dív.
A 2 500 1 000 2,5
B 1 000 2 000 0,5
X G = 2,5 * 0,5 = 1,1180

b) Média de taxas de variação: Ex: suponhamos que um indivíduo tenha aplicado um capital de R$ 500,00
durante 2007 em um ano de aplicação, essa importância chegou a R$ 650,00. Reaplicando essa última
quantia em 2008 no final de mais um ano seu montante situava-se em R$ 910,00. Qual a taxa média de
aumento de capital?
Período Taxa
2007 650/500 = 1,3
2008 910/650 = 1,4

X G = 1,3 *1,4 = 1,3491

18
Média Harmônica X H
Para fenômenos que dependem fortemente do menor dos dados, em geral utiliza-se médias
( )
harmônicas calculadas como o inverso da média dos inversos. O cálculo da X H aplica-se a variáveis
resultantes da relação entre duas outras, como no caso da velocidade média (km/h) e o custo médio por kg
de determinado produto. Um exemplo é o cálculo do tamanho efetivo de populações naturais submetidas a
processos de devastação ecológica (gargalos populacionais).
n

XH =
n
=
n ou f1 + f 2 + ... + f n  fi
1 1 1 n
1 XH = = i =1

+ + ... + X
n
f1 f f f
X1 X 2 Xn i =1
+ 2 + ... + n
X1 X 2 Xn
 Xi
i i =1 i

Exemplo 1: O número de hipopótamos de uma região ao longo de quatro gerações foi de (2.000, 20, 250,
1.500), a média harmônica é dada por:
4
XH =  72,51
1 1 1 1
+ + +
2000 20 250 1500
Pode-se notar que, enquanto a média geométrica favorece os maiores números, a média
harmônica favorece os números menores.
Exemplo 2: Calcule a média aritmética, geométrica e a harmônica.
Conjunto Média aritmética Média geométrica Média harmônica
X = {2,2,2} 2,00 2,00 2,00
Y = {14, 18, 20} 17,33 17,15 16,95
W = {8, 12} 10,00 9,80 9,60
Z = {2, 50, 70} 40,67 19,13 5,61
K = {200, 20, 800} 334,00 68,40 5,93

1.9.2. Mediana (MD)


A mediana é preferível à média quando existem valores discrepantes na amostra de dados. Se a
amostra é simétrica, então a mediana será igual ou próxima ao valor da média. Colocados os valores em
ordem crescente de grandeza, mediana é o elemento que ocupa a posição central, ou seja, existem números
iguais de elementos antes e depois da mediana. Ou ainda, é o valor abaixo e acima do qual se tem a metade
dos dados.
Observações:
a) Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um
dos elementos da série.
b) Quando o número de elementos da série for par, nunca haverá coincidência da mediana com um dos
elementos da série. A mediana será sempre a média aritmética dos dois elementos centrais da série.
c) Em uma série a mediana, a média e a moda não tem, necessariamente, o mesmo valor.
d) A mediana depende da posição e não dos valores dos elementos na série ordenada. Essa é uma das
diferenças marcantes entre mediana e média. A média é muito influenciada pelos valores extremos de uma
série.

Ex1: Em {5, 7, 10, 13, 15} a média é 10 e a mediana é 10. Em {5, 7, 10, 13, 65} a média é 20 e a mediana
é 10. Isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influencia dos
valores extremos, ao passo que a mediana permanece a mesma.
Ex1: Em {5, 7, 10, 13, 15, 18} mediana é 11,5.

19
1.9.3. Moda (Mo)
Em algumas situações, a distribuição das observações é tal que as frequências são maiores nos
extremos. Nesses casos, a utilização apenas da média e da mediana é contraindicada, pois são valores pouco
representativos do conjunto e o uso da moda poderá, então, ser considerada. A moda de um conjunto de
observações é o valor de maior ocorrência dentro do conjunto.
Com relação a moda, uma série de dados pode ser classificada em: Amodal: não possui moda;
Unimodal: possui apenas uma moda; Bimodal: possui duas modas; Multimodal: possui mais de duas modas.
A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou quando
a medida de posição deva ser o valor mais típico da distribuição. Já a média aritmética é a medida de posição
que possui a maior estabilidade.
Calcule a Mediana e a Moda das variáveis X e Y.
a) X =  2, 3, 1, 2, 3, 2, 4 n = 7 Mo = 2 - Unimodal

Valores ordenados X' =  1, 2, 2, 2, 3, 3, 4 M = X = 2d 4

b) Y =  8, 10, 5, 5, 15, 15 n = 6 Mo = 5 e 15 - Bimodal

Y '=  5, 5, 8, 10, 15, 15 M = d


X +X 3
=
8 + 10
4
=9
2 2

20
Utilização da média aritmética, da mediana e da moda

Média Aritmética
A medida de tendência central mais utilizada é a média aritmética, que representa em relação a mediana e
a moda vantagens apreciáveis, tais como:
a) É facilmente calculável.
b) É a que melhor se presta a análises estatísticas.
c) Depende de todos os valores da série.
d) É uma medida de tendência central particularmente estável, variando
o menos possível de amostra para amostra extraídas da mesma população.
e) Pode ser tratada algebricamente.
Existem,
todavia, casos em que a informação fornecida pela mediana ou pela moda, parece ser mais comp
leta do que a fornecida pela média aritmética.

Mediana
Esta medida de tendência central deverá ser utilizada quando:
a) Se deseja conhecer o ponto médio exato da distribuição.
b) Existem resultados extremos que afetariam grandemente a média. Importa
salientar que a mediana não é influenciada pelos resultados extremos.

Exemplo: na série 10,13,15,16,18,19,21, tanto a média como a mediana são 16; se substituirmos 2
1 por 50 e os restantes resultados permanecerem os mesmos, a mediana é 16 e a média será de
20,1;
c) A distribuição é truncada, isto é, incompleta nas extremidades.
Exemplo: desejamos medir os tempos de reação em Psicologia e as várias respostas ultrapassam
as capacidades de medida do aparelho; assim, impossibilitados de calcular a média, já que não di
spomos de todos os valores da variável, sendo, no entanto, possível calcular o valor da mediana,
já que conhecemos o número de medidas efetuadas.

Moda
Esta medida de tendência central deverá utilizar‐se quando:
a) Uma medida rápida e aproximada da tendência central for suficiente.
b) Se deseja conhecer o valor mais típico de uma distribuição.
Exemplo: descrever o estilo de vestido usado pela mulher média, salário preponderante em deter
minada empresa.
É de salientar que, apesar das vantagens apresentadas para a moda, esta tem a desvantagem de s
er de determinação imprecisa, no caso das variáveis contínuas.

21
1.10. Medidas de Dispersão (ou medidas de variabilidade)

Caracterizar um conjunto de dados apenas por medidas de posição é inadequado e perigoso, pois,
conjuntos com medidas de posição semelhantes podem apresentar características muito diferentes. As
medidas de dispersão são estatísticas descritivas, que quantificam de algum modo a variabilidade dos dados,
geralmente utilizando como referência uma medida de posição. As principais medidas de dispersão são a
amplitude total, desvio, desvio médio, variância amostral, coeficiente de variação e erro padrão da média.
Exemplo:
Amostra A: 4, 8, 3, 9, 7, 5
Amostra B: 1, 5, 2, 14, 3, 11
Note que: X A = 6 e X B = 6 , porém, a dispersão dos valores na amostra B é maior.

1.10.1. Amplitude Total (AT)

É a diferença entre o maior e o menor valor de uma amostra ou de um conjunto de dados. A


amplitude total indica que o desvio padrão entre duas observações quaisquer é no máximo igual a AT.

AT = X max − X min

Embora dê uma idéia geral da dispersão relativa dos dados para amostras de fenômenos pouco
conhecidos do observador, a amplitude pouco informa sobre sua distribuição. Por ser uma medida calculada
apenas com dois valores extremos (máximo e mínimo) a amplitude é muito afetada por valores extremos
que ocorrem em algumas variáveis. Em exemplos onde os valores máximos ou mínimos são muitíssimo
raros, prejudicam a compreensão da variabilidade dos dados.

1.10.2. Desvio d x 

São os desvios em relação a média aritmética dos dados. A soma dos desvio sempre será igual a zero.
Seja a amostra (2, 3, 5, 7, 8), com média 5 e desvios (-3, -2, 0, 2, 3).

1.10.3. Desvio Médio d x 


É construído tomando a média dos módulos dos desvios em relação a média geral dos dados. Tomar
os desvios em módulo impede que a média seja nula. Seja amostra (2, 3, 5, 7, 8), média 5 e desvios (-3, -2,
0, 2, 3). Os módulos dos desvios (3, 2, 0, 2, 3), sua média é d = 2.
O desvio médio é uma medida de muito interesse, mas que não teve um papel importante no
desenvolvimento da estatística devido a ausência de propriedades matemáticas favoráveis para o trabalho
com módulos.

22
1.10.4. Variância Amostral [𝑺𝟐𝒙 , 𝒐𝒖 𝝈 ̂ (𝑿)]
̂ 𝟐𝒙 𝒐𝒖 𝑽

Eliminar os desvios negativos sem utilizar módulos pode ser conseguido utilizando potencias pares
dos mesmos (o mais simples é elevar ao quadrado), o que favorece o cálculo em grandes amostras. A
medida assim obtida (média dos quadrados dos desvios) é a chamada Variância. A variância mede a
dispersão dos valores em torno da média.
Ela é dada pela soma dos quadrados dos desvios em relação a média aritmética, dividida pelo
número de graus de liberdade. É a medida de dispersão mais utilizada, fácil de calcular e compreender,
além de ser bastante empregada na inferência estatística.
Para uma amostra de n valores, X1, X2, ..., Xn, a variância amostral é dada por:
2
 n 
 Xi 
 (X − X) d i2  X i2 −  i =1 
n n n


2
i
SQD n
S x2 = Vˆ ( X ) = = i =1
= i =1 = i =1
n −1 n −1 n −1 n −1

Graus de liberdade: É possível demonstrar que, utilizando-se o denominador n-1, obtém-se um estimador
de melhor qualidade de variância populacional. De maneira geral, o número de graus de liberdade
associados a uma estatística é o número de elementos da amostra n menos o número de parâmetros (medidas
da população) já estimados. Existem n-1 desvios independentes.
O denominador (n-1) é chamado número de graus de liberadade, pois corresponde exatamente ao
número de observações da amostra que tem ‘liberdade’ para variar. Isso vem do fato de se usar o conjunto
de dados para se calcular a média, assim quando determinamos n-1 observações de uma série e conhecemos
a média automaticamente o último valor já está determinado. Ou seja, não tem como variar.

Por exemplo, seja a amostra a seguir, dada por: Y1 = 5 Y2 = 7 Y3 = 8 Y4 = y4


Assim, se Y for igual a 8, necessariamente y4 é igual a 12, pois (5+7+8+12)/4 = 8.
Portanto y4 não tem liberdade para variar.

Propriedades da Variância
P1) A variância de uma constante é igual a zero. V ( k ) = 0
P2) Somando-se ou subtraindo-se uma constante de uma v.a., sua variância não se altera.
V(X + k ) = V(X) , da mesma forma temos que: V(X − k ) = V(X)
P3) Multiplicando-se uma v.a. por uma constante, sua variância fica multiplicada pelo quadrado da
constante. V(kX ) = k V(X)
2

1.10.5. Desvio Padrão Amostral (Sx)


Como medida de dispersão, a variância tem a desvantagem de apresentar unidade de medida igual
ao quadrado da unidade dos dados. Assim, por exemplo, se os dados são medidos em metros, a variância é
dada em metros ao quadrado. Para voltarmos a unidade de medida original, precisamos de uma outra
medida de dispersão. Então, se define desvio padrão como a raiz quadrada positiva da variância.

S x = V̂( x ) = S2x

23
1.10.6. Coeficiente de Variação (CV)
Para comparar variabilidades de diferentes conjuntos de valores, onde as médias são muito
desiguais ou as unidades de medidas são diferentes, o C.V. é indicado. O C.V. expresso em percentagens é
dado por:
S 2x Sx
C.V.(%) = = .100
X X
Nota: o C.V. é o desvio padrão expresso em porcentagem da média. Medida adimensional. Aplicação:
- Utilizado para avaliação da precisão experimental.
- Utilizado para avaliar qual amostra é mais homogênea (menor variabilidade). Na situação em que as
amostras possuem a mesma média, a conclusão pode ser feita a partir da análise de suas variâncias. Para
amostras com médias diferentes, aquela que apresenta menor C.V., é mais homogênea.

1.10.7. Erro Padrão da Média (Sx )


É uma medida utilizada para avaliar a precisão da média é dada por:

𝑉̂ (𝑋) 𝑆𝑥
𝑆𝑥̅ = √𝑉̂ (𝑋̅) = √ =
𝑛 √𝑛
Note que o erro padrão da média é:
- Inversamente proporcional ao tamanho da amostra;
- Diretamente proporcional a variância da amostra.
̂ (𝑋)
𝑉
Fato: Variância da média: 𝑉̂ (𝑋̅) = 𝑛 esta expressão é válida para populações infinitas ou população
finita e amostra com reposição dos elementos.

24
Exemplos:
Ex.1. Sejam as variáveis horas de estudo (X) e nota do aluno (Y)
X (horas estudo) 3 1 4 3 5
Y (nota obtida) 9 3 8 8 7
Calcule:
a) Média aritmética
n
 Yi
n
 Xi 16 35
X= i =1
= = 3,2 Y= i =1
= = 7,0
n 5 n 5
b) Variâncias
2
 n 
  Xi 
n
 i=1  (16)
2

 i X 2
− 60 −
S2x = i=1 n = 5 = 60 − 51,2 = 8,8 = 2,2  S2x = 2,2
n −1 5 −1 4 4
2
 n 
  Yi 
 
(35)2
n
2  i =1 
Yi − n 267 −
267 − 245 22,0
SY2 = i =1
= 5 = = = 5,5  S2Y = 5,5
n −1 5 −1 4 4
c) Desvio padrão amostral

SX = S2X = 2,2 = 1,4832  SX = 1,4832

SY = S2Y = 5,5 = 2,3452  SY = 2,3452


d) Coeficiente de variação (CV)

S2X 2,2 S2Y 5,5


CV( X ) (%) = 100 = 100 = 46,35% CV( Y ) (%) = 100 = 100 = 33,50%
X 3,2 Y 7,0
e) Erro padrão da média
S X2 2,2 S2Y 5,5
S x = S X2 = = = 0,6633 SY = S2Y = = = 1,0488
n 5 n 5
f) Amplitude total (AT)
ATX = X max − X min = 5 − 1 = 4 ATY = Ymax − Ymin = 9 − 3 = 6

g) Coeficiente de correlação amostral


 n  n 
  X i   Yi 
X iYi −  i=1  i=1  121− 16x35
n

 n 5 = 121− 112 = 2,25


Covariância Coˆv( X , Y ) = i =1
=
n −1 4 4

Coˆv( X , Y ) 2,25
rXY = = = 0,65
Coeficiente de correlação: S S
2
X
2
Y
2,2 x5,5

25
Ex.2. Dados referentes a medidas tomadas em uma amostra de 10 cães
Cão 1 2 3 4 5 6 7 8 9 10
Peso (kg) 23,0 22,7 21,2 21,5 17,0 28,4 19,0 14,5 19,0 19,5
Comprimento (cm) 104 105 103 105 100 104 100 91 102 99
Pede-se, para as características avaliadas, peso e comprimento, as estatísticas:
a) Média:
n

X X 1 + X 2 + ... + X n 23,0 + 22,7 + ....... + 19,5


→ Peso:
i
X= i =1
= = = 20,580
n n 10
n

→ Comprimento:
Y i
Y1 + Y2 + ... + Yn 104 + 105 + ....... + 99
Y = i =1
= = = 101,300
n n 10

b) Variância:  n 
2

 Xi 
 
(23,0)2 + (22,7)2 + ...... + (19,5)2 − (23,0 + 22,7 + .... + 19,5)
 
n

2
Peso:  Xi −
2 i =1

n
SY = Vˆ ( X ) = i =1
2
= 10 = 14,297
n −1 2
9
 n

  Yi 
→ Comprimento: 
n
Yi −
2  i =1 
( 
104 ) + (105) + ...... + (99 ) −
2 2 2 (104 + 105 + .... + 99)2

n
SY2 = Vˆ (Y ) = i =1 Vˆ (Y ) = 10 = 17,789
n −1 9

c) Desvio padrão:
→ Peso: S X = s ( X ) = Vˆ ( X ) = 3,781

→ Comprimento: SY = s(Y ) = Vˆ (Y ) = 4,218

d) Erro padrão da média:

→ Peso: Vˆ ( X ) S X
S X = Vˆ ( X ) = = = 1,196
n n

→ Comprimento: Vˆ (Y ) S Y
S Y = Vˆ (Y ) = = = 1,334
n n

e) Coeficiente de variação:

→ Peso: S X2 SX
C.V .(%) = = .100 = 18,373%
X X

→ Comprimento: C.V .(%) =


SY2
=
SY
.100 = 4,164%
Y Y

f) Qual das duas características é a mais homogênea?


Resp: Comprimento, pois o seu coeficiente de variação é menor.

g) Coeficiente de correlação amostral


 n  n 
  X i  Yi 
X iYi −  i =1  i =1  20.958,2 − 205,8 x1.013
n

Covariância  n 10
Cov( X , Y ) =
ˆ i =1
= = 12,296
n −1 9

Coˆv( X , Y ) 12,296
rXY = = = 0,771
Coeficiente de correlação: S S2
X
2
Y
14,297x17,789

26
1.11. Coeficiente de Correlação Amostral (r ou ̂ )
O termo correlação representa uma medida que mede o grau de associação entre duas variáveis
aleatórias X e Y. O valor da correlação, conhecido como coeficiente de correlação, assume valores no
intervalo de -1 a +1, de acordo com o grau de associação entre as variáveis em questão.
Se as variáveis X e Y crescem no mesmo sentido, isto é, se quando X cresce Y em média também
cresce, diz-se que as duas variáveis tem correlação positiva. Se as duas variáveis X e Y variam em sentidos
contrários, isto é, se quando X cresce, Y em média decresce, diz-se que as duas variáveis tem correlação
negativa.

Representação gráfica dos tipos de correlação


20 20 20

15 15 15

10 10 10

5 5 5

0 0 0
0 2 4 6 8 0 2 4 6 8 0 2 4 6 8
CORRELAÇÃO POSITIVA CORRELAÇÃO NEGATIVA CORRELAÇÃO NULA

Assim como, quando o coeficiente de correlação assume valores próximos de +1, a associação é dita
alta e positiva. Se o seu valor está próximo de -1, a correlação é chamada negativa. Se o valor é próximo
de 0, não existe correlação linear.

A correlação se aplica a qualquer área em que se pretende avaliar se uma variável X está associada a uma
outra Y. Assim a amplitude de aplicação é ilimitada, tendo como exemplos:
✓ O grau de analfabetismo de um país e expectativa de vida
✓ Grau de instrução dos pais e avaliações de candidatos no vestibular
✓ Taxa de desemprego e índice de criminalidade
✓ Idade e altura de crianças
✓ Tempo de prática de esportes e ritmo cardíaco
✓ Tempo de estudo e nota na prova
✓ Acidez e pH do leite fresco
✓ Matéria Orgânica (Lactose) e Demanda Bioquímica de Oxigênio (DBO) do soro de queijo (resíduo)

27
Cálculo do Coeficiente de Correlação Amostral
Sejam duas amostras relativas às variáveis X e Y, dadas a seguir
Xi X1 X2 ... Xn
Yi Y1 Y2 ... Yn
O coeficiente de correlação entre os valores de X e Y é dado por:
SPXY
rXY =
Côv(X, Y)
= n −1 =
SPXY
V̂(X).V̂(Y) SQD X SQD Y SQD X .SQD Y
.
n −1 n −1

 n  n 
  X i   Yi 
 n  n 
2

 X i Yi −  i=1 n i=1 


n  n 
  X i   Yi   Xi 
 
n

=  X iYi −  i =1  i =1 
n
Côv(X, Y) = i=1 SPXY SQDX =  X i −
2 i =1

n
n −1 i =1 n i =1

É importante deixar claro que uma correlação positiva entre duas variáveis mostra apenas que essas
variáveis crescem no mesmo sentido. A correlação positiva não indica que aumentos em uma das variáveis
causam aumentos sucessivos na outra variável. Da mesma forma, uma correlação negativa entre duas
variáveis mostra apenas que elas variam em sentidos contrários. A correlação negativa não indica que
acréscimos em uma das variáveis causam decréscimos na outra variável.
Exemplo: Sejam as variáveis horas de estudo (X) e nota do aluno (Y)
X (horas estudo) 3 1 4 3 5
Y (nota obtida) 9 3 8 8 7
 n  n 
  X i   Yi 
X iYi −  i=1  i=1  121− 16x35
n

 n 5 = 121− 112 = 2,25


Coˆv( X , Y ) = i =1
=
n −1 4 4
2
 n 
 Xi 
2
 n 
  Yi 
n
  (16)2 (35)2
 Yi −  i =1 
i =1 n
Xi −
2
60 −  Coˆv( X , Y )
2
267 − 2,25
Sx =
2 i =1 n
= 5 = 2,2 SY =
2 i =1 n
= 5 = 5,5 rXY = = = 0,65
n −1 5 −1 n −1 5 −1 S S
2 2
2,2 x5,5
X Y

Podemos concluir que rxy = 0,65 é uma correlação moderada, ou seja, com maior número de horas
de estudo espera-se que o aluno obtenha maior nota na prova. No entanto, não significa que sempre que um
aluno estude mais que outro irá obter maior nota.
Segundo alguns autores a correlação poderá ser assim interpretada:
✓ ≤ 0,20 Correlação muito fraca e sem significância
✓ 0,20 < r ≤ 0,39 Correlação fraca
✓ 0,40 < r ≤ 0,69 Correlação moderada
✓ 0,70 < r ≤ 0,89 Correlação forte
✓ 0,90 < r ≤ 1,00 Correlação muito forte

O Coeficiente de Correlação indica a direção que é obtida pelo sinal + ou ‐ e a intensidade ou força
que é dada pelo valor que varia entre ‐1,0 e +1,0. Se a correlação for próxima a zero não existe correlação
linear entre as variáveis (exemplo: cor dos olhos e inteligência).

28
1.12. Exercícios

Exercícios de amostragem
1. Quando o uso da amostragem não é interessante?
2. Porque fazer amostragem?
3. Qual a diferença entre censo e amostragem?
4. Quais são as vantagens da amostragem?
5. Qual a diferença entre amostragem probabilística e amostragem não probabilística?
6. Qual a limitação de uma pesquisa onde as entrevistas foram feitas pela Interne t?
7. Qual a limitação de uma pesquisa onde os questionários foram enviados pelo correio?

Exercícios de tabelas e gráficos


1. De acordo com o IBGE em 2000 ocorreu, em acidentes de trânsito, 27.306 casos de vítimas fatais, assim
distribuídos: 11.712 pedestres, 7.116 passageiros e 8.478 condutores. Faça uma tabela de distribuição de
frequências e apresente as frequências absolutas, relativas, acumuladas e acumuladas relativas.

2. Resultado final da disciplina W, entre 00 I— 20: 5 alunos; entre 20 I— 40: 10 alunos; entre 40 I— 60:
20 alunos; entre 60 I— 80: 15 alunos; entre 80 I— 100: 10 alunos. Construa uma tabela de distribuição
de frequências para apresentar o resultado da turma.

3. Salários mensais de funcionários da indústria farofinha no ano de 2010, entre 130 I— 150: 605
funcionários; entre 150 I— 170: 182 funcionários; entre 170 I— 190: 113 funcionários; entre 190 I—
210: 77 funcionários; entre 210 I— 230: 23 funcionários. Construa uma tabela de distribuição de
frequências para apresentar os salários mensais da indústria farofinha no ano de 2010.

4. Construa uma tabela de distribuição de frequências completa: 51, 44, 55, 60, 39, 43, 57, 42, 37, 60, 35,
39, 39, 42, 61, 55, 63, 52, 34, 40, 34, 51, 61, 61, 63, 39, 36, 39, 59, 55, 57, 40, 49, 36, 54, 55

29
Exercícios de somatório
1. Considere as variáveis X e Y que representam, respectivamente, as notas de duas disciplinas, para um
grupo de 7 alunos. X = {9, 7, 4, 8, 9, 6, 10} Y = {6, 7, 5, 8, 7, 6, 9}
Calcule:
2
7 7
7  5 6
a)  Xi b)  X i2 c)   X i  d)  X i e)  X i2 f)
i =1 i =1  i =1  i =1 i =2
2
5X  7
h)   X i  Yi 
5 6
 i
 i =1 
g) X Y
i =1
i i
 i =1  i =1 
2. Seja os valores da variável X = {5, 2, 1, 8, 0, 11, 4, 6, 7, 10}. Calcule:
2
 10 X 
2  i 
 i =1 
 10 
10
10 10
 Xi −
2
a)  X i b)  X i2 c)   X i  d) i =1 10
i =1 i =1  i =1  10 − 1
10 2

 ( X i − 4)
10
2  Xi
e)  ( X i − 4 )
10
f)  ( X i − 4)
10
g) i =1 h) i =1
i =1 i =1 10 − 1 10

3. Utilizando os dados da tabela abaixo, calcule:


i \ j 1 2 3 4
1 8 7 5 9
2 4 0 10 2
2 4 2 4 4
a)  X i1 b)  X 1 j c)   X ij d)  X ij
i =1 j =1 i =1 j =1 j =1
j 3
4  1  4 4

 6X 6X
3
e)  X 2 j f)   g) h)

j =1  X 2 j
 1j 2j
j =2
j 2
 j =1
j2
j =1
j2

4. Observe os dados e calcule as seguintes quantidades:


i 1 2 3 4 5 6
fi 3 5 9 10 2 1
Xi 10 11 15 19 21 26
6

f X
6 6 6 6

2
a)  X i b)  f i c) fi X i d)  f i X i2 e) i =1
i i

i =1 i =1 i =1 i =1 6

fi =1
i

5. Considere o conjunto de dados a seguir, onde se observou a produção de uma determinada gramínea
(t.ha-1) em relação a diferentes níveis de adubação (kg.ha-1):
Nível (x) 0 20 40 60 80
Produção (y) 0,8 0,9 1,2 1,5 1,4
Calcule:
2
 5  5
 5 
  Yi  Y  5 
5 5 5 5 5

X   X i   Yi 
5

 X Y  (X + Y )i   X i + Yi 
2
Yi i
b)  i =1  e
i i i i
a) i =1 e i =1 i =1 c)  i =1 i =1 i  e i =1 d) i=1 e  i=1 i =1 
5 5 5 5

 (7 + X )  (3 + X )  (3 X )
5 5
e)
 7X i i i i  4Y  (9 + Y )
i i
i =1 e i =1 f) i =1 e i =1 g) i =1 e i =1

30
Exercícios de descrição dos dados

1. Calcule a média aritmética, geométrica e harmônica dos números:


a) 3 e 9 f) 3 e 27
b) 2 e 8 g) 2 e 16
c) 1, 3 e 27 h) 1, 4 e 16
d) 2, 2, 2 e 2 i) 7, 7, 7, 7 e 7
e) 2, 5, 7 e 9 j) 2, 500, 20, 900

2. A média mínima para aprovação em determinada disciplina é 5,0. Se um estudante obtém as notas: 7,5;
8,0; 3,5; 6,0; 4,0; 2,5; 5,5 e 2,0 nos trabalhos mensais da disciplina em questão, este aluno foi aprovado?

3. Calcule a média ponderada dos números:


a) 4, 5 e 8 atribuindo aos mesmos, respectivamente, pesos de 3, 2 e 5.
b) 8, 5 e 6 atribuindo aos mesmos, respectivamente, pesos de 1, 3 e 6.

4. Um aluno obteve 3,0 na prova e 9,0 no trabalho, cujos pesos são 4 e 1, respectivamente. Sabendo que a
média mínima para aprovação é 5,0, este aluno foi aprovado?

5. Um professor de biologia leciona para quatro turmas. Sabe-se que as turmas apresentaram as seguintes
médias em um determinado semestre. Calcule a média conjunta das turmas.
Turma A (60 alunos) - Média 9,0 Turma B (40 alunos) - Média 8,0
Turma C (70 alunos) - Média 7,0 Turma D (30 alunos) - Média 5,0

6. Calcule a Média aritmética ponderada de:


Xi 4 7 9 10 12 15
fi 3 6 4 5 2 10
Xi – valores e fi – frequência dos respectivos valores.

7. Num determinado país a população feminina representa 51% da população total. Sabendo-se que a
expectativa de vida da mulher é de 73 anos e a do homem é de 70 anos, qual a expectativa de vida média
da população?

8. A média aritmética das notas dos alunos de uma turma formada por 25 meninas e 5 meninos é igual a 7.
Se a média aritmética das notas dos meninos é igual a 6, a média aritmética das notas das meninas é igual
a quanto?

9. O histograma seguinte mostra a distribuição de uma amostra. Calcule a média desta distribuição.
15
10
Frequência

10 8 7
5 4
5 3

0
50 I- - 150 150 I- - 250 250 I- - 350 350 I- - 450 450 I- - 550 550 I- - 650

10. Calcule a média, variância e o desvio padrão e coeficiente de variação dos números:
a) 1, 3, 4 e 8
b) 3, 7, 5, 2 e 4
c) 4, 4, 4, 4, 4 e 4.
d) 4, 3, 7, 9, 8 e 5.

31
11. Calcule o coeficiente de variação dos dados de notas de dois grupos (A e B) de estudantes, dizendo
ainda, com base nos cálculos, qual o grupo mais homogêneo (ou menos disperso).
Grupo A: 8, 7, 7, 6, 9 e 8
Grupo B: 8, 5, 7, 3 e 9

12. Seja X = {2, 5, 7, 4, 7, 9}, calcule a média e a variância de:


a) X e) D = X + 7
b) Z = X – 2 f) Y = 4X
c) B = X – 5 g) K = X − X
d) W = X + 3 h) A = 2X

13. Os dados abaixo se referem a medidas tomadas em uma mostra de 10 cães:


Cão 1 2 3 4 5 6 7 8 9 10
Peso (kg) 23,0 22,7 21,2 21,5 17,0 28,4 19,0 14,5 19,0 19,5
Comprimento (cm) 104 105 103 105 100 104 100 91 102 99

Pede-se para as características avaliadas, peso e comprimento, as estatísticas:


a) Média; d) Erro padrão da média;
b) Variância; e) Coeficiente de variação;
c) Desvio padrão; f) Qual das duas características é mais homogênea.

14. Tabela 14. Peso e comprimento de bezerros ao nascer das raças A e B


Comprimento Comprimento
Raça Peso (kg) Raça Peso (kg)
(cm) (cm)
A 45 102 B 44 82
A 46 98 B 46 90
A 47 89 B 48 72
A 49 91 B 51 69
A 50 110 B 54 93
A 50 81 B 55 88
A 51 96 B 56 79
A 51 108 B 57 83

14.1 Para o conjunto de dados (sem considerar a raça) e para o peso e o comprimento, calcule:
a) Média; b) Mediana; c) Moda; d) Amplitude total;
e) A variância; f) desvio padrão; g) O erro padrão da média; h) Coeficiente de variação;
i) Coeficiente de correlação e interprete essa correlação.

14.2 Calcule agora para cada raça A e B:


a) Média; b) Mediana; c) Moda; d) Amplitude total;
e) A variância; f) desvio padrão; g) O erro padrão da média; h) Coeficiente de variação.
i) Coeficiente de correlação e interprete essa correlação.

32
15. Calcule o coeficiente de correlação e diga se a correlação é positiva ou negativa e se a associação é
forte, fraca ou regular.
15.1. Acidez e pH do leite fresco
Acidez (ºD) 16 18 20 22 24 26
pH 6,7 6,9 6,3 6,0 5,5 5,4

15.2. Matéria Orgânica (Lactose) e Demanda Bioquímica de Oxigênio (DBO) do soro de queijo
Materia orgânica (g/L) 44 56 68 80 92
DBOppm 40000 60000 70000 80000 90000

15.3. Teor de clorofila e teor de proteína em braquiária

Teor de clorofila (SPAD) 15,46 30,86 39,57 41,97


teor de proteína bruta (%) 3,66 6,13 10,67 15,32

15.4. Variáveis X e Y
X 7 9 10 13 15
Y 9 8 9 7 7
15.5. Variáveis Z e W
Z 0 5 10 15 20
W 2,4 5,8 8,6 8,3 8,0

15.6. Variáveis X e Y
X 0 1,5 3,0 4,5 6,0 7,5 9,0
Y 70,9 64,1 60,5 55,1 52,2 55,9 55,1

15.7. Variáveis L e K
L 10 20 30 40 50 60 70 80
K 2,1 5,4 3,6 3,5 4,2 3,7 3,1 2,8

33
Respostas exercícios de somatório

1.a) 53 b) 427 c) 2.809 d) 37 e) 246 f) 1.369 g) 376 h) 1.443


2. a) 54 b) 416 c) 2.916 d) 13,822 e) 14 f) 144 g) 16 h) 5,4
3. a) 12 b) 29 c) 45 d) X1 = 24 e X2 = 6 e) 10 f) 1/16 g) 132 h) 96
4. a) 102 b) 30 c) 478 d) 8.098 e) 269,93
5. a) 200 b)33,64 c)1.160 d)205,8 e)1.400 f)215 g)23,2
5. a) 5,8 b)7,1 c)268 d)205,8 e)235 f)600 g)50,8

Respostas exercícios de descrição de dados

c)10,3; e) 5,75; g)9; 5,66;


1.a) 6; 5,2; 4,5 b)5; 4; 3,2 d)2; 2; 2 f)15; 9; 5,4 h)7; 4; 2,29
4,3; 2,19 5,01; 4,19 3,56

2.a) 4,875 3.a) 6,2 b) 5,9 4.a) 4,2 5.a) 7,5 6.a) 10,47 7.a) 71,53 8.a) 7,2
9.a) 367,57
10.a) 4,0 b) 4,2 c) 4,0 d) 6,0
8,67 3,70 0,00 5,60
2,94 1,92 0,00 2,37
73,6 45,8 0,0 39,4

11.a) 14,0 b) 37,6


12.a) 5,67 b) 3,67 c) 0,67 d) 8,67 e) 12,67 f) 22,67 g) 0,00 h) 11,33
6,27 6,27 6,27 6,27 6,27 100,27 6,27 25,07

13.a) 20,58 b) 14,30 c) 3,78 d) 1,20 e) 18,37 f) 15,73


101,30 17,79 4,22 1,33 4,16 137,20

14.a) 50,0 b) 50 c) 51 d) 13 e) 15,73 f) 3,97 g) 0,99 h) 7,93 i) -0,166


a) 89,44 b) 89,44 c) amodal d) 41 e) 137,20 f) 11,71 g) 2,93 h) 13,10

14.1.48,63 b) 49,5 c) 50 d) 6 e) 5,41 f) 2,33 g) 0,82 h) 4,78 i) 0,060


a) 96,88 b) 97,0 c) amodal d) 29 e) 96,13 f) 9,80 g) 3,47 h) 10,12

14.1 51,38 b) 52,5 c) amodal d) 13 e) 23,98 f) 4,90 g) 1,73 h) 9,53 i) 0,131


a) 82,00 b) 82,5 c) amodal d) 24 e) 71,43 f) 8,45 g) 2,99 h) 10,31

15) -0,955 2) 0,986 3) 0,903 4) -0,861 5) 0,832 6) -0,852 7) -0,166

34
Cap.2. Introdução a Teoria das Probabilidades

2.1. Introdução

A teoria matemática da probabilidade dá-nos a instrumental para construção e análise de modelos


matemáticos relativos a fenômenos aleatórios. Ao estudarmos um fenômeno aleatório, temos diante de nós
um experimento cujo resultado não pode ser previsto. Ocorre-nos então logo à mente experimentos
relacionados com jogos de azar. De fato, a teoria das probabilidades, surgida nos séculos XV e XVI, foi
motivada por problemas deste tipo.
Historicamente, o propósito original da teoria das probabilidades limitava-se a descrição e ao estudo
dos jogos de azar e quase todo esforço era concentrado no cálculo do valor de certas probabilidades de
interesse. Entretanto, a obtenção de valores numéricos de probabilidade não é o objetivo principal da teoria,
e sim a descoberta de leis gerais, e a construção de modelos teóricos satisfatórios.
Com o advento da teoria das probabilidades, foi possível estabelecer as distribuições de
probabilidade, consideradas hoje a espinha dorsal da teoria estatística, pois todos os processos inferenciais
são aplicações de distribuições de probabilidades.
Assim, o conhecimento dos conceitos advindos da teoria das probabilidades é de grande
importância para compreensão e correta utilização da técnica estatística.

2.2. Conceitos fundamentais


2.2.1. Modelo determinístico
É aquele modelo em que, a partir das condições em que o experimento é realizado, pode-se
determinar seu resultado. Sabe-se, por exemplo, que a expressão S = vt, representa a distância percorrida
por um objeto. Sendo, v a velocidade média e t o tempo gasto no percurso. Portanto, conhecidos os valores
de v e t, o valor de S fica implicitamente determinado.
É importante observar que existe uma relação definida entre t, v e S que determina univocamente a
quantidade no primeiro membro da equação, se aquelas do segundo membro forem fornecidas.

2.2.2. Modelo Probabilístico


É aquele modelo em que as condições de execução de um experimento não determinam o resultado
final, mas sim o comportamento probabilístico do resultado observável.
Considere-se, por exemplo, a seguinte situação: deseja-se determinar qual a precipitação
pluviométrica que ocorrerá numa determinada localidade como resultado de uma tempestade que se
avizinha. Dispõe-se de informações sobre pressão barométrica em vários pontos, variação de pressão,
velocidade do vento, etc. Embora sejam essas informações valiosas, não são capazes de responder a questão
levantada, qual seja, a de quanta chuva irá cair. Como se pode notar, este fenômeno não se coaduna com
um tratamento determinístico; um modelo probabilístico se adapta à situação com mais propriedade.

2.2.3. Experimentos Probabilísticos ou Aleatórios


São aqueles experimentos cujos resultados podem não ser os mesmos, ainda que sejam repetidos
sob condições essencialmente idênticas.
São exemplos de experimentos probabilísticos:
El: Lançar 4 moedas e observar o número de caras obtidas.
E2: Escolher, ao acaso, duas pessoas na população e observar o sexo.
E3:Lançar uma moeda e observar a face superior.
E4: jogar um dado e uma moeda e observar as faces superiores.

35
2.2.4. Espaço Amostral
Chama-se espaço amostral o conjunto de todos os possíveis resultados de um experimento aleatório
ou, em outras palavras, é o conjunto universo relativo aos resultados de um experimento. Esse conjunto
será representado pela letra S. Assim, pode-se dizer que, a cada experimento aleatório sempre estará
associado um conjunto de resultados possíveis ou espaço amostral.
Aos experimentos aleatórios exemplificados anteriormente estão associados os seguintes espaços
amostrais, respectivamente:
S1 = 0, 1, 2, 3, 4
S2 = HH, HM, MH,MM
S3 = C, K, em que {C – Cara e K – Coroa}
S4 = C1, C2, C3, C4, C5, C6, K1, K2, K3, K4, K5, K6

2.2.5. Eventos
Denomina-se evento a todo particular conjunto de resultados de S, ou ainda, a todo subconjunto de
S. É desse resultado que se tem interesse no cálculo de probabilidade. Será útil considerarmos o espaço
todo (S) e o conjunto vazio () como eventos. O primeiro é denominado evento certo e o segundo, evento
impossível, e temos:
P(S) = 1 P() = 0
Em particular, se S é um espaço amostral discreto ou enumerável composto de n pontos amostrais,
existem 2n subconjuntos ou eventos que podem ser formados a partir de S. O conjunto que reúne todos
esses subconjuntos é chamado de espaço de eventos ou classe de eventos.
Exemplo: Seja S = 1, 2, 3
Temos então, n = 3  23 = 8 eventos,
A1 = , A2 =  1 , A3 =  2 , A4 =  3 ,
A5 =  1, 2, A6 =  1, 3, A7 =  2, 3, A8 = 1, 2, 3.
No caso continuo, os eventos são colocados na forma de intervalos.
Por exemplo, B =  a  x  b .

2. 2.6. Eventos Mutuamente Exclusivos


Diz-se que dois eventos são mutuamente exclusivos se, e somente se, a ocorrência de um impede a
ocorrência do outro. Correspondentemente, caracterizam-se, na teoria dos conjuntos, por dois conjuntos
disjuntos, isto é, que não possuem nenhum ponto em comum.
Como exemplo, considere-se os seguintes casos:
(i) No lançamento de um dado, a ocorrência de uma face elimina a possibilidade de ocorrência das outras
cinco.
(ii) Seja S o espaço amostral referente à retirada de uma carta de um baralho de 52 cartas. Seja A o evento
retirada de um ás e B o evento retirada de uma carta de ouro. Vê-se que a possibilidade de ocorrer A e
B ao mesmo tempo não está descartada, ou seja, ocorrer ás de ouro. Logo, os eventos A e B não são
mutuamente exclusivos.
Em outras palavras, dois eventos A e B são mutuamente exclusivos se o seu conjunto interseção
for vazio, ou seja,
A  B =   A e B são disjuntos.
Obs.: Usando-se as operações com conjuntos, podem-se formar novos eventos.
I) A  B é o evento que ocorre se A ocorre ou B ocorre ou ambos ocorrem;
II) A  B é o evento que ocorre se A e B ocorrem;
III) A é o evento que ocorre se A não ocorre. Conhecido como complemento de A.

36
Exemplo 1: Seja o experimento aleatório “lançar um dado e anotar a face superior”.
S =  1, 2, 3, 4, 5, 6 nS = 6
 Evento A: “sair número par” A =  2, 4, 6 nA = 3
 Evento B: “sair número ímpar” B =  1, 3, 5 nB = 3
 Evento C: “sair número menor que 3” C =  1, 2 nC = 2
• A  B =  , portanto A e B são mutuamente exclusivos.
• A  C = 2, portanto A e C não são mutuamente exclusivos.
• B  C =  1 , portanto B e C não são mutuamente exclusivos.
• A  C =  1, 2, 4, 6
• B  C =  1, 2, 3, 5
• C =  3, 4, 5, 6

2.3. Conceitos de Probabilidade


Como a teoria das probabilidades está, historicamente, ligada aos jogos de azar, esta associação
gerou inicialmente um conceito chamado conceito clássico ou probabilidade “a priori”, devido a Laplace.
O conceito de frequência relativa como estimativa de probabilidade ou probabilidade “a posteriori”
surgiu posteriormente com Richard Von Mises.
Já no século XX, como a conceituação até então existente não era apropriada a um tratamento
matemático mais rigoroso, A. N. Kolmogoroff conceituou probabilidade por meio de axiomas rigorosos.

2.3.1. Conceito Clássico ou Probabilidade “a priori”


Seja E um experimento e S um espaço amostral a ele associado, composto de ns pontos amostrais.
Define-se a probabilidade da ocorrência de um evento A, indicada por P(A), como sendo a relação entre o
número de pontos favoráveis (nA) a realização do evento A e o número total de pontos (ns), ou seja:
P(A ) =
nA
nS
ns = nA + c, onde c = número de pontos contrários à realização do evento A.
Podemos complementar definindo a probabilidade de realização do acontecimento contrário,

( ) P(A ) =
c
indicada por P A , onde : Obviamente, P(A ) + P(A ) = 1  P(A ) = 1 − P(A ) .
nS
Exemplo 2: E “escolher aleatoriamente uma carta num baralho contendo apenas figuras”.
S = RP, RC, RO, RE, VP , VC, VO, VE , DP, DC, DO, DE e n S = 12
Sendo: R – Rei, V – Valete, D – Dama / P - Paus, C – Copas, O – Ouros, E – Espadas.
Sejam os eventos associados ao S:a) A: “a carta é de copas”  A = RC, VC, DC n A = 3
b) B: “a carta é um rei”  B = RP, RC, RO, RE n B = 4
 Considerando que os pontos de S são equiprováveis, isto é, cada ponto de S tem a mesma probabilidade
de ocorrer, tem-se que:
P(A ) =
nA 3 1
= = P(B) =
nB
=
4 1
=
n S 12 4 n S 12 3

Fatos:
a) O conceito clássico só pode ser utilizado em situações onde o S é enumerável, finito e equiprovável.

b) Sendo P(A ) =
nA
, no caso infinito todos os eventos teriam probabilidade zero.
nS
37
2.3.2. Frequência Relativa ou Probabilidade “a posteriori”
Seja E um experimento e A um evento. Se após n realizações do experimento E, n suficientemente
grande, forem observados m resultados favoráveis ao evento A, então uma estimativa da probabilidade P(A)
m
é dada pela frequência relativa fr = .
n
Esta definição é, as vezes, chamada de probabilidade empírica e tem por base o princípio estatístico
da estabilidade, ou seja, à medida que o número de repetições do experimento cresce, a frequência relativa
se aproxima da probabilidade P(A). Se jogarmos um dado 90 vezes e obtivermos o resultado do Quadro
1.1, teremos na frequência relativa a probabilidade "a posteriori" e na frequência esperada relativa, a
probabilidade "a priori". Quando o número de tentativas aumenta consideravelmente, as duas se
aproximam.
Quadro 1 - Resultado hipotético do lançamento de um dado 90 vezes consecutivos.
Face no Frequência Frequência Frequência Frequência esperada
observada relativa esperada relativa
1 12 12/90 = 0,1333 15 1/6 = 0,1667
2 17 17/90 = 0,1889 15 1/6 = 0,1667
3 15 15/90 = 0,1667 15 1/6 = 0,1667
4 18 18/90 = 0,2000 15 1/6 = 0,1667
5 10 10/90 = 0,1111 15 1/6 = 0,1667
6 18 18/90 = 0,2000 15 1/6 = 0,1667
Soma 90 1,000 90 1,000
A exigência n suficientemente grande é por demais vaga para que sirva como uma boa definição
de probabilidade, além de impossibilitar, tal como o conceito clássico, o tratamento probabilístico de
eventos de espaços amostrais contínuos.

Exemplo 3: Em 660 lançamentos de uma moeda, foram observadas 310 caras. Qual a probabilidade de,
num novo lançamento dessa moeda obter-se coroa?
Aqui, a estimativa fr da probabilidade P(A) será: fr = m = 350 = 0,5303
n 660

2.3.3. Conceito Moderno ou Axiomático


Seja E um experimento e S um espaço amostral associado a E. A cada evento A de S associaremos
um número real P(A), denominado probabilidade da ocorrência do evento A, se forem satisfeitas as
seguintes condições ou axiomas:
i) P(A)  0, para qualquer evento A em S
ii) P(S) = 1
iii) Se A e B são dois eventos de S e são mutuamente exclusivos, então:
P(A  B) = P(A) + P(B)
Este último axioma pode ser generalizado para o caso de um número finito de eventos mutuamente
exclusivos, ou seja,
n
P(A1  A 2  ...  A n ) = P(A1 ) + P(A 2 ) + ... + P(A n ) =  P(A i ) , se Ai  Aj =  para todo par (i, j), com i
i =1

 j. Decorre daí, duas propriedades importantes, ou sejam:


a) 0  P(A)  1
b) P (A ) = P(S ) − P( A) = 1 − P( A) .
Pelo que se pode notar, o conceito axiomático não fornece formas e sim condições para o cálculo
de probabilidade, ou seja, qualquer processo de cálculo da probabilidade é válido desde que satisfaça os
axiomas. Facilmente se comprova que os conceitos “a priori” e “a posteriori” se enquadram dentro desse
conceito.
38
2.4. Espaço Amostral finito
Seja S um espaço amostral finito:
S = a1 , a 2 ,..., a n 

Um espaço amostral de probabilidade finito é obtido associando-se a cada ponto a i  S , um


número real p i , chamado de probabilidade de a i , satisfazendo as seguintes condições:
i) p i  0 , para i = 1,2,..., n
ii) p1 + p 2 + ... + p n = 1
A probabilidade de qualquer evento A, que denotaremos por P(A), é dada pela soma das
probabilidades dos pontos de A.

2. 5. Espaços Amostrais Finitos e Equiprováveis


Seja S um espaço de probabilidade finito. Se cada ponto de S tem uma mesma probabilidade de
ocorrer, então o espaço amostral chama-se equiprovável, ou uniforme. Se S contém ns pontos então a
1
probabilidade de cada ponto será .
nS
nB
Por outro lado, se um evento B possui nB pontos, então P(B) = .
nS

Exemplo 4: Seja uma turma composta pelos alunos Helena, Maria, Pedro, José e Alice. Selecionando-se
um aluno ao acaso: a) qual a probabilidade de ser selecionada a Helena? b) e de ser selecionada uma mulher?
Resolução: S = {Helena, Maria, Pedro, José, Alice}. ns = 5
 Considerando que S é um espaço finito e seus pontos são equiprováveis, isto é, cada ponto de S tem a
mesma probabilidade de ocorrer, tem-se que:
a) Selecionando-se um aluno ao acaso qual a probabilidade de ser selecionada a Helena?

P(A ) =
nA 1
A = {Helena} nA = 1 =
nS 5
b) Selecionando-se um aluno ao acaso a probabilidade de ser selecionada uma mulher?

P(M ) =
nM 3
M = {Helena, Maria, Alice} nM = 3 =
nS 5

Exemplo 5: Seja o espaço amostral referente ao número de caras obtidos no “lançamento de uma moeda
3 vezes” e A o evento “ocorrência de uma cara”. Neste caso:
S = {0,1,2,3} e n S = 4 e A = { l } e n A = 1
Aqui, o conceito clássico não pode ser imediatamente aplicado, pois, os pontos de S não são equiprováveis,
ou seja, P(A)  1/4. Observando-se o espaço amostral original:
S’ = {CCC, CCK, CKC, KCC, CKK, KCK, KKC, KKK};
n A' 3
vê-se, A’ = {CKK, KCK, KKC} e, logo, P(A' ) = = , nesse caso, S’ é equiprovável.
n S' 8

39
2.6. Principais Teoremas para o Cálculo de Probabilidades
O cálculo de probabilidades, além dos axiomas, possui nos teoremas a serem enunciados um
poderoso instrumento de auxílio. Os diagramas de Venn, são úteis na compreensão tanto dos teoremas como
dos processos de demonstração.

Teorema 1: Se  é um conjunto vazio, então P() = 0.


Prova: Temos que A = A   => P(A) = P(A   )
A   =  , isto é, A e  são mutuamente exclusivos.
Logo, P(A ) = P(A ) + P( ) (do axioma iii) Assim, P() = P(A) − P(A) = 0  P() = 0

Teorema 2: Se A é o complemento de A, então P(A) = 1 − P(A) .


Prova:

S Por definição:
A
P (S) = 1
A = S − A , logo A  A = S , e
P(A  A ) = P(S) = 1
Ora, A  A =  , isto é, A e A são mutuamente exclusivos.
Logo, P( A) + P( A ) = 1  P( A ) = 1 − P( A )

Teorema 3: Se A e B são dois eventos quaisquer e B é o complemento de B,


então P(A  B) = P(A) − P(A  B) .
Prova:
S
A B

A = (A  B)  (A  B)
P(A) = P(A  B) + P(A  B) , pois (A  B) e ( A  B) são mutuamente exclusivos, logo:
P(A  B) = P(A) − P(A  B)

Teorema 4: Teorema da soma das probabilidades. Se A e B são dois eventos quaisquer, então:
P(A  B) = P(A ) + P(B) − P(A  B)
Prova: Pela figura do teorema 3 vê-se, que:
A  B = B  (A  B) sendo B e (A  B) mutuamente exclusivos. Assim:
P(A  B) = P(B) + P(A  B)
Mas pelo teorema 3, P(A  B) = P(A) − P(A  B) , logo:
P(A  B) = P(A) + P(B) − P(A  B)

40
Exemplo 6: Imagine que uma carta será retirada de um baralho contendo apenas as figuras (Rei, Valete e
Dama). Qual a probabilidade de sair uma dama ou a carta ser de espadas? Esse baralho tem 12 cartas, sendo
três figuras (Rei, Valete e Dama) e quatro naipes (Paus, Copas, Espadas e Ouros). Então:
4 3 1 6 1
P( D  E ) = P( D) + P( E ) − P( D  E ) P( D  E ) = + − = =
12 12 12 12 2
Exemplo 7: A probabilidade de um guarda rodoviário aplicar quatro ou mais multas em um dia é de
63%; a probabilidade de ele aplicar quatro ou menos multas em um dia é de 56%. Qual a probabilidade
de o guarda aplicar exatamente quatro multas em um dia?
Solução: Quatro ou mais = 63% Quatro ou menos = 56%
P( A  B) = P( A) + P( B) − P ( A  B) = 100 = 63 + 56 − P( A  B) = P( A  B) = 119 − 100 = 19%
Teorema 5: Se A  B , então P(A )  P( B)

Prova:
S
B A

Podemos escrever: B = A  (A  B)
P(B) = P(A) + P( A  B) , pois A e ( A  B) são mutuamente exclusivos, logo:
P( A  B) = P(B) − P(A) , mas pelo axioma (i), vem:
P(B) − P(A)  0  P(B)  P(A)
Teorema 6: Para um evento A qualquer, 0  P(A)  1

Prova: S
A

P(A)  0 pelo axioma (i)


Resta provar que P(A )  1 Pelo Teorema 5, A  S , logo  P(A)  P(S)
Pelo axioma (ii), tem-se que P (S) = 1 , logo P(A)  1  0  P(A)  1

Exemplo 8: Numa classe há 10 homens e 20 mulheres. Metade dos homens e metade das mulheres tem
olhos castanhos. Qual a probabilidade de uma pessoa escolhida ao acaso ter olhos castanhos ou ser mulher?
Olhos Castanhos Olhos Claros Totais
Homens 5 5 10
Mulheres 10 10 20
Totais 15 15 30 ns = 30
Eventos: M: “ser mulher” n M = 20 P(M ) =
20 2
=
30 3
C : “ter olhos castanhos” n C = 15 P ( C) =
15 1
=
30 2
MC: “ser mulher e ter olhos castanhos” n MC = 10 P ( M  C) =
10 1
=
30 3
A probabilidade de uma pessoa escolhida ao acaso ter olhos castanhos ou ser mulher será:
2 1 1 5
P ( M  C) = P ( M ) + P ( C) − P ( M  C) = + − =
3 2 3 6

41
2.7. A análise combinatória

O número de elementos do espaço amostral Ω, em certas situações, é finito e enumerável. Nesses


casos, se a probabilidade de eventos associados a Ω for constante, então, de acordo com a teoria clássica, a
probabilidade de um evento A é dada pela divisão do número de elementos favoráveis ao evento A pelo
número total dos elementos de Ω. Ou seja, existem situações nas quais a teoria clássica é adequada, e que
portanto o cálculo de probabilidades resume-se em um problema de contagem.
Entretanto, a contagem ou enumeração dos eventos associados a A é frequentemente laboriosa.
Portanto as técnicas de contagem (análise combinatória) correspondem a uma ferramenta matemática
poderosa para determinar a probab. associada a um certo evento A, contido no espaço amostral finito Ω.

2.7.1. Princípio fundamental da contagem


Se determinada operação pode ser realizada de n1 maneiras distintas, e se, para cada uma dessas
maneiras, uma segunda operação pode ser realizada de n2 maneiras distintas, então as duas operações podem
ser realizadas conjuntamente, de n1.n2 maneiras. Cada um dos modos de realização da primeira pode
associar-se a cada um dos modos de realização da segunda.

Exemplo 9: Lançando um dado e uma moeda e observando as faces superiores, quantos diferentes
resultados podemos obter?
n1 = 6 possíveis resultados do dado. n 2 = 2 possíveis resultados da moeda.
Portanto será possível obter n1  n 2 = 6x 2 = 12 diferentes resultados.

2.7.2. Arranjos e Permutações


Dado um conjunto de n objetos, o número de disposições desses elementos tomados k de cada vez
constitui o que chamamos de arranjo de n elementos k a k, representados A kn .
Exemplo 10: Os arranjos das quatro letras a, b, c, d tomadas 3 a 3 são:
abc acb bca bac cab cba
abd adb bda bad dab dba
acd adc cad cda dac dca
bcd bdc cbd cdb dcb dbc
Pode-se mostrar que o número de arranjos de n elementos tomados k de cada vez é:
n!
A kn =
(n − k )!
4!
No caso anterior temos A 34 = = 4x3x 2x1 = 24 diferentes arranjos.
(4 − 3)!
O símbolo n!, dito fatorial de n, é o produto dos n primeiros números inteiros consecutivos, de 1
até n. Assim, 3!= 3x 2x1 = 6 ; 5!= 5x4x3x2x1 = 120 . Por convenção 0!= 1 .
Se os arranjos abrangem a totalidade dos elementos, temos o que se chama de permutações de n
elementos. Simbolicamente: Pn . Pode-se verificar que Pn = n!.

Exemplo 11: Quantos números de cinco algarismos podemos formar com os algarismos:
2, 4, 6, 7, 9, sem os repetir?
5!
P5 = 5!= 5x 4x3x 2x1 = 120 , que coincide com A 55 = = 5!= 120
(5 − 5)!

42
2.7.3. Combinações
Há casos em que só interessam os elementos que compõem o grupamento, não importando a ordem
que ali figuram. Temos então o que se chama de combinação de n elementos k a k. Símbolo:

C kn = ( ) = k!(nn−! k)!
k
n

Os grupamentos básicos do exemplo 1.10, abc, abd, acd, bcd (primeira coluna), são precisamente
as combinações dos quatro elementos a, b, c, d tomados 3 a 3. Ou seja:
4! 4 x 3x 2 x1
C 34 = = = 4.
3!(4 − 3)! 3x 2 x1
Ali, qualquer permutação que façamos com os elementos de determinado grupamento origina a
mesma combinação. São idênticas as combinações:
abc, acb, bac, bca, cab, cba.

Exemplo 12: De um grupo de sete pessoas, quantas comissões de três pessoas podemos formar?
Solução: Evidentemente, só interessa os indivíduos em si, e não a ordem que os consideramos. Temos, pois,
um problema de combinações de 7 elementos tomados 3 a 3, cujo resultado é:
7! 7 x 6 x 5x 4!
C 37 = = = 35 .
3!(7 − 3)! 3x 2 x1x 4!
Exemplo 13: De um grupo de sete pessoas, quantas comissões podemos formar, compostas de um
presidente, um secretário e um tesoureiro?
Solução: Aqui já não interessam apenas os indivíduos em si, mas também os cargos que irão ocupar (ou
seja, a ordem que os consideramos). Uma comissão em que João é presidente, Helena secretária e Renata
tesoureiro é diferente da comissão composta por Helena presidente, Renata secretária e João tesoureiro.
Estamos, pois, em face de um problema de arranjos de 7 elementos tomados 3 a 3, cujo resultado é:
7! 7 x 6x5x 4!
A 37 = = = 210
(7 − 3)! 4!

Exemplo 14. Seja o experimento aleatório “de um grupo de 3 mulheres e 4 homens, seleciona-se duas
pessoas de uma só vez”.
a) Obter o espaço amostral referente ao número de homens selecionados.
Como são selecionadas duas pessoas fica.
S = 0,1,2 Espaço amostral não equiprovável.
b) Obter a probabilidade de ocorrência de cada um dos pontos do espaço amostral.
Como são selecionadas duas pessoas de um só vez, o espaço amostral básico do experimento será
7!
composto por: C 72 = = 21 pontos amostrais, ou seja, 21 diferentes grupos de 2 pessoas que
2!(7 − 2)!
podem ser formados a partir de 7 pessoas.

Os resultados podem ser resumidos da seguinte forma:


Homens Mulheres Número de grupos Probabilidade
0 2 C C = 3
0 2
4 3
3/21
1 1 C  C = 12
1
4
1
3
12/21
2 0 C42  C30 = 6 6/21
Soma = 1,0

43
Exemplo 15. Uma caixa contém 10 peças, das quais 3 são defeituosas. Extraem-se três ao acaso. Qual a
probabilidade de:
a) A = {todas serem defeituosas} c) C = {uma ser defeituosa}
C33  C07 1 C13  C72 63
P( A) = 3
= P(C) = 3
=
C10 120 C10 120
b) B = {duas serem defeituosas} d) D = {nenhuma ser defeituosa}
C C
2 1
21 C30  C37 35
P(B) = 3
3
=7
P(D) = 3
=
C10 120 C10 120
Fato: Observa-se que os eventos acima formam o espaço amostral que representa o número de
peças defeituosas retiradas: S = {3, 2, 1, 0}
1 21 63 35 120
P(S) = P(A) + P(B) + P(C) + P(D) = + + + = =1
120 120 120 120 120

2.9. Probabilidade Condicional


A noção de probabilidade condicional é uma ferramenta básica da teoria das probabilidades. As
considerações seguintes conduzem de modo natural à definição formal.
A ideia de probabilidade condicional pode ser entendida através de um exemplo. Imagine que um
dado foi jogado. Qual é a probabilidade de ter saído a face 5? Como o dado tem 6 faces, a probabilidade
de ter ocorrido a face com número 5 é: 1/6.
Imagine agora que o dado foi jogado e já se sabe que ocorreu uma face com número ímpar. Qual é a
probabilidade de ter saído a face 5? Note que a resposta a esta pergunta é diferente da resposta dada à
pergunta anterior. Se saiu uma face com número ímpar, só podem ter ocorrido os números:1, 3 ou 5. Logo,
a probabilidade de ter ocorrido 5 é: 1/3.
A probabilidade de ocorrer determinado evento pode ser modificada quando se impõe uma
condição. Como mostra o exemplo, a probabilidade de ocorrer 5 no jogo de um dado é 16,67%, mas, sob a
condição de ter ocorrido a face com número ímpar, a probabilidade de ocorrer 5 é 33,33%.
Denomina-se probabilidade condicional à probabilidade de ocorrer determinado evento sob uma
dada condição. Indica-se a probabilidade condicional de ocorrer o evento A sob a condição de ter ocorrido
B por P(A/B), que se lê “ probabilidade de A dado B”.
Considere este outro exemplo:
Exemplo 16: Sejam 200 alunos matriculados em dado Instituto de Matemática, num dado ano, assim
distribuídos:
Curso \ Sexo Homens (H) Mulheres (M) Totais
Matemática Pura (P) 70 35 105
Matemática Aplicada (A) 25 15 40
Estatística (E) 10 20 30
Inglês (I) 15 10 25
Totais 120 80 200
Vamos indicar por P o evento que ocorre quando escolhendo-se ao acaso um aluno do instituto e
este for um estudante de Matemática Pura (P), A, E, I, H e M têm significados análogos. Desta maneira,
vemos que:

44
Podemos considerar uma subpopulação formada pelos homens, em que nH = 120. A probabilidade
de que um aluno do Instituto, escolhido ao acaso nessa subpopulação (somente homens), seja um estudante
de Inglês é igual a nHI/nH, onde nHI é o número de homens estudantes de Inglês. O resultado será 15/120 =
3/24.
O símbolo mais comumente adotado é P(I/H), que pode ser lido como a "probabilidade do evento
I (estudante de Inglês) dado o evento H (sabendo-se que a pessoa escolhida é Homem)". Em símbolos:
n IH P(I  H )
P(I / H ) = =
nH P(H )
É claro que cada subpopulação pode ser considerada como sendo uma nova população; o termo
subpopulação é usado unicamente por conveniência de linguagem servindo para indicar que existe uma
população maior sendo considerada.
Por analogia com a fórmula acima, introduziremos agora a seguinte definição. Seja B um evento
cuja probabilidade é conhecida. Para um evento A, arbitrário, definimos. P( A / B ) = P( A  B ) , P(B) > 0.
P (B )

A quantidade assim definida será chamada de probabilidade condicional de A na hipótese B (ou


dado B). No caso de todos os pontos amostrais terem probabilidades iguais, P(A/B) é o quociente

P(A / B) =
n A B
, do número de pontos amostrais comuns a A e B, pelo número de pontos de B.
nB
P( A  B )
Do mesmo modo tem-se que: P ( B / A) = , P(A) > 0.
P ( A)

Considerar probabilidades condicionais de vários eventos com relação a uma hipótese particular H
é equivalente a escolhermos H como um novo espaço amostral, com probabilidades proporcionais às
probabilidades originais; o fator de proporcionalidade P(H) é necessário para que se tenha a probabilidade
total do novo espaço igual a 1. Essa formulação mostra que todos os teoremas gerais sobre probabilidades
são válidos também para probabilidades condicionais, com respeito a qualquer hipótese particular H. Por
exemplo, a relação fundamental para a probabilidade da ocorrência de A ou B ou ambos, toma a forma:

P( A  B ) / H  = P( A / H ) + P(B / H ) − P( A  B ) / H .

Se A e B forem eventos mutuamente exclusivos, então:

P( A  B ) / H  = P( A / H ) + P(B / H ) .

45
Exemplo 17: Para o exemplo do Quadro 1.2, se desejamos encontrar a probabilidade de um aluno escolhido
ao acaso estar matriculado em estatística sabendo-se que é Mulher, fazemos:
Eventos: E: “matriculado em Estatística”
M: “ser Mulher”.
n EM 20 1
Desejamos saber P ( E / M ) , então fazemos P(E / M) = = =
nM 80 4
Dada a informação da ocorrência de um evento, teremos a redução do espaço amostral. A
probabilidade condicional pode ser avaliada diretamente no espaço amostral reduzido.

Exemplo 18: Um grupo de 15 indivíduos apresenta a seguinte composição:

Homem (H) Mulher (M)


Criança (C) 5 3
Adulto (A) 5 2

Um indivíduo é selecionado ao acaso, sabendo-se que é mulher, qual a probabilidade de ser criança?
nC  M 3
P(C / M ) = =
nM 5

2.10. Teorema do Produto das Probabilidades


Vimos que a probabilidade de A na hipótese B (ou dado B) é:
P(A  B)
P(A / B) =
P(B)

Multiplicado cruzado a expressão anterior, temos:


P(A  B) = P(B)  P(A / B) , ou também podemos ter P(A  B) = P(A)  P(B / A) .

Exemplo 19: Uma moeda será jogada duas vezes. Qual a probabilidade de ocorrer cara nas duas jogadas?
A probabilidade de ocorrer cara na primeira jogada é 50%, e a probabilidade de ocorrer cara na segunda
jogada também é 50%.
O fato de ocorrer cara na primeira jogada não modifica a probabilidade de ocorrer cara na segunda
jogada (os eventos são independentes).
Para se obter a probabilidade de ocorrer cara nas duas jogadas, faz-se o produto.
1 1 1
 =
2 2 4

46
Exemplo 20: Uma urna contém 2 bolas brancas e três vermelhas. Retiram-se duas bolas dessa urna com
reposição. Quais as diferentes ocorrências que podem ocorrer:
2 2 4
P (1º B  2º B ) = P (1º B )  P (2º B / 1º B ) =  =
5 5 25
2 3 6
P (1º B  2º V ) = P (1º B )  P (2º V / 1º B ) =  =
5 5 25
3 2 6
P (1º V  2º B ) = P (1º V )  P (2º B / 1º V ) =  =
5 5 25
3 3 9
P(1º V  2º V ) = P (1º V )  P (2º V / 1º V ) =  =
5 5 25

Exemplo 21: Uma urna contém 2 bolas brancas e três vermelhas. Retiram-se duas bolas dessa urna sem
que haja reposição. Quais as diferentes ocorrências que podem ocorrer:
2 1 2 1
P (1º B  2º B ) = P (1º B )  P (2º B / 1º B ) =  = =
5 4 20 10
2 3 6 3
P (1º B  2º V ) = P (1º B )  P (2º V / 1º B ) =  = =
5 4 20 10
3 2 6 3
P(1º V  2º B ) = P (1º V )  P(2º B / 1º V ) =  = =
5 4 20 10
3 2 6 3
P(1º V  2º V ) = P (1º V )  P(2º V / 1º V ) =  = =
5 4 20 10

Exemplo 22: Dentre 10 alunos de uma sala, 3 são mulheres. Duas pessoas são chamadas aleatoriamente,
uma após a outra, sem reposição. Pede-se:

a) Qual a probabilidade de ambas serem homens?


7 6 42 7
P(1º H  2º H ) = P(1º H)  P(2º H / 1º H ) =  = =
10 9 90 15
b) Qual a probabilidade de surgir primeiro um homem e depois uma mulher?
7 3 21 7
P(1º H  2º M ) = P(1º H)  P(2º M / 1º H) =  = =
10 9 90 30
c) Qual a probabilidade de surgir primeiro uma mulher e depois um homem?
3 7 21 7
P(1º M  2º H) = P(1º M )  P(2º H / 1º M ) =  = =
10 9 90 30
d) Qual a probabilidade de surgirem duas mulheres?
3 2 6 1
P(1º M  2º M ) = P(1º M )  P(2º M / 1º M ) =  = =
10 9 90 15
Fato: Observa-se que os eventos acima formam o espaço amostral representado por:
S = {HH, HM, MH, MM}
42 21 21 6 90
P(S) = P(A ) + P(B) + P(C) + P(D) = + + + = =1
90 90 90 90 90

47
2.11. Independência Probabilística

A probabilidade condicional P(A/B) não é, em geral, igual a probabilidade P(A). No caso em que
P( A / B) = P( A ) diremos que A é estatisticamente (probabilisticamente) independente de B. A expressão
P(A  B) = P(B)  P(A / B) segundo a condição P( A / B) = P( A ) pode ser escrita da forma:
P(A  B) = P(B)  P(A ) ou P(A  B) = P(A )  P(B)
Essa equação é simétrica em A e B, e mostra que sempre que A for independente de B, B também
será independente em relação a A.

Definição: dois eventos A e B são estocasticamente independentes, ou simplesmente, independentes se for


válida a igualdade P( A  B) = P( B)  P( A ) .
Suponha agora três eventos A, B e C, tais que:
P(A  B) = P(A)  P(B)

a) P(A  C) = P(A)  P(C) os eventos A, B e C são independentes dois a dois.
P(B  C) = P(B)  P(C) 

b) P(A  B  C) = P(A)  P(B)  P(C) .


Se os eventos A, B e C satisfazem as condições (a) e (b), eles são mutuamente independentes.
Exemplo 23: Para entender a ideia de eventos independentes, imagine que um dado e uma moeda são
jogados ao mesmo tempo e se pergunta:
a) qual é a probabilidade de sair cara na moeda?
b) qual a probabilidade de sair cara na moeda sabendo que saiu a face 6 no dado?

Dos 12 eventos possíveis e igualmente prováveis apresentados, seis correspondem à saída de cara na
moeda. Então a probabilidade de sair cara na moeda é:
6/12 = 0,5 ou 50%
Para obter a probabilidade de sair cara na moeda, sabendo que saiu 6 no dado. Dos dois eventos que
correspondem à saída de 6 no dado, um corresponde à saída de cara na moeda. Então a probabilidade de
sair cara na moeda, sabendo que saiu 6 no dado é: 1/2 = 0,5 ou 50%
Neste exemplo, a probabilidade de ocorrer um evento (sair cara na moeda) não foi modificada pela
ocorrência de outro evento (sair 6 no dado). Diz-se então que esses eventos são independentes.
Por definição, dois eventos são independentes quando a probabilidade de ocorrer um deles não é
modificada pela ocorrência do outro. Quando se jogam um dado e uma moeda, o resultado que ocorre na
moeda não depende do que ocorre no dado. Então esses eventos são independentes. Escreve-se P(A/B) =
P(A).
Na área biológica existem vários exemplos de eventos independentes e de eventos dependentes.
Assim olhos claros e cabelos claros são eventos dependentes, porque a probabilidade de uma pessoa ter
olhos claros é maior se a pessoa tem cabelos claros. Já olhos claros e idade avançada são eventos
independentes, porque a probabilidade de uma pessoa ter olhos claros não aumenta (ou diminui) com a
idade.

48
Exemplo 24: A probab. de o homem viver 10 anos além dos 60 anos é 1/4 e da mulher 1/3.
Obs.: Sejam os eventos H: “o homem viver 10 anos após os 60” e M: “a mulher viver 10 anos após
os 60”. É evidente que os eventos H e M são independentes.
1
P(H) =  prob. do homem estar vivo 10 anos após os 60 anos.
4
1 3
P( H ) = 1 − =  prob. do homem não estar vivo 10 anos após os 60 anos.
4 4
1
P ( M ) =  prob. da mulher estar viva 10 anos após os 60 anos.
3
1 2
P( M ) = 1 − =  prob. da mulher não estar viva 10 anos após os 60 anos.
3 3
Encontre a probabilidade de:
a) Ambos viverem mais 10 anos após os 60 anos? 1 1 1
P(H  M ) = P(H)  P(M ) =  =
4 3 12
3 1 3 1
b) Somente a mulher viver mais 10 anos? P( H  M ) = P( H )  P(M ) =  = =
4 3 12 4
c) Ao menos um deles viver mais 10 anos? P(H  M) = P(H) + P(M) − P(H  M) = 1 + 1 − 1  1 = 1
4 3 4 3 2
3
d) Nenhum dos dois viver 10 anos após os 60 anos? P( H  M ) = P( H )  P( M ) =  2 = 6 = 1
4 3 12 2
Exemplo 25: Numa amostra aleatória retirada da população obtiveram-se os dados:
Com Bronquite Sem Bronquite
(CB) (SB) Total
Fumantes (F) 40 20 60
Não Fumantes (NF) 15 25 40
Total 55 45 100
Determine as seguintes probabilidades:
40 2
a) de um indivíduo fumante ter bronquite. P(CB / F) = = = 0,6667
60 3
15 3
b) de um indivíduo não fumante ter bronquite. P(CB / NF) = = = 0,3750
40 8
60 3
c) de um indivíduo ser fumante. P(F) = =
100 5
55 11
d) de um indivíduo ter bronquite. P(CB) = =
100 20
40 8
e) de um indivíduo ser fumante e ter bronquite. P(F  CB) = =
100 20
f) os eventos F “ser fumante” e CB “ter bronquite”, são independentes?

Para os dois eventos serem independentes deve-se verificar a condição


3 11 33
P(F  CB) = P(F)  P(CB) =  = . Como pode-se verificar no item e que na realidade
5 20 100
40
P(F  CB) = , então os eventos F “ser fumante” e CB “ter bronquite” não são independentes.
100

49
2.12. Teorema da Probabilidade Total (ou diagrama de árvore).
Enunciaremos agora um teorema útil que relaciona a probabilidade de um evento com
probabilidades condicionais. Sejam B1, B2, ..., Bn eventos mutuamente exclusivos e exaustivos*. Então para
um evento arbitrário A,

P(A) = P(A / B1 )  P(B1 ) + P(A / B2 )  P(B2 ) + ... + P(A / Bn )  P(Bn )


n
P ( A ) =  P ( A / Bi )  P ( B i )
i =1

A utilidade deste resultado reside no fato de que as probabilidades que compõem o somatório acima
são em geral mais fáceis de calcular que a própria probabilidade de A.
* {B1, B2, ..., Bn} é um conjunto de eventos mutuamente exclusivos e exaustivos se quaisquer dois eventos
Bi e Bj não podem ocorrer ao mesmo tempo e um deles deve ocorrer. Simbolicamente, Bi  B j =  , i  j
e B1  B2  ...  Bn = S

B1 B2 B3
A

B4 B5

Partição disjunta de Ω em eventos Bi (i= 1, 2, .., 5), e sua interseção com o evento A.

2.13. Teorema de Bayes


Com base na definição de probabilidade condicional, pode-se estabelecer um resultado bastante
útil, geralmente conhecido como Teorema de Bayes.
Sejam A e B dois eventos arbitrários com P(A) > 0 e P(B) > 0. Então,
P ( A / B )  P (B )
P (B / A) =
P ( A)
Combinando este resultado com o teorema da probabilidade total, temos como conseqüência,
P(A / B j ) P(B j )
P(B j / A) = n
,
 P ( A / B )  P (B )
i =1
i i

para qualquer j onde os Bi representam um conjunto de eventos mutuamente exclusivos e exaustivos.

50
Exemplo 26: Em determinada universidade os alunos de português estão divididos em três turmas, da
seguinte forma:
• Turma 1 com 10 alunos, dos quais 4 são Químicos.
• Turma 2 com 5 alunos, dos quais 1 é Químico.
• Turma 3 com 20 alunos, dos quais 3 são Químicos.

4/10 Q 
T1
6/10 N
1/3 1/5 Q
T2
1/3 4/5 N
3/20 Q
1/3 T3
17/20 N

a) selecionando-se uma turma aleatoriamente, em seguida selecionando um aluno, também aleatoriamente.


Qual a probabilidade do aluno selecionado ser de Química?

Pelo Teorema da Probabilidade Total teremos:


1 4 1 1 1 3 15 1
P(Q) = P(T1 )  P(Q / T1 ) + P(T2 )  P(Q / T2 ) + P(T3 )  P(Q / T3 ) =  +  +  = =
3 10 3 5 3 20 60 4
e de não estudar química será:
1 6 1 4 1 17 45 3
P( N) = P(T1 )  P( N / T1 ) + P(T2 )  P( N / T2 ) + P(T3 )  P( N / T3 ) =  +  +  = =
3 10 3 5 3 20 60 4
Fato: P(S) = P(Q) + P( N ) = 1
b) selecionando-se uma turma aleatoriamente, em seguida selecionando um aluno, também aleatoriamente,
verificou-se que o aluno é químico. Qual a probabilidade dele ser da T3?
Pelo Teorema da Bayes teremos:
1 3

P(T3 )  P(Q / T3 ) 3 20 1
P(T3 / Q) = = =
P(T1 )  P(Q / T1 ) + P(T2 )  P(Q / T2 ) + P(T3 )  P(Q / T3 ) 1  4 + 1  1 + 1  3 5
3 10 3 5 3 20

51
Exemplo 27: Considerando-se 3 urnas com a seguinte composição:
• Urna 1 contém 12 bolas sendo 10 Vermelhas e 2 Brancas.
• Urna 2 contém 10 bolas sendo 6 Vermelhas e 4 Brancas.
• Urna 3 contém 15 bolas sendo 9 Vermelhas e 6 Brancas.
Uma bola é extraída de uma das urnas, sendo a escolha da urna feita do seguinte modo: um dado é lançado
uma vez,
- se sair a face 1, escolhe-se a urna 1,
- se sair as faces 2 ou 3, escolhe-se a urna 2, e
- se sair as faces 4, 5 ou 6, escolhe-se a urna 3.

a) Qual a probabilidade da bola extraída ser Branca?


b) Qual a probabilidade de se ter escolhido a urna 1, dado que a bola extraída é Vermelha?
Seja o diagrama de árvore:

10/12 V 
U1
2/12 B
1/6 6/10 V
U2
2/6 4/10 B
9/15 V
3/6 U3
6/15 B
a) Qual a probabilidade da bola extraída ser Branca?
Pelo Teorema da Probabilidade Total teremos:
1 2 2 4 3 6 65 13
P(B) = P( U1 )  P(B / U1 ) + P( U 2 )  P(B / U 2 ) + P( U 3 )  P(B / U 3 ) =  +  +  = =
6 12 6 10 6 15 180 36
e de ser vermelha será:
1 10 2 6 3 9 115 23
P( V ) = P ( U1 )  P( V / U1 ) + P( U 2 )  P( V / U 2 ) + P ( U 3 )  P( V / U 3 ) =  +  +  = =
6 12 6 10 6 15 180 36
Fato: P(S) = P(B) + P(V) = 1

b) Qual a probabilidade de se ter escolhido a urna 1, dado que a bola extraída é Vermelha?
Pelo Teorema da Bayes teremos:

1 10

P( U1 )  P( V / U1 ) 6 12 5
P( U1 / V ) = = =
P( U1 )  P(V / U1 ) + P( U 2 )  P(V / U 2 ) + P( U 3 )  P(V / U 3 ) 1 10 2 6 3 9 23
 +  + 
6 12 6 10 6 15

52
2.14. Exercícios: Introdução a Probabilidade

1. Lance um dado e uma moeda.


a) Construa o espaça amostral.
b) Enumere os seguintes eventos:
A = {coroa, marcado por número par}
B = {cara, marcado por número ímpar}
C = {múltiplos de três}
c) Expresse os eventos:
I) B
II) A ou B ocorrem
III) B e C ocorrem
IV) A  B
d) Verifique dois a dois os eventos A, B e C e digam quais são mutuamente exclusivos.

1 1
2. Se P ( A) = e P ( B ) = e A e B são mutuamente exclusivos, calcule:
2 4
a) P ( A ) c) P ( A  B ) e) P( A  B )
b) P (B ) d) P ( A  B )

1 1 1
3. Se P ( A) = , P( B) = e P ( A  B ) = , calcule:
2 3 4
a) P ( A  B ) b) P ( A  B ) c) P ( A  B )
4. Determine a probabilidade de cada evento:
a) um número par apareça no lançamento de um dado não viciado;
b) um rei aparece ao extrair-se uma carta de um baralho;
c) pelo menos uma cara aparece no lançamento de 3 moedas;
5. Um número inteiro é escolhido aleatoriamente dentre os números 1, 2, 3, ... , 30. Qual a probabilidade
de:
a) o número ser divisível por 5;
b) terminar em 3;
c) ser primo; e
d) ser divisível por 6 ou 8.

6. Uma moeda é lançada três vezes e observado o número de caras. Qual a prob. de ocorrer:
a) três caras; d) duas caras e uma coroa;
b) nenhuma cara; e) pelo menos uma cara; e
c) exatamente uma cara; f) pelo menos uma coroa.

3 4
7. A probabilidade de um aluno X resolver esse problema é e a do aluno Y é . Qual a probabilidade
5 7
de que o problema seja resolvido?

8. No lançamento de um dado, qual a probabilidade de sair o número 5 ou um número par?

53
2 4 7
9. As probabilidades de três jogadores marcarem um pênalti são respectivamente: , e . Se cada
3 5 10
um cobrar uma única vez, qual a probabilidade de:
a) todos acertarem;
b) apenas o primeiro acertar;
c) todos errarem.

10. Suponha que a probabilidade que um vigia noturno num navio com luzes apagadas descubra um
periscópio em certas condições de tempo é 0,7. Qual é a probabilidade de que a combinação de dois vigias
similares A e B, fizesse a descoberta?

11. Uma urna contém 12 bolas: 5 brancas, 4 vermelhas e 3 pretas. Outra contém 18 bolas: 4 brancas, 6
vermelhas e 8 pretas. Uma bola é retirada de cada urna. Qual a probabilidade das duas bolas serem da
mesma cor?

12. Uma urna contém 7 bolas pretas e 3 vermelhas. Foram extraídas duas bolas com reposição. Qual a
probabilidade de terem sido uma bola preta e uma vermelha?

13. Uma urna contém 7 bolas pretas e 3 vermelhas. Foram extraídas duas bolas sem reposição. Qual a
probabilidade de terem sido uma bola preta e uma vermelha?

14. Uma caixa A contém 8 peças, das quais 3 são defeituosas e uma caixa B contém 5 peças, das quais
duas são defeituosas. Uma peça é retirada aleatoriamente de cada caixa:
a) qual a probabilidade p de que ambas as peças não sejam defeituosas?
b) qual a probabilidade p de que uma peça seja defeituosa e a outra não?

15. Das dez alunas de uma classe, três tem olhos azuis. Se duas delas são escolhidas aleatoriamente, qual é
a probabilidade de:
a) ambas terem olhos azuis?
b) nenhuma ter olhos azuis?
c) pelo menos uma ter olhos azuis?

16. Dois cães são retirados de um canil contendo 10 cães, dos quais 8 são fêmeas. Determine a probabilidade
de que os dois cães retirados sejam fêmeas.

17. A probabilidade de uma mulher estar viva daqui a 30 anos é 3/4 e de seu marido é 2/5. Calcular a
probabilidade de:
a) apenas o homem estar vivo;
b) somente a mulher estar viva;
c) ambos estarem vivos, e
d) pelo menos um estar vivo.

18. Considerando o espaço amostral de um experimento constituído do lançamento de dois dados


perfeitamente simétrico, pede-se:
a) qual a probabilidade de que o primeiro dado mostre a face 2 e o segundo a 3?
b) qual a probabilidade de que ambos os dados mostrem a mesma face?
c) qual a probabilidade de que o segundo dado mostre um número ímpar?

54
19. Jogam-se dois dados. Se as duas faces mostram números diferentes, qual é a probabilidade de que
uma das faces seja 4?
20. Seja E: lançar dois dados, e:
A = (x1 , x2 ) / x1 + x2 = 8, ou seja, a soma ser 8.
B = (x1 , x2 ) / x1 = x2 , ou seja, o primeiro resultado ser igual ao segundo.
C = (x1 , x2 ) / x1 + x2 = 10, ou seja, a soma ser 10.
Calcular: a) P ( A) d) P ( A / B ) g) P ( A  B )
b) P (B ) e) P ( B / A) h) P ( A  B )
c) P (C ) f) P ( A / C ) i) P( A  B )

21. Um dado é viciado de tal forma que a probabilidade de sair um certo número é proporcional ao seu
valor. Pede-se:
a) qual a probabilidade de sair o 3, sabendo-se que o ponto que saiu é ímpar?
b) qual a probab. de sair um número par, sabendo-se que saiu um número maior que 3?

22. Definir e dar exemplos de:


a) Eventos mutuamente exclusivos b) Eventos independentes.

23. Sejam A e B eventos cujas probabilidades são: P(A) = 1/4; P(B) = p; P(AB) = 1/3.
Determine p para os casos em que:
a) A e B são mutuamente exclusivos.
b) A e B são independentes.
c) A é subconjunto de B.

24. Seja S = {1, 2, 3, 4} um espaço amostral equiprovável e os eventos A = {1, 2},


B = {1, 3} e C = {1, 4}. Verifique se os eventos A, B e C são mutuamente independentes.

25. Considere a escolha aleatória de um entre os dez primeiros números inteiros positivos (a partir de um),
e os eventos:
A = {1, 2, 3, 4, 5} B = {4, 5, 6, 7} C = {5, 9}. Pede-se:
Os eventos são mutuamente independentes? Mostre por quê.

26. A e B são eventos mutuamente exclusivos. Determine quais das relações abaixo são verdadeiras e quais
são falsas. Justifique.
a) P(A/B) = P(A) b) P(A) = 0; P(B) = 0; ou ambas c) P(AB) = P(A).P(B)

27. Dado P ( A) = ; P(B ) = ; P ( A  B ) = , calcular:


1 1 1
2 3 4
a) P( A  B ) ; b) P ( A / B ) c) P ( B / A)

28. Dado P ( A) = ; P(B ) = ; P ( A  B ) = , calcular:


1 1 1
2 3 4
a) P ( A ) b) P (B ) c) P(AB) d) P( A  B ) e) P( A / B ) f) P( B / A )

55
29. De 100 estudantes, 30 frequentam um curso de inglês, 20 frequentam um curso de computação e 10
frequentam tanto um curso de inglês como um curso de computação. Um estudante é selecionado ao acaso.
a) Determine a probabilidade de que ele não frequente o curso de inglês.
b) Determine a probabilidade de que ele frequente pelo menos um dos cursos.
c) Determine a probabilidade de que ele não frequente nenhum desses dois cursos.
d) Se ele frequenta o curso de inglês, determine a probabilidade de que ele também frequente o curso de
computação.
e) Se ele frequenta o curso de computação, determine a probabilidade de que ele também frequente o curso
de inglês.

30. Em um certo colégio, 25% dos alunos foram reprovados em matemática, 15% em química e 10% em
matemática e química ao mesmo tempo. Um estudante é selecionado aleatoriamente. Pede-se:
a) se ele foi reprovado em química, qual a prob. de ter sido reprovado em matemática?
b) se ele foi reprovado em matemática, qual a prob. de ter sido reprovado em química?
c) qual a probabilidade de ter sido reprovado em matemática ou química?

31. A probabilidade de um carro ser vendido para indivíduos da classe A é 3/4, da B é 1/6, da C é 1/20 e da
D é 1/30. A probabilidade do indivíduo da classe A comprar um carro da marca E é 1/10; da B comprar da
marca E é 3/5, da C é 2/10 e da D é 1/10. Em certa loja vendeu-se um carro da marca E. Qual a probabilidade
de um indivíduo da classe B o tenha comprado?

32. Em certo colégio 5% dos homens e 3% das mulheres tem mais de 1,80 m de altura. Por outro lado 60%
dos estudantes são homens. Se um estudante é selecionado aleatoriamente e tem mais de 1,80 m de altura,
qual a probabilidade de que o estudante seja mulher?

33. Sejam dois currais A e B com a seguinte composição: curral I: 15 animais dos quais 5 estão
amamentando; curral II: 8 animais dos quais 3 estão amamentando. Todos os animais são identificados por
números. Um deles é selecionado aleatoriamente.
a) Constata-se que está amamentando. Determine a probabilidade de que o animal seja do curral I.
b) Determine a probabilidade de que o animal escolhido não esteja amamentando.

34. Três máquinas, A, B e C produzem respectivamente 40%, 50% e 10% do total de peças de uma fábrica.
As percentagens de peças defeituosas produzidas pelas respectivas máquinas são 3%, 5% e 2%. Uma peça
é sorteada ao acaso e verifica-se que é defeituosa. Qual a probabilidade de que a peça tenha vindo da
máquina A?

35. São dadas três caixas, como segue:


A caixa I tem 10 lâmpadas, das quais 4 são defeituosas
A caixa II tem 6 lâmpadas, das quais 1 é defeituosa
A caixa III tem 15 lâmpadas, das quais 5 são defeituosas.

Selecionamos uma caixa aleatoriamente e então retiramos uma lâmpada, também aleatoriamente. Qual a
probabilidade dela ser defeituosa?

56
36. Uma caixa A contém 8 peças, das quais 3 são defeituosas e uma caixa B contém 5 peças das quais 2
são defeituosas. Uma peça é retirada aleatoriamente de cada caixa:
a) Qual a probabilidade de que ambas as peças não sejam defeituosas?
b) Qual a probabilidade de uma peça ser defeituosa e outra não?
c) Qual a probabilidade de pelo menos uma peça ser defeituosa?

37. Você pode jogar na MEGASENA escolhendo 6 números pertencentes ao intervalo de 01 a 60. São
sorteados 6 números de forma aleatória pela CEF. Pede-se:
a) qual a probabilidade de você ganhar jogando apenas um cartão?
b) e se você apostar 500 cartões?
c) e se você marcar oito números no mesmo cartão?

57
Respostas
1. a) S = C1, C 2, C3, C 4, C5, C 6, K1, K 2, K 3, K 4, K 5, K 6
b) A = K 2, K 4, K 6 B = C1, C3, C5 C = C3, C 6, K 3, K 6
c) I = C 2, C 4, C 6, K1, K 2, K 3, K 4, K 5, K 6 II = K 2, K 4, K 6, C1, C3, C5 III = C3
IV = C1, C 2, C3, C 4, C5, C6, K1, K 2, K 3, K 4, K 5, K 6
d) A  B são M.E. A  C não são M.E. B  C não são M.E.
2. a) 1/2 b) 3/4 c) 0 d) 3/4 e) 1/4
3. a) 7/12 b) 3/4 c) 5/12
4. a) 1/2 b) 1/13 c) 7/8
5. a) 1/5 b) 1/10 c) 1/3 d) 7/30
6. a) 1/8 b) 1/8 c) 3/8 d) 3/8 e) 7/8 f) 7/8
7. 29/35
8. 2/3
9. a) 28/75 b) 1/25 c) 1/50
10. 0,91 11. 17/54 12. 21/50 13. 7/15
14. a) 3/8 b) 19/40 c) 8/15
15. a) 1/15 b) 7/15
16. 28/45
17. a) 1/10 b) 9/20 c) 3/10 d) 17/20
18. a) 1/36 b) 1/6 c) ½
19. 1/3
20. a) 5/36 b) 1/6 c) 1/12 d) 1/6 e) 1/5 f) 0 g) 1/36 h) 5/18 i) 13/18
21. a) 1/3 b) 2/3
23.a) 1/12 b) 1/9 c) 1/3
24. A, B e C não são mutuamente independentes.
25. A, B e C não são mutuamente independentes.
26. a) falsa b) falsa c) falsa
27.a) 7/12 b) 3/4 c) ½
28. a) 1/2 b) 2/3 c) 7/12 d) 5/12 e) 5/8 f) 5/6
29. a) 7/10 b) 2/5 c) 3/5 d) 1/3 e) 1/2
30. a) 2/3 b) 2/5 c) 3/10
31. 60/113
32. 2/7
33. a) 8/17 b) 31/48

58
Cap.3. Variáveis Aleatórias
3.1. Conceito
É toda e qualquer variável associada a uma probabilidade, isto é, seus valores estão
relacionados a um experimento aleatório. Em termos de experimentação, variáveis aleatórias são as
características avaliadas nas unidades experimentais. Por exemplo, num experimento para selecionar
qual a melhor entre quatro rações, a característica avaliada seria ganho de peso, expressa em kg. Para
avaliar qual o melhor tratamento térmico a ser submetido um produto, a variável medida seria o número
de microrganismo que existe após os diversos tratamentos.
Seja E um experimento aleatório e S o espaço amostral associado a este experimento. Uma
função X, que associe a cada elemento a pertencente a S um número real X(a), é denominada variável
aleatória.

X x(a)
a

S R

Exemplo 1: Considere o lançamento de duas moedas e seja X = número de caras obtidas.

S = {cc, ck, kc, kk}


X = {0, 1, 2}, isto é, X(kk) = 0, X(ck) = X(kc) = 1, X(cc) = 2

Observações:
1) O uso de variáveis aleatórias equivale a descrever os resultados de um experimento aleatório por meio
de números ao invés de palavras, o que apresenta a vantagem de possibilitar melhor tratamento
matemático;
2) Nem toda função é uma variável aleatória.
3) As Variáveis Aleatórias podem ser classificadas em qualitativas e quantitativas.
4) Uma V. A. quantitativa pode ser discreta ou contínua.

3.2. Variável Aleatória Discreta (v.a.d.)


3.2.1. Definição
Seja X uma v.a.. Se o número de valores de X for finito ou infinito enumerável então X será uma
v.a.d.. Em geral é obtida mediante alguma forma de contagem.
Exemplos:
- nº de acidentes ocorridos em uma semana;
- n° de peças defeituosas produzidas por um fabricante;
- nº de filhos do sexo masculino por casal; e
- nº de leitões por leitegada.

59
3.2.2. Função de Probabilidade
Chama-se função de probabilidade (f.p.) da variável aleatória discreta X, a função P(X = x i) =
P(xi) = pi que a cada valor de xi, associa sua probabilidade de ocorrência.
A função P(xi) será uma função de probabilidade se satisfizer às seguintes condições:
i) P(xi)  0, para todo xi
n
ii)  P( x i ) = 1
i
A coleção de pares [xi, P(xi)], i = 1, 2, ... , n, denominaremos distribuição de probabilidade da v.a.d.
X, que pode ser representada por meio de tabelas e gráficos.

3.2.3. Variável Aleatória Discreta Uniformemente Distribuída

Este é o caso mais simples da v.a. discreta, onde cada possível valor ocorre com a mesma
probabilidade.

Definição: A variável aleatória discreta X, assumindo os valores x1 , x 2 ,..., x n , tem distribuição uniforme,
se e somente se,
1
P( X = x i ) = P( x i ) = p = , para todo i = 1, 2, ... , n.
n
i) Tabela
xi x1 x2 x ... xn
3
P( x i ) 1/n 1/n 1/n ... 1/n

ii) Gráfico P(X)

1/n

x1 x2 x3 xn X
...
Exemplo 2: Seja E: “o lançamento de um dado não viciado”.
O espaço amostral é S = {1, 2, 3, 4, 5, 6}
Obs.: Cada ponto de S tem probabilidade de ocorrer igual a 1/6.

i) Tabela
xi 1 2 3 4 5 6
P( x i ) 1/6 1/6 1/6 1/6 1/6 1/6

# Este exemplo trata-se de uma v.a.d. X = {nº de pontos obtidos}, uniformemente distribuída.

ii) Gráfico P(X)

1/6

x1 x2 x3 x4 x5 x6 X

60
Exemplo 3: Seja E: “o lançamento de duas moedas”.

Seja a v.a.d. X = {nº de caras}, se S = {kk, kc; ck, cc}, então X = {0, 1, 2}

i) Tabela
xi x1 = 0 x2 =1 x3 = 2
P( x i ) 1/4 2/4 1/4

# Este exemplo trata-se de uma v.a.d. X = {nº de caras obtidas}.

ii) Gráfico P(X)


2/4

1/4

iii) Fórmula
1 x
0 1 2 X
P(X = x i ) =
 C 2 , para x = 0, 1, 2.
4
# observe que nesse exemplo as duas condições para ser uma v.a. são satisfeitas.

3.3. Variável aleatória Contínua (v.a.c.)

3.3.1.Definição

Seja X uma v.a.. Se X puder assumir todo e qualquer valor em algum intervalo a  x  b , onde
a e b podem ser, respectivamente - e +, então X é v.a.c.
Assim uma v.a. X é contínua quando associada a um espaço amostral infinito não enumerável.

3.3.2. Função densidade de probabilidade (f.d.p.)

A função que denotaremos por f(x), definida para a  x  b , será chamada f.d.p. se satisfizer às
seguintes condições:

i) f(x)  0, para todo x  [a,b]


b
ii)  a f (x)dx = 1
Observações:
d
1) Para c < d , P(c  X  d) =  f (x)dx
c

X = x 0 , temos que P(X = x 0 ) =  x f (x)dx = 0 ; sendo assim,


x0
2) Para um valor fixo de X, por exemplo,
0

as probabilidades abaixo são todas iguais, se X for uma v.a.c.:


P(c  X  d) = P(c  X < d) = P(c < X  d) = P(c < X < d)

3) A função densidade de probabilidade f(x) não representa probabilidade. Somente quando a função for
integrada entre dois limites ela produzirá uma probabilidade, que será a área sob a curva da função entre
os valores considerados.
5) Se o conjunto de valores de X não estiver contido no intervalo [a,b], então x  [a,b], tem-se f(x) = 0.

61
3.3.3. Variável aleatória contínua uniformemente distribuída

Este é o caso mais simples de v.a. contínua.


Definição: a V.A. contínua X tem distribuição uniforme no intervalo [a, b], sendo a e b finitos, se a sua
função densidade de probabilidade é dada por:
 1
 , para a  x  b
f (x) =  b − a
0, para outros valores de x

f(x)

a b x

Exemplo 4: Seja uma v.a.c. X definida pela seguinte f.d.p.

0, para x  0

f ( x ) = kx , para 0  x  2

0, para x  2
a) Determinar o valor de k.
+
Por definição:  − f (x)dx = 1 . Então temos:
2
0 2  2 x2 
  −0dx +  0 kxdx +  2 0dx = 1  0 + k  0 xdx + 0 = 1  k  = 1
 2 0
 22 02  4 0 k=
1
 k −  = 1  k −  = 1  2k = 1  2
2 2 2 2

b) Traçar o gráfico da f.d.p..


f(x)
0, para x  0

1
f ( x ) =  x, para 0  x  2 1
2
0, para x  2

0 2 x

c) Calcular P(X  1).

1
1 0 1 1 1 1 1 x2  1 12 0 2  1
P(X  1) = − f ( x )dx = − 0dx +  0 xdx = 0 +  0 xdx =    =   −  =
2 2 2  2 0 2  2 2  4
1
P ( X  1) =
4

62
Exemplo 5: Seja uma v.a.c. X definida pela seguinte f.d.p.

0, para x  1

f ( x ) = kx , para 1  x  3

0, para x  3
a) Determinar o valor de k.
b) Traçar o gráfico da f.d.p..
c) Calcular P(X > 2).

Respostas:
a) k = 1 b) c) P(X  2) = 5
4 8

3.4. Função de Distribuição Acumulada

3.4.1. Definição
Dada a variável aleatória X, chamaremos de função de distribuição acumulada ou, simplesmente
função repartição F(x), a função F(x) = P(X  x).
Observe que o domínio de F é todo o conjunto real.

3.4.2. Propriedades de F(x)


i) 0  F(x)  1 para todo x.
ii) Se x1  x2, então F(x1)  F(x2), isto é F(x) é não decrescente.

3.4.3. F(x) para X v.a.d.


Para X uma v.a.d. temos que:

F( x ) = P(X  x ) =  P( x i )
xi x

Exemplo 6: Seja X uma v.a.d. com a seguinte distribuição de probabilidade

xi -2 -1 1 2 Total
P( x i ) ¼ 1/8 1/2 1/8 1,00

Pede-se:
a) Traçar o gráfico da distribuição de probabilidade de X.
b) Obter a função de distribuição acumulada e traçar seu gráfico.

3.4.4. F(x) para X v.a.c.


Para X v.a.c., temos que:
x
F(x) = P(X  x) = P(−  X  x) = − f (x)dx
Temos ainda que,
d
P(c  X  d) = F(d) − F(c) =  c f (x )dx

63
3.5. Medidas de posição de uma variável aleatória

3.5.1. Mediana de uma v.a. (Md)


A mediana é o valor de X que divide a distribuição em duas partes equiprováveis, ou seja:
1
P ( X  Md ) = P ( X  Md ) =
2
Md 1 +
Para X uma v.a.c. o valor de X = Md é obtido por:  f ( x )dx = =  f ( x )dx
− Md
2

3.5.2. Moda de uma v.a. (Mo)


É o valor que possui maior probabilidade no caso discreto ou maior densidade de probabilidade no
caso contínuo.

3.5.3. Esperança matemática (média ou valor esperado de uma v. a.)


Neste item vamos aprender a quantificar o parâmetro média de uma população. A esperança
matemática de uma população é denominada uma medida da tendência central.
Parâmetro é uma medida utilizada para descrever uma característica de uma população e caracteriza
a distribuição de probabilidade de uma variável aleatória.
Sob o ponto de vista científico, a esperança matemática corresponde ao que se espera que aconteça
em média.

3.5.3.1. Caso em que X é uma v.a.d.


Seja X uma v.a.d. com a seguinte distribuição de probabilidade:
xi x1 x2 x ... xn Total
3
n
P( x i ) P( x 1 ) P( x 2 ) ... P( x n )
P( x 3 )  P( x i ) = 1
i =1
Define-se a esperança matemática de X por:
n
E(X) =  x =  = x1  P( x1 ) + x 2  P( x 2 ) + x 3  P( x 3 ) + ... + x n  P( x n ) =  x i  P( x i )
i =1

Exemplo 8: Seja o lançamento de quatro moedas. Considere a v.a.d. X número de caras. Calcule a
esperança matemática (média) de X.
Solução:
X 0 1 2 3 4
1 4 6 4 1
P(X=xi)
16 16 16 16 16

n
1 4 6 4 1 32
E ( X ) =  xi  P( xi ) = 0 x + 1x + 2 x + 3x + 4 x = =2
i =1 16 16 16 16 16 16

64
3.5.3.2. Caso em que X é uma v.a.c.
A esperança matemática de uma v.a.c. X é definida por:

E(X) = − xf (x)dx
Exemplo 2.9: Uma v.a.c. X apresenta a seguinte f.d.p.:
0, para x  0

x Calcular E(X)
f ( x ) =  , para 0  x  2
 2
0, para x  2
2
+ 0 2 x  2 x2 1 2 1 x3 
E(X) = − xf ( x )dx = − x  0dx +  0 x  2
dx +  2
x  0dx = 0 2
dx =  0 x 2 dx = 
2

2  3 0

1  23 03  8 4  E(X) =
4
E(X) = − = =
2 3 3  6 3 3

3.5.3.3. Propriedades da esperança matemática


As propriedades a seguir valem quando X for uma v.a.c. ou quando for uma v.a.d..
P1) Se X é uma v.a. com P(X = k) = 1, então E(X) = k, sendo k uma constante (ou numa linguagem mais
simples mas menos rigorosa, pode-se dizer que a média de uma constante é a própria constante).
+ + +
Prova: E(X) =  - kf(x)dx = k  - f(x)dx = k  E(X) = k, pois  - f(x)dx = 1
P2) A esperança matemática do produto de uma constante por uma variável é igual ao produto da constante
pela esperança matemática da variável, ou seja, multiplicando-se uma variável aleatória por uma
constante; sua média fica multiplicada por essa constante.
+ +
Prova: E(kX) =  - kxf(x)dx = k  - xf(x)dx = kE(X)

P3) A esperança matemática da soma ou subtração de uma v.a. com uma constante é igual a soma ou
subtração da esperança matemática da variável com a constante, ou seja, somando-se ou subtraindo-
se uma constante a uma v.a., a sua média fica somada ou subtraída da mesma constante.
E(X  K ) = E(X)  K

P4) A média de uma v.a. centrada é zero, ou seja, a média dos desvios dos valores da v.a. em relação a sua
média é zero.
Obs.: Dizemos que a v.a. está centrada quando todos os valores são expressos como desvios em relação à
respectiva média, (X -x )
Assim: E(X -x) = E(X) - E(x) = x - x = 0
P5) A esperança matemática da soma ou da subtração de duas v.a. quaisquer é igual a soma ou a subtração
das esperanças matemáticas das duas v.a., ou seja, a média da soma ou da subtração de duas v.a. é igual
a soma ou subtração das médias.
E(X  Y) = E(X)  E(Y)

P6) A esperança matemática do produto de duas variáveis aleatórias independentes é igual ao produto das
esperanças matemáticas das variáveis, ou seja, a média do produto de duas variáveis aleatórias
independentes é o produto das médias.
E(XY) = E(X)  E(Y)

65
Exemplo 10: Seja X uma v.a.d. com a seguinte distribuição de probabilidade
xi -2 -1 0 1 2 Total
P( x i ) 1/8 2/8 2/8 1/8 2/8 1,00

Determinar:
a) Esperança de X
n
1 2 2 1 2 1 1
E(X) =  x i  P( x i ) = (−2)  + (−1)  + (0)  + (1)  + (2)  =  E(X) =
i =1 8 8 8 8 8 8 8

b) Moda (Mo)
Mo = −1, 0 e 2 , assim consideramos uma série multimodal.

c) Mediana (Md)
3
Md = 0, pois temos que a P(X  0) = P( X  0) =
8

Exemplo 2.11: Uma v.a.c. X apresenta a seguinte f.d.p.:

2x, para 0  x  1
f (x) = 
0, para outros valores de x.
Determinar:
a) Esperança de X
1
+ 0 1  1 1 x3 
E(X) =  − xf ( x )dx = − x  0dx +  0 x  2xdx +  1 x  0dx =  0 2x dx = 2 0 x dx = 2 
2 2

 3 0
13 0 3  2 2
E(X) = 2  −  =  E(X) =
3 3 3 3

b) Moda (Mo)  é o valor de maior densidade, logo, Mo = 1.

c) Mediana (Md)
Md
 x2  1
2 xdx =  2  0 xdx =    = 
Md 1 0 Md 1 Md 1
 − f ( x )dx =  − 0dx +  0 2
2 2 2  2 0 2
 Md 2 0 2  1 1 1 1
2 − =  Md 2 =  Md =  , por coerência Md = + = 0,707
 2 2 2 2 2 2

d) Para Y = 3x + 8 , calcule a esperança de Y.


2
E (Y ) = E (3x + 8) = E (3x ) + E (8) = 3  E ( x ) + 8 = 3  +8  E (Y) = 10
3

66
3.6. Medidas de dispersão de uma Variável Aleatória

3.6.1. Variância
É a medida que quantifica a dispersão dos valores em torna da média.
A variância de uma v.a. é definida por:

V ( X ) =  x2 = E[ X − E( X )]2 = E[ X −  x ]2

# para X uma v.a.d. V ( X ) =  ( xi −  x ) 2 P ( xi )


i
+
# para X uma v.a.c. V ( X ) =  ( x −  x ) 2 f ( x)dx
−

Uma fórmula prática para se calcular a variância é:

V(X) = E(X 2 ) − E(X) , pois


2

V(X) = E[X − E(X)]2 


= E X 2 − 2XE(X) + [E(X)]2 
= E(X ) − 2E(X)E(X) + [E(X)]
2 2

= E(X 2 ) − 2[E(X)]2 + [E(X)]2


V(X) = E(X 2 ) − E(X)
2

em que:
n
# para X uma v.a.d. E(X 2 ) =  x i2 P( x i )
i =1

+
# para X uma v.a.c. E(X 2 ) =  − x 2 f ( x )dx

3.6.2. Desvio padrão

Desvio padrão da variável X é a raiz quadrada positiva da variância de X.


 x = V( X)

3.6.3. Propriedades da variância

P1) A variância de uma constante é igual a zero. V ( k ) = 0


P2) Somando-se ou subtraindo-se uma constante de uma v.a., sua variância não se altera.
V(X + k ) = V(X) , da mesma forma temos que: V(X − k ) = V(X)
P3) Multiplicando-se uma v.a. por uma constante, sua variância fica multiplicada pelo quadrado da
constante. V(kX ) = k 2 V(X)

67
Exemplo 12: Uma v.a.c. X apresenta a seguinte função:
1
 x, para 1  x  3
f (x) =  4
0, para outros valores de x.

a) Esta função é uma f.d.p.?


+
Por definição:  f ( x )dx = 1 . Então:
−
3
1 x2 
1
= − 0dx +  1
3 1 +
xdx +  3 0dx
1 3
 = 0 +  xdx + 0  =  
4 4 1 4  2 1
1  32 12  + 1 9 1
=  −  
4 2 2
− f (x)dx = 4  2 − 2  = 1 , logo f(x) é uma f.d.p..
b) Calcular P(X  2) .
3
+ 1 3 + 1 3 1 x2  1  32 2 2  5
P(X  2) =  2 f ( x )dx =  2 xdx +  3 0dx =  2 xdx + 0 =    =   −  =
4 4 4  2 2 4  2 2  8
c) Esperança de X
3
+ 1 1 + 3 1 1 1 x3  1  33 13  13
E(X) = − xf ( x )dx = − x  0dx +  1 x  xdx +  3 x  0dx =  0 x 2 dx =   =  − =
4 4 4  3 1 4  3 3  6
d) Moda (Mo)  é o valor de maior densidade, logo, Mo = 3.

e) Mediana (Md)
Md
1 1 1 1 x2  1 1  Md 2 12  1
 −
Md
f ( x )dx = 
1
− 0dx +  1
Md
xdx =    =   − = 
2 4 2 4  2 1 2 4 2 2 2

Md = + 5

V(X) = E(X 2 ) − E(X)


2
f) Variância de X 
3
+ 1 1 + 1 1 3 1 x4  1  3 4 14 
E(X ) = − x f ( x )dx = − x 0dx +  1 x xdx +  3 x 2 0dx =  0 x 3 dx =
2 2 2 2
  =  − =5
4 4 4  4 1 4  4 4 
2
 13 
V(X) = E(X ) − E(X )
169 11
= 5−  = 5− =  V (X) = 0,3056
2 2

6 36 36

g) Desvio padrão de X
Desvio padrão da variável X é a raiz quadrada positiva da variância de X.
11
 x = V(X) = = 0,5528   x = 0,5528
36

68
3.7. Variáveis aleatórias bidimensionais

3.7.1. Introdução

Refere-se ao caso em que para um determinado experimento, cada resultado é proveniente da


avaliação simultânea de dois caracteres. Logo, há interesse em dois resultados simultâneos.
Por exemplo, estudar a estatura X e peso Y, de alguma pessoa escolhida ao acaso, o que forneceria
o resultado (x,y). Como pode se notar, o resultado é identificado por cada um dos valores que as variáveis
aleatórias unidimensionais assumem.

*
X Xs

s*
Y *
Ys
3.7.2. Definição
S

Sejam E um experimento aleatório e S o espaço amostral associado a este experimento. Sejam,


X=Xs e Y=Ys duas funções, cada uma associando um número real a cada resultado s  S , denomina-
se ( X, Y ) uma variável aleatória bidimensional.
Em determinadas situações X e Y não estão ligadas a um mesmo experimento, mas existe uma
razão bastante definida para considerar X e Y conjuntamente.
Para nosso estudo vamos considerar que X e Y são ambas discretas ou contínuas.
Do mesmo modo que no caso unidimensional (X,Y) deve ter associada, a cada valor que pode
assumir, uma probabilidade de ocorrência. Assim precisamos definir a distribuição de probabilidade da v.a.
bidimensional (X,Y).

3.7.3. Distribuição conjunta de duas v.a., distribuições marginais e condicionais

3.7.3.1. (X,Y) é uma v.a.d. bidimensional


(X,Y) será uma v.a. discreta bidimensional se os valores possíveis de X e Y forem finitos ou
infinitos enumeráveis. Isto é, se os valores possíveis de (X,Y) podem ser representados por
( )
xi , y j com i = 1,2,..., r e j = 1,2,..., s .

i) Função de probabilidade conjunta de X e Y

Chama-se de função de probabilidade conjunta da v.a.d. bidimensional (X,Y) a função:


P(X = xi , Y = y j ) = P(xi , y j ) = pij
Que a cada valor de (xi , y j ) associa um valor de probabilidade de ocorrência.

Para que P(xi , y j ) seja uma função de probabilidade conjunta é necessário que satisfaça as seguintes
condições:
a) P(xi , y j )  0 , para todo valor (xi , y j ).

 P(x , y ) = 1
r s
b) i j
i =1 j =1

69
Distribuição de probabilidade conjunta é o conjunto de pares:

(x , y ), P(x , y ) para i = 1,2,..., r e


i j i j j = 1,2,..., s
Ou seja,
Y
X y1 y2 ... ys P ( X = xi )
x1 P(x1, y1 ) P(x1, y 2 ) ... P (x1, y s ) P( X = x1 )
x2 P(x2 , y1 ) P(x2 , y 2 ) ... P(x2 , y s ) P( X = x2 )
... ... ... ... ... ...
xr P(x r , y1 ) P(x r , y 2 ) ... P(x r , y s ) P( X = x r )
P(Y = y j ) P(Y = y1 ) P(Y = y 2 ) ... P(Y = y s ) 1,00

ii) Distribuições marginais

Dada uma distribuição conjunta de duas variáveis aleatórias X e Y, podemos determinar a


distribuição de X sem considerar Y e a de Y sem considerar X. São as chamadas distribuições marginais.
A distribuição marginal é constituída pelos valores da variável aleatória e suas respectivas
probabilidades marginais. A probabilidade marginal para cada valor é obtida da seguinte forma:

 P(x , y )
s
• Para X: P( X = xi ) = P(xi ) = i j
j =1

( ) ( )  P(x , y )
r
• Para Y: P Y = y j = P y j = i j
i =1

Com as probabilidades marginais para cada valor, podemos construir a distribuição marginal para
a variável aleatória.

• Para X:

xi x1 x2 ... xr
P ( xi ) P(x1 ) P(x2 ) ... P(x r ) 1,00

• Para Y:

yi y1 y2 ... ys
P(y j ) P( y1 ) P( y 2 ) ... P( y s ) 1,00

iii) Distribuições condicionais


Seja xi um valor de X, tal que P( X = xi ) = P(xi )  0

A probabilidade
P (X = x i , Y = y j )
P (Y = y j / X = xi ) =
P ( X = xi )
É denominada probabilidade condicional de Y = y j , dado que X = xi .

70
Assim, para xi fixado, os pares y j , P(Y = y j / X = xi ) definem a distribuição condicional de Y,
dado que X = xi .

yi y1 y2 ... ys
P(Y = y j / X = xi ) P(Y = y1 / X = xi ) P(Y = y 2 / X = xi ) ... P(Y = y s / X = xi ) 1,00

Analogamente para X, temos:


P (X = x i , Y = y j )
P (X = x i / Y = y j ) = , P(Y = y j  0)
P(Y = y j )

xi x1 X2 ... xr
P(X = xi / Y = y j ) P(X = x1 / Y = y j ) P(X = x2 / Y = y j ) ... P(X = xr / Y = y j ) 1,00

3.7.3.2. (X,Y) é uma v.a.c. bidimensional

(X,Y) será uma v.a. contínua bidimensional se os valores possíveis de X e Y puderem assumir todos
os valores em algum conjunto não enumerável.

i) Função de probabilidade conjunta de X e Y

Seja (X,Y) uma v.a.c. bidimensional. Dizemos que f(x,y) é uma função densidade de probabilidade
conjunta de X e Y, se satisfizer às seguintes condições:

a) f ( x, y )  0 , para todo valor ( x, y ) .


 
b)   f (x, y )dxdy = 1
−−

f ( x, y ) = 0 para ( x, y )  aos intervalos de x e y.

Temos ainda que:


d b
P (a  X  b, c  Y  d ) =   f( x, y )dxdy
c a

ii) Distribuições marginais

As f.d.p. marginais de X e Y são dadas por:

 
g( x ) =  f( x, y )dy
−
e h( y ) =  f( x, y )dx , respectivamente.
−
Temos ainda que:
b d
P (a  X  b ) =  g( x )dx e P(c  Y  d ) = h( y )dy
a c

71
iii) Distribuições condicionais

Sejam X e Y v.a.c. com f.d.p. conjunta f( x, y ) e f.d.p. marginais dadas por g( x ) e h( y ) .


A f.d.p. condicional de X, dado que Y = y é definida por:
f( x, y )
f( x / y ) = , h( y )  0
h( y )
Analogamente, a f.d.p. condicional de Y, dado que X = x é definida por:
f( x, y )
f( y / x ) = , g( x )  0
g( x )

As f.d.p. condicionais acima, satisfazem a todas as condições impostas para uma f.d.p.
unidimensional.

Deste modo para y fixado, teremos:

a) f( y / x )  0
  
f( x, y ) 1 h( y )
b) 
−
f( x / y )dx = 
−
h( y )
dx = 
h( y ) −
f( x, y )dx =
h( y )
=1

3.8. Variáveis aleatórias independentes

3.8.1. (X,Y) é uma v.a.d. bidimensional

Definição 1 - Seja (X,Y) v.a.d. bidimensional. Dizemos que X e Y são independentes se, e somente se, para
todo par de valores (xi , y j ) de X e Y, tem-se:

P(X = xi , Y = y j ) = P( X = xi ).P(Y = y j )
Basta que esta condição não se verifique para um par (x , y )
i j
para que X e Y não sejam
independentes. Neste caso diremos que X e Y são dependentes.

Definição 2 - Seja (X,Y) v.a.d. bidimensional. Neste caso X e Y serão independentes se, e somente se:
P(X = xi / Y = y j ) = P( X = xi ) , para todo i e j.
Ou equivalente se, e somente se:
P(Y = y j / X = xi ) = P(Y = y j ) , para todo i e j.

3.8.2. (X,Y) é uma v.a.c. bidimensional

Definição 1 - Seja (X,Y) v.a.c. bidimensional. Dizemos que X e Y são independentes se, e somente se, tem-
se:
f( x, y ) = g( x )  h( y ) , para todo x e todo y.

Definição 2 - Seja (X,Y) v.a.c. bidimensional. Neste caso X e Y serão independentes se, e somente se:

f ( x / y ) = g( x ) . Nesse caso, é evidente que f ( y / x ) = h( y ) .

72
3.9. Covariância

Seja X e Y duas variáveis aleatórias. A covariância denotada por Cov ( X , Y ) é definida por

Cov(X, Y) = EX − E(X) Y − E(Y)


Desenvolvendo a expressão acima, temos:
Cov(X, Y) = EXY − XE(Y) − YE (X) + E(X)E(Y)
Cov(X, Y) = E(XY) − E(X)E(Y) − E(Y)E(X) + E(X)E(Y)

Cov(X, Y) = E(XY) − E(X)E(Y)

( )
n n
Onde: E(XY ) =  x i y j P x i , y j , para (X, Y) v.a. discretas.
i =1 j=1

E(XY ) = − − xyf (x, y)dxdy , para (X, Y) v.a. contínuas.
+ +

Obs.: para que haja covariância é necessário que existam pelo menos duas variáveis aleatórias. A
covariância nos dá uma idéia da relação de dependência entre duas variáveis.

Proposição:
P1) Cov(X, Y) = Cov(Y, X)
P2) Se V(X) = 0 ou V(Y) = 0, então Cov(X, Y) = 0
P3) Cov(aX, Y) = aCov(X, Y) , sendo a uma constante.
P4) Cov(aX, bY ) = abCov(X, Y) , sendo a e b constantes.
P5) Cov(X + Z, Y) = Cov(X, Y) + Cov(Z, Y)
P6) Se X e Y são duas variáveis quaisquer, então:
V(X + Y) = V(X) + V(Y) + 2Cov(X, Y)
V(X − Y) = V(X) + V(Y) − 2Cov(X, Y)

Se X e Y são duas variáveis aleatórias independentes, então: Cov(X, Y) = 0

Portanto: V(X + Y) = V(X) + V(Y)


V(X − Y) = V(X) + V(Y)

3.10. Coeficiente de correlação

Define-se o coeficiente de correlação populacional ( ) entre duas variáveis aleatórias X e Y:


Cov(X, Y )
 xy = , − 1    +1
V(X)  V(Y)
O coeficiente de correlação mede o grau de associação entre duas variáveis aleatórias X e Y.
Fatos:
i) Se X e Y são v.a. independentes, então Cov(X, Y) = 0 e consequentemente  xy = 0
ii) Cov(X, Y) = 0 não implica que X e Y sejam variáveis aleatórias independentes, a não ser que X e Y
tenham distribuição normal bivariada, ou seja, X e Y não correlacionadas ( xy = 0) não equivale, em
geral, que X e Y sejam independentes.

73
Exemplo 2.13. Seja (X,Y) uma v.a.d. bidimensional com a seguinte distribuição conjunta.
Y
X -3 2 4
1 0,1 0,2 0,2
3 0,3 0,1 0,1
a) Defina as distribuições marginais de X e de Y.
• Para X:
xi 1 3
P ( xi ) 0,5 0,5 1,00
• Para Y:
yi -3 2 4
P(y j ) 0,4 0,3 0,3 1,00

b) X e Y são variáveis aleatórias independentes?

Condição de independência P(X = xi , Y = y j ) = P( X = xi ).P(Y = y j ) .


Y Distr. marginal
X -3 2 4 De X
1 0,20 0,15 0,15 0,5
3 0,20 0,15 0,15 0,5
Distr. marginal de Y 0,4 0,3 0,3 1,00
Verifica-se que a condição de independência não é satisfeita, portanto X e Y são dependentes.

c) Calcule a variância de X e de Y.
2
E(X ) =  x P( x ) = 1x0,5 + 3x0,5
i =1
i i  E(X ) = 2

( )  x P( x ) = 1 x0,5 + 3 x0,5 ( )
2
E X2 = 2
i i
2 2
 E X2 =5
i =1

 = E( X ) − E( X )2 = 5 −( 2 )2   x2 = 1,0 (Variância de X)


2
x
2

3
E (Y ) =  y P( y
j =1
j j ) = −3x0,4 + 2 x0,3 + 4 x0,3  E (Y ) = 0,6

( )  y P( y ( )
3
EY2 = 2
j j ) =( −3 )2 x0,4 + 2 2 x0,3 + 4 2 x0,3  E Y 2 = 9,6
j =1

 y2 = E( Y 2 ) − E( Y )2 = 9,6 −( 0,6 )2   y2 = 9,24 (Variância de Y)

d) Calcule a covariância entre X e Y.

 x y P(x , y ) = 1x( −3)x0,1 + 1x2 x0,2 + 1x4 x0,2 + 3x( −3)x0,3 + 3x2 x0,1 + 3x4 x0,1 = 0,0
2 3
E( XY ) = i j i j
i =1 j =1

Cov( X , Y ) = E( XY ) − E( X )  E( Y ) = 0,0 − 2 x0,6  Cov( X , Y ) = −1,2

e) Calcule a correlação entre X e Y.

Cov( X , Y ) − 1,2
 xy = =   xy = −0,3948
  2
x
2
y
1,0 x9,24

74
3.11. Exercícios: Variáveis aleatórias

1. Seja E: “Lançamento de um dado não viciado”, e seja a variável aleatória X = número de pontos
obtidos. Pede-se:
a) determine o espaço amostral.
b) X é uma variável aleatória contínua ou discreta? Por quê?
c) determine a distribuição de probabilidade da V. A. X (tabela e gráfico).

2. Seja a distribuição de probabilidade da variável aleatória X (pontos obtidos no lançamento de um dado),


dados pela tabela abaixo:
X 1 2 3 4 5 6
P(X) 1/6 1/6 1/6 1/6 1/6 1/6
Sejam as variáveis aleatórias: Y = X + X (V.A. soma dos pontos de dois dados).
Z = Max (x1 , x2 ), onde (x1 , x2 ) pontos de dois dados.
Pede-se:
a) espaço amostral da V.A. Y.
b) distribuição de probabilidade de Y.
c) espaço amostral da V.A. Z.
d) distribuição de probabilidade de Z.

3. No lançamento simultâneo de dois dados, considere as seguintes variáveis aleatórias:


X = número de pontos obtidos no primeiro dado.
Y = número de pontos obtidos no segundo dado.
a) Construir a distribuição de probabilidade por meio de uma tabela e gráfico das seguintes variáveis
I) W = X – Y III) Z = XY
II) A = 2Y IV) B = Mínimo de (X,Y)

4. Numa sala temos 5 rapazes e 4 moças. São retiradas aleatoriamente, 3 pessoas. Faça X a variável aleatória
número de rapazes.
a) Determine a distribuição de probabilidade da variável X, construa uma tabela.
b) Construa o gráfico da distribuição de probabilidade.
c) Calcule as probabilidades:
c.1) P( X  2) c.2) P( X  0) c.3) P(1  X  2) c.4) P(2  X  3)
c.5) P( X  2) c.6) P( X  0) c.7) P( X  −1) c.8) P( X  5)

5. Seja X uma v.a.c. definida pela seguinte f.d.p.:


kX , para 0  X  2
f (X ) = 
0, para outros valores de X .
a) determine o valor de k; b) traçar o gráfico da f.d.p.;
c) calcular P(X  1); d) calcular P(X  1); e) calcular P(X  2).

6. Uma v.a.c. X possui a seguinte função:


k , para 1  X  5.
f (X ) = 
0, para outros valores de X .
a) determine o valor de k.
b) traçar o gráfico da f.d.p.
c) calcular P(2  X  4).
75
7. Seja X uma v.a.d. com a seguinte distribuição de probabilidade.

xi -4 -2 0 2 4 6
P(xi) 1/9 2/9 1/9 3/9 1/9 1/9
a) esta é realmente uma distribuição de probabilidade.
b) traçar o gráfico da distribuição de probabilidade.

0, para X  0

1
8. Seja X uma v.a.c. dada por: f ( X ) =  X , para 0  X  2
2
0, para X  2.

Pede-se:
a) traçar o gráfico da f.d.p.
b) P( X  1) c) P( X  1) d) P ( X  3)

9. Seja X uma v.a.c. dada por:


3
( )
 1 − X , para 0  X  1
f (X ) = 2
2

0, caso contrário.



Pede-se:
a) traçar o gráfico da f.d.p.
b) P ( X  1 / 2) b) P ( X  1 / 2) c) P ( X  0)

10. Seja X uma v.a.c. dada por:


1
 X + K , para 0  X  3
f ( X ) = 6
0, caso contrário.

a) encontre o valor de K para que f(X) seja uma f.d.p.
b) traçar o gráfico da f.d.p.
c) encontre P(1 < X < 2)

11. Uma urna contém 5 bolas brancas e 7 bolas pretas. Três bolas são retiradas simultaneamente dessa urna.
Ganha-se R$ 200,00 por bola branca retirada e perde-se R$ 100,00 por bola preta retirada, qual seria o lucro
esperado? (Obs. Faça a V.A. X o lucro esperado por rodada).

12. X é uma v.a.c., tal que:


2 X , para 0  X  1
f (X ) = 
0, para outros valores de X .
Determinar:
a) E(X); b) moda; c) mediana; d) para Y = 4X – 5, calcule E(Y).

13. Seja X uma v.a.c. dada por:


1
 X , para 0  X  2
f (X ) = 2
0, para outros valores de X .

Determine:
a) E(X) b) V(X) c) V(X + 7) d) V(3X)
e) Y = 2X – 4, determine a E(Y) e V(Y).

76
14. Seja X uma v.a.c. dada por:
3 X 2 , para 0  X  1
f (X ) = 
0, para outros valores de X .
Determine:
a) E(X); b) V(X); c) V(3 + X); d) V(5X);
e) Y = 2X – 9, determine a E(Y) e V(Y).

15. Se X e Y são duas V. A. tal que, E(X2) = 6, E(Y) = 2, E(X) = 2, E(Y2) = 12, E(X.Y) = 5.
Calcule:

a) V(X) e desvio-padrão de X.
b) V(Y) e desvio-padrão de Y.
c) Covariância entre X e Y.
d) V(X + Y)
e) V(X – Y)
f) Correlação entre X e Y.

16. Cite as propriedades de:


a) Esperança matemática.
b) Variância.
c) Covariância.

17. Seja X uma v.a.c. dada por:


KX , para 0  X  1
f (X ) = 
0, para outros valores de X .
Determine:
a) o valor de K para que f(X) seja uma f.d.p. b) trace o gráfico da f.d.p. de X
c) P ( X  1 / 2) d) média
e) variância f) V(3 + X) g) V(5X) h) Y = 2X – 9, determine a E(Y) e V(Y).

18. Suponha que X e Y tenham a seguinte distribuição conjunta:

Y
X -1 1 2
-2 0,1 0,1 0,2
0 0,1 0,2 0,1
3 0,1 0,1 0,0

a) X e Y são variáveis aleatórias independentes? Mostre porque.


b) Calcule a variância de X e de Y.
c) Qual a covariância entre X e Y.
d) Qual a correlação entre X e Y.
e) V(7X); V(X+Y); V(X-Y); V(Y+5); V(2X-Y)

77
19. Suponha que X e Y tenham a seguinte distribuição conjunta:

Y
X 1 2 4 5
2 0,2 0,1 0,1 0,2
3 0,1 0,1 0,1 0,1

a) X e Y são variáveis aleatórias independentes? Mostre porque.


b) Calcule a variância de X e de Y.
c) Qual a covariância entre X e Y.
d) Qual a correlação entre X e Y.
e) V(5X-3Y)

20. Seja (X,Y) uma variável aleatória bidimensional discreta, com a função de probabilidade.
 2 xi + y j
para xi = 0,1,2 e y j = 0,1,2,3
P (xi , y j ) =  42

0 Caso contrário

Pede-se:
a) Tabela da distribuição conjunta.
b) X e Y são variáveis aleatórias independentes? Mostre porque.
c) Calcule a variância de X e de Y.
d) Qual a covariância entre X e Y.
e) Qual a correlação entre X e Y.
f) E(X + Y) e V(X + Y)

21. Dada a distribuição conjunta abaixo, parcialmente indicada:


Y
X -2 0 1 P(X)
-3 1/15 8/30 6/15
-2 1/15 1/30 7/30
-1 1/15
P(Y) 7/30 9/30
Pede-se:
a) Tabela da distribuição conjunta.
b) X e Y são variáveis aleatórias independentes? Mostre porquê.
c) Calcule a variância de X e de Y.
d) Qual a covariância entre X e Y.
e) Qual a correlação entre X e Y.
f) E(X - Y) e V(X - Y)

78
Respostas

1. a) S = 1,2,3,4,5,6 b) X é uma V.A. discreta, pois assume apenas valores inteiros.

2. a) S = 2,3,4,5,6,7,8,9,10,11,12
b) Y 2 3 4 5 6 7 8 9 10 11 12
P(Y) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
c) S = 1,2,3,4,5,6
d) Z 1 2 3 4 5 6
P(Z) 1/36 3/36 5/36 7/36 9/36 11/36

3. a) Foi apresentada apenas a tabela


I) W -5 -4 -3 -2 -1 0 1 2 3 4 5
P(W) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
II) A 2 4 6 8 10 12
P(A) 1/6 1/6 1/6 1/6 1/6 1/6
III) Z 1 2 3 4 5 6 8 9 10 12 15 16 18 20 24 25 30 36
P(Z) 1/36 2/36 2/36 3/36 2/36 4/36 2/36 1/36 2/36 4/36 2/36 1/36 2/36 2/36 2/36 1/36 2/36 1/36
IV) B 1 2 3 4 5 6
P(B) 11/36 9/36 7/36 5/36 3/36 1/36

4. a) X 0 1 2 3 b)
P(X) 4/84 30/84 40/84 10/84
c.1) 74/84 c.2) 4/84 c.3) 40/84 c.4) 0
c.5) 10/84 c.6) 80/84 c.7) 1,0 c.8)1,0

5. a) 1/2 b) Gráfico c) 1/4 d) 3/4 e) 1,0

6. a) 1/4 b) Gráfico c) 1/2


7.
8. b) 3/4 c) 1/4 d) 0

9. b) 5/16 c) 11/16 d) 0

10. a) 1/12 b) Gráfico c) 1/3

11. X 600 300 0 -300 E(X) = 75,00


P(X) 2/44 14/44 21/44 7/44
12. a) 2/3 b) 1 c) 1/ 2 d) –7/3

13. a) 4/3 b) 2/9 c) 2/9 d) 2 e) –4/3 e 8/9

14. a) 3/4 b) 3/80 c) 3/80 d) 75/80 e) –15/2 e 3/20

15. a) 2 e 2 b) 8 e 8 c) 1 d) 12 e) 8 f) 1
4

17. a) 2 b) Gráfico c) 1/4 d) 2/3 e) 1/18


f) 1/18 g) 25/18 h) –23/3 e 2/9

18. a) dependentes b) V(X) = 3,36 V(Y) = 1,41 c) Cov(X,Y) = -0,66


d) rxy = -0,303 e) 164,64 3,45 6,09 1,41 17,49
79
19. a) dependentes b) V(X) = 0,24 V(Y) = 2,80 c) Cov(X,Y) = 0,0
d) rxy = 0,0 e) 31,2

20.
0 1 2 3 P(X)
0 0,000 0,024 0,048 0,071 0,143
1 0,048 0,071 0,095 0,119 0,333
2 0,095 0,119 0,143 0,167 0,524
P(Y) 0,143 0,214 0,286 0,357 1,000

b) dependentes c) V(X) = 0,522 V(Y) = 1,122 d) Cov(X,Y) = -0,136


e) rxy = -0,178 f) 3,24 e 1,37

21.
-2 0 1 P(X)
-3 0,067 0,267 0,067 0,400
-2 0,067 0,133 0,033 0,233
-1 0,100 0,067 0,200 0,367
P(Y) 0,233 0,467 0,300 1,000

b) dependentes c) V(X) = 0,766 V(Y) = 1,206 d) Cov(X,Y) = 0,061


d) rxy = 0,064 e) -1,87 e 1,85

80
Cap.4. Distribuições de probabilidade de variáveis aleatórias e intervalo de confiança

Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas práticos e aparecem
com bastante frequência. Portanto, um estudo das mesmas facilita bastante a construção dos
correspondentes modelos de probabilidade, bem como a determinação dos seus principais parâmetros.
Assim, para um dado problema, tentamos verificar se ele satisfaz às condições de algum modelo
conhecido, pois isso facilitaria muito o nosso trabalho.
As distribuições teóricas mais importantes são fáceis de manejar, são bem conhecidas e têm
demonstrado ser de grande utilidade em diferentes situações.
Aplicações:
✓ Botânicos: aplicação da distribuição Binomial na predição do resultado do enxerto de diferentes
variedades de plantas.
✓ Especialistas em controle de qualidade: utilizam a distribuição de Poisson como base para decidir
se um determinado processo de produção esta operando corretamente.
✓ Antropologistas: utilizam a distribuição normal ao com parar diferentes populações.
✓ Pesquisadores de mercado: utilizam a distribuição do Qui quadrado para determinar se há diferença
significativa entre as reações do público consumidor em relação a modificações de um determinado
produto.
✓ Agrônomos: usam a distribuição F para determinar se diferentes técnicas de cultivo têm efeito
significativo sobre a safra.
✓ Economistas: empregam a distribuição t para decidir se variações de preço têm influência
significativa na procura de determinado artigo.

81
4.1. Distribuições de variável aleatória discreta

4.1.1. Distribuição Binomial


Esta distribuição é também conhecida como sequência de Bernoulli, nome este devido a Jacques
Bernoulli, o seu criador. Foi a primeira distribuição introduzida na Estatística e é considerada a mais
importante distribuição de variável aleatória discreta. Vamos procurar caracterizar esta distribuição a partir
da seguinte situação. Considere um experimento aleatório consistindo em n tentativas independentes e a
probabilidade de ocorrer sucesso em cada uma das tentativas é sempre igual p.

Seja X = nº de sucessos nas n tentativas, então X pode assumir os valores 0, 1, 2, ..., n.


Nestas condições a v.a. X tem distribuição Binomial com parâmetros n e p, isto é:
X ~ B(n, p ) .
Um experimento é classificado como binomial, se apresenta as seguintes propriedades:
a) Há um número fixo de provas
b) Cada prova tem somente dois resultados possíveis, chamados de sucesso (p) e fracasso (q). {q = 1-p}
c) A probabilidade de sucesso é a mesma em cada prova.
d) Os resultados das provas são independentes uns dos outros.

Exemplos: Considere os seguintes experimentos aleatórios (Ei):


E1: n lançamentos de uma moeda E2: n lançamentos de um dado
o
X = n de caras que ocorreram Y = no de vezes que ocorre a face 5

O modelo binomial exige que as provas sejam independentes e p constante.


Esta distribuição é caracterizada por dois parâmetros, n e p, onde n é discreto e a constante p é um parâmetro
contínuo, ou seja, para cada combinação n e p vamos ter uma distribuição específica.

Considere que X ~ B(n, p), pode-se demonstrar que:


a) Média de X  E(X) = np
b) Variância de X  V(X) = npq, onde q = 1 – p.

i) Função de probabilidade:
Função de probabilidade X ~ B (n, p) é dada por:
n!
P( X = x ) = Cnx p x q n − x = p x qn− x , n > 0; 0 < p < 1; p + q = 1
x! ( n − x )!
P( X = x) = Cnx p x qn − x

ii) Distribuição de probabilidade


X 0 1 2 ... N Total
P(X = x i ) 0
C pq
n
0 n 1
C pq
n
1 n −1 2
C pq
n
2 n −2 ... n
C p q
n
n 0 1,00

n
Fato: ( p + q ) = C p x q n − x = 1,0
2 x
n
x =0

82
Exemplos:

1. Se 20% dos bezerros que nascem em determinada fazenda possuem um dado problema genético,
determine a probabilidade de, entre 4 bezerros nascidos, ocorrer:
a) dois com este problema genético;
b) três sem este problema;
c) no máximo 2 com esse problema.

Seja a v.a. X  nº de bezerros nascidos com problema genético.


n=4 p = 0,2 q = 1 – 0,2 = 0,8

Distribuição de probabilidade de X.
X 0 1 2 3 4 Total
P(X = x i ) 0
C pq
4
0 4
C pq1 1 3
4
2
C p q
4
2 2 3
C pq
4
3 1 4
C pq
4
4 0 1,0
0,4096 0,4096 0,1536 0,0256 0,0016

a) dois com este problema genético; P(X = 2) = 0,1536


b) três sem este problema; P(X = 1) = 0,4096
c) no máximo 2 com esse problema.
P(X  2) = P(X = 0) + P(X = 1) + P(X = 2) = 0,4096+ 0,4096+ 0,1536 = 0,9728

2. Entre 2.000 famílias com 4 crianças cada uma, quantas se esperaria que tivessem:
a) exatamente dois filhos do sexo masculino;
b) pelo menos um filho do sexo masculino.

Seja a v.a. Y  nº de filhos do sexo masculino de um casal.


n=4 p = 0,5 q = 1 – 0,5 = 0,5

Distribuição de probabilidade de Y.
Y 0 1 2 3 4 Total
P(Y = yi ) 0
C pq
4
0 4
C pq1 1 3
4
2
C p q
4
2 2 3
C pq
4
3 1 4
C pq
4
4 0

0,0625 0,2500 0,3750 0,2500 0,0625 1,0

a) exatamente dois filhos do sexo masculino;


Probabilidade de um casal ter dois filhos do sexo masc.: P(Y = 2) = 0,3750
Nº de famílias que se espera ter 2 filhos do sexo masc.:
N A = P(Y = 2)x2.000 = 0,3750x2.000 = 750 famílias

b) pelo menos um filho do sexo masculino;


Probabilidade de um casal ter pelo menos um filho do sexo masc.:
P(Y  1) = 1 − P(Y = 0) = 1 − 0,0625 = 0,9375

Nº de famílias que se espera ter pelo menos um filho do sexo masc.:


N B = P(Y  1) x2.000 = 0,9375x2.000 = 1.875 famílias

83
4.1.2. Distribuição de Poisson

É conhecida classicamente como a lei dos fenômenos raros.


Este tipo de distribuição é útil para descrever as probabilidades do número de ocorrências num
campo ou intervalo contínuo (em geral tempo ou espaço).
Alguns exemplos de variáveis que podem ter como modelo a distribuição de Poisson:
- no de defeitos por cm2
- no de acidentes por dia
- n° de chamadas erradas por hora, num circuito telefônico; etc.
Nota-se que a unidade de medida (tempo, área etc) é contínua, mas a variável aleatória (no de
ocorrências) é discreta.
Pode-se verificar também que as falhas não são contáveis.
Por ex.: não é possível contar os acidentes que não ocorreram em um dia, nem tão pouco o
número de chamadas telefônicas que não foram feitas.
A distribuição de Poisson é utilizada quando o número de observações de um experimento
aleatório é muito grande (ex: n > 50) e a probabilidade de sucesso é muito pequena (ex: p < 0,1 ) e o
termo Np permanece constante.
A distribuição de Poisson é uma forma limite da distribuição binomial, quando N tende a infinito
e p tende a zero.
A distribuição de Poisson fica completamente caracterizada por um único parâmetro, a média do
processo. Pois na distribuição de Poisson a média é igual à variância. E(X) = V(X) = m
Sabendo-se que uma v.a. tem resultados distribuídos segundo Poisson e conhecendo o número
médio de ocorrências por unidade de medida, podemos determinar a probabilidade de qualquer dos
resultados possíveis nos intervalos para os quais desejamos.

i) Função de probabilidade:

e−m m x
P( X = x ) = , em que:
x!
X = v.a.d. e x = no de sucessos
e = base dos logaritmos neperianos (e = 2,718)
m = média da distribuição, média esta sempre positiva.

84
Exemplos:

3. Num livro de 800 pg existem 800 erros.

Seja a v.a. X  erros / pg.. Logo m = 1 erro/ pg

Distribuição de probabilidade de X.
X 0 1 2 3 4 ...
P(X = x i ) −1 0
e 1 −1 1
e 1 −1 2
e 1 −1 3
e 1 −1 4
e 1 ...
0! 1! 2! 3! 4!
0,3679 0,3679 0,1839 0,0613 0,0153 ...

a) Qual a probabilidade de que numa pg contenha 3 erros de impressão.


P(X = 3) = 0,0613

b) Qual a probabilidade de que numa pg contenha pelo menos 3 erros de impressão.


P(X  3) = 1 − P(X = 0) + P(X = 1) + P(X = 2) = 1 − 0,3679+ 0,3679+ 0,1839 = 1 − 0,9197 = 0,0803
c) Estime o número mais provável de pg que não contenham erros.
P(C) = 800* P(X = 0) = 800* 0,3679 = 294,32 , ou seja, aproximadamente 294 pg.

4. Numa fazenda morrem em média 1% dos animais por ano. Considere um rebanho de 300 animais.
Seja a v.a. X  nº de animais que morrem por ano.

Logo morrem m = 3 animais / ano .

Distribuição de probabilidade de X.
X 0 1 2 3 4 ...
P(X = x i ) −3
e 3 0 −3 1
e 3 −3
e 3 2 −3
e 3 3 −3
e 3 4 ...
0! 1! 2! 3! 4!
0,0498 0,1494 0,2240 0,2240 0,1680 ...

Calcule a probabilidade de:


a) morrerem 2 animais no próximo ano? P(X = 2) = 0,2240

b) morrerem no máximo 2 animais no próximo ano?


P(X  2) = P(X = 0) + P(X = 1) + P(X = 2) = 0,0498+ 0,1494 + 0,2240 = 0,4232

c) morrerem 7 animais nos próximos 5 anos.


Seja a v.a. Y  nº de animais que morrem em 5 anos.
Logo morrem m = 15 animais / 5 anos

85
4.2. Distribuição de Variável Aleatória Contínua

4.2.1. Distribuição Normal


É uma das mais importantes distribuições de probabilidade, sendo aplicada em inúmeros
fenômenos e constantemente utilizada para o desenvolvimento teórico da inferência estatística. É também
conhecida como distribuição de Gauss, Laplace ou Laplace-Gauss.

Seja X uma v.a.c.. dizemos que X tem distribuição normal se possuir a seguinte f.d.p.:
1 ( x − )2

1 2  x2
f (x) = e , para - <  < , - < x <  e x > 0.
 x 2

( )
Notação: X ~ N  ,  2 : X tem distribuição normal com média  e variância  2 .

i) Representação gráfica:

-2 -  + +2

   → 68,27%   2 → 95,45%   3 → 99,73%

É um gráfico em forma de sino. O seu posicionamento em relação ao eixo das ordenadas e seu
achatamento vai ser determinado pelos parâmetros  e 2, respectivamente.
A função de distribuição acumulada é dada por:

1 ( x − )2

1
F( x) = P( X  x) =  f ( x)dx = 
x x 2  x2
e dx
− −
 x 2

ii) Propriedades:
P1) f(x) possui um ponto de máximo para X = .
P2) f(x) tem dois pontos de inflexão cujas abscissas valem  +  e  - .
P3) f(x) é simétrica em relação a X = . E ainda,  = Mo = Md.
P4) f(x) tende a zero quando x tende a  (assintótica em relação ao eixo X).

86
iii) Cálculo de probabilidade:
Para o cálculo da probabilidade da v.a.c. assumir um valor em determinado intervalo surgem dois
problemas:
1) Integração de f(x), pois para o seu cálculo é necessário o desenvolvimento em séries.
2) Elaboração de tabelas do tipo P(X < x) se torna inviável, pois a f.d.p. depende de dois parâmetros:  e
2, o que acarreta a necessidade do estabelecimento de todas as possíveis combinações de valores desses
parâmetros.
Estes problemas são resolvidos pela padronização dos valores, obtendo-se assim a distribuição normal
padronizada ou reduzida.

4.2.2. Variável Normal Padronizada (Z)


É obtida por meio de uma transformação linear da variável normal X, obtendo-se assim uma
escala relativa de valores na qual a média é tomada como ponto de referência e o desvio padrão como
medida de afastamento da média:
X− x−
Z= ou z= , onde;
 
z = Valor da variável normal padronizada Z; x = Valor de X;
 = Média;  = Desvio padrão.

Média e Variância da Variável Normal Padronizada


X − 1 1
i) Média: E (Z ) = E ( )= [ E ( X ) − E (  )] =
[ −  ] = 0
  
 X − 1 1 1
ii) Variância: V ( Z ) = V   = 2 V ( X −  ) = 2 [V ( X ) + V (  )] = 2 ( + 0) = 1
2

     
X−
Conclusão: Se X ~ N(, 2), e Z = , então Z ~ N(0, 1), para quaisquer valores de  e 2. Portanto,

é possível tabelar as probabilidades, P(X  x) = P(Z  z), em função dos valores de Z.
1
1 − z2
A f.d.p. da variável Z é dada por:  ( z) = e 2
, para −   z  
2

Tabela de Distribuição Normal Padrão


Há vários tipos de tabelas que nos fornecem as probabilidades sob a curva normal. A tabela que
vamos utilizar é aquela que fornece a probabilidade da variável Z assumir um valor ente zero e um
particular valor Z 0 , ou seja:

0 z0

1
dz é a área hachurada sob a curva normal  (z ) .
− z2
P(0  Z  z0 ) = 
1

z0 z0
 ( z )dz = e 2
0
2 0

87
5. Calcule:
a) P(0  Z  1,82) = 0,4656
b) P(Z  1,82) = 0,5000 + 0,4656 = 0,9656
c) P(Z  −2,03) = 0,5000 − P(Z  −2,03) = 0,5000 − 0,4788 = 0,0212
d) P(− 2,55  Z  1,20) = P(0  Z  1,20) + P(0  Z  2,55) = 0,3849 + 0,4946 = 0,8795
e) P(Z  1,93) = 0,5000 − P(0  Z  1,93) = 0,5000 − 0,4732 = 0,0268

( )
6. Se X ~ N 100, 25 , calcule:
x− 110 − 100
a) P(X  110) z 110 = = = 2,0
 5
P(X  110) = P(Z  2,0) = 0,5000 − 0,4772 = 0,0228
95 − 100 105 − 100
b) P(95  X  105) z 95 = = −1,0 e z 105 = = +1,0
5 5
P(95  X  105) = P(− 1,0  Z  1,0) = 0,3413+ 0,3413 = 0,6826
c) encontre X tal que P(X  x ) = 0,3446
se P(X  x ) = 0,3446, então P(Z  z ) = 0,3446 ;
para utilizar a tabela fazemos: 0,5000 − 0,3446 = 0,1554 , daí pela tabela tem-se que: z = −0,40
x− x − 100
como, z = , então − 0,40 =  x = 98,00
 5

7. Um rebanho com 800 bois prontos para o abate, apresenta peso médio de 16 arrobas (@) e variância de
1,96 @2. Considerando que a variável aleatória peso dos animais apresenta distribuição normal, calcule:
a) a probabilidade de um animal pesar menos que 14 @.
x−
14 − 16
P(X  14) z14 = = = −1,43
 1,4
P(X  14) = P(Z  −1,43) = 0,5000 − 0,4236 = 0,0764
b) a probabilidade de um animal pesar mais que 19 @.
x−
19 − 16
P(X  19) z19 = = = 2,14
 1,4
P(X  19) = P(Z  2,14) = 0,5000 − 0,4838 = 0,0162
c) a probabilidade de um animal pesar menos que 19 @.
x−
19 − 16
P(X  19) z19 = = = 2,14
 1,4
P(X  19) = P(Z  2,14) = 0,5000 + 0,4838 = 0,9838
d) a probabilidade de um animal pesar entre 15 @ e 17 @.
x−
15 − 16 x −  17 − 16
P(15  X  17) z15 = = = −0,71 z17 = = = +0,71
 1,4  1,4
P(15  X  17) = P(− 0,71  Z  0,71) = 0,2612 + 0,2612 = 0,5224
e) Quantos animais espera-se que pese menos de 15 @.
x−
15 − 16
P(X  15) z15 = = = −0,71
 1,4
P(X  15) = P(Z  −0,71) = 0,5000 − 0,2612 = 0,2388

N E = P(X  15)x800 = 0,2388x800  191

88
4.3. Intervalo de confiança (IC)

Trata-se de uma técnica para se fazer inferência estatística. Ou seja, a partir de um intervalo de
confiança, construído com os elementos amostrais, pode-se inferir sobre um parâmetro populacional.
O intervalo de confiança (IC) fornece um intervalo de valores, baseado na estatística amostral,
dentro do qual se espera estar contido o parâmetro da população, com uma conhecida probabilidade
(margem de erro).
Por exemplo, retira-se uma amostra de 1.000 brasileiros e calcula-se a média de suas alturas e
encontra-se 170 cm. Uma estimativa pontual da verdadeira altura média µ é dado por X = 170 cm . Já
através do intervalo de confiança poder-se-ia encontrar um intervalo, por exemplo, entre 165 e 175 cm que,
em 95% das vezes incluiria µ (a verdadeira altura média dos brasileiros). Ou seja, poder-se-ia dizer que tem
95% de probabilidade da média real da população brasileira estar entre 165 e 175 cm.

4.3.1. Intervalo de confiança para média populacional (µ) quando a variância (  2 ) é conhecida

Como se sabe, o estimador de µ é X . Também é conhecida a distribuição amostral de X para


populações infinitas.

𝜎2
Se 𝑋 ~ 𝑁 (𝜇, 𝜎 2 ), então 𝑋̅ ~ 𝑁 (𝜇, ).
𝑛
𝑛
∑ 𝑋
Sendo que 𝑋̅ = 𝑖=1 𝑖, então
𝑛
𝑥 𝑥 … + 𝑥𝑛 1 𝑛𝜎 2 𝜎2
𝑉(𝑋̅) = 𝑉 ( 1+ 2+𝑛 )= 𝑛2
(𝜎12 + 𝜎22 + 𝜎32 … 𝜎𝑛2 ) =
𝑛2
=𝑛

𝑋̅− 𝜇
Para populações infinitas, a variável padronizada de 𝑋̅ será: 𝑍 = 2
.
√𝜎
𝑛

Fixando-se um nível de confiança de 1 − 𝛼, tem-se: 𝑃 (−𝑍𝛼 ≤ 𝑍 ≤ 𝑍𝛼 ) = 1 − 𝛼.


2 2

𝑋̅−𝜇
Substituindo-se o valor de Z, então teremos 𝑃 (−𝑍𝛼 ≤ 2
≤ 𝑍𝛼 ) = 1 − 𝛼.
2 √𝜎 2
𝑛

Resolvendo-se as duas inequações para 𝝁, têm-se o intervalo de confiança para a média populacional (𝝁),
quando a variância populacional é conhecida:

𝜎2 𝜎2
𝑃 (𝑋̅ − 𝑍𝛼 √ ≤ 𝜇 ≤ 𝑋̅ + 𝑍𝛼 √ ) = 1 − 𝛼
2 𝑛 2 𝑛

Exemplo 1. O laticínio ‘vaca preta do leite branco’ empacota leite com variância de 15.000 ml 2. Uma
amostra de 200 unidades de pacotes de leite produzidos pelo laticínio teve valor médio de 1.007 ml. Deseja-
se construir um intervalo de confiança para o verdadeiro valor médio do peso dos pacotes com 90% de
confiança.

Exemplo 2. Uma fábrica produz peças cujo diâmetro apresenta variância de 5,40 cm 2. Numa amostra de
sete peças obtiveram-se as seguintes medidas: 10, 11, 11, 13, 15, 15, 16. Construa um intervalo para a
média com 95% de probabilidade.

89
4.3.2. Intervalo de confiança para proporção.

Sendo que f, o estimador de p, tem distribuição dada por:


𝑥 𝑝.𝑞
Se 𝑋 ~ 𝐵 (𝑛, 𝑝) e sendo 𝑓 = 𝑛 então 𝑓 ~ 𝑁 (𝑝, 𝑛 ).
Sendo: x o número de sucessos nas n tentativas e p a probabilidade de sucesso em cada tentativa.

Sabe-se que (considerando-se que X tem distribuição binomial com parâmetros N e p):

𝑋 𝐸[𝑋] 𝑛𝑝
𝐸[𝑓] = 𝐸 [ ] = = =𝑝
𝑛 𝑛 𝑛

𝑋 𝑉[𝑋] 𝑛.𝑝.𝑞 𝑝.𝑞


𝑉[𝑓] = 𝑉 [𝑛] = 𝑛2
= 𝑛2
= 𝑛

Para populações infinitas, a variável padronizada de f será:


𝑓− 𝑝
𝑍= 𝑝.𝑞
√𝑛

Fixando-se um nível de confiança de 1 − 𝛼, tem-se: 𝑃 (−𝑍𝛼 ≤ 𝑍 ≤ 𝑍𝛼 ) = 1 − 𝛼


2 2

Substituindo-se o valor de Z,
𝑓−𝑝
𝑃 (−𝑍𝛼 ≤ 𝑝.𝑞
≤ 𝑍𝛼 ) = 1 − 𝛼
2 √𝑛 2

Resolvendo-se as duas inequações para p, têm-se o intervalo de confiança para a proporção:

𝑝. 𝑞 𝑝. 𝑞
𝑃 (𝑓 − 𝑍𝛼 . √ ≤ 𝑝 ≤ 𝑓 + 𝑍𝛼 . √ )=1−𝛼
2 𝑛 2 𝑛

Para amostras grandes (n > 50) pode-se substituir o p da raiz por f. Assim o IC para proporção será:

𝑓. (1 − 𝑓) 𝑓. (1 − 𝑓)
𝑃 (𝑓 − 𝑍𝛼 . √ ≤ 𝑝 ≤ 𝑓 + 𝑍𝛼 . √ )=1−𝛼
2 𝑛 2 𝑛

Exemplo 1. Numa amostra de 200 itens, escolhidos ao acaso, das peças fabricadas por uma firma revelou
que 14 itens estavam fora de especificação. Construa um intervalo de confiança para a proporção referida
com 92% de confiança.

Exemplo 2. Numa pesquisa eleitoral foram entrevistados 1.000 eleitores, desses 350 disseram que irão
votar em Maria Jurema. Qual o IC para a intenção de votos em Maria Jurema com 95% de probabilidade.

Exemplo 3. Numa pesquisa eleitoral foram entrevistados 2.000 eleitores, desses 700 disseram que irão
votar em Maria Jurema. Qual o IC para a intenção de votos em Maria Jurema com 95% de probabilidade.

90
4.4. Exercícios: Distribuições de Varáveis Aleatórias e intervalo de confiança

Distribuição Binomial

1. Determine a probabilidade de que, em 5 lançamentos de um dado, apareça a face 3:


a) duas vezes;
b) no máximo uma vez; e
c) ao menos duas vezes.

2. Sabe-se que 24% dos indivíduos que recebem o medicamento X sofrem certos efeitos colaterais. Se o
medicamento X for ministrado a 4 pacientes, qual a probabilidade de que:
a) nenhum sofra efeitos colaterais,
b) pelo menos um sofra efeitos colaterais, e
c) três não sofram feitos colaterais.

3. Em um cruzamento de galináceos obteve-se uma ninhada com 12 pintinhos. Determine as seguintes


probabilidades:
a) dos 12 pintinhos serem do sexo masculino;
b) de todos possuírem o mesmo sexo;
c) de ocorrer 6 fêmeas; e
d) de ocorrer pelo menos 2 fêmeas.

4. Uma firma determina o sexo de pintos de um dia com 95% de probabilidade.


a) Se comprarmos cinco pintinhos tidos como do sexo feminino, qual a probabilidade de que pelo menos
um seja macho?
b) Quantos machos esperam-se encontrar num lote de 500 pintinhos tidos como do sexo feminino?

5. Numa prova de múltipla escolha, com 10 questões, cada uma com cinco alternativas e somente uma
correta, pede-se:
a) quantas questões acerta em média um aluno que marca todas as questões inteiramente ao acaso?
b) qual a probabilidade dele acertar 5 questões?

6. Num teste do tipo certo-errado, com 100 questões, qual a probabilidade de um aluno, respondendo as
questões ao acaso, acertar 70% das questões?

7. Se X ~ B (16;0,75) determine:
a) a média de X;
b) a variância de X; e
c) se Z = ( X − 12) / 3 , calcule E(Z) e V(Z).

8. Um determinado artigo é vendido em caixas a 8 u.m. por caixa. Sabe-se que 20% dos artigos vendidos
apresentam algum defeito de fabricação. Um comprador faz a seguinte proposta: pede para poder amostrar,
ao acaso, 10 artigos por caixa. Ele pagará, por caixa, 10 u.m. se nenhum dos artigos amostrados for
defeituoso; 5 u.m. se 1 ou 2 artigos amostrados forem defeituosos e 4 u.m. se 3 ou mais artigos da amostra
forem defeituosos.
O que é mais lucrativo para o vendedor, manter o seu preço de 8 u.m. por caixa ou aceitar a proposta
do comprador? Mostre porquê. (Sugestão: considere a variável aleatória X = número de artigos defeituosos,
com distribuição binomial, utilize também a variável Y = valor pago por caixa).

91
9. O nanismo, anomalia genética autossômica recessiva (nn), é indesejável na bovinocultura. Uma vaca
heterozigota (Nn), será cruzada com um touro normal e heterozigoto (Nn). Sabe-se que um indivíduo
descendente deste cruzamento tem ¾ de probabilidade de ser normal e ¼ de ser nanico. Considerando que
deste cruzamento serão gerados 5 descendentes. Determine as seguintes probabilidades:
a) dos 5 bezerros serem normais;
b) de exatamente 4 bezerros serem nanicos;
c) de todos os bezerros serem nanicos; e
d) ao menos 4 bezerros serem normais.

Distribuição de Poisson

10. Um processo de produção de fitas magnéticas produz, em média, fitas com 1 defeito a cada 200m de
rolo. Qual a probabilidade de que:
a) em 500m de fita não ocorra nenhum defeito?
b) em 800m de fita ocorram pelo menos 3 defeitos?

11. A experiência mostra de que cada 400 lâmpadas, 2 se queimam ao serem ligadas. Qual a probabilidade
de que numa instalação de:
a) 600 lâmpadas, no mínimo 3 se queimem?
b) 900 lâmpadas, exatamente 8 se queimem?

12. Na pintura de parede aparecem defeitos na proporção média de um defeito por metro quadrado. Qual a
probabilidade de aparecerem 3 defeitos numa parede de 2 x 2m?

13. Numa central telefônica são atendidas 300 chamadas por hora. Qual a probabilidade de:
a) serem atendidas 2 chamadas num período de 2 minutos?
b) em t minutos, não ocorrerem chamadas telefônicas?

14. Estima-se em 1% a proporção de canhotos numa população. Qual a probabilidade de termos pelo menos
um canhoto numa classe de 30 alunos?

15. Estima-se em 3% a proporção de animais que morrem numa fazenda no período de um ano. Numa
propriedade com 200 animais, qual a probabilidade de morrerem 2 no próximo ano?

16. Seja X o número de animais não imunizados numa vacinação contra febre aftosa, onde a probabilidade
de não imunização é 0,001. De 5.000 animais vacinados, qual a probabilidade de não ficarem imunes:
a) um animal; e
b) pelo menos um animal.

17. Na fabricação de peças de determinado tecido aparecem defeitos ao acaso, um a cada 250m.
a) Qual a probabilidade de que não haja defeitos na produção de 1000m de tecido?
b) Se a produção diária é de 625m, num período de 80 dias de trabalho, em quantos desses dias poderemos
esperar uma produção diária na qual não haja defeitos?

92
Distribuição Normal

18. Calcule: (Z – variável normal padronizada).


a) P ( Z  1,70) d) P ( −1  Z  2)
b) P( Z  −1,63) e) P(1,00  Z  2,55)
c) P( Z  −1,02) f) P ( Z  1,93)

19. X é uma v.a.c. tal que X ~ N (12,25) . Qual a probabilidade de uma observação ao acaso ser menor
que -2,5?

20. As notas de uma prova são normalmente distribuídas com média 73 e variância 225. Os 15% melhores
alunos recebem o conceito A e os 11,9% piores alunos recebem o conceito R. Pede-se:
a) nota mínima para receber A?
b) nota mínima para ser aprovado?
c) P ( X  55,3)

21. A observação dos pesos X, de um grande número de espigas de milho, mostrou que essa variável é
normalmente distribuída com média 120g e desvio padrão 10g. Num programa de melhoramento genético
da cultura do milho, entre outras características, uma linhagem deve satisfazer à condição 112 < X < 140.
Num programa envolvendo 450 linhagens, qual deve ser o número provável de linhagens que atende à essa
condição?

22. Sabe-se que o peso médio, em arrobas, de abate de bovinos é normalmente distribuído com média 18 e
variância 2,25. Um lote de 5000 cabeças, com essa característica, foi destinada a um frigorífico que abate
só a partir de um peso mínimo W. Sabendo-se que foram abatidos 4200 animais, pede-se:
a) qual o valor de W?
b) o número esperado de bovinos com peso entre 17 e 19 arrobas?

23. Um pesquisador decidiu que, para facilitar a classificação das aves em um experimento de nutrição,
deve-se dividir as poedeiras, no inicio da postura, em três grupos de peso equiprováveis, a saber: poedeiras
pesadas, poedeiras médias e poedeiras leves. Encontre os pesos correspondentes a cada classe, sabendo-se
que o peso médio das aves nessa idade é 1,5 kg, com desvio padrão de 0,170 kg (supor distribuição normal).

24. Em uma distribuição normal 28% dos elementos são superiores a 34 e 12% dos elementos são inferiores
a 19. Encontrar a média e a variância da distribuição.

25. Suponha que X a carga de ruptura de um cabo (kg), tenha distribuição N(100, 16). Cada rolo de 100m
de cabo dá um lucro de 25 u.m., desde que X > 95. Se X  95 , o cabo poderá ser utilizado para uma
finalidade diferente, a um lucro de 10 u.m. por rolo. Determine o lucro esperado por rolo.

93
Intervalo de Confiança

26. Numa amostra de 10 motores de carro de determinado modelo esses duraram 150.000 km. A variância
da duração dos motores desse modelo informados pela fabricante é de 160.000.000 km2. Construa um
intervalo de confiança para a durabilidade dos motores desse modelo com 90% de confiança.

27. O tempo para transmitir 10 MB em determinada rede de computadores varia segundo um modelo
normal, com média 7,4 seg e variância 1,3 seg². Depois de algumas mudanças na rede acredita-se numa
redução no tempo de transmissão de dados, porém não deverá ocorrer alteração na variabilidade. Foram
realizados oito ensaios independentes com um arquivo de 10 MB e foram anotados os tempos de
transmissão, em segundos: 6,8 7,1 5,9 7,5 6,3 6,9 7,2 7,5. Construa um intervalo de confiança para o
tempo de transmissão de dados com 99% de confiança.

28. Suponha que X represente a duração da vida de uma peça de equipamento. Admita-se que 100 peças
sejam ensaiadas, fornecendo uma duração de vida média de 30 horas. Suponha-se que a variância seja
conhecido e igual a 81 horas, e que se deseje obter um intervalo de confiança de 95% para a média.

29. Na indústria cerâmica, avalia-se sistematicamente a resistência de amostras de massas cerâmicas, após
o processo de queima. Dessas avaliações, sabe-se que certo tipo de massa tem resistência mecânica
aproximadamente normal, com média 53 MPa e variância 90 MPa². Após a troca de alguns fornecedores
de matérias-primas, deseja-se verificar se houve alteração na qualidade. Uma amostra de 15 corpos de prova
de massa cerâmica acusou média igual a 50 MPa. Construa um IC para essa nova média considerando uma
confiança de 98%.

30. Examinadas 500 peças de uma produção, encontrou-se 260 defeituosas. Construir um intervalo de
confiança a 90% para a verdadeira proporção de peças defeituosas.

31. Um teste realizado com 280 pessoas consistia em “adivinhar” em qual das mãos (ambas fechadas) do
pesquisador estava uma moeda. Em 44% das tentativas a identificação foi correta da mão selecionada.
Construir um intervalo de confiança a 94% para a verdadeira proporção de acertos.

32. Um pesquisador avaliou uma amostra de 3.200 recém-nascidos vivos e verificou que 880 apresentavam
icterícia. Construa um intervalo de confiança para a proporção observada pelo pesquisador com 94% de
confiança.

33. Foram encontrados 68 mosquito no lago azul da espécie Aedes detritus numa amostra de 80. Construa
um intervalo de confiança para a proporção observada pelo pesquisador com 92% de confiança.

94
Exercícios complementares

34. Quantas vezes se deverão jogar um dado para que se tenha a probabilidade igual a 0,5 de ocorrer à face
3, pelo menos uma vez?

35. Em bovinos o fenótipo mocho é devido a um alelo dominante (MM e Mm), o alelo recessivo confere o
fenótipo chifrudo (mm). Um touro mocho foi cruzado com 10 vacas sabidamente heterozigotas (Mm) e
todos os descendentes foram mochos. Qual a probabilidade do touro ser homozigoto?

36. O nanismo, anomalia genética autossômica recessiva (nn), é indesejável na bovinocultura. Um


pecuarista, que possui vacas heterozigotas (Nn), comprou um touro normal e deseja saber se este é
homozigoto (NN) ou heterozigoto (Nn). Quantos descendentes deverão ser gerados para se ter uma certeza
de 99% do genótipo do touro?

37. Se X ~ N (3,4) encontre um valor de X tal que: P( X  x) = 2 P ( X  x)

38. O peso médio de um cigarro é a soma dos pesos do papel e do fumo, e vale em média 1,200g com
 = 0,060g . O peso médio do papel é 0,040g com  = 0,020g . Os cigarros são feitos em uma máquina
automática que pesa o fumo a ser colocado no cigarro, coloca o papel e enrola o cigarro. (Obs. Cigarro e
papel são independentes).
a) Determine o peso médio do fumo em cada cigarro e o desvio padrão.
b) Qual a probabilidade de que um cigarro tenha menos de 1,130g de fumo?

39. Numa indústria a montagem de um certo item é feita em duas etapas. Os tempos necessários para cada
etapa são independentes e têm as seguintes distribuições:
X 1 ~ N (75s,21s 2 ), tempo da 1ª etapa // X 2 ~ N (125s,100s 2 ), tempo da 2ª etapa.
Qual a probabilidade de que sejam necessários, para montar a peça:
a) mais de 210seg?
b) menos de 180seg?

95
Respostas

1. a) 0,1608 b) 0,8038 c) 0,1962


2. a) 0,3336 b) 0,6664 c) 0,4214
3. a) 1/4096 b) 1/2048 c) 924/4096 d) 4083/4096
4. a) 0,2262 b) 25
5. a) 2 b) 0,0264
6. C100 (0,5)  2,32x10−5
70 100

7. a) 12 b) 3 c) E(Z) = 0 e V(Z) = 1
8. E(Y) = 5,2148 u.m., portanto é melhor manter o preço de 8 u.m.
9. a) 0,2373 b) 0,0146 c) 0,0010 d) 0,6328
10. a) 0,0821 b) 0,7619
11. a) 0,5768 b) 0,0463
12. 0,1954
13. a) 0,0023 b) e-5t
14. 0,2592
15. 0,0446
16. a) 0,0337 b) 99,33%
17. a) 0,0183 b) 6,567
18. a) 0,9554 b) 0,0516 c) 0,8461 d) 0,8185 e) 0,1533 f) 0,0268
19. 0,0019
20. a) 88,6 b) 55,3 c) 0,8810
21. 345
22. a) 16,5075 b) 2.475
23. Leves < 1,427 // Médias 1,427 < X < 1,573 // Pesadas > 1,573
24.  = 29,014 e  = 72,637
2

25. E(Y) = 23,4152 u.m.


26. 𝑃(143.440 < µ < 156.560) = 0,90
27. 𝑃(5,97 < µ < 7,83) = 0,99
28. 𝑃(28,24 < µ < 31,76) = 0,95
29. 𝑃(44,29 < µ < 55,71) = 0,98
30. 𝑃( 0,483 < 𝑝 < 0,557 ) = 0,90
31. 𝑃( 0,384 < 𝑝 < 0,496 ) = 0,94
32. 𝑃( 0,260 < 𝑝 < 0,290 ) = 0,94
33. 𝑃( 0,780 < 𝑝 < 0,920) = 0,92
34. 4 vezes
35. 94,37%
36. 16
37. 3,86
38. a) 1,160g e 0,0566g b) 0,3175
39. a) 0,1816 b) 0,0345

96
Cap. 5 - Bibliografia Consultada

BUSSAB, W. O.; MORETTIN, P. A.. Estatística Básica: Métodos Quantitativos. Atual, São Paulo, SP,
4ª ed., 1987, 321 p.

FERREIRA, R. S. Matemática aplicada às ciências agrárias. Ed. UFV, Viçosa, 1999. 333 p.

FONSECA, J. S. e MARTINS, G. A. Curso de estatística. Atlas, São Paulo, 6a ed., 1996. 320 p.

GOMES, F. P. Curso de Estatística Experimental. Nobel, São Paulo, SP, 11a ed., 1985. 466 p.

LEVINE, D. M.; BERENSON, M. L.; STEPHAN, D. (Tradução: SOUZA, T. C. P.). Estatística: Teoria e
Aplicações. Usando Microsoft Excel em português. LTC, 1ª ed., 2000, 811 p.

LIPSCHUTZ, S. Probabilidade. Makron Books, São Paulo, 4a ed., 1993. 261 p.

MEYER, P. L.. Probabilidade: Aplicações à Estatística. LTC, Rio de Janeiro, RJ, 2ª ed., 1983. 425 p.

RIBEIRO Jr., J. I. Análises Estatísticas no SAEG. Viçosa, MG: UFV, 2001. 301p.

SAMPAIO, I. B. M. Estatística Aplicada à Experimentação Animal. Fund. de Ens. e Pesq. em Med. Vet.
e Zoot., Belo Horizonte, 1998.

SPIEGEL, M. R. (Tradução: COSENTINO, P.; LUCENA, C. J. P.). Estatística Básica. McGraw-Hill do


Brasil, São Paulo, SP, 1974. 580 p.

TOLEDO, G. L.; OVALLE, I. I.. Estatística Básica. Atlas, São Paulo, SP, 2ª ed., 1995. 457 p.

FARIAS, A. A.; SOARES, J.; CÉSAR, C. C. Introdução a Estatística. LTC, 2ª ed., 2003. 340 p

97
Tabela 1 – Áreas de uma distribuição normal padrão. Cada casa na tabela dá a proporção sob a curva inteira entre Z = 0 e um valor positivo z 0 . As áreas para os valores de Z
negativos são obtidos por simetria
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990

98

Você também pode gostar