Escolar Documentos
Profissional Documentos
Cultura Documentos
Sumário
3 Somatório 22
3.1 Propriedades do Somatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Operações com o Somatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
II Estatı́stica Descritiva 28
5 Medidas de Tendência Central ou Posição Central 29
5.1 Média aritmética ou simplesmente média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.4 Diferenças entre média, moda e mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.5 Propriedades da média aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.6 Exemplo de aplicação em saúde pública . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6 Medidas de Dispersão 37
6.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.2 Desvio médio absoluto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4 Desvio padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.5 Coeficiente de variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.6 Propriedades da variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.7 Exemplo de aplicação na indústria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7.17.3 Decil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7.17.4 Percentil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.18 Medidas de assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.18.1 Primeiro coeficiente de assimetria de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.18.2 Segundo coeficiente de assimetria de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.18.3 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.18.4 Coeficiente de assimetria via método dos momentos . . . . . . . . . . . . . . . . . . . . . . . 61
7.19 Medidas de curtose ou achatamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
7.19.1 Coeficiente percentı́lico de curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
7.20 Coeficiente de curtose via métodos dos momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
10 Probabilidades 78
10.1 Partição do espaço amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
10.2 Teorema da probabilidade total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
10.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
35 Testes de hipótese para a diferença de duas médias populacionais assumindo variâncias co-
nhecidas 237
35.1 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
35.2 Construção do teste e formulação da hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
36 Testes de hipótese para a diferença de duas médias populacionais assumindo variâncias des-
conhecidas 239
36.1 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
36.2 Construção do teste e formulação da hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
36.3 Exemplo 1: Aplicações em estudos ambientais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
36.4 Exemplo 2: Aplicações em estudos de comparação de rendimento acadêmico. . . . . . . . . . . . . . 242
36.5 Exemplo 3: Aplicações no comércio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
Universidade Federal do Oeste da Bahia
Centro das Ciências Exatas e das Tecnologias Prof. Dr. Marcelo de Paula
Parte I
Introdução e Conceitos Básicos
1 Introdução
A estatı́stica descritiva é um ramo da Ciência Estatı́stica que aplica inúmeras técnicas para descrever e
sumarizar um conjunto de dados, seja amostra ou população. Esta diferencia-se da estatı́stica inferencial, pois seu
objetivo é coletar, organizar, resumir, analisar e interpretar os dados sem que haja um aprendizado ou conclusões
indutivas sobre a população. Este fato faz da estatı́stica descritiva independente dos outros ramos. A apresentação
tabular e gráfica é usualmente adotada para o tratamento descritivo dos dados.
Neste material didático fazemos um breve relato histórico do desenvolvimento da Ciência Estatı́stica, em
seguida abordamos o operador somatório e sua extrema importância para o desenvolvimento deste estudo, apre-
sentamos as medidas de tendência central e as medidas de dispersão. Além de propiciar um primeiro contato com
a Estatı́stica, esta primeira parte deste material didático tem como pretensão dar um suporte básico e necessário
para o prosseguimento dos estudos em Inferência Estatı́stica.
A estatı́stica é um ramo do conhecimento humano (área da matemática) que surgiu da necessidade de mani-
pulação dos dados coletados, e da necessidade de extrair informações de interesse dos mesmos. A palavra estatı́stica
deriva da expressão status, em latim, e significa o estudo do estado, em virtude das coletas de dados na antiguidade
terem se constituı́do essencialmente de levantamentos promovidos pelo Estado. Particularmente na Roma antiga,
tais levantamentos buscavam o registro de todos os indivı́duos de alguma camada social da sociedade, bem como o
inventário de suas propriedades, com a finalidade de determinar como e quem deveria ser taxado e convocado ao
serviço militar.
Esses levantamentos extensivos eram chamados censos, sendo promovidos por um magistrado chamado censor,
cargo esse criado em 443 A.C. Posteriormente, o cargo passou a compreender outras funções, como a supervisão
moral dos cidadãos (daı́ decorrendo, igualmente, palavra censura).
Com o desenvolvimento do conceito de método cientı́fico a partir do século XVI, a estatı́stica viria a desempe-
nhar um papel fundamental na ciência, por possibilitar um tratamento formal de dados experimentais. Foi pensada
pelos ingleses, no século XVI, como uma ciência polı́tica, destinada a descrever caracterı́sticas de um estado ou
paı́s, tais como população, área, riqueza e recursos naturais, envolvendo compilações de dados e gráficos.
Em 1662, John Graunt1 publicou informes estatı́sticos sobre nascimentos e mortes. A partir daı́ deu-se inı́cio
ao desenvolvimento da probabilidade e estatı́stica, sobretudo a partir do século XVII, com o estudo das grandes
epidemias que assolavam o mundo, dando ensejo ao desenvolvimento da demografia. Em cada século seguinte mais
e mais áreas foram se incorporando ao conjunto das que faziam uso da estatı́stica.
O conceito de probabilidade, gradualmente desenvolvido a partir do século seguinte, fez surgir a noção de que
as informações obtidas em amostras poderiam ser generalizadas para a totalidade de uma população.
Assim, o alto custo despendido na realização de censos poderia agora ser reduzido em muito, promovendo
uma verdadeira “explosão” quanto ao uso de técnicas estatı́sticas nas décadas seguintes.
A partir de 1925, com os trabalhos de R.A. Fisher2 , a estatı́stica iniciou-se como método cientı́fico, então, o
trabalho do estatı́stico passou a ser o de ajudar a planejar experimentos, interpretar e analisar os dados experimen-
tais e apresentar os resultados de maneira a facilitar a tomada de decisões razoáveis, embora os trabalhos pioneiros
de Gauss no fim do século anterior e dos trabalhos de Gosset3 de 1908, publicados com o pseudônimo de Student,
foram de extrema importância.
Em 1936, o sociólogo americano George Gallup4 inaugurou a prática da pesquisa de intenção de voto pela
qual uma amostra representativa da população (considerando diferentes nı́veis de escolaridade, renda, idade) era
entrevistada. A prática ganhou enorme popularidade a partir daquele ano, uma vez que as projeções da pesquisa
foram confirmadas nas urnas.
Na última década, com a grande revolução da informática, houve um avanço significativo das áreas de proba-
bilidade e estatı́stica, com o desenvolvimento de softwares mais poderosos, deixando à disposição do pesquisador
muitas ferramentas alternativas ao seu trabalho.
1 John Graunt, nascido em 24 de abril de 1620 em Londres, e falecido em 18 de abril de 1674 na mesma cidade. Foi um cientista e
demógrafo britânico, precursor na construção de Tábuas de Mortalidade. Esta obra continha um rudimento de tábua de vida, obtida
por meio de dados sobre enterros em Londres.
2 Sir Ronald Aylmer Fisher, membro da Royal Society (FRS), nascido em 17 de fevereiro de 1890 na cidade de Londres, e falecido
em 29 de julho de 1962 na cidade de Adelaide, Austrália. Foi um estatı́stico, biólogo evolutivo e geneticista inglês.
3 William Sealy Gosset, nascido em 13 de Junho de 1876 e falecido em 16 de Outubro de 1937. Foi um quı́mico e matemático inglês,
mais conhecido pelo pseudónimo Student e pelo seu trabalho na distribuição t-Student.
4 George Horace Gallup, nascido em 18 de novembro de 1901 e falecido em 26 de julho de 1984. Foi um estatı́stico estado-unidense,
inventor do sistema de Pesquisa Gallup de sucesso, um método de pesquisa de amostras estatı́sticas de medição da opinião pública.
Para darmos inı́cio aos estudos e nos aprofundarmos nos conteúdos dos próximos Capı́tulos deste livro, é
necessário abordarmos alguns conceitos básicos em estatı́stica, conforme a seguir.
Ciência Estatı́stica: Ciência voltada à coleta, organização, resumo, análise e interpretação dos dados.
Censo: Atividade de inspeção de todos os elementos de uma população, em relação a uma ou mais variáveis
descritoras.
Parâmetro: É uma medida numérica qualquer calculada para descrever uma determinada caracterı́stica de
toda uma população. O parâmetro é sempre populacional.
Amostra: Subconjunto ou parte da população, cujos elementos são avaliados utilizando uma ou mais
variáveis descritoras. O processo de generalização da informação contida na amostra para a totalidade de
uma população é chamada de inferência estatı́stica.
Amostragem: Processo de obtenção de amostra(s).
Estatı́sticas: são medidas numéricas quaisquer calculadas para descrever caracterı́sticas de uma amostra.
Estatı́stica descritiva: Parte da Ciência Estatı́stica que tem como objetivo descrever populações ou amos-
tras. Em geral se refere à maneira de apresentar um conjunto de dados resumindo as suas informações em
algumas medidas descritivas. Tal resumo pode ser representado em tabelas e gráficos.
Inferência estatı́stica: É a parte da Ciência Estatı́stica que baseia-se na teoria das probabilidades para
estabelecer conclusões sobre todo uma população, quando se observou apenas uma parte (amostra) desta
população. Em outras palavras, é a extrapolação dos dados observados segundo certos critérios.
É necessário destacar que a Estatı́stica é uma Ciência por si só. No entanto, trata-se de uma ferramenta para
os pesquisadores das outras áreas do saber. Neste contexto, para que ela seja bem utilizada é necessário conhecer
os seus fundamentos básicos, bem como e os seus princı́pios e raciocı́nios.
Além disso, é fundamental que os pesquisadores de todas as áreas tenham a possibilidade de desenvolver um
espı́rito crı́tico acerca de sua pesquisa empreendida.
As mais diversas áreas aplicam diretamente o uso da estatı́stica, dentre elas destacamos:
Demografia: A Demografia é uma área da ciência geográfica que estuda a dinâmica populacional humana
e seu objeto de estudo engloba as dimensões, estrutura e distribuição das diversas populações humanas. Tais
distribuições não são estáticas, variando devido à natalidade, mortalidade, migrações e envelhecimento. Em linhas
gerais é responsável pelo estudo sobre fenômenos populacionais, sociais e ambientais, estudo sobre o crescimento
ou decrescimento populacional. A análise demográfica centra-se também nas caracterı́sticas de toda uma sociedade
ou um grupo especı́fico, definido por critérios como a Educação, a nacionalidade, religião e etnia.
Ecologia: A Ecologia é a ciência que estuda o meio ambiente e os seres vivos que vivem nele, ou seja, é o
estudo cientı́fico da distribuição e abundância dos seres vivos e das interações que determinam a sua distribuição.
Tais interações podem ser entre seres vivos e/ou com o meio ambiente. Dentre várias técnicas estatı́sticas adotadas
pela ecologia destacamos a estimação de tamanho populacional e o estudo da dinâmica de populações.
Economia: É a ciência que consiste na análise da produção, distribuição e consumo de bens e serviços. A
economia utiliza um conjunto de ferramentas estatı́sticas, denominado econometria, com o objetivo de entender a
relação entre variáveis econômicas por meio da aplicação de um modelo matemático. Outro exemplo é o estudo
sobre a evolução ou previsão da inflação ou rendimento da bolsa de valores ao longo do tempo, por meio de modelos
de previsão para séries temporais.
Indústria: Para garantir a qualidade total dos produtos e serviços, as indústrias adotam o Controle Es-
tatı́stico de Processos (CEP), que é uma ferramenta do chamado Sistema da Qualidade Total, utilizada nos
processos produtivos (e de serviços) com objetivo de fornecer informações para um diagnóstico mais eficaz na
prevenção e detecção de defeitos/problemas nos processos avaliados e, consequentemente, auxilia no aumento da
produtividade/resultados da empresa, evitando desperdı́cios de matéria-prima, insumos e produtos.
Engenharia: A teoria da confiabilidade de sistemas é amplamente adotada nas engenharias, pois trata-se do
estudo confiabilidade de sistemas durante o seu ciclo de vida que, por meio da abordagem estatı́stica, é modelado
por uma distribuição de probabilidade de falhas, tempo de parada, custos associados em manutenção e perda de
produção, por exemplo. A teoria da confiabilidade também estuda o tempo de garantia de um produto.
Medicina: A estatı́stica está presente no estudo do tempo de vida de pacientes com uma determinada
doença, na comparação da eficácia de tratamentos distintos, ou ainda no protocolo de estudos e utilização de um
novo medicamento na população.
Meteorologia: A meteorologia é uma das ciências que estudam a atmosfera terrestre, que tem como foco
o estudo dos processos atmosféricos e a previsão do tempo. Estuda os fenômenos que ocorrem na atmosfera e
as interações entre seus estados dinâmicos, fı́sico e quı́mico, com a superfı́cie terrestre subjacente. As primeiras
previsões numéricas do tempo tornaram-se possı́veis com o desenvolvimento de modelos matemático-meteorológicos
no inı́cio do século XX. A invenção do computador e da Internet tornou mais rápido e mais eficaz o processamento
e o intercâmbio de dados meteorológicos, proporcionando assim um maior entendimento dos eventos meteorológicos
e suas variáveis e, conseqüentemente, tornou possı́vel uma maior precisão na previsão de temperaturas e chuvas.
Polı́tica: A pesquisa de intenção de votos num perı́odo de eleição é uma das mais usadas técnicas estatı́sticas
na polı́tica. Por meio da amostragem de eleitores realiza-se a pesquisa que irá ser utilizada para encontrar uma
estimativa percentual de votos para cada um dos candidatos. Além disso, é possı́vel monitorar a popularidade de
um determinado candidato.
Variáveis são caracterı́sticas da população, comuns a todos os indivı́duos, mas que variam de um indivı́duo
para outro ou no mesmo indivı́duo ao longo do tempo. Em estatı́stica, as variáveis podem ser classificadas em dois
grandes grupos:
Variáveis qualitativas (ou também denominadas de variáveis categóricas): São variáveis cujos dados
são obtidos por meio de classificação em categorias. Não faz sentido mensurá-las, ou seja, atribuir valores
numéricos no indivı́duo. Nesse grupo há dois subgrupos denominados de nominais e ordinais.
Variáveis quantitativas (ou também denominadas de variáveis numéricas): São variáveis cujos dados
são obtidos por meio de mensurações (contagem ou medição). Nesse grupo há dois subgrupos denominados
de discretas e contı́nuas.
As variáveis qualitativas nominais são variáveis em que atribuem-se um nome, qualidade ou categoria. Alguns
exemplos são:
Cor de olho dos indivı́duos de uma comunidade;
Sabor dos alimentos produzidos por uma indústria alimentı́cia;
Sexo biológico dos estudantes de uma grande Universidade;
Etnia dos turistas que visitam anualmente a cidade de Nova Iorque;
Grupo sanguı́neo de doadores de um grande banco de sangue;
Espécie de animais do Cerrado Baiano;
Estações do ano no Hemisfério Norte;
Religião dos moradores do municı́pio de São Paulo;
Estado civil dos indivı́duos adultos que usam o sistema público de saúde;
Naturalidade dos pacientes atendidos em um grande hospital estadual, etc.
A fim de ilustrar uma representação gráfica das variáveis qualitativas nominais, considere os dados dos
estudantes de graduação da UFOB apresentados na Tabela (1), no que diz respeito a variável qualitativa nominal
“sexo biológico”.
Tabela 1: Sexo biológico dos estudantes de graduação da UFOB (Base de Dados SIGAA em 16 de Julho de 2019).
Números absolutos Números Percentuais
Centro Multidisciplinar Masculino Feminino Total Masculino Feminino Total
CCBS 293 608 901 32,5% 67,5% 100%
CCET 571 384 955 59,8% 40,2% 100%
CEHU 321 525 846 37,9% 62,1% 100%
BARRA 177 231 408 43,4% 56,6% 100%
LAPA 231 94 325 71,1% 28,9% 100%
LEM 80 128 208 38,5% 61,5% 100%
SAMAVI 82 170 252 32,5% 67,5% 100%
UFOB 1755 2140 3895 45,06% 54,94% 100%
Fonte: “Perfil dos Estudantes de Graduação da UFOB - Um Retrato dos 3895 Estudantes
Ativos no SIGAA” - Relatório elaborado pela Coordenadoria de Estatı́stica, CEST/PROGRAF
Base de Dados SIGAA em 16 de Julho de 2019.
A partir dos dados expressos na Tabela (1), apresentamos a representação gráfica da variável qualitativa
nominal “sexo biológico”, conforme a Figura (2).
Figura 2: Sexo biológico dos estudantes de graduação ingressantes na UFOB entre 2014 e 2019.
Considere agora os dados dos estudantes de graduação da UFOB apresentados na Tabela (2), no que diz
respeito a variável qualitativa nominal “modalidade do curso”, por ano de entrada.
Tabela 2: Modalidade do curso dos estudantes de graduação da UFOB, por cada ano entrada.
(Base de Dados SIGAA em 16 de Julho de 2019)
Quantitativo absoluto Quantitativo percentual
Ano de Entrada Bacharelado Licenciatura Total Bacharelado Licenciatura Total
2014 394 28 422 93, 4% 6, 6% 100, 0%
2015 736 132 868 84, 8% 15, 2% 100, 0%
2016 818 131 949 86, 2% 13, 8% 100, 0%
2017 863 126 989 87, 3% 12, 7% 100, 0%
2018 909 118 1027 88, 5% 11, 5% 100, 0%
2019 901 134 1035 87, 1% 12, 9% 100, 0%
A partir dos dados expressos na Tabela (2), apresentamos a representação gráfica da variável qualitativa
nominal “modalidade do curso”, conforme a Figura (3).
Figura 3: Modalidade do curso de graduação dos estudantes ingressantes na UFOB entre 2014 e 2019.
Como terceiro exemplo, considere os dados dos estudantes de graduação da UFOB apresentados na Tabela
(3), no que diz respeito a variável qualitativa nominal “naturalidade dos estudantes”, por ano de entrada.
A partir dos dados expressos na Tabela (3), apresentamos a representação gráfica da variável qualitativa
nominal “modalidade do curso” por meio da divisão em duas categorias: “natural da Bahia” e “natural de outro
Estado”, conforme ilustrado na Figura (4).
Figura 4: Naturalidade dos estudantes de graduação ingressantes na UFOB entre 2014 e 2019.
As variáveis qualitativas ordinais são variáveis nominais em que atribuem-se uma ordem. Alguns exemplos
são:
Gravidade de uma doença (estado inicial, intermediário, avançado ou terminal);
Infração de trânsito (leve, moderada, grave ou gravı́ssima);
Classificação em um concurso público (primeiro lugar, quinto lugar, etc);
Nı́vel socioeconômico (classes A, B, C, etc), etc.
Opinião sobre um determinado produto ou serviço: ruim, regular, bom ou ótimo.
Nı́vel de vulnerabilidade socioeconômica: baixı́ssima, baixa, moderada, alta ou altı́ssima, etc
Para darmos um exemplo gráfico, apresentamos na Figura (5) a escala de classificação do Índice de Vulnera-
bilidade Socioeconômica (IVS) dos estudantes de graduação da UFOB.
Figura 5: Escala de classificação do Índice de Vulnerabilidade Socioeconômica (IVS) dos estudantes de graduação
da UFOB.
Podemos perceber, a partir da Figura (5), que a variável qualitativa ordinal “Índice de Vulnerabilidade
Socioeconômica (IVS)” é composta por seis nomes (atributos) ordenados: baixı́ssima, baixa, mediana, moderada,
alta e altı́ssima.
As variáveis quantitativas discretas são aquelas resultantes, em geral, de dados contagem. Alguns exemplos
são:
Para ilustrarmos a representação gráfica de alguns exemplos de variáveis quantitativas discretas, a Tabela (4)
apresenta a distribuição do número de turmas/componentes e do número de matrı́culas em componentes curriculares
para cada Centro, e para a UFOB, durante o perı́odo compreendido entre o semestre letivo 2016.1 ao semestre
letivo 2018.2.
A partir dos dados expressos na Tabela (4), apresentamos a representação gráfica das variáveis quantitativas
discretas “Número de matrı́culas em componentes curriculares” e “Número de turmas/componentes ofertadas pela
UFOB” durante seis semestres letivos consecutivos, conforme ilustradas nas Figuras (6) e (7).
Figura 6: Número de matrı́culas em componentes curriculares ofertados pela UFOB durante seis semestres.
Um outro exemplo de variável quantitativa discreta é apresentado na Tabela (5) em que temos o número de
vagas ofertadas pela UFOB e o número de candidatos inscritos pelo SISU entre os anos de 2014 e 2018.
A partir dos dados expressos na Tabela (5), apresentamos a representação gráfica das variáveis quantitati-
vas discretas “Número de vagas ofertadas pela UFOB” e “Número de candidatos inscritos pelo SISU”, conforme
ilustrado na Figura (8).
Figura 8: Número de vagas ofertadas e número de candidatos inscritos pelo SISU entre 2014 e 2018.
As variáveis quantitativas contı́nuas são aquelas variáveis resultantes de medições. Alguns exemplos são:
Para ilustrarmos a representação gráfica de um exemplo de variável quantitativa contı́nua, a Tabela (6)
apresenta a distribuição de frequências da idade dos 3895 estudantes de graduação regularmente matriculados na
UFOB (Base de dados SIGAA: 16/07/2019).
A partir dos dados expressos na Tabela (6), apresentamos a representação gráfica da variável quantitativa
contı́nua “Idade dos estudantes de graduação da UFOB”, conforme ilustrado na Figura (9).
Figura 9: Distribuição de frequências da idade dos 3895 estudantes de graduação regularmente matriculados na
UFOB (Base de dados: 16/07/2019).
Considere agora os dados apresentados na Tabela (7) em que temos o rendimento acadêmico médio de cada
Centro Multidisciplinar da UFOB, considerando seis semestres letivos consecutivos.
A partir dos dados apresentados na Tabela (7), vamos ilustrar a variável quantitativa contı́nua “rendimento
acadêmico médio” graficamente em duas figuras: A Figura (10) apresenta o rendimento médio de cada Centro
Multidisciplinar da UFOB e a Figura (11) apresenta o rendimento médio geral da UFOB.
Figura 10: Série temporal do rendimento médio* em componentes curriculares considerando cada centro multidis-
ciplinar da UFOB, em seis semestres letivos seguidos.
Figura 11: Série temporal do rendimento médio* geral em componentes curriculares na UFOB, em seis semestres
letivos seguidos.
3 Somatório
Neste Capı́tulo introduzimos o conceito do operador linear somatório. Trata-se de um operador matemático
que denota a soma de n elementos de um conjunto quantitativo P de dados, ou seja, um conjunto de dados discretos
ou contı́nuos. É representado pela letra grega maiúscula (chamada de sigma).
As n observações de um conjunto quantitativo de dados referentes a uma variável qualquer são representadas
por X1 , X2 , . . . , Xn . Outra notação também muito utilizada em estatı́stica para representarmos um conjunto de
dados é Xi , i = 1, 2, . . . , n. Sua soma é representada por
n
X
Xi
i=1
Observação: quando ordenamos um conjunto quantitativo de dados (ou observações) formado por X1 , X2 , . . . , Xn ,
seja em ordem crescente ou em ordem decrescente, denotaremos por X(1) , X(2) , . . . , X(n) . Podemos notar que
n
X n
X
Xi = X(i)
i=1 i=1
Exemplo 1. Seja um conjunto de dados formado por (5, 7, 9, 11, 13). Então temos que seu somatório é dado
por
5
X
Xi = X1 + X2 + X3 + X4 + X5
|{z} |{z} |{z} |{z} |{z}
i=1 5 7 9 11 13
= 5 + 7 + 9 + 11 + 13
5
X
Xi = 45
i=1
Exemplo 2. Seja um conjunto de dados formado por (10, 20, 30, 40, 50, 60, 70, 80, 90, 100). Então temos que
seu somatório é dado por
10
X
Xi = X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9 + X10
|{z} |{z} |{z} |{z} |{z} |{z} |{z} |{z} |{z} |{z}
i=1 10 20 30 40 50 60 70 80 90 100
= 10 + 20 + 30 + 40 + 50 + 60 + 70 + 80 + 90 + 100
10
X
Xi = 550.
i=1
Exemplo 3. Seja um conjunto de dados formado por (19, 22, 14, 23, 20, 17, 26, 19). Então temos que seu
somatório é dado por
8
X
Xi = X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8
|{z} |{z} |{z} |{z} |{z} |{z} |{z} |{z}
i=1 19 22 14 23 20 17 26 19
= 19 + 22 + 14 + 23 + 20 + 17 + 26 + 19
8
X
Xi = 160
i=1
Propriedade 1. Se o conjunto de dados é formado apenas pela constante c, então o somatório da constante
é dado por n vezes a constante c, ou seja,
Xn
c = nc. (1)
i=1
Demonstração:
n
X
c = X1 + X2 + · · · + Xn
i=1
= c + c + ··· + c
| {z }
n vezes
n
X
c = nc.
i=1
Propriedade 2. Se, para cada observação deste conjunto for adicionado ou subtraı́do a constante c, então
seu somatório é dado por
X n Xn
(Xi ± c) = Xi ± nc. (2)
i=1 i=1
Demonstração: Vamos demonstrar para o caso positivo, pois o caso negativo é análogo.
n
X
(Xi + c) = (X1 + c) + (X2 + c) + · · · + (Xn + c)
i=1
= X1 + X2 + · · · + Xn + c + c + · · · + c
| {z } | {z }
somatório de Xi n vezes
n
X n
X
(Xi + c) = Xi + nc.
i=1 i=1
Propriedade 3. Se, para cada observação deste conjunto quantitativo de dados for multiplicada uma
constante c, então seu somatório é dado por
n
X n
X
Xi c = c Xi . (3)
i=1 i=1
Demonstração:
n
X
Xi c = X1 c + X2 c + · · · + Xn c
i=1
= c (X1 + X2 + · · · + Xn )
n
X Xn
Xi c = c Xi
i=1 i=1
Propriedade 4. Sejam duas constantes arbitrárias a e b (a, b ∈ R). Então, pelas propriedades 1, 2 e 3,
temos
Xn X n
(a ± bXi ) = na ± b Xi . (4)
i=1 i=1
Demonstração: Vamos demonstrar para o caso positivo, pois o caso negativo é análogo. Usando as propri-
edades 1, 2 e 3, temos
n
X n
X n
X
(a + bXi ) = a+ bXi
i=1 i=1 i=1
n
X
= na + b Xi
i=1
Propriedade 5. Sejam X e Y duas variáveis quantitativas, então o somatório da soma é a soma dos
somatórios. De forma análoga, o somatório da diferença é a diferença do somatório, ou seja:
n
X n
X n
X
(Xi ± Yi ) = Xi ± Yi . (5)
i=1 i=1 i=1
Demonstração: Vamos demonstrar para o caso positivo, pois o caso negativo é análogo.
n
X
(Xi + Yi ) = (X1 + Y1 ) + (X2 + Y2 ) + · · · + (Xn + Yn )
i=1
= X1 + X2 + · · · + Xn + Y1 + Y2 + · · · + Yn
n
X Xn Xn
(Xi + Yi ) = Xi + Yi .
i=1 i=1 i=1
n
X n
X n
X
Xi Yi 6= Xi Yi . (6)
i=1 i=1 i=1
Em particular, se X e Y são variáveis positivas, isto é, Xi > 0 e Yi > 0, para i = 1, 2, . . . , n, então o
somatório do produto é menor que o produto dos somatórios:
n
X n
X n
X
Xi Yi < Xi Yi . (7)
i=1 i=1 i=1
Demonstração de 7: Vamos demonstrar para o caso em que X e Y são variáveis positivas. Assumindo que
Xi > 0 e Yi > 0, para i = 1, 2, . . . , n, temos que segue a desigualdade:
n
X n
X n
X
Xi Yi < Xi Yi
i=1 i=1 i=1
⇒ X1 Y1 + X2 Y2 + · · · + Xn Yn < (X1 + X2 + · · · + Xn ) (Y1 + Y2 + · · · + Yn )
| {z }
n
P
Yi
i=1
n
X n
X n
X
⇒ X1 Y1 + X2 Y2 + · · · + Xn Yn < X1 Yi + X2 Yi + · · · + Xn Yi
i=1 i=1 i=1
n
P
Como qualquer termo é menor que a soma, isto é, Yi < Yi , então segue imediatamente que
i=1
n
! n
! n
!
X X X
X1 Y1 < X1 Yi , X2 Y2 < X2 Yi , . . . , Xn Yn < Xn Yi ,
i=1 i=1 i=1
ou seja,
n
X n
X n
X
Xi Yi < Xi Yi
i=1 i=1 i=1
O que demonstra o caso particular dado na expressão (7).
A partir das propriedades básicas dos somatórios, podemos então realizar operações com os somatórios, isto
é, podemos simplificar expressões algébricas que envolvem o operador somatório, conforme os exemplos a seguir.
n n n
Xi2 = 30, Xi3 = 100 e n = 4, determinar
P P P
Exemplo 1. Seja Xi = 10,
i=1 i=1 i=1
n n
Xi + Xi2 + Xi3 Xi2 + 1 (Xi + 4)
P P
a. e.
i=1 i=1
n n
Xi3 − 10
P P
b. (Xi + 1) f.
i=1 i=1
n n 3 2
P 2 P Xi −2Xi −3Xi
c. (Xi − 2) g. 10
i=1 i=1
Pn
d. (Xi + 5) (Xi − 2)
i=1
Resolução do item a:
n
X n
X n
X n
X
Xi + Xi2 + Xi3 Xi2 + Xi3
= Xi +
i=1 i=1 i=1 i=1
= 10 + 30 + 100
n
X
Xi + Xi2 + Xi3
= 140
i=1
Resolução do item b:
n
X n
X n
X
(Xi + 1) = Xi + 1
i=1 i=1 i=1
= 10 + n × 1
= 10 + 4
n
X
(Xi + 1) = 14
i=1
Resolução do item c:
n
X n
X
2
Xi2 − 4Xi + 4
(Xi − 2) =
i=1 i=1
n
X n
X n
X
= Xi2 − 4 Xi + 4
i=1 i=1 i=1
= 30 − 4 × 10 + 4 × 4
= 30 − 40 + 16
n
X 2
(Xi − 2) = 6
i=1
Resolução do item d:
n
X n
X
Xi2 − 2Xi + 5Xi − 10
(Xi + 5) (Xi − 2) =
i=1 i=1
n
X n
X n
X n
X
= Xi2 − 2 Xi + 5 Xi − 10
i=1 i=1 i=1 i=1
= 30 − 2 × 10 + 5 × 10 − 4 × 10 = 30 − 20 + 50 − 40
n
X
(Xi + 5) (Xi − 2) = 20
i=1
Resolução do item e:
n
X n
X
Xi2 + 1 (Xi + 4) Xi3 + 4x2i + Xi + 4
=
i=1 i=1
n
X n
X n
X n
X
= Xi3 + 4 Xi2 + Xi + 4
i=1 i=1 i=1 i=1
= 100 + 4 × 30 + 10 + 4 × 4 = 100 + 120 + 10 + 16
n
X
Xi2 + 1 (Xi + 4)
= 246
i=1
Resolução do item f:
n
X n
X n
X
Xi3 Xi3
− 10 = − 10
i=1 i=1 i=1
= 100 − 4 × 10
= 100 − 40
n
X
Xi3 − 10
= 60.
i=1
Resolução do item g:
n
Xi3 − 2Xi2 − 3Xi
P
n
Xi3 2Xi2
X − − 3Xi i=1
=
i=1
10 10
n n n
Xi3 − 2 Xi2 − 3
P P P
Xi
i=1 i=1 i=1
=
10
100 − 2 × 30 − 3 × 10
=
10
100 − 60 − 30
=
10
10
=
10
n
Xi3 − 2Xi2 − 3Xi
X
= 1
i=1
10
Exercı́cio 1. Escreva por extenso cada um dos somatórios abaixo (isto é, sem os sinais de somatório):
8 n 5
2 Yi +10
Xi4
P P P
a. b. (3Xi + 5) c. (Xi − 2)
i=1 i=1 i=1
n 7 Y ∞
Xi i λi
abXi +Yi
P P P
d. e. Zi f. i!
i=1 i=1 i=0
n n n
aXi2 + bXi + c ea+bXi +cYi +dZi
P P P
g. (aXi + b) h. i
i=1 i=1 i=1
n 10 n
ln(Xi )
Xii+1 Yii−1 i2 Xi
P P P
j. k. l. Yi !+ln(Zi )
i=1 i=1 i=1
n n n
2Yi +6Zi
P P P
d. (10Xi − 5Yi − Zi ) e. 50 f. (3Xi + 8Yi − 12Zi )
i=1 i=1 i=1
Calcule o valor numérico das expressões abaixo aplicando corretamente as propriedades do somatório:
5 5 5
2
Xi2 + 1 (Xi + 4)
P P P
a. (Xi − 3) b. (Xi + 5) (Xi − 2) c.
i=1 i=1 i=1
5 5 3 5
Xi −2Xi2 −7Xi
Xi2 − 11 Xi2 (Xi − 4)
P P P
d. e. 10 f.
i=1 i=1 i=1
Exercı́cio 5. Sejam a1 , a2 , . . . , an um conjunto quantitativo de dados tal que ai > 0, para i = 1, 2, ..., n,
então mostre que:
n
! n
!2
X X
2
ai < ai , ∀a > 0.
i=1 i=1
Parte II
Estatı́stica Descritiva
As medidas de tendência central ou posição central constituem uma forma resumida de apresentar os resulta-
dos contidos nos dados observados, pois representam um valor central, em torno do qual os dados se concentram.
As medidas de tendência central mais empregadas são a média, a moda e a mediana.
Dentre as três medidas de posição, a média aritmética, ou simplesmente média é a mais usada por ser a
mais comum e compreensı́vel delas, além de ter um bom tratamento algébrico. De uma maneira informal a média
aritmética é uma medida de tendência central que nivela os dados. É calculada somando-se os valores de todas as
observações e dividindo-se essa soma pelo número de observações.
Se estivermos fazendo um censo, ou seja, se estivermos fazendo o levantamento de toda a população, então
temos a média populacional, denotada pela letra grega µ, expressa por
N
P
Xi
i=1
µ= .
N
Se estivermos num processo de amostragem, então temos a média amostral, denotada por X, expressa por
n
P
Xi
i=1
X= .
n
A média aritmética nada mais é que o nivelamento dos dados, ou seja, é um representante de todos os
indivı́duos. Em outras palavras, é como se todos os elementos do conjunto de dados tivessem o mesmo valor
numérico, conforme mostra a ilustração abaixo:
Exemplo 1 de aplicação: Foi pesada uma amostra de n = 12 pessoas adultas e os resultados foram (pesos
em quilos): 73, 68, 75, 65, 74, 90, 70, 77, 95, 84, 90, 75. Então a média amostral X dos pesos é determinada por:
n
P 12
P
Xi Xi
i=1 i=1
X = =
n 12
73 + 68 + 75 + 65 + 74 + 90 + 70 + 77 + 95 + 84 + 90 + 75
=
12
936
=
12
X = 78 quilos.
Interpretação: O peso médio dessa amostra de pessoas é de 78 quilos. Ou ainda, o peso que nivela este
conjunto de dados é de 78 quilos.
Exemplo 2 de aplicação: Foi medida a altura de 10 estudantes da UFOB e os resultados foram (altura em
cm): 158, 181, 174, 157, 164, 170, 179, 165, 168, 176. Então a média amostral X dos pesos é determinada por:
n
P 10
P
Xi Xi
i=1 i=1
X = =
n 10
158 + 181 + 174 + 157 + 164 + 170 + 179 + 165 + 168 + 176
=
10
1692
=
10
X = 169, 2 cm.
Interpretação: A altura média dessa amostra de estudantes da UFOB é de 169, 2 cm. Ou ainda, a altura que
nivela este conjunto de dados é de 169, 2 cm.
5.2 Mediana
A mediana é uma medida de tendência central que divide um conjunto quantitativo ordenado de dados em
duas partes iguais, 50% acima e 50% abaixo dela. A mediana é de importância central nas estatı́sticas robustas, já
que é a estatı́stica mais resistente, tendo um ponto de ruptura de 50%: enquanto não mais da metade dos dados
está contaminada, a mediana não vai dar um resultado arbitrariamente grande. A mediana é definida apenas em
dados unidimensionais encomendados, e é independente de qualquer distância métrica.
Em uma amostra de dados, ou uma população finita, pode não haver nenhum membro da amostra cujo valor
é idêntico à mediana (no caso de um mesmo tamanho de amostra). Se houver um tal elemento, pode haver mais
do que um de modo que a mediana pode não identificar um membro da amostra. No entanto, o valor da mediana
é determinada exclusivamente com a definição usual.
A mediana pode ser utilizada como uma medida de localização quando a distribuição é desviada , quando
os valores finais não são conhecidos, ou quando se exige reduzida importância para ser anexado a outliers, por
exemplo, uma vez que podem existir erros de medição.
Em termos de notação, alguns autores representam a mediana de uma variável quantitativa X como X̃ ou
como µ1/2 . Neste texto didático denotaremos a mediana como M e.
Caso 1. Quando o número de dados (n) for ı́mpar, a mediana é dada por:
M e = X( n+1 )
2
Caso 2. Quando o número de dados (n) for par, a mediana é dada por:
X( n ) + X( n+2 )
2 2
Me =
2
2 1 2 0 5 0 2 3 1 7 1 1 2 4 0 0 1 4 4
Para encontrarmos o número mediano de filhos por famı́lia, devemos primeiramente ordenar os dados cres-
centemente:
0 0 0 0 1 1 1 1 1 2 2 2 2 3 4 4 4 5 7
Como se trata de uma amostra com um número ı́mpar de indivı́duos, basta considerar o valor central 2. Ou
seja, o número mediano de filhos por famı́lia nesta amostra é:
M e = 2 filhos.
Interpretação: Nesta amostra, 50% das famı́lias tem mais de 2 filhos e 50% das famı́lias tem menos de 2 filhos.
Exemplo 2 de aplicação. Em uma pesquisa sobre saúde dos estudantes universitários da UFOB, foram
pesados 16 indivı́duos e os resultados foram (pesos em kg):
66 61 61 75 67 58 69 66 59 68 57 69 56 65 65 68
Para encontrarmos o peso mediano, devemos primeiramente ordenar os dados crescentemente:
56 57 58 59 61 61 65 65 66 66 67 68 68 69 69 75
Como se trata de uma amostra com um número par de indivı́duos, devemos considerar os dois valores centrais
65 e 66 e tomarmos a média dos dois, isto é
5.3 Moda
A moda ou valor modal de um conjunto quantitativo de dados é uma medida de tendência central dada
pelo(s) valor(es) mais frequente(s), denotada por M o = Xf req . O termo moda foi utilizado primeiramente em 1895
por Karl Pearson, sob influência do termo moda referindo-se ao uso popular com o significado de objeto que se está
usando muito no tempo presente. A referência mais antiga conhecida do conceito da moda apresenta-se no cerco
no inverno de 428 a.C. dos peloponésios e beócios aos plateus e atenienses. Os sitiados, necessitando construir
escadas adequadas às muralhas inimigas, fizeram com que muitas pessoas contassem as fileiras de tijolos. Com tal
estratagema, ainda que houvesse um número grande de erros, um número grande de contagem seria confiável.
Ao contrário de média e da mediana, o conceito de moda também faz sentido para “dados nominais” (i.e.,
não consistindo valores numéricos no caso de média ou mesmo de valores ordenados, no caso do rendimento médio).
Por exemplo, tomando uma amostra de nomes de uma famı́lia coreana, pode-se achar que “Kim” ocorre com mais
frequência do que qualquer outro nome. Então, “Kim” seria a moda da amostra.
A ilustração abaixo apresenta como a moda funciona em um conjunto de dados:
Podemos observar que a amostra A não possui nenhum peso mais frequente (amodal). A amostra B, por sua
vez, apresenta um peso mais frequente (unimodal). A amostra C apresenta dois pesos mais frequentes (bimodal)
e a amostra D apresenta três pesos mais frequentes (multimodal).
Diante do que vimos até o momento, surge a pergunta: Qual medida de tendência central devemos usar?
Elas têm a finalidade, como já comentamos no inı́cio desta aula, de sintetizar as informações de um conjunto de
dados resumindo-as em um único valor. Uma vez que o objetivo das três é semelhante, talvez você agora esteja se
perguntando: quando devo usar a média? E a moda? E a mediana?
Se estamos diante de uma situação na qual essas três medidas apresentam o mesmo valor, tal fato nos informa
que a distribuição dos dados é simétrica; quando resultam em valores diferentes, porém muito próximos, indica
que a forma dessa distribuição é aproximadamente simétrica. Nesses casos, optaremos por qualquer uma das três:
média, moda ou mediana. Nos demais casos, devemos analisar as especificidades da situação estudada e escolher
entre elas a mais adequada.
A seguir, apresentamos um quadro resumo que irá ajudá-lo a optar por uma das três, embora nada o impeça
de calcular todas elas.
Seu uso é indicado quando É a única medida indicada Seu uso é indicado quando
a distribuição não apresenta para se trabalhar com há valores muito discrepantes
valores muito extremos ou variáveis qualitativas pois ela não é afetada
muito discrepantes nominais por valores extremos
Quando obtemos um conjunto de dados em que a média, moda e mediana possuem valores numéricos próximos,
então tal conjunto de dados é considerado aproximadamente simétrico. Diversas formas gráficas para a avaliação
da natureza da distribuição dos dados podem ser utilizadas pelo pesquisador para uma inspeção empı́rica a fim
de inferir que tipo de distribuição os dados de sua pesquisa se apresentam. Uma forma de se estimar o grau de
assimetria pode ser dada pelos coeficientes de assimetria de Pearson ou pelo método dos momentos. Nesse trabalho
abordaremos tais medidas no Capı́tulo que trata dos dados agrupados em Classes.
Em geral a média aritmética é a medida de tendência central mais adotada, pois apresenta propriedades
importantes que serão úteis posteriormente em inferência estatı́stica. Apresentamos a seguir tais propriedades
considerando a média amostral X, mas que valem para a média populacional µ. Considere X a média de um
conjunto quantitativo de dados formado por X1 , X2 , ..., Xn e C uma constante arbitrária.
Propriedade 1. Considere um conjunto quantitativo de dados formado por X1 , X2 , ..., Xn tal que X1 =
C, X2 = C, ..., Xn = C e C uma constante arbitrária. Então temos que
X = C. (8)
Em outras palavras, se o conjunto de dados é formado por uma constante C, então a média deste conjunto é
a própria constante C.
Comentário: Para um melhor entendimento, imagine que uma turma de estudantes fizeram uma prova e que
todos tiraram a mesma nota 8, 0. Então a nota média também será 8, 0. Uma vez que as notas não variaram, isto
é, as notas assumiram um valor constante, então a nota média é a própria constante.
n
P
Xi
i=1
Demonstração de (8): Por definição sabemos que a média é expressa por X = n . Porém, como Xi = C
para i = 1, 2, ..., n, então temos
n
P n
P
Xi C
i=1 i=1 C + C + ... + C nC
X = = = = =C
n n n n
X = C.
Y = X ± C. (9)
Comentário: Imagine que uma turma de estudantes fez uma prova e cada um obteve a sua nota e, portanto,
a turma obteve uma nota média. O professor resolve dar 1 ponto a mais na nota de cada estudante. Então a nova
nota média será a nota média obtida anteriormente adicionada com 1 ponto.
Demonstração de (9): Vamos considerar o caso positivo, pois o caso negativo é análogo. Por definição a
n
P
Yi
i=1
média de Y , denotada por Y , é dada por Y = n . Como Yi = Xi + C, para i = 1, 2, . . . , n, temos que
n
P n
P n
P n
P
Yi (Xi + C) Xi + C
i=1 i=1 i=1 i=1
Y = = =
n n n
n
P
Xi
i=1 nC
= +
n n
Y = X + C.
Y = XC. (10)
Comentário: Imagine que uma turma de estudantes fez uma prova e cada um obteve a sua nota e, portanto,
a turma obteve uma nota média. Como a turma foi muito mal, o professor resolve dobrar a nota de cada um, isto
é, multiplicar cada nota por 2. Então a nota média atualizada será a nota média obtida anteriormente multiplicada
por 2.
n
P
Yi
i=1
Demonstração de (10): Por definição sabemos que a média de Y é dada por Y = n . Como Yi = Xi C
temos que
n
P n
P n
P
Yi Xi C Xi
i=1 i=1 i=1
Y = = =C = CX
n n n
Y = XC.
Y = a ± bX. (11)
Comentário: Este item mostra a aplicação direta das propriedades lineares do somatório. Em diversas áreas
é muito comum a adoção de funções lineares de variáveis quantitativas.
Demonstração de (11): Vamos considerar o caso positivo, pois o caso negativo é análogo. Por definição
n
P
Yi
i=1
sabemos que a média de Y é dada por Y = n . Como Yi = a + bXi temos que
n
P
Yi
i=1
Y =
n
n
P n
P n
P n
P
(a + bXi ) a bXi b Xi
i=1 i=1 i=1 na i=1
= = + = +
n n n n n
Y = a + bX.
Propriedade 5. Considere o i-ésimo desvio dado por Xi − X , para i = 1, 2, ..., n. Então a soma de todos
os desvios em relação a média é nula, isto é,
n
X
Xi − X = 0. (12)
i=1
Comentário: Para exemplificar, considere o seu núcleo familiar. Encontre o peso X de cada um dos membros:
peso do pai, peso da mãe, peso dos irmãos, etc. Em seguida encontre o peso médio X. Encontre todas as diferenças
(Xi − X). Note que a soma de todos os desvios é igual a zero.
Demonstração de (12):
n
X n
X n
X
Xi − X = Xi − X
i=1 i=1 i=1
n
P
n
X Xi
= Xi − n i=1
i=1
n
n
X n
X
= Xi − Xi = 0
i=1 i=1
n
X
Xi − X = 0.
i=1
Comentário: Esta propriedade mostra que, para quaisquer valores diferentes da média X, seja para mais ou
para menos, então o somatório do quadrado dos desvios será maior do que seria adotando a média X.
Em uma pesquisa sobre saúde pública realizada em uma grande Universidade, uma das variáveis estudadas
foi o peso X em quilos. Foram analisadas 5 turmas de 15 estudantes de cada. Os resultados encontram-se no
quadro abaixo:
Turma A 72 70 73 57 56 84 70 70 75 55 69 62 59 53 62
Turma B 49 87 64 94 81 66 77 65 73 62 73 58 83 71 71
Turma C 63 81 52 55 48 60 57 57 53 47 69 63 70 59 57
Turma D 90 72 79 86 113 74 65 76 69 56 52 76 69 69 55
Turma E 49 79 70 70 33 61 67 78 63 69 69 77 63 65 80
As turmas são consideradas amostras desta Universidade. Encontrar as medidas de tendência central de cada
uma destas 5 turmas e responda:
Para facilitar a obtenção das respostas, é conveniente dispor os resultados em um quadro resumo, conforme
abaixo:
Resposta do item i: A turma D apresentou o maior peso médio e o maior peso mediano. A turma B
apresentou o maior peso modal.
Resposta do item ii: A turma C apresentou o menor peso médio, mediano e modal.
6 Medidas de Dispersão
Podemos notar que os conjuntos são bastante distintos entre si. No entanto todos eles possuem a mesma
média, X = 35. Este fato sugere que podemos ter diferentes conjuntos de dados que podem eventualmente fornecer
a mesma média. Desta maneira, é necessário o uso de medidas que meçam a variabilidade dos dados.
As medidas de dispersão, também denominadas de medidas de variação ou variabilidade, medem o grau de
variabilidade dos dados. As medidas de dispersão mais usadas são: amplitude, desvio médio absoluto, variância,
desvio padrão e coeficiente de variação.
6.1 Amplitude
A amplitude é uma medida de dispersão expressa pela diferença entre o maior e o menor valor do conjunto
quantitativo de dados, isto é,
A = Xmáximo − Xmı́nimo .
Podemos observar que, a partir das amplitudes obtidas, a amostra D apresentou a maior variabilidade nos
dados (51 cm), enquanto que a amostra A apresentou a menor variabilidade (29 cm). Em outras palavras, podemos
afirmar que a amostra D é mais heterogênea nas alturas dos indivı́duos no que tange a amplitude, e a amostra
A é a mais homogênea. As amostras B e C possuem praticamente a mesma variabilidade, pois apresentaram
amplitudes numericamente próximas (36 cm e 37 cm).
Considere um conjunto quantitativo de dados formado por X1 , X2 , ..., Xn e sua média associada X. Definimos
como desvio a diferença entre a i-ésima observação e a média do conjunto, isto é,
di = Xi − X, i = 1, 2, ..., n.
Vimos no Capı́tulo anterior que a soma dos desvios é sempre nula, isto é,
n
X n
X
di = Xi − X = 0.
i=1 i=1
Para medir a variação dos dados utilizando a definição dos desvios, o desvio médio absoluto é uma medida
de dispersão que considera a média dos módulos dos desvios. Em outras palavras, é a média dos desvios absolutos:
n
P
Xi − X
i=1
dm = .
n
Exemplo de aplicação: Considerando o quadro anterior, vamos encontrar o desvio-médio absoluto de cada
uma das quatro amostras.
Amostra A: Considerando que a altura média da amostra A vale 164, 67 cm, então o seu desvio-médio
absoluto é dado por:
n
P 15
P
Xi − X Xi − X
i=1 i=1
dm = =
n 15
|179 − 164, 67| + |165 − 164, 67| + |161 − 164, 67| + ... + |174 − 164, 67| 84
= =
15 15
dm = 5, 60 cm.
Amostra B: Considerando que a altura média da amostra B vale 168, 33 cm, então o seu desvio-médio
absoluto é dado por:
n
P 15
P
Xi − X Xi − X
i=1 i=1
dm = =
n 15
|180 − 168, 33| + |168 − 168, 33| + |157 − 168, 33| + ... + |181 − 168, 33| 144
= =
15 15
dm = 9, 60 cm.
Amostra C: Considerando que a altura média da amostra C vale 159, 73 cm, então o seu desvio-médio
absoluto é dado por:
n
P 15
P
Xi − X Xi − X
i=1 i=1
dm = =
n 15
|145 − 159, 73| + |147 − 159, 73| + |173 − 159, 73| + ... + |159 − 159, 73| 135, 75
= =
15 15
dm = 9, 05 cm.
Amostra D: Considerando que a altura média da amostra D vale 170, 13 cm, então o seu desvio-médio
absoluto é dado por:
n
P 15
P
Xi − X Xi − X
i=1 i=1
dm = =
n 15
|165 − 170, 13| + |181 − 170, 13| + |169 − 170, 13| + ... + |173 − 170, 13| 142, 13
= =
15 15
dm = 9, 48 cm.
6.3 Variância
A variância é uma medida de dispersão dada pela média dos quadrados dos desvios da seguinte forma:
Se estivermos fazendo um censo, ou seja, se estivermos fazendo o levantamento de toda a população, então
temos a variância populacional, denotada pela letra grega σ 2 , expressa por
N
P 2
(Xi − µ)
i=1
σ2 = .
N
Se estivermos num processo de amostragem, então temos a variância amostral, denotada por S 2 , expressa
por
n
P 2
Xi − X
i=1
S2 = .
n−1
Observação: A unidade da variância sempre será o quadrado da unidade da média. Por exemplo, se a
variável em estudo for peso com a unidade da média em kg, então a unidade da variância será kg 2 . Se a variável
for altura com a unidade da média em cm, então a unidade da variância será em cm2 .
Exemplo de aplicação: Vamos determinar a variância amostral de cada uma das quatro amostras apresen-
tadas no quadro da Seção anterior.
n
P 2 15
P 2
Xi − X Xi − X
i=1
S2 = = i=1
n 15 − 1
2 2 2 2
(179 − 164, 67) + (165 − 164, 67) + (161 − 164, 67) + ... + (174 − 164, 67)
=
14
793, 33
=
14
S2 = 56, 67 cm2 .
n
P 2 15
P 2
Xi − X Xi − X
i=1
S2 = = i=1
n 15 − 1
2 2 2 2
(180 − 168, 33) + (168 − 168, 33) + (157 − 168, 33) + ... + (181 − 168, 33)
=
14
1899, 33
=
14
S2 = 135, 67 cm2 .
n
P 2 15
P 2
Xi − X Xi − X
i=1
S2 = = i=1
n 15 − 1
2 2 2 2
(145 − 159, 73) + (147 − 159, 73) + (173 − 159, 73) + ... + (159 − 159, 73)
=
14
1792, 93
=
14
S2 = 128, 07 cm2 .
n
P 2 15
P 2
Xi − X Xi − X
i=1
S2 = = i=1
n 15 − 1
2 2 2 2
(165 − 170, 13) + (181 − 170, 13) + (169 − 170, 13) + ... + (173 − 170, 13)
=
14
2057, 73
=
14
S2 = 146, 98 cm2 .
O desvio padrão é uma medida de dispersão dada pela raiz quadrada da variância, isto é,
v
u N
uP 2
√ t i=1 (Xi − µ)
u
Desvio padrão populacional: σ = σ2 =
N
v
u n
uP 2
X −X
√ t i=1 i
u
Desvio padrão amostral: S= S2 = .
n−1
Exemplo de aplicação: Vamos encontrar o desvio-padrão amostral para cada uma das quatro amostras da
Seção anterior.
√
Amostra A: S =
p
S2 = 56, 67 cm2 = 7, 53 cm.
√
Amostra B: S =
p
S2 = 135, 67 cm2 = 11, 65 cm.
√
Amostra C: S =
p
S 2 = 128, 07 cm2 = 11, 32 cm.
√
Amostra D: S = S 2 = 146, 98 cm2 = 12, 12 cm.
p
A vantagem de se usar o desvio padrão ao invés da variância é que sua unidade de medida é a mesma da
média.
É uma medida de dispersão dada pelo quociente percentual entre o desvio padrão a e média, isto é,
σ
Coeficiente de variação populacional: CV = × 100%
µ
S
Coeficiente de variação amostral: CV = × 100%.
X
Amostra A: CV = S
X
× 100% = 7,53
164,67 × 100% = 4, 57%.
Amostra B: CV = S
X
× 100% = 11,65
168,33 × 100% = 6, 92%.
Amostra C: CV = S
X
× 100% = 11,32
159,73 × 100% = 7, 08%.
Amostra D: CV = S
X
× 100% = 12,12
170,13 × 100% = 7, 13%.
O coeficiente de variação é adotado para comparar a variabilidade entre grupos. Quanto maior o seu valor,
mais heterogêneo é o grupo, quanto menor, mais homogêneo, quando comparado aos demais grupos.
2
Considere σX a variância de um conjunto quantitativo de dados formado por X1 , X2 , ..., Xn e C uma constante
arbitrária (C ∈ R).
σY2 = σX
2
.
Propriedade 3. Sejam Yi = Xi C, para i = 1, 2, ..., n. Então a variância de Y , denotada por σY2 , é dada por
σY2 = σX
2
C 2.
Propriedade 4. Considere duas constantes arbitrárias a e b. Sejam Yi = a ± bXi , para i = 1, 2, ..., n, então,
pelas propriedades 1, 2 e 3, temos
σY2 = b2 σX
2
.
Uma grande fábrica de eletrodomésticos tem o interesse em estudar o tempo de montagem de um determinado
modelo de lavadoura de roupas. Para isto, selecionou-se uma equipe de funcionários para cada uma das cinco filiais
diferentes desta fábrica e verificou-se o tempo que cada um dos funcionários levou para montar a lavadoura. Os
resultados encontram-se no quadro abaixo (tempo em minutos):
Afim de iniciar a análise descritiva dos dados, vamos elaborar um quadro com as medidas de tendência central
e de dispersão para cada uma das cinco equipes.
X Me Mo A dm S2 S CV
A 13, 22 min 14, 0 min 14 min 16 min 3, 75 min 25, 6944 min2 5, 07 min 38, 35%
B 16, 15 min 17, 0 min 17 min 14 min 3, 22 min 18, 8077 min2 4, 34 min 26, 87%
C 13, 75 min 13, 5 min 13 min 11 min 2, 50 min 11, 6429 min2 3, 41 min 24, 80%
D 13, 40 min 14, 0 min Amodal 16 min 4, 40 min 27, 8222 min2 5, 27 min 39, 33%
E 19, 42 min 19, 5 min Amodal 29 min 8, 08 min 92, 2652 min2 9, 61 min 49, 49%
7.1 Introdução
Nesse Capı́tulo apresentamos a metodologia para o agrupamento de dados quantitativos (discretos ou contı́nuos)
em k classes bem como seu tratamento estatı́stico, cuja representação mais simples é a distribuição de frequência.
A distribuição de frequência é a distribuição dos dados em classes ou categorias, onde o número de elementos
pertencentes a cada classe representa a frequência da classe. Aconselha-se a trabalhar com dados agrupados em
classes sempre quando estamos trabalhando diretamente com a população ou quando a amostra for considerada
grande. Para a análise exploratória dos dados agrupados em classes abordamos as principais medidas descritivas,
a saber:
Para ilustrar a metodologia estatı́stica usada para dados agrupados em classes, apresentamos a seguir um
estudo de caso real em que fazemos passo a passo a construção de cada uma das medidas descritivas acima
mencionadas.
Estudo de caso: Em um estudo foram realizados 270 pontos de sondagem no solo da fazenda Ponta da
Serra, Caicó - RN, em que, para cada amostra, mediu-se o teor de chumbo (unidades em ppm). Desta forma temos
uma amostra de tamanho n = 270 pontos de sondagem. Os dados estão descritos na Tabela (8).
Tabela 8: Teores de chumbo (ppm) em 270 pontos de sondagem no solo da fazendaPonta da Serra - Caicó-RN.
63 71 69 83 81 70 47 69 57 122 67 24 60 124 87
73 55 80 86 68 53 84 128 51 89 62 61 90 74 51
124 102 43 108 47 94 99 86 82 99 45 66 115 59 74
38 75 99 82 38 96 97 61 79 137 47 127 123 83 66
57 136 66 71 81 41 63 81 40 82 110 49 37 92 60
57 27 109 69 98 92 74 109 81 68 70 72 26 74 80
97 71 86 85 47 95 67 82 110 74 44 93 65 123 72
53 95 92 51 37 103 48 92 62 94 48 89 73 23 58
85 52 60 82 104 83 65 26 113 44 80 53 80 81 86
112 133 86 99 107 56 93 77 109 94 24 43 68 59 91
81 43 84 85 101 67 124 79 74 105 77 54 74 70 59
15 57 60 39 68 63 77 39 28 105 117 131 72 84 85
84 89 52 83 71 69 55 94 101 35 109 104 107 95 73
88 75 66 70 57 34 32 52 108 72 116 66 38 86 48
62 78 105 65 71 90 101 67 76 84 102 114 82 64 110
84 59 47 77 53 81 101 43 56 15 35 105 106 62 84
61 47 92 59 91 88 24 78 110 68 64 111 47 40 51
83 78 103 141 72 54 86 54 59 155 63 95 100 92 84
Os dados coletados pelo pesquisador na forma em que se encontram, como na Tabela (8), são denominados
dados brutos, ou seja, sem nenhum tratamento estatı́stico. Normalmente estes dados fornecem pouca ou nenhuma
informação ao leitor, sendo necessário uma organização afim de aumentar sua capacidade de informação.
A mais simples organização numérica é a ordenação dos dados em ordem crescente ou decrescente. Dados
apresentados dessa forma (ordenados) são chamados de ROL. A Figura (12) apresenta o ROL de dados referentes
aos teores de chumbo (em ppm) dos 270 pontos de sondagem no solo da Fazenda Ponta da Serra - Caicó-RN.
Figura 12: ROL dos dados referentes aos teores de chumbo (em ppm).
Como podemos observar na Figura (12) a simples organização dos dados (ROL) aumenta muito capacidade de
informação destes, pois, enquanto a Tabela (8) nos informava apenas que tı́nhamos 270 valores de teor de chumbo,
a Figura (12) nos apresenta o menor e o maior valor de teor de chumbo, dando uma ideia geral da variação dos
teores de chumbo (em ppm) dos pontos de sondagem do solo coletadas na Fazenda Ponta da Serra. O menor teor
de chumbo encontrado foi de 15 ppm e o maior teor de chumbo encontrado foi de 155 ppm. Portanto, houve uma
variação nas amostras de 140 ppm.
Após esta primeira organização dos dados, ou seja, após a ordenação dos dados, podemos ainda agrupá-los em
classes de menor tamanho, afim de aumentar sua a capacidade de informação. Distribuindo os dados observados em
classes e contando o número de indivı́duos contidos em cada classe, obtemos a frequência absoluta de cada classe. A
disposição tabular dos dados agrupados em classes, juntamente com as frequências correspondentes denominamos
distribuição de frequência.
Para identificar uma classe, deve-se conhecer os valores dos limites inferior e superior da classe, que delimitam
o intervalo de classe. A construção das classes pode ser feita de maneira subjetiva, como por exemplo, por meio do
conhecimento do pesquisador a respeito da caracterı́stica em estudo, ou utilizando algum critério de categorização.
Apresentamos a seguir três critérios adotados para o procedimento de categorização de variáveis quantitativas
contı́nuas ou discretas.
Para montar uma distribuição de frequências é necessário que primeiramente se determine o número k de
classes em que os dados serão agrupados. Por questões de ordem prática e estética alguns autores sugerem utilizar
de 5 a 20 classes. Há várias indicações do número k de classes a ser utilizado, em função do número n de dados,
dentre elas podemos destacar:
Os demais limites são obtidos somando-se h ao limite anterior. Para montar a distribuição de frequência,
basta apresentar as classes obtidas na forma tabular e contar quantos indivı́duos existe cada classe. Apresentando
os dados na forma de distribuição de frequência, sintetiza-se a informação contida nos mesmos, além de facilitar sua
visualização. A apresentação dos dados em forma de distribuição de frequência facilita ainda o cálculo de várias
medidas estatı́sticas de interesse, além de permitir a apresentação gráfica dos mesmos.
A Tabela (9) apresenta a distribuição de frequências do teor de chumpo (em ppm) dos pontos de sondagem
do solo da Fazenda Ponta da Serra (dados agrupados em 12 classes).
Tabela 9: Distribuição de frequências do teor de chumpo (em ppm) dos pontos de sondagem do solo da Fazenda
Ponta da Serra.
A frequência absoluta (fi ) nada mais é que o número de elementos pertencentes a i-ésima classe, i = 1, 2, ..., k.
Podemos observar que a soma de todas as frequências absolutas é igual ao número de observações do conjunto de
Pk
dados, ou seja, fi = n, e n é o número total de observações. Na Tabela (9) onde apresentamos o exemplo de
i=1
distribuição de frequências, em 12 classes, do teor de chumbo encontrado nos pontos de sondagem temos:
12
X
fi = f1 + f2 + f3 + f4 + f5 + f6 + f7 + f8 + f9 + f10 + f11 + f12
i=1
12
X
fi = 2 + 10 + 26 + 38 + 51 + 60 + 34 + 30 + 11 + 6 + 1 + 1
i=1
12
X
fi = 270 = n (quantidade total de observações).
i=1
Ao examinar uma distribuição amostral simétrica ou pelo menos aproximadamente simétrica, nota-se que
geralmente que os dados são mais frequentes perto de um valor central e são mais raros ao afastar-se deste. A
obtenção deste valor central é de importância fundamental para a pesquisa. Abordaremos as medidas de posição
ou tendência central para o caso em que o dados estão agrupados em classes. Para isso é necessário introduzir o
conceito da Hipótese Tabular Básica (HTB).
Hipótese tabular básica: Para fins de análises matemáticas todas as observações contidas num intervalo
de classe são consideradas iguais ao ponto médio da classe. Essa hipótese é conhecida como hipótese tabular básica
(HTB). Os cálculos das medidas de posição ou de dispersão amostral usando os pontos médios das classes como
representantes de todos os seus elementos contém menor precisão do que aqueles realizados utilizando os dados
brutos ou elaborados.
No entanto, estes erros, como já constatado por muitos pesquisadores em estatı́stica, podem ser considerados
desprezı́veis e, portanto, devem ser ignorados. A vantagem de se utilizar a distribuição de frequência refere-
se à simplificação estrutural dos dados sem grandes perdas de precisão, bem como o aumento da facilidade de
cálculos devido a estas simplificações, além de fornecer uma idéia da forma da distribuição da variável por meio da
representação gráfica.
Para o cálculo das medidas de tendência central para dados agrupados em classes tais como a média, a moda
e a mediana, é necessário acrescentar algumas colunas a mais na Tabela (9) conforme mostra a Tabela (10):
Muitas vezes o nosso interesse não reside na quantidade de observações que existe numa determinada classe,
mas sim em saber a quantidade de observações acima ou abaixo de um determinado ponto na distribuição. Deste
modo, a soma das frequências de todos os valores abaixo do limite superior de uma determinada classe é definida
como frequência acumulada até o ponto de interesse. Desta forma temos:
t
X
Fi = fi , t ≤ k,
i=1
em que
t
P
fi : é o somatório de todas as frequências absolutas até a classe t em questão (t ≤ k). Podemos observar que
i=1
t
X t−1
X
Fi − Fi−1 = fi , i = 2, 3, ..., k, ou ainda fi − fi = fi , t ≤ k.
i=1 i=1
Por exemplo, podemos observar na Tabela (10) que a frequência absoluta da segunda classe (f2 = 10) é igual
a frequência acumulada da segunda classe (F2 = 12) menos a frequência acumulada da primeira classe (F1 = 2). A
frequência absoluta da terceira classe (f3 = 26) é igual a frequência acumulada da terceira classe (F3 = 38) menos
a frequência acumulada da segunda classe (F2 = 12), e assim por diante para as demais classes.
F ri % = F ri × 100%, t ≤ k.
Podemos observar que
t
X t−1
X
F ri % − F ri−1 % = f ri %, i = 2, 3, ..., k, ou ainda f ri % − f ri % = f ri %, t ≤ k.
i=1 i=1
A média é a principal medida de posição, sendo utilizada principalmente quando os dados apresentam dis-
tribuição simétrica ou aproximadamente simétrica, como acontece com a maioria das situações práticas. Deve-se
diferenciar, por meio de notação apropriada a média populacional da amostral.
A população refere-se a todos os elementos de interesse do pesquisador para a qual fica praticamente impossı́vel
tomar as informações elemento a elemento. A amostra por sua vez refere-se a um subconjunto de elementos desta
população e obtida de acordo com alguns critérios, de tal forma que haja uma representatividade da população
da qual foi extraı́da, e para qual se deseja extrapolar as informações (inferências estatı́sticas). Será utilizada para
diferenciar a média da amostra e da população a seguinte notação:
em que:
Xi : é o ponto médio da i-ésima classe, i = 1, 2, ..., k.
fi : é o frequência absoluta da i-ésima classe, i = 1, 2, ..., k.
Então no exemplo do teor de chumbo temos:
k
P
fi Xi
i=1 20.391
X= k
= = 75, 52 ppm.
P 270
fi
i=1
Interpretação: A quantidade média do teor de chumbo nos pontos de sondagem do solo na fazenda Ponta
da Serra - Caicó-RN é de 75, 52 ppm, ou ainda, o valor médio do qual os teores de chumbo se concentram é de
75, 52 ppm.
No caso de dados agrupados a mediana pode ser calculada de acordo com a seguinte expressão:
k
1
P
2 fi − Fant
i=1
M e = LIM e + × h,
fM e
em que
LIM e : é o limite inferior da classe que contem a mediana;
Fant : é a frequência acumulada anterior à classe que contem a mediana;
fM e : é a frequência absoluta da classe que contem a mediana;
h : é a altura (amplitude) da classe que contem a mediana;
Então no exemplo do teor de chumbo, a partir da Tabela (3), temos:
k
1
P
2 fi − Fant 270
2 − 127
i=1
Me = LIM e + × h = 73, 5 + × 13
fM e 60
Me = 75, 23 ppm
Interpretação: 50% dos pontos de sondagem apresentaram um teor de chumbo abaixo de 75, 23 ppm.
Equivalentemente 50% dos pontos de sondagem apresentaram um teor de chumbo acima de 75, 23 ppm.
Seja um conjunto de dados agrupados em k classes, então sua moda bruta é dada por:
h
M ob = LIM o + ,
2
em que
LIM O : é o limite inferior da classe modal;
h : é a amplitude da classe modal;
Então no exemplo do teor de chumbo, a partir da Tabela (10), temos que a moda bruta é dada por
h 13
M ob = LIM o + = 73, 5 + = 80
2 2
M ob = 80 ppm.
Interpretação: O valor bruto mais frequente do teor de chumbo nos pontos de sondagem do solo na fazenda
Ponta da Serra - Caicó-RN é de 80 ppm.
A moda é definida para dados qualitativos ou para quantitativos discretos como sendo o valor de maior
frequência na amostra. Para dados quantitativos contı́nuos a moda é o valor de maior densidade. Portanto para
dados quantitativos contı́nuos o estimador da moda é baseado na distribuição de frequências. Esse estimador busca
encontrar o ponto de máximo do polı́gono de frequências.
O estimador da moda para dados quantitativos contı́nuos é definido a partir da distribuição de frequência
por meio de um método geométrico, a partir do histograma de frequências (Método de Czuber). Este método é
baseado na influência que as classes adjacentes exercem sobre a moda, deslocando-a no sentido da classe de maior
frequência, o qual conduz a seguinte expressão:
∆1
M o = LIM o + × h,
∆1 + ∆ 2
em que
LIM o : é o limite inferior da classe modal (classe mais frequente);
∆1 : é a diferença entre a classe modal e a classe anterior;
∆2 : é a diferença entre a classe modal e a classe posterior;
h : é a altura (amplitude) da classe modal;
Então no exemplo do teor de chumbo, a partir da Tabela (3), temos que a moda de Czuber é dada por
∆1 9
Mo = LIM o + × h = 73, 5 + × 13
∆1 + ∆ 2 9 + 26
Mo = 76, 84 ppm.
Interpretação: O valor mais frequente do teor de chumbo nos pontos de sondagem do solo na fazenda Ponta
da Serra - Caicó-RN é de 76, 84 ppm.
Observação: Quando a classe modal é a primeira classe então não há classe anterior e, portanto, ∆1 é a própria
frequência absoluta da primeira classe f1 , pois a frequência absoluta da classe anterior é zero já que ela não existe,
ou seja
∆1 = f1 − 0 = f1 .
Analogamente, quando a classe modal é a última classe então não há classe posterior e, portanto, ∆2 é a própria
frequência absoluta da última classe fk , pois a frequência absoluta da classe posterior é zero já que ela não existe,
ou seja
∆2 = fk − 0 = fk .
A Figura (13) mostra geometricamente a obtenção da Moda para dados agrupados em classes pelo método
de Czuber.
Por E traça-se a reta FG, paralela ao eixo das classes, obtendo assim, os segmentos EF e EG, que representam
as alturas dos triângulos ABE e CDE. Sendo LIM o o limite inferior da classe modal, LSM o o limite superior e x
a distância entre LIM o e a moda (Mo), verifica-se na Figura (13) que:
M o = LIM o + x (14)
Como os triângulos ABE e CDE são semelhantes (pois possuem dois ângulos iguais) segue que:
EF EG x h−x
= ⇔ =
AB CD ∆1 ∆2
Resolvendo a equação em função de x obtemos
x∆2 = ∆1 (h − x)
x∆2 = ∆1 h − ∆1 x
x∆2 + ∆1 x = ∆1 h
x (∆1 + ∆2 ) = ∆1 h
∆1 h
x =
∆1 + ∆ 2
Desse forma temos que
∆1
x= ×h (15)
∆1 + ∆ 2
Substituindo (15) em (14) obtemos finalmente a expressão para a Moda pelo método de Czuber
Mo = LIM o + x
∆1
Mo = LIM o + ×h
∆1 + ∆ 2
O estimador da moda pode também ser considerado como o valor médio da classe modal (moda bruta), como
é apresentado por diversos autores. A justificativa é dada pela hipótese tabular básica, que diz que todos os valores
de uma classe são iguais ao seu ponto médio.
Como neste caso a classe modal é a de maior frequência, a moda é considerada como igual a este ponto médio.
Nesse material o método geométrico anteriormente apresentado é considerado, por ser considerado mais eficiente.
Fato: Se a distribuição de frequências for perfeitamente simétrica então temos que ∆1 = ∆2 , e o valor modal
para este caso particular se resume na moda bruta, ou seja,
h
M o = LIM o + .
2
É conveniente comentar que as calculadoras eletrônicas não fornecem os cálculos da mediana e da moda, o
que para grandes conjuntos de dados, seus cálculos exatos podem ser extremamente laborioso. A moda de Czuber
é mais apurada para o conjunto de dados, ou seja, é mais refinada no que diz respeito ao valor modal em relação
a moda bruta. Na prática, quando o conjunto de dados é muito grande então a moda de Czuber e a moda bruta
são bem próximas.
Para avaliar o grau de variabilidade ou dispersão dos valores de um conjunto de dados agrupados em classes,
usaremos as medidas de dispersão já estudadas para o caso de dados não agrupados. Essas medidas nos propor-
cionarão um conhecimento mais completo do fenômeno a ser analisado, permitindo estabelecer comparações entre
fenômenos da mesma natureza e mostrando até que ponto os valores se distribuem acima ou abaixo da medida de
tendência central.
Nesse Capı́tulo apresentamos a seguir a variância e o desvio padrão. Para o cálculo das medidas de dispersão
tais como a variância e o desvio padrão é necessário acrescentar algumas colunas na Tabela (10) conforme mostra
a Tabela (11):
Para o caso de dados agrupados em classes a variância populacional e amostral são dadas respectivamente
por:
em que:
Xi : é o ponto médio da i-ésima classe, i = 1, 2, ..., k.
fi : é o frequência absoluta da i-ésima classe, i = 1, 2, ..., k.
k k
!2
1 X 1 X
S2 = fi Xi2 − fi Xi
n − 1 i=1 n i=1
" #
2
1 (20.391)
= 1.713.193 −
270 − 1 270
S2 = 643, 94 ppm2 .
Para o caso de dados agrupados em classes o desvio padrão populacional e amostral são dados respectivamente
por:
em que
Xi : é o ponto médio da i-ésima classe, i = 1, 2, ..., k.
fi : é o frequência absoluta da i-ésima classe, i = 1, 2, ..., k.
√ p
S = S2 = 643, 94 ppm2
S = 25, 38 ppm.
O coeficiente de variação é o quociente percentual entre o desvio padrão e a média do conjunto de dados,
sendo expresso por:
S
CV = × 100%.
X
25, 38
CV = × 100%
75, 52
CV = 33, 61%.
Medidas separatrizes ou quantis são medidas que dividem o conjunto de dados ordenados (ROL) em partes
iguais em termos de quantidade de observações. Na estatı́stica descritiva usa-se frequentemente o Tercil, Quartil,
o Decil e o Percentil.
7.17.1 Tercil
Os tercis separam um conjunto de dados ordenados (ROL) em três partes iguais. A Figura abaixo mostra
graficamente a divisão do conjunto de dados por meio de dos tercis.
T1 T2 T3
em que
LITi : é o limite inferior da classe que contém o Ti , i = 1, 2, 3;
Fant : é a frequência acumulada anterior à classe que contém o Ti , i = 1, 2, 3;
fTi : é a frequência da classe que contém o Ti , i = 1, 2, 3;
h : é a altura (amplitude) da classe que contém o Ti , i = 1, 2, 3;
Cálculo do primeiro tercil (T1 ) Exemplo do teor de chumbo das amostras.
k
1
P
3 fi − Fant 1
× 270 − 76
T1 = LIT1 + i=1 × h = 60, 5 + 3 × 13
fT1 51
T1 = 64, 07 ppm.
Interpretação: 1/3 dos pontos de sondagem apresentaram um teor de chumbo abaixo de 64, 07 ppm ou
equivalentemente 2/3 dos pontos de sondagem apresentaram um teor de chumbo acima de 64, 07 ppm.
Cálculo do segundo tercil (T2 ): Exemplo do teor de chumbo das amostras.
k
2
P
3 fi − Fant 2
3 × 270 − 127
i=1
T2 = LIT2 + × h = 73, 5 + × 13
fT2 60
T2 = 84, 98 ppm.
Interpretação: 2/3 dos pontos de sondagem apresentaram um teor de chumbo abaixo de 84, 98 ppm ou
equivalentemente 1/3 dos pontos de sondagem apresentaram um teor de chumbo acima de 84, 98 ppm.
Cálculo do terceiro tercil (T3 ): Exemplo do teor de chumbo das amostras.
k
3
P
3 fi − Fant 3
× 270 − 269
T3 = LIT3 + i=1 × h = 151, 5 + 3 × 13
fT3 1
T3 = 164, 5 ppm.
Interpretação: 3/3 (100%) dos pontos de sondagem apresentaram um teor de chumbo abaixo de 164, 5 ppm.
Observação: O último tercil sempre vai assumir um valor igual ao limite superior da última classe (LSk ).
7.17.2 Quartil
Os quartis separam um conjunto de dados ordenados (ROL) em quatro partes iguais. A Figura abaixo mostra
graficamente a divisão do conjunto de dados por meio de dos quartis.
Q1 Q2 Q3 Q4
em que:
LIQi : é o limite inferior da classe que contém o Qi , i = 1, 2, 3, 4;
Fant : é a frequência acumulada anterior à classe que contém o Qi , i = 1, 2, 3, 4;
fQi : é a frequência da classe que contém o Qi , i = 1, 2, 3, 4;
h : é a altura (amplitude) da classe que contém o Qi , i = 1, 2, 3, 4;
Observação: A expressão algébrica que nos fornece o cálculo do segundo quartil (Q2 ) coincide com a expressão
da mediana, pois ambas as medidas, M e e Q2 nos fornece 50% dos dados abaixo de si mesma. Portanto, quando
nos referimos ao segundo quartil da distribuição estamos nos referindo a mediana da distribuição.
Vamos determinar o Q1 , Q2 , Q3 e Q4 no exemplo do teor de chumbo.
Cálculo do primeiro quartil (Q1 ): Exemplo do teor de chumbo das amostras.
k
1
P
4 fi − Fant 1
4 × 270 − 38
Q1 = LIQ1 + i=1 × h = 47, 5 + × 13
fQ1 38
Q1 = 57, 59 ppm.
Interpretação: 25% dos pontos de sondagem apresentaram um teor de chumbo abaixo de 57, 59 ppm ou
equivalentemente 75% dos pontos de sondagem apresentaram um teor de chumbo acima de 57, 59 ppm.
Cálculo do segundo quartil (Q2 ): Exemplo do teor de chumbo das amostras.
k
2
P
4 fi − Fant 2
× 270 − 127
Q2 = LIQ2 + i=1 × h = 73, 5 + 4 × 13
fQ2 60
Q2 = 75, 23 ppm.
Interpretação: 50% dos pontos de sondagem apresentaram um teor de chumbo abaixo de 75, 23 ppm ou
equivalentemente 50% dos pontos de sondagem apresentaram um teor de chumbo acima de 75, 23 ppm.
Observação: Podemos notar que o valor obtido de Q2 é o mesmo valor obtido da mediana M e.
Cálculo do terceiro quartil (Q3 ): Exemplo do teor de chumbo das amostras.
k
3
P
4 fi − Fant 3
× 270 − 187
Q3 = LIQ3 + i=1 × h = 86, 5 + 4 × 13
fQ3 34
Q3 = 92, 43 ppm.
Interpretação: 75% dos pontos de sondagem apresentaram um teor de chumbo abaixo de 92, 43 ppm ou
equivalentemente 25% dos pontos de sondagem apresentaram um teor de chumbo acima de 92, 43 ppm.
Cálculo do quarto quartil (Q4 ): Exemplo do teor de chumbo das amostras.
k
4
P
4 fi − Fant 4
4 × 270 − 269
Q4 = LIQ4 + i=1 × h = 151, 5 + × 13
fQ4 1
Q4 = 164, 5 ppm.
Interpretação: 100% dos pontos de sondagem apresentaram um teor de chumbo abaixo de 164, 5 ppm.
Observação: O último quartil sempre vai assumir um valor igual ao limite superior da última classe (LSk ).
7.17.3 Decil
São valores que dividem uma série de dados ordenados em dez partes iguais. A Figura abaixo mostra
graficamente a divisão do conjunto de dados por meio de dos decis.
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
em que
D1 : é o primeiro decil, deixa 10% dos elementos abaixo dele;
D2 : é o segundo decil, deixa 20% dos elementos abaixo dele;
D3 : é o terceiro decil, deixa 30% dos elementos abaixo dele;
.. .. .. .. ..
. . . . .
D10 : é o décimo decil, deixa 100% dos elementos abaixo dele;
O i-ésimo decil, i = 1, 2, ...., 10, de um conjunto de observações organizadas na forma de uma distribuição de
frequências é expresso por:
n
i
P
× f i − Fant
10 i=1
Di = LIDi + ×h
fDi
em que
LIDi : é o limite inferior da classe que contém o Di ;
Fant : é a frequência acumulada anterior à classe que contém o Di ;
fDi : é a frequência da classe que contém o Di ;
h : é a altura (amplitude) da classe que contém o Di ;
No exemplo do teor de chumbo nas amostras temos:
D1 = 42 ppm. Interpretação: 10% dos pontos de sondagem apresentaram um teor de chumbo abaixo de 42
ppm, ou equivalentemente 90% dos pontos de sondagem apresentaram um teor de chumbo acima de 42 ppm.
D2 = 52, 97 ppm. Interpretação: 20% dos pontos de sondagem apresentaram um teor de chumbo abaixo de
52, 97 ppm, ou equivalentemente 80% dos pontos de sondagem apresentaram um teor de chumbo acima de 52, 97
ppm.
D3 = 61, 77 ppm. Interpretação: 30% dos pontos de sondagem apresentaram um teor de chumbo abaixo de
61, 77 ppm, ou equivalentemente 70% dos pontos de sondagem apresentaram um teor de chumbo acima de 61, 77
ppm.
D4 = 68, 66 ppm. Interpretação: 40% dos pontos de sondagem apresentaram um teor de chumbo abaixo de
68, 66 ppm, ou equivalentemente 60% dos pontos de sondagem apresentaram um teor de chumbo acima de 68, 66
ppm.
D5 = 75, 23 ppm. Interpretação: 50% dos pontos de sondagem apresentaram um teor de chumbo abaixo de
75, 23 ppm, ou equivalentemente 50% dos pontos de sondagem apresentaram um teor de chumbo acima de 75, 23
ppm.
D6 = 81, 08 ppm. Interpretação: 60% dos pontos de sondagem apresentaram um teor de chumbo abaixo de
81, 08 ppm, ou equivalentemente 40% dos pontos de sondagem apresentaram um teor de chumbo acima de 81, 08
ppm.
D7 = 87, 26 ppm. Interpretação: 70% dos pontos de sondagem apresentaram um teor de chumbo abaixo de
87, 26 ppm, ou equivalentemente 30% dos pontos de sondagem apresentaram um teor de chumbo acima de 87, 26
ppm.
D8 = 97, 59 ppm. Interpretação: 80% dos pontos de sondagem apresentaram um teor de chumbo abaixo de
97, 59 ppm, ou equivalentemente 20% dos pontos de sondagem apresentaram um teor de chumbo acima de 97, 59
ppm.
D9 = 109, 03 ppm. Interpretação: 90% dos pontos de sondagem apresentaram um teor de chumbo abaixo de
109, 03 ppm, ou equivalentemente 10% dos pontos de sondagem apresentaram um teor de chumbo acima de 109, 03
ppm.
D10 = 164, 5 ppm. Interpretação: 100% dos pontos de sondagem apresentaram um teor de chumbo abaixo de
164, 5 ppm.
7.17.4 Percentil
São valores que dividem uma série de dados ordenados em 100 partes iguais. A Figura abaixo mostra
graficamente a divisão do conjunto de dados por meio de dos percentis.
P1 P2 P3 ··· P50 P51 ··· P98 P99 P100
em que
LIPi : é o limite inferior da classe que contém o Pi ;
Fant : é a frequência acumulada anterior à classe que contém o Pi ;
fPi : é a frequência da classe que contém o Pi ;
h : é a altura (amplitude) da classe que contém o Pi ;
No exemplo do teor de chumbo nas amostras vamos determinar os percentis P33 , P84 , e P99 :
Cálculo do trigésimo terceiro percentil (P33 ): Exemplo do teor de chumbo das amostras.
k
33
P
100 fi − Fant 33
× 270 − 76
i=1
P33 = LIP33 + × h = 60, 5 + 100 × 13
fP33 51
Interpretação: 84% dos pontos de sondagem apresentaram um teor de chumbo abaixo de 102, 01 ppm, ou
equivalentemente 16% dos pontos de sondagem apresentaram um teor de chumbo acima de 102, 01 ppm.
Cálculo do nonagésimo nono percentil (P99 ): Exemplo do teor de chumbo das amostras.
k
84
P
100 fi − Fant 99
100 × 270 − 262
i=1
P99 = LIP99 + × h = 99, 5 + × 13
fP99 6
Como foi visto anteriormente, várias medidas sintetizadoras da amostra são apresentadas, destacando-se as
medidas de tendência central e as medidas de dispersão, cada qual com suas particularidades e caracterı́sticas. São
apresentadas, também, formas gráficas para avaliação da natureza da distribuição dos dados. Neste último caso por
uma inspeção empı́rica o pesquisador podia inferir que tipo de distribuição os dados de sua pesquisa apresentavam.
Naquele instante deu-se ênfase a simetria da distribuição, ou seja, se a forma da distribuição apresentava uma
concentração maior dos valores em torno do valor central e se à medida que se afastassem em ambas as direções
deste centro, o comportamento se mantinha semelhante, reduzindo-se as frequências. Uma forma de se estimar o
grau de assimetria pode ser dada pelo coeficiente de assimetria. Nesse trabalho apresentamos os três coeficientes
de assimetria mais usados:
Primeiro coeficiente de assimetria de Pearson;
Segundo coeficiente de assimetria de Pearson;
Coeficiente de assimetria via método dos momentos;
Para todos os coeficientes de assimetria acima citados vale a interpretação da Tabela (12) que apresenta a
classificação das distribuições quanto a assimetria.
Nas situações reais da pesquisa, esta informação é de grande valia, uma vez, que os processos de decisão
e estimação são baseados em distribuições simétricas. Como os dados destas pesquisas referem-se a amostras de
uma população, dificilmente o coeficiente de assimetria será exatamente igual à zero, mesmo quando proveniente
de uma distribuição sabidamente simétrica. Em geral temos distribuições aproximadamente simétricas. Por essa
razão, vários autores adotam escalas para o coeficiente de assimetria, tais como a escala abaixo:
Se CS < −0, 10 então temos uma distribuição assimétrica à esquerda ou assimétrica negativa.
Se −0, 10 < CS < 0, 10 então temos uma distribuição aproximadamente simétrica.
Se CS > 0, 10 então temos uma distribuição assimétrica à direita ou assimétrica positiva.
X − Mo
CS1 = ,
S
em que
X : é a média do conjunto de dados;
M o : é a moda de Czuber do conjundo de dados;
S : é o desvio padrão do conjunto de dados;
Podemos observar que tal medida considera apenas a distância entre a média e a moda. Em nosso exemplo
do teor de chumbo encontrado dos pontos de sondagem do solo da Fazenda Ponta da Serra, temos:
X − Mo 75, 52 − 76, 84
CS1 = =
S 25, 23
CS1 = −0, 0520
Interpretação: De acordo com o primeiro coeficiente de assimetria de Pearson, como temos −0, 10 < CS =
−0, 0520 < 0, 10 podemos afirmar que temos uma distribuição aproximadamente simétrica.
3 X − Me
CS2 =
S
em que:
X : é a média do conjunto de dados;
M e : é a mediana do conjundo de dados;
S : é o desvio padrão do conjunto de dados;
Podemos observar que tal medida considera apenas a distância entre a média e a mediana. Em nosso exemplo
do teor de chumbo encontrado dos pontos de sondagem do solo da Fazenda Ponta da Serra, temos
3 X − Me 3 (75, 52 − 75, 23)
CS2 = =
S 25, 23
CS2 = 0, 0343.
Interpretação: De acordo com o segundo coeficiente de assimetria de Pearson, como temos −0, 10 < CS =
0, 0343 < 0, 10 podemos afirmar que temos uma distribuição aproximadamente simétrica.
7.18.3 Momentos
k
P 3
fi Xi − X
3 i=1
MX = k
.
P
fi
i=1
Interpretação: De acordo com o segundo coeficiente de assimetria via métodos dos momentos, como temos
CS = 0, 2090 > 0, 10 então temos uma distribuição assimétrica positiva ou assimétrica à direita.
Uma outra medida para verificar a natureza da distribuição, é denominada de curtose. Esta é uma medida
do grau de achatamento da distribuição quando comparada ao de uma distribuição conhecida como distribuição
normal que será vista mais adiante. Apresentamos a seguir duas das principais medidas de curtose: o coeficiente
percentı́lico de curtose e o coeficiente de curtose via métodos dos momentos.
Em nosso exemplo do teor de chumbo encontrado dos pontos de sondagem do solo da Fazenda Ponta da
Serra, temos que o coeficiente percentı́lico de curtose é dado por:
Q3 − Q1 92, 43 − 57, 59
CKP = =
2 (P90 − P10 ) 2 (109, 03 − 42)
CKP = 0, 2599.
Interpretação: De acordo com o coeficiente percentı́lico de curtose temos CKP < 0, 263, então trata-se de
uma distribuição leptocúrtica.
k
P 4
fi Xi − X
4 i=1
MX = k
P
fi
i=1
Se CK < 2, 5 então temos uma distribuição leptocúrtica (mais afinilada que a distribuição normal).
Se CK > 3, 5 então temos uma distribuição platicúrtica (mais achatada que a distribuição normal).
Em nosso exemplo do teor de chumbo encontrado dos pontos de sondagem do solo da Fazenda Ponta da
Serra, temos que o quarto momento em relação a media é dado por:
k
P 4
fi Xi − X
4 i=1 322.207.476
MX = k
=
P 270
fi
i=1
4
MX = 1.193.361.
4
Após o cálculo do quarto momento em relação a média (MX ) considerando dados agrupados em classes,
usamos tal medida para determinar o coeficiente de curtose via métodos dos momentos da seguinte forma:
4
MX 1.193.361
CK = 2 = 643, 942
(S 2 )
CK = 2, 8779.
Interpretação: De acordo com o segundo coeficiente de curtose via métodos dos momentos, como temos
2, 5 < CK = 2, 8779 < 3, 5 então temos uma distribuição aproximadamente mesocúrtica (aproximadamente nor-
mal).
a. Encontre a largura mediana e a largura modal das chapas de aço de cada uma das três máquinas.
b. Encontre o Coeficiente de Variação Amostral de cada uma das três máquinas para apontar qual delas
apresentou a maior variabilidade na largura.
Compare a variabilidade da concentração de mercúrio das três ETA’s por meio do Coeficiente de Variação e
faça comentários pertinentes.
Exercı́cio 3: Aplicações na agroindústria. Em uma grande propriedade rural situada na Região Oeste
da Bahia é cultivada a Soja. Para analisar a qualidade do solo, foi realizada uma sondagem em 50 pontos diferentes
na área e foi medido o nı́vel de Potássio (em mg/m3 ) e o teor de acidez P h. As Tabelas abaixo apresentam os
resultados obtidos nessa propriedade:
Exercı́cio 4: Aplicações em controle da qualidade da água. Foi medido o teor de chumbo (em ppm)
das estações de tratamento de água de quatro cidades diferentes e os resultados foram X1 , X2 , X3 , X4 . Sabendo
que X = 35 ppm, A = 18 ppm, M o = 35 ppm e M e = 35 ppm, encontre o valor do teor de chumbo para cada uma
das estações de tratamento de água, isto é, encontre os valores de X1 , X2 , X3 , X4 .
Exercı́cio 5: Aplicações em dados educacionais. Em um bairro da zona Sul de São Paulo, há três
escolas estaduais nas quais a evasão escolar ocorre já há cinco anos. As autoridades das escolas divulgaram os
dados de evasão semestral em número de alunos, conforme abaixo:
Escola A 16 10 12 17 14 18 25 37 29 14
Escola B 13 12 17 43 18 10 23 15 10 11
Escola C 11 17 15 16 10 28 39 33 8 9
9
P
Sabendo que A = 342 gramas, M e = 185 gramas, M o = 223 gramas e que Xi = 1793 gramas, determine
i=1
o peso em gramas dos ratos X(1) , X(3) , X(5) e X(7) .
Grupo 1 12 78 45 30 27 34 29 88 28 9 26
Grupo 2 12 38 45 29 35 39 17 78 23 6 25
Grupo 3 19 29 25 36 29 21 10 34 35 8 29
Grupo 4 16 65 45 37 21 22 18 38 66 2 26
Grupo 5 13 27 65 30 27 28 19 31 26 7 36
Lote 1 22 18 21 17 23 21 20 20
Lote 2 28 11 23 19 22 22 22 22
Lote 3 16 26 25 27 20 23 22 16
Exercı́cio 9: Aplicações nas empresas. Foi realizada uma pesquisa de salários em uma grande empresa
multinacional. Foi analisada uma amostra de n = 9 funcionários desta empresa em que foi anotado o salário (em
dólares) de cada um deles e os dados ordenados crescentemente estão abaixo:
9
P
Sabendo que A = 3420 dólares, M e = 1850 dólares, M o = 2230 dólares e que Xi = 17930 dólares
i=1
determine:
a. O salário dos funcionários X(1) , X(3) , X(5) e X(7) .
b. O coeficiente de variação amostral CV . Ajuda: Encontre primeiramente a média X e o desvio-padrão
amostral S.
Exercı́cio 10: Aplicações gerais. Seja um conjunto de dados formado por (50, 80, 40, 60, X5 ) onde X = 55.
n
P
Qual o valor de X5 ? Ajuda: Use o fato de que Xi = nX.
i=1
Exercı́cio 11: Aplicações em biologia. Foram pesados quinze coelhos cobaias em um laboratório de
pesquisa após certo tratamento, e os resultados encontram-se abaixo (pesos em gramas):
502 426 545 546 334 443 509 549 463 538 717 433 517 598 564
7 7
Xi2 = 140, encontre a média amostral X,
P P
Exercı́cio 12: Aplicações gerais. Sabendo que Xi = 28 e
i=1 i=1
o desvio-padrão amostral S e o coeficiente de variação CV . Ajuda: Use o fato de que a variância amostral dada
n 2
1
por S 2 = n−1
P
Xi − X também pode ser reescrita como:
i=1
n n 2
1 X 2 2X X nX
S2 = Xi − Xi + .
n − 1 i=1 n − 1 i=1 n−1
Exercı́cio 13: Aplicações sanitárias e em saúde pública. Em uma fiscalização da vigilância sanitária
foram auditados todos os N restaurantes de grande porte do municı́pio de Barreiras, em que que foram pontuados
as irregularidades encontradas em cada um dos N estabelecimentos. Considere a variável quantitativa X como
N N
Xi2 = 140. Sabendo
P P
sendo o número de irregularidades encontradas. Os resultados foram tais que Xi = 30 e
i=1 i=1
que a variância populacional encontrada foi de σ 2 = 5, quantos restaurantes de grande porte foram auditados?
Em outras palavras, qual o valor de N ? Ajuda: Para encontrar o valor de N use o fato de que a variância
N N
2
populacional expressa por σ 2 = N1 (Xi − µ) também pode ser expressa por σ 2 = N1 Xi2 − µ2 . Em seguida,
P P
i=1 i=1
utilize a equação do segundo
√
grau dada por ax2 + bx + c = 0, (a 6= 0) com ∆ = b2 − 4ac, e determine as raı́zes
reais por meio de x = −b± 2a
∆
. Mostre que há dois possı́veis valores para N , isto é, há duas raı́zes que podem ser
0 00
tratadas como a quantidade de restaurantes auditados, N e N .
a. Encontre o coeficiente de variação CV. Ajuda: Encontre primeiramente a média X. Para encontrar o
n 2
1
desvio-padrão amostral S, use o fato de que a variância amostral dada por S 2 = n−1
P
Xi − X também pode
i=1
ser reescrita como:
n n 2
1 X 2 2X X nX
S2 = Xi − Xi + .
n − 1 i=1 n − 1 i=1 n−1
b. Use as propriedades do somatório para encontrar o valor numérico da expressão
12
1 Xh 2 2
i
4Xi (2Xi − 6) − 8
73 i=1
Exercı́cio 15: Aplicações gerais. Considere um conjunto quantitativo de dados X1 , X2 , ..., X6 tal que
6 6 6 6
Xi2 = 91, Xi3 = 441 e Xi4 = 2275.
P P P P
Xi = 21,
i=1 i=1 i=1 i=1
Exercı́cio 16. Seja um conjunto de dados quantitativos formado por X1 , X2 , ..., Xn e seja Yi = Xi X,
2
i = 1, 2, ..., n. Mostre que a média da variável Y é o quadrado da média da variável X, isto é, mostre que Y = X .
Exercı́cio 17. Seja um conjunto de dados quantitativos formado por X1 , X2 , ..., Xn e seja Yi = X X
i
, i =
1, 2, ..., n. Mostre que a média da variável Y é a constante 1, independentemente dos valores da variável X, isto é,
mostre que Y = 1.
Exercı́cio 18. Seja um conjunto de dados quantitativos formado por X1 , X2 , ..., Xn e seja outro conjunto
de dados quantitativos formado por Y1 , Y2 , ..., Yn tal que Yi > Xi , i = 1, 2, ..., n. Em outras palavras, temos dois
conjuntos de dados quantitativos de mesma dimensão tal que Y1 > X1 , Y2 > X2 , ..., Yn > Xn . Mostre que, nesse
contexto, a média da variável Y é maior que a média da variável X, isto é, mostre que Y > X. Ajuda: Sabemos
que, se Yi > Xi , então Yi − Xi = bi > 0, i = 1, 2, ..., n, o que implica em Yi = Xi + bi , i = 1, 2, ..., n.
Exercı́cio 19. Sejam a e b duas constantes arbitrárias (a, b ∈ R) tal que a < b. Seja X1 , X2 , ..., Xn um
conjunto de dados quantitativos tal que a < Xi < b, i = 1, 2, ..., n. Mostre que a média da variável X também está
entre as constantes a e b, isto é, a < X < b.
Exercı́cio 20. Considere X1 , X2 , ..., XN um conjunto de dados quantitativos com média µ e seja (Xi − µ)
o i-ésimo desvio em relação a média, i = 1, 2, ..., N . Mostre que a soma de todos os desvios de um conjunto
quantitativo de dados é sempre nula, isto é, mostre que
N
X
(Xi − µ) = 0.
i=1
2
Exercı́cio
Seja X1 , X2 , ..., XN um conjunto de dados quantitativos com média µX e variância σX .
21.
Seja Zi = Xiσ−µ
X
X
, i = 1, 2, ..., N . Mostre que a média populacional e a variância populacional da variável Z,
2 2
denotados respectivamente por µZ e σZ são µZ = 0 e σZ = 1.
X−µX
Observação: A variável Z = σX é conhecida como variável padronizada.
N
1 2
Exercı́cio 22. Mostre que a variância populacional dada por σ 2 =
P
N (Xi − µ) também pode ser expressa
i=1
por
N
1 X 2
σ2 = X − µ2 .
N i=1 i
2
Exercı́cio 23. Seja um conjunto de dados formado por X1 , X2 , ..., Xn com média µX e variância σX . Seja
2
outro conjunto de dados formado por Y1 , Y2 , ..., Yn com média µY e variância σY . Seja Zi = Xi + Yi , i = 1, 2, ..., n.
2
Mostre que a variância de Z1 , Z2 , ..., Zn denominada de σZ é dada por
n
!
2 2 2 1X
σZ = σX + σY + 2 Xi Yi − µX µY
n i=1
Exercı́cio 1. Um grande jornal de São Paulo deseja entender o movimento de assinaturas segundo a faixa etária
de seus assinantes. A proposta é avaliar o perfil do assinante para o lançamento de campanhas promocionais.
Distribuição amostral de idades do Jornal ”A”.
Idade (em anos) Frequência fi
15 ` 20 18
20 ` 25 42
25 ` 30 78
30 ` 35 115
35 ` 40 178
40 ` 45 107
45 ` 50 88
50 ` 55 52
55 ` 60 30
60 ` 65 11
Exercı́cio 2. A tabela abaixo apresenta as estatı́sticas brasileiras para as mortes em acidentes nas estradas
estaduais e federais, segundo a idade (2000 a 2002).
Distribuição amostral das mortes em acidentes de trânsito
em rodovias estaduais e federais do Brasil (2000 a 2002).
Idade (em anos) Frequência fi
15 ` 20 427
20 ` 25 672
25 ` 30 781
30 ` 35 896
35 ` 40 2469
40 ` 45 2107
45 ` 50 588
50 ` 55 252
55 ` 60 130
60 ` 65 109
Exercı́cio 3. Na Tabela abaixo temos a distribuição dos salários dos funcionários da Companhia A, em reais,
no ano de 2001.
Exercı́cio 4. Na Tabela abaixo temos a distribuição dos salários de 176 funcionários do Banco ALFA.
Exercı́cio 5. Uma amostra do tempo de vida útil de uma peça forneceu a seguinte distribuição:
Exercı́cio 6. O gerente de uma loja de departamentos decidiu premiar com um brinde 10% dos clientes que
consumirem mais no mês de outubro. Para isso ele verificou a distribuição amostral do consumo por nota da loja
”A”em reais no ano de 2002.
Distribuição do consumo por nota da loja ”A”
em reais no ano de 2002.
Consumo por nota (R$) frequência fi
0 ` 50 10
50 ` 100 28
100 ` 150 12
150 ` 200 2
200 ` 250 1
250 ` 300 1
Exercı́cio 7. A tabela abaixo apresenta a distribuição do consumo de energia elétrica (em Kw/h) em 2002.
Exercı́cio 8. A tabela abaixo apresenta a distribuição de vendas semanais por vendedor (em reais) em 2002.
Exercı́cio 9. A tabela abaixo apresenta a distribuição amostral de notas de 500 alunos em um teste de geografia:
Exercı́cio 10. A tabela abaixo apresenta a distribuição amostral de idades dos membros de um sindicato:
Idade frequência
15 ` 20 18
20 ` 25 42
25 ` 30 78
30 ` 35 115
35 ` 40 178
40 ` 45 107
45 ` 50 88
50 ` 55 52
55 ` 60 30
60 ` 65 11
Total: 719
Exercı́cio 11. Com o objetivo de verificar quanto tempo demora para um certo medicamento fazer efeito,
realizou-se uma pesquisa onde foi anotado o tempo (em minutos) de 333 pessoas que tomaram tal medicamento.
Devido a alguns problemas práticos de coleta de informações e por falta de treinamento do pessoal, perdeu-se
algumas informações a respeito dos dados agrupados, conforme mostra a tabela de distribuição de frequências
abaixo. Complete corretamente a tabela e determine o que se pede.
Parte III
Probabilidade e Variáveis Aleatórias
A origem e o desenvolvimento da teoria das probabilidades encontram-se nos jogos de azar por volta do século
XVII. Na sociedade francesa em 1650, por exemplo, o jogo era hábito popular e elegante.
Ainda hoje em tempos contemporâneos há muitas aplicações que envolvem jogos de azar, tais como os diversos
tipos de loterias, os cassinos, as corridas de cavalos, etc. Hoje em dia, os governos, as empresas, as organizações
profissionais, incorporam a teoria das probabilidades em seus processos de deliberações, pois a probabilidade auxilia
a desenvolver estratégias.
Experimentos determinı́sticos: São aqueles que, repetidos várias vezes, produzem resultados idênticos.
Experimentos probabilı́sticos ou aleatórios: São aqueles que, repetidos várias vezes, produzem resulta-
dos distintos.
Ω = {1, 2, 3, 4, 5, 6}
Exemplo 3. Lançar uma moeda indefinidamente, parar quando obter a primeira cara e contar o número de
coroas obtidas.
Ω = {0, 1, 2, 3, ...}
Exemplo 4. Escolher ao acaso uma famı́lia da população e contar o número de filhos desta famı́lia.
Ω = {0, 1, 2, 3, ...}
Exemplo com eventos. Considere o lançamento de um dado e observe a face voltada para cima. Temos
então que Ω = {1, 2, 3, 4, 5, 6}. Agora considere os seguintes eventos:
A = {2, 4, 6}.
B = {1, 2, 3}.
C = {1, 3, 5}.
D = {6}.
E = {} = ∅.
F = Ω.
A figura abaixo apresenta a representação do espaço amostral e dos eventos associados a ele:
A teoria dos conjuntos é um ramo da matemática extremamente útil no estudo probabilı́stico de eventos uma
vez que os eventos nada mais são que subconjuntos de um espaço amostral. Consideremos um espaço amostral
finito dado por
Ω = {ω1 , ω2 , ..., ωn }
então temos três operações básicas com eventos aleatórios: união, intersecão e complementação.
União: Sejam A e B dois eventos quaisquer associados ao espaço amostral Ω. Então A ∪ B é o evento
formado pelos pontos amostrais ω que pertencem a pelo menos um dos eventos A e B.
Definição: A ∪ B = {ω ∈ Ω : ω ∈ A ou ω ∈ B}.
Intersecção: Sejam A e B dois eventos quaisquer associados ao espaço amostral Ω. Então A ∩ B é o evento
formado pelos pontos amostrais ω que pertencem simultaneamente aos eventos A e B.
Definição: A ∩ B = {ω ∈ Ω : ω ∈ A e ω ∈ B}
Exemplo 2. Considere o lançamento de um dado e observe a face voltada para cima. Temos então que o
espaço amostral deste experimento aleatório é Ω = {1, 2, 3, 4, 5, 6}. Agora considere os seguintes eventos:
Evento A ∪ B.
Evento A ∩ B.
Evento A ∪ C.
Evento A ∩ C.
Evento B ∪ C.
Evento B ∩ C.
Evento A ∪ E.
Evento A ∩ E.
Evento A ∪ D.
Evento A ∩ D.
A = {2, 4, 6}.
B = {1, 2, 3}.
C = {1, 3, 5}.
D = {6}.
E = {} = ∅.
F = Ω.
A ∪ B = {1, 2, 3, 4, 6}
A ∩ B = {2}
A ∪ C = {1, 2, 3, 4, 5, 6} = Ω
A ∩ C = {} = ∅
B ∪ C = {1, 2, 3, 5}
B ∩ C = {1, 3}
A ∪ E = {2, 4, 6} = A
A ∩ E = {} = ∅
A ∪ D = {2, 4, 6} = A
A ∩ D = {6}
Com base nas três operações básicas dos conjuntos seguem as seguintes propriedades
c. associativas A ∩ (B ∩ C) = (A ∩ B) ∩ C A ∪ (B ∪ C) = (A ∪ B) ∪ C
d. Distributivas A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
e. Absorções A ∪ (A ∩ B) = A A ∩ (A ∪ B) = A
A∩∅=∅ A∪∅=A
g. Complementares ΩC = ∅ ∅C = Ω
A ∩ AC = ∅ A ∪ AC = Ω
C
AC =A
C C
h. Leis de Morgan (A ∩ B) = AC ∪ B C (A ∪ B) = AC ∩ B C
a. A∩B b. A∪B c. A ∩ BC d. AC ∩ B
Resolução: temos que o espaço amostral Ω é dado por Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} e, então, os eventos são
dados por
A = {3, 6, 9} e B = {2, 4, 6, 8, 10}
Então temos
a. A ∩ B = {6}
b. A ∪ B = {2, 3, 4, 6, 8, 9, 10}
c. A ∩ B C = A − B = {3, 9}
d. AC ∩ B = B − A = {2, 4, 8, 10}
Exemplo 2.) Considere a experiência que consiste em pesquisar famı́lias com três crianças, em relação ao
sexo das mesmas, segundo a ordem de nascimento. Enumerar o espaço amostral e os eventos abaixo:
A: Ocorrência de dois filhos do sexo masculino.
B: Ocorrência de pelo menos um filho do sexo masculino.
C: Ocorrência de no máximo duas crianças do sexo feminino.
Exercı́cio proposto: Sejam A, B e C três eventos de um espaço amostral. Exprimir os eventos abaixo,
usando as operações união, intersecção e complementação:
a) somente A ocorre.
b) A e C ocorrem, mas B não.
c) A, B e C ocorrem.
d) Pelo menos um ocorre.
e) exatamente um ocorre.
f) nenhum ocorre.
g) exatamente dois ocorrem.
h) pelo menos dois ocorrem.
i) no máximo dois ocorrem.
Respostas:
a) A ∩ B C ∩ C C
b) A ∩ C ∩ B C
c) A ∩ B ∩ C
d) A ∪ B ∪ C
e) A ∩ B C ∩ C C ∪ AC ∩ B ∩ C C ∪ AC ∩ B C ∩ C
f) AC ∩ B C ∩ CC
g) A ∩ B ∩ C C ∪ A ∩ B C ∩ C ∪ AC ∩ B ∩ C
h) A ∩ B ∩ C C ∪ A ∩ B C ∩ C ∪ AC ∩ B ∩ C ∪ (A ∩ B ∩ C)
C
i) (A ∩ B ∩ C)
10 Probabilidades
c) P (f ace ı́mpar ou f ace maior do que 2) = P ({1, 3, 4, 5, 6}) = 5/6 = 0, 833 ou 83, 3%.
d) P (f ace maior do 2 e f ace ı́mpar) = P ({3, 5)} = 2/6 = 1/3 = 0, 333 ou 33, 3%.
Definição axiomática de probabilidade: Probabilidade é uma função P que liga partes do espaço amos-
tral, ou seja, os eventos, ao intervalo [0, 1], obedecendo os seguintes axiomas:
0 ≤ P (A) ≤ 1.
ii. Se Ω é o espaço amostral, então
P (Ω) = 1.
iii. Sejam A1 , A2 , ..., An eventos dois a dois disjuntos, isto é, dois a dois mutuamente exclusivos, então
n
! n
[ X
P Ai = P (Ai ) .
i=1 i=1
Dizemos que A1 , A2 , ..., An são eventos que formam uma partição do espaço amostral se:
Ai 6= φ
Ai ∩ Aj = φ, com i = 1, 2, ..., n e j 6= i
n
S
Ai = Ω
i=1
Sejam A1 , A2 , ..., An eventos que formam uma partição do espaço amostral e B um outro evento associado ao
espaço amostral Ω, conforme figura abaixo:
Então
n
X
P (B) = P (B|Ai ) P (Ai )
i=1
Teorema de Bayes: Sejam A1 , A2 , ..., An eventos que formam uma partição do espaço amostral e B um
outro evento associado ao espaço amostral Ω, conforme figura abaixo:
P (B|Ai ) P (Ai )
P (Ai |B) = P
n
P (B|Ai ) P (Ai )
i=1
O setor de controle de qualidade desta montadora de eletrodomésticos seleciona ao acaso uma peça da
produção mensal.
a. Encontrar a probabilidade a priori da peça selecionada ser defeituosa.
b. Encontrar a probabilidade a posteriori da peça selecionada ter sido fabricado pela fábrica F3 dado que é
defeituosa.
Resolução do item a. Temos que a quantidade total mensal de peças produzidas pelas 4 fábricas é 15000.
Consideramos os seguintes eventos:
4
X
P (D) = P (D|Fi ) P (Fi )
i=1
= P (D|F1 ) P (F1 ) + P (D|F2 ) P (F2 ) + P (D|F3 ) P (F3 ) + P (D|F4 ) P (F4 )
132 3300 405 6750 180 2250 297 2700
= × + × + × + ×
3300 15000 6750 15000 2250 15000 2700 15000
P (D) = 0, 0676.
Dessa maneira, a probabilidade a priori da peça selecionada ser defeituosa é P (D) = 0, 0676 ou 6, 76%.
P (D|F3 ) P (F3 )
P (F3 |D) = 4
P
P (D|Fi ) P (Fi )
i=1
180 2250
2250 × 15000
=
0, 0676
P (F3 |D) = 0, 1775.
Então, a probabilidade a posteriori da peça selecionada ter sido fabricado pela fábrica F3 dado que é defeituosa
é P (F3 |D) = 0, 1775 ou 17, 75%.
Definição de variável aleatória: Uma variável aleatória X é uma função que liga partes do espaço amostral
Ω à reta real, isto é,
X : Ω −→ R.
Denota-se uma variável por letra maiúscula (por exemplo X, Y , Z) e os valores assumidos por ela por letra
minúscula (x, y, z).
Definição de variável aleatória discreta: Se X é uma variável aleatória (v.a) que assume pontos da reta
x1 , x2 , ..., xn , então dizemos que X é uma variável aleatória discreta (v.a.d ) se:
n
X
(ii) P (X = xk ) = 1.
k=1
Alguns exemplos de variáveis aleatórias discretas (v.a.d ) são: número de filhos por famı́lia, número de aci-
dentes de trânsito numa certa rodovia, número de ovos depositados por um inseto, número de peças defeituosas,
número de clientes insatisfeitos, número de alunos reprovados, etc.
Suponha o lançamento de 4 moedas honestas (equilibradas), ou seja, quatro moedas com resultados equi-
prováveis: para cada moeda temos a probabilidade igual a 0, 50 (ou 50%) de ocorrer cara e 0, 50 (ou 50%) de
ocorrer coroa.
(cccc) (ccck) (cckc) (cckk) (ckcc) (ckck) (ckkc) (ckkk)
Ω=
(kccc) (kcck) (kckc) (kckk) (kkcc) (kkck) (kkkc) (kkkk)
Considere X uma variável aleatória discreta (v.a.d ) que conta o número de caras obtidas neste experimento
aleatório. Então os possı́veis valores que X pode assumir é X = 0, 1, 2, 3, 4, conforme ilustração a seguir:
Observe que cada parte do espaço amostral Ω deste experimento aleatório está associado a um dos cinco
pontos da reta. Desta forma temos a seguinte distribuição de probabilidades:
P (X = 0) = 1/16;
P (X = 1) = 4/16;
P (X = 2) = 6/16;
P (X = 3) = 4/16;
P (X = 4) = 1/16.
Note que cada probabilidade está no intervalo [0, 1] e a soma de todas as probabilidades vale 1, isto é,
4
X
P (X = k) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4)
k=0
1 4 6 4 1
= + + + +
16 16 16 16 16
16
=
16
4
X
P (X = k) = 1.
k=0
F (x) = P (X ≤ x) .
Em nosso exemplo do lançamento das quatro moedas honestas onde temos X = 0, 1, 2, 3, 4, segue que a função
distribuição para cada um dos valores que essa v.a.d assume é dada por
1
F (0) = P (X ≤ 0) = P (X = 0) =
16
5
F (1) = P (X ≤ 1) = P (X = 0) + P (X = 1) =
16
11
F (2) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) =
16
15
F (3) = P (X ≤ 3) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) =
16
16
F (4) = P (X ≤ 4) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) = = 1.
16
X
E (X) = kP (X = k) .
k
A esperança matemática pode ser interpretada como a média dos resultados de um experimento aleatório,
quando este é realizado muitas vezes. Em nosso exemplo do lançamento das 4 moedas temos:
4
X
E (X) = kP (X = k)
k=0
=
0P (X = 0) + 1P (X = 1) + 2P (X = 2) + 3P (X = 3) + 4P (X = 4)
1 4 6 4 1
= 0× +1× +2× +3× +4×
16 16 16 16 16
32
=
16
E (X) = 2 caras.
Interpretação: Neste exemplo esperamos um número médio de 2 caras, isto é, ao repetir este experimento
aleatório muitas vezes, a média a longo prazo dos resultados obtidos será de 2 caras.
A variância de uma variável aleatória é definida pela diferença entre a esperança do segundo momento de X
e o quadrado da esperança do primeiro momento de X, isto é,
2
V ar (X) = E X 2 − [E (X)] ,
em que
X 2
E X2 = k P (X = k) .
k
Em nosso exemplo do lançamento das quatro moedas honestas temos que a esperança do segundo momento
é dada por:
4
X
E X2 k 2 P (X = k)
=
k=0
= 0 P (X = 0) + 12 P (X = 1) + 22 P (X = 2) + 32 P (X = 3) + 42 P (X = 4)
2
1 4 6 4 1
= 0× +1× +4× +9× + 16 ×
16 16 16 16 16
80
=
16
E X2 = 5 caras2 .
2
= E X 2 − [E (X)] = 5 − 22 = 1 cara2
V ar (X)
V ar (X) = 1 cara2 .
p √
σ (X) = V ar (X) = 1 cara2 = 1 cara
σ (X) = 1 cara.
As propriedades da esperança matemática e da variância de uma variável aleatória são de extrema importância
para os principais tópicos em inferência estatı́stica, como a teoria da amostragem e a estimação de parâmetros
populacionais, que serão estudados posteriormente. Veremos posteriormente neste material didático que próprio
conceito de amostra aleatória envolve a aplicação direta das propriedades da esperança e da variância.
Considere X uma Variável aleatória e c uma constante arbitrária, tal que c ∈ R. Então
E (c) = c
Propriedade 2. A esperança de uma v.a X adicionado ou subtraı́do uma constante c, é dada por
E (X ± c) = E (X) ± c.
Propriedade 3. A esperança de uma v.a X multiplicada por uma constante c, é dada por
E (Xc) = E (X) c.
E (a ± bX) = a ± bE (X) .
Propriedade 5. Sejam X e Y duas v.as, então a esperança da soma ou da diferença é a soma ou diferença
das esperanças.
E (X ± Y ) = E (X) ± E (Y ) .
Observação: Esta propriedade vale para mais de 2 Variáveis aleatórias.
Propriedade 6. Considere X1 , X2 , ..., Xn Variáveis aleatórias. Então a esperança da soma é a soma das
esperanças.
n
! n
X X
E Xi = E (Xi ) .
i=1 i=1
n
! n
Y Y
E Xi = E (Xi ) .
i=1 i=1
V ar (c) = 0.
Propriedade 2. A variância de uma v.a X adicionado ou subtraı́do uma constante c, é a própria variância
de X
V ar (X ± c) = V ar (X) .
Propriedade 3. A variância de uma v.a X multiplicada por uma constante c, é a variância de X multiplicada
pela constante c ao quadrado.
V ar (Xc) = V ar (X) c2 .
V ar (a ± bX) = b2 V ar (X) .
Propriedade 5. Sejam X e Y duas v.as, então a variância da soma ou da diferença é dada por.
Propriedade 6. Considere X1 , X2 , ..., Xn variáveis aleatórias. Então a variância da soma é dada por
n
! n n X
X X X
V ar Xi = V ar (Xi ) + COV (Xi Xj ) .
i=1 i=1 i=1 j6=i
Observação: Se X1 , X2 , ..., Xn são variáveis aleatórias independentes, então a variância da soma é a soma
das variâncias
n
! n
X X
V ar Xi = V ar (Xi )
i=1 i=1
Consideremos duas variáveis aleatórias X e Y . Sabemos, a partir das propriedades da esperança, que a
esperança da soma é a soma das esperanças. De forma análoga, a esperança da diferença é a diferença das
esperanças, ou seja:
E (X + Y ) = E (X) + E (Y )
E (X − Y ) = E (X) − E (Y )
em que Cov (X, Y ) denota a covariância entre as variáveis X e Y , dada pela esperança do produto menos o
produto das esperanças, ou seja:
Considere X e Y duas variáveis aleatórias que assumem de forma equiprovável os seguintes valores:
Variável X : 4 10 8 6 10 5 10 5
Variável Y : 12 20 16 20 24 18 16 20
Vamos encontrar a esperança e a variância de cada uma das variáveis. Encontremos primeiramente E (X) e
V ar (X):
8
X
E (X) = kP (X = k)
k=1
= 4P (X = 4) + 10P (X = 10) + 8P (X = 8) + 6P (X = 6) + 10P (X = 10)
+
5P (X = 5) + 10P (X = 10) + 5P (X = 5)
1 1 1 1 1 1 1 1
= 4 × + 10 × + 8 × + 6 × + 10 × + 5 × + 10 × + 5 ×
8 8 8 8 8 8 8 8
1
= [4 + 10 + 8 + 6 + 10 + 5 + 10 + 5]
8
58
=
8
⇒ E (X) = 7, 25.
Para encontrar a variância de X vamos determinar a esperança do segundo momento E X 2 :
8
X
2
k 2 P (X = k)
E X =
k=1
= 42 P (X = 4) + 102 P (X = 10) + 82 P (X = 8) + 62 P (X = 6) + 102 P (X = 10)
+ 52 P (X = 5) + 102 P (X = 10) + 52 P (X = 5)
1 1 1 1 1 1 1 1
= 16 × + 100 × + 64 × + 36 × + 100 × + 25 × + 100 × + 25 ×
8 8 8 8 8 8 8 8
1
= [16 + 100 + 64 + 36 + 100 + 25 + 100 + 25]
8
466
=
8
⇒ E X2
= 58, 25.
2
= E X 2 − [E (X)]
V ar (X)
= 58, 25 − 7, 252
⇒ V ar (X) = 5, 6875.
Da mesma forma que procedemos com X, vamos agora encontrar a esperança e a variância de variável Y :
8
X
E (Y ) = kP (Y = k)
k=1
= 12P (Y = 12) + 20P (Y = 20) + 16P (Y = 16) + 20P (Y = 20) + 24P (Y = 24)
+
18P (Y = 18) + 16P (Y = 16) + 20P (Y = 20)
1 1 1 1 1 1 1 1
= 12 × + 20 × + 16 × + 20 × + 24 × + 18 × + 16 × + 20 ×
8 8 8 8 8 8 8 8
1
= [12 + 20 + 16 + 20 + 24 + 18 + 16 + 20]
8
146
=
8
⇒ E (Y ) = 18, 25.
Para encontrar a variância de Y vamos determinar a esperança do segundo momento E Y 2 :
8
X
2
k 2 P (Y = k)
E Y =
k=1
= 12 P (Y = 12) + 202 P (Y = 20) + 162 P (Y = 16) + 202 P (Y = 20) + 242 P (Y = 24)
2
2
E Y 2 − [E (Y )]
V ar (Y ) =
= 344, 5 − 18, 252
⇒ V ar (Y ) = 11, 4375.
Após a obtenção da esperança e da variância de X e Y , vamos considerar agora a variável S que denota a
soma das duas variáveis, isto é S = X + Y (o caso negativo é análogo). Note que os valores que S assume são
S = 16, 30, 24, 26, 34, 23, 26, 25, conforme apresentado abaixo:
X = 4 10 8 6 10 5 10 5
+ + + + + + + + +
Y = 12 20 16 20 24 18 16 20
⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓
S =X +Y = 16 30 24 26 34 23 26 25
8
X
E (S) = kP (S = k)
k=1
= 16P (S = 16) + 30P (S = 30) + 24P (S = 24) + 26P (S = 26) + 34P (S = 34)
+
23P (S = 23) + 26P (S = 26) + 25P (S = 25)
1 1 1 1 1 1 1 1
= 16 × + 30 × + 24 × + 26 × + 34 × + 23 × + 26 × + 25 ×
8 8 8 8 8 8 8 8
1
= [16 + 30 + 24 + 26 + 34 + 23 + 26 + 25]
8
204
=
8
⇒ E (S) = 25, 5.
8
X
2
k 2 P (S = k)
E S =
k=1
= 162 P (S = 16) + 302 P (S = 30) + 242 P (S = 24) + 262 P (S = 26) + 342 P (S = 34)
232 P (S = 23) + 262 P (S = 26) + 252 P (S = 25)
+
1 1 1 1 1 1 1 1
= 256 × + 900 × + 576 × + 676 × + 1156 × + 529 × + 676 × + 625 ×
8 8 8 8 8 8 8 8
1
= [256 + 900 + 576 + 676 + 1156 + 529 + 676 + 625]
8
5394
=
8
⇒ E S2
= 674, 25.
2
= E S 2 − [E (S)]
V ar (S)
= 674, 25 − 25, 52
⇒ V ar (S) = 24.
Note que, a partir dos resultados obtidos das esperanças, observamos que o valor numérico da esperança da
soma, E (X + Y ), é igual a soma das esperanças, E (X) + E (Y ), isto é,
E (S) = E (X + Y ) = 25, 5
= 7, 25 + 18, 25
= E (X) + E (Y ) .
Note também que este fato não ocorre no caso da variância, ou seja, a variância da soma não é simplesmente
a soma das variâncias, pois
V ar (S) = V ar (X + Y ) = 24
6= V ar (X) + V ar (Y ) = 17, 125
⇒ V ar (X + Y ) 6= V ar (X) + V ar (Y )
Dando continuidade ao nosso exemplo numérico, vamos encontrar a covariância entre X e Y expressa por
Cov (X, Y ) = E (XY ) − E (X) E (Y ). Encontremos primeiramente a esperança do produto E (XY ), em que XY
assume os valores XY = 48, 200, 128, 120, 240, 90, 160, 100, conforme apresentado abaixo:
X = 4 10 8 6 10 5 10 5
× × × × × × × × ×
Y = 12 20 16 20 24 18 16 20
⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓
8
X
E (XY ) = kP (XY = k)
k=1
= 48P (XY = 48) + 200P (XY = 200) + 128P (XY = 128) + 120P (XY = 120) + 240P (XY = 240)
+ 90P (XY = 90) + 160P (XY = 160) + 100P (XY = 100)
1 1 1 1 1 1 1 1
= 48 × + 200 × + 128 × + 120 × + 240 × + 90 × + 160 × + 100 ×
8 8 8 8 8 8 8 8
1
= [48 + 200 + 128 + 120 + 240 + 90 + 160 + 100]
8
1086
=
8
⇒ E (XY ) = 135, 75.
Agora que temos o valor da covariância, vamos encontrar e verificar o valor da variância da soma, isto é,
Note que, somando duas vezes a covariância, obtemos finalmente o valor da variância da soma V ar (S) = 24.
Propriedade 1. Considere X uma variável aleatória, então a covariância de X com ele mesmo é a própria
variância de X, ou seja:
Propriedade 3. Considere X e Y duas variáveis aleatórias, e sejam a e b duas constantes reais (a, b 6= 0)
então:
Demonstração de (20): Usando a definição da covariância entre X e Y expressa em (17), temos que:
Propriedade 4. Considere X e Y duas variáveis aleatórias, e sejam a e b duas constantes reais (a, b 6= 0)
então:
Demonstração de (21): Novamente a partir da definição da covariância entre X e Y expressa em (17), temos
que:
Podemos perceber que, para estas duas variáveis X e Y , temos quatro configurações de covariâncias, conforme
mostra a matriz quadrada 2 × 2 abaixo:
Como já vimos que a covariância de uma variável com ela mesma trata-se de sua covariância, então a matriz
quadrada acima se reduz na seguinte matrix 2 × 2:
Considerando agora três variáveis aleatórias X, Y e Z, temos nove configurações de covariâncias, conforme
mostra a matriz quadrada 3 × 3 abaixo:
.. .. .. .. ..
. . . . .
n
! n
X X n
V ar Xi = V ar (Xi ) + Cov (Xi Xj )
i=1 i=1
2
n
X n X
X
= V ar (Xi ) + Cov (Xi Xj ) .
i=1 i=1 j6=i
Assumindo que as variáveis aleatórias X1 , X2 , . . . , Xn sejam independentes entre si, então a matriz de
variâncias e Covariâncias de dimensão n × n é reduzida numa matriz diagonal da seguinte forma:
V ar (X1 ) 0 0 ... 0
0 V ar (X2 ) 0 ... 0
0 0 V ar (X3 ) . . . 0
.. .. .. .. ..
. . . . .
0 0 0 ... V ar (Xn )
Note que a diagonal principal da matriz é composta pelas variâncias das variáveis aleatórias X1 , X2 , . . . , Xn .
Fora da diagonal principal temos valores nulos.
Neste caso, como X1 , X2 , ..., Xn são variáveis aleatórias independentes, então a variância da soma é simples-
mente a soma das variâncias, conforme abaixo:
n
! n
X X
V ar Xi = V ar (Xi ) .
i=1 i=1
Suponha que, em um determinado jogo, o apostador faz o lançamento de dois dados independentes de seis
faces cada. Cada dado é equilibrado e numerado de 1 a 6, ou seja, cada face tem a mesma probabilidade de ocorrer.
Em outras palavras, os dois dados possuem faces equiprováveis. Para ilustrar, observe a figura abaixo:
Definamos como S a variável aleatória discreta que denota a soma das duas faces voltadas para cima. Resolver
os itens a seguir:
(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)
(2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)
(3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
Ω=
(4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)
(5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)
(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
Observe que o mı́nimo da soma dos dois dados vale 2 quando os dois dados apresentam a face número 1
voltada para cima, e o máximo vale 12 quando os dois dados apresentam a face número 6 voltada para cima.
Portanto, a soma S das duas faces voltadas para cima é uma v.a.d que assume os seguintes valores:
P (S = 2) = 1/36
P (S = 3) = 2/36
P (S = 4) = 3/36
P (S = 5) = 4/36
P (S = 6) = 5/36
P (S = 7) = 6/36
P (S = 8) = 5/36
P (S = 9) = 4/36
P (S = 10) = 3/36
P (S = 11) = 2/36
P (S = 12) = 1/36
12
X
P (S = k) = P (S = 2) + P (S = 3) + P (S = 4) + · · · + P (S = 12)
k=2
1 2 3 4 5 6 5 4 3 2 1
= + + + + + + + + + +
36 36 36 36 36 36 36 36 36 36 36
36
=
36
12
X
P (S = k) = 1.
k=2
Resolução do item b: Sabemos que, por definição, a função distribuição da variável aleatória S é expressa
por F (a) = P (S ≤ a), para a ≤ S. Portanto, a função distribuição de S é tal que:
F (2) = P (S ≤ 2) = P (S = 2) = 1/36.
F (3) = P (S ≤ 3) = P (S = 2) + P (S = 3) = 3/36.
F (4) = P (S ≤ 4) = P (S = 2) + P (S = 3) + P (S = 4) = 6/36.
F (5) = P (S ≤ 5) = P (S = 2) + P (S = 3) + P (S = 4) + P (S = 5) = 10/36.
F (6) = P (S ≤ 6) = P (S = 2) + P (S = 3) + P (S = 4) + · · · + P (S = 6) = 15/36.
F (7) = P (S ≤ 7) = P (S = 2) + P (S = 3) + P (S = 4) + · · · + P (S = 7) = 21/36.
F (8) = P (S ≤ 8) = P (S = 2) + P (S = 3) + P (S = 4) + · · · + P (S = 8) = 26/36.
F (9) = P (S ≤ 9) = P (S = 2) + P (S = 3) + P (S = 4) + · · · + P (S = 9) = 30/36.
F (10) = P (S ≤ 10) = P (S = 2) + P (S = 3) + P (S = 4) + · · · + P (S = 10) = 33/36.
F (11) = P (S ≤ 11) = P (S = 2) + P (S = 3) + P (S = 4) + · · · + P (S = 11) = 35/36.
F (12) = P (S ≤ 12) = P (S = 2) + P (S = 3) + P (S = 4) + · · · + P (S = 12) = 36/36.
Resolução do item c: Uma vez determinada a distribuição de S a sua esperança matemática é dada por:
12
X
E (S) = kP (S = k)
k=2
= 2P (S = 2) + 3P (S = 3) + 4P (S = 4) + 5P (S = 5) + 6P (S = 16) + 7P (S = 7)
+
8P (S = 8) + 9P (S = 9) + 10P (S = 10) + 11P (S = 11) + 12P (S = 12)
1 2 3 4 5 6 5 4
= 2× +3× +4× +5× +6× +7× +8× +9×
36 36 36 36 36 36 36 36
3 2 1
+ 10 × + 11 × + 12 ×
36 36 36
256
=
36
E (S) = 7.
Interpretação: O número esperado da soma das duas faces voltadas para cima neste experimento aleatório
é 7. Em outras palavras, se este experimento aleatório for repetido muitas vezes, a média dos resultados obtidos
será 7.
12
X
2
k 2 P (S = k)
E S =
k=2
= 2 P (S = 2) + 32 P (S = 3) + 42 P (S = 4) + 52 P (S = 5) + 62 P (S = 16) + 72 P (S = 7)
2
Por sua vez, sabemos que a variância de S é a diferença entre a esperança do segundo momento e o quadrado
da esperança do primeiro momento de S, isto é:
2
= E S 2 − [E (S)]
V ar (S)
329
= − 72
6
35
V ar (S) = = 5, 8333.
6
p
σ (S) = V ar (S)
r
35
=
6
σ (S) = 2, 4153.
Em uma empresa de seguros automobilı́sticos, o número X de sinistros anuais por automóvel segurado é uma
variável aleatória discreta que assume os valores 0, 1, 2, 3, 4. Sua distribuição de probabilidades é dada por:
10 − (2k + 1)
P (X = k) = , para k = 0, 1, 2, 3, 4.
25
a. Determine e interprete a esperança do número de sinistros anuais para cada automóvel segurado.
b. Determine a variância e o desvio-padrão do número de sinistros anuais para cada automóvel segurado.
Resolução do item a. Para calcular a esperança matemática da variável X vamos determinar primeiramente
a sua distribuição de probabilidades:
Para k = 0, temos P (X = 0) = 9/25.
Para k = 1, temos P (X = 1) = 7/25.
Para k = 2, temos P (X = 2) = 5/25.
Para k = 3, temos P (X = 3) = 3/25.
Para k = 4, temos P (X = 4) = 1/25.
Por definição, sabemos que a definição de esperança para uma variável aleatória discreta é expressa por:
4
X
E (X) = kP (X = k)
k=0
=
0P (X = 0) + 1P (X = 1) + 2P (X = 2) + 3P (X = 3) + 4P (X = 4)
9 7 5 3 1
= 0× +1× +2× +3× +4×
25 25 25 25 25
30
=
25
E (X) = 1, 2 sinistro.
Interpretação: O número anual esperado de sinistros para cada automóvel segurado é de 1, 2. Em outras
palavras, a média anual do número de sinistros por automóvel segurado nesta empresa é de 1, 2.
4
X
E X2 k 2 P (X = k)
=
k=0
= 0 P (X = 0) + 12 P (X = 1) + 22 P (X = 2) + 32 P (X = 3) + 42 P (X = 4)
2
9 7 5 3 1
= 0× +1× +4× +9× + 16 ×
25 25 25 25 25
70
=
25
E X2 = 2, 8 sinistros2 .
Em uma grande rede de loja de calçados, os funcionários ganham um adicional no salário em função das
vendas. Esse adicional é dado em número de bônus que variam de 0 a 8. O número X de bônus que cada
funcionário ganha, além do salário fixo, é uma Variável aleatória discreta tal que sua distribuição de probabilidades
é dada por:
2
(9 − k)
P (X = k) = , k = 0, 1, 2, ..., 8. (22)
285
Solução do item a: A distribuição de probabilidades de X expressa em (22) é expressa por extenso por:
81 64 49
P (X = 0) = ; P (X = 1) = ; P (X = 2) =
285 285 285
36 25 16
P (X = 3) = ; P (X = 4) = ; P (X = 5) =
285 285 285
9 4 1
P (X = 6) = ; P (X = 7) = ; P (X = 8) =
285 285 285
P (X ≤ 7) 1 − P (X = 8)
=
1
= 1−
285
284
⇒ P (X ≤ 7) = = 0, 9965 ou 99, 65%.
285
Solução do item b. A probabilidade de um funcionário qualquer ganhar pelo menos 2 bônus no final do
mês é
P (X ≥ 2) 1 − P (X = 0) − P (X = 1)
=
81 64 140
= 1− − =
285 285 285
⇒ P (X ≥ 2) = 0, 4912 ou 49, 12%.
Interpretação: A probabilidade de um funcionário qualquer nesta empresa ganhar pelo menos 2 bônus no
final do mês é de 0, 4912 ou 49, 12%. Em termos frequentistas podemos afirmar que 49, 12% dos funcionários desta
grande rede de loja de calçados ganham pelo menos 2 bônus no final do mês.
Solução do item c. Pela definição, a esperança do número X de bônus a receber no final do mês é tal que:
8
X
E (X) = kP (X = k)
k=0
=
0P (X = 0) + 1P (X = 1) + 2P (X = 2) + ... + 8P (X = 8)
81 64 49 36 25 16 9 4 1
= 0× +1× +2× +3× +4× +5× +6× +7× +8×
285 285 285 285 285 285 285 285 285
540
=
285
⇒ E (X) = 1, 89 bônus.
Interpretação: O número mensal esperado de bônus para cada funcionário é de 1, 89. Em outras palavras,
a média mensal do número de bônus para cada funcionário nesta rede de loja de calçados é de 1, 89.
8
X
E X2 k 2 P (X = k)
=
k=0
= 02 P (X = 0) + 12 P (X = 1) + 22 P (X = 2) + ... + 82 P (X = 8)
81 64 49 36 25 16
= 02 × + 12 × + 22 × + 32 × + 42 × + 52 ×
285 285 285 285 285 285
9 4 1
+ 62 × + 72 × + 82 ×
285 285 285
81 64 49 36 25 16
= 0× +1× +4× +9× + 16 × + 25 ×
285 285 285 285 285 285
9 4 1
+ 36 × + 49 × + 64 ×
285 285 285
1968
=
285
2
6, 91 bônus2 .
E X =
2
= E X 2 − [E (X)]
V ar (X)
= 6, 91 − 1, 892
⇒ V ar (X) = 3, 34 bônus2 .
Dessa forma, como a Variância é V ar (X) = 3, 34, então o desvio padrão do número X de bônus a receber
no final do mês é σ (X) = 1, 83 bônus.
Solução do item e. Se Y é a quantia em reais que o funcionário ganha em função dos bônus, temos que
Y = Xc, onde a constante c é o valor do bônus. Sabendo que cada bônus equivale a 300 reais, e utilizando
corretamente as propriedades da esperança e da variância, temos que a esperança de Y é dada por:
E (Y ) = E (Xc)
= cE (X)
= 300 × 1, 89
⇒ E (Y ) = 567 reais.
Interpretação: A quantia mensal esperada em reais para cada funcionário no fim do mês é de 567 reais.
Em outras palavras, a quantia média mensal em reais que cada funcionário nesta rede de loja de calçados ganha
no fim do mês é de 567 reais.
V ar (Y ) = V ar (Xc)
= c2 V ar (X)
= 3002 × 3, 34
⇒ V ar (Y ) = 300.600 reais2 .
Dessa forma, o desvio-padrão da quantia em reais que cada funcionário nesta rede de loja de calçados ganha
no fim do mês é tal que:
p
σ (Y ) = V ar (Y )
√
= 300.600
⇒ σ (Y ) = 548, 27 reais.
Um apostador faz a seguinte aposta: lançam-se 3 moedas honestas, isto é, moedas equilibradas ou não-
viciadas, e observam-se as três faces voltadas para cima. Se cair 3 coroas, o apostador perde 80 dólares. Se cair 1
ou 2 caras, o apostador perde 40 dólares. Se cair 3 caras, o apostador ganha 320 dólares. Determinar a esperança,
a variância e o desvio-padrão da quantia em dólares que o apostador ganha nesta aposta.
Solução: Podemos observar que a quantia em dólares a ser ganha pelo apostador depende do número de
caras obtidas neste jogo. Portanto, encontremos primeiramente o espaço amostral deste experimento aleatório:
Seja Y a quantia em dólares que o apostador ganha, então temos que Y = 320, −40, −80. A distribuição de
probabilidades de Y é dada por:
P (Y = 320) = P (X = 3) = 1/8.
P (Y = −40) = P (X = 1) + P (X = 2) = 6/8.
P (Y = −80) = P (X = 0) = 1/8.
2 2
E Y2 3202 P (Y = 320) + (−40) P (Y = −40) + (−80) P (Y = −80)
=
1 6 1
= 102400 × + 1600 × + 6400 ×
8 8 8
102400 + 9600 + 6400 118400
= =
8 8
2
E Y2
= 14800 dólares .
Dessa maneira temos que:
2
E Y 2 − [E (Y )]
V ar (Y ) =
= 14800 − 02
V ar (Y ) = 14800 dólares2 .
Portanto, o desvio-padrão da quantia em dólares que o apostador ganha nesta aposta é tal que:
p
σ (Y ) = 14800 dólares2 . = 121, 66 dólares.
Definição: Suponha uma variável aleatória discreta que assume os valores inteiros 1, 2, 3, . . . , N , cuja distri-
buição é equiprovável, ou seja,
1
P (X = k) = , com k = 1, 2, 3, . . . , N. (23)
N
Notação: X ∼ Ud (1, N ).
N +1 N2 − 1
E (X) = e V ar (X) = . (24)
2 12
k
F (k) = P (X ≤ k) = , para k = 1, 2, 3, . . . , N. (25)
N
Demonstração de (24): Considerando a expressão dada em (23), temos a seguinte distribuição de probabili-
dades para esta v.a.d X:
P (X = 1) = 1/N
P (X = 2) = 1/N
P (X = 3) = 1/N
..
.
P (X = N ) = 1/N.
N
P
Note que P (X = k) = 1, pois trata-se de uma distribuição de probabilidades. Sabemos que, por definição,
k=1
a esperança matemática de uma v.a.d X é expressa por
X
E (X) = kP (X = k)
k
Aplicando a definição da esperança usando a distribuição de probabilidades dada em (23) temos o seguinte:
N
X
E (X) = kP (X = k)
k=1
= 1P (X = 1) + 2P (X = 2) + 3P (X = 3) + · · · + N P (X = N )
1 1 1 1
= 1 + 2 + 3 + ··· + N
N N N N
1
= (1 + 2 + 3 + · · · + N )
N | {z }
Soma de N 1ºs termos duma P.A
1 N (1 + N )
=
N 2
N +1
E (X) = .
2
N
X
E X2 k 2 P (X = k)
=
k=1
= 1 P (X = 1) + 22 P (X = 2) + 32 P (X = 3) + · · · + N 2 P (X = N )
2
1 1 1 1
= 12 + 2 2 + 3 2 + · · · + N 2
N N N N
1
12 + 2 2 + 3 2 + · · · + N 2
=
N | {z }
Soma do quadrado de N 1ºs termos
1 N (N + 1) (2N + 1)
=
N 6
(N + 1) (2N + 1)
E X2
= .
6
Como a variância de uma variável aleatória é dada pela diferença entre a esperança do segundo momento e
2
o quadrado da esperança do primeiro momento, isto é, V ar (X) = E X 2 − [E (X)] , temos que:
2
= E X 2 − [E (X)]
V ar (X)
2
(N + 1) (2N + 1) N +1
= −
6 2
2
2N 2 + N + 2N + 1 (N + 1)
= −
6 22
2 2
2N + 3N + 1 N + 2N + 1
= −
6 4
4N 2 + 6N + 2 − 3N 2 − 6N − 3
=
12
N2 − 1
V ar (X) = .
12
Demonstração de (25): Por definição temos que a função distribuição é dada por
F (k) = P (X ≤ k)
= P (X = 1) + P (X = 2) + · · · + P (X = k)
1 1 1
= + + ··· +
N
| N {z N }
k vezes
k
F (k) = .
N
Para todo k = 1, 2, 3, . . . , N , demonstrando assim o resultado expresso em (25).
Exemplo de aplicação: Suponha o lançamento de um dado equilibrado de seis lados e seja X a variável
aleatória que denota o número da face obtida, ou seja, X = 1, 2, 3, 4, 5, 6.
Como o dado é equilibrado, isto é, as faces são equiprováveis, temos a seguinte distribuição de probabilidades
de X:
P (X = 1) = 1/6
P (X = 2) = 1/6
P (X = 3) = 1/6
P (X = 4) = 1/6
P (X = 5) = 1/6
P (X = 6) = 1/6.
N +1
E (X) =
2
6+1
=
2
E (X) = 3, 5.
Interpretação: Se repetirmos este experimento aleatório muitas vezes, isto é, se lançarmos este dado equi-
librado muitas vezes, então a média dos resultados obtidos converge para o valor numérico 3, 5 (“média a longo
prazo”).
N2 − 1
V ar (X) =
12
36 − 1
=
12
35
V ar (X) = = 2, 9197.
12
p
σ (X) = V ar (X)
p
= 2, 9197
σ (X) = 1, 7078.
Alguns exemplos de variáveis aleatórias contı́nuas (abreviação v.a.c) são: peso e altura de indivı́duos, ı́ndice
de massa corporal, pressão atmosférica, temperatura diária de uma determinada região, ı́ndice pluviométrico para
medir a quantidade de chuva, velocidade do vento, vazão de um rio, tempo de vida útil de um determinado
componente eletrônico, salários dos funcionários de uma empresa, renda familiar ou renda per capita, etc.
Definição: Dizemos que a variável aleatória X é uma variável aleatória contı́nua (v.a.c) se:
Zb
i. 0 ≤ P (a < X < b) = f (x) dx ≤ 1.
a
+∞
Z
ii. f (x) dx = 1.
−∞
lim F (x) = 0
x→−∞
lim F (x) = 1.
x→+∞
Por definição a mediana é uma medida de tendência central que divide um conjunto quantitativo ordenado
de dados em duas partes iguais. Contextualizando para o caso de uma variável aleatória contı́nua, a mediana é o
valor que deixa uma área igual a 0, 5 abaixo e 0, 5 acima dela. Para encontrar o valor da mediana basta encontrar
o valor M e que satisfaça a expressão abaixo:
ZM e
1
f (x) dx = .
2
−∞
A moda de uma variável aleatória contı́nua é o valor numérico de x que maximiza f (x), caso exista o máximo
0
da função. Para isso, basta encontrar a derivada f (x) e igualar a zero. Neste caso, x é chamado de moda ou valor
modal. A figura abaixo apresenta um exemplo de variável aleatória contı́nua e seu valor modal.
+∞
Z
E (X) = xf (x) dx.
−∞
A variância, por sua vez, é definida como a esperança do segundo momento menos o quadrado da esperança
do primeiro momento, isto é,
2
V ar (X) = E X 2 − [E (X)] ,
em que
+∞
Z
2
x2 f (x) dx.
E X =
−∞
Considere X uma variável aleatória contı́nua (v.a.c) tal que sua f.d.p seja dada por:
3x2 /125 se 0 < x < 5.
f (x) =
0 caso contrário
Resolução do item a. Para que f (x) seja uma f.d.p, o valor numérico de sua integral na reta tem que ser
1.
+∞ Z5
3x2
Z 3
3 x
f (x) dx = dx = |50
125 125 3
−∞ 0
3
03
3 5 3 125
= − = ×
125 3 3 125 3
+∞
Z
f (x) dx = 1.
−∞
Resolução do item b. Por definição temos que F (x) = P (X ≤ x). Aplicando em nosso exemplo temos:
Zx
F (x) = P (X ≤ x) = f (x) dx
−∞
Zx
3x2
3
3 x
= dx = |x0
125 125 3
0
3
03 x3
3 x
= − =
125 3 3 125
3
x
F (x) = .
125
0
Note que F (x) = f (x), ou seja, a derivada da função distribuição é a própria função densidade de probabi-
lidade.
Resolução do item c. Para encontrar a probabilidade da v.a.c estar num intervalo definido [a, b], basta
integrar f (x) neste intervalo, isto é,
Z4 Z4
3x2
P (2 < X < 4) = f (x) dx = dx
125
2 2
3 3
23
3 x 3 4
= |42 = −
125 3 125 3 3
3 64 8 3 56 56
= − = × =
125 3 3 125 3 125
P (2 < X < 4) = 0, 4480.
ZM e ZM e
1 3x2 1
f (x) dx = =⇒ dx =
2 125 2
0 0
3
3 x 1
=⇒ |M e
0 =
125 3 2
3 3
3 Me 0 1
=⇒ − =
125 3 3 2
3
Me 1
=⇒ =
125 2
=⇒ M e = 3, 9685.
Isto significa que o valor numérico 3, 9685 deixa uma área igual a 0, 5 (50%) abaixo de si, e uma área de 0, 5
(50%) acima de si.
+∞ Z5 Z5 3
3x2
Z
3x
E (X) = xf (x) dx = x dx = dx
125 125
−∞ 0 0
4 4 4
3 x 5 3 5 0 3 625 15
= |0 = − = × =
125 4 125 4 4 125 4 4
E (X) = 3, 75.
Interpretação: Se repetirmos este experimento muitas vezes, a média dos resultados obtidos será 3, 75.
+∞ Z5 Z5 4
Z 2
2 2 2 3x 3x
E X = x f (x) dx = x dx = dx
125 125
−∞ 0 0
5 5 5
3 x 3 5 0 3 3125
= |50 = − = ×
125 5 125 5 5 125 5
E X2
= 15.
A variância é dada pela esperança do segundo momento menos o quadrado da esperança do primeiro momento.
2
= E X 2 − [E (X)] = 15 − 3, 752
V ar (X)
V ar (X) = 0, 9375.
1/80 se 0 < x < 80.
f (x) =
0 caso contrário
Resolução do item a. Para que f (x) seja uma f.d.p, o valor numérico de sua integral na reta vale 1.
+∞
Z Z80
1 1
f (x) dx = dx = (x) |80
0
80 80
−∞ 0
1 1
= (80 − 0) = × 80
80 80
Z80
f (x) dx = 1.
0
Resolução do item b. Por definição temos que F (x) = P (X ≤ x). Aplicando em nosso exemplo temos:
Zx
F (x) = P (X ≤ x) = f (x) dx
−∞
Zx
1 1
= dx = (x) |x0
80 80
0
1 x
= (x − 0) =
80 80
x
F (x) = .
80
0
Note que F (x) = f (x), ou seja, a derivada da função distribuição é função densidade de probabilidade.
Resolução do item c. Para encontrar a probabilidade da v.a.c estar num intervalo definido [a, b], basta
integrar f (x) neste intervalo, isto é,
Z70 Z70
1
P (20 < X < 70) = f (x) dx = dx
80
20 20
1 1
= (x) |70
20 = (70 − 20)
80 80
1 50
= × 50 = = 0, 6250
80 80
P (20 < X < 70) = 0, 6250 ou 62, 50%.
Interpretação: a probabilidade da ocorrência de acidentes entre os km20 e km70 é de 0, 6250 ou 62, 50%.
ZM e ZM e
1 1 1
f (x) dx = =⇒ dx =
2 80 2
0 0
1 1
=⇒ (x) |M e
0 =
80 2
1 1
=⇒ (M e − 0) =
80 2
Me 1
=⇒ =
80 2
80
=⇒ Me =
2
=⇒ M e = 40 km.
Interpretação: Isto significa que o km 40 deixa uma área igual a 0, 5 (50%) abaixo de si, e de 0, 5 (50%)
acima de si. Em outras palavras, metade dos acidentes ocorrem até o trecho km 40 e a outra metade após o km 40.
+∞
Z Z80 Z80
x 1
E (X) = xf (x) dx = dx = xdx
80 80
−∞ 0 0
1 x2 80 1 802 02
1 6400 6400
= |0 = − = × =
80 2 80 2 2 80 2 160
E (X) = 40.
Interpretação: Se repetirmos este experimento muitas vezes, o km médio da ocorrência de acidentes é o
km40.
+∞
Z Z80 2 Z80 3
2
2 x 1 x
E X = x f (x) dx = dx = dx
80 80 3
−∞ 0 0
3 3 3
803
1 x 1 80 0 1 6400
= |80
0 = − = × =
80 3 80 3 3 80 3 3
6400
E X2
= .
3
A variância é dada pela esperança do segundo momento menos o quadrado da esperança do primeiro momento.
2 6400
= E X 2 − [E (X)] = − 402
V ar (X)
3
1600
V ar (X) = .
3
O desvio-padrão, por sua vez, é dado por
p
σ (X) = V ar (X)
r
1600
=
3
σ (X) = 23, 09.
O tempo X de acionamento de um sistema industrial automático numa linha de produção é uma variável
aleatória contı́nua (v.a.c), cuja função densidade de probabilidades (f.d.p) é expressa por
−3x2 + 36x − 60
f (x) = , 2 ≤ x ≤ 10.
256
Resolução do item a. Para que f (x) seja uma f.d.p temos que verificar se
+∞
Z
f (x) dx = 1.
−∞
+∞ Z10
−3x2 + 36x − 60
Z
f (x) dx = dx
256
−∞ 2
−3x3 36x2
1
= + − 60x |10
2
256 3 2
1
−x3 + 18x2 − 60x |10
= 2
256
1
= [(−1000 + 1800 − 600) − (−8 + 72 − 120)]
256
1
= (200 + 56)
256
1
= × 256 = 1
256
+∞
Z
f (x) dx = 1.
−∞
Resolução do item b. Para determinar a probabilidade do tempo de acionamento estar entre 4 e 8 minutos,
basta integrar f (x) no intervalo [4 , 8], ou seja:
Z8
−3x2 + 36x − 60
P (4 ≤ X ≤ 8) = dx
256
4
−3x3 36x2
1
= + − 60x |84
256 3 2
1
−x3 + 18x2 − 60x |84
=
256
1
= [(−512 + 1152 − 480) − (−64 + 288 − 240)]
256
1
= (160 + 16)
256
1
= × 176 = 0, 6875
256
P (4 ≤ X ≤ 8) = 0, 6875 ou 68, 75%.
Interpretação: A probabilidade do tempo de acionamento deste sistema industrial estar entre 4 e 8 minutos
é de 0, 6875 ou 68, 75%. Ou ainda podemos dizer que, em 68, 75% das vezes, o tempo de acionamento deste sistema
industrial está entre 4 e 8 minutos.
Resolução do item c. Para encontrar o tempo modal M o de acionamento do sistema, basta encontrar o
valor numérico de x que maximize f (x). Para isso, é necessário encontrarmos a sua derivada, isto é:
0 −6x + 36
f (x) = .
256
−6x + 36
=0
256
⇒ −6x + 36 = 0
⇒ −6x = −36
36
⇒ x=
6
⇒ x = 6 minutos.
Logo, o valor de x que maximiza f (x) é 6. Portanto, o tempo modal de acionamento deste sistema é de
M o = 6 minutos.
Interpretação: O tempo de acionamento mais frequente neste sistema industrial é de 6 minutos.
Resolução do item d. Para encontrar o tempo mediano de acionamento deste sistema, basta fazer:
ZM e
1
f (x) dx =
2
−∞
ZM e
−3x2 + 36x − 60 1
dx =
256 2
2
3x3 36x2
1 1
=⇒ − + − 60x |M e
2 =
256 3 2 2
1 1
−x3 + 18x2 − 60x |M e
=⇒ 2 =
256 2
1 1
−M e + 18M e − 60M e − −23 + 18 × 22 − 60 × 2 =
3 2
=⇒
256 2
1 3 2
1
=⇒ −M e + 18M e − 60M e + 56 =
256 2
=⇒ −M e3 + 18M e2 − 60M e + 56 = 128
=⇒ −M e3 + 18M e2 − 60M e − 72 = 0.
Dessa forma, a mediana não possui forma explı́cita e é dada pela solução do polinômio acima. Podemos
verificar que, por se tratar de uma distribuição perfeitamente simétrica (parábola), o valor da moda 6 minutos é a
solução deste polinômio, o que significa que a mediana também é M e = 6 minutos.
Interpretação: O tempo mediano de acionamento neste sistema industrial é de 6 minutos, isto é, em 50%
das vezes este sistema tem um tempo de acionamento menor do que 6 minutos e em 50% das vezes maior do que
6 minutos.
Resolução do item e. A esperança matemática é E (X) = 6, que é a própria solução do polinômio no item
a.
+∞
Z
E (X) = xf (x) dx
−∞
Z10
−3x2 + 36x − 60
= x dx
256
2
Z10
−3x3 + 36x2 − 60x
= dx
256
2
3x4 36x3 60x2 10
1
= − + − |2
256 4 3 2
1 1536
= [1500 − (−36)] = =6
256 256
E (X) = 6 minutos.
Interpretação: Se este sistema industrial for acionado muitas vezes, então a média dos tempos obtidos é de
6 minutos, ou seja, o tempo esperado neste experimento aleatório é de 6 minutos.
Observação: Assim como o valor da moda, o valor numérico da esperança matemática E (X) = 6 também é
a própria solução do polinômio no item d.. Toda distribuição perfeitamente simétrica apresenta os mesmos valores
numéricos para as medidas de tendência central, isto é, E (X) = M o = M e.
+∞
Z
2
x2 f (x) dx
E X =
−∞
Z10
−3x2 + 36x − 60
= x2 dx
256
2
Z10
−3x4 + 36x3 − 60x2
= dx
256
2
3x5 36x4 60x3 10
1
= − + − |2
256 5 4 3
1 10035, 2
= [10000 − (−35, 2)] =
256 256
E X2 = 39, 2 minutos2 .
2
= E X 2 − [E (X)]
V ar (X)
= 39, 2 − 62
V ar (X) = 3, 2 minutos2 .
O desvio-padrão, por sua vez, é expresso pela raı́z quadrada da variância, isto é
σ (X) = 1, 79 minutos.
Em estatı́stica há vários modelos discretos e contı́nuos usados em pesquisas cientı́ficas para as mais diversas
finalidades. Modelos são descrições aproximadas da realidade cujo objetivo é substituir, de maneira simplificada
e objetiva, um problema real. Podemos afirmar que um modelo é uma tentativa de representar as caracterı́sticas
mais importantes de um problema para a tomada de decisões. Dessa maneira, os modelos demandam um nı́vel
adicional de abstração por ser descrições aproximadas de modelos. Por meio do formalismo matemático tentamos
substituir nosso modelo do problema real por um modelo matemático, necessário para o prosseguimento dos estudos
em amostragem e inferência estatı́stica via técnicas de estimação de parâmetros populacionais.
Alguns exemplos de modelos probabilı́sticos discretos são: Bernoulli, binomial, Poisson, geométrico, hiper-
geométrico, multinomial, binonimial negativo.
Alguns exemplos de modelos probabilı́sticos contı́nuos são: uniforme, normal, qui-quadrado, t-student, t-
student não-central, F de Snedecor, F não-central, Cauchy, gama, beta, beta não-central, exponencial, Weibull,
Gumbel (ou valor extremo), log-normal, logı́stico, modelos truncados, modelos mistos, Rayleigh, normal dobrada,
Rice, normal estendida.
Neste material didático os modelos probabilı́sticos estudados são: modelo de Bernoulli, modelo Binomial,
modelo de Poisson e o modelo Normal (também denominado de modelo Gaussiano).
Dentre os inúmeros modelos discretos, o modelo binomial é um dos modelos mais importantes e usados nas
diversas áreas. Entretanto, para introduzirmos este assunto, é necessário abordarmos um outro modelo discreto
que deu base para o modelo binomial. Trata-se da distribuição ou modelo de Bernoulli.
Jakob Bernoulli5 (Ou Jacques Bernoulli, Basileia 1654 − 1705) foi o primeiro matemático a desenvolver o
cálculo infinitesimal para além do que fora feito por Newton e Leibniz, aplicando-o a novos problemas.
Publicou a primeira integração de uma equação diferencial; deu solução ao problema dos isoperı́metros, que
abriu caminho ao cálculo das variações de Euler e Lagrange e estendeu suas principais aplicações ao cálculo das
probabilidades. É considerado o pai do cálculo exponencial. Foi professor de matemática em Basileia, tendo sido
importantı́ssima sua contribuição à geometria analı́tica, à teoria das probabilidades e ao cálculo de variações.
Em 1713, depois de sua morte, foi publicado seu grande tratado sobre a teoria das probabilidades Ars
Conjectandi, que ainda oferece interesse prático na aplicação da teoria da probabilidade no seguro e na estatı́stica.
Definição da distribuição de Bernoulli: Considere Y uma variável aleatória discreta (v.a.d ) que assume
apenas dois resultados possı́veis. Por exemplo:
Face obtida voltada para cima em um lançamento de uma moeda: cara ou coroa;
Uma empresa de extração de petróleo encontra ou não petróleo num ponto de sondagem;
Usualmente adota-se o valor numérico 1 (um) para a ocorrência do evento de interesse, que chamamos de
sucesso e adota-se o valor numérico 0 (dois) se não ocorrer o evento de interesse, que chamamos de fracasso, de
tal forma que
5 Jakob Bernoulli era da famı́lia Bernoulli, que destacou-se devido ao fato de ter dado ao mundo, durante um século, oito notáveis
cientistas na área da matemática e da fı́sica. O progenitor Nicolau residia em Antuérpia na Bélgica, foi forçado a abandonar o paı́s
por ser protestante, na época da perseguição dos espanhóis aos não católicos. Mudou-se para Basileia, na Suı́ça onde se continuou
a dedicar ao negócio das especiarias, vindo a casar com Margarette Schoenauer ligada a uma grande famı́lia de banqueiros, tendo-se
tornado um mercador de sucesso. Dos três filhos apenas o mais novo, Nicolau (apelidado o filho), seguiu os passos do pai. Os outros,
bem como a descendência, dedicaram-se às matemáticas. A história dos descendentes seria muito semelhante: não revelando queda
para o negócio da famı́lia, inscreveram-se na Universidade onde cursaram Magistratura ou Medicina. Anos mais tarde acabariam por
se dedicar à Matemática onde viriam a dar contribuições importantes, nomeadamente na área do cálculo.
1 se sucesso, tal que P (X = 1) = p
X=
0 se fracasso, tal que P (X = 0) = 1 − p
Dizemos que X tem distribuição de Bernoulli ou X segue o modelo de Bernoulli de parâmetro p com distri-
buição de probabilidades é dada por
1−k
P (X = k) = pk (1 − p) , k = 0, 1.
Lê-se: “X tem distribuição de Bernoulli ou X segue o modelo de Bernoulli com parâmetro p”.
Demonstração
P de (26): Por definição, a esperança matemática de uma variável aleatória discreta é tal que
E (X) = kP (X = k). Dessa maneira temos que:
k
X
E (X) = kP (X = k)
k
= 0P (X = 0) + 1P (X = 1)
= 0 (1 − p) + 1p
E (X) = p.
Por sua vez, para encontrarmos a variância de X, é necessário determinarmos a esperança do segundo momento
da v.a.d X, conforme a seguir:
X
E X2 k 2 P (X = k)
=
k
= 02 P (X = 0) + 12 P (X = 1)
= 0 (1 − p) + 1p
2
E X = p.
Como a variância de uma v.a.d é a diferença entre a esperança do segundo momento e o quadrado da esperança
do primeiro momento, temos
2
= E X 2 − [E (X)]
V ar (X)
= p − p2
V ar (X) = p (1 − p) .
Seja X uma variável aleatória discreta (v.a.d ) que conta o número k de sucessos em n ensaios independentes
de Bernoulli cada qual com probabilidade de sucesso igual a p (0 < p < 1). Então X assume os valores inteiros de
contagem 0, 1, 2, . . . , n. A probabilidade de observarmos k sucessos nestes n ensaios independentes de Bernoulli,
isto é, a probabilidade da v.a.d X assumir o valor k é expressa por:
n k n−k
P (X = k) = p (1 − p) , k = 0, 1, 2, ..., n. (27)
k
Lê-se: “X tem distribuição binomial com parâmetros n e p, ou X segue o modelo binomial com parâmetros
n e p ”.
A probabilidade de que alguém apresente uma determinada caracterı́stica genética é de 0, 25 (ou 25%). Em
uma amostra de 8 indivı́duos, calcule a probabilidade de que
Interpretação: A probabilidade de que 3 indivı́duos apresentem tal caracterı́stica genética, neste grupo de
8 indivı́duos, é de 0, 2076 ou 20, 76%.
Interpretação: A probabilidade de que 5 indivı́duos apresentem tal caracterı́stica genética, neste grupo de
8 indivı́duos, é de 0, 0231 ou 2, 31%.
Resolução do item c. Como temos n = 8 indivı́duos na amostra e estamos interessados em pelo menos um
sucesso, isto é, k ≥ 1 sucesso1, segue que
P (X ≥ 1) = P (X = 1) + P (X = 2) + ... + P (X = 8)
= 1 − P (X = 0)
8 8−0
= 1− 0, 250 (1 − 0, 25)
0
= 1 − 0, 1001
P (X ≥ 1) = 0, 8999
Interpretação: A probabilidade de que pelo menos 1 indivı́duo apresente tal caracterı́stica genética, neste
grupo de 8 indivı́duos, é de 0, 8999 ou 89, 99%.
Resolução do item d. Estamos interessados na ocorrência de no máximo 2 sucessos, isto é, k ≤ 2. Dessa
forma temos que:
P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
8 8−0 8 8−1 8 8−2
= 0, 250 (1 − 0, 25) + 0, 251 (1 − 0, 25) + 0, 252 (1 − 0, 25)
0 1 2
= 0, 1001 + 0, 2670 + 0, 3115
P (X ≤ 2) = 0, 6786
Interpretação: A probabilidade de que no máximo 2 indivı́duos apresentem tal caracterı́stica genética, neste
grupo de 8 indivı́duos, é de 0, 6786 ou 67, 86%.
Resolução do item e. Estamos interessados em nenhuma ocorrência, isto é, em nenhum sucesso nesta
amostra de 8 indivı́duos (k = 0). Neste contexto segue que:
n k n−k
P (X = k) = p (1 − p)
k
8 8−0
P (X = 0) = 0, 250 (1 − 0, 25)
0
P (X = 0) = 0, 1001
Interpretação: A probabilidade de que nenhum indivı́duo apresente tal caracterı́stica genética, neste grupo
de 8 indivı́duos, é de 0, 1001 ou 10, 01%.
Resolução do item f. Como temos n = 8 indivı́duos e a probabilidade de sucesso igual a p = 0, 25, segue
que a esperança de X é dada por:
E (X) = np = 8 × 0, 25
E (X) = 2.
Interpretação: O número esperado de indivı́duos que apresentam tal caracterı́stica genética é de 2 in-
divı́duos. Em outras palavras, se este experimento pudesse ser realizado muitas vezes, a média dos resultados
obtidos é de 2 indı́viduos com tal caracterı́stica genética para cada grupo de 8 indivı́duos.
Num processo de sondagem para a instalação de uma plataforma de exploração de petróleo em águas oceânicas,
numa certa região, a probabilidade de encontrar petróleo é de 0, 04. Uma empresa de extração de petróleo e seus
derivados realiza a sondagem em 25 pontos diferentes nessa região. Qual a probabilidade de que
Resolução do item a. Como temos n = 25 pontos de sondagem, probabilidade de sucesso igual a p = 0, 04,
e estamos interessados na ocorrência de 2 sucessos, segue imediatamente que:
n k n−k
P (X = k) = p (1 − p)
k
25 25−2
P (X = 2) = 0, 042 (1 − 0, 04)
2
P (X = 2) = 0, 1877
Interpretação: A probabilidade de que em apenas 2 pontos de sondagem encontre petróleo, dentre as 25
sondagens nessa região é de 0, 1877 ou 18, 77%.
Resolução do item c. Estamos interessados na ocorrência de pelo menos um sucesso, dentre as 25 sondagens,
ou seja, estamos interessados em observar um número k ≥ 1 de sucessos. Dessa maneira segue que:
P (X ≥ 1) = P (X = 1) + P (X = 2) + ... + P (X = 25)
= 1 − P (X = 0)
25 25−0
= 1− 0, 040 (1 − 0, 04)
0
= 1 − 0, 3604
P (X ≥ 1) = 0, 6396.
Interpretação: A probabilidade de que pelo menos 1 ponto de sondagem encontre petróleo, dentre as 25
sondagens nessa região é de 0, 6396 ou 63, 96%.
Resolução do item d. Como temos n = 25 sondagens nesta região e a probabilidade de sucesso igual a
p = 0, 04, segue que a esperança de X é dada por:
E (X) = np = 25 × 0, 04
E (X) = 1.
Interpretação: O número esperado de pontos de sondagem que encontra petróleo nessa região é de 1 ponto.
Em outras palavras, se este experimento pudesser ser repetido muitas vezes, a média dos resultados obtidos será
de 1 ponto de sondagem com a ocorrência de petróleo.
np −→ λ > 0, quando n −→ ∞ e p −→ 0.
Dessa maneira, dizemos que X tem distribuição de Poisson ou X segue o modelo de Poisson com parâmetro
λ se sua distribuição de probabilidades é dada por:
e−λ λk
P (X = k) = , para k = 0, 1, 2, ... (29)
k!
em que
e: é a base do logaritmo natural (2, 718282...).
λ: é uma constante positiva (λ > 0) que denota o número esperado de ocorrências num intervalo de tempo.
k! é o fatorial do número k.
Lê-se: “X tem distribuição de Poisson ou X segue o modelo de Poisson com parâmetro λ”.
A Figura (16) abaixo apresenta a forma da distribuição de Poisson considerando três valores distintos para o
parâmetro lâmbda.
6 Siméon Denis Poisson (Pithiviers, 21 de junho de 1781 — Paris, 25 de abril de 1840) foi um matemático e fı́sico francês. Em 1798
entrou na École Polytechnique em Paris, como primeiro colocado de sua turma, atraindo imediatamente a atenção dos professores da
escola, deixando-o livre para escolher o que estudar. Em 1800, menos de dois anos depois de seu ingresso, publicou duas memórias,
uma sobre o método da eliminação de Étienne Bézout, e a outra sobre o número de integrais de uma equação em diferenças finitas.
Esta última foi examinada por Sylvestre François Lacroix e Adrien-Marie Legendre, que recomendaram sua publicação no Recueil des
savants étrangers, uma honra sem precedentes para um jovem de dezoito anos. Poisson desenvolveu o expoente de Poisson, usado
na transformação adiabática de um gás. Este expoente é a razão entre a capacidade térmica molar de um gás a pressão constante e
a capacidade térmica molar de um gás a volume constante. A lei de transformação adiabática de um gás diz que o produto entre a
pressão de um gás e o seu volume elevado ao expoente de Poisson é constante.
Demonstração de 29: Vamos mostrar que a distribuição expressa em (29) trata-se de fato de uma distribuição
de probabilidades.
∞ ∞
X X e−λ λk
P (X = k) =
k!
k=0 k=0
∞
X λk
= e−λ
k!
k=0
Como
∞
X xk x0 x1 x2 x3
= + + + + ... = ex , ∀x ∈ R,
k! 0! 1! 2! 3!
k=0
∞
λk
= eλ . Portanto
P
temos que k!
k=0
∞
X
P (X = k) = e−λ eλ = 1.
k=0
Demonstração de 30: Vamos demonstrar que E (X) = λ. Por definição temos que a esperança de uma
variável aleatória discreta é tal que
X
E (X) = kP (X = k) .
k
Então
∞
X
E (X) = kP (X = k)
k=0
∞
X e−λ λk
= k
k!
k=0
∞
X e−λ λk
=
(k − 1)!
k=1
∞
X λk−1
= e−λ λ
(k − 1)!
k=1
Fazendo s = k − 1 temos
∞
−λ
X λs
E (X) = e λ .
s=0
s!
∞
λs
= eλ , ∀λ ∈ R. Temos então que
P
Como s!
s=0
X 2
E X2 = k P (X = k) .
k
Então
∞
X
E X2 k 2 P (X = k)
=
k=0
∞
X e−λ λk
= k2
k!
k=0
∞
X e−λ λk
= k
(k − 1)!
k=1
∞
X e−λ λk−1
= λ k
(k − 1)!
k=1
Fazendo k = s + 1 temos
∞ ∞ ∞
X e−λ λs X e−λ λs X e−λ λs
E X2 = λ
(s + 1) =λ s +λ
s=0
s! s=0
s! s=0
s!
∞ −λ
∞
λs e−λ λs
se
P P
Como s! = E (X) = λ e s! = 1, então segue que:
s=0 s=0
E X 2 = λλ + λ = λ2 + λ.
Por definição, sabemos que a variância de uma variável aleatória é expressa pela diferença entre a esperança
do segundo momento e o quadrado da esperança do primeiro momento, isto é,
2
V ar (X) = E X 2 − [E (X)]
= λ2 + λ − λ2
V ar (X) = λ.
A probabilidade de que uma pessoa da população tenha uma determinada doença rara é de 1 em 80000.
Numa população de 400000 habitantes, determine a probabilidade de que:
a. Haja exatamente 3 indivı́duos com a doença.
b. Haja exatamente 1 indivı́duo com a doença.
c. Haja pelo menos 1 indivı́duo com a doença.
d. Determine a esperança e a variância do número X de indivı́duos com a doença nesta população.
e−λ λk
P (X = k) =
k!
e−5 53
=⇒ P (X = 3) =
3!
P (X = 3) = 0, 1404.
Interpretação: A probabilidade de que haja exatamente 3 indivı́duos com a doença nesta população é de
0, 1404 ou 14, 04%.
e−λ λk
P (X = k) =
k!
e−5 51
=⇒ P (X = 1) =
1!
P (X = 1) = 0, 0337.
Interpretação: A probabilidade de que haja exatamente 1 indivı́duo com a doença nesta população é de
0, 0337 ou 3, 37%.
Resolução do item c. Considerando a probabilidade de pelo menos 1 indivı́duo com a doença nesta
população temos:
P (X ≥ 1) = P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) + . . .
= 1 − P (X = 0)
e−5 50
= 1−
0!
= 1 − 0, 0067
P (X ≥ 1) = 0, 9933.
Interpretação: A probabilidade de que haja pelo menos 1 indivı́duo com a doença nesta população é de
0, 9933 ou 99, 33%.
Resolução do item d. Como no modelo de Poisson tanto esperança quanto a variância são iguais ao
parâmetro lâmbda, então temos que
E (X) = V ar (X) = λ = 5.
Interpretação da esperança: Esperamos, a longo prazo, um número médio de 5 indivı́duos com a doença
nesta população. Em outras palavras, se pudéssemos realizar esse experimento muitas vezes, a média dos resultados
obtidos é de 5 indivı́duos com a doença.
O número diário X de abalos sı́smicos em uma determinada região do Japão é uma variável aleatória discreta
que segue uma distribuição de Poisson com parâmetro λ = 3, isto é, X ∼ P oisson (3). Encontrar a probabilidade
de que, em um determinado dia,
e−λ λk
P (X = k) =
k!
e−3 32
=⇒ P (X = 2) =
2!
P (X = 2) = 0, 2240.
Interpretação: A probabilidade de que ocorra exatamente 2 abalos sı́smicos, em um determinado dia, nesta
região do Japão, é de 0, 2240 ou 22, 40%.
e−λ λk
P (X = k) =
k!
e−3 34
=⇒ P (X = 4) =
4!
P (X = 4) = 0, 1680.
Interpretação: A probabilidade de que ocorra exatamente 4 abalos sı́smicos, em um determinado dia, nesta
região do Japão, é de 0, 1680 ou 16, 80%.
P (X ≤ 4) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4)
e−3 30 e−3 31 e−3 32 e−3 33 e−3 34
= + + + +
0! 1! 2! 3! 4!
= 0, 0498 + 0, 1494 + 0, 2240 + 0, 2240 + 0, 1680
P (X ≤ 4) = 0, 8152.
Interpretação: A probabilidade de que ocorra no máximo 4 abalos sı́smicos, em um determinado dia, nesta
região do Japão, é de 0, 8152 ou 81, 52%.
e−λ λk
P (X = k) =
k!
e−3 31
P (X = 1) =
1!
P (X = 1) = 0, 1494.
Interpretação: A probabilidade de que ocorra exatamente 1 abalo sı́smico, em um determinado dia, nesta
região do Japão, é de 0, 1494 ou 14, 94%.
P (X ≥ 1) = P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) + . . .
= 1 − P (X = 0)
e−3 30
= 1−
0!
= 1 − 0, 0498
P (X ≥ 1) = 0, 9502.
Interpretação: A probabilidade de que ocorra no mı́nimo 1 abalo sı́smico, em um determinado dia, nesta
região do Japão, é de 0, 9502 ou 95, 02%.
Resolução do item f. Como no modelo de Poisson tanto esperança quanto a variância são iguais ao
parâmetro lâmbda, então temos que
E (X) = V ar (X) = λ = 3.
Interpretação da esperança: Esperamos, a longo prazo, um número médio diário de 3 abalos sı́smicos
nesta região do Japão. Em outras palavras, se observarmos o número diário de abalos sı́smicos durante um longo
perı́odo, verificarı́amos um número médio diário de 3 abalos sı́smicos nesta região.
Neste Capı́tulo vamos supor um conjunto finito de distribuições de Poisson. É muito comum em aplicações
práticas o interesse na distribuição da soma destas distribuições.
Proposição. Considere X1 , X2 , . . . , Xn variáveis aleatórias discretas e independentes tal que Xi ∼ P oisson (λi ),
Pn
com i = 1, 2, . . . , n. Então a soma Y = Xi também tem distribuição de Poisson tal que:
i=1
n n
!
X X
Y = Xi ∼ P oisson λi . (31)
i=1 i=1
n
X
Y = Xi ∼ P oisson (nλ) . (32)
i=1
Demonstração de 31: Pelas propriedades da esperança e da variância de uma variável aleatória, temos que
n
!
X
E (Y ) = E Xi
i=1
n
X
= E (Xi )
i=1
= E (X1 ) + E (X2 ) + · · · + E (Xn )
= λ1 + λ2 + · · · + λn
Xn
E (Y ) = λi .
i=1
n
!
X
V ar (Y ) = V ar Xi
i=1
n
X
= V ar (Xi )
i=1
= V ar (X1 ) + V ar (X2 ) + · · · + V ar (Xn )
= λ1 + λ2 + · · · + λn
Xn
V ar (Y ) = λi .
i=1
Uma vez que no modelo de Poisson temos que o valor numérico da esperança é igual ao valor numérico da
n
P
variância, então E (Y ) = V ar (Y ) = λi , está provado a expressão (31).
i=1
Em um grande municı́pio há 5 avenidas principais. O número mensal de acidentes de trânsito para cada uma
delas segue uma distribuição de Poisson, conforme quadro abaixo:
Avenida Descrição Poisson com parâmetro
X1 Número mensal de acidentes na avenida 1 λ = 0, 8
X2 Número mensal de acidentes na avenida 2 λ = 2, 0
X3 Número mensal de acidentes na avenida 3 λ = 1, 5
X4 Número mensal de acidentes na avenida 4 λ = 1, 2
X5 Número mensal de acidentes na avenida 5 λ = 0, 5
Assuma a variável aleatória discreta Y como sendo a soma do número total de acidentes de trânsito nestas 5
5
P
avenidas, isto é, Y = Xi .
i=1
5
! 5
X X
E (Y ) = E Xi = E (Xi )
i=1 i=1
= E (X1 ) + E (X2 ) + E (X3 ) + E (X4 ) + E (X5 )
= λ1 + λ2 + λ3 + λ4 + λ5
= 0, 8 + 2, 0 + 1, 5 + 1, 2 + 0, 5 = 6
E (Y ) = 6 acidentes mensais.
Logo, Y tem uma distribuição de probabilidades de Poisson com parâmetro λ = 6, isto é,
Y ∼ P oisson (6) ,
e, portanto,
e−6 6k
P (X = k) = , k = 0, 1, 2, . . .
k!
Dessa forma, a probabilidade de observarmos um total de 8 acidentes em um determinado mês é dada por:
e−6 68
⇒ P (X = 8) = = 0, 1033 ou 10, 33%.
8!
Interpretação: A probabilidade de ocorrer exatamente 8 acidentes em um determinado mês é de 0, 1033 ou
10, 33%.
Resolução do item b.) A probabilidade de observarmos pelo menos 1 acidente em um determinado mês é
dada por:
P (X ≥ 1) = P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) + . . .
= 1 − P (X = 0)
e−6 60
= 1−
0!
= 1 − 0, 0025
P (X ≥ 1) = 0, 9975 ou 99, 75%.
Interpretação: A probabilidade de ocorrer pelo menos 1 acidente em um determinado mês é de 0, 9975 ou
99, 75%.
Suponha que o número diário de acidentes em uma rodovia estadual siga o modelo de Poisson tal que o
número médio é de λ = 0, 5 acidente para cada trecho de 25 km. Determine a probabilidade que ocorra pelo menos
um acidente:
Resolução do item a.) Como temos um número médio de λ = 0, 5 acidente para cada trecho de 25 km,
isto implica que, num trecho de 50 km, temos λ = 1 acidente.
P (X ≥ 1) = P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) + . . .
1 − P (X = 0)
=
e−1 10
= 1−
0!
= 1 − 0, 3679
P (X ≥ 1) = 0, 6321 ou 63, 21%.
Interpretação: Nesta rodovia, a probabilidade de que ocorra pelo menos um acidente neste trecho de 50 km é
de 0, 6321 ou 63, 21%.
Resolução do item b.) Como temos um número médio de λ = 0, 5 acidente para cada trecho de 25 km,
isto implica que, num trecho de 100 km, temos λ = 2 acidentes.
P (X ≥ 1) = P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) + . . .
= 1 − P (X = 0)
e−2 20
= 1−
0!
= 1 − 0, 1353
P (X ≥ 1) = 0, 8647 ou 86, 47%.
Interpretação: Nesta rodovia, a probabilidade de que ocorra pelo menos um acidente neste trecho de 100 km
é de 0, 8647 ou 86, 47%.
17 Distribuição Normal
17.1 Introdução
Esta é a mais importante distribuição de probabilidade para descrever uma variável aleatória contı́nua abran-
gendo uma grande variedade de fenômenos. A distribuição normal de probabilidade é utilizada em uma ampla
variedade de aplicações práticas pois diversas variáveis aleatórias contı́nuas seguem uma distribuição ou modelo
normal de probabilidades. Alguns exemplos são: altura de indivı́duos, peso de indivı́duos, ı́ndice de massa corpo-
ral, pressão, temperatura, velocidade, vazão de um rio, tempo, salários dos funcionários de uma empresa, renda
familiar, etc.
A distribuição normal foi estudada inicialmente no século XVIII, quando uma análise de erros experimentais
levou a uma curva em forma de sino. Embora ela tenha aparecido pela primeira vez em 1733 por meio de DeMoivre7 ,
a distribuição normal recebe o nome de distribuição gaussiana, em homenagem ao cientista alemão Johann Carl
Friedrich Gauss8 , que foi o primeiro a utilizá-la em 1809.
Nos séculos 18 e 19, matemáticos e fı́sicos desenvolveram uma função densidade de probabilidade que descrevia
bem os erros experimentais obtidos em medidas fı́sicas. Esta função densidade de probabilidade resultou na bem
conhecida curva em forma de sino, chamada de distribuição normal ou gaussiana. Esta distribuição fornece uma
boa aproximação de curvas de frequência para medidas de dimensões e caracterı́sticas humanas, como a altura de
uma população. Conhecida como a curva em forma de sino, a distribuição normal tem sua origem associada aos
erros de mensuração. A distribuição normal desempenha papel preponderante na estatı́stica, e os processos de
inferência nela baseados têm larga aplicação.
É a mais importante distribuição ou modelo de probabilidades, pois os testes estatı́sticos paramétricos requer
a normalidade dos dados. Considere o seguinte experimento aleatório: observamos o peso (em quilos) de 1500
pessoas selecionadas ao acaso da população. Os dados foram agrupados em classes e o Histograma de freqüência
encontra-se na figura abaixo:
7 Abraham de Moivre (Vitry-le-François, Champagne, França, 26 de maio de 1667 — Londres, Reino Unido, 27 de novembro de
1754) foi um matemático francês famoso pela Fórmula de De Moivre, que relaciona os números complexos com a trigonometria, e
por seus trabalhos na distribuição normal e na teoria das probabilidades. De Moivre foi o primeiro a usar princı́pios atuariais e bases
cientı́ficas para o cálculo de seguros de vida, no ano de 1725. Era huguenote e migrou para a Inglaterra em 1685, com a revogação do
Édito de Nantes. Foi eleito membro da Royal Society em 1697. Foi amigo de Isaac Newton e Edmond Halley. Dentre seus alunos mais
notáveis destaca-se James Dodson.
8 Johann Carl Friedrich Gauss (ou Gauss) (Braunschweig, 30 de abril de 1777 — Göttingen, 23 de fevereiro de 1855) foi um
matemático, astrônomo e fı́sico alemão que contribuiu muito em diversas áreas da ciência, dentre elas a teoria dos números, estatı́stica,
análise matemática, geometria diferencial, geodésia, geofı́sica, eletroestática, astronomia e óptica. Gauss tinha uma marca influente em
muitas áreas da matemática e da ciência e é um dos mais influentes na história da matemática. Ele considerava a matemática como ”a
rainha das ciências”.
Observe agora a figura a seguir em que há uma curva sobreposta ao histograma:
Definição: Dizemos que a variável aleatória contı́nua X tem distribuição normal se sua função densidade de
probabilidade (f.d.p) é expressa por:
1 1 2
f (x) = √ exp − 2 (x − µ) .
2πσ 2 2σ
E (X) = µ ; V ar (X) = σ 2
A área toda abaixo da curva é 1, pois f (x) é uma função densidade de probabilidade (f.d.p).
A curva é assintótica no eixo x.
A curva tem forma campanular (sino).
A curva é perfeitamente simétrica em torno de µ.
O ponto máximo da função densidade de probabilidade f (x) ocorre em µ.
A esperança matemática de X é exatamente igual ao parâmetro µ que, por sua vez, coincide com as demais
medidas de tendência central: mediana e moda, isto é, E (X) = µ = M e = M o.
A variância de X é o parâmetro de escala σ 2 , e o desvio-padrão é o parâmetro σ.
Os pontos de inflexão da curva ocorrem em [µ − σ , µ + σ].
O intervalo [µ − σ , µ + σ] contem 68, 26% dos dados.
O intervalo [µ − 2σ , µ + 2σ] contem 95, 44% dos dados.
O intervalo [µ − 3σ , µ + 3σ] contem 99, 74% dos dados.
Forma campanular da curva normal: A distribuição normal tem forma campanular (forma de sino)
conforme figura a seguir:
Exemplo 1. Suponha que o peso X dos estudantes de uma grande Universidade tenha distribuição normal
com média µ = 70 kg e variância σ 2 = 121 kg 2 , isto é,
X ∼ N (70, 121)
Dessa forma a curva normal da variável peso é esboçada conforme a Figura (20):
Figura 20: Curva normal do peso X (em kg) dos estudantes de uma grande Universidade.
99, 74% dos estudantes desta Universidade pesam entre 37 kg e 103 kg.
Exemplo 2. Suponha que a altura X dos indivı́duos de um determinado municı́pio siga o modelo normal
com média µ = 168 cm e variância σ 2 = 100 cm2 , ou seja,
X ∼ N (168, 100)
Neste contexto a curva normal da variável altura (em cm) é ilustrada conforme a Figura (21):
Figura 21: Curva normal da altura X (em cm) dos indivı́duos de um determinado municı́pio.
68, 26% dos indivı́duos deste municı́pio tem uma altura entre 158 cm e 178 cm.
95, 44% dos indivı́duos deste municı́pio tem uma altura entre 148 cm e 188 cm.
99, 74% dos indivı́duos deste municı́pio tem uma altura entre 138 cm e 198 cm.
Exemplo 3. Suponha que a altura X dos pés-de-feijão de uma grande área produtora de feijões tenha
distribuição normal com média µ = 45 cm e variância σ 2 = 81 cm2 , isto é,
X ∼ N (45, 81)
Dessa forma a curva normal da variável altura é esboçada conforme a Figura (22):
Figura 22: Curva normal da altura X (em cm) dos pés-de-feijão de uma grande área produtora.
68, 26% dos pés-de-feijão desta área produtora tem uma altura entre 36 cm e 54 cm.
95, 44% dos pés-de-feijão desta área produtora tem uma altura entre 27 cm e 63 cm.
99, 74% dos pés-de-feijão desta área produtora tem uma altura entre 18 cm e 72 cm.
Exemplo 4. Suponha que a vazão diária X de um determinado rio, em um determinado ponto, siga o modelo
2
normal com média µ = 15 m3 /s e variância σ 2 = 16 m3 /s , ou seja,
X ∼ N (15, 16)
Neste contexto a curva normal da variável vazão do rio (em m3 /s) é ilustrada conforme a Figura (23):
Figura 23: Curva normal da vazão diária X (em m3 /s) de um determinado rio.
Em 68, 26% das vezes a vazão deste rio está entre 11 m3 /s e 19 m3 /s.
Em 95, 44% das vezes a vazão deste rio está entre 7 m3 /s e 23 m3 /s.
Em 99, 74% das vezes a vazão deste rio está entre 3 m3 /s e 27 m3 /s.
Exemplo 5. Em uma grande empresa prestadora de serviços, suponha que o tempo X (em minutos) para a
realização de um determinado serviço tenha distribuição normal com média µ = 36 minutos e variância σ 2 = 36
minutos2 , isto é,
X ∼ N (36, 36)
Dessa forma a curva normal da variável tempo é esboçada conforme a Figura (24):
Figura 24: Curva normal do tempo X (em minutos) para a realização de um determinado serviço.
Em 68, 26% das vezes o tempo para a realização deste serviço está entre 30 e 42 minutos.
Em 95, 44% das vezes o tempo para a realização deste serviço está entre 24 e 48 minutos.
Em 99, 74% das vezes o tempo para a realização deste serviço está entre 18 e 54 minutos.
A figura (25) apresenta curvas normais com médias diferentes e desvios padrão iguais.
Figura 25: Curvas normais com médias diferentes e desvios padrão iguais.
A figura (26) apresenta curvas normais com médias iguais e desvios padrão diferentes.
Figura 26: Curvas normais com médias iguais e desvios padrão diferentes.
Uma área sob uma curva de densidade é uma proporção das observações em uma distribuição. Podemos res-
ponder qualquer pergunta acerca de qual proporção de observações está em uma determinada amplitude de valores,
determinando uma área sob a curva. Como todas as distribuições normais são iguais quando as padronizamos,
podemos determinar áreas sob a curva Normal utilizando uma única tabela que forneça as áreas sob a curva para
a distribuição normal padrão.
Resultado: Se X é uma v.a.c tal que X ∼ N µ, σ 2 , então
X −µ
Z= ∼ N (0, 1) . (33)
σ
A distribuição normal padrão também é chamada de distribuição normal padronizada, distribuição normal
reduzida, distribuição Z, distribuição standard ou ainda distribuição zero um.
2
Demonstraçãode (33):
Sabemos que, se X ∼ N µ, σ , então E (X) = µ e V ar (X) = σ 2 .
Fazendo Z = X−µ σ , encontremos primeiramente a esperança da variável Z:
X −µ
E (Z) = E
σ
E (X − µ)
=
σ
E (X) − E (µ)
=
σ
µ−µ
=
σ
E (Z) = 0.
Demonstramos que E (Z) = 0 e V ar (Z) = 1. Sabendo que Z é uma combinação linear de X, pois
X −µ
Z =
σ
X µ
= −
σ σ
1 µ
= X−
σ σ
1 µ
= X+ −
σ
|{z} | {zσ }
a b
Z = aX + b
Uma grande empresa construtora deseja estudar a vazão de um rio afim de construir uma ponte em concreto
armado em um determinado ponto de sua extensão. Sabe-se que nesta localidade, a vazão diária X (em m3 /s) é
uma variável aleatória contı́nua (v.a.c) que segue uma distribuição normal com média µ = 1250 m3 /s e variância
2
σ 2 = 102.400 m3 /s , isto é,
X ∼ N (1250 ; 102400)
Neste contexto, o valor numérico do desvio padrão da vazão é σ = 320 m3 /s. Esboçando a distribuição
normal da vazão temos a seguinte curva:
1250 − 1250 1800 − 1250
P (1250 ≤ X ≤ 1800) = P ≤Z≤
320 320
= P (0 ≤ Z ≤ 1, 72)
Ou seja, a probabilidade da variável X estar entre 1250 e 1800 é a mesma probabilidade da variável Z estar
entre 0 e 1, 72, conforme ilustrado nas Figuras abaixo:
Buscando na Tabela Z o valor da área compreendida entre 0 e 1, 72 temos 0, 4573. Desta maneira temos que
Interpretação: A probabilidade de que, num determinado dia, a vazão do rio esteja entre 1250 m3 /s e 1800
3
m /s é de 0, 4573 ou 45, 73%. Em termos frequentistas, podemos afirmar que em 45, 73% das vezes, a vazão deste
rio está entre 1250 m3 /s e 1800 m3 /s.
350 − 1250 1250 − 1250
P (350 ≤ X ≤ 1250) = P ≤Z≤
320 320
= P (−2, 81 ≤ Z ≤ 0)
Ou seja, a probabilidade da variável X estar entre 350 e 1250 é a mesma probabilidade da variável Z estar
entre −2, 81 e 0, conforme ilustrado nas Figuras abaixo:
Buscando na Tabela Z o valor da área compreendida entre −2, 81 e 0 temos 0, 4975. Desta maneira temos
que
500 − 1250 1500 − 1250
P (500 ≤ X ≤ 1500) = P ≤Z≤
320 320
= P (−2, 34 ≤ Z ≤ 0, 78)
Ou seja, a probabilidade da variável X estar entre 500 e 1500 é a mesma probabilidade da variável Z estar
entre −2, 34 e 0, 78, conforme ilustrado nas Figuras abaixo:
Como a Tabela Z adotada neste material fornece sempre a área compreendida entre 0 e Z, devemos buscar
então as áreas compreendidas entre −2, 34 e 0 e entre 0 e 0, 78 para somá-las. Desta maneira temos que
Interpretação: A probabilidade de que, num determinado dia, a vazão do rio esteja entre 500 m3 /s e 1500
m3 /s é de 0, 7727 ou 77, 27%. Em termos frequentistas, podemos afirmar que em 77, 27% das vezes, a vazão deste
rio está entre 500 m3 /s e 1500 m3 /s.
725 − 1250 2120 − 1250
P (725 ≤ X ≤ 2120) = P ≤Z≤
320 320
= P (−1, 64 ≤ Z ≤ 2, 72)
Ou seja, a probabilidade da variável X estar entre 725 e 2120 é a mesma probabilidade da variável Z estar
entre −1, 64 e 2, 72, conforme ilustrado nas Figuras abaixo:
Como a Tabela Z adotada neste material fornece sempre a área compreendida entre 0 e Z, devemos buscar
então as áreas compreendidas entre −1, 64 e 0 e entre 0 e 2, 72 para somá-las. Desta maneira temos que
Interpretação: A probabilidade de que, num determinado dia, a vazão do rio esteja entre 720 m3 /s e 2120
3
m /s é de 0, 9462 ou 94, 62%. Em termos frequentistas, podemos afirmar que em 94, 62% das vezes, a vazão deste
rio está entre 720 m3 /s e 2120 m3 /s.
2000 − 1250
P (X ≤ 2000) = P Z≤
320
= P (Z ≤ 2, 34)
Ou seja, a probabilidade da variável X ser menor do que 2000 é a mesma probabilidade da variável Z ser
menor do que 2, 34, conforme ilustrado nas Figuras abaixo:
Buscando na Tabela Z o valor da área compreendida entre 0 e 2, 34 temos 0, 4904. Note que, além disso,
devemos somar com toda a área compreendida entre −∞ e 0, isto é, devemos somar 0, 5. Desta maneira temos que
P (Z ≤ 2, 34) = 0, 5 + P (0 ≤ Z ≤ 2, 34)
= 0, 5 + 0, 4904
P (X ≤ 2000) = 0, 9904.
Portanto temos que:
Interpretação: A probabilidade de que, num determinado dia, a vazão do rio esteja menor que 2000 m3 /s
é de 0, 9904 ou 99, 04%. Em termos frequentistas, podemos afirmar que em 99, 04% das vezes, a vazão deste rio
está menor que 2000 m3 /s.
1980 − 1250
P (X ≥ 1980) = P Z≥
320
= P (Z ≥ 2, 28)
Ou seja, a probabilidade da variável X ser maior do que 1980 é a mesma probabilidade da variável Z ser
maior do que 2, 28, conforme ilustrado nas Figuras abaixo:
Buscando na Tabela Z o valor da área compreendida acima de 2, 28 notamos que é a diferença entre 0, 5 e
área compreendida entre 0 e 2, 28. Desta maneira temos que
P (Z ≥ 2, 28) = 0, 5 − P (0 ≤ Z ≤ 2, 28)
= 0, 5 − 0, 4887
P (X ≥ 1980) = 0, 0113.
Portanto temos que:
Interpretação: A probabilidade de que, num determinado dia, a vazão do rio esteja maior que 1980 m3 /s
é de 0, 0113 ou 1, 13%. Em termos frequentistas, podemos afirmar que em 1, 13% das vezes, a vazão deste rio está
maior que 1980 m3 /s.
400 − 1250
P (X ≤ 400) = P Z≤
320
= P (Z ≤ −2, 66)
Ou seja, a probabilidade da variável X ser maior do que 400 é a mesma probabilidade da variável Z ser maior
do que −2, 66, conforme ilustrado nas Figuras abaixo:
Buscando na Tabela Z o valor da área compreendida abaixo de −2, 66 notamos que é a diferença entre 0, 5 e
área compreendida entre −2, 66 e 0. Desta maneira temos que
Interpretação: A probabilidade de que, num determinado dia, a vazão do rio esteja menor que 400 m3 /s é
de 0, 0039 ou 0, 39%. Em termos frequentistas, podemos afirmar que em 0, 39% das vezes, a vazão deste rio está
menor que 400 m3 /s.
É muito comum na prática termos o interesse na distribuição de uma função linear (ou também chamada de
combinação linear) de distribuições normais, como por exemplo a soma de distribuições normais.
Resultado: Seja X uma variável aleatória contı́nua que segue o modelo normal com parâmetros µ e σ 2 ,
então qualquer função linear de X também tem distribuição normal. Em outras palavras, se X ∼ N µ, σ 2 , então
Y = aX + b também tem distribuição normal com média aµ + b e variância a2 σ 2 , isto é,
Y ∼ aµ + b , a2 σ 2 .
(34)
E (Y ) = E (aX + b)
= E (aX) + E (b)
= aE (X) + b
E (Y ) = aµ + b.
V ar (Y ) = V ar (aX + b)
= V ar (aX) + V ar (b)
= a2 V ar (X) + 0
V ar (Y ) = a2 σ 2 .
Se X1 , X2 , . . . , Xn são n variáveis aleatórias independentes tal que Xi ∼ N µi , σi2 , para i = 1, 2, . . . , n,
então a soma destas variáveis também tem distribuição normal com média igual a soma das médias das variáveis
e variância igual a soma das variâncias das variáveis, isto é,
n n n
!
X X X
Xi ∼ N µi , σi2 . (35)
i=1 i=1 i=1
O resultado acima obedece diretamente as propriedades da esperança e da variância de uma variável aleatória.
n
P
Demonstração de (35): Encontrando primeiramente a esperança matemática de Xi temos:
i=1
n
! n
X X
E Xi = E (Xi )
i=1 i=1
= E (X1 ) + E (X2 ) + · · · + E (Xn )
= µ1 + µ2 + · · · + µn
n
! n
X X
E Xi = µi .
i=1 i=1
n
P
Por sua vez, a variância de Xi é tal que:
i=1
n
! n
X X
V ar Xi = V ar (Xi )
i=1 i=1
= V ar (X1 ) + V ar (X2 ) + · · · + V ar (Xn )
= σ12 + σ22 + · · · + σn2
n
! n
X X
V ar Xi = σi2 .
i=1 i=1
n
P
Como Xi é uma combinação linear de distribuições normais, então esta soma também trata-se de uma
i=1
distribuição normal e segue imediatamente o resultado dado em (35).
n
X
Xi ∼ N nµ, nσ 2 .
i=1
Considere X e Y duas variáveis aleatórias contı́nuas tal que X ∼ N (100, 100) e Y ∼ N (120, 400). Use as
propriedades da esperança e da variância para determinar qual a distribuição da variável aleatória W , em que
W = 260 + 4X − 3Y .
E (W ) = E (260 + 4X − 3Y )
= E (260) + E (4X) − E (3Y )
= 260 + 4E (X) − 3E (Y )
= 260 + 4 × 100 − 3 × 120
E (W ) = 300.
V ar (W ) = V ar (260 + 4X − 3Y )
= V ar (260) + V ar (4X) + V ar (3Y )
= 0 + 16V ar (X) + 9V ar (Y )
= 16 × 100 + 9 × 400
V ar (W ) = 5200.
Como a variável W é uma combinação linear das distribuições normais X e Y , temos que W também segue
uma distribuição normal tal que:
W ∼ N (300, 5200) .
Suponha que o peso X de indivı́duos adultos segue uma distribuição normal com média µ = 70 kg e variância
σ 2 = 121 kg 2 . O fabricante de um elevador diz que, por motivos de segurança, ele pára toda vez que o peso total
da carga do elevador for superior a 1500 kg. Uma amostra de n = 22 pessoas entrou no elevador.
Solução do item a. Como o peso X dos indivı́duos segue uma distribuição de probabilidades tal que
X ∼ N (70, 121), temos que:
75 − 70
P (X > 75) = P Z>
11
= P (Z > 0, 45)
= 0, 5 − P (0 < Z < 0, 45)
= 0, 5 − 0, 1736
⇒ P (X > 75) = 0, 3264 ou 32, 64%.
Logo, a probabilidade probabilidade de uma pessoa qualquer no elevador pesar acima de 75 quilos é 0, 3264
ou 32, 64%. Ou ainda, em 32, 64% das vezes, os indivı́duos que entram neste elevador tem um peso acima de 75
quilos.
22
!
X
E (T ) = E Xi
i=1
22
X
= E (Xi )
i=1
= E (X1 ) + E (X2 ) + · · · + E (X22 )
= µ + µ + ··· + µ
= 70 + 70 + · · · + 70
| {z }
22×70
⇒ E (T ) = 1540 kg.
22
P
Em seguida, devemos encontrar a variância da variável aleatória T = Xi :
i=1
22
!
X
V ar (T ) = V ar Xi
i=1
22
X
= V ar (Xi )
i=1
= V ar (X1 ) + V ar (X2 ) + · · · + V ar (X22 )
= σ2 + σ2 + · · · + σ2
= 121 + 121 + · · · + 121
| {z }
22×121
⇒ V ar (T ) = 2662 kg 2 .
22
P 22
P
Como a variável T = Xi é uma combinação linear de distribuições normais, temos que T = Xi também
i=1 i=1
segue uma distribuição normal. Logo, a distribuição de probabilidades da carga total deste elevador é dada por
22
X
T = Xi ∼ N (1540, 2662)
i=1
Portanto, a probabilidade do elevador parar por motivos de segurança é determinada da seguinte forma:
22
!
X
P (T > 1500) = P Xi > 1500
i=1
1500 − 1540
= P Z> √
2662
= P (Z > −0, 78)
= P (−0, 78 < Z < 0) + P (Z > 0)
= 0, 2823 + 0, 5
P (T > 1500) = 0, 7823 ou 78, 23%.
Logo, a probabilidade do elevador parar por motivos de segurança é 0, 7823 ou 78, 23%. Ou ainda, em 78, 23%
das vezes que entram 22 indivı́duos neste elevador, ele pára por motivos de segurança.
P A ∩ B C ∪ AC ∩ B = P (A) + P (B) − 2P (A ∩ B)
Exercı́cio 10. Em uma prova caı́ram dois problemas. Sabe-se que 132 alunos acertaram o primeiro, 86 erraram
o segundo, 120 acertaram os dois e 54 acertaram apenas um problema. Qual a probabilidade de que um aluno,
escolhido ao acaso:
a. não tenha acertado nenhum problema?
b. tenha acertado apenas o segundo problema?
Exercı́cio 11. Em uma cidade onde se publicam três jornais A, B e C, constatou-se que entre 1000 famı́lias,
os assinantes se dispõem da seguinte forma:
Jornais: A B C AeB AeC BeC AeBeC
Número de famı́lias: 470 420 315 110 220 140 75
Faça o diagrama de Venn. Escolhendo-se ao acaso uma famı́lia, qual a probabilidade de que esta famı́lia:
a. não assine nenhum dos três jornais?
b. assine apenas um dos três jornais?
c. assine pelo menos dois jornais?
Exercı́cio 12. A tabela abaixo dá a distribuição das probabilidades dos quatro tipos sanguı́neos, numa certa
comunidade:
Tipo sanguı́neo: A B AB O
Probabilidade de ter o tipo especificado: 0, 20
Probabilidade de não ter o tipo especificado: 0, 90 0, 95
Calcule e probabilidade de que:
a. um indivı́duo, sorteado ao acaso nessa comunidade, tenha o tipo O.
b. dois indivı́duos, sorteados ao acaso nessa comunidade, tenham tipo A e tipo B, nessa ordem;
c. um indivı́duo, sorteado ao acaso nessa comunidade, não tenha o tipo B ou não tenha o tipo AB.
Exercı́cio 13. Dados dois eventos A e B associados a um mesmo espaço amostral Ω, mostre que
P AC ∩ B C = 1 − P (A) − P (B) + P (A ∩ B)
Exercı́cio 14. Em uma universidade a distribuição de 300 estudantes segundo o sexo e a área de concentração
é dada pela tabela abaixo:
Exercı́cio 1: Aplicações gerais. Considere X uma variável aleatória discreta (v.a.d ) cuja distribuição de
probabilidades seja tal que
k
P (X = k) = , k = 1, 2, ..., 10.
55
a
k = a(a+1)
P
a. Encontre F (a) = P (X ≤ a), k = 1, 2, ..., 10. Ajuda: 2 .
k=1
b. Determine E (X) e V AR (X).
Exercı́cio 3: Aplicações em ecologia. (1, 5 pontos) Seja X uma v.a.d que denota o número de ovos que
uma determinada espécie de réptil bota em uma única vez, tal que sua distribuição de probabilidades é expressa
por
P (X = k) = c (31 − k) para k = 1, 2, ..., 30. (36)
Após encontrar o valor numérico da constante c afim de que a expressão (36) seja, de fato, uma distribuição de
probabilidades, encontre a esperança matemática E (X), a variância V ar (X), o desvio-padrão σ (X) e a função
distribuição avaliada no ponto a, (a ≤ 30), isto é, F (a) = P (X ≤ a).
Exercı́cio 4: Aplicações em administração. (2,0 pontos) Em uma grande rede de loja de calçados, os
funcionários ganham um adicional no salário em função das vendas. Esse adicional é dado em número de bônus que
variam de 1 a 5. O número X de bônus que cada funcionário ganha, além do salário fixo, é uma variável aleatória
discreta tal que sua distribuição de probabilidades é dada por:
21 − k (k − 1)
P (X = k) = , k = 0, 1, 2, 3, 4, 5.
86
a. Encontre e interprete a esperança do número X de bônus a receber no final do mês.
b. Encontre a variância e o desvio padrão do número X de bônus a receber no final do mês.
Exercı́cio 5: Aplicações gerais. Uma variável aleatória W assume os valores 1, 2, ..., N com igual proba-
bilidades, isto é, P (W = k) = N1 , k = 1, 2, ..., N . Determine:
Exercı́cio 7: Aplicações em biologia. Um determinado inseto bota uma quantidade de ovos que varia
sempre entre 1 e N . Seja X : número de ovos depositados por esse inseto, isto é, X = 1, 2, ..., N . Sabendo que
P (X = k) = ck, para k = 1, 2, ..., N , determinar
a.) c b.) E (X) c.) V AR (X)
Ajuda 1: Determine primeiramente o valor da constante c, e depois encontre a distribuição de probabilidades
de X.
N N N h i2
k = N (N2+1) ; k 2 = N (N +1)(2N +1) 3 N (N +1)
P P P
Ajuda 2: 6 e k = 2
k=1 k=1 k=1
Exercı́cio 8: Aplicações gerais. Seja X uma v.a discreta tal que sua distribuição de probabilidades é
dada por:
2
P (X = k) = (1 − q) kq k−1 , k = 1, 2, 3, ...
e q é uma constante positiva tal que 0 < q < 1.
∞
P
a. Mostre que P (X = k) = 1.
k=1
P (X=k+1)
b. Determine o quociente P (X=k) e mostre que
P (X = k + 1)
lim = q.
k→∞ P (X = k)
c. Determine P (X ≥ 2) em função de q.
d. Determine E (X) e mostre que lim E (X) = 1.
q→0
∞ ∞
1 (1+q)
kq k−1 = k 2 q k−1 =
P P
Ajudas: para 0 < q < 1 temos (1−q)2
e (1−q)3
.
k=1 k=1
Exercı́cio 1. Seja X uma variável aleatória contı́nua e f (x) dada por f (x) = a + 4x, para 0 ≤ x ≤ 1/2.
a. Determine o valor numérico de a para que f (x) seja de fato uma f.d.p.
b. Determine P (X ≤ 1/3).
Exercı́cio 4. Seja X uma variável aleatória contı́nua tal que f (x) = 2x, com 0 ≤ x ≤ 1.
a. Verifique se f (x) é de fato uma f.d.p.
b. Determine P (X ≤ 1/2).
2e−2x , x ≥ 0
f (x) =
0, x < 0
a. Verifique se f (x) é de fato uma f.d.p.
b. Determine P (X ≥ 10).
f (x) = c x2 + 5x + 6 ,
0 ≤ x ≤ 4.
Determine:
a. O valor da constante c para que esta f (x) seja de fato uma f.d.p.
b. Determine P (0 ≤ X ≤ 1).
c. Determine F (2) = P (X ≤ 2).
d. Determine F (3) = P (X ≤ 3).
e. Determine F (x).
f. Determine P (X ≥ 7/2).
Exercı́cio 7. Seja X uma v.a.c tal que sua f.d.p (função densidade de probabilidade) é dada por:
3x2
f (x) = , − a < x < a.
2a3
Determine
a. P (−a/2 < X < a/2). b. E (X). c. V AR (X).
Exercı́cio 8. Seja X uma v.a.c tal que sua f.d.p (função densidade de probabilidade) é dada por:
3x2
f (x) = , 0 < x < 5.
125
a. Verifique que se trata de uma f.d.p
b. Determine P (X < 1) e P (X > 3).
c. Encontre a E (X) e V AR (X).
d. Encontre a mediana M e.
e. Determine F (x) = P (X ≤ x).
Exercı́cio 9. Seja X uma v.a contı́nua tal que sua f.d.p é dada por:
3x2
f (x) = , − 5 < x < 5.
250
a. Verifique que se trata de uma f.d.p.
b. Mostre que M e = E (X) = 0.
c. Determine V AR (X) e σ (X).
Exercı́cio 10: Aplicações em engenharia. Considere X uma variável aleatória contı́nua (v.a.c) que
denota o tempo em minutos que um sistema automático leva para realizar a montagem de um dispositivo na linha
de produção. Seja sua função densidade de probabilidades (f.d.p) expressa por
f (x) = −x2 + 8x + 10 c,
para 3 ≤ x ≤ 8.
a. Após encontrar o valor numérico da constante c para que f (x) seja uma (f.d.p), encontre P (4 ≤ X ≤ 7).
b. Encontre o valor modal M o, o valor mediano M e e a esperança matemática E (X).
c. Encontre a variância de X, denotada por V AR (X) e a função distribuição F (x) = P (X ≤ x).
Exercı́cio 11: Aplicações em engenharia. Considere X uma variável aleatória contı́nua (v.a.c) que
denota o tempo (em minutos) que um sistema automático leva para realizar a montagem de um dispositivo na
linha de produção. Seja sua função densidade de probabilidades (f.d.p) expressa por
f (x) = c −x2 + 6x + 10 ,
3 ≤ x ≤ 6.
Após encontrar o valor numérico da constante c afim de que f (x) seja, de fato, uma f.d.p, mostre que a
distribuição do tempo de montagem não é simétrica, isto é: E (X) 6= M e 6= M o.
Exercı́cio 2. Considerando cada uma das distribuições abaixo, determine o que se pede.
a. Se X ∼ Binomial (4; 0, 12), determine P (X = 0).
b. Se X ∼ Binomial (10; 0, 40), determine P (X = 9).
c. Se X ∼ Binomial (10; 0, 50), determine P (X = 8).
d. Se X ∼ Binomial (6; 0, 83), determine P (X = 5).
e. Se X ∼ Binomial (10; 0, 90), determine P (X = 9).
Exercı́cio 4. Para efetuar a regulação hormonal de uma linha metabólica, injeta-se em ratos albinos um
fármaco que inibe a sı́ntese de proteı́nas do organismo. Geralmente, quatro de cada vinte ratos morrem por
causa do fármaco antes que o experimento tenha sido concluı́do. Se tratarmos dez animais com o fármaco, qual
a probabilidade de que pelo menos oito cheguem vivos ao final do experimento? Ajuda: Se 4 de cada 20 ratos
morrem por causa do fármaco, então 16 de cada 20 ratos vivem.
Exercı́cio 5. Uma moeda honesta é lançada 20 vezes. Qual a probabilidade de saı́rem 8 caras? Ajuda: Se
a moeda é honesta, então a probabilidade da cara é 0, 50 e, portanto, a probabilidade de sucesso neste exercı́cio é
p = 0, 50.
Exercı́cio 6. Sabe-se que o número X de pessoas com uma certa patologia dentre n pessoas escolhidas ao
acaso segue uma distribuição binomial. Para esta patologia especı́fica sabe-se que X ∼ Binomial (n, p) tal que
E (X) = 7, 2 e V ar (X) = 4, 32. Então quais são os valores numéricos dos parâmetros n e p? Ajuda: Use o fato
de que, no modelo binomial temos E (X) = np e V ar (X) = np (1 − p).
Exercı́cio 7. O número de mulheres grávidas que sofrem de complicações no momento do parto segue
uma distribuição Binomial, ou seja, X ∼ Binomial (n, p) tal que P (X = 4) = P (X = 5). Então qual o valor do
parâmetro p em função den? Ajuda: Use o fato de que, no modelo binomial a probabilidade da ocorrência de k
n−k
sucessos é P (X = k) = nk pk (1 − p) para aplicar na igualdade:
n 4 n−4 n 5 n−5
P (X = 4) = P (X = 5) =⇒ p (1 − p) = p (1 − p) .
4 5
Exercı́cio 8. O número de pessoas com uma certa doença dentre n pessoas escolhidas ao acaso segue uma
distribuição Binomial (n, p) tal que E (X) = 5 e V ar (X) = 3, 75. Quais os valores numéricos dos parâmetros n e
p? Ajuda: Use o fato de que, no modelo binomial temos E (X) = np e V ar (X) = np (1 − p).
Exercı́cio 9. O número X de lâmpadas defeituosas para cada lote de n unidades produzidas em uma
fábrica é uma variável alatória discreta que segue um modelo binomial tal que E (X) = 1, 25V AR (X). Encontre
a probabilidade de haver pelo menos uma lâmpada defeituosa num lote de n = 12 lâmpadas. Ajuda: Use o fato
de que, no modelo binomial temos E (X) = np e V ar (X) = np (1 − p).
Exercı́cio 10: Aplicações em geociências. Uma empresa exploradora de petróleo pretende instalar
uma plataforma em uma determinada região oceânica. Nesta região o número k de sondagens que apresentam
petróleo dentre n sondagens (k ≤ n) é uma variável aleatória discreta (v.a.d) que segue o modelo binomial tal
que E (X) = 2V ar (X). Encontre o valor numérico do parâmetro p para determinar a probabilidade de que, em
uma amostra de n = 22 sondagens, pelo menos uma sondagem apresente petróleo. Ajuda: Use o fato de que, no
modelo binomial temos E (X) = np e V ar (X) = np (1 − p) para encontrar o valor numérico de p.
Exercı́cio 2: Aplicações na saúde pública. Em uma certa população, observou-se um número médio
anual de 12 mortes por câncer de pulmão. Se o número de mortes causado por esta enfermidade segue uma
distribuição de Poisson, qual a probabilidade de que, durante o ano
a. haja exatamente 10 mortes por câncer de pulmão?
b. morram 2 ou mais pessoas por causa desta enfermidade?
c. morram 2 ou menos pessoas por causa desta enfermidade?
Exercı́cio 3: Aplicações em estudos de rodovias. Numa estrada há em média 2 acidentes para cada
100km. Qual a probabilidade de que em:
a. 250km ocorram pelo menos 3 acidentes?
b. 300km ocorram 5 acidentes?
Ajuda: Se nesta estrada há 2 acidentes para cada 100km, então há em média 1 acidente para cada 50km.
Exercı́cio 4: Aplicações em indústrias. Numa determinada linha de produção de uma fábrica, a ex-
periência mostra que de cada 400 lâmpadas, 2 se queimam ao serem ligadas. Qual a probabilidade de que numa
instalação de:
a. 600 lâmpadas, no mı́nimo 3 se queimem?
b. 900 lâmpadas, exatamente 8 se queimem?
Ajuda: Se para cada 400 lâmpadas, em média 2 se queimam, então para cada 200 lâmpadas, em média 1
lâmpada se queima.
Exercı́cio 6: Aplicações no setor bancário. Um caixa de banco atende 150 clientes por hora. Qual a
probabilidade de que atenda:
a. Nenhum cliente em 4 minutos.
b. No máximo 2 clientes em 2 minutos.
Ajuda: Se 150 clientes em média são atendidos por hora neste banco, então 2, 5 clientes são atendios em
média por minuto.
Exercı́cio 7: Aplicações em biologia. O número X de ovos que uma determinada espécie de avestruz
bota obedece uma distribuição de Poisson de parâmetro lâmbda, isto é, X ∼ P oisson (λ), tal que P (X = 4) =
5P (X = 5). Então qual o valor da esperança matemática do número de ovos que essa espécie de avestruz bota?
Ajuda: Use o fato de que, a partir da distribuição de Poisson, temos que a igualdade apresentada no enunciado é
tal que:
e−λ λ4 e−λ λ5
P (X = 4) = 5P (X = 5) ⇒ =5
4! 5!
para encontrar o valor numérico do parâmetro lâmbda.
Exercı́cio 8: Aplicações gerais. Seja X ∼ P oisson (λ), tal que P (X = 0) = 2P (X = 1). Então qual o
valor numérico do parâmetro lâmbda? Ajuda: Use a ajuda do exercı́cio anterior.
Ajuda: Use o fato de que, a partir da distribuição de Poisson, temos que a igualdade apresentada no
enunciado é tal que:
3 e−λ λ2 3 e−λ λ4
P (X = 2) = P (X = 4) ⇒ =
4 2! 4 4!
para encontrar o valor numérico do parâmetro lâmbda.
Exercı́cio 10: Aplicações na ensino superior. O número X de alunos que são jubilados, anualmente,
em uma universidade segue uma distribuição de Poisson tal que P (X ≥ 1) = 0, 9502 ou 95, 02%.
a. Nessa situação, qual o número esperado de alunos jubilados anualmente nessa universidade? Ajuda:
Para encontrar o valor da E (X) encontre primeiramente o valor numérico do parâmetro λ, usando a probabilidade
complementar dada por P (X ≥ 1) = 1 − P (X = 0).
b. Qual a probabilidade de que, em um determinado ano letivo, 2 alunos sejam jubilados?
Exercı́cio 2: Aplicações no tempo de vida de pneus. Uma fábrica de carros sabe que o tempo X de
duração dos motores de sua fabricação têm distribuição normal com média 150.000km e desvio-padrão de 5.000km.
Qual a probabilidade de que um carro, escolhido ao acaso nesta fábrica, tenha motor que dure:
a. menos de 170.000km?
b. entre 140.000km e 165.000km?
Exercı́cio 3: Aplicações em estudos antropométricos. Foi feito um estudo sobre a altura X dos
alunos de uma faculdade, observando-se que ela se distribuı́a normalmente com média µ = 1, 72m e desvio-padrão
σ = 5cm. Qual a porcentagem dos alunos com altura:
Exercı́cio 4: Aplicações no tempo de chegada. O tempo X (em minutos) que os alunos gastam para
chegar a uma certa universidade é uma variável aleatória contı́nua que segue uma distribuição aproximadamente
normal com média µ = 28 minutos e desvio-padrão σ = 7 minutos. Determine a probabilidade de que, um aluno
escolhido ao acaso, gaste um tempo para chegar a universidade
a. Entre 28 e 40 minutos.
b. Entre 12 e 28 minutos.
c. Entre 10 e 40 minutos.
d. Mais de 45 minutos.
e. Menos de 8 minutos.
f. Entre 15 e 20 minutos.
g. Supondo que a universidade tenha 1200 alunos, determine a quantidade de alunos para cada um dos
intervalos acima.
Exercı́cio 5: Aplicações em indústrias. Numa fábrica foram instaladas 1.000 lâmpadas novas. Sabe-se
que o tempo de vida X destas lâmpadas segue uma distribuição normal com média µ = 800 horas e desvio-padrão
de σ = 100 horas. Determinar a quantidade de lâmpadas nesta fábrica que espera-se durar:
Exercı́cio 6: Aplicações em indústrias. Um fabricante de máquinas de lavar sabe, por longa experiência,
que o tempo de vida X de suas máquinas tem distribuição normal com média µ = 1.000 dias e desvio-padrão
σ = 200 dias. Oferece-se uma garantia de 1 ano (365 dias). Sabendo-se que o fabricante produz mensalmente 2.000
máquinas. Quantas máquinas espera-se trocar mensalmente pelo uso da garantia dada?
Exercı́cio 9: Aplicações em estudos de vazão. A vazão diária X de um rio (em m3 /s) é uma v.a.c que
2
segue um modelo normal com média µ = 1400m3 /s e variância σ 2 = 122.500 m3 /s . Encontre a vazão Xα tal
que P (X ≤ Xα ) = 0, 95.
Exercı́cio 10: Aplicações no estudo de salários. Em uma grande indústria metalúrgica com 2.500
funcionários, o salário X dos funcionários segue uma distribuição normal com média µ = 2.480, 00 reais e desvio-
padrão σ = 535, 00 reais. Determine o salário Xα tal que:
a. P (X ≤ Xα ) = 0, 85, isto é, encontre e interprete o octogésimo quinto percentil dos salários da empresa.
b. P (X ≤ Xα ) = 0, 20, isto é, encontre e interprete o segundo decil dos salários da empresa.
c. Encontre a quantidade de funcionários que ganham abaixo de 1.000 reais.
d. Encontre a quantidade de funcionários que ganham acima de um salário mı́nimo, isto é, acima de 678
reais.
e. Encontre a quantidade de funcionários que ganham entre 800 e 3.800 reais.
Exercı́cio 11: Aplicações em variáveis ambientais. A vazão diária X de um rio (em m3 /s) é uma v.a.c
2
que segue um modelo normal com média µ = 260 m3 /s e variância σ 2 = 1764 m3 /s . Encontre a probabilidade
de que, num determinado dia, a vazão esteja:
Exercı́cio 1: Aplicações gerais. Sejam X1 , X2 , ..., X60 variáveis aleatórias independentes tal que Xi ∼
P60
N (20, 16), i = 1, 2, ..., 60. Encontre a distribuição de probabilidades da variável aleatória Y = Xi , para
i=1
determinar:
Exercı́cio 3: Aplicações em transporte de cargas. O peso X de um saco de café é uma variável aleatória
contı́nua que segue uma distribuição normal com média de µ = 65kg e desvio-padrão σ = 4kg. Um caminhão é
carregado com 120 sacos. Qual a probabilidade de a carga do caminhão pesar:
120
P
Ajuda: Defina Xi , como sendo o peso do i-ésimo saco de café, i = 1, 2, ..., 120, e considere Y = Xi como
i=1
sendo o peso total da carga caminhão. Em seguida encontre a distribuição de probabilidades da variável aleatória
Y para resolver os itens acima.
6
P
Ajuda: Defina Xi , como sendo o peso do i-ésimo indivı́duo adulto, i = 1, 2, ..., 6, e considere Y = Xi
i=1
como sendo o peso total da carga do elevador. Em seguida encontre a distribuição de probabilidades da variável
aleatória Y para resolver os itens acima.
Exercı́cio 5: Aplicações na pecuária. Um criador possui 5.000 cabeças de vaca leiteira. Sabendo-se que a
produção diária X de cada vaca segue uma distribuição normal com média µ = 3 litros e desvio-padrão de σ = 0, 5
litros, calcular a probabilidade de produzir diariamente:
Ajuda: Defina Xi , como sendo a produção diária de leite da i-ésima vaca, i = 1, 2, ..., 5000, e considere
5000
P
Y = Xi como sendo a produção diária total. Em seguida encontre a distribuição de probabilidades da variável
i=1
aleatória Y para resolver os itens acima.
Exercı́cio 7: Aplicações gerais. Sejam as variáveis X ∼ N (120, 64) e Y ∼ N (100, 100) onde X e Y são
independentes. Considere também as variáveis W = 20 + 3X − 2Y e T = 80 − 5X + 7Y , em que W e T são
independentes. Defina as variáveis S e D representando a soma e a diferença respectivamente das variáveis W e
T , isto é, S = W + T e D = W − T . Encontre a distribuição das variáveis S e D para determinar:
Sabendo que esta empresa monta 5.000 automóveis por ano, encontre a quantidade de automóveis que são
montados em um tempo total de montagem entre 170 minutos e 200 minutos.
Sabendo que as etapas são independentes entre si, encontre a probabilidade do tempo total de montagem do
equipamento eletro eletrônico ser maior do que 20 minutos.
Parte IV
Inferência Estatı́stica: Técnicas de Estimação de
Parâmetros
20 Amostragem
“Não é preciso beber toda a garrafa para saber se o vinho é bom”. Esta frase bastante popular ilustra melhor
do que qualquer exemplo técnico o conceito de inferência estatı́stica: dar informação sobre o todo, com base no
conhecimento da parte. Os experimentos são feitos com amostras, mas o pesquisador não quer suas conclusões
restritas à amostra com a qual trabalhou. Ao contrário, o pesquisador quer estender os resultados que obteve para
toda a população. Então o pesquisador quer fazer inferência. A inferência estatı́stica é o conjunto de procedimentos
estatı́sticos que têm por finalidade generalizar conclusões de uma amostra para uma população.
Para poder generalizar as conclusões obtidas da amostra para a população, não basta saber descrever con-
venientemente os dados da amostra, é preciso garantir que o processo de amostragem seja eficiente, ou seja, que
a amostra seja representativa da população. Isto significa que a amostra deve possuir as mesmas caracterı́sticas
básicas da população, no que diz respeito às variáveis que desejamos pesquisar. A partir desta generalização surge
o conceito fundamental de erro provável.
A possibilidade de erro é inerente ao processo de inferência, ou seja, sempre que estudamos uma população a
partir de uma amostra, existe a possibilidade de cometermos algum tipo de erro de conclusão. A grande aplicação
da Inferência Estatı́stica é fornecer métodos que permitam quantificar esse erro provável.
Neste Capı́tulo introduzimos a teoria da amostragem abordando as definições e os conceitos básicos. Embora
elenquemos os diversos tipos de amostragens tanto probabilı́sticas quanto amostragens não-probabilı́sticas, nosso
foco é a amostragem aleatória simples (A.A.S), de suma importância e aplicação na inferência estatı́stica. Apresen-
tamos a relação entre a média populacional e a média amostral no contexto da amostragem em população finita.
Conceitos como número de amostras extraı́das, erro-padrão da média, fator de correção para população finita são
utilizados. Finalmente apresentamos a distribuição da média amostral para populações consideradas infinitas, por
serem muito grandes.
A Figura 30 apresenta a ilustração do esquema estatı́stico entre população e amostra.
A amostragem apresenta muitas vantagens em relação ao censo. Uma vez que o censo é o estudo envolvendo
todos os elementos da população determinando o valor exato de cada parâmetro da população, esse processo pode
ser caro, lento e oneroso. Por esta razão o uso de amostras se torna preferı́vel ao censo, devido as seguintes razões:
Custo reduzido: Como os dados são tomados de uma fração da população, a amostragem é mais barata
que o censo.
Maior rapidez: Em decorrência do menor volume de dados, esses são coletados e tabulados mais rapidamente
na amostragem, o que diminui o tempo para a obtenção dos resultados.
Maior amplitude: Em certas pesquisas há a necessidade de utilização de uma equipe bem treinada e
equipamento sofisticado para a obtenção dos dados tornando o censo inviável.
Maior exatidão: Com um volume reduzido de dados, trabalha-se com uma equipe melhor treinada obtendo
uma coleta de dados mais exata e confiável.
População infinita: É aquela população onde é impossı́vel contar ou enumerar todos os seus elementos.
Exemplos:
Quantidade total de peças fabricadas por uma indústria, sem um perı́odo especificado;
Número de indivı́duos de uma determinada espécie de mamı́fero no planeta;
Vazão de um determinado rio;
Número de acidentes de trânsito em uma determinada rodovia, sem um perı́odo especificado;
Número de indivı́duos que morrem por decorrência de uma certa doença no Brasil, sem um perı́odo especifi-
cado;
Censo: É o estudo ou levantamento de todos os elementos de uma população, em relação a uma ou mais
variáveis descritivas.
Parâmetro: É um valor numérico de uma caracterı́stica populacional.
Amostra aleatória: Parte da população. Conjunto de n variáveis aleatórias, independentes e identicamente
distribuı́das (i.i.d ), em que cada elemento da população tem a mesma probabilidade de ser incluı́do na amostra.
O processo de generalização da informação contida na amostra para a totalidade de uma população é chamada de
inferência estatı́stica.
Amostragem: Processo de obtenção de amostra(s).
Tamanho da amostra: Número n de variáveis aleatórias independentes e identicamente distribuı́das (i.i.d )
que compõe a amostra.
Função de verossimilhança: Distribuição de probabilidade da amostra aleatória, dada (em geral) pelo
produtório das distribuições de probabilidades dos dados individualmente.
Estatı́sticas: Funções de (e apenas de) observações amostrais, ou seja, de variáveis aleatórias (dados) e que,
portanto são elas próprias variáveis aleatórias.
Estimação: Processo de obtenção de aproximações numéricas para parâmetros associados a f (·).
Estimativa: Uma aproximação numérica particular (ou seja, em uma dada amostra) para parâmetro(s)
associado(s) a f (·).
Estimador: Função dos dados (amostra) que permite a geração de estimativas.
Uma amostragem não-probabilı́stica é obtida quando o acesso a informações não é tão simples ou os recursos
forem limitados, assim o pesquisador faz uso de dados que estão mais a seu alcance, é a chamada amostragem por
conveniência. Por exemplo, se por restrições orçamentárias ou de outra ordem não for possı́vel obter uma amostra
tão numerosa ou se ela é de difı́cil acesso, podemos restringir nossa amostra a uma pequena região delimitada
de fácil acesso e de custo reduzido, usuários de uma cidade, por exemplo. Essa é a chamada amostragem não-
probabilı́stica. No caso em que a única possibilidade é o uso de uma amostragem não-probabilı́stica, deve-se ter a
consciência de que as conclusões apresentam alguma limitação.
A seguir, apresentamos algumas das principais técnicas de amostragem não-probabilı́stica.
Amostragem Snowball : A amostra snowball é um tipo de amostra intencional em que o investigador escolhe
um grupo inicial de indivı́duos e pede-lhes o nome de outros indivı́duos pertencentes à mesma população. A amostra
vai assim crescendo como uma bola de neve à medida que novos indivı́duos são indicados ao investigador. É um
tipo de amostragem bastante útil quando se pretende estudar pequenas populações muito especı́ficas (exemplo: os
”sem abrigo”). No entanto pode originar em resultados enviesados uma vez que as pessoas tendem a indicar o
nome de pessoas intimas ou amigos (com comportamentos e pensamentos similares).
Amostragem por quotas: A amostra por quotas é obtida dividindo a população por categorias ou estratos
e selecionando um certo número (quota) de elementos de cada categoria de modo não aleatório.
Finalmente, o pesquisador que trabalha com amostras sempre pretende fazer inferência, isto é, estender os
resultados da amostra para toda a população. Então é muito importante caracterizar bem a amostra e estender os
resultados obtidos na amostra apenas para a população da qual a amostra proveio.
Amostragem aleatória simples (A.A.S): Esse tipo de amostragem, também chamada simples ao acaso,
casual, elementar, randômica etc., é equivalente a um sorteio lotérico. Nela, todos os elementos da população
têm igual probabilidade de pertencer à amostra e todas as possı́veis amostras têm igual probabilidade de ocorrer.
Assumindo N como sendo o tamanho da população e n o tamanho da amostra, então cada elemento da população
tem probabilidade n/N de pertencer à amostra. Essa relação n/N é denominada de fração de amostragem.
Dessa forma, uma amostra aleatória simples de n elementos de uma população deN elementos é um sub-
conjunto de n elementos distintos da população, extraı́dos de modo que qualquer das N n amostras possı́veis tem
N −1
igual probabilidade n de ser selecionada.
A amostragem aleatória simples pode ser feita com reposição, isto é, cada elemento da população pode
entrar mais do que uma vez na amostra. Neste caso há N n possı́veis amostras distintas que podem ser extraı́das.
Considerando um processo sem reposição, isto é, cada elemento da população só pode entrar uma vez na amostra,
então há N
n possı́veis amostras que podem ser extraı́das da população.
Observação: Neste material, para fins de inferência estatı́stica, consideramos apenas esse tipo de amostra.
exige apenas que se disponha de uma listagem dos grupos (de indivı́duos ou elementos da população) e não uma
listagem completa dos elementos da população, como é o caso das amostragens anteriores. Um exemplo deste tipo
de amostragem é o caso em que se pretende fazer uma sondagem de opinião aos alunos de uma escola (população),
da qual apenas se dispõe de uma listagem das turmas (grupos de alunos). Uma amostra por clusters obtém-se
selecionando uma amostra aleatória de turmas e inquirindo, dentro de cada turma escolhida, todos os alunos.
Amostragem multi-etapas: O primeiro passo deste tipo de amostra é idêntico ao anterior. A população
encontra-se dividida em vários grupos e selecionam-se aleatoriamente alguns desses grupos. No passo seguinte,
também os elementos de cada grupo são escolhidos aleatoriamente. Este processo pode multiplicar-se em mais de
duas etapas se os grupos estiverem divididos em sub-grupos. Um exemplo deste tipo de amostragem é o caso de
uma sondagem de opinião aos alunos do ensino secundário em que se pode começar por selecionar aleatoriamente
algumas direções escolares. Em seguida, de cada uma delas, selecionar aleatoriamente algumas escolas, de cada uma
das escolas escolhidas selecionar aleatoriamente algumas turmas e, finalmente, de cada uma das turmas escolhidas
seleccionar aleatoriamente alguns alunos. Este exemplo consiste em 4 etapas.
Como desvantagem deste método adiante-se de que os possı́veis erros de amostragem se podem multiplicar,
dado que ao longo deste processo se vão utilizando várias sub-amostras com a possibilidade de erros de amostragem
em cada uma delas.
Amostragem multi-fásica: Este processo de amostragem não deve ser confundido com o processo de
amostragem multi-etapas. No primeiro processo as unidades amostrais variam de uma etapa para outra. No
exemplo referido no ponto anterior, as unidades amostrais eram, sucessivamente, as direções escolares, as escolas,
as turmas e os alunos, enquanto que na amostragem multi-fásica se define sempre a mesma unidade amostral em
todas as fases de extração da amostra. Neste caso, em cada fase da amostragem, consideram-se sempre os elementos
da população, obtendo-se de alguns mais informações do que de outros.
Na primeira fase, recolhem-se dados sobre determinadas caracterı́sticas dos respondentes - por exemplo, o
seu comportamento e frequência quanto ao consumo de determinado produto, variáveis demográficas, tamanho das
empresas, a sua disponibilidade para responder novamente a um inquérito. Esta informação pode ser usada para a
definição de uma listagem dos possı́veis respondentes na segunda fase do inquérito. É então retirada desta listagem
uma segunda amostra que responderá a um questionário com um nı́vel de profundidade mais elevado.
Deste modo, nem todos os inquiridos respondem a todas as questões, isto permite reduzir os custos e permite
ainda que a amostra principal seja utilizada como base de amostragem para amostragens seguintes.
Processo com reposição: Seja uma população finita de tamanho N . Então o número k de amostras
possı́veis que podem ser retiradas desta população, num processo com reposição é
k = Nn
Processo sem reposição: Seja uma população finita de tamanho N . Então o número k de amostras
possı́veis que podem ser retiradas desta população, num processo sem reposição é
N N!
k= = .
n n! (N − n)!
Exemplo: Numa população composta por N = 80 coelhos, quantas amostras possı́veis podem ser extraı́das
de tamanho:
Se forem tomadas todas as amostras possı́veis de tamanho n de uma população de tamanho N , então teremos
k médias amostrais:
X 1 , X 2 , ...X k
Se fizermos a média das médias amostrais, denominada de X, então X terá o mesmo valor da média popula-
cional µ, isto é
k
1X
X= X i = µ.
k i=1
2 2
Se fizermos a variância das médias amostrais, denominada de σX , então σX será n vezes menor que a variância
2
populacional σ . Para essa relação chamamos de erro-padrão da média, que nada mais é que o desvio-padrão da
distribuição amostral das médias, expresso por
2 σ2 σ
σX = ⇒ σX = √
n n
N −n
Como a população é finita usaremos o fator de correção para população finita dado por N −1 . Dessa forma
temos:
σ2 N − n
2
σX =
n N −1
2
A expressão acima mostra que a variância da média amostral (σX ) é n vezes menor que a variância popula-
2
cional (σ ) corrigido pelo fator de correção para população finita. Equivalentemente temos que o desvio-padrão da
média amostral (σX ) é raı́z quadrada de n vezes menor que o desvio-padrão populacional (σ) corrigido pela raı́z
quadrada do fator de correção para população finita, isto é,
s
σ N −n
σX = √
n N −1
O termo √σn também é chamado de erro-padrão da média amostral. É fácil observar que a medida que o
tamanho populacional N aumenta temos
N −n
lim = 1.
N −→∞ N −1
Portanto, para populações infinitas, a média das médias amostrais, X terá um valor igual a média populacional
µ e a variância das médias amostrais será n vezes menor que a variância populacional. Na prática, se o tamanho
n da amostra representa menos que 5% do tamanho populacional N , então a população já é considerada uma
população infinita.
{10, 20, 30, 40, 50, 60, 70, 80, 90, 100}
Então temos que a média populacional µ é dada por µ = 55 e a variância populacional é dada por σ 2 = 825.
Agora vamos determinar todas as amostras possı́veis de tamanho n = 2 que podem ser extraı́das desta população
num processo sem reposição. O número k total de amostras é
N 10 10!
k= = = = 45.
n 2 2! (10 − 2)!
Então temos k = 45 possı́veis amostras de tamanho n = 2 que podem ser extraı́das dessa população. Para
cada uma das 45 amostras determinaremos a sua média amostral conforme Tabela abaixo.
45
1 X
X = Xi
45 i=1
15 + 20 + 25 + ... + 85 + 90 + 95
=
45
X = 55.
Podemos perceber então que a média das médias amostrais (X = 55) coincide com a média populacional
(µ = 55). Calculando agora a variância das médias amostrais temos
45 2
2 1 X
σX = Xi − X
45 i=1
2 2 2 2 2 2
(15 − 55) + (20 − 55) + (25 − 55) + ... + (85 − 55) + (90 − 55) + (95 − 55)
=
45
16500
=
45
2 1100
σX =
3
σ2 N − n
2
σX =
n N −1
825 10 − 2
= ×
2 10 − 1
2 1100
σX =
3
Podemos observar então, que a média das médias amostrais sempre será a média populacional e a variância das
médias amostrais será n vezes menor que a variância populacional corrigido pelo fator de correção para população
finita. A Figura (31) apresenta a distribuição das 45 médias amostrais deste exemplo.
A Figura (31) mostra claramente que há uma maior quantidade de amostras com médias próximas do valor
55 e, a medida que nos afastamos deste valor para mais ou para menos, a quantidade de amostras vai diminuindo.
Por exemplo, se considerarmos as as amostras com médias que variam de 45 a 65 temos um total de 21 amostras,
o que equivale a aproximadamente 47% do total de 45 amostras.
Por outro lado, se considerarmos as amostras com médias iguais ou abaixo de 20 e iguais ou acima de 90
temos apenas 4 amostras, o que equivale a aproximadamente 9% do total de 45 amostras.
Diante deste contexto, este exemplo numérico sugere que é razoável supormos que a probabilidade de escolher-
mos uma amostra ao acaso com uma média amostral X perto da média populacional µ é maior do que escolhermos
uma amostra com média X longe do parâmetro µ, já que a quantidade de amostras com médias próximas de µ é
maior do que as amostras com médias distantes de µ.
21.1 Introdução
Um estimador é uma função exclusivamente dos dados (amostra) usada para estimar parâmetros da população.
Qualquer valor numérico resultante de um estimador é denominado de estimativa. A Tabela (16) apresenta alguns
parâmetros populacionais e seus estimadores mais usuais.
Média µ µ
b X
Variância σ2 c2
σ S2
Desvio-padrão σ σ
b S
Proporção p pb pb
Número de indivı́duos N N
b N
b
Os estimadores devem possuir boas propriedades como não-enviesamento, consistência e eficiência. Para
estudar tais propriedades, o aluno deve saber as propriedades da esperança e da variância de uma variável aleatória.
Não-enviesamento: Seja θb um estimador para o parâmetro θ. Então dizemos que θb é um estimador não-
enviesado (ou não-viciado) para o parâmetro θ se
E θb = θ.
Consistência: Seja θb um estimador para o parâmetro θ. Então dizemos que θb é um estimador consistente
para o parâmetro θ se
lim E θb = θ.
n→∞
lim V ar θb = 0.
n→∞
Eficiência: Sejam θb1 e θb2 dois estimadores não-viciados para o parâmetro θ. Então dizemos que θb1 é mais
eficiente que θb2 se
V ar θb1 < V ar θb2 .
Considere uma população com média µ e variância σ 2 . Vamos verificar se a média amostral X é um estimador
não viciado para a média populacional µ.
n
! n
!
1X 1 X
E X = E Xi = E Xi
n i=1 n i=1
1
= E [X1 + X2 + ... + Xn ]
n
1
= [E (X1 ) + E (X2 ) + ... + E (Xn )]
n
1
= [µ + µ + ... + µ]
n
1
= × nµ
n
E X = µ.
Vamos verificar, agora, se a média amostral X é um estimador consistente para a média populacional µ.
lim E X = lim µ = µ.
n→∞ n→∞
n
!
1X
V ar X = V ar Xi
n i=1
n
!
1 X
= V ar Xi
n2 i=1
1
= V ar (X1 + X2 + ... + Xn )
n2
1
= [V ar (X1 ) + V ar (X2 ) + ... + V ar (Xn )]
n2
1 2
σ + σ 2 + ... + σ 2
=
n2
nσ 2
=
n2
σ2
V ar X = .
n
σ2
lim V ar X = lim = 0.
n→∞ n→∞ n
21.4 Exemplo 2: vários estimadores não viciados para o mesmo parâmetro popula-
cional
5
3 X
θb1 = Xi
50 i=1
7
θb2 = X1 − X2
10
X1 X2 X3 X4 X5
θb3 = + + + +
30 15 10 15 30
Verificar quais destes estimadores são não-viciados para o parâmetro θ e encontre o mais eficiente, isto é,
aquele que possui a menor variância.
Primeiro passo: Encontrar a esperança de cada um dos estimadores propostos para o parâmetro θ. Vamos
encontrar primeiramente a esperança matemática do estimador θb1 .
5
! 5
! 5
3 X 3 X 3 X
E θb1 = E Xi = E Xi = E (Xi )
50 i=1 50 i=1
50 i=1
3
= [E (X1 ) + E (X2 ) + E (X3 ) + E (X4 ) + E (X5 )]
50
3 10 10 10 10 10
= θ+ θ+ θ+ θ+ θ
50 3 3 3 3 3
3 50
= θ
50 3
E θb1 = θ.
7 7 7
E θb2 = E X1 − X2 = E (X1 ) − E X2 = E (X1 ) − E (X2 )
10 10 10
10 7 10 10 7
= θ− × θ= θ− θ
3 10 3 3 3
3
= θ
3
E θb2 = θ.
X1 X2 X3 X4 X5
E θb3 = E + + + +
30 15 10 15 30
X1 X2 X3 X4 X5
= E +E +E +E +E
30 15 10 15 30
1 1 1 1 1
= E (X1 ) + E (X2 ) + E (X3 ) + E (X4 ) + E (X5 )
30 15 10 15 30
1 10 1 10 1 10 1 10 1 10
= × θ+ × θ+ × θ+ × θ+ × θ
30 3 15 3 10 3 15 3 30 3
10 1 1 1 1 1 10 3
= θ + + + + = θ× =θ
3 30 15 10 15 30 3 10
E θb3 = θ.
Segundo passo: Para encontrar qual é o estimador mais eficiente, dentre estes três estimadores não-viciados,
temos que encontrar a variância de cada um deles. Vamos encontrar primeiramente a variância do estimador θb1 .
5
! 5
! 5
3 X 9 X 9 X
V ar θb1 = V ar Xi = V ar Xi = V ar (Xi )
50 i=1 2500 i=1
2500 i=1
9
= [V ar (X1 ) + V ar (X2 ) + V ar (X3 ) + V ar (X4 ) + V ar (X5 )]
2500
9 2 9
σ + σ2 + σ2 + σ2 + σ2 = × 5σ 2 = 0, 018σ 2
=
2500 2500
V ar θb1 = 0, 018σ 2 .
Logo, como temos V ar θb1 < V ar θb3 < V ar θb2 , o estimador mais eficiente ou mais preciso para estimar
o parâmetro θ é o estimador θb1 pois possui a menor variância.
22.1 Introdução
Vimos anteriormente que a média amostral X é um estimador que gera estimativas da média populacional µ.
Quando a estimativa de um parâmetro populacional qualquer é dada por um único valor numérico denominamos
de estimativa por ponto ou estimativa pontual. Entretanto, esse procedimento não permite verificar qual a possı́vel
magnitude do erro que se está cometendo. Neste contexto surge a ideia de construir os intervalos de confiança, que
são baseados na distribuição amostral de probabilidades do estimador pontual.
A estimativa de um parâmetro populacional dada por dois valores numéricos a e b (com a < b), entre os
quais se considera que contenha-se o parâmetro desconhecido, é denominada estimativa por intervalo ou estimativa
intervalar. As estimativas intervalares indicam a sua precisão ou exatidão, por isto são preferı́veis às estimativas
pontuais. A declaração da precisão de uma estimativa por intervalo denomina-se grau de confiança ou nı́vel de
confiança, justificando a denominação de intervalo de confiança.
Considere uma população com caracterı́stica X tal que X ∼ N µ, σ 2 . Sejam X1 , X2 , ..., Xn uma amostra
aleatória extraı́da de X. Então a média amostral X também tem distribuição normal com média µ e variância n
vezes menor que a variância da população, isto é,
σ2
X∼N µ, . (37)
n
n
!
1X
E X = E Xi
n i=1
n
!
1 X
= E Xi
n i=1
1
= E [X1 + X2 + ... + Xn ]
n
1
= [E (X1 ) + E (X2 ) + ... + E (Xn )]
n
1
= [µ + µ + ... + µ]
n
1
= × nµ
n
E X = µ.
Logo, a esperança da média amostral X é a média populacional µ. Isso significa que X é um estimador
não-viciado para o parâmetro µ.
n
!
1X
V ar X = V ar Xi
n i=1
n
!
1 X
= V ar Xi
n2 i=1
1
= V ar (X1 + X2 + ... + Xn )
n2
1
= [V ar (X1 ) + V ar (X2 ) + ... + V ar (Xn )]
n2
1 2
σ + σ 2 + ... + σ 2
= 2
n
nσ 2
=
n2
σ2
V ar X = .
n
Logo, a variância da média amostral X é n vezes menor que a variância populacional σ 2 . Como X é uma
combinação linear de distribuições normais, então está provado a expressão (37).
A Figura (32) apresenta a passagem da distribuição normal para a distribuição da média amostral.
Nesta Seção vamos determinar o intervalo de confiança para a média populacional µ. Adotaremos a notação
IC (1 − α) 100%, em que (1 − α) denota o nı́vel de confiança do intervalo, isto é, a probabilidade do intervalo de
confiança retratar a realidade. O termo α denota o nı́vel de significância do intervalo, isto é, a probabilidade do
intervalo de confiança não retratar a realidade. Padronizando a distribuição da variável aleatória X, expressa em
(37), temos a distribuição normal padrão, isto é,
X −µ
Z= ∼ N (0, 1) (38)
√σ
n
!
X −µ
E (Z) = E
√σ
n
E X −µ
=
√σ
n
E X − E (µ)
=
√σ
n
µ−µ
=
√σ
n
0
=
√σ
n
E (Z) = 0.
!
X −µ
V ar (Z) = V ar
√σ
n
V ar X − µ
= σ2
n
V ar X + V ar (µ)
= σ2
n
σ2
n +0
= σ2
n
2
σ n
= × 2 =1
n σ
V ar (Z) = 1.
Logo, a variância da variável aleatória Z é 1. Como Z é uma combinação linear de distribuições normais fica
provada e expressão (38).
Considerando a padronização dada em (38) temos o que o intervalo de confiança IC (1 − α) 100% para a
média populacional µ considerando a variância populacional σ 2 conhecida é expresso por:
σ
X ± Zα/2 √ . (39)
n
Demonstração de (39:) Vamos considerar a probabilidade da variável aleatória Z estar em uma área (1 − α)
simetricamente em torno da origem zero, isto é, a probabilidade de Z estar na área da confiança:
⇒ P −Zα/2 ≤ Z ≤ Zα/2 = 1 − α
!
X −µ
⇒ P −Zα/2 ≤ σ ≤ Zα/2 = 1 − α
√
n
σ σ
⇒ P −Zα/2 √ ≤ X − µ ≤ Zα/2 √ =1−α
n n
σ σ
⇒ P −X − Zα/2 √ ≤ −µ ≤ −X + Zα/2 √ =1−α
n n
σ σ
⇒ P X + Zα/2 √ ≥ µ ≥ X − Zα/2 √ =1−α
n n
σ σ
⇒ P X − Zα/2 √ ≤ µ ≤ X + Zα/2 √ =1−α
n n
Logo, como
σ σ
P X − Zα/2 √ ≤ µ ≤ X + Zα/2 √ = 1 − α,
n n
A Tabela (17) apresenta alguns valores de Zα/2 para a construção de intervalos com diversos nı́veis de
confiança.
É importante dizer que não existe intervalo de confiança 100%, pois, na estimação de parâmetros estamos
sempre inseridos num processo de amostragem e, portanto, parte da população. Por outro lado, mesmo que
estivéssemos no contexto populacional fazendo um censo, ainda assim não faz sentido falar em intervalo de confiança
100%, já que na população não se faz estimação, e sim censo.
Numa fábrica de computadores a administração pretende estimar o tempo médio µ de vida de um determinado
tipo de processador. Para isso, foi selecionada uma amostra aleatória constituı́da por n = 15 processadores. Com
base nesta amostra obteve-se um tempo médio amostral de vida igual a X = 27.350 horas. Supondo que o tempo
X de vida segue uma distribuição normal com desvio padrão populacional σ = 3.000 horas, vamos construir
e interpretar os intervalos de confiança IC (90) %, IC (95) % e IC (99) % para o tempo médio µ de vida dos
processadores produzidos por esta fábrica.
Construção do IC (90) % para o tempo médio µ: Analisando a Tabela da distribuição normal padrão
Z e considerando um nı́vel de confiança de 90%, verificamos que devemos usar o valor Zα/2 = 1, 645, pois
P (−1, 645 < Z < 1, 645) = 0, 90. Desta forma temos:
σ
X ± Zα/2 √
n
3000
⇒ 27350 ± 1, 645 × √
15
⇒ 27350 ± 1274, 21
Construção do IC (95) % para o tempo médio µ: Analisando a Tabela da distribuição normal padrão
Z e considerando um nı́vel de confiança de 95%, verificamos que devemos usar o valor Zα/2 = 1, 96, pois
P (−1, 96 < Z < 1, 96) = 0, 95. Desta forma temos:
σ
X ± Zα/2 √
n
3000
⇒ 27.350 ± 1, 96 × √
15
⇒ 27.350 ± 1518, 21
Construção do IC (99) % para o tempo médio µ: Analisando a Tabela da distribuição normal padrão
Z e considerando um nı́vel de confiança de 99%, verificamos que devemos usar o valor Zα/2 = 2, 575, pois
P (−2, 575 < Z < 2, 575) = 0, 99. Desta forma temos:
σ
X ± Zα/2 √
n
3000
⇒ 27350 ± 2, 575 × √
15
⇒ 27350 ± 1994, 59
Numa indústria de metalurgia, foram medidos os comprimentos de n = 32 chapas de aço produzidas por
uma máquina obtendo uma média amostral X = 1400mm. Assumindo que o comprimento X (em mm) é uma
variável aleatória com distribuição normal com média µ desconhecida e desvio-padrão populacional σ = 100mm,
vamos construir e interpretar os intervalos de confiança IC (90) %, IC (95) % e IC (99) % para o comprimento
médio populacional µ das chapas de aço produzidas por essa indústria.
σ
X ± Zα/2 √
n
100
⇒ 1400 ± 1, 645 × √
32
⇒ 1400 ± 29, 08
Portanto, o IC (90%) para o comprimento médio µ das chapas de aço produzidas por essa indústria é:
σ
X ± Zα/2 √
n
100
⇒ 1400 ± 1, 96 × √
32
⇒ 1400 ± 34, 65
Portanto, o IC (95%) para o comprimento médio µ das chapas de aço produzidas por essa indústria é:
σ
X ± Zα/2 √
n
100
⇒ 1400 ± 2, 575 × √
32
⇒ 1400 ± 45, 52
Portanto, o IC (99%) para o comprimento médio µ das chapas de aço produzidas por essa indústria é:
Nesta Seção vamos abordar a relação entre dois conceitos extremamente importantes na estimação intervalar:
a confiança e a precisão. Lembrando que a estimação intervalar é assim expressa:
σ
X ± Zα/2 √
|{z} n
Estimativa Pontual | {z }
Erro de Estimativa
Considerando os dois exemplos anteriores dispomos no quadro abaixo os intervalos de confiança obtidos:
Podemos observar por meio dos intervalos de confiança obtidos nos dois exemplos da Seção anterior que, a
medida que aumentamos a confiança do intervalo, sua amplitude também aumenta, isto é, o intervalo fica mais
aberto (perdemos precisão). Da mesma maneira, a medida que diminuı́mos a confiança do intervalo, sua amplitude
diminui, isto é, o intervalo fica mais fechado (ganhamos precisão).
É fácil notarmos que a única maneira de aumentarmos o nı́vel de confiança sem perder precisão é aumentar
o tamanho da amostra.
Na prática porém, não se altera o nı́vel de confiança. Em geral convenciona-se o nı́vel de confiança de 95%
nos processos de estimação para a grande maioria das áreas do conhecimento. Alguns exemplos são:
Gestão da qualidade total de produtos e serviços nas indústrias; Controle Estatı́stico de Processos (CEP)
utilizada nos processos produtivos;
Previsão da inflação ou rendimento da bolsa de valores ao longo do tempo, por meio de modelos de previsão
para séries temporais em economia e econometria;
Quando temos o interesse ou a necessidade de aumentar o tamanho n da amostra é com o objetivo de aumentar
a precisão das estimativas e não para alterar o nı́vel de confiança. Como já mencionamos, a confiança do intervalo
é sempre fixa num processo de estimação.
Num processo de estimação, considere duas amostras independentes, cada qual gerando uma estimativa
pontual e um erro de estimativa para um determinado parâmetro, com um nı́vel de confiança previamente definido.
Neste contexto, temos duas estimativas intervalares: A e B. Empate técnico é uma intersecção qualquer entre dois
ou mais intervalos de confiança, conforme ilustrado pela Figura (33):
Se há qualquer intersecção, por menor que seja, entre dois intervalos, então dizemos que tais intervalos
estão tecnicamente empatados, isto é, não há diferença estatı́stica entre os dois, para o nı́vel de confiança
considerado. Em outras palavras, não há diferença estatı́stica entre as estimativas dos parâmetros populacionais,
ainda que pontualmente um seja maior que o outro.
Exemplo ilustrativo 1 de empate técnico: A eficiência de um novo medicamento indicado para Cefaléia
é mensurada pelo tempo X (em minutos) do seu efeito. O laboratório testou este medicamento em quatro faixas
etárias, e os intervalos de confiança obtidos foram os seguintes:
Podemos observar na Figura acima que os intervalos de confiança para as faixas etárias infantil e idoso estão
tecnicamente empatados. Da mesma forma observamos um empate técnico entre as faixas etárias juvenil e adulto.
Isso significa que este medicamento age de forma igual para crianças e idosos, e de forma igual para jovens e adultos.
Em termos mais simples, embora tenhamos quatro faixas etárias (quatro estratos), o medicamento se comporta de
duas maneiras distintas: tem um tempo médio de efeito menor para crianças e idosos, e um tempo médio maior
para jovens e adultos. Em sı́ntese, é como se houvesse apenas dois estratos na amostragem, e não quatro estratos
(quatro categorias de idade).
Vamos imaginar agora um outro contexto hipotético onde não há empates técnicos entre os estratos, conforme
mostra a Figura (35):
Podemos observar na Figura acima que não há empate técnico em nenhuma categoria de idade (ou estratos).
Isso implica que o tempo X de efeito do medicamento está correlacionado com a faixa etária. Em outras palavras,
a idade do paciente está correlacionada com o tempo de efeito deste novo medicamento e, portanto, com a sua
eficiência.
Vamos imaginar agora um outro contexto hipotético onde há empates técnicos entre os estratos, conforme
mostra a Figura (36):
Figura 36: Situação hipotética 3: Todos os intervalos de confiança com empate técnico entre si.
A partir da Figura acima, percebemos que os quatro intervalos de confiança estão tecnicamente empatados.
Isso implica que o tempo X de efeito do medicamento não está correlacionado com a faixa etária. Em outras
palavras, a idade do paciente não está correlacionada com a eficiência deste novo medicamento. Qualquer que seja
a idade dos indivı́duos, o medicamento tem o mesmo tempo médio de efeito e, portanto, a mesma eficiência.
Exemplo ilustrativo 2 de empate técnico: Numa grande pesquisa epidemiológica, uma nova vacina está
sendo desenvolvida para uma determinada epidemia e está sendo testada conforme protocolo simplificado abaixo:
Aplicação da Aplicação do
Vacina Placebo
Considere agora a estimativa intervalar obtida para proporção de curados em ambos os grupos conforme
ilustrado pela Figura (37). Notamos claramente que a proporção de curados no grupo que tomou a vacina (grupo
teste) é maior do que a proporção de curados no grupo que não tomou a vacina (grupo controle ou placebo). Desta
forma podemos afirmar que a vacina é eficaz quando comparada ao placebo.
Suponha agora uma situação hipotética em que a estimativa intervalar obtida para proporção de curados em
ambos os grupos é tal como ilustrado pela Figura (38). Percebemos que há uma intersecção entre os intervalos
de confiança da proporção de curados no grupo que tomou a vacina (grupo teste) com a proporção de curados no
grupo que não tomou a vacina (grupo controle ou placebo). Desta forma podemos afirmar que não há diferença
entre o grupo que tomou a vacina e o grupo que tomou placebo.
Na parte 5 deste livro fazemos um aprofundamento desses procedimentos de comparação de grupos por meio
da teoria dos testes de hipóteses.
Resultado 1: Se Z tem distribuição normal padrão, ou seja, Z ∼ N (0, 1), então o quadro da variável
aleatória Z tem distribuição denominada de Qui-quadrado com 1 grau de liberdade, isto é
Z 2 ∼ χ1 . (40)
X−µ
Como Z = σ , então o resultado expresso em (40) equivale a:
2
X −µ
∼ χ1 .
σ
Resultado 2: Sejam Z1 , Z2 , ..., Zn variáveis aleatórias independentes cada qual com distribuição normal
padrão, ou seja, Zi ∼ N (0, 1), com i = 1, 2, . . . , n, então a soma do quadrado destas variáveis tem distribuição
Qui-quadrado com n graus de liberdade, isto é
n
X
Zi2 ∼ χn . (41)
i=1
Xi −µ
Como Zi = σ , para i = 1, 2, . . . , n, então o resultado expresso em (41) equivale a:
n 2
X Xi − µ
∼ χn .
i=1
σ
Resultado 3: Supondo que o parâmetro populacional µ seja desconhecido e substituindo µ pela estatı́stica
amostral X, temos que
n 2
X Xi − X
∼ χn−1 . (42)
i=1
σ
Como
n 2 n
X Xi − X 1 X 2
= 2
Xi − X
i=1
σ σ i=1
n−1
e multiplicando por n−1 , temos que
n n 2
(n − 1) 1 X 2 (n − 1) X Xi − X (n − 1) S 2
Xi − X = =
(n − 1) σ 2 i=1 σ 2 i=1 n−1 σ2
(n − 1) S 2
∼ χn−1 .
σ2
Resultado 4: Se Z segue uma distribuição normal padrão e Y segue uma distribuição Qui-quadrado com k
graus de liberdade, então
Z
t= q ∼ tk
Y
k
X −µ
t= ∼ tn−1 . (43)
√S
n
Ou seja, quando a variância populacional σ 2 for desconhecida, então temos que a estatı́stica t expressa em
(43) tem distribuição t-student com n − 1 graus de liberdade.
Considerando a padronização dada em (43) temos o que o intervalo de confiança IC (1 − α) 100% para a
média populacional µ considerando a variância populacional σ 2 desconhecida é expresso por:
S
X ± tα/2 √ . (44)
n
Exemplo de aplicação: Em uma pesquisa de saúde pública no ambiente universitário da cidade de Barreiras,
uma das variáveis estudadas é a altura. Com o objetivo de estimar a altura média populacional µ foi selecionada
ao acaso uma amostra de n = 12 indivı́duos. Os resultados (em cm) seguem abaixo:
162 159 183 184 169 161 159 155 194 181 174 171.
Vamos encontrar os intervalos de confiança 90%, 95% e 99% para a altura média populacional µ.
Construção do intervalo de 90% de confiança para µ: A média amostral é de X = 171 cm, o desvio-padrão
amostral é S = 12, 36, e o valor da estatı́stica tα/2 é de 1, 7959 e segue que
S
X ± tα/2 √
n
12, 36
⇒ 171 ± 1, 7959 √
12
⇒ 171 ± 6, 41 cm.
Logo, o intervalo de 90% de confiança para a altura média populacional µ é:
Construção do intervalo de 95% de confiança para µ: O valor da estatı́stica tα/2 é de 2, 2010 e segue que
S
X ± tα/2 √
n
12, 36
⇒ 171 ± 2, 2010 √
12
⇒ 171 ± 7, 85 cm.
Construção do intervalo de 99% de confiança para µ: O valor da estatı́stica tα/2 é de 3, 1058 e segue que
S
X ± tα/2 √
n
12, 36
⇒ 171 ± 3, 1058 √
12
⇒ 171 ± 11, 08 cm.
Logo, o intervalo de 99% de confiança para a altura média populacional µ é:
tα/2 S 2
2
2, 2010 × 12, 36
n= = = 21 alunos.
e 6
Como a amostra inicial ou piloto tem tamanho n = 12 alunos, basta selecionar mais 9 alunos para compor a
amostra.
Se assumı́ssemos, por exemplo, um erro de estimativa de 3 cm, o tamanho n da amostra deveria ser:
tα/2 S 2
2
2, 2010 × 12, 36
n= = = 82 alunos.
e 3
Como a amostra inicial ou piloto tem tamanho n = 12 alunos, basta selecionar mais 70 alunos para compor
a amostra.
E para um erro de estimativa de 9 cm, a amostra piloto foi suficiente?
tα/2 S 2
2
2, 2010 × 12, 36
n= = = 9 alunos.
e 9
Para um erro de 9 cm percebemos que a amostra piloto foi suficiente, pois bastaria 9 alunos e a amostra
inicial tem 12 alunos.
Pesquisadores de um grande estudo sobre os impactos ambientais no Cerrado Baiano coletaram dados de
vazão de diversos rios. Um dos objetivos da pesquisa é estimar a vazão média µ do Rio Grande durante o perı́odo
seco e a vazão média µ durante o perı́odo chuvoso, próximo ao municı́pio de Barreiras. Para isso, considerou-se
uma amostra de 48 medições diárias da vazão durante o perı́odo seco e 48 medições diárias durante o perı́odo
chuvoso, conforme o quadro abaixo (vazão em m3 /s):
Solução: Com relação ao perı́odo seco temos n = 48 medições diárias, uma vazão média amostral de X =
4, 30 m3 /s e um desvio-padrão de S = 1, 23 m3 /s. O valor de tα/2 encontrado na distribuição t-student associado à
confiança de 95% com 47 graus de liberdade é tα/2 = 2, 0117. Portanto, o IC (95%) para a vazão média µ durante
o perı́odo seco é determinado por:
S
X ± tα/2 √
n
1, 23
=⇒ 4, 30 ± 2, 0117 √
48
=⇒ 4, 30 ± 0, 36
Portanto, o IC (95%) para a vazão média µ durante o perı́odo seco é:
3, 94 m3 /s ; 4, 65 m3 /s .
Interpretação: Temos 95% de confiança de que o intervalo 3, 94 m3 /s ; 4, 65 m3 /s contém a vazão média
µ para o perı́odo seco. Ou ainda em outras palavras, a probabilidade deste intervalo conter a vazão média µ para
o perı́odo seco é de 95%.
Para o perı́odo chuvoso temos n = 48 medições diárias, uma vazão média amostral de X = 5, 61 m3 /s e um
desvio-padrão de S = 1, 40 m3 /s. O valor de tα/2 é o mesmo do perı́odo seco, pois é o mesmo tamanho de amostra
(n = 48), que na distribuição t-student associado à confiança de 95% com 47 graus de liberdade é tα/2 = 2, 0117.
Portanto, o IC (95%) para a vazão média µ durante o perı́odo chuvoso é:
S
X ± tα/2 √
n
1, 40
=⇒ 5, 61 ± 2, 0117 √
48
=⇒ 5, 61 ± 0, 41
Portanto, o IC (95%) para a vazão média µ durante o perı́odo chuvoso é:
5, 21 m3 /s ; 6, 02 m3 /s .
Interpretação: Temos 95% de confiança de que o intervalo 5, 21 m3 /s ; 6, 02 m3 /s contém a vazão média
µ para o perı́odo chuvoso. Ou ainda em outras palavras, a probabilidade deste intervalo conter a vazão média µ
para o perı́odo chuvoso é de 95%.
Observação: Podemos verificar a partir dos resultados obtidos que a vazão média amostral do perı́odo
chuvoso é maior do que a do perı́odo seco e que não há intersecção entre os intervalos de confiança. Dessa maneira
podemos concluir que o perı́odo chuvoso fornece uma vazão média maior que a vazão média do perı́odo seco. Caso
houvesse alguma intersecção entre os intervalos, por menor que fosse, concluirı́amos que as vazões médias estariam
tecnicamente empatadas e, dessa maneira, não haveria diferença estatı́stica significativa entre os perı́odos seco e
chuvoso.
Em um grande estudo sobre a saúde pública dos estudantes universitários do municı́pio de Barreiras, no
Estado da Bahia, uma das variáveis estudadas foi o peso X dos indivı́duos. Há o interesse em estimar o peso médio
µ dos estudantes. Para isso, considerou-se uma amostra aleatória de n = 30 indivı́duos e os resultados encontram-se
abaixo:
Pesos (em kg) de 30 estudantes universitários de Barreiras
Masculino 82 71 67 62 65 77 87 88 66 83 61 66 80 87 65
Feminino 42 54 65 59 41 67 59 52 55 66 33 79 61 64 53
S
X ± tα/2 √
n
13, 77
⇒ 65, 23 ± 2, 0452 √
30
⇒ 65, 23 ± 5, 14
Dessa forma, o intervalo de confiança de 95% para o peso médio µ dos estudantes é:
Interpretação: Temos 95% de confiança de que o intervalo [60, 09 kg ; 70, 37 kg] contém o peso médio µ dos
estudantes universitários de Barreiras. Ou ainda em outras palavras, a probabilidade deste intervalo conter o peso
médio µ dos estudantes universitários de Barreiras é de 95%.
S
X ± tα/2 √
n
9, 94
⇒ 73, 80 ± 2, 1448 √
15
⇒ 73, 80 ± 5, 51
Dessa forma, o intervalo de confiança de 95% para o peso médio µ dos estudantes do sexo masculino é:
Interpretação: Temos 95% de confiança de que o intervalo [68, 29 kg ; 79, 31 kg] contém o peso médio µ dos
estudantes universitários do sexo masculino. Ou ainda em outras palavras, a probabilidade deste intervalo conter
o peso médio µ dos estudantes universitários do sexo masculino é de 95%.
S
X ± tα/2 √
n
11, 68
⇒ 56, 67 ± 2, 1448 √
15
⇒ 56, 67 ± 6, 47
Dessa forma, o intervalo de confiança de 95% para o peso médio µ das estudantes do sexo feminino é:
Interpretação: Temos 95% de confiança de que o intervalo [50, 20 kg ; 63, 14 kg] contém o peso médio µ dos
estudantes universitários do sexo feminino. Ou ainda em outras palavras, a probabilidade deste intervalo conter o
peso médio µ dos estudantes universitários do sexo feminino é de 95%.
Observação: Podemos observar que, a partir dos resultados obtidos, não há intersecção entre os intervalos
de confiança do sexo masculino e do sexo feminino, ou seja, não há empate técnico nos intervalos. Isso nos leva a
concluir que a altura média dos alunos é estatisticamente maior que a altura média das alunas.
A Coordenação Geral dos Núcleos Acadêmicos da UFOB deseja estimar o rendimento médio dos estudantes
do curso de Engenharia Civil e o rendimento médio dos estudantes do curso de Engenharia Ambiental na disciplina
de Métodos Estatı́sticos. Para isso, considerou-se uma amostra aleatória de 28 estudantes do curso de Engenharia
Civil e uma outra de 42 estudantes do curso de Engenharia Ambiental e tabulado suas notas finais do semestre.
Os resultados encontram-se no quadro abaixo:
Solução: Para facilitar a obtenção dos intervalos de confiança, vamos construir primeiramente um quadro
resumo com as estatı́sticas amostrais conforme abaixo:
Curso Tamanho da amostra Rendimento médio Desvio-padrão tα/2
Engenharia Civil n = 28 X = 6, 24 0, 9282 2, 0518
Engenharia Ambiental n = 42 X = 5, 81 1, 7018 2, 0195
Determinando o intervalo de confiança 95% para o rendimento médio µ dos estudantes do curso de Engenharia
Civil, usando os dados amostrais referentes ao curso:
S
X ± tα/2 √
n
0, 9282
⇒ 6, 24 ± 2, 0518 √
28
⇒ 6, 24 ± 0, 36
Dessa forma, o intervalo de confiança de 95% para o rendimento médio µ dos estudantes do curso de Enge-
nharia Civil é:
[5, 88 ; 6, 60]
Interpretação: Temos 95% de confiança de que o intervalo [5, 88 ; 6, 60] contém o rendimento médio µ dos
estudantes do curso de Engenharia Civil na disciplina Métodos Estatı́sticos. Ou ainda em outras palavras, a
probabilidade deste intervalo conter o rendimento médio µ dos estudantes da Civil é de 95%.
Determinando o intervalo de confiança 95% para o rendimento médio µ dos estudantes do curso de Engenharia
Ambiental, usando os dados amostrais referentes ao curso:
S
X ± tα/2 √
n
1, 7018
⇒ 5, 81 ± 2, 0195 √
42
⇒ 5, 81 ± 0, 53
Dessa forma, o intervalo de confiança de 95% para o rendimento médio µ dos estudantes do curso de Enge-
nharia Ambiental é:
[5, 28 ; 6, 34]
Interpretação: Temos 95% de confiança de que o intervalo [5, 28 ; 6, 34] contém o rendimento médio µ dos
estudantes do curso de Engenharia Ambiental na disciplina Métodos Estatı́sticos. Ou ainda em outras palavras, a
probabilidade deste intervalo conter o rendimento médio µ dos estudantes da Engenharia Ambiental é de 95%.
Suponha uma variável aleatória X que assume apenas dois resultados possı́veis. Por exemplo:
Então X é uma variável aleatória discreta tal que X ∼ Bernoulli (p). Isto é,
1 se sucesso, tal que P (Y = 1) = p
X=
0 se fracasso, tal que P (Y = 0) = 1 − p
E (X) = p e V ar (X) = p (1 − p) .
Número de sucessos
X = pb =
Tamanho da amostra
Resultado: Se np > 5 e np (1 − p) > 5, então pb tem distribuição assintoticamente normal com média p e
com variância p(1−p)
n , isto é,
p (1 − p)
pb ∼ N p; . (45)
n
n
!
1X
E (b
p) = E Xi
n i=1
n
1X
= E (Xi )
n i=1
E (X1 ) + E (X2 ) + ... + E (Xn )
=
n
p + p + ... + p
=
n
np
=
n
E (b
p) = p.
Logo, a proporção amostral pb é um estimador não viciado para a proporção populacional p. A variância de
pb, por sua vez, é tal que
n
!
1X
V ar (b
p) = V ar Xi
n i=1
n
1 X
= V ar (Xi )
n2 i=1
V ar (X1 ) + V ar (X2 ) + ... + V ar (Xn )
=
n2
p (1 − p) + p (1 − p) + ... + p (1 − p)
=
n
np (1 − p)
=
n2
p (1 − p)
V ar (b
p) = .
n
Assumindo as condições np > 5 e np (1 − p) > 5, então segue o resultado assintótico para a distribuição
normal expressa em (45).
pb − p
Z=q ∼ N (0, 1) . (46)
p(1−p)
n
A partir da padronização acima, temos o seguinte intervalo de confiança IC (1 − α) 100% para a proporção
populacional p:
r
pb (1 − pb)
pb ± Zα/2 (47)
n
Demonstração de (47:) Considerando a padronização dada em (46) temos o que o intervalo de confiança
IC (1 − α) 100% para a proporção populacional p, de acordo com a Figura abaixo, é:
⇒ P −Zα/2 ≤ Z ≤ Zα/2 = 1 − α
p − p
⇒ P −Zα/2 ≤ q ≤ Zα/2 = 1 − α
b
p(1−p)
n
r r !
p (1 − p) p (1 − p)
⇒ P −Zα/2 ≤ pb − p ≤ Zα/2 =1−α
n n
r r !
p (1 − p) p (1 − p)
⇒ P −b
p − Zα/2 ≤ −p ≤ −bp + Z−α/2 =1−α
n n
ou seja,
r r !
p (1 − p) p (1 − p)
P pb − Zα/2 ≤ p ≤ pb + Z−α/2 =1−α
n n
" r r #
p (1 − p) p (1 − p)
pb − Zα/2 ; pb + Z−α/2
n n
ou equivalentemente
r
pb (1 − pb)
pb ± Zα/2 ,
n
O que demonstra o resultado expresso em (47).
Fato: A proporção amostral pb é o melhor estimador para a proporção populacional p pois é um estimador não
viciado, consistente e o mais preciso, pois possui a menor variância dentro da classe dos estimadores não-viciados.
Em uma pesquisa de mercado há o interesse em saber qual o nı́vel de aceitação de um novo produto. Para isso,
entrevistou-se 150 clientes, dentre os quais 92 se declaram satisfeitos com o produto. Vamos construir o intervalo
95% de confiança para a proporção populacional p de clientes satisfeitos.
Solução: Como foram observados 92 sucessos em uma amostra de tamanho n = 150, temos então a seguinte
proporção amostral:
Número de sucessos 92
pb = = = 0, 6133.
Tamanho da amostra 150
A estatı́stica do valor Zα/2 associado ao nı́vel de confiança de 95% é de Zc = ±1, 96. Dessa maneira, o
IC (95%) para a proporção p é tal que:
r
pb (1 − pb)
pb ± Zα/2
n
r
0, 6133 (1 − 0, 6133)
0, 6133 ± 1, 96
150
0, 6133 ± 0, 0779
Interpretação: Temos 95% de confiança de que o intervalo [53, 54%; 69, 12%] contem a proporção populacional
de clientes satisfeitos com o produto.
Pesquisadores da área de zoologia estão estudando uma determinada espécie de mamı́fero. Um dos objetivos
da pesquisa é estimar a proporção p de nascimentos de fêmeas. Para isso, considerou-se uma amostra aleatória de
345 indivı́duos, em que foram observados 187 indivı́duos fêmeas. Construir e interpretar o intervalo de confiança
IC (95%) para a proporção p de nascimentos de fêmeas desta espécie de mamı́fero.
Solução: Como foram observados 187 sucessos em uma amostra de tamanho n = 345, temos então uma
proporção amostral pb = 0, 5420. A estatı́stica do valor Zα/2 associado ao nı́vel de confiança de 95% é de Zc = ±1, 96.
Dessa maneira, o IC (95%) para a proporção p é tal que:
r
pb (1 − pb)
pb ± Zα/2
n
r
0, 5420 (1 − 0, 5420)
⇒ 0, 5420 ± 1, 96
345
⇒ 0, 5420 ± 0, 0526
Dessa maneira, o intervalo de confiança IC (95%) para a proporção p de nascimentos de fêmeas desta espécie
de mamı́fero é
Interpretação: Temos 95% de confiança de que o intervalo [0, 4895 ; 0, 5946] contém a proporção p de nas-
cimentos de fêmeas desta espécie de mamı́fero. Ainda em outras palavras, a probabilidade de que este intervalo
contenha a proporção p de nascimentos de fêmeas é de 95%.
Uma grande empresa seguradora de veı́culos deseja estimar a proporção p de clientes do sexo feminino que
apresentam algum tipo de sinistro durante a vigência do contrato. Para isso, considerou-se uma amostra aleatória
de 188 clientes, dentre as quais 45 apresentaram sinistro. Construir e interpretar o intervalo de confiança IC (95%)
para a proporção p clientes do sexo feminino que apresentam algum tipo de sinistro durante a vigência do contrato.
Solução: Como foram observados 45 sucessos em uma amostra de tamanho n = 188, temos então uma
proporção amostral pb = 0, 2394. A estatı́stica do valor Zα/2 associado ao nı́vel de confiança de 95% é de Zc = ±1, 96.
Dessa maneira, o IC (95%) para a proporção p é tal que:
r
pb (1 − pb)
pb ± Zα/2
n
r
0, 2394 (1 − 0, 2394)
⇒ 0, 2394 ± 1, 96
188
⇒ 0, 2394 ± 0, 0610
Dessa maneira, o intervalo de confiança IC (95%) para a proporção p de clientes do sexo feminino que
apresentam algum tipo de sinistro durante a vigência do contrato é
Interpretação: Temos 95% de confiança de que o intervalo [0, 1784 ; 0, 3004] contém a proporção p de clientes
do sexo feminino que apresentam algum tipo de sinistro durante a vigência do contrato. Ainda em outras palavras,
a probabilidade de que este intervalo contenha a proporção p de clientes do sexo feminino que apresentam algum
tipo de sinistro é de 95%.
Em uma pesquisa eleitoral foram entrevistados 800 eleitores para verificar as intenções de votos dos candidatos
A, B e C. A tabela abaixo apresenta os resultados obtidos para esta amostra.
Vamos construir o intervalo de confiança de 95% para a proporção populacional para cada candidato. Recor-
demos que, para um nı́vel de confiança de 95% o valor de Zα/2 é 1, 96.
r
pbA (1 − pbA )
pbA ± Zα/2
n
r
0, 3075 (1 − 0, 3075)
0, 3075 ± 1, 96
800
0, 3075 ± 0, 0320
Interpretação: Temos 95% de confiança de que o intervalo [27, 55%; 33, 95%] contem a proporção populacional
de votos para o candidato A.
r
pbB (1 − pbB )
pbB ± Zα/2
n
r
0, 1475 (1 − 0, 1475)
0, 1475 ± 1, 96
800
0, 1475 ± 0, 0246
Interpretação: Temos 95% de confiança de que o intervalo [12, 29%; 17, 21%] contem a proporção populacional
de votos para o candidato B.
r
pbC (1 − pbC )
pbC ± Zα/2
n
r
0, 3425 (1 − 0, 3425)
0, 3425 ± 1, 96
800
0, 3425 ± 0, 0329
Interpretação: Temos 95% de confiança de que o intervalo [30, 96%; 37, 54%] contem a proporção populacional
de votos para o candidato C.
Observação: Podemos observar que os intervalos de confiança para os candidatos A e C tem uma intersecção.
Quando este fato ocorre, dizemos que há um empate técnico entre os candidatos A e C. Desta forma, não é possı́vel
afirmar qual candidato vai ganhar as eleições, por menor que seja tal intersecção.
Importante: Em geral as pesquisas de intenção de voto, assim como pesquisas de mercado, o tamanho n da
amostra é determinado previamente sem a necessidade de uma amostra piloto. Nesse contexto, adota-se a mesma
margem de erro para a estimação intervalar de todos os candidatos. Tal margem de erro é aquela que foi usada
para determinar o tamanho da amostra antes de ir para a população coletar os dados.
r
pb (1 − pb)
e = Zα/2 ,
n
temos que
2
Zα/2 pb (1 − pb)
n= .
e2
Na prática, para não depender do termo pb (1 − pb), que é uma estimativa amostral da variância populacional,
substitui-se tal termo pelo valor numérico 0, 25. Desta forma não é necessário uma amostra piloto e a expressão
para determinar o tamanho necessário da amostra se reduz a:
2
Zα/2 0, 25
n= .
e2
Exemplo. Numa pesquisa eleitoral quantos eleitores devemos entrevistar para estimar a proporção popula-
cional de votos de um candidato considerando 95% de confiança e uma margem de erro de 3% para mais ou para
menos?
2
Zα/2 0, 25 1, 962 0, 25
n= = = 1067 eleitores.
e2 0, 032
E considerando uma margem de erro de 2%, qual deveria ser o tamanho da amostra?
2
Zα/2 0, 25 1, 962 0, 25
n= = = 2401 eleitores.
e2 0, 022
O quadro abaixo apresenta alguns possı́veis tamanhos de amostra para diversos erros de estimativas, consi-
derando um nı́vel de significância de 90%, 95% e 99%.
Importante: Caso já exista uma amostra piloto proveniente da população, então devemos usar a estimativa
pb (1 − pb) para determinar o tamanho n da amostra, ao invés do valor numérico 0, 25.
Podemos notar que a estimativa pb (1 − pb) da variância populacional nada mais é que uma função de pb, isto é,
g (b
p):
p) = pb (1 − pb) = pb − pb2 .
g (b
O valor numérico 0, 25 é o valor máximo de g (b
p), pois derivando g (b
p) em relação a pb temos
0
p) = 1 − 2b
g (b p.
0
Igualando g (b
p) a zero, temos:
1 − 2b
p = 0
−2b
p = −1
pb = 1/2
Ou seja, g (b
p) atinge o máximo 0, 25 quando pb = 1/2, conforme figura a seguir.
O quadro abaixo apresenta alguns valores numéricos de pb (1 − pb) para vários valores de pb.
pb pb (1 − pb)
0, 01 0, 0099
0, 05 0, 0475
0, 10 0, 09
0, 20 0, 16
0, 30 0, 21
0, 40 0, 24
0, 50 0, 25
0, 60 0, 24
0, 70 0, 21
0, 80 0, 16
0, 90 0, 09
0, 95 0, 0475
0, 99 0, 0099
Podemos observar que pb (1 − pb) aumenta gradativamente até o valor 0, 25 quando pb = 0, 5 e, em seguida,
começa a decrescer novamente. O valor numérico 0, 25 garante que o tamanho n da amostra não seja menor do
que seria para qualquer outro valor de pb (1 − pb) diferente de 0, 25. Em outras palavras, o valor 0, 25 maximiza g (b
p)
que, por sua vez, maximiza n.
No Exemplo 4 fizemos a estimação da proporção populacional aplicada a pesquisas eleitorais onde o tamanho
da amostra foi arbitrariamente adotado sem justificativa ou relação com a margem de erro adotada. Na prática,
porém, em pesquisas de intenção de voto, assim como em pesquisas de mercado, o tamanho n da amostra é
determinado previamente sem a necessidade de uma amostra piloto.
Nesse contexto, adota-se a mesma margem de erro para a estimação intervalar de todos os candidatos. Tal
margem de erro é aquela que foi usada para determinar o tamanho da amostra antes de ir para a população coletar
os dados.
Exemplo de aplicação: Quantos eleitores devemos entrevistar, em uma pesquisa de intenção de voto,
considerando 95% de confiança e uma margem de erro de 2% para mais ou para menos? Em outras palavras, qual
deve ser o tamanho da amostra?
Como o valor de Zα/2 associado ao nı́vel de confiança 95% é de 1, 96, temos que
2
Zα/2 0, 25
n =
e2
1, 962 0, 25
=
0, 022
n = 2401 eleitores.
Suponha que esta pesquisa foi realizada em um Municı́pio onde há 4 candidatos e que os resultados obtidos
nesta amostra de 2401 eleitores foram os seguintes:
A 791 0, 3294 0, 33
B 87 0, 0362 0, 04
C 596 0, 2482 0, 25
D 817 0, 3403 0, 34
Podemos notar que a Tabela (18) apresenta a estimativa pontual (proporção amostral) de cada um dos 4
candidatos desta pesquisa.
Como a margem de erro adotada para determinar o tamanho da amostra foi de 0, 02 ou 2%, então temos a
estimativa intervalar para cada um dos candidatos concorrentes, conforme ilustração a seguir:
Observação: Podemos notar que os intervalos de confiança para os candidatos A e D apresentaram uma
intersecção. Quando este fato ocorre, dizemos que há um empate técnico entre os candidatos A e D. Desta
forma, não é possı́vel afirmar qual candidato vai ganhar as eleições, por menor que seja tal intersecção.
Para os municı́pios com menos de 200 mil eleitores, esta indefinição no empate técnico segue até o dia das
eleições em que as urnas são apuradas. Para os municı́pios com mais de 200 mil eleitores, esta indefinição vai para
o segundo turno.
Observando os intervalos obtidos acima, há três conclusões estatı́sticas possı́veis neste cenário:
Os dois itens anteriores têm probabilidade de 95% de retratar a realidade (95% de confiança).
(n − 1) S 2
Q= ∼ χn−1 .
σ2
Seja 1 − α a probabilidade da variável Q, com n − 1 graus de liberdade, tomar valores entre Qα/2 e Q1−α/2 ,
valores obtidos na tabela da distribuição Qui-quadrado tais que P Q < Qα/2 = P [Q > Q1−α/2 ] = α/2, conforme
mostra a Figura (40):
Observando a equação Qα/2 ≤ Q ≤ Q1−α/2 vemos que podemos substituir Q pela expressão acima e então
obtemos
(n − 1) S 2
Qα/2 ≤ ≤ Q1−α/2 .
σ2
(n − 1) S 2 (n − 1) S 2
< σ2 < .
Q1−α/2 Qα/2
Assim,
(n − 1) S 2 (n − 1) S 2
P < σ2 < = 1 − α.
Q1−α/2 Qα
Logo, o intervalo com nı́vel 100(1 − α)% de confiança para σ 2 é expresso por:
(n − 1) S 2 (n − 1) S 2
IC(σ 2 , 1 − α) = , .
Q1−α/2 Qα/2
Considere uma população A com caracterı́stica X, tal que X tem distribuição normal com média µX e
2
variância σX , isto é,
2
X ∼ N µX , σX
Vimos em capı́tulos anteriores que, se X1 , X2 , . . . , Xm é uma amostra aleatória extraı́da de X, então a média
amostral X tem distribuição normal com média µX e variância m vezes menor que a variância populacional, isto
é,
2
X ∼ N µX , σX /m
Considere também uma população B com caracterı́stica Y , tal que Y tem distribuição normal com média µY
e variância σY2 , isto é,
Y ∼ N µY , σY2
De forma análoga ao caso anterior, se Y1 , Y2 , . . . , Yn é uma amostra aleatória extraı́da de Y , então a média
amostral Y tem distribuição normal com média µY e variância n vezes menor que a variância populacional, isto é,
Y ∼ N µY , σY2 /n
2
σ2
σX
+ Y
X −Y ∼N µX − µY ; . (48)
m n
Padronizando a distribuição (48) temos uma distribuição normal padrão, isto é:
X − Y − (µX − µY )
Z= q 2 2
∼ N (0, 1) . (49)
σX σY
m + n
r
2
σX σ2
+ Y
X − Y ± Zα/2
m n
Demonstração de 48: Usando as propriedades da esperança e da variância já trabalhadas nos capı́tulos
anteriores, vamos encontrar primeiramente a esperança matemática da diferença amostral X − Y :
E X −Y = E X −E Y
= µX − µY .
No caso da variância da diferença amostral temos:
V ar X − Y = V ar X + V ar Y
2
σX σ2
= + Y.
m n
Como a diferença amostral X − Y é uma combinação linear de distribuições normais, então está provado o
resultado (48).
X − Y − (µX − µY ) E X − Y − (µX − µY )
E (Z) = E q 2 2
= q 2 2
σX σY σX σY
m + n m + n
E X − Y − E (µX − µY )
= q 2 2
σX σY
m + n
E X − E Y − [E (µX ) − E (µY )]
= q 2 2
σX σY
m + n
[µX − µY ] − [µX − µY ]
= q 2 2
σX σY
m + n
µX − µY − µX + µY
= q 2 2
σX σY
m + n
0
E (Z) = q 2 2
= 0.
σX σY
m + n
Determinando a variância de Z:
X − Y − (µX − µY ) V ar X − Y − (µX − µY )
V ar (Z) = V ar q 2 2
= q 2
σX σY 2
σX 2
σY
m + n m + n
V ar X − Y + V ar (µX − µY )
= 2
σX 2
σY
m + n
V ar X + V ar Y + [V ar (µX ) + V ar (µY )]
= 2
σX 2
σY
m + n
2 2
h i
σX σY
m + n + [0 + 0]
= 2
σX 2
σY
m + n
2 2
σX σY
m + n
V ar (Z) = 2
σX 2
σY
= 1
m + n
Como Z é uma combinação linear de distribuições normais, então está provado o resultado (49).
Assuma uma população A com caracterı́stica X, tal que X tem distribuição normal com média µX e variância
2
σX , isto é,
2
X ∼ N µX , σX
2
Vimos em capı́tulos anteriores que, se X1 , X2 , . . . , Xm é uma amostra aleatória extraı́da de X, e SX é a
variância desta amostra, então
2
(m − 1) SX
2 ∼ χm−1 .
σX
em que χm−1 denota a distribuição Qui-quadrado com m − 1 graus de liberdade. Sabemos também que
X − µX
t= SX
∼ tm−1 .
√
m
Assumindo também uma população B com caracterı́stica Y , tal que Y tem distribuição normal com média
µY e variância σY2 , isto é,
Y ∼ N µY , σY2
De forma análoga ao caso anterior, se Y1 , Y2 , . . . , Yn é uma amostra aleatória extraı́da de Y , e SY2 é a variância
desta amostra, então
(n − 1) SY2
∼ χn−1 .
σY2
em que χn−1 denota a distribuição Qui-quadrado com n − 1 graus de liberdade. Sabemos também que
Y − µY
t= SY
∼ tn−1 .
√
n
em que tm+n−2 denota a distribuição t-student com m + n − 2 graus de liberdade, em que m é o tamanho da
primeira amostra e n é o tamanho da segunda amostra.
Dessa maneira, a partir da distribuição dada em (50), o IC (1 − α) 100% para a diferença populacional
2
µX − µY , considerando as variâncias populacionais σX e σY2 desconhecidas, é expresso por:
s
2 1 1
X − Y ± tα/2 S + .
m n
em que
2
(m − 1) SX
2 + (n − 1) SY2
S =
m+n−2
2
é a média ponderada nos graus de liberdade das variâncias amostrais SX e SY2 .
XA ∼ Bernoulli (pA )
XB ∼ Bernoulli (pB )
Considere uma amostra aleatória de tamanho m extraı́da da população A e uma amostra aleatória de tamanho
n extraı́da da população B. Definindo pbA e pbB como sendo as proporções amostrais de sucessos da amostra A e B
respectivamente, temos que a distribuição da diferença de proporções é tal que:
pA (1 − pA ) pB (1 − pB )
pbA − pbB ∼ N pA − pB ; + (51)
m n
Demonstração de (51): Temos que a esperança matemática de pbA − pbB é tal que
pA − pbB )
E (b pA ) − E (b
= E (b pB )
= pA − pB .
pA − pbB )
V ar (b = V ar (b
pA ) + V ar (b
pB )
pA (1 − pA ) pB (1 − pB )
= + .
m n
Como a estatı́stica pbA − pbB é uma combinação linear de duas distribuições normais, então segue o resultado
em (51).
pA − pbB ) − (pA − pB )
(b
Z=q ∼ N (0, 1) . (52)
pA (1−pA ) pB (1−pB )
m + n
(b
pA − p
b B ) − (p A − pB )
E (Z) = E q
pA (1−pA ) pB (1−pB )
m + n
p − pbB ) − E (pA − pB )
E (b
= qA
pA (1−pA )
m + pB (1−p
n
B)
pA ) − E (b
E (b pB ) − E (pA ) − E (pB )
= q
pA (1−pA )
m + pB (1−p
n
B)
p − pB − pA + pB
= qA
pA (1−pA )
m + pB (1−p
n
B)
E (Z) = 0.
pA − pbB ) − (pA − pB )
(b
V ar (Z) = V ar q
pA (1−pA )
m + pB (1−p
n
B)
pA − pbB ) + V ar (pA − pB )
V ar (b
= q 2
pA (1−pA ) pB (1−pB )
m + n
V ar (b
pA ) + V ar (b
pB ) + V ar (pA ) + V ar (pB )
= pA (1−pA )
m + pB (1−p
n
B)
pA (1−pA )
m + pB (1−p
n
B)
+0+0
= pA (1−pA ) pB (1−pB )
m + n
pA (1−pA ) pB (1−pB )
m + n
= pA (1−pA ) pB (1−pB )
m + n
V ar (Z) = 1.
Como a estatı́stica Z é uma combinação linear de duas distribuições normais, então segue o resultado em
(52).
A partir da padronização dada em (52), o IC (1 − α) 100% para a diferença populacional (pA − pB ) por meio
pA − pbB ) é tal que:
da diferença amostral (b
" r r #
pbA (1 − pbA ) pbB (1 − pbB ) pbA (1 − pbA ) pbB (1 − pbB )
pA − pbB ) − Zα/2
(b + pA − pbB ) + Zα/2
; (b +
m n m n
ou de forma equivalente
r
pbA (1 − pbA ) pbB (1 − pbB )
pA − pbB ) ± Zα/2
(b +
m n
Uma grande empresa seguradora de veı́culos automotivos deseja estimar a diferença entre as proporções po-
pulacionais de clientes do sexo masculino e feminino que apresentam sinistro durante os 12 meses de contrato.
Para isso, considerou-se uma amostra aleatória de m = 122 clientes do sexo masculino, dentre os quais 34 apre-
sentaram sinistros. Considerou-se também uma amostra aleatória de n = 148 clientes do sexo feminino, dentre os
quais 21 apresentaram sinistros. Construa e interprete o intervalo de confiança IC (95%) para a diferença de duas
proporções populacionais pA − pB .
Solução: Para os clientes do sexo masculino (população A) observamos 34 sucessos em 122 indivı́duos
resultando numa proporção amostral pbA = 0, 2787. Para os clientes do sexo feminino (população B) observamos
21 sucessos em 148 indivı́duos resultando numa proporção amostral pbB = 0, 1419. Dessa maneira, como o valor
de Zα/2 considerando 95% de confiança é de 1, 96, temos que o intervalo de confiança IC (95%) para a diferença
pA − pB é tal que
r
pbA (1 − pbA ) pbB (1 − pbB )
pA − pbB ) ± Zα/2
(b +
m n
r
0, 2787 (1 − 0, 2787) 0, 1419 (1 − 0, 1419)
⇒ (0, 2787 − 0, 1419) ± 1, 96 +
122 148
⇒ 0, 1368 ± 0, 0974
Portanto, o intervalo de confiança IC (95%) para a diferença destas duas proporções populacionais pA − pB é
Os diretores de uma grande empresa de televisão por assinatura deseja estimar a diferença entre as proporções
populacionais de clientes do sexo masculino e feminino que estão insatisfeitos com os pacotes de serviços oferecidos
pela empresa. Para isso, considerou-se uma amostra aleatória de m = 238 clientes do sexo masculino, dentre os
quais 152 se disseram insatisfeitos. Considerou-se também uma amostra aleatória de n = 194 clientes do sexo
feminino, dentre os quais 132 se disseram insatisfeitas. Construa e interprete o intervalo de confiança IC (95%)
para a diferença de duas proporções populacionais pA − pB .
Solução: Para os clientes do sexo masculino (população A) observamos 152 sucessos em 238 indivı́duos,
resultando numa proporção amostral pbA = 0, 6387. Para os clientes do sexo feminino (população B) observamos
132 sucessos em 194 indivı́duos resultando numa proporção amostral pbB = 0, 6804. Dessa maneira, como o valor
de Zα/2 considerando 95% de confiança é de 1, 96, temos que o intervalo de confiança IC (95%) para a diferença
pA − pB é tal que
r
pbA (1 − pbA ) pbB (1 − pbB )
pA − pbB ) ± Zα/2
(b +
m n
r
0, 6387 (1 − 0, 6387) 0, 6804 (1 − 0, 6804)
⇒ (0, 6387 − 0, 6804) ± 1, 96 +
238 194
⇒ −0, 0417 ± 0, 0896
Portanto, o intervalo de confiança IC (95%) para a diferença destas duas proporções populacionais pA − pB é
Exercı́cio 1. Seja uma população formada pelos números {1, 2, 3, 4}, pede-se:
a. Determinar a quantidade de amostras de tamanho n = 2, sem reposição, que podem ser formadas com
essa população.
b. Identificar todas a amostras de tamanho n = 2 e calcular suas médias.
c. Comparar a média populacional µ com a média das médias amostrais X̄ ¯.
Exercı́cio 2. Seja uma população formada pelos números {20, 22, 24, 26, 28}, pede-se:
a. Determinar a quantidade de amostras de tamanho n = 2, sem reposição, que podem ser formadas com
essa população.
b. Identificar todas a amostras de tamanho n = 2 e calcular suas médias.
c. Compare a média populacional µ com a média das médias amostrais X̄ ¯ . Compare a variância populacional
2 2
σ com a variância das médias amostrais σX̄ , usando o fator de correção para população finita.
Exercı́cio 3. Numa população composta de N = 80 coelhos, quantas amostras possı́veis podem ser extraı́das
de tamanho:
a. n = 2 em um processo sem reposição. b. n = 3 em um processo sem reposição.
c. n = 4 em um processo sem reposição. d. n = 5 em um processo sem reposição.
e. n = 2 em um processo com reposição. f. n = 3 em um processo com reposição.
g. n = 4 em um processo com reposição. h. n = 5 em um processo com reposição.
Exercı́cio 4. Numa população composta de N = 25 capivaras, quantas amostras possı́veis podem ser
extraı́das de tamanho:
a. n = 4 em um processo sem reposição. b. n = 5 em um processo sem reposição.
c. n = 4 em um processo com reposição. d. n = 5 em um processo com reposição.
Exercı́cio 5. Numa população composta de N = 10 ratos, quantas amostras possı́veis sem reposição podem
ser extraı́das de tamanho:
a. n = 1 c. n = 3 e. n = 5 g. n = 7 i. n = 9
b. n = 2 d. n = 4 f. n = 6 h. n = 8 j. n = 10
Exercı́cio 1. Considere uma população com caracterı́stica X obedecendo um distribuição normal com média
µ e variância σ 2 . Sejam X1 e X2 uma amostra aleatória de tamanho n = 2 extraı́da desta população e seja
b = X1 +2X
µ 2
2
um estimador para o parâmetro µ.
a. Determine a distribuição amostral de µ b e seus respectivos parâmetros.
b. Verifique se µb é não-viciado para o parâmetro µ.
a. Classifique os estimadores propostos quanto ao enviesamento, isto é, verifique se são não-viciados para o
parâmetro λ.
b. Qual dos dois estimadores é mais eficiente? Justifique a sua escolha.
Exercı́cio 3. Suponha uma população com caracterı́stica X tal que X tem média populacional µ e variância
populacional σ 2 . Considere a amostra aleatória X1 , X2 , ..., X10 extraı́da desta população e os seguintes estimadores
para µ:
µ
b1 = (X1 + X2 + ... + X10 ) /10 e b2 = (2X1 − X6 + X4 ) /2.
µ
Classifique os estimadores propostos quanto ao enviesamento, isto é, verifique se são não-viciados para o
parâmetro µ.
Exercı́cio 4. Pesquisadores da área de biologia marinha estão interessados no estudo de tartarugas marinhas
gigantes. Para isso capturou-se n = 8 indivı́duos em idade adulta e tirou-se várias medidas, dentre elas o peso em
quilos. O resultado foi o seguinte:
62 72 65 49 65 84 65 58
Considere os seguintes estimadores para a média populacional µ dos pesos das tartarugas marinhas:
b1 = X
µ b4 = M inimo(X1 ,X2 ,...,X8 )+M
µ 2
aximo(X1 ,X2 ,...,X8 )
4
µ
b2 = M o µ
b5 = 3 M inimo (X1 , X2 , ..., X8 )
µ
b3 = M e b6 = 43 M aximo (X1 , X2 , ..., X8 ).
µ
a. Determine o valor numérico de cada uma das estimativas acima para o peso médio das tartarugas marinhas.
b. Qual é o melhor estimador para a média populacional do peso médio µ das tartarugas marinhas? Justifique.
Exercı́cio 5. Suponha uma população com a caracterı́stica X, tal que X é uma variável aleatória discreta
que assume valores 1, 2, ..., θ, e sua distribuição de probabilidades é dada por P (X = k) = 1/θ, para k = 1, 2, ..., θ.
Considere X1 , X2 , ..., Xn uma amostra aleatória extraı́da dessa população. Considere os seguintes estimadores para
o parâmetro θ:
4X1 +6X2 −2X3
θb1 = 2X , θb2 = 2X − 1 e θb3 = 4 − 1.
a. Classifique os estimadores propostos quanto ao enviesamento, isto é, verifique se são não-viciados para o
parâmetro θ.
b. Qual dos estimadores propostos é o mais eficiente?
Ajuda: Se X é uma variável aleatória discreta que assume valores 1, 2, ..., θ, e sua distribuição de probabili-
2
dades é dada por P (X = k) = 1/θ, para k = 1, 2, ..., θ, então é fácil verificar que E (X) = N2+1 e V ar (X) = N12−1 .
Exercı́cio 6. O número X de ovos que um determinado inseto bota segue uma distribuição de Poisson
com parâmetro λ. Foi extraı́da uma amostra aleatória de tamanho n = 4, isto é, foi verificado o número de ovos
depositados por 4 insetos. Foi sugerido dois estimadores para λ:
λ
b1 = (X1 + X2 + X3 + X4 ) /4 e λ
b2 = (X1 + 2X2 + 3X3 + 4X4 ) /10
a. Classifique os estimadores propostos quanto ao enviesamento, isto é, verifique se são não-viciados para λ.
b. Qual deles é o mais eficiente?
Verifique quais destes estimadores são não-viciados para o parâmetro θ e encontre o mais eficiente, isto é,
aquele que possui a menor variância.
Exercı́cio 1. Uma população tem média da populacional µ desconhecida e desvio-padrão populacional igual
a σ = 12. Com o objetivo de estimar o parâmetro µ, foi retirada uma amostra aleatória de tamanho n = 100 que
apresentou uma média amostral igual a X = 81. Construa e interprete os seguintes intervalos de confiança para a
média da populacional µ.
Exercı́cio 2. Depois de fabricado e embalado, a atividade de um certo adubo pode considerar-se tendo uma
distribuição normal com µ = 120 dias e σ = 40 dias. Pretende-se enviar um lote de embalagens do referido adubo
de modo que a vida média amostral X não seja inferior a 118 dias com 95% de confiança. Qual o tamanho do lote
a enviar?
Exercı́cio 3. O tempo de vida de uma determinada marca de lâmpada é uma variável aleatória contı́nua
que segue uma distribuição normal com média populacional µ desconhecida e desvio-padrão populacional σ = 100
horas. Qual o tamanho necessário da amostra para estimar a vida média µ desta marca de lâmpada, considerando
95% de confiança, admitindo um erro de estimativa de e = 20 horas?
Exercı́cio 4. Uma companhia está procurando adquirir uma quantidade de calculadoras manuais que tenham
uma vida média de 1, 5 anos ou mais. Suponha que o tempo de vida X de tais calculadoras obedeça a uma
distribuição normal com média populacional µ desconhecida e desvio padrão populacional σ = 0, 3 ano.
a. Considerando 95% de confiança e com base numa amostra de n = 25 calculadoras analisadas que apresen-
taram vida média amostral de X = 1, 3 anos, a companhia deve comprar as calculadoras?
b. Resolva o item anterior considerando que a amostra analisada apresentou uma vida média amostral de
X = 1, 6 anos. O que você pode concluir?
Exercı́cio 5. Numa fábrica de computadores a administração pretende estimar o tempo médio µ de vida
de um determinado tipo de disco rı́gido. Para isso, foi selecionada uma amostra aleatória constituı́da por n = 15
computadores. Com base nesta amostra obteve-se um tempo médio amostral de vida igual a X = 27.350 horas.
Supondo que o tempo X de vida segue uma distribuição normal com desvio padrão populacional σ = 3.000 horas,
construa um intervalo de confiança de 99% para o tempo médio µ de vida dos discos rı́gidos.
Exercı́cio 6. Medições do comprimento de n = 25 peças produzidas por uma máquina conduziram a uma
média X = 140mm. Admita que cada peça tem comprimento aleatório com distribuição normal de valor esperado
µ e desvio-padrão σ = 10mm, e que o comprimento de cada peça é independente das restantes. Construa um
intervalo de confiança de 95% para comprimento médio populacional µ das peças produzidas por essa máquina.
Exercı́cio 7: Aplicação em estudos demográficos. Suponha que a altura X dos alunos seja uma v.a tal
2
que X segue o modelo normal com variância populacional σX = 121 cm2 e que a altura Y das alunas também seja
uma v.a tal que Y segue o modelo normal com variância populacional σY2 = 81 cm2 . Foi extraı́da uma amostra
aleatória de tamanho m = 18 alunos da população X obtendo-se uma média amostral X = 174 cm e uma amostra
aleatória de tamanho n = 26 alunas da população Y obtendo-se uma média amostral Y = 163 cm.
Suponha que o nı́vel de contaminação X seja uma variável aleatória aproximadamente normal.
a. Encontre e interprete os intervalos de confiança IC (90%), IC (95%) e IC (99%) para o nı́vel médio µ de
contaminação do rio por mercúrio.
b. Considerando um nı́vel de confiança de 95%, quantos pontos deverı́amos medir no rio caso quiséssemos
um erro de estimativa de 10 mmHg/l? A amostra piloto foi suficiente? E se quiséssemos um erro de estimativa de
25 mmHg/l? quantos pontos no rio deverı́amos medir?
Exercı́cio 3: Aplicações no setor bancário. Um gerente de banco está interessado em estimar o saldo
médio µ das contas correntes na primeira quinzena do mês. Para isso ele analisou uma amostra aleatório de
tamanho n = 14 correntistas, e os dados foram os seguintes (saldos em reais):
1136 895 761 1055 330 544 784 1317 994 1322 1371 748 608 940
Assumindo que o saldo da conta corrente siga uma distribuição normal, determine:
a. O IC (95%) para o saldo médio populacional µ das contas corrente desse banco. Interprete o intervalo de
confiança obtido.
b. O IC (98%) para o saldo médio populacional µ das contas corrente desse banco. Interprete o intervalo de
confiança obtido.
c. Considerando um nı́vel de confiança de 95%, qual deveria ser o tamanho da amostra caso o gerente quisesse
admitir um erro de estimativa de no máximo 50 reais no saldo médio?
d. E se o gerente quisesse admitir um erro de estimativa de no máximo e = 300 reais, a amostra retirada foi
suficiente para a estimação? Mostre.
Exercı́cio 4: Aplicações gerais. Uma amostra aleatória de tamanho n = 36 apresentou uma média
amostral X = 28, 35 e desvio-padrão amostral s = 7, 5. Para estimar a média populacional µ, construa o intervalo
de confiança
a. de 95%.
b. de 90%.
Exercı́cio 5: Aplicações gerais. Uma amostra aleatória de n = 40 contas de pessoas fı́sicas na filial de
um banco apresentou um saldo médio amostral X = R$1.400, 00 e desvio-padrão amostral S = R$300, 00.
Exercı́cio 6: Aplicações no setor de serviços. O tempo médio de atendimento em uma agência lotérica
está sendo analisado por técnicos. Uma amostra de n = 40 clientes foi sistematicamente monitorada em relação
ao tempo que levavam para serem atendidos, obtendo-se as seguintes estatı́sticas: tempo médio de atendimento
de 195 segundos e desvio padrão de 15 segundos. Considerando que o tempo de utilização segue uma distribuição
normal:
a. Faça uma estimação por intervalo para o tempo médio de utilização para toda a população de clientes da
agência lotérica, utilizando um nı́vel de confiança de 95%.
b. A amostra utilizada seria suficiente se fosse exigida uma precisão de 1 minuto?
c. O dono da agência garante que o tempo médio de atendimento é de 3 minutos (se for maior ele se
compromete a contratar mais um atendente). Com base nos dados da amostra a afirmação do dono é verdadeira,
ou ele deve contratar um novo atendente? Use um nı́vel de significância de 1%.
a. Determine o IC (95%) para o tempo médio populacional µ que esse novo medicamento demora para fazer
efeito. Interprete-o.
b. Qual deveria ser o tamanho da amostra se quiséssemos estimar o tempo médio populacional µ que o
medicamento demora pra fazer efeito considerando 95% de confiança e um erro máximo de e = 0, 5 minutos?
Exercı́cio 10: Aplicações na indústria automobilı́stica. Nosso interesse é estimar a média de consumo
em quilômetros por litro de um novo modelo de carro da montadora lı́der do mercado de carros populares. Sabendo
que a população tem distribuição normal e o consumo em quilômetros por litro de uma amostra aleatória de n = 16
carros do novo modelo de carro é igual a X = 14, 8 km/l com desvio-padrão amostral igual a S = 2 km/l, estime
o valor do consumo médio populacional µ com:
Exercı́cio 11: Aplicações na pediatria. Em uma amostra de n = 18 bebês do sexo masculino com 12
semanas de vida, obteve-se um peso médio amostral X = 5.900 gramas e um desvio-padrão de S = 94 gramas.
a. Obtenha um intervalo de confiança de 95% para o peso médio populacional µ para os bebês com 12
semanas de vida.
b. Quantas crianças teriam que ser usadas para estimar tal média com precisão de 15 gramas?
Exercı́cio 13: Aplicações em biologia. Pesquisadores estudam grupos de baleias da espécie Jubarte com
o objetivo de monitorar o crescimento ou descrescimento da população. Uma das variáveis monitoradas é o peso
X dos filhotes dessa espécie de baleia. Pesou-se uma amostra de n = 7 filhotes e os resultados estão abaixo (pesos
em quilos):
a. Determine os intervalos de confiança IC (90%), IC (95%), IC (98%) e IC (99%) para o peso médio µ dos
filhotes da baleia da espécie Jubarte. Interprete-o.
b. Qual deveria ser o tamanho da amostra de filhotes caso assumı́ssemos um erro de 200 quilos com um nı́vel
de confiança de 95%?
Exercı́cio 14: Aplicação em estudos da vazão de rios. Uma grande empreiteira vai construir uma ponte
de concreto sob um determinado rio. Como parte dos estudos preliminares de implantação, necessita-se estimar a
vazão média µ neste ponto do rio durante os perı́odos seco e chuvoso. Para isto, considerou-se uma amostra de 30
medições diárias para cada um dos perı́odos, e os resultados encontram-se no quadro abaixo (vazão em m3 /s):
a. Construa e interprete o intervalo IC (95%) para a vazão média µ do rio considerando os dois perı́odos.
b. Construa e interprete o intervalo IC (95%) para a vazão média µ referente ao perı́odo seco.
c. Construa e interprete o intervalo IC (95%) para a vazão média µ referente ao perı́odo chuvoso.
d. Analisando os intervalos obtidos nos itens anteriores, há diferença na vazão média entre os perı́odos seco e
chuvoso? Argumente usando no máximo 5 linhas.
e. Quantas medições seriam necessárias para estimar a vazão média do perı́odo seco considerando um erro de
estimativa de 0, 30m3 /s? E do perı́odo chuvoso?
f. Quantas medições seriam necessárias para estimar a vazão média do perı́odo seco considerando um erro de
estimativa de 0, 20m3 /s? E do perı́odo chuvoso?
Exercı́cio 15: Aplicação em estudos de preservação. Realizou-se um estudo em uma área degradada em
que o objetivo era verificar o teor de contaminação X do solo, que segue uma distribuição normal de probabilidades.
Desconfia-se que o solo esteja contaminado por chumbo. Em uma amostra composta por n = 23 pontos de sondagem
nesse solo (medições em ppm), o IC (98%) para o nı́vel médio µ de contaminação do solo por chumbo, obtido nessa
amostra foi: [125 ppm ; 217 ppm].
Exercı́cio 16. Aplicações à engenharia ambiental: Realizou-se um estudo em uma área degradada em
que o objetivo era verificar o teor de contaminação X do solo, que segue uma distribuição normal de probabilidades.
Desconfia-se que o solo esteja contaminado por chumbo. Em uma amostra composta por n = 17 pontos de sondagem
nesse solo (medições em ppm), o IC (98%) para o nı́vel médio µ de contaminação do solo por chumbo, obtido nessa
amostra foi: [135, 80 ppm ; 247, 80 ppm]. A partir do intervalo de confiança obtido nesta amostra piloto, quantos
pontos de sondagem deverı́amos medir, isto é, qual deveria ser o tamanho da amostra considerando um erro de
estimativa e = 25 ppm?
Exercı́cio 1: Aplicação em pesquisa de satisfação. Uma grande construtora imobiliária está interessada
em saber qual a proporção p de clientes insatisfeitos com o prazo de entrega do imóvel. Para isso consultou-se 270
clientes, dentre os quais 123 se declararam insatisfeitos com a empresa.
a. Encontre e interprete o IC (95%) para a proporção p de clientes insatisfeitos com o prazo de entrega do
imóvel.
b. Considerando 95% de confiança, qual deveria ser o tamanho da amostra considerando um erro de estimativa
de 3%? A amostra consultada é suficiente? Justifique. Supondo que ainda não foi consultado nenhum cliente, qual
deve ser o tamanho da amostra, para esse nı́vel de confiança, considerando um erro de estimativa de 3%?
Exercı́cio 6. Aplicação em estudos médicos: Somente uma parcela dos pacientes que sofrem de uma
determinada sı́ndrome neurológica consegue cura completa. Em uma amostra de 64 pacientes observados, curaram-
se 41.
a. Construa o intervalo de confiança IC (95%) para a proporção dos pacientes que são curados.
b. Quantos pacientes portadores dessa sı́ndrome deverı́amos observar para estimar a proporção de curados,
considerando uma margem de erro de 5% e uma confiança de 95%?
Exercı́cio 10. Aplicação em estudos médicos: Sabe-se que a obesidade está diretamente relacionada a
hipertensão arterial. Em uma amostra de n = 525 indivı́duos obesos verificou-se que 378 indivı́duos apresentaram
a hipertensão arterial.
a. Determine e interprete o IC (95%) para a proporção populacional p de indivı́duos obesos com hipertensão
arterial.
b. Determine e interprete o IC (99%) para a proporção populacional p de indivı́duos obesos com hipertensão
arterial.
c. Qual deveria ser o tamanho da amostra caso assumı́ssemos um erro de 5% com um nı́vel de significância
de 5%?
d. E se o erro assumido fosse 3%, qual deveria ser o tamanho da amostra?
e. Supondo que ainda não foi coletada nenhuma amostra, qual deve ser o tamanho da amostra de indivı́duos
obesos afim de estimar a proporção populacional p de hipertensos assumindo um erro de 1, 5% com um nı́vel de
significância de 5%?
Exercı́cio 11. Aplicação em pesquisas de satisfação: O diretor de uma renomada TV por assinatura
gostaria de verificar o nı́vel de satisfação dos seus assinantes em relação ao conteúdo do canal A. Para isso analisou
uma amostra de n = 150 assinantes, e os resultados encontram-se abaixo:
Satisfeitos Insatisfeitos
Homens 68 20
Mulheres 26 36
a. O diretor afirma que mais de 50% dos assinantes estão satisfeitos com o conteúdo do canal A. Construa
um IC (95%) para a proporção populacional de assinantes satisfeitos e explique com suas palavras se o diretor tem
razão ou não. Interprete o intervalo de confiança obtido.
b. O diretor está desconfiado que metade das assinantes do sexo feminino estão insatisfeitas com o conteúdo
do canal A. Construa um IC (95%) para a proporção populacional de assinantes do sexo feminino que estão
insatisfeitas e explique com suas palavras se o diretor tem razão ou não. Interprete o intervalo de confiança obtido.
c. Construa um IC (95%) para a proporção populacional de assinantes do sexo masculino que estão satisfeitos
com o conteúdo do canal A. Interprete o intervalo de confiança obtido.
d. Construa um IC (95%) para a proporção populacional de assinantes do sexo feminino que estão satisfeitos
com o conteúdo do canal A. Interprete o intervalo de confiança obtido.
e. O que você pode perceber nos intervalos obtidos nos itens c e d a respeito da satisfação?
f. Considerando o item a.), a amostra inicial do enunciado, e assumindo o mesmo nı́vel de confiança dos
intervalos obtidos, qual deveria ser o tamanho da amostra se o diretor assumisse um erro de estimativa de 10%?
A amostra analisada no inı́cio atende a essas exigências? Explique.
g. Supondo que ainda não foi extraı́da nenhuma amostra desta população de assinantes, qual deve ser o
tamanho da amostra para o mesmo erro de estimativa do item anterior?
Exercı́cio 12. Aplicações em estudos imobiliários: Uma grande construtora imobiliária está interessada
em saber qual a proporção p de clientes insatisfeitos com o prazo de entrega do imóvel. Para isso consultou-se 265
clientes, dentre os quais 147 se declararam insatisfeitos com a empresa.
Item a. Encontre e interprete o intervalo de confiança IC (95%) para a proporção p de clientes insatisfeitos
com o prazo de entrega do imóvel.
Item b. Considerando o nı́vel de confiança de 95%, qual deveria ser o tamanho da amostra considerando um
erro de estimativa de 5%? A amostra consultada é suficiente? Justifique. Supondo que ainda não foi consultado
nenhum cliente, qual deve ser o tamanho da amostra, para esse nı́vel de confiança, considerando uma margem de
erro de 5%?
Parte V
Inferência Estatı́stica: Testes de hipótese
Frequentemente é necessário tomar decisões a respeito das populações, baseado nas informações da(s) amos-
tra(s). Para se tomar decisões é apropriado a formulação de hipóteses, que podem ser verdadeiras ou não. A tomada
de decisão será então baseada no teste desta hipótese. Um teste de hipótese é um método de inferência estatı́stica
usando dados de um estudo cientı́fico. É um procedimento estatı́stico baseado na análise de uma amostra, através
da teoria de probabilidades, usado para avaliar determinados parâmetros que são desconhecidos numa população.
Embora a teoria dos testes de hipótese e a teoria dos intervalos de confiança sejam deveras semelhantes em
seu objetivo principal de inferir, é necessário salientar a distinção conceitual por meio da definição de hipótese.
A hipótese é uma conjectura (presunção, proposição, suposição) a partir de afirmações do pesquisador,
empı́ricas ou não. Entretanto, tais afirmações podem ou não pode ser verdadeiras na realidade. Em geral as
hipóteses são oriundas de uma teoria cientı́fica ou até mesmo da própria experiência, mas que ainda não tem
comprovações. As comprovações estatı́sticas podem ocorrer quando a hipótese é bem definida e passı́vel de men-
surações.
Os testes de hipóteses também são conhecidos como testes de significância. A expressão teste de significância
foi criada por Ronald Fisher: “Critical tests of this kind may be called tests of significance, and when such tests
are available we may discover whether a second sample is or is not significantly different from the first”. Os testes
de hipótese são constituı́dos de alternativas que são testadas.
Uma população tem uma amostra retirada e através da aplicação de teoria de probabilidades é possı́vel tirar
conclusões em relação a essa amostra, como determinar sua veracidade em relação a composição da população,
distinguir entre diferentes populações das quais a amostra pode ser oriunda, auxiliar na comprovação de uma teoria
ou no remodelamento dos métodos de testes aplicados para a sua comprovação, determinar limites estatı́sticos para
uma população (doenças, intenções de voto, salário, por exemplo), checar a confiabilidade de um estudo e no auxı́lio
de qualquer tomada de decisão simples em que seja necessário um rigor estatı́stico para comprovação da escolha.
A teoria dos testes de hipóteses tem uma grande importância em diversas áreas do conhecimento, pois uma
decisão errada pode levar a grandes prejuı́zos. Esse compêndio tem por objetivo demonstrar os procedimentos para
se testar hipóteses sobre os principais parâmetros populacionais.
Hipótese nula H0 : é a hipótese estatı́stica aceita como verdadeira até que se prove o contrário, ou seja, é
a hipótese pela qual o pesquisador deve procurar indı́cios para rejeitá-la ou aceitá-la. Em geral, trata-se do
ponto de partida mais adequado para o estudo, pois poderá ser o contrário do que o pesquisador quer provar.
Hipótese alternativa H1 : é uma hipótese complementar que fornece uma alternativa à hipótese nula H0 .
Em diversas situações é justamente o que o pesquisador quer provar.
Regra de decisão: A decisão do teste consiste em aceitar ou rejeitar a Hipótese Nula H0 , até então
considerada verdadeira, a partir do nı́vel de significância do teste.
Qualquer que seja a decisão a ser tomada, estamos sujeitos a cometer erros. Há dois tipos de erros: erro tipo
I e erro tipo II.
Erro tipo I: Este tipo de erro ocorre quando rejeitamos a hipótese nula H0 quando esta é verdadeira. Definimos
como α a probabilidade de se cometer este erro, isto é,
Erro tipo II: Este tipo de erro ocorre quando aceitamos a hipótese alternativa H1 quando esta é falsa. Definimos
como β a probabilidade de se cometer este erro, isto é,
Uma vez que a hipótese nula H0 é considerada verdadeira até que se prove o contrário, então o erro tipo I
é considerado mais grave que o erro tipo II. Em outras palavras, o fato de rejeitar a hipótese nula dada que ela
é verdadeira é mais grave do que aceitá-la caso ela seja falsa. Estabelecendo uma analogia com a linguagem do
direito penal podemos constatar que condenar um inocente (erro tipo I) é mais grave do que absolver um culpado
(erro tipo II).
Há três tipos de testes de hipóteses no que tange a regra de decisão: teste de hipótese bilateral, teste unilateral
à esquerda e teste unilateral à direita.
Teste de hipótese bilateral: Apresenta duas regiões de rejeição para a hipótese nula H0 , conforme for-
mulação e figura abaixo:
H0 : θ = θ 0 .
H1 : θ 6= θ0 .
Regra de decisão: Rejeitar H0 se a estatı́stica to for maior que tα/2 ou menor que −tα/2 , ou equivalentemente
se |to | > ±tα/2 . Os valores numéricos dos pontos ±tα/2 que separam as regiões de rejeição e aceitação são
denominados de t crı́tico, denotados por tc .
Teste de hipótese unilateral a direita: Apresenta uma única região de rejeição para a hipótese nula H0 ,
situada a direita da curva, conforme formulação e figura abaixo:
H0 : θ = θ 0 .
H1 : θ > θ 0 .
Regra de decisão: Rejeitar H0 se a estatı́stica to for maior que tα , ou equivalentemente se |to | > |tα |. Dessa
maneira, o valor numérico do ponto tα que separa a região de rejeição da região de aceitação é chamado de t crı́tico
(tc ).
Teste de hipótese unilateral a esquerda: Apresenta uma única região de rejeição para a hipótese nula
H0 , situada a esquerda da curva, conforme formulação e figura abaixo:
H0 : θ = θ 0 .
H1 : θ < θ 0 .
Regra de decisão: Rejeitar H0 se a estatı́stica to for menor que −tα , ou equivalentemente se |to | > |−tα |.
Dessa maneira, assim como nos casos anteriores, o valor numérico do ponto −tα que separa a região de rejeição da
região de aceitação é chamado de t crı́tico (tc ).
O objetivo do teste de hipótese para a média populacional µ com a variância populacional σ 2 conhecida é
buscar indı́cios ou evidências estatı́sticas para rejeitar uma afirmação, até então considerada verdadeira, acerca do
parâmetro populacional µ, considerando um nı́vel de significância α.
σ2
X ∼ N µ, . (53)
n
Padronizando a distribuição da variável aleatória X, expressa em (53), temos então a distribuição normal
padrão, ou seja, Z ∼ N (0, 1), isto é,
X −µ
Z= ∼ N (0, 1) .
√σ
n
Neste contexto, quando tivermos o interesse em testar hipóteses acerca da média populacional µ considerando
a variância populacional σ 2 conhecida, calculamos a estatı́stica teste da amostra, denotada por Zo (Leia-se: “Z
observado”) da seguinte forma:
X −µ
Zo = (“Z observado”)
√σ
n
que será comparado com o valor crı́tico Zc (Leia-se: “Z crı́tico”), oriundo da distribuição normal padrão Z.
Regra de decisão: Rejeitar H0 se a estatı́stica Zo for maior que o valor crı́tico Zc = Zα , ou equivalentemente
se |Zo | > |Zα |.
Regra de decisão: Rejeitar H0 se a estatı́stica Zo for menor que o valor crı́tico −Zc = −Zα , ou equivalen-
temente se |Zo | > |−Zα |.
O objetivo do teste de hipótese para a média populacional µ com a variância populacional σ 2 desconhecida é
buscar indı́cios ou evidências estatı́sticas para rejeitar uma afirmação, até então considerada verdadeira, acerca do
parâmetro populacional µ, considerando um nı́vel de significância α.
Sabemos que, se X tem distribuição normal com média µ e variância σ 2 , ou seja, se X ∼ N µ, σ 2 , e se
X1 , X2 , ..., Xn compõem uma amostra aleatória extraı́da de X, então a média amostral X também tem distribuição
normal com média µ e variância n vezes menor que a variância da população, isto é,
X ∼ N µ, σ 2 /n .
(54)
Padronizando a distribuição da variável aleatória X, expressa em (54), temos então a distribuição normal
padrão, ou seja, Z ∼ N (0, 1), isto é,
X −µ
Z= σ . (55)
√
n
Quando a variância populacional σ é desconhecida, devemos utilizar a variância amostral S 2 e, neste caso,
2
X −µ
to = (“t observado”)
√S
n
que será comparado com o valor crı́tico tc (Leia-se: “t crı́tico”), oriundo da distribuição t-student com n − 1
graus de liberdade e um nı́vel de significância α.
Um fabricante de pneus afirma que o tempo médio µ de vida útil dos seus pneus é de 20000 km. Entretanto há
uma desconfiança de que este tempo médio seja menor do que 20000 km. Para verificar a afirmação do fabricante
foi escolhido ao acaso uma amostra de n = 18 pneus e verificado o tempo de vida de cada um deles. Os resultados
encontram-se abaixo (tempo de vida útil em km):
Tempo de vida útil (em km) de 18 pneus
24800 22400 16100 11800 12700 17300
15900 18400 14400 14600 12000 14500
28000 26700 17900 8300 16200 21200
Considerando 5% de significância, fazer o teste de hipótese adequado para testar a afirmação do fabricante
de que o tempo médio de vida útil dos pneus é de 20000 km.
Solução: A partir do enunciado percebemos que trata-se de um teste unilateral à esquerda, pois existe uma
suspeita de que o tempo médio de vida útil dos pneus seja menor do que 20000 km. Dessa forma, a formulação da
hipótese é da seguinte forma:
H0 : µ = 20000.
H1 : µ < 20000.
Analisando a figura acima podemos perceber claramente que a hipótese nula H0 será rejeitada se a estatı́stica
teste to encontrada for numericamente menor que −1, 7396.
Os dados amostrais para o cálculo da estatı́stica teste to são: n = 18, X = 17400 km e S = 5370, 73 km.
Neste contexto, a estatı́stica observada da amostra to é calculada por
X −µ
to =
√S
n
17400 − 20000
= 5370,73
√
18
⇒ to = −2, 0539.
Dessa maneira, como to = −2, 0539 e tc = −1, 7396, temos que |to | > |tc | e segue a seguinte decisão:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que o tempo médio de vida útil dos pneus
seja menor do que 20000 km, considerando 5% de significância.
Em um grande estudo sobre a saúde pública dos estudantes universitários do municı́pio de Barreiras, no
Estado da Bahia, uma das variáveis estudadas foi a altura X dos indivı́duos. Há o interesse em verificar se a altura
média µ destes estudantes é de 170 cm. Para isso foi considerada uma amostra aleatória de n = 50 indivı́duos e os
resultados encontram-se abaixo:
Altura (em cm) de 50 estudantes universitários de Barreiras
198 174 183 180 181 183 177 175 159 188
169 167 169 160 168 196 180 189 167 174
141 188 181 180 189 147 163 197 145 162
161 147 171 158 151 162 164 164 159 172
174 176 175 161 153 174 173 153 160 193
Considerando 5% de significância vamos realizar o teste de hipótese adequado para verificar se a altura média
µ dos estudantes universitários de Barreiras é, de fato, 170 cm.
Solução: Como não há indicação de que essa altura média seja menor ou maior do que 170 cm, então trata-se
de um teste de hipótese bilateral. Dessa maneira, a formulação da hipótese fica da seguinte forma:
H0 : µ = 170 cm.
H1 : µ 6= 170 cm.
Analisando a figura acima percebemos claramente que a hipótese nula H0 será rejeitada se a estatı́stica teste
to encontrada for numericamente menor do que −2, 0096 ou maior do que 2, 0096.
Os dados amostrais são: n = 50, X = 170, 62 cm e S = 14, 0304 cm. Portanto, a estatı́stica observada to da
amostra é dada por:
X −µ
to =
√S
n
170, 62 − 170
= 14,0304
√
50
⇒ to = 0, 3125.
Dessa maneira, como to = 0, 3125 e tc = ±2, 0096, temos que |to | < |tc | e segue a seguinte decisão:
Conclusão: Aceita-se H0 , isto é, há evidências estatı́sticas de que a altura média µ dos estudantes univer-
sitários do municı́pio de Barreiras é de 170 cm, considerando 5% de significância.
O coordenador do curso de Geologia da Universidade Federal do Oeste da Bahia afirma que o rendimento
médio µ dos estudantes do curso na disciplina métodos estatı́sticos é de 4, 5. Entretanto, há uma desconfiança de
que este rendimento médio seja maior do que apenas 4, 5. Para verificar tal afirmação, foi considerada uma amostra
aleatória de 42 estudantes e verificado suas notas finais. Os resultados encontram-se no quadro abaixo:
Considerando 5% de significância, fazer o teste de hipótese adequado para testar a afirmação do coordenador
do curso de Geologia de que o rendimento médio de seus alunos é de 4, 5.
Solução: Uma vez que existe uma desconfiança de que este rendimento médio µ seja maior do que 4, 5 então
trata-se de um teste de hipótese unilateral a direita. Portanto, a formulação da hipótese fica da seguinte forma:
H0 : µ = 4, 5.
H1 : µ > 4, 5.
Analisando a figura acima podemos verificar de forma clara que a hipótese nula H0 será rejeitada se a
estatı́stica teste to encontrada for numericamente maior do que 1, 6829.
Os dados amostrais são: n = 42, X = 5, 09 e S = 1, 0815. Portanto, a estatı́stica observada to da amostra é
dada por:
X −µ
to =
√S
n
5, 09 − 4, 50
= 1,0815
√
42
⇒ to = 3, 5383.
Dessa maneira, como to = 3, 5383 e tc = 1, 6829, temos que |to | > |tc | e segue a seguinte decisão:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que o rendimento médio µ dos estudantes do
curso de Geologia em métodos estatı́sticos seja maior do que 4, 5 considerando 5% de significância.
33.1 Objetivo
O objetivo do teste de hipótese para a proporção populacional p é buscar indı́cios ou evidências estatı́sticas
para rejeitar uma afirmação, até então considerada verdadeira, acerca do parâmetro populacional p, considerando
um nı́vel de significância α.
E (X) = p e V ar (X) = p (1 − p) .
Se tomarmos X1 , X2 , ..., Xn uma amostra aleatória extraı́da de X, então a média amostral X nada mais é
que a proporção amostral, isto é
Número de sucessos
X = pb =
Tamanho da amostra
Vimos também que, se np > 5 e np (1 − p) > 5, então pb tem distribuição assintoticamente normal com média
p e com variância p(1−p)
n , isto é,
p (1 − p)
pb ∼ N p; , (57)
n
e padronizando a distribuição da variável pb expressa em (57), temos a distribuição normal padrão Z:
pb − p
Z=q ∼ N (0, 1) .
p(1−p)
n
Neste contexto, quando tivermos o interesse em testar hipóteses acerca da proporção populacional p, calcu-
lamos a estatı́stica teste da amostra, denotada por Zo (Leia-se: “Z observado”) da seguinte forma:
pb − p
Zo = q (“Z observado”)
p
b(1−bp)
n
que será comparada com o valor de Z crı́tico (Zc ) da distribuição normal padrão, considerando um nı́vel de
significância α.
A diretoria de uma grande empresa prestadora de serviços afirma que apenas 10% de seus clientes estão
insatisfeitos com relação ao serviço DELTA. Porém há uma desconfiança de que este percentual seja maior do que
10%. A fim de verificar a afirmação da diretoria, foi analisada uma amostra aleatória de 84 clientes, dentre os quais
15 disseram estar insatisfeitos. Considerando 5% de significância, fazer o teste de hipótese adequado para verificar
a afirmação da diretoria desta empresa de que 10% de seus clientes estão insatisfeitos com o serviço DELTA.
Solução: Uma vez que existe uma desconfiança de que esta proporção p seja maior do que 0, 10 então trata-se
de um teste de hipótese unilateral a direita. Dessa maneira, o teste se inicia com a sua formulação:
Formulação da hipótese:
H0 : p = 0, 10.
H1 : p > 0, 10.
A figura acima mostra que a hipótese nula H0 será rejeitada se a estatı́stica teste to encontrada for numeri-
camente maior do que 1, 645.
Como foram observados 15 sucessos em uma amostra de tamanho n = 84, temos então uma proporção
amostral pb = 0, 1786. A estatı́stica teste observada Zo é dada por:
pb − p
Zo = q
p
b(1−bp)
n
0, 1786 − 0, 10
= q
0,1786(1−0,1786)
84
=⇒ Zo = 1, 8808.
Dessa maneira, como Zo = 1, 8808 e Zc = 1, 645, temos que |Zo | > |Zc | e segue a seguinte decisão:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que a proporção p de clientes insatisfeitos
com o serviço DELTA seja maior do que 10%, considerando 5% de significância.
Pesquisadores da área de zoologia estão estudando uma determinada espécie de mamı́fero. Um dos objetivos
da pesquisa é verificar se a proporção de nascimentos de fêmeas é de 50%. Para isso, considerou-se uma amostra
aleatória de 345 indivı́duos, em que foram observados 187 indivı́duos fêmeas. Considerando 5% de significância,
fazer o teste de hipótese adequado para verificar se a proporção de nascimentos de fêmeas é de 50%.
Solução: Como não há indicação de que essa proporção p de fêmeas seja menor ou maior do que 50%, então
trata-se de um teste de hipótese bilateral. Dessa maneira, o teste se inicia com a sua formulação:
Formulação da hipótese:
H0 : p = 0, 50.
H1 : p 6= 0, 50.
A figura acima mostra que a hipótese nula H0 será rejeitada se a estatı́stica teste to encontrada for numeri-
camente menor do que −1, 96 ou maior do que 1, 96.
Como foram observados 187 sucessos em uma amostra de tamanho n = 345, temos então uma proporção
amostral pb = 0, 5420. A estatı́stica teste observada Zo é dada por:
pb − p 0, 5420 − 0, 50
Zo = q =q
p
b(1−bp) 0,5420(1−0,5420)
n 345
=⇒ Zo = 1, 5658.
Dessa maneira, como Zo = 1, 56588 e Zc = 1, 96, temos que |Zo | < |Zc | e segue a seguinte decisão:
Conclusão: Aceita-se H0 , isto é, há evidências estatı́sticas de que a proporção p de nascimento de fêmeas
seja de 50% nesta espécie de mamı́fero, considerando 5% de significância.
Uma grande empresa seguradora de veı́culos afirma que a proporção p de clientes do sexo feminino que
apresentam algum tipo de sinistro durante a vigência do contrato é de 30%. Entretanto, existe uma desconfiança
de que esta proporção seja menor do que 30%. Para verificar a afirmação da empresa, considerou-se uma amostra
aleatória de 188 clientes, dentre as quais 45 apresentaram sinistro. Considerando 5% de significância, fazer o teste
de hipótese adequado para verificar se a proporção p de clientes do sexo feminino que apresentam algum tipo de
sinistro durante a vigência do contrato é de 30%.
Solução: Uma vez que existe uma desconfiança de que esta proporção p seja menor do que 0, 30 então trata-se
de um teste de hipótese unilateral a esquerda. Dessa maneira, o teste se inicia com a sua formulação:
Formulação da hipótese:
H0 : p = 0, 30.
H1 : p < 0, 30.
A figura acima mostra que a hipótese nula H0 será rejeitada se a estatı́stica teste to encontrada for numeri-
camente menor do que −1, 645.
Como foram observados 45 sucessos em uma amostra de tamanho n = 188, temos então uma proporção
amostral pb = 0, 2394. A estatı́stica teste observada Zo é dada por:
pb − p 0, 2394 − 0, 30
Zo = q =q
p
b(1−bp) 0,2394(1−0,2394)
n 188
=⇒ Zo = −1, 9472.
Dessa maneira, como Zo = −1, 9472 e Zc = −1, 645, temos que |Zo | > |Zc | e segue a seguinte decisão:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que a proporção p de clientes do sexo feminino
que apresentam algum tipo de sinistro durante a vigência do contrato é menor do que 30%, considerando 5% de
significância.
O objetivo do teste de hipótese para a variância populacional σ 2 é buscar indı́cios ou evidências estatı́sticas
para rejeitar uma afirmação, até então considerada verdadeira, acerca do parâmetro populacional σ 2 , considerando
um nı́vel de significância α.
Vimos em Capı́tulos anteriores que, se X é uma caracterı́stica populacional tal que X ∼ N µ, σ 2 , e se
X1 , X2 , ..., Xn é uma amostra aleatória extraı́da de X com variância amostral S 2 , então:
(n − 1) S 2
Q= ∼ χn−1 . (58)
σ2
Seja 1 − α a probabilidade da variável Q, com n − 1 graus de liberdade, tomar valores entre Qα/2 e Q1−α/2 ,
valores obtidos na tabela da distribuição Qui-quadrado tais que P Q < Qα/2 = P [Q > Q1−α/2 ] = α/2, conforme
mostra a Figura (41):
Observando a equação Qα/2 ≤ Q ≤ Q1−α/2 vemos que podemos substituir Q pela expressão acima e então
obtemos
(n − 1) S 2
Qα/2 ≤ ≤ Q1−α/2 .
σ2
(n − 1) S 2 (n − 1) S 2
< σ2 < .
Q1−α/2 Qα/2
Assim,
(n − 1) S 2 (n − 1) S 2
P < σ2 < = 1 − α.
Q1−α/2 Qα
Logo, o intervalo com nı́vel 100(1 − α)% de confiança para σ 2 é expresso por:
(n − 1) S 2 (n − 1) S 2
IC(σ 2 , 1 − α) = , .
Q1−α/2 Qα/2
Neste contexto, considerando o resultado em (58), quando tivermos o interesse em testar hipóteses acerca da
variância populacional σ 2 , calculamos a estatı́stica teste da amostra, denotada por Qo (Leia-se: “Q observado”)
da seguinte forma:
(n − 1) S 2
Qo = : “Q observado”.
σ2
que será comparado com o valor crı́tico Qc (Leia-se: “Q crı́tico”), oriundo da distribuição Qui-quadrado com
n − 1 graus de liberdade e um nı́vel de significância α.
H0 : σ 2 = σ02 .
H1 : σ 2 6= σ02 .
Regra de decisão: Rejeitar H0 se a estatı́stica Qo for maior que o valor crı́tico Qc = Qα/2 ou menor que o
valor crı́tico −Qc = −Qα/2 , ou equivalentemente se |Qo | > ±Qα/2 .
H0 : σ 2 = σ02 .
H1 : σ 2 > σ02 .
Regra de decisão: Rejeitar H0 se a estatı́stica Qo for maior que o valor crı́tico Qc = Qα , ou equivalentemente
se |Qo | > |Qα |.
H0 : σ 2 = σ02 .
H1 : σ 2 < σ02 .
Regra de decisão: Rejeitar H0 se a estatı́stica Qo for menor que o valor crı́tico −Qc = −Qα , ou equivalen-
temente se |Qo | > |−Qα |.
Exemplo 1. Uma máquina de preenchimento automático é utilizada para encher garrafas com detergente
lı́quido. Uma amostra aleatória de n = 20 garrafas resultou em uma variância da amostra do volume de enchimento
de S 2 = 0, 0153 ml2 . Se a variância do volume de enchimento exceder a 0, 01 ml2 , existirá uma proporção inaceitável
de garrafas cujo enchimento não foi completo ou foi em demasia. Considerando 5% de significância, vamos verificar
se há evidência nos dados da amostra sugerindo que o fabricante tenha um problema com garrafas com falta ou
excesso de detergente. Considere que o volume de enchimentos tem distribuição normal.
H0 : σ 2 = 0, 01.
H1 : σ 2 > 0, 01.
(n − 1) S 2
Qo =
σ2
(20 − 1) 0, 0153
=
0, 01
Qo = 29, 07.
Podemos observar que Qo < Qc , isto é, a estatı́stica do “Q-observado” encontra-se dentro da região de
aceitação da hipótese nula H0 .
Conclusão: Aceita-se H0 , isto é, não há evidências estatı́sticas de que a variância seja maior do que 0, 01,
considerando 5% de significância.
35.1 Objetivo
O objetivo dos testes de hipótese para a diferença de duas médias populacionais é verificar se há diferença
estatı́stica significativa entre duas médias populacionais. Neste Capı́tulo assumimos que as variâncias populacionais
são conhecidas.
Considere uma população A com caracterı́stica X, tal que X tem distribuição normal com média µX e
2
variância σX , isto é,
2
X ∼ N µX , σX
Vimos em capı́tulos anteriores que, se X1 , X2 , . . . , Xm é uma amostra aleatória extraı́da de X, então a média
amostral X tem distribuição normal com média µX e variância m vezes menor que a variância populacional, isto
é,
2
X ∼ N µX , σX /m
Considere também uma população B com caracterı́stica Y , tal que Y tem distribuição normal com média µY
e variância σY2 , isto é,
Y ∼ N µY , σY2
De forma análoga ao caso anterior, se Y1 , Y2 , . . . , Yn é uma amostra aleatória extraı́da de Y , então a média
amostral Y tem distribuição normal com média µY e variância n vezes menor que a variância populacional, isto é,
Y ∼ N µY , σY2 /n
σ2 σ2
µX − µY ; X + Y
X −Y ∼N . (59)
m n
Padronizando a distribuição (59) temos uma distribuição normal padrão, isto é:
X − Y − (µX − µY )
Z= q 2 2
∼ N (0, 1) . (60)
σX σY
m + n
Neste contexto, quando tivermos o interesse em testar hipóteses acerca da diferença de duas médias popula-
2
cionais µX − µY considerando as variâncias populacionais σX e σY2 conhecidas, calculamos a estatı́stica teste da
amostra, denotada por Zo (Leia-se: “Z observado”) da seguinte forma:
X − Y − (µX − µY )
Zo = q 2 2
: “Z observado” (61)
σX σY
m + n
que será comparado com o valor crı́tico Zc (Leia-se: “Z crı́tico”), oriundo da distribuição normal padrão e
considerando um nı́vel de significância α.
A formulação do teste de hipótese para a diferença de duas médias populacionais µX − µY é dada da seguinte
forma:
Regra de decisão: Rejeitar H0 se a estatı́stica Zo for maior que o valor crı́tico Zc = Zα/2 ou menor que o
valor crı́tico −Zc = −Zα/2 , ou equivalentemente se |Zo | > ±Zα/2 .
Regra de decisão: Rejeitar H0 se a estatı́stica Zo for maior que o valor crı́tico Zc = Zα , ou equivalentemente
se |Zo | > |Zα |.
Regra de decisão: Rejeitar H0 se a estatı́stica Zo for menor que o valor crı́tico −Zc = −Zα , ou equivalen-
temente se |Zo | > |−Zα |.
36.1 Objetivo
O objetivo dos testes de hipótese para a diferença de duas médias populacionais é verificar se há diferença
estatı́stica significativa entre duas médias populacionais. Neste Capı́tulo assumimos que as variâncias populacionais
são desconhecidas e iguais.
A fim de fixar a fundamentação teórica sobre este teste, apresentamos nesta Seção três exemplos de aplicação
prática. O primeiro exemplo diz respeito a um grande estudo sobre os impactos ambientais no Cerrado Baiano em
que pesquisadores coletaram dados de vazão de diversos rios. A intenção da pesquisa é verificar se a vazão média
µX do Rio Grande durante o perı́odo seco é menor que a vazão média µY durante o perı́odo chuvoso, próximo ao
municı́pio de Barreiras.
O segundo exemplo aborda a questão do rendimento acadêmico de estudantes da UFOB. A Coordenação
Geral dos Núcleos Acadêmicos da UFOB afirma que o rendimento médio dos estudantes do curso de Engenharia
Civil é igual ao rendimento médio dos estudantes do curso de Engenharia Ambiental na disciplina de Métodos
Estatı́sticos. Porém, existe uma suspeita de que o rendimento médio da Civil seja maior que o da Ambiental.
O terceiro exemplo está relacionado ao setor de serviços em que uma grande rede de lojas de calçados deseja
verificar se há diferença estatı́stica significativa entre os volumes médios de vendas da equipe A e da equipe B.
Assuma uma população A com caracterı́stica X, tal que X tem distribuição normal com média µX e variância
2
σX , isto é,
2
X ∼ N µX , σX
2
Vimos em capı́tulos anteriores que, se X1 , X2 , . . . , Xm é uma amostra aleatória extraı́da de X, e SX é a
variância desta amostra, então
2
(m − 1) SX
2 ∼ χm−1 .
σX
em que χm−1 denota a distribuição Qui-quadrado com m − 1 graus de liberdade. Sabemos também que
X − µX
t= SX
∼ tm−1 .
√
m
Assumindo também uma população B com caracterı́stica Y , tal que Y tem distribuição normal com média
µY e variância σY2 , isto é,
Y ∼ N µY , σY2
De forma análoga ao caso anterior, se Y1 , Y2 , . . . , Yn é uma amostra aleatória extraı́da de Y , e SY2 é a variância
desta amostra, então
(n − 1) SY2
∼ χn−1 .
σY2
em que χn−1 denota a distribuição Qui-quadrado com n − 1 graus de liberdade. Sabemos também que
Y − µY
t= SY
∼ tn−1 .
√
n
2
Se as variâncias populacionais σX e σY2 são desconhecidas, porém iguais, isto é, se
2
σX = σY2 = σ 2 ,
então temos
X − Y − (µX − µY )
t= q ∼ tm+n−2 (62)
2 1
+ n1
S m
em que tm+n−2 denota a distribuição t-student com m + n − 2 graus de liberdade, em que m é o tamanho da
primeira amostra e n é o tamanho da segunda amostra, e
2
2 (m − 1) SX + (n − 1) SY2
S =
m+n−2
2
é a média ponderada nos graus de liberdade das variâncias amostrais SX e SY2 .
Neste contexto, quando tivermos o interesse em testar hipóteses acerca da diferença de duas médias popula-
2
cionais µX − µY considerando as variâncias populacionais σX e σY2 desconhecidas e iguais, calculamos a estatı́stica
teste da amostra, denotada por to (Leia-se: “t observado”) da seguinte forma:
X − Y − (µX − µY )
to = q : “t observado” (63)
2 1
+ n1
S m
que será comparado com o valor crı́tico tc (Leia-se: “t crı́tico”), oriundo da distribuição t-student com m+n−2
graus de liberdade, em que m é o tamanho da primeira amostra e n é o tamanho da segunda amostra, e considerando
um nı́vel de significância α.
A formulação do teste de hipótese para a diferença de duas médias populacionais µX − µY é dada da seguinte
forma:
Regra de decisão: Rejeitar H0 se a estatı́stica to for maior que o valor crı́tico tc = tα/2 ou menor que o
valor crı́tico −tc = −tα/2 , ou equivalentemente se |to | > ±tα/2 .
Regra de decisão: Rejeitar H0 se a estatı́stica to for maior que o valor crı́tico tc = tα , ou equivalentemente
se |to | > |tα |.
Regra de decisão: Rejeitar H0 se a estatı́stica to for menor que o valor crı́tico −tc = −tα , ou equivalente-
mente se |to | > |−tα |.
Pesquisadores de um grande estudo sobre os impactos ambientais no Cerrado Baiano coletaram dados de
vazão de diversos rios. Um dos objetivos da pesquisa é verificar se a vazão média µX do Rio Grande durante o
perı́odo seco é menor que a vazão média µY durante o perı́odo chuvoso, próximo ao municı́pio de Barreiras. Para
isso, considerou-se uma amostra de 24 medições diárias da vazão durante o perı́odo seco e 36 medições diárias
durante o perı́odo chuvoso, conforme o quadro abaixo (vazão em m3 /s):
Solução: Como desejamos verificar se a vazão média durante o perı́odo seco é menor que a vazão média durante
o perı́odo chuvoso, trata-se de um teste unilateral a esquerda, e sua formulação é tal que:
H0 : µX = µY .
H1 : µX < µY .
A estatı́stica do valor crı́tico tc encontrado na distribuição t-student associada a um nı́vel de 5% de significância
para o teste unilateral à esquerda com 58 graus de liberdade (24 + 36 − 2) é tc = −1, 6716. Esboçando a distribuição
t-student com as regiões de rejeição e aceitação de H0 temos:
2
Os dados amostrais associados ao perı́odo seco são m = 24, X = 4, 92 e SX = 1, 5052. Quanto ao perı́odo
2
chuvoso são n = 36, Y = 5, 77 e SY = 2, 0786. A variância ponderada nos graus de liberdade, por sua vez, é tal
que:
2
2 (m − 1) SX + (n − 1) SY2 (24 − 1) 1, 5052 + (36 − 1) 2, 0786
S = =
m+n−2 24 + 36 − 2
2
⇒S = 1, 8512.
Dessa forma, a estatı́stica to é dada por
X − Y − (µX − µY ) (4, 92 − 5, 77) − (0)
to = q = q
2 1 1
1 1
S m+n 1, 8512 24 + 36
⇒ to = −2, 3707.
Como to = −2, 3707 e tc = −1, 6716, temos que |to | > |tc | e segue a seguinte decisão:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que a vazão média µX do Rio Grande durante
o perı́odo seco seja menor do que a vazão média µY durante o perı́odo chuvoso, próximo ao municı́pio de Barreiras,
considerando 5% de significância.
A Coordenação Geral dos Núcleos Acadêmicos da UFOB afirma que o rendimento médio dos estudantes
do curso de Engenharia Civil é igual ao rendimento médio dos estudantes do curso de Engenharia Ambiental na
disciplina de Métodos Estatı́sticos. Porém, existe uma suspeita de que o rendimento médio da Civil seja maior que
o da Ambiental. Para verificar a afirmação da coordenação, considerou-se uma amostra aleatória de 28 estudantes
do curso de Engenharia Civil e uma outra de 42 estudantes do curso de Engenharia Ambiental e tabulado suas
notas finais do semestre. Os resultados encontram-se no quadro abaixo:
Solução: Como desejamos verificar se os rendimentos médios da Civil e da Ambiental são iguais, e há uma
suspeita de que o rendimento médio da civil seja maior, então trata-se de um teste unilateral a direita, e sua
formulação é tal que:
H0 : µX = µY .
H1 : µX > µY .
A estatı́stica do valor crı́tico tc encontrado na distribuição t-student associada a um nı́vel de 5% de significância
para o teste unilateral à direita com 68 graus de liberdade (28 + 42 − 2) é tc = 1, 6676. Esboçando a distribuição
t-student com as regiões de rejeição e aceitação de H0 temos:
2
Os dados amostrais associados à turma da civil são m = 28, X = 6, 24 e SX = 0, 8616. Quanto ao perı́odo
2
chuvoso são n = 42, Y = 5, 81 e SY = 2, 8963. A variância ponderada nos graus de liberdade, por sua vez, é:
2
2 (m − 1) SX + (n − 1) SY2 (28 − 1) 0, 8616 + (42 − 1) 2, 8963
S = =
m+n−2 28 + 42 − 2
2
⇒S = 2, 0884.
Dessa forma, a estatı́stica to é dada por
X − Y − (µX − µY ) (6, 24 − 5, 81) − (0)
to = q = q
2 1 1 1
S m + n1
2, 0884 28 + 42
⇒ to = 1, 2155.
Como to = 1, 2155 e tc = 1, 6676, temos que |to | < |tc | e segue a seguinte decisão:
Conclusão: Aceita-se H0 , isto é, há evidências estatı́sticas de que o rendimento médio dos estudantes do
curso de Engenharia Civil seja igual ao rendimento médio dos estudantes do curso de Engenharia Ambiental na
disciplina de Métodos Estatı́sticos, considerando 5% de significância.
Uma grande rede de lojas de calçados deseja verificar se há diferença estatı́stica significativa entre os volumes
médios de vendas da equipe A e da equipe B. Para isso, considerou-se uma amostra aleatória de m = 15 vendedores
da equipe A e n = 21 vendedores da equipe B, e os resultados encontram-se abaixo (vendas em milhares de dólares):
Solução: Como desejamos verificar se os volumes médios de vendas da equipe A e da equipe B são iguais, sem
suspeita alguma de que um seja maior ou menor que o outro, trata-se de um teste bilateral e sua formulação é:
H0 : µX = µY .
H1 : µX 6= µY .
2
Os dados amostrais associados à equipe A são m = 15, X = 26505 e SX = 54895875, 29. Quanto a equipe B
2
são n = 21, Y = 25975, 67 e SY = 24864231, 53. A variância ponderada nos graus de liberdade, por sua vez, é:
2
2 (m − 1) SX + (n − 1) SY2
S =
m+n−2
(15 − 1) 54895875, 29 + (21 − 1) 24864231, 53
=
15 + 21 − 2
2
⇒S = 37230202, 49.
Como to = 0, 2566 e tc = ±2, 0322, temos que |to | < |tc | e segue a seguinte decisão:
Conclusão: Aceita-se H0 , isto é, há evidências estatı́sticas de que o volume médio de vendas da equipe A é
igual ao volume médio de vendas da equipe B, considerando 5% de significância.
37.1 Objetivo
De maneira geral, o objetivo do teste de hipótese para dados pareados é testar se existe diferença significativa
entre o valor médio antes e o valor médio depois para um mesmo grupo de indivı́duos, considerando um nı́vel de
significância α.
Considere um conjunto de observações X1 , X2 , ..., Xn , tal que cada observação foi obtida em dois momentos
diferentes, isto é
X1(Antes) X1(Depois)
X2(Antes) X2(Depois)
X3(Antes) X3(Depois)
.. ..
. .
Xn(Antes) Xn(Depois)
Seja di a diferença entre a i-ésima observação antes e a mesma observação depois, isto é
d − µd
to = Sd
: “t observado”
√
n
que será comparada com o valor crı́tico tc (Leia-se: “t crı́tico”) tabelado, oriundo da distribuição t-student
com n − 1 graus de liberdade, em que n é o tamanho da amostra.
H0 : µd = µd0 .
H1 : µd > µd0 .
Regra de decisão: Rejeitar H0 se a estatı́stica to for maior que o valor crı́tico tc = tα , ou equivalentemente
se |to | > |tα |.
H0 : µd = µd0 .
H1 : µd < µd0 .
Regra de decisão: Rejeitar H0 se a estatı́stica to for menor que o valor crı́tico −tc = −tα , ou equivalente-
mente se |to | > |−tα |.
Uma grande empresa de produtos alimentı́cios lançou no mercado uma nova ração humana para dieta de
emagrecimento. O nutricionista responsável pelo produto afirma que esta ração é eficaz para o emagrecimento
humano. Para verificar a afirmação do nutricionista considerou-se uma amostra aleatória de 15 indivı́duos, pesando-
os antes da dieta e após a dieta de 90 dias a base da ração. Os resultados encontram no quadro abaixo:
Pesos (em quilos) dos indivı́duos antes e após a dieta de 90 dias com a ração
Indivı́duos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Peso antes da dieta 79 83 97 66 104 80 89 81 93 77 76 88 83 76 90
Peso depois da dieta 99 72 88 79 93 70 93 109 64 76 70 83 81 80 83
Considerando 5% de significância, fazer o teste de hipótese adequado para verificar se esta ração é, de fato,
eficaz para o emagrecimento humano.
Solução: Como desejamos verificar se o peso médio dos indivı́duos diminuiu, então devemos verificar se a
diferença média dos desvios µd aumentou, ou seja, se µd é positiva. Portanto, trata-se de um teste unilateral a
direita, e sua formulação é tal que:
Formulação da hipótese:
H0 : µd = 0.
H1 : µd > 0.
A fim de calcular as estatı́sticas da amostra, consideremos o quadro abaixo com as diferenças di , com 1, 2, ..., 15.
Dessa maneira, os dados amostrais são n = 15, d = 1, 4667 e Sd = 13, 9687. Dessa forma, a estatı́stica to é
d − µd 1, 4667 − 0
to = Sd
= 13,9687 = 0, 4067.
√ √
n 15
Portanto, como to = 0, 4067 e tc = 1, 7613, temos que |to | < |tc | e segue a seguinte decisão:
Conclusão: Aceita-se H0 , isto é, há evidências estatı́sticas de que esta ração não seja eficaz para o emagre-
cimento humano, considerando 5% de significância.
O laboratório de uma grande indústria de avicultura lançou no mercado uma nova ração para dieta de engorda
de frangos. O pesquisador responsável pelo produto afirma que esta ração é eficaz para a engorda dos frangos.
Para verificar a afirmação do pesquisador considerou-se uma amostra aleatória de 12 indivı́duos, pesando-os antes
da dieta e após a dieta de 60 dias a base da ração. Os resultados encontram no quadro abaixo:
Pesos (em quilos) dos frangos antes e após a dieta de 60 dias com a ração
Indivı́duo 1 2 3 4 5 6 7 8 9 10 11 12
Peso antes da dieta 0, 7 1, 1 0, 9 1, 0 1, 0 1, 2 0, 8 0, 8 0, 9 0, 8 1, 0 1, 1
Peso depois da dieta 1, 1 1, 3 1, 1 0, 9 1, 3 1, 3 1, 3 1, 2 1, 1 1, 2 1, 3 1, 3
Considerando 5% de significância, fazer o teste de hipótese adequado para verificar se esta ração é, de fato,
eficaz para engorda dos frangos.
Solução: Como desejamos verificar se o peso médio dos indivı́duos aumentou, então devemos verificar se a
diferença média dos desvios µd diminuiu, ou seja, se µd é negativa. Portanto, trata-se de um teste unilateral à
esquerda, e sua formulação é tal que:
Formulação da hipótese:
H0 : µd = 0.
H1 : µd < 0.
A fim de calcular as estatı́sticas da amostra, consideremos o quadro abaixo com as diferenças di , com 1, 2, ..., 12.
Dessa maneira, os dados amostrais são n = 12, d = −0, 2583 e Sd = 0, 1621. Dessa forma, a estatı́stica to é
d − µd −0, 2583 − 0
to = Sd
= 0,1621 = −5, 5199.
√ √
n 12
Portanto, como to = −5, 5199 e tc = 1, 7959, temos que |to | > |tc | e segue a seguinte decisão:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que esta ração seja eficaz para a engorda dos
frangos, considerando 5% de significância.
Um laboratório de pesquisa está testando uma nova ração para filhotes de cães a base de uma combinação
de várias proteı́nas. Porém, há uma suspeita de que essa ração engorde os cães. Para testar essa suposição foram
usados 10 ratos de laboratório (cobaias) e administrou-se a ração por 30 dias. O quadro abaixo apresenta o peso
antes e depois da dieta (peso em gramas).
Pesos (em gramas) dos ratos antes e após a dieta de 30 dias com a ração
Indivı́duo 1 2 3 4 5 6 7 8 9 10
Peso antes da dieta 92 122 121 105 109 105 128 111 97 119
Peso depois da dieta 144 102 135 115 158 132 112 121 133 141
Considerando 5% de significância, verifique se esta ração realmente engorda os animais.
Solução: Como desejamos verificar se o peso médio dos ratos aumentou, então devemos verificar se a diferença
média µd é negativa. Portanto, trata-se de um teste unilateral a esquerda, e sua formulação é tal que:
Formulação da hipótese:
H0 : µd = 0.
H1 : µd < 0.
A fim de calcular as estatı́sticas da amostra, consideremos o quadro abaixo com as diferenças di , com 1, 2, ..., 10.
Dessa maneira, os dados amostrais são n = 10, d = −18, 4 e Sd = 24, 2221. Dessa forma, a estatı́stica to é
dada por
d − µd −18, 4 − 0
to = Sd
= 24,2221 = −2, 4022.
√ √
n 10
Portanto, como to = −2, 4022 e tc = −1, 8331, temos que |to | > |tc | e segue a seguinte decisão:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que esta ração esteja engordando os animais,
considerando 5% de significância.
38.1 Objetivo
O objetivo deste teste é verificar se há diferença estatı́stica entre duas proporções populacionais (pA − pB ),
dado um determinado nı́vel de significância α. Consideramos nessa Seção três exemplos genéricos de aplicação
deste teste.
XA ∼ Bernoulli (pA )
XB ∼ Bernoulli (pB )
Considere uma amostra aleatória de tamanho m extraı́da da população A e uma amostra aleatória de tamanho
n extraı́da da população B. Definindo pbA e pbB como sendo as proporções amostrais de sucessos da amostra A e B
respectivamente, temos que a distribuição da diferença de proporções é tal que:
pA (1 − pA ) pB (1 − pB )
pbA − pbB ∼ N pA − pB ; + (64)
m n
pA − pbB ) − (pA − pB )
(b
Z=q ∼ N (0, 1) . (65)
pA (1−pA ) pB (1−pB )
m + n
Neste contexto, quando tivermos o interesse em testar hipóteses acerca da diferença de duas proporções
populacionais pA − pB , calculamos a estatı́stica teste da amostra, denotada por Zo (Leia-se: “Z observado”) da
seguinte forma:
pA − pbB ) − (pA − pB )
(b
Zo = q : “Z observado” (66)
p
bA (1−b
pA ) p
bB (1−bpB )
m + n
que será comparado com o valor crı́tico Zc (Leia-se: “Z crı́tico”), oriundo da distribuição normal padrão,
considerando um nı́vel de significância α.
Regra de decisão: Rejeitar H0 se a estatı́stica Zo for maior que o valor crı́tico Zc = Zα/2 ou menor que o
valor crı́tico −Zc = −tα/2 , ou equivalentemente se |Zo | > ±tα/2 .
H0 : pA = pB .
H1 : pA > pB .
Regra de decisão: Rejeitar H0 se a estatı́stica Zo for maior que o valor crı́tico Zc = Zα , ou equivalentemente
se |Zo | > |Zα |.
H0 : pA = pB .
H1 : pA < pB .
Regra de decisão: Rejeitar H0 se a estatı́stica Zo for menor que o valor crı́tico −Zc = −Zα , ou equivalen-
temente se |Zo | > |−Zα |.
Considerando 5% de significância, faça o teste de hipótese adequado para verificar se pA = pB contra pA > pB .
Solução: Trata-se de um teste de hipótese unilateral a direita e sua formulação é da seguinte forma:
H0 : pA = pB .
H1 : pA > pB .
A estatı́stica crı́tica Zc , que separa as regiões de rejeição e aceitação de H0 , para o teste unilateral a direita
considerando um nı́vel de significância de 5% é Zc = 1, 645. A estatı́stica observada Zo , por sua vez, é dada por:
p − pbB ) − (pA − pB )
(b (0, 2787 − 0, 1419) − (0)
Zo = qA =q = 2, 7523
p
bA (1−b
pA ) p
bB (1−bpB ) 0,2787(1−0,2787) 0,1419(1−0,1419)
m + n 122 + 148
⇒ Zo = 2, 7523.
Conclusão: Rejeita-se H0 , isto é, há evidências de que o parâmetro pA seja maior do que pB , considerando
5% de significância.
p − pbB ) − (pA − pB )
(b (0, 6387 − 0, 6804) − (0)
Zo = qA =q = −0, 9133
p
bA (1−b
pA ) p
bB (1−bpB ) 0,6387(1−0,6387) 0,6804(1−0,6804)
m + n 238 + 194
⇒ Zo = −0, 9133.
Como |Zo | < |Zc |, temos a seguinte conclusão:
Conclusão: Aceita-se H0 , isto é, não há evidências de que o parâmetro pA seja diferente do parâmetro pB ,
considerando 5% de significância.
Considerando 5% de significância, faça o teste de hipótese adequado para verificar se pA = pB contra pA > pB .
Solução: Trata-se de um teste de hipótese unilateral a direita e sua formulação é da seguinte forma:
H0 : pA = pB .
H1 : pA > pB .
A estatı́stica crı́tica Zc , que separa as regiões de rejeição e aceitação de H0 , para o teste unilateral a direita
considerando um nı́vel de significância de 5% é Zc = 1, 645. A estatı́stica observada Zo , por sua vez, é dada por:
p − pbB ) − (pA − pB )
(b (0, 3038 − 0, 1935) − (0)
Zo = qA =q = 1, 6705
p
bA (1−b
pA ) p
bB (1−bpB ) 0,3038(1−0,3038) 0,1935(1−0,1935)
m + n 79 + 93
⇒ Zo = 1, 6705.
Como |Zo | > |Zc |, temos a seguinte conclusão:
Conclusão: Rejeita-se H0 , isto é, há evidências de que o parâmetro pA seja maior do que o parâmetro pB ,
considerando 5% de significância.
39.1 Objetivo
O objetivo deste teste de hipótese é verificar se há diferença estatı́stica significativa entre duas variâncias
populacionais.
2
Resultado
1: Considere X e Y duas variáveis aleatórias contı́nuas tal que X ∼ N µX , σX e Y ∼
N µY , σY2 . Sejam X1 , X2 , ..., Xm uma amostra aleatória (a.a) de tamanho m extraı́da de X. Sejam Y1 , Y2 , ..., Yn
amostra aleatória (a.a) de tamanho n extraı́da de Y . Então:
2
(m − 1)SX (n − 1)SY2
2 ∼ χ2m−1 e ∼ χ2n−1 . (67)
σX σY2
Onde χ2m−1 denota uma distribuição Qui-quadrado com (m − 1) graus de liberdade e χ2n−1 denota uma
distribuição Qui-quadrado com (n − 1) graus de liberdade.
X/ (m − 1) χ2 / (m − 1)
F = = m−1 ∼ Fm−1,n−1 (68)
Y / (n − 1) χ2n−1 / (n − 1)
X/m χ2 / (m − 1)
F = = m−1 ∼ Fm−1,n−1
Y /n χ2n−1 / (n − 1)
(m−1)SX 2
(m−1)
2
σX
⇒F = (n−1)S 2
∼ Fm−1,n−1
Y
(n−1)
2
σY
2
Assumindo, pela hipótese nula H0 que as variâncias populacionais são iguais, isto é, σX = σY2 = σ 2 , temos
que
(m−1)SX2
(m−1)
σ 2
F = (n−1)S 2
∼ Fm−1,n−1
Y
(n−1)
σ 2
2
SX
⇒F = ∼ Fm−1,n−1 .
SY2
Neste contexto, quando tivermos o interesse em testar hipóteses acerca da diferença entre duas variâncias
2
populacionais σX e σY2 , calculamos a estatı́stica teste da amostra, denotada por Fo (Leia-se: “F observado”) da
seguinte forma:
2
SX
Fo = : “F observado”
SY2
que será comparado com o valor crı́tico Fc (Leia-se: “F crı́tico”), oriundo da distribuição F-Snedecor com
(m − 1) graus de liberdade no numerador e (n − 1) graus de liberdade no denominador., e considerando um nı́vel
de significância α.
A formulação do teste de hipótese para a diferença de duas variâncias populacionais é dada da seguinte forma:
2
= σY2 .
H0 : σ X
H1 : σX 6= σY2 .
2
Regra de decisão: Rejeitar H0 se a estatı́stica Fo for maior que o valor crı́tico Fc = F1−α/2 ou menor que
o valor crı́tico Fc = Fα/2 .
Regra de decisão: Rejeitar H0 se a estatı́stica Fo for maior que o valor crı́tico Fc = F1−α .
40 Análise de variância
40.1 Introdução
A análise da variância é uma técnica estatı́stica criada por Sir Ronald Fisher em 1924 que pode ser usada
para testar a hipótese de que as médias de três ou mais populações são iguais. É também chamada de ANOVA,
do inglês Analysis of Variance e basicamente compara simultaneamente amostras de variáveis contı́nuas extraı́das
de populações com distribuições normais cujas variâncias populacionais não diferem entre si. Trata-se de um teste
estatı́stico amplamente difundido entre os analistas, e visa fundamentalmente verificar se existe uma diferença signi-
ficativa entre as médias populacionais e se os fatores exercem influência em alguma variável dependente, comparando
dois ou mais tratamentos. Existem muitas variações da ANOVA devido aos diferentes tipos de experimentos que
podem ser realizados. A Figura (42) mostra o esquema ilustrativo da análise de variância.
Tratamento: Um tratamento é uma condição imposta ou objeto que se deseja medir ou avaliar em um expe-
rimento. Normalmente, em um experimento, é utilizado mais de um tratamento. Como exemplos de tratamentos,
podem-se citar: equipamentos de diferentes marcas, diferentes tamanhos de peças, doses de um nutriente em um
meio de cultura, quantidade de lubrificante em uma máquina, temperatura de armazenamento de um alimento.
O objetivo da ANOVA é decidir se as amostras foram retiradas de populações que têm a mesma média.
A variabilidade refere-se às diferenças entre indivı́duos da mesma espécie. Em populações naturais a variabi-
lidade deve-se a fatores básicos como ambientais e genéticos. No caso da análise da variância, ela pode ser dividida
em duas: variabilidade entre e variabilidade dentro.
Variância entre: é a variabilidade entre os grupos (amostras). Quanto maior for a variabilidade entre,
maior a evidência que existem diferenças entre as populações das quais foram retiradas as amostras.
Variância dentro: é a variabilidade dentro de cada amostra. Quanto maior for a variabilidade dentro,
maior será a dificuldade para concluir que as populações sejam ou não diferentes.
Suponha k populações normais, cada qual com média µi , com i = 1, 2, ..., k e variância constante σ 2 . A
formulação da análise de variância é a seguinte:
H0 : µ1 = µ2 = µ3 = ... = µk
H1 : ∃µi 6= µj i = 1, 2, ..., k e j 6= i.
A hipótese nula (H0 ) afirma que as k populações sob análise tem o mesmo valor de média;
A hipótese alternativa (H1 ) afirma que há pelo menos uma população com média diferente.
A distribuição F ajudará na decisão de aceitar ou rejeitar a hipótese nula H0 . Para isso, vamos comparar
o valor de F crı́tico (Fc ), que vem da distribuição tabelada F-Snedecor com o valor de F observado (Fo ),
calculado por meio dos dados amostrais. A estatı́stica Fo é expresso por:
variâcia entre S2
Fo = = b2 ,
variância dentro Sω
em que
k 2 k
(ni − 1) Si2
P P
ni X i − X
i=1 i=1
Sb2 = e Sω2 = , (69)
k−1 k
P
ni − k
i=1
com
2
Resultado
1: Considere X e Y duas variáveis aleatórias contı́nuas tal que X ∼ N µX , σX e Y ∼
N µY , σY2 . Sejam X1 , X2 , ..., Xm uma amostra aleatória (a.a) de tamanho m extraı́da de X. Sejam Y1 , Y2 , ..., Yn
amostra aleatória (a.a) de tamanho n extraı́da de Y . Então:
2
(m − 1)SX (n − 1)SY2
2 ∼ χ2m−1 e ∼ χ2n−1 . (70)
σX σY2
Onde χ2m−1 denota uma distribuição Qui-quadrado com (m − 1) graus de liberdade e χ2n−1 denota uma
2
distribuição Qui-quadrado com (n − 1) graus de liberdade. Pela análise da variância temos que σX = σY2 = σ 2 ,
isto é, possuem variâncias populacionais iguais.
X/ (m − 1) χ2 / (m − 1)
F = = m−1 ∼ Fm−1,n−1 (71)
Y / (n − 1) χ2n−1 / (n − 1)
X/m χ2 / (m − 1)
F = = m−1 ∼ Fm−1,n−1
Y /n χ2n−1 / (n − 1)
(m−1)SX 2
(m−1)
2
σX
⇒F = (n−1)S 2
∼ Fm−1,n−1
Y
(n−1)
2
σY
2
Considerando que as variâncias populacionais são iguais, isto é, σX = σY2 = σ 2 , temos que
2
(m−1)SX
(m−1)
σ2
F = (n−1)S 2
∼ Fm−1,n−1
Y
(n−1)
σ2
2
SX
⇒F = ∼ Fm−1,n−1 .
SY2
2
Assumindo que SX seja a variância entre, ou seja, Sb2 e assumindo também que SY2 seja a variância dentro,
2
isto é, Sω , ambas expressas em (69), temos que a estatı́stica F observada (Fo ), tem distribuição F-Snedecor com
(k − 1) graus de liberdade no numerador e (n − k) graus de liberdade no denominador, isto é,
Sb2
Fo = ∼ Fk−1 ,n−k ,
Sω2
em que
A estatı́stica F observada (Fo ) obtida por meio do grupo de amostras, será comparada com a estatı́stica F
crı́tico (Fc ) oriunda da distribuição tabelada F-Snedecor com (k − 1) graus de liberdade no numerador e (n − k)
graus de liberdade no denominador, com nı́vel de significância α.
Uma grande rede de Fast Food está monitorando o tempo de preparo do Burger King Size. Há o interesse em
verificar se o tempo médio de preparo em cinco lojas são iguais. Para isso mediu-se o tempo de preparo de uma
amostra de funcionários de cada loja. Os resultados encontram-se na tabela abaixo (resultados em segundos).
Tempos de preparo do Burger King Size.
Loja 1 Loja 2 Loja 3 Loja 4 Loja 5
119 186 68 72 112
146 39 83 98 85
169 168 94 68 69
97 139 123 41 88
105 45 79 107 145
165 − 109 129 −
103 − 99 − −
− − 124 − −
− − 85 − −
Considerando 5% de significância, faça a análise de variância para testar se o tempo médio de preparo do
Burger King Size das cinco lojas são iguais. Construa a tabela ANOVA. Faça comentários pertinentes.
Resolução: Para fins de fixação do conteúdo, vamos assumir o roteiro a seguir para a realização da análise
de variância.
Passo 1. Formular a hipótese e encontrar a média e variância de cada amostra.
H0 : µ1 = µ2 = µ3 = µ4 = µ5
H1 : ∃µi 6= µj i = 1, 2, ..., 5 e j 6= i.
k
(ni − 1) Si2
P
i=1
Sω2 = k
P
ni − k
i=1
(n1 − 1) S12 + (n2 − 1) S22 + (n3 − 1) S32 + (n4 − 1) S42 + (n5 − 1) S52
=
n1 + n2 + n3 + n4 + n5 − 5
(7 − 1) 926, 81 + (5 − 1) 4775, 30 + (9 − 1) 382, 25 + (6 − 1) 995, 77 + (5 − 1) 874, 70
=
7+5+9+6+5−5
36197, 71
=
27
Sω2 = 1340, 66.
n
1X
X = Xi
n i=1
119 + 146 + 169 + ... + 69 + 88 + 145
=
32
3359
=
32
X = 104, 97.
k
P 2
ni X i − X
i=1
Sb2 =
k−1
2 2 2 2 2
n1 X 1 − X + n2 X 2 − X + n3 X 3 − X + n4 X 4 − X + n5 X 5 − X
=
5−1
7 (129, 14 − 104, 97)2 + 5 (115, 40 − 104, 97)2 + 9 (96 − 104, 97)2 + 6 (85, 83 − 104, 97)2 + 5 (99, 8 − 104, 97)2
=
5−1
7689, 08
=
4
Sb2 = 1922, 27.
Sb2
Fo =
Sω2
1922, 27
=
1340, 66
Fo = 1, 4338.
Ou seja, temos uma distribuição F-Snedecor com 4 graus de liberdade no numerador e 27 graus de liberdade
no denominador. Para encontrar o valor do Fc na tabela F , observa-se o valor dos graus de liberdade do numerador
(k − 1), isto é 4 e o valor dos graus de liberdade do denominador (n − k), que nesse caso é 27. Considerando 5% de
signiificância e cruzando os dados na Tabela em que 4 é o número da coluna e 27 é o número da linha, encontramos
o valor Fc = 2, 73.
A figura abaixo ilustra a distribuição F com 4 graus de liberdade no numerador e 27 graus de liberdade no
denominador e as regiões de aceitação e rejeição da hipótese nula H0 .
Conclusão: Como Fo < Fc , aceita-se H0 , isto é, não há diferença estatı́stica significativa entre as médias
das populações, considerando 5% de significância.
A diretoria de uma grande rede prestadora de serviços do ramo de TV por assinatura, deseja verificar se o
tempo médio de realização de um determinado serviço de 4 lojas são iguais. Para isto, considerou-se uma amostra
aleatória de técnicos funcionários de cada uma delas e os resultados encontram-se no quadro abaixo (tempos em
minutos):
Tempos de execução do serviço.
Loja 1 Loja 2 Loja 3 Loja 4
16 26 22 20
24 26 24 21
19 41 19 20
27 28 26 22
12 25 15 22
13 31 − 12
25 − − 24
30 − − 18
− − − 21
Assuma que o tempo X de execução de serviço tenha uma distribuição normal para cada loja e que a variância
σ 2 do tempo seja desconhecida porém igual a todas as lojas. Faça a análise de variância para testar se o tempo
médio da realização do serviço das quatro lojas são iguais considerando 5% de significância.
Resposta do exerı́cio
Conclusão: Rejeita-se H0 , isto é, há pelo menos uma loja com o tempo médio da realização do serviço
diferente das demais, considerando 5% de significância.
Exercı́cio 2. Uma determinada empresa pretende importar um grande lote de instrumentos de precisão, para
os quais o fabricante garante um peso médio igual a µ = 100 gramas. Como o peso X é uma caracterı́stica
importante para a qualidade do produto, a empresa resolveu testar a veracidade da afirmação do fabricante. Para
isso, o departamento técnico da empresa extraiu uma amostra aleatória de n = 15 instrumentos, por meio da
15 15 2
Xi − X = 1674 gramas2 . Admitindo que
P P
qual se obtiveram os seguintes valores: Xi = 1407 gramas e
i=1 i=1
o peso X segue uma distribuição normal de probabilidades, teste ao nı́vel de significância de 1% a afirmação do
fabricante com relação aos pesos dos instrumentos. Ajuda: Trata-se de um teste de hipótese bilateral tal que
H0 : µ = 100 gramas contra H1 : µ 6= 100 gramas.
Exercı́cio 3. Suponha que um comerciante recebeu uma remessa de ovos com a garantia de serem da classe
A, isto é, ovos cujo peso X segue uma distribuição normal com média igual a µ = 55 gramas e desvio padrão igual
a σ = 8 gramas. Existe uma descofiança de que esses ovos tem um peso médio µ menor que 55 gramas. Como o
fornecedor só lhe concede 2 dias para reclamar, o comerciante resolveu pesar n = 10 ovos para testar se os mesmos
são da classe A, obtendo um peso médio amostral X = 57 gramas. Considerando um nı́vel de significância de
5%, esses ovos são mesmo da classe A? Ajuda: Trata-se de um teste de hipótese unilateral à esquerda tal que
H0 : µ = 55 gramas contra H1 : µ < 55 gramas.
Exercı́cio 4. Uma grande indústria de leite em caixinha afirma que o volume médio de leite por unidade é
de µ = 1 litro. Existe uma desconfiança de que esse volume médio µ seja menor que 1 litro. Em uma amostra
aleatória de n = 16 embalagens retiradas aleatoriamente da linha de produção desta indústria, obteve-se uma média
amostral X = 997 ml. Admitindo que o desvio padrão da população, considerada normal, é igual a σ = 5 ml, teste
ao nı́vel de 5% de significância a afirmação da indústria de que o volume médio das caixas de leite é µ = 1 litro.
Ajuda: Trata-se de um teste de hipótese unilateral à esquerda tal que H0 : µ = 1 litro contra H1 : µ < 1 litro.
Exercı́cio 5. Suponha que, numa determinada produção, o peso X de sacos de café é normalmente distribuı́do
com desvio padrão σ = 10 gramas. Admita, ainda, que a máquina de enchimento está regulada para sacos de
500 gramas. Nestas condições, para aferir o funcionamento da máquina analisou-se uma amostra de n = 9 sacos
aleatoriamente retirados da produção e o peso médio amostral foi X = 510 gramas. A um nı́vel de confiança de
95%, pode-se afirmar que a máquina não está corretamente regulada? Ajuda: Trata-se de um teste de hipótese
bilateral tal que H0 : µ = 500 gramas contra H1 : µ 6= 500 gramas.
Exercı́cio 6. Suponha que o rendimento X de um pé de tomateiro expresso em kg é uma variável aleatória
com distribuição normal com média 1 kg. Numa parte da produção foi utilizado um novo fertilizante. Observada
uma amostra de n = 10 pés de tomateiro da parte da produção em que foi utilizado o novo fertilizante obtiveram-se
os seguintes resultados:
1, 375 1, 223 1, 773 1, 752 0, 779 1, 407 1, 068 1, 633 1, 201 1, 042
O que se pode afirmar sobre o novo fertilizante? Verifique se o fertilizante aumentou o rendimento médio em quilos
do tomateiro a um nı́vel de 5% de significância. Ajuda: Trata-se de um teste de hipótese unilateral à direita tal
que H0 : µ = 1 kg contra H1 : µ > 1 kg.
Exercı́cio 8. Sabe-se que o peso médio populacional de mulheres entre 30 a 40 anos é de µ = 53 quilos.
Um estudo realizado em n = 16 mulheres de tal idade, que seguem uma dieta vegetariana, forneceu uma média
amostral X = 50 quilos e um desvio-padrão amostral S = 5 quilos. Considerando um nı́vel de significância de 5%,
a dieta é eficiente para a redução do peso? Ajuda: Trata-se de um teste de hipótese unilateral à esquerda tal que
H0 : µ = 53 kg contra H1 : µ < 53 kg.
Exercı́cio 9. O número X de acidentes mortais em uma cidade é normalmente distribuı́do com média, de
µ = 12 acidentes mensais. Após uma campanha de sinalização e de reparo das vias urbanas, contabilizaram-se, em
seis meses sucessivos: 8, 11, 9, 7, 10, 9 acidentes mortais. Considerando um nı́vel de significância de 1%foi efetiva a
campanha? e para um nı́vel de significância de 5%? Ajuda: Trata-se de um teste de hipótese unilateral à esquerda
tal que H0 : µ = 12 acidentes mortais contra H1 : µ < 12 acidentes mortais.
Exercı́cio 10. O fabricante de um determinado fertilizante afirma que a porcentagem de nitrogênio é normal-
mente distribuı́dos com média µ = 6% e desvio padrão σ = 0, 25%. Da produção diária deste fertilizante extraiu-se
uma amostra aleatória de n = 6 pequenas porções em que analisou-se a porcentagem de nitrogênio. Os resultados
foram os seguintes:
6, 2 5, 7 5, 8 5, 8 6, 1 5, 9
Considerando 5% de significância, teste a afirmação do fabricante de que a porcentagem média de nitrogênio deste
fertilizante seja µ = 6%. Ajuda: Trata-se de um teste de hipótese bilateral tal que H0 : µ = 6% de nitrogênio
contra H1 : µ 6= 6% de nitrogênio.
Exercı́cio 11. Uma grande indústria nacional de produtos de higiene e limpeza produz, dentre vários itens,
sabão em pó em caixas de 500 gramas. O setor de qualidade desta indústria está interessado em verificar se o peso
médio das caixas de sabão em pó é realmente 500 gramas. Para isso, extraiu-se uma amostra de n = 28 unidades
da linha de produção e pesadas cada uma delas. Os resultados encontram-se abaixo (peso em gramas):
488 503 472 497 516 495 517
493 524 513 541 517 516 482
485 475 485 499 540 486 498
481 521 496 501 502 539 474
Considerando 5% de significância, teste se o peso médio das caixas de sabão em pó é realmente 500 gramas. Ajuda:
Trata-se de um teste bilateral tal que H0 : µ = 500 gramas contra H1 : µ 6= 500 gramas.
Exercı́cio 12. A gerência de uma grande empresa afirma que o tempo X de montagem de um determinado
eletrodoméstico na linha de produção deve ser, em média, 60 minutos. Há uma desconfiança do setor de qualidade
que este tempo tem sido maior. Para verificar isso selecionou-se uma amostra aleatória de n = 16 unidades da
linha de produção a tabulou-se o tempo de montagem de cada eletrodoméstico. Os resultados encontram-se abaixo
(tempo em minutos).
68 41 65 75 72 71 48 76
66 39 65 81 49 79 79 54
Considerando 5% de significância, teste se o tempo de montagem é maior do que 60 minutos. Ajuda: Trata-se de
um teste unilateral à direita tal que H0 : µ = 60 minutos contra H1 : µ > 60 minutos.
Exercı́cio 13. Um fabricante de pneus afirma que o tempo médio de vida útil dos seus pneus é de 20.000 km.
Há uma desconfiança de que este tempo seja menor. Para verificar a afirmação do fabricante foi escolhido ao acaso
uma amostra de n = 18 pneus e verificado o tempo de vida de cada um deles. Os resultados encontram-se abaixo
(tempo de vida útil em km):
24800 22400 16100 11800 12700 17300
15900 18400 14400 14600 12000 14500
28000 26700 17900 8300 16200 21200
Considerando 5% de significância, teste a afirmação do fabricante de que o tempo de vida útil dos pneus é de
20.000 km. Ajuda: Trata-se de um teste de hipótese unilateral à esquerda.
Exercı́cio 14. Uma indústria metalúrgica exporta chapas de aço que devem seguir várias recomendações
técnicas, dentre elas que a sua largura deve ser 100 cm. Para verificar se a largura atende a especificação técnica,
extraiu-se uma amostra aleatória de n = 14 chapas de aço e foi medida a largura. Os resultados encontram-se
abaixo (largura em cm):
114 101 102 107 106 113 104 105 93 102 104 103 103 106
Considerando 5% de significância, teste se as chapas de aço produzidas por esta metalúrgica tem uma largura
média de 100 cm. Ajuda: Trata-se de um teste bilateral tal que H0 : µ = 100 cm contra H1 : µ 6= 100 cm.
Exercı́cio 1. Suponha que a direção comercial de uma determinada empresa pretende lançar um novo serviço
de telecomunicações. De acordo com critérios empresariais, o serviço só deverá ser lançado no mercado se houver
mais de 80% de aprovação, isto é, mais de 80% potenciais compradores. Assim, para averiguar a viabilidade
econômica do eventual lançamento do serviço, a empresa decidiu efetuar uma pesquisa de mercado por meio de
uma amostra aleatória de n = 400 grandes clientes, dentre os quais 340 foram favoráveis à aquisição do novo serviço.
Considerando um nı́vel significância de 5%, podemos concluir que a empresa deve optar pelo lançamento do novo
serviço? E considerando um nı́vel de significância de 1%? Ajuda: Trata-se de um teste de hipótese unilateral a
direita.
Exercı́cio 2. Já se sabe que 20% dos indivı́duos tratados cronicamente com digoxina sofrem de uma reação ad-
versa por sua causa. Durante um longo tempo, foi administrado a 40 pacientes digoxina com outros medicamentos,
e 20 desenvolveram a reação adversa. Pode-se afirmar que a associação entre a digoxina e os outros medicamentos
fizeram variar o número de reações adversas? Utilize um nı́vel de significância de 1% e 5%.
Exercı́cio 3. Sabe-se que 70% dos pacientes internados no hospital traumatológico requerem algum tipo de
intervenção cirúrgica. Para determinar se um novo método de fisioterapia reduz a porcentagem de intervenções
cirúrgicas, aplica-se esse método a 30 pacientes dos quais 17 requerem alguma intervenção cirúrgica. Comprove se
existem razões suficientes para afirmar a eficácia do método com um nı́vel de confiança de 95%.
Exercı́cio 4. O dono de uma ervanária produz um chá ao qual afirma que é 90% eficaz para curar dores de
cabeça. Num inquérito feito a 250 pessoas, 198 concordaram que o chá cura as dores de cabeça. Use α = 0, 05 e
responda:
a. Acha que o resultado do inquérito é compatı́vel com a pretensão do produtor?
b. A eficácia do chá para curar dores de cabeça é menor que 90%?
Exercı́cio 5. Uma empresa agrı́cola tem uma estação agronômica experimental onde produz novas variedades
de ervilhas. Uma amostra sobre as caracterı́sticas das ervilhas resultou em 310 ervilhas amarelas de casca macia,
109 ervilhas amarelas de casca dura, 100 ervilhas verdes de casca macia e 37 ervilhas verdes de casca dura. Para
uma experiência semelhante as leis de Mendel prevem que o resultado seja 56, 25% de ervilhas amarelas de casca
macia, 18, 75% de ervilhas amarelas de casca dura, 18, 75% de ervilhas verdes de casca macia e 6, 25% de ervilhas
verdes de casca dura. Serão os resultados da estação agronômica compatı́veis com as leis de Mendel para um nı́vel
de significância de 1%?
Exercı́cio 7. Dois dados (com cores diferentes) foram lançados 150 vezes tendo-se obtido por 20 vezes, uma
soma de pontos igual a 4. Acha que os dados são perfeitos (não-viciados)? Use um nı́vel de significância 5%.
Exercı́cio 8. Um laboratório lançou no mercado um novo medicamento para o tratamento de uma alergia,
afirmando a sua eficácia, num perı́odo de 8 horas, em pelo menos 90% dos casos. A sua aplicação a uma amostra
de 200 indivı́duos sofrendo de tal alergia, revelou-se eficaz em 160 casos. Use um nı́vel de significância 5% e 1%.
Exercı́cio 9. Um inquérito entre 300 eleitores do distrito A e 200 eleitores do distrito B, indicou que 56% e
48%, respectivamente, eram a favor de determinado candidato. Teste ao nı́vel de significância de 5% se a diferença
entre os distritos é significativa.
Exercı́cio 10. Suponha que determinado canal de televisão deseja saber qual foi a porcentagem de pessoas que
viram um determinado programa. Para isso, a diretoria realizou um estudo por meio de uma amostra aleatória em
que foram entrevistadas n = 220 pessoas, dentre as quais 132 disseram ter visto o referido programa.
a. Determine um intervalo de confiança de nı́vel 95% para porcentagem de pessoas em toda a população que
viu esse programa.
b. Qual deveria ser o número de pessoas entrevistadas para se obter um intervalo de confiança de nı́vel 95%
com metade da amplitude do anterior? (Admita que a proporção das pessoas que viram o programa se mantém.)
c. Considerando 5% de significância, pode-se afirmar que mais de metade das pessoas viram o programa?
Exercı́cio 1.) Determinada marca de óleo para carros afirma que o seu óleo é conhecido por durar, em média,
5.000km com uma variância igual a 250.000km2 . Admitindo que o tempo de duração segue uma distribuição normal,
teste a afirmação quanto à variância, a um nı́vel de significância 5%, com base nos seguintes valores do número de
quilômetros que 6 automóveis fizeram antes do óleo se queimar: 5020 6000 4500 5700 5500 4900
Exercı́cio 2.) Com certo método de ensino para crianças com necessidades especiais, obtém-se um desvio-
padrão de oito nas pontuações dos testes finais. Colocamos à prova um novo método, e se ensaia com 51 crianças.
As qualificações obtidas nos testes finais dão um desvio-padrão de dez. Pode-se assegurar que o novo método
produz diferentes variações nas pontuações? Considere α = 0, 05 e α = 0, 01.
Exercı́cio 3.) Uma máquina de ensacar açúcar está regulada para encher sacos com 16 quilos. Para controlar
o funcionamento escolheram-se ao acaso 15 sacos da produção de determinado perı́odo, tendo-se obtido os pesos
seguintes:
16, 1 15, 8 15, 9 16, 1 15, 8
16, 2 16, 0 15, 9 16, 0 15, 7
15, 8 15, 7 16, 0 16, 0 15, 8
Admitindo que o peso de cada saco possui distribuição Normal
a.) Que conclusão pode tirar sobre a regulagem da máquina? Use um nı́vel de significância de 5%.
b.) Que evidência fornece a concretização de s2 sobre a hipótese H0 : σ 2 = 0, 01? Use um nı́vel de significância
de 5% e 1%.
Exercı́cio 4.) Uma unidade industrial recebe carvão proveniente de duas minas e indicam-se abaixo os
resultados de análises efectuadas para determinar a percentagem de cinzas:
Mina A 5, 6 13, 2 12, 5 4, 6 13, 7 5, 5 13, 5
Mina B 8, 3 7, 6 4, 7 10, 2 9, 1 7, 5
Admitindo a normalidade das duas populações, pretende-se comparar os carvões fornecidos pelas duas minas
quanto à homogeneidade da variabilidade da percentagem de cinzas. Que evidência fornecem os dados sobre esta
hipótese?
Questão 1. Sejam duas amostras, A e B, extraı́das de duas populações normais independentes, em que X
denota o volume mensal de vendas da fábrica A e Y denota o volume mensal de vendas da fábrica B, tais que:
15
P 15
P 2
Amostra A Xi = 763 e Xi − X = 1253, 73
i=1 i=1
P8 P8 2
Amostra B Yi = 454 e Yi − Y = 283, 50
i=1 i=1
médio de adaptação das mulheres. Para confirmar isso se coletaram duas amostras aleatórias, uma com 21 homens
e outra com 21 mulheres, que foram acompanhados durante o perı́odo de adaptação, resultando nas seguintes
estatı́sticas para o tempo de adaptação (supostas provenientes de uma distribuição normal):
Média amostral Desvio-padrão amostral
Homens 3, 2 0, 8
Mulheres 3, 7 0, 9
Considerando 1% de significância, faça o teste de hipótese adequado para verificar se o tempo médio de adaptação
dos homens é menor do que o tempo médio de adaptação das mulheres. Ajuda: Trata-se de um teste de hipótese
unilateral à esquerda.
Exercı́cio 4. Deseja-se estudar o efeito da motivação sobre as vendas em uma rede varejista. De 24 novos
vendedores que estão sendo treinados 12 serão pagos por hora e 12 por comissão. Os indivı́duos são designados
aleatoriamente para os dois grupos. Abaixo estão os volumes de vendas (em milhares de dólares) para o primeiro
mês de emprego.
Por hora: Por comissão:
256 228 236 224 237 234
239 241 219 254 277 225
222 212 225 273 261 232
207 216 230 285 228 245
Considerando 1% de significância, há evidências de que incentivos por meio de comissões gerem uma venda média
maior? Ajuda: Trata-se de um teste de hipótese unilateral à direita.
Exercı́cio 5. As pilhas Duramais e Duramuito custam o mesmo preço. Para testar se ambas têm a mesma
duração média, recolheram-se duas amostras de 100 pilhas de cada marca, tendo-se obtido os seguintes resultados:
Marca Tamanho da amostra Média Desvio-padrão
Duramais 100 1180 120
Duramuito 100 1160 40
Considerando 5% de significância, faça o teste de hipótese adequado para verificar se as marcas das pilhas têm a
mesma duração média. Refaça o teste considerando 1% de significância. Ajuda: Trata-se de um teste de hipótese
bilateral.
Exercı́cio 6. Muitos autores afirmam que os pacientes com depressão têm uma função cortical abaixo do normal,
devido a um risco sanguı́neo cerebral abaixo do normal. Em duas amostras de indivı́duos, uns com depressão e
outros sem, mediu-se um ı́ndice que indica o fluxo sanguı́neo na matéria cinza (dado em mg/(100g/min)), obtendo-
se:
Tamanho da amostra Média amostral Desvio-padrão amostral
Depressivos 19 47, 0 7, 8
Normais 22 53, 8 6, 1
Considerando 5% de significância, faça o teste de hipótese adequado para verificar se os pacientes com depressão
têm uma função cortical abaixo do normal. Ajuda: Trata-se de um teste de hipótese unilateral à esquerda.
Exercı́cio 7. Desejou-se provar que a cirrose de fı́gado fazia variar o ı́ndice de atividade da colinesterase no
soro. Escolheram-se duas amostras aleatórias e independentes de indivı́duos. Os resultados foram:
Tamanho da amostra Média amostral Desvio-padrão amostral
Indivı́duos normais 20 1, 8 0, 4
Indivı́duos cirróticos 25 0, 66 0, 2
Considerando 5% de significância, faça o teste de hipótese adequado para verificar se a cirrose de fı́gado faz variar
o ı́ndice de atividade da colinesterase no soro. Ajuda: Trata-se de um teste de hipótese bilateral.
Exercı́cio 8. Para decidir se deveria ou não lançar um novo produto no mercado, uma empresa de bens
alimentares fez um inquérito em 10 supermercados do Sul e 20 do Norte do paı́s, acerca do número de unidades X
do referido produto que estes esperam poder vender semanalmente. Obtiveram-se os seguintes resultados:
10 10
Xi2 = 102550
P P
Sul Xi = 1000
i=1 i=1
20 20
Yi2 = 75950
P P
Norte Yi = 1200
i=1 i=1
Considerando 5% de significância, faça o teste de hipótese adequado para verificar se a venda média da região sul
é igual a venda média da região norte. Ajuda: Trata-se de um teste de hipótese bilateral.
Questão 1. Um laboratório de pesquisa está testando uma nova ração para filhotes de cães a base de uma
combinação de vários aminoácidos. Porém, há uma suspeita de que a ração engorde os cães. Para testar essa
suposição foram usados 10 ratos de laboratório (cobaias) e foi-lhes dados a ração por 30 dias. A tabela abaixo
apresenta o peso antes e depois da dieta (peso em gramas). Considerando um nı́vel de significância de 5% verifique
se a ração realmente engorda os animais. Ajuda: Trata-se de um teste de hipótese unilateral à esquerda.
Peso antes da dieta 92 122 121 105 109 105 128 111 97 119
Peso depois da dieta 144 102 135 115 158 132 112 121 133 141
Exercı́cio 2. Um grupo de 10 motoristas de táxi de uma companhia foi monitorado durante sua jornada de
trabalho e anotado seu o consumo de gasolina em quilômetros por litro(supõe-se que eles sigam uma distribuição
normal). Foram então submetidos a um curso onde receberam instrução sobre economia na direção e foram
novamente monitorados. Os resultados obtidos são suficientes para afirmar que o curso influenciou positivamente
na economia de combustı́vel?
Motorista 1 2 3 4 5 6 7 8 9 10
Antes 7, 6 7, 9 6, 5 7, 5 8, 9 7, 5 8, 2 7, 8 6, 7 8, 0
Depois 7, 6 8, 2 7, 2 7, 2 8, 5 7, 3 7, 8 7, 9 6, 4 7, 3
Faça um teste de hipóteses adequado para podermos verificar se o curso contribuiu para a economia de combustı́vel,
considerando 10% de significância. Ajuda: Trata-se de um teste de hipótese unilateral à direita.
Exercı́cio 3. Cinco operadores de um certo tipo de máquina são treinados em máquinas de duas marcas
diferentes, A e B. Mediu-se o tempo em segundos que cada um deles gastou na realização da mesma tarefa, e os
resultados estão abaixo:
Operador 1 2 3 4 5
Máquina A 80 72 65 78 85
Máquina B 75 70 60 72 78
Considerando 5% de significância, a máquina B é mais rápida que a máquina A? Ajuda: Trata-se de um teste
de hipótese unilateral à direita.
Exercı́cio 4. Em um programa de Controle de Enfermidades Crônicas (CEC), a hipertensão está incluı́da
como a primeira patologia a ser controlada; 15 pacientes hipertensos são submetidos ao programa e controlados
em sua pressão sistólica, antes e depois de seis meses de tratamento. Os dados são os seguintes:
Inı́cio 180 200 160 170 180 190 190 180 190 160 170 190 200 210 220
Fim 140 170 160 140 130 150 140 150 190 170 120 160 170 160 150
Considerando 5% de significância, o tratamento foi efetivo? Em outras palavras, o tratamento contribuiu para
diminuir a pressão sistólica dos indivı́duos hipertensos? Ajuda: Trata-se de um teste de hipótese unilateral à
direita.
Exercı́cio 5. É desencadeado um programa de controle da poluição de um rio em que são efetuadas medições,
antes de lançar a campanha antipoluição e um ano após. As medições são combinações de vários ı́ndices; quanto
maior for o valor resultante maior é a poluição. Obtiveram-se os seguintes resultados:
Ponto de controle 1 2 3 4 4 6 7 8 9 10
Antes da campanha 68 88 101 82 96 74 65 74 52 99
Um ano após a campanha 67 87 90 76 98 69 68 65 59 70
Considerando 5% de significância, faça o teste de hipótese adequado para verificar se a campanha antipoluição
reduziu de fato a poluição. Ajuda: Trata-se de um teste de hipótese unilateral à direita.
Exercı́cio 6. Em 11 ratos tratados cronicamente com álcool, foi medida a pressão sanguı́nea sistólica antes e
depois de 30 minutos de administrar a todos eles uma quantidade fixa de etanol, obtendo-se os seguintes resultados:
Ratos 1 2 3 4 5 6 7 8 9 10 11
Pressão sanguı́nea antes 126 120 124 122 130 129 114 116 119 112 118
Pressão sanguı́nea depois 119 116 117 122 127 122 110 120 112 110 111
Considerando um nı́vel significância de 5%, existe uma queda significativa da pressão sanguı́nea sistólica após
a ingestão de etanol? Ajuda: Trata-se de um teste de hipótese unilateral à direita.
Parte VI
Regressão Linear
42 Correlação
42.1 Introdução
Os estudos de Correlação bem como a teoria de Regressão tiveram origem no século XIX com Galton. Em
um de seus trabalhos ele estudou a relação entre a altura dos pais X e a altura Y dos filhos, procurando saber
como a altura do pai influenciava a altura do filho. Notou que se o pai fosse muito alto ou muito baixo, o filho
teria uma altura tendendo a média. Por isso, ele chamou de regressão, ou seja, existe uma tendência de os dados
regredirem a média. Em pesquisas é muito comum termos o interesse em verificar e estudar a relação entre duas
ou mais variáveis. Alguns exemplos são:
A Análise de Correlação fornece um valor numérico, indicando de que forma duas variáveis variam conjunta-
mente, medindo a intensidade e a direção da relação linear ou não-linear entre duas variáveis9 . É uma medida que
atende à necessidade de se estabelecer a existência ou não de uma relação entre essas variáveis sem que, para isso,
seja preciso o ajuste de uma função matemática.
Além disso, não existe a distinção entre a variável explicativa e a variável resposta, ou seja, o grau de variação
conjunta entre X e Y é igual ao grau de variação entre Y e X. Daı́ o uso do nome correlação.
A Correlação é uma ferramenta importante para as diferentes áreas do conhecimento, não somente como
resultado final, mas como uma das etapas para a utilização de outras técnicas de análise. É fundamental a
importância de conhecer teoricamente e em conjunto os diferentes métodos e as suposições básicas requeridas por
parte de cada um deles, para que não se utilize medida de correlação inadequada.
É muito comum a adoção do Coeficiente de Correlação Linear de Pearson, por ser o mais conhecido, mas
em muitas situações isto se dá sem que se tenha a clareza de que este coeficiente mede a relação linear entre duas
variáveis. Já alguns métodos de uso mais restrito, tais como o Coeficiente de Correlação Bisserial, Ponto Bisserial
e o Tetracórico, são pouco abordados nas literaturas clássicas de Estatı́stica.
A teoria da análise de correlação teve inı́cio na segunda metade do século XIX. Francis Galton (1822-1911)
foi quem usou pela primeira vez os termos correlação e regressão. Publicou em 1869 o livro Hereditary Genius,
sobre a teoria da regressão (SCHULTZ e SCHULTZ, 1992).
Galton adotou o termo regressão quando observou que filhos de homens altos não são, em média, tão altos
quanto os pais, mas os filhos de homens baixos são, em média, mais altos do que os pais. Deve-se a Galton a forma
gráfica de representar as propriedades básicas do coeficiente de correlação. O termo “co-relação” foi proposto por
Galton, pela primeira vez, em 1888 (SCHULTZ e SCHULTZ, 1992).
A correlação foi observada analisando-se medidas antropométricas e definida da seguinte forma10 : “Two
organs are said to be co-related or correlated, when variations in the one are generally accompanied by variations in
the other, in the same direction, while the closeness of the relation differs in different pairs of organs”. (GALTON,
1889, p. 238)11 .
Seu aluno, Karl Pearson, desenvolveu a fórmula matemática que usamos até hoje e que tem seu nome em
homenagem. O sı́mbolo do coeficiente de correlação amostral r vem da primeira letra da palavra regressão, em
reconhecimento a Galton (SCHULTZ e SCHULTZ, 1992).
9 Variável é uma caracterı́stica da população, comum a todos os indivı́duos mas que variam de indivı́duo para indivı́duo. São
Ao se construir um gráfico cartesiano com os pares de informação referente a cada observação obtemos uma
nuvem de pontos definidos pelas coordenadas X e Y de cada ponto. Essa nuvem, por sua vez, definirá um eixo
ou direção que caracterizará o padrão de relacionamento entre X e Y . A regressão será linear se observada uma
tendência ou eixo linear na nuvem de pontos cartesianos.
A relação entre as variáveis será direta ou positiva quando os valores de Y aumentam quando o valores de
X aumentam, isto é, o crescimento de Y está relacionado ao crescimento de X. Por outro lado, será inversa ou
negativa quando os valores de Y diminuem quando os valores de X aumentam, isto é, o decrescimento de Y está
relacionado com o crescimento de X.
É importante ressaltar que correlação não significa causalidade. Um dos equı́vocos de interpretação mais
comuns é assumir que correlações significativas implicam em uma relação de causa e efeito entre duas variáveis.
Esta interpretação ou perspectiva dos dados é incorreta. Além disso, é necessário termos cautela ao assumir que
há correlação somente porque duas variáveis possuem o mesmo padrão de variabilidade, já que a correlação pode
ser devida a uma terceira variável influenciando as duas primeiras.
Há diversos tipos de correlações entre duas variáveis. As três figuras a seguir apresentam três diagramas de
dispersão, representando uma correlação positiva, negativa e nula nesta ordem.
As três figuras a seguir apresentam três diagramas de dispersão representando uma correlação perfeitamente
positiva, perfeitamente negativa e perfeitamente nula nesta ordem.
Em geral, a relação não é perfeita. Na prática os pontos não se situam perfeitamente sobre a função que
relaciona as duas variáveis. Mesmo quando eventualmente existe uma relaçãao exata entre as variáveis como por
exemplo temperatura e pressão, variações em torno da curva aparecerão devido a erros de medidas.
Correlação não linear: As figuras a seguir apresentam seis diagramas de dispersão representando alguns
exemplos de correlações não lineares entre as variáveis Xe Y .
Frequentemente, o tipo de curva a ser ajustada é sugerido por evidência empı́rica ou por argumentos teóricos.
O modelo a ser adotado depende de vários fatores, por exemplo, natureza das variáveis, relação linear ou não,
homogeneidade de variâncias ou não, tipos de erros, independência dos erros etc.
Consideremos n pares de observações (X1 , Y1 ), (X2 , Y2 ), ..., (Xn , Yn ). O coeficiente de correlação linear de
Pearson é um coeficiente definido no intervalo [−1, 1] que mede o grau de correlação entre as variáveis X e Y , sendo
expresso por:
n
P n
P n
P
n Xi Yi − Xi Yi
i=1 i=1 i=1
rXY = s 2 s 2 . (72)
n n n n
Xi2 Yi2
P P P P
n − Xi n − Yi
i=1 i=1 i=1 i=1
Para facilitar sua obtenção, o coeficiente de correlação de Pearson pode ser desmembrado da seguinte forma:
n
X n
X n
X
SXY = n Xi Yi − Xi Yi
i=1 i=1 i=1
n n
!2
X X
SXX = n Xi2 − Xi
i=1 i=1
n n
!2
X X
SY Y = n Yi2 − Yi
i=1 i=1
Logo, temos que o coeficiente de correlação linear de Pearson rXY expresso em (72) pode ser reescrito como:
SXY
rXY = √ √ , −1 ≤ rXY ≤ 1.
SXX SY Y
O coeficiente de correlação linear de Pearson sempre assume valores numéricos compreendidos no intervalo
[−1 , 1]. Quanto mais próximos do valor numérico 1 ou −1, mais fortemente correlacionados positiva ou negativa-
mente serão. Por outro lado, quanto mais próximo do valor numérico 0, menos correlacionados serão.
É trivial verificar que o numerador em (72) é o núcleo da covariância12 amostral entre X e Y , assim como
o denominador é a raiz do produto das variâncias13 amostrais de X e de Y , isto é, o denominador é o produto
dos desvios-padrão. Isto se dá porque o coeficiente de correlação linear de Pearson (rXY ) nada mais é que um
estimador do coeficiente de correlação populacional ρ (Letra grega minúscula ρ. Lê-se “rô”).
Cov (X, Y )
ρXY = p p .
V ar (X) V ar (Y )
A interpretação do coeficiente de correlação de Pearson de acordo com sua escala de classificação varia de
autor para autor, a depender da natureza das variáveis de estudo e da área de conhecimento de tais variáveis.
Em geral adota-se uma escala em que as correlações observadas são classificadas em forte, fraca ou nula, conforme
abaixo:
Se 0, 95 < rXY < 1 : As observações de Y estão fortemente e positivamente correlacionadas com as observações
de X.
Se −0, 50 < rXY < −0, 10 : As observações de Y estão fracamente e negativamente correlacionadas com as
observações de X.
Se −0, 95 < rXY < −0, 50 : As observações de Y estão negativamente correlacionadas com as observações de
X.
Se −1 < rXY < −0, 95 : As observações de Y estão fortemente e negativamente correlacionadas com as
observações de X.
É importante ressaltar que diversos autores estabelecem diferentes escalas de classificação para o coeficiente
de correlação linear de Pearson para duas variáveis. A proposição de qualquer escala pelos autores é apenas uma
proposta de direcionamento (escala padrão ou escala “Standard”) e que os pesquisadores da área têm autonomia
para determinar o que é ou não fortemente correlacionado (VIEIRA e HOFFMANN, 1998).
12 A covariância entre X e Y é definida como a diferença entre a esperança do produto e o produto das esperanças, isto é, Cov (X, Y ) =
E (XY ) − E (X) E (Y )
13 A variância de uma variável X é definida como a diferença entre a esperança do segundo momento e o quadrado da esperança do
Predição: Uma vez que se espera que a maior parte da variação de Y seja explicada pelas variável X, então,
pode-se utilizar o modelo para obter valores de Y correspondentes a valores de X que não estavam entre os dados.
Esse processo denomina-se predição e, em geral, são usados valores de X que estão dentro do intervalo de variação
estudado. A utilização de valores fora desse intervalo recebe o nome de extrapolação e, deve ser usada com muito
cuidado, pois o modelo adotado pode não ser correto fora do intervalo estudado. Este, talvez, seja o uso mais
comum dos modelos de regressão.
Seleção de variáveis: Frequentemente, não se tem idéia de quais são as variáveis que afetam significativa-
mente a variação de Y . Para responder a esse tipo de questão, conduzem-se estudos onde está presente um grande
número de variáveis. A análise de regressão pode auxiliar no processo de seleção de variáveis, eliminando aquelas
cuja contribuição não seja importante.
Estimação de parâmetros: Dado um modelo e um conjunto de dados (amostra) referente as variáveis
resposta e preditoras, estimar parâmetros, ou ainda, ajustar o modelo aos dados, significa obter valores (estimativas)
para os parâmetros, por algum processo, tendo por base o modelo e os dados observados. Em alguns casos, o valor
do coeficiente tem valor por si só. Como exemplo, pode-se citar o estudo de estabilidade de variedades. Em outros
casos, o interesse está em uma função dos parâmetros.
Inferência: O ajuste de um modelo de regressão tem, em geral, por objetivos básicos, além de estimar os
parâmetros, realizar inferências sobre eles, tais como testes de hipóteses e intervalos de confiança.
Yi = β0 + β1 Xi + i , i = 1, 2, ..., n,
em que
β1 : é o coeficiente angular da reta. Denota o aumento quando β1 > 0 ou redução quando β1 < 0 na média
de Y a cada 1 unidade de X.
i : é o erro aleatório associado ao modelo, que segue o modelo normal de probabilidades tal que i ∼ N 0, σ 2 ,
com i = 1, 2, ..., n.
A variância do erro aleatório é uma constante σ 2 , isto é, V ar (i ) = σ 2 , i = 1, 2, ..., n. Isto implica em
V ar (Yi ) = σ 2 , i = 1, 2, ..., n.
O erro de uma observação é independente do erro de outra observação, isto é, Cov (i , j ) = 0.
Os estimadores βb1 e βb0 para os coeficientes de regressão β1 e β0 são dados respectivamente por15 :
SXY
βb1 = e βb0 = Y − βb1 X,
SXX
em que
n n
SXY = n
P P
Xi Yi − Xi Yi .
i=1 i=1
n
n
2
SXX = n Xi2 −
P P
Xi .
i=1 i=1
n
Y = 1
P
n Yi .
i=1
n
X= 1
P
n Xi .
i=1
Yb = βb0 + βb1 X.
14 A suposição de normalidade é necessária para a elaboração dos testes de hipóteses e para a construção de intervalos de confiança
15 Um estimador é uma função definida a partir dos dados observados com o objetivo de estimar parâmetros populacionais desconhe-
cidos. No caso dos modelos de regressão, os parâmetros são também chamados de coeficientes de regressão.
Os dados apresentados no quadro abaixo referem-se a sete indivı́duos independentes de pé de feijão em que
a variável resposta Y denota a altura do pé de feijão (em centı́metros), e a variável explicativa X representa a sua
idade (em semanas):
a. Construir o gráfico de dispersão X versus Y , isto é, idade em semanas do pé de feijão versus sua altura
em centı́metros.
b. Determinar o coeficiente de correlação de Pearson.
c. Ajustar o modelo linear aos dados.
Solução do item b. Para determinarmos o coeficiente de correlação linear de Pearson e ajustar o modelo
linear Yb = βb0 + βb1 X, é necessário determinar as seguintes estatı́sticas amostrais a partir das variáveis X e Y :
n
O produto XY de cada par (X, Y ) e a soma do produto dada por
P
Xi Yi .
i=1
n
O quadrado de cada observação X (dado por X 2 ) e a soma dos quadrados dada por Xi2 .
P
i=1
n
O quadrado de cada observação Y (dado por Y 2 ) e a soma dos quadrados dada por Yi2 .
P
i=1
Dessa maneira, segue abaixo a Tabela necessária para os cálculos das estatı́sticas amostrais.
X Y XY X2 Y2
1 5 5 1 25
2 12 24 4 144
3 16 48 9 256
4 22 88 16 484
5 34 170 25 1156
6 38 228 36 1444
7 41 287 49 1681
8 45 360 64 2025
9 50 450 81 2500
45 263 1660 285 9715
Calculando a estatı́stica SXY , isto é, a estatı́stica amostral que envolve as variáveis X e Y :
n
X n
X n
X
SXY = n Xi Yi − Xi Yi
i=1 i=1 i=1
= 9 × 1660 − 45 × 263
SXY = 3105
Calculando a estatı́stica SXX, isto é, a estatı́stica amostral que envolve somente a variável X:
n n
!2
X X
SXX = n Xi2 − Xi
i=1 i=1
2
= 9 × 285 − 45
SXX = 540
Calculando a estatı́stica SY Y , isto é, a estatı́stica amostral que envolve apenas a variável Y :
n n
!2
X X
SY Y = n Yi2 − Yi
i=1 i=1
2
= 9 × 9715 − 263
SY Y = 18266
SXY
rXY = √ √
SXX SY Y
3105
= √ √
540 18266
rXY = 0, 9887.
Solução do item c. Para ajustarmos o modelo linear, precisamos encontrar os valores numéricos de βb1 e
βb0 .
SXY 3105
βb1 = =
SXX 540
⇒ βb1 = 5, 75.
βb0 = Y − βb1 X
263 45
= − 5, 75
9 9
⇒ βb0 = 0, 4722.
Yb = 0, 4722 + 5, 75X.
A figura abaixo apresenta o ajuste do modelo. A linha vermelha é a reta ajustada Yb = 0, 4722 + 5, 75X.
43.3 Resı́duos
Em regressão linear definimos o i-ésimo resı́duo ei , i = 1, 2, ..., n, como sendo a diferença entre a i-ésima
observação da variável resposta, Yi , e a i-ésima observação predita Ybi pelo modelo, isto é,
ei = Yi − Ybi , i = 1, 2, ..., n.
n
X
ei = 0. (73)
i=1
Demonstração de (73).
n
X n
X
ei = Yi − Ybi .
i=1 i=1
n
X n h
X i
ei = Yi − βb0 + βb1 Xi
i=1 i=1
n h
X i
= Yi − βb0 − βb1 Xi
i=1
n
X n h
X i
ei = Yi − Y − βb1 X − βb1 Xi
i=1 i=1
n
X
= Yi − Y + βb1 X − βb1 Xi
i=1
n
X n
X n
X n
X
= Yi − Y + βb1 X − βb1 Xi
i=1 i=1 i=1 i=1
Xn n
X
= Yi − nY + βb1 nX − βb1 Xi
i=1 i=1
n n
nX nX
= Yi − nY + βb1 nX − βb1 Xi
n i=1 n i=1
= nY − nY + βb1 nX − βb1 nX
n
X
ei = 0.
i=1
X Y Yb e = Y − Yb
1 5 6, 2222 −1, 2222
2 12 11, 9722 0, 0278
3 16 17, 7222 −1, 7222
4 22 23, 4722 −1, 4722
5 34 29, 2222 4, 7778
6 38 34, 9722 3, 0278
7 41 40, 7222 0, 2778
8 45 46, 4722 −1, 4722
9 50 52, 2222 −2, 2222
45 263 263 0
Yi = β0 + β1 Xi + i , i = 1, 2, ..., n,
então temos que
Y1 = β0 + β1 X1 + 1
Y2 = β0 + β1 X2 + 2
Y3 = β0 + β1 X3 + 3
..
.
Yn = β0 + β1 Xn + n .
Y1 1 X1 1
Y2 1 X2 2
Y3 1 X3 β0 3
= +
.. .. .. β1 ..
. . . .
Yn 1 Xn n
Y = Xβ +
Em que:
O método dos mı́nimos quadrados tem como objetivo minimizar a soma dos quadrados dos erros aleatórios,
isto é, devemos encontrar β0 e β1 que minimizem
n
X
2i (74)
i=1
Sabemos que o modelo linear é tal que Yi = β0 + β1 Xi + i , com i = 1, 2, . . . , n. Dessa maneira o erro aleatório
é tal que:
i = Yi − (β0 + β1 Xi ) , i = 1, 2, . . . , n. (75)
n
X n
X 2
2i = [Yi − (β0 + β1 Xi )]
i=1 i=1
n
X 2
= (Yi − β0 − β1 Xi )
i=1
n
X
= (Yi − β0 − β1 Xi ) (Yi − β0 − β1 Xi )
i=1
Xn
Yi2 − β0 Yi − β1 Xi Yi − β0 Yi + β02 + β0 β1 Xi − β1 Xi Yi + β0 β1 Xi + β12 Xi2
=
i=1
n
X
Yi2 − 2β0 Yi − 2β1 Xi Yi + 2β0 β1 Xi + β02 + β12 Xi2
=
i=1
n
X n
X n
X n
X n
X n
X
2i = Yi2 − 2β0 Yi − 2β1 Xi Yi + 2β0 β1 Xi + nβ02 + β12 Xi2 .
i=1 i=1 i=1 i=1 i=1 i=1
n
∂
e2i = 0, temos
P
Derivando a soma do quadrado dos resı́duos em relação a β0 , isto é, fazendo ∂β0
i=1
n
X n
X
−2 Yi + 2β1 Xi + 2nβ0 = 0
i=1 i=1
n
X n
X
− Yi + β1 Xi + nβ0 = 0,
i=1 i=1
e
n
X n
X
⇒ nβ0 = Yi − β1 Xi
i=1 i=1
n
P Pn
Yi − β1 Xi
i=1 i=1
⇒ β0 =
n
n
P n
P
Yi Xi
i=1 i=1
⇒ β0 = − β1
n n
β0 = Y − βb1 X. (76)
n
∂
e2i = 0, temos
P
Derivando a soma do quadrado dos resı́duos em relação a β1 , isto é, fazendo ∂β1
i=1
n
X n
X n
X
−2 Xi Yi + 2β0 Xi + 2β1 Xi2 = 0
i=1 i=1 i=1
n
X n
X n
X
− Xi Yi + β0 Xi + β1 Xi2 = 0
i=1 i=1 i=1
e
n
P n
P
Xi Yi − β0 Xi
i=1 i=1
β1 = n (77)
Xi2
P
i=1
n
P n
P
Xi Yi − Y − β1 X Xi
i=1 i=1
⇒ β1 = n
Xi2
P
i=1
n
P n
P n
P
Xi Yi − Y Xi + β1 X Xi
i=1 i=1 i=1
⇒ β1 = n
Xi2
P
i=1
n
X n
X n
X Xn
⇒ β1 Xi2 − β1 X Xi = Xi Yi − Y Xi
i=1 i=1 i=1 i=1
n n
! n n
X X X X
⇒ β1 Xi2 −X Xi = Xi Yi − Y Xi
i=1 i=1 i=1 i=1
n
P n
P
Xi Yi − Y Xi
β1 = i=1
n
i=1
n
Xi2 − X
P P
Xi
i=1 i=1
n
P n
P n
P
n Xi Yi − Xi Yi
i=1 i=1 i=1 SXY
β1 = 2 =
SXX
n
n
Xi2 −
P P
n Xi
i=1 i=1
SXY
βb1 = , e βb0 = Y − βb1 X.
SXX
Após a abordagem do modelo linear considerado na Seção anterior, é importante destacar a diferença entre
os modelos não lineares nas variáveis e os modelos não lineares nos coeficientes regressoras.
Modelos não lineares nas variáveis regressoras: Tais modelos permitem o ajuste de relações mais
complexas que relações lineares ou linearizáveis entre quantidades de interesse. Em diversas situações estes modelos
tem uma forma funcional especı́fica para o estudo em questão, considerando algum mecanismo da área (biológico,
fı́sico, etc). Alguns exemplos de modelos não lineares nas variáveis regressoras são:
exp (β0 + β1 Xi )
Yi = β0 + β1 Xi + β2 Xi2 + i e Yi = + i, com i = 1, 2, . . . , n.
1 + exp (β0 + β1 Xi )
Ao contrário dos modelos lineares, o ajuste de modelos não lineares não permite que as expressões dos
estimadores dos parâmetros desconhecidos do modelo sejam obtidas analiticamente. Dessa maneira é necessário o
uso de métodos númericos.
Modelos não lineares nos coeficientes de regressão: São modelos lineares nas variáveis regressoras e
não-lineares nos coeficientes de regressão. Entretanto são modelos linearizáveis por meio de uma transformação
simples do tipo logaritmo. Alguns exemplos de modelos linearizáveis são:
Yi = β0 β1Xi i , e Yi = β0 Xi β1 i , com i = 1, 2, . . . , n.
Yi = β0 β1Xi i , i = 1, 2, ..., n.
ln Yb = ln βb0 βb1X
ln Yb = ln βb0 + ln βb1 X
Yi = β0 Xi β1 i , i = 1, 2, ..., n.
Yb = βb0 X β1 .
b
ln Yb = ln βb0 X β1
b
ln Yb = ln βb0 + βb1 ln (X)
em que
Ybt = ln Yb ; βb0t = ln βb0 ; βb1t = ln βb1 ; Xt = ln (X) .
Podemos verificar que, uma vez que aplicamos a operação logaritmo niperiano (ln) para linearizar os modelos
exponencial e potência, então se aplicarmos a operação inversa (base e) nos modelos linearizados, obtemos os
modelos ajustados, isto é
Modelo exponencial =⇒ eYt = eβ0t +β1t X = eβ0t eβ1t X = eln(β0 ) eln(β1 )X = βb0 βb1X = Yb
b b b b b b b
Modelo potência =⇒ eYt = eβ0t +β1 Xt = eβ0t eβ1 Xt = eln(β0 ) eβ1 ln(X) = βb0 X β1 = Yb
b b b b b b b b
Uma empresa multinacional deseja verificar qual a relação entre o investimento mensal X em propagandas
e o lucro bruto mensal Y . Para isso, anotou-se os diferentes valores mensais de investimentos e seus respectivos
lucro bruto mensais. Os dados encontram-se na Tabela abaixo (Dados em milhares de dólares).
Ajustamento do modelo linear: Primeiramente é necessário o cálculo das estatı́sticas amostrais SXY ,
SXX e SY Y conforme a seguir.
n
X n
X n
X
SXY = n Xi Yi − Xi Yi
i=1 i=1 i=1
= 10 × 1212 − 55 × 182
SXY = 2110
n n
!2
X X
SXX = n Xi2 − Xi
i=1 i=1
2
= 10 × 385 − 55
SXX = 825
n n
!2
X X
SY Y = n Yi2 − Yi
i=1 i=1
2
= 10 × 3908 − 182
SY Y = 5956
SXY
rXY = √ √
SXX SY Y
2110
= √ √
825 5956
rXY = 0, 9519
Interpretação: 95, 19% das observações de Y estão fortemente e positivamente correlacionadas com as ob-
servações de X.
SXY 2110
βb1 = =
SXX 825
βb1 = 2, 5576.
βb0 = Y − βb1 X
= 18, 2 − 2, 5576 × 5, 5
βb0 = 4, 1332.
Yb = 4, 1332 + 2, 5576X
Ajustando o modelo exponencial. Para ajustar o modelo exponencial Yb = βb0 βb1X temos que linearizar o
modelo por meio do logaritmo (em geral usamos o logaritmo niperiano ln que tem base e) da seguinte forma:
Yb = βb0 βb1X
ln Yb = ln βb0 + X ln βb1
Podemos observar que apenas a variável Y sofreu transformação, bem como os coeficientes βb0 e βb1 . Dessa
forma precisamos determinar as seguintes estatı́sticas amostrais a partir das variáveis X e Y :
n n
A variável Y transformada, isto é, Yt que é dada por ln (Y ), bem como a soma
P P
Yit = ln (Yi ).
i=1 i=1
n n
O produto XYt transformado de cada par (X, Yt ) e a soma do produto dada por
P P
Xi Yit = Xi ln (Yi ).
i=1 i=1
Observação: como a variável Y foi transformada, então qualquer operação com Y , por exemplo o produto
XY , será transformada.
n
O quadrado de cada observação X (dado por X 2 ) e a soma dos quadrados dada por Xi2 . Observação:
P
i=1
essas estatı́sticas associadas à variável X já foram encontradas para o modelo linear.
n
O quadrado de cada observação de Y transformado (dado por Yt2 ) e a soma dos quadrados dada por Yit2 =
P
i=1
n
P 2
(ln Yi ) .
i=1
Cálculo da estatı́stica SXY que envolve as variáveis X e Y : Como a variável Y sofreu transformação, então
a estatı́stica SXY que envolve a variável Y também será transformada, ou seja, em função de Yt :
n
X n
X n
X
SXY = n Xi Yit − Xi Yit
i=1 i=1 i=1
= 10 × 167, 1583 − 55 × 27, 4065
SXY = 164, 2255
n n
!2
X X
SXX = n Xi2 − Xi
i=1 i=1
2
= 10 × 385 − 55
SXX = 825
Observação: Como a variável X não sofreu transformação, então a estatı́stica SXX não sofreu transformação
e, portanto, possui o mesmo valor numérico do SXX do modelo linear, já calculado anteriormente.
Cálculo da estatı́stica SY Y que envolve apenas a variável Y : Como a variável Y sofreu transformação, então
a estatı́stica SY Y também será transformada, ou seja, em função de Yt :
n n
!2
X X
SY Y = n Yit2 − Yit
i=1 i=1
= 10 × 79, 5665 − 27, 40652
SY Y = 44, 5488
SXY
rXY = √ √
SXX SY Y
164, 2255
= √ √
825 44, 5488
rXY = 0, 8566.
Interpretação: 85, 66% das observações de Y estão positivamente correlacionadas com as observações de X.
Observação: Como o coeficiente βb1 envolve as estatı́sticas SXY , que por sua vez está transformada, então
teremos βb1t .
βb0t = Y t − βb1t X
= 2, 7407 − 0, 1991 × 5, 5
βb0t = 1, 6456
Observação: Como a estimativa do coeficiente β0 , dado por βb0 , envolve a estimativa transformada βb1t , então
teremos βb0t .
ln Yb = ln βb0 + X ln βb1
Como foi usada o logaritmo ln (que tem como base e) para a linearização, agora fazemos a operação inversa
para chegarmos ao modelo ajustado.
e Yt = e1,6456+0,1991X
b
ln(Y
b)
e = e1,6456 × e0,1991X
Como βb0 = eβ0t e também βb1 = eβ1t temos que o modelo exponencial ajustado é da seguinte forma:
b b
Yb = 5, 1841 × 1, 2203X
Ajustando o modelo potência: Para ajustar o modelo potência Yb = βb0 X β1 temos que linearizar o modelo
b
Yb = βb0 X β1
b
ln Yb = ln βb0 + βb1 ln (X)
Podemos observar que as variáveis X e Y sofreram transformação, portanto segue abaixo o cálculo das
estatı́sticas amostrais.
Cálculo da estatı́stica SXY que envolve as variáveis X e Y : Como as variáveis X e Y sofreram transformações,
então a estatı́stica SXY que envolve as variáveis X e Y também serão transformadas, ou seja, em função de Xt e
Yt :
n
X n
X n
X
SXt Yt = n Xit Yit − Xit Yit
i=1 i=1 i=1
= 10 × 45, 9045 − 15, 1043 × 27, 4065
SXt Yt = 45, 0890
n n
!2
X X
2
SXXt = n Xit − Xit
i=1 i=1
= 10 × 27, 6499 − 15, 10432
SXX = 48, 3591
Cálculo da estatı́stica SY Y que envolve apenas a variável Y : Como a variável Y sofreu transformação, então
a estatı́stica SY Y também será transformada, ou seja, em função de Yt :
n n
!2
X X
SY Yt = n Yit2 − Yit
i=1 i=1
= 10 × 79, 5665 − 27, 40652
SY Yt = 44, 5488
SXY
rXY = √ √
SXX SY Y
45, 0890
= √ √
48, 3591 44, 5488
rXY = 0, 9714.
Interpretação: 97, 14% das observações de Y estão fortemente e positivamente correlacionadas com as ob-
servações de X.
Estimação dos coeficientes do modelo potência:
βb0t = Y t − βb1 X t
= 2, 7407 − 0, 9324 × 1, 5104
βb0t = 1, 3324
ln Yb = ln βb0 + βb1 ln (X)
Como foi usada o logaritmo ln (que tem como base e) para a linearização, agora fazemos a operação inversa
para chegarmos ao modelo ajustado.
e Yt = e1,3324+0,9324Xt
b
ln(Y
b)
e = e1,3324 × e0,9324 ln(X)
Como βb0 = eβ0t e também X = eXt temos que o modelo potência ajustado é da seguinte forma:
b
Yb = 3, 7901 × X 0,9324
Resolução do item c. quadro resumo com os modelos ajustados, coeficientes de correlação linear de Pearson
2
rXY , coeficientes de determinação de ajuste rXY e o lucro bruto previsto considerando um investimento de X = 15
mil.
Resolução do item d. Ao investir 15 mil dólares em propaganda, a empresa esperaria obter cerca de 103 mil
dólares em lucro bruto mensal, usando o modelo exponencial. Observamos que o modelo linear subestima o lucro
bruto mensal esperado e o modelo exponencial superestima o lucro bruto mensal esperado. Usando um modelo
errado, por exemplo o modelo exponencial, a empresa esperaria um lucro bruto mensal de aproximadamente 103
mil dólares ao investir 15 mil em propagandas, quando na verdade teria um lucro bruto mensal de aproximadamente
47 mi dólares, por meio do melhor modelo ajustado.
Os dados abaixo referem-se a medidas de diâmetro na altura do peito - D.A.P (em polegadas) de árvores
da espécie black cherry denotado pela variável explicativa X e o volume de madeira destas árvores derrubadas
(em m3 ), denotado pela variável resposta Y . O objetivo desse tipo de experimento é verificar de que forma essas
variáveis estão relacionadas para, por meio de medidas nas árvores em pé, poder se predizer o volume de madeira
em uma área de floresta.
Item c. Fazer um quadro resumo com os modelos ajustados, coeficientes de correlação linear de Pearson
2
rXY , coeficientes de determinação de ajuste rXY e o volume previsto de madeira (em m3 ) para X = 22 polegadas
de D.A.P, nos três modelos ajustados.
Item d. Apontar qual é o melhor modelo, isto é, qual é o modelo com o melhor ajuste. Fazer comentários
pertinentes sobre qual é a importância de se adotar o melhor modelo no que tange o volume previsto de madeira,
bem como os possı́veis impactos negativos neste exemplo ao se adotar o modelo errado.
Ajustamento do modelo linear: Primeiramente é necessário o cálculo das estatı́sticas amostrais SXY ,
SXX e SY Y conforme a seguir.
n
X n
X n
X
SXY = n Xi Yi − Xi Yi
i=1 i=1 i=1
= 31 × 13887, 86 − 410, 7 × 935, 3
SXY = 46395, 95
n n
!2
X X
SXX = n Xi2 − Xi
i=1 i=1
= 31 × 5736, 55 − 410, 72
SXX = 9158, 56
n n
!2
X X
SY Y = n Yi2 − Yi
i=1 i=1
= 31 × 36324, 99 − 935, 32
SY Y = 251288, 60
SXY
rXY = √ √
SXX SY Y
46395, 95
= √ √
9158, 56 251288, 60
rXY = 0, 9671
Interpretação: 96, 71% das observações de Y estão fortemente e positivamente correlacionadas com as ob-
servações de X.
SXY 46395, 95
βb1 = =
SXX 9158, 56
βb1 = 5, 0659.
βb0 = Y − βb1 X
935, 3 410, 7
= − 5, 0659
31 31
βb0 = −36, 9435.
Ajustando o modelo exponencial. Para ajustar o modelo exponencial Yb = βb0 βb1X temos que linearizar o
modelo por meio do logaritmo (em geral usamos o logaritmo niperiano ln que tem base e) da seguinte forma:
Yb = βb0 βb1X
ln Yb = ln βb0 + X ln βb1
Podemos observar que apenas a variável Y sofreu transformação, bem como os coeficientes βb0 e βb1 . Dessa
forma precisamos determinar as seguintes estatı́sticas amostrais a partir das variáveis X e Y :
n n
A variável Y transformada, isto é, Yt que é dada por ln (Y ), bem como a soma
P P
Yit = ln (Yi ).
i=1 i=1
n n
O produto XYt transformado de cada par (X, Yt ) e a soma do produto dada por
P P
Xi Yit = Xi ln (Yi ).
i=1 i=1
Observação: como a variável Y foi transformada, então qualquer operação com Y , por exemplo o produto
XY , será transformada.
n
O quadrado de cada observação X (dado por X 2 ) e a soma dos quadrados dada por Xi2 . Observação:
P
i=1
essas estatı́sticas associadas à variável X já foram encontradas para o modelo linear.
n
O quadrado de cada observação de Y transformado (dado por Yt2 ) e a soma dos quadrados dada por Yit2 =
P
i=1
n
P 2
(ln Yi ) .
i=1
Cálculo da estatı́stica SXY que envolve as variáveis X e Y : Como a variável Y sofreu transformação, então
a estatı́stica SXY que envolve a variável Y também será transformada, ou seja, em função de Yt :
n
X n
X n
X
SXY = n Xi Yit − Xi Yit
i=1 i=1 i=1
= 31 × 1392, 1389 − 410, 7 × 101, 4547
SXY = 1488, 87.
n n
!2
X X
SXX = n Xi2 − Xi
i=1 i=1
= 31 × 5736, 55 − 410, 72
SXX = 9158, 56
Observação: Como a variável X não sofreu transformação, então a estatı́stica SXX não sofreu transformação
e, portanto, possui o mesmo valor numérico do SXX do modelo linear, já calculado anteriormente.
Cálculo da estatı́stica SY Y que envolve apenas a variável Y : Como a variável Y sofreu transformação, então
a estatı́stica SY Y também será transformada, ou seja, em função de Yt :
n n
!2
X X
SY Y = n Yit2 − Yit
i=1 i=1
= 31 × 340, 3427 − 101, 45472
SY Y = 257, 57.
SXY
rXY = √ √
SXX SY Y
1488, 87
= √ √
9158, 56 257, 57
rXY = 0, 9694.
Interpretação: 96, 94% das observações de Y estão positivamente correlacionadas com as observações de X.
SXY 1488, 87
βb1t = =
SXX 9158, 56
βb1t = 0, 1626.
Observação: Como o coeficiente βb1 envolve as estatı́sticas SXY , que por sua vez está transformada, então
teremos βb1t .
βb0t = Y t − βb1t X
101, 4547 410, 7
= − 0, 1626 ×
31 31
βb0t = 1, 1185.
Observação: Como a estimativa do coeficiente β0 , dado por βb0 , envolve a estimativa transformada βb1t , então
teremos βb0t .
ln Yb = ln βb0 + X ln βb1
Como foi usada o logaritmo ln (que tem como base e) para a linearização, agora fazemos a operação inversa
para chegarmos ao modelo ajustado.
e Yt = e1,1185+0,1626X
b
ln(Y
b)
e = e1,1185 × e0,1626X
Como βb0 = eβ0t e também βb1 = eβ1t temos que o modelo exponencial ajustado é da seguinte forma:
b b
Yb = 3, 0603 × 1, 1766X
Ajustando o modelo potência: Para ajustar o modelo potência Yb = βb0 X β1 temos que linearizar o modelo
b
Yb = βb0 X β1
b
ln Yb = ln βb0 + βb1 ln (X)
Podemos observar que as variáveis X e Y sofreram transformação, portanto segue abaixo o cálculo das
estatı́sticas amostrais.
Cálculo da estatı́stica SXY que envolve as variáveis X e Y : Como as variáveis X e Y sofreram transformações,
então a estatı́stica SXY que envolve as variáveis X e Y também serão transformadas, ou seja, em função de Xt e
Yt :
n
X n
X n
X
SXt Yt = n Xit Yit − Xit Yit
i=1 i=1 i=1
= 31 × 263, 0560 − 79, 2773 × 101, 4547
SXt Yt = 111, 68.
n n
!2
X X
2
SXXt = n Xit − Xit
i=1 i=1
= 31 × 204, 3761 − 79, 27732
SXX = 50, 76.
Cálculo da estatı́stica SY Y que envolve apenas a variável Y : Como a variável Y sofreu transformação, então
a estatı́stica SY Y também será transformada, ou seja, em função de Yt :
n n
!2
X X
SY Y = n Yit2 − Yit
i=1 i=1
= 31 × 340, 3427 − 101, 45472
SY Y = 257, 57.
SXY
rXY = √ √
SXX SY Y
111, 68
= √ √
50, 76 257, 57
rXY = 0, 9767.
Interpretação: 97, 67% das observações de Y estão fortemente e positivamente correlacionadas com as ob-
servações de X.
Estimação dos coeficientes do modelo potência:
SXYt 111, 68
βb1 = =
SXXt 50, 76
βb1 = 2, 2002.
βb0t = Y t − βb1 X t
= 3, 2727 − 2, 2002 × 2, 5573
βb0t = −2, 3533.
ln Yb = ln βb0 + βb1 ln (X)
Como foi usada o logaritmo ln (que tem como base e) para a linearização, agora fazemos a operação inversa
para chegarmos ao modelo ajustado.
e Yt = e−2,3533+2,2002Xt
b
ln(Y
b)
e = e−2,3533 × e2,2002 ln(X)
Como βb0 = eβ0t e também X = eXt temos que o modelo potência ajustado é da seguinte forma:
b
Yb = 0, 0951 × X 2,2002
Resolução do item c. quadro resumo com os modelos ajustados, coeficientes de correlação linear de Pearson
2
rXY , coeficientes de determinação de ajuste rXY e o lucro bruto previsto considerando um investimento de X = 15
mil.
Resolução do item d. O modelo com o melhor ajuste é o modelo potência, pois possui o maior coeficiente
2
de determinação (rXY = 0, 9539). Dessa maneira se faz extramamente importante adotar o melhor modelo para
prever o volume de madeira, a fim de evitar os possı́veis impactos negativos caso se adote os modelos errados.
..
1 X11 X12 X13 . X1k
Y1 .. β0 1
Y2 1 X21 X22 X23 . X2k β1 2
Y3 = .. × β2 + 3
.. 1 X31 X32 X33 . X3k .. ..
. .. .. .. .. .. .. . .
. . . . . .
Yn βk n
..
1 Xn1 Xn2 Xn3 . Xnk
Y = Xβ +
em que:
2. Os erros 1 , 2 , ..., n não são correlacionados, o que implica que as observações Y1 , Y2 , ..., Yn não são correla-
cionadas.
3. Os erros 1 , 2 , ..., n têm distribuição normal, o que implica que as observações Y1 , Y2 , ..., Yn têm distribuição
normal.
∼ N 0, σ 2 I ,
em que
..
1 0 0 . 0
1 0 ..
2 0 0 1 0 . 0
= 3 ; 0= 0 ; 2
σ I=σ × 2 ..
.. .. 0 0 1 . 0 ,
. . .. .. .. .. ..
. . . . .
n 0
..
0 0 0 . 1
Y ∼ N Xβ, σ 2 I
em que
..
1 X11 X12 X13 . X1k
Y1 .. β0
Y2 1 X21 X22 X23 . X2k β1
Y= Y3 e Xβ = .. × β2 ,
.. 1 X31 X32 X33 . X3k ..
. .. .. .. .. .. .. .
. . . . . .
Yn βk
..
1 Xn1 Xn2 Xn3 . Xnk
O objetivo é encontrar os valores do vetor β = β0 , β1 , β2 , ..., βk que minimizem a soma dos quadrados dos
erros, ou seja, que minimizem
1
n 2
3
X
2i = 21 + 22 + ... + 2n = 1 2 3 ... n × = T
i=1
..
.
n
= Y − Xβ.
T
T
O vetor de estimadores βb = βb0 , βb1 , ..., βbk para o vetor de coeficientes de regressão βb = (β0 , β1 , ..., βk ) ,
obtido pelo método dos mı́nimos quadrados, é expresso por:
−1
βb = XT X XT Y.
Questão 1. Há o interesse em estabelecer uma relação entre a altura (X) em metros e o peso (Y ) em quilos de
indivı́duos do sexo masculino acima dos 21 anos. Para isso analisou-se uma amostra de 15 indivı́duos, ordenando-os
pela altura, conforme tabela abaixo:
X 9 9 10 11 11 12 14 15
Y 6 8 23 65 70 160 172 3274
2
a. Ajuste Y em função de X nos três modelos abaixo e encontre o coeficiente de determinação rXY para cada
modelo ajustado.
Modelo linear: Yb = βb0 + βb1 X.
Modelo exponencial: Yb = βb0 βb1X .
Modelo potência: Yb = βb0 X β1
b
Exercı́cio 3. Médicos pesquisadores estão interessados em saber se o tempo de gestação interfere no peso (ao
nascer) de bebês. Para isso foi tomada uma amostra de 12 bebês recém-nascidos obtendo-se os pesos (em gramas)
de cada um deles. Os resultados encontram-se na tabela abaixo onde os bebês estão ordenados pelo tempo de
gestação (em semanas).
Exercı́cio 4. Continuando o exercı́cio anterior, ajuste Y em função de X nos modelos exponencial e potência
conforme abaixo.
Modelo exponencial: Yb = βb0 βb1X .
Modelo potência: Yb = βb0 X β1 .
b
2
a. Encontre o coeficiente de determinação rXY para cada modelo ajustado.
b. Considerando o modelo linear do exercı́cio anterior e os modelos ajustados exponencial e potência, qual o
modelo ajustado mais eficaz para esse conjunto de dados?
c. Usando o modelo melhor ajustado, qual seria o peso esperado de um bebê com 38 semanas de gestação?
Exercı́cio 5. O Instituto Brasileiro de Geografia e Estatı́stica (IBGE) está interessado em saber qual a relação
entre o número de filhos por famı́lia (Y ) e a renda familiar mensal (X). Para isso, coletou-se uma amostra de 30
famı́lias onde verificou-se o número de filhos e a renda familiar mensal (em salários mı́nimos) de cada uma delas.
Os resultados encontram-se na tabela abaixo.
Famı́lia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Renda Mensal X 1 2 2 2 2 2 2 2 3 3 3 4 4 4 4
Número de filhos Y 5 4 4 4 3 3 3 3 2 2 2 2 2 2 2
Famı́lia 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Renda Mensal X 4 4 5 5 5 5 5 5 6 6 6 7 7 8 8
Número de filhos Y 2 2 2 1 1 1 1 1 1 1 0 0 0 0 0
Exercı́cio 6. Ajuste o conjunto de dados abaixo nos três modelos propostos: Linear, exponencial e potência.
Encontre o coeficiente de determinação de cada um deles para verificar qual o melhor modelo ajustado.
X 1 2 3 4 5 6 7 8 9 10
Y 2 5 7 19 31 48 96 164 289 515
Exercı́cio 7. Ajuste o conjunto de dados abaixo nos três modelos propostos: Linear, exponencial e potência.
Encontre o coeficiente de determinação de cada um deles para verificar qual o melhor modelo ajustado.
X 10 12 14 16 18 20 22 24 26 28 30 32
Y 52 41 34 32 28 25 22 21 18 18 15 13
Exercı́cio 8. Os dados que se seguem referem-se a medidas de alturas de feijão (Y ), durante 7 semanas
(amostras aleatórias independentes), conforme tabela abaixo:
Fonte: SNEDECOR, G.W & COCHRAN, W.G. (1967). Statistical Methods. The Iowa State Press University.
pag. 139.
Ajuste o conjunto de dados abaixo nos três modelos propostos: Linear, exponencial e potência. Encontre
o coeficiente de determinação de cada um deles para verificar qual o melhor modelo ajustado. Considerando o
melhor modelo ajustado, qual a altura esperada de um pé de feijão após 8 semanas?
Exercı́cio 9. Os dados que se seguem referem-se a um experimento, em que 9 amostras de solos foram
preparadas, variando-se os nı́veis de fósforo orgânico (X). Nessas amostras foi plantado milho e, após 38 dias, as
plantas foram colhidas e o conteúdo de fósforo foi determinado. A seguir, determinou-se, por uma expressão o
fósforo disponı́vel (Y ) para a planta no solo, conforme tabela abaixo:
X (ppm) 1 4 5 9 13 11 23 23 28
Y (ppm) 64 71 54 81 93 76 77 95 109
Fonte: SNEDECOR, G.W & COCHRAN, W.G. (1967). Statistical Methods. The Iowa State Press University.
p ag. 139.
Ajuste o conjunto de dados abaixo nos três modelos propostos: Linear, exponencial e potência. Encontre
o coeficiente de determinação de cada um deles para verificar qual o melhor modelo ajustado. Considerando o
melhor modelo ajustado, qual o valor esperado de Y quando X = 18?
Exercı́cio 10. Os dados que se seguem referem-se ao peso médio (X) de 50 galinhas e consumo de alimentos
(Y ), para 10 linhagens White Leghorn.
Amostra 1 2 3 4 5 6 7 8 9 10
X 4, 6 5, 1 4, 8 4, 4 5, 9 4, 7 5, 1 5, 2 4, 9 5, 1
Y 87, 1 93, 1 89, 8 91, 4 99, 5 92, 1 95, 5 99, 3 93, 4 94, 4
Fonte: STEEL, R.G.D. & TORRIE, J.H. (1980). Principles and Procedures of Statistics. A Biometrical
Approach. MacGraw-Hill. p ag. 240.
Ajuste o conjunto de dados abaixo nos três modelos propostos: Linear, exponencial e potência. Encontre o
coeficiente de determinação de cada um deles para verificar qual o melhor modelo ajustado.
Exercı́cio 11. Os dados que se seguem referem-se a concentrações de CO2 (X) aplicadas sobre folhas de trigo
a uma temperatura de 35o C e a quantidades de CO2 (Y ; cm3 /dm2 / hora) absorvido pelas folhas.
Amostra 1 2 3 4 5 6 7 8 9 10 11
X 75 100 100 120 130 130 160 190 200 240 250
Y 0, 00 0, 65 0, 50 1, 00 0, 95 1, 30 1, 80 2, 80 2, 50 4, 30 4, 50
Fonte: MEAD, R. & CURNOW, R.N. (1980). Statistical Methods in Agriculture and Experimental Biology.
Chapman & Hall. p ag. 134.
Ajuste o conjunto de dados abaixo nos três modelos propostos: Linear, exponencial e potência. Encontre o
coeficiente de determinação de cada um deles para verificar qual o melhor modelo ajustado.
Exercı́cio 12. Os dados que se seguem referem-se a números de ovos postos por 14 galinhas e números de
folı́culos ovulados.
Número de ovos X 39 29 46 28 31 25 49 57 51 21 42 38 34 47
Número de folı́culos Y 37 34 52 26 32 25 55 65 44 25 45 26 29 30
Fonte: STEEL, R.G.D. & TORRIE, J.H. (1980). Principles and Procedures of Statistics. A Biometrical Approach.
MacGraw-Hill. p ag. 277.
Ajuste o conjunto de dados abaixo nos três modelos propostos: Linear, exponencial e potência. Encontre o
coeficiente de determinação de cada um deles para verificar qual o melhor modelo ajustado.
Exercı́cio 13. Os dados a seguir mostram as despesas com propaganda (expressas em porcentagem das
despesas totais) e o lucro lı́quido operacional (expresso em porcentagem do total de vendas) em uma amostra de
seis drogarias:
Drogaria 1 2 3 4 5 6
despesas com propaganda X 1, 5 1, 0 2, 8 0, 4 1, 3 2, 0
lucro lı́quido operacional Y 3, 6 2, 8 5, 4 1, 9 2, 9 4, 3
Ajuste o conjunto de dados abaixo nos três modelos propostos: Linear, exponencial e potência. Encontre o
coeficiente de determinação de cada um deles para verificar qual o melhor modelo ajustado.
Exercı́cio 14. Uma determinada pizzaria deseja saber qual a relação entre o preço da pizza (em reais) com
a sua venda mensal (em unidades). Para isso variou-se o preço da unidade e verificou-se a quantidade mensal
vendida. Os dados são os seguintes:
Preço da pizza (em reais) 18, 00 22, 00 17, 50 23, 50 27, 00 25, 00 20, 50 24, 00
Quantidade mensal vendida 277 123 295 91 48 69 166 81
a. Ajuste o conjunto de dados abaixo nos três modelos propostos: Linear, exponencial e potência. Encontre o
coeficiente de determinação de cada um deles para verificar qual o melhor modelo ajustado.
b. Suponha que o gerente da pizzaria faça uma promoção em um certo mês cobrando o preço único de 19 reais
a pizza, quantas unidades espera-se vender nesse mês?
c. e se o preço for 16 reais?
Exercı́cio 1.
a. X14 + X24 + X34 + X44 + X54 + X64 + X74 + X84
2 2 2
b. (3X1 + 5) + (3X2 + 5) + ... + (3Xn + 5)
λ0 λ1 λ2 λ3
f. 0! + 1! + 2! + 3! + ...
i. ea+bX1 +cY1 +dZ1 + ea+bX2 +cY2 +dZ2 + ... + ea+bXn +cYn +dZn
k. 12 X1 + 22 X2 + 32 X3 + 42 X4 + 52 X5 + 62 X6 + 72 X7 + 82 X8 + 92 X9 + 102 X10
Exercı́cio 2.
n n
6Xi −3Yi
P P
a) (8Xi − 5Yi ) = 0 b) 15 =4
i=1 i=1
n n
Xi −Yi +Zi
P P
c) 35 =1 d) (10Xi − 5Yi − Zi ) = 35
i=1 i=1
n n
2Yi +6Zi
P P
e) 50 = 11 f) (3Xi + 8Yi − 12Zi ) = 10.
i=1 i=1
Exercı́cio 3.
5 5
P 2 P
a) (Xi − 3) = 10 b) (Xi + 5) (Xi − 2) = 50
i=1 i=1
5 5
Xi2 + 1 (Xi + 4) = 480 Xi2 − 11 = 0
P P
c) d)
i=1 i=1
5 3 5
Xi −2Xi2 −7Xi
Xi2 (Xi − 4) = 5.
P P
e) 10 =1 f)
i=1 i=1
Exercı́cio 4. Resolução:
8 8
1 Xh 2 i 1 X
3Xi + 5Xi2 − Xi 3Xi + 25Xi4 − 10Xi3 + Xi2
=
80 i=1 80 i=1
8
1 X
3Xi + 25Xi4 − 10Xi3 + Xi2
=
80 i=1
" 8 8 8 8
#
1 X X
4
X
3
X
2
= 3 Xi + 25 Xi − 10 Xi + Xi
80 i=1 i=1 i=1 i=1
8 8 8 8
Xi2 = 34, Xi3 = 108 e Xi4 = 370, basta substituir os valores numéricos na
P P P P
Como Xi = 12,
i=1 i=1 i=1 i=1
expressão:
8
1 Xh 2 i 1 8240
3Xi + 5Xi2 − Xi = [3 × 12 + 25 × 370 − 10 × 108 + 34] = = 103.
80 i=1 80 80
Exercı́cio 5. Se ai > 0, i = 1, 2, ..., n, então a1 > 0, a2 > 0, ..., an > 0, e segue que
n
! n
!2
X X
a2i < ai
i=1 i=1
n
! n
!
X X
a21 + a22 + ... + a2n < ai ai
i=1 i=1
a21 + a22 + ... + a2n < (a1 + a2 + ... + an ) (a1 + a2 + ... + an )
| {z }
n
P
ai
i=1
n
X n
X n
X
a21 + a22 + ... + a2n < a1 ai + a2 ai + ... + an ai
i=1 i=1 i=1
Como ai > 0, i = 1, 2, ..., n, então segue imediatamente que qualquer termo é menor que a soma, isto é,
n
! n
! n
!
X X X
a1 < ai , a2 < ai , ..., an < ai .
i=1 i=1 i=1
n
P
Como ai < ai , então
i=1
n
X n
X n
X
a21 + a22 + ... + a2n ≤ a1 ai + a2 ai + ... + an ai
i=1 i=1 i=1
| {z } | {z } | {z }
(>a1 ) (>a2 ) (>an )
n
! n
!2
X X
a2i < ai , ∀a > 0.
i=1 i=1
Exercı́cio 3: Aplicações na agroindústria. Com relação aos nı́veis de Potássio temos: n = 50, X =
2
79, 90 mg/m3 , M o = 82 mg/m3 , M e = 80 mg/m3 , A = 86 mg/m3 , dm = 11, 14 mg/m3 , S 2 = 253, 64 mg/m3 ,
S = 15, 93 mg/m3 e CV = 19, 94%.
Com relação ao teor de P h temos: n = 50, X = 5, 03, M o = 5, 10, M e = 5, 00, A = 1, 60, dm = 0, 28,
S 2 = 0, 1343, S = 0, 37 e CV = 7, 4%.
Exercı́cio 4: Aplicações em controle da qualidade da água. O valor do teor de chumbo para cada
uma das estações de tratamento de água é X1 = 26 ppm, X2 = 35 ppm, X3 = 35 ppm e X4 = 44 ppm.
a. O grupo 3.
b. O grupo 1, com 67, 35%. Isso indica que os dados desse grupo estão mais dispersos, isto é, são mais
heterogêneos do que os dados dos outros grupos. Contrariamente aos outros grupos, o grupo 3 apresentou a menor
média, o menor desvio e o menor coeficiente. Seus dados são mais homogêneos em relação aos outros grupos.
Exercı́cio 8: Aplicações da indústria. As medidas resumo necessárias para analisar os três lotes são:
X S CV
Lote 1 20, 250 1, 98 9, 78%
Lote 2 21, 125 4, 79 22, 67%
Lote 3 21, 872 4, 26 19, 47%
Exercı́cio 9: Aplicações nas empresas. Como A = 3420 dólares, M e = 1850 dólares, M o = 2230 dólares
9
P
e Xi = 17930 dólares, temos que X(1) = 750 dólares, X(3) = 1670 dólares, X(5) = 1850 dólares e X(7) = 2230
i=1
dólares. Dessa forma a média amostral é X = 1992, 22 dólares e o desvio-padrão amostral é S = 969, 73 dólares.
Logo, o coeficiente de variação é CV = 48, 68%.
Exercı́cio 11: Aplicações em biologia. O peso médio dos indivı́duos desta amostra é X = 512, 27 gramas.
Quanto ao valor modal, trata-se de um conjunto de dados amodal. O peso mediano encontrado é M e = 517 gramas.
A amplitude desta amostra vale A = 383 gramas. O desvio-padrão amostral vale S = 88, 25 gramas e o coeficiente
de variação vale CV = 17, 23%.
Exercı́cio 12: Aplicações gerais. Temos que a média amostral é dada por X = 4, o desvio-padrão amostral
é dado por S = 2, 1602 e, por consequência, o coeficiente de variação é dado por CV = 54, 01%.
Exercı́cio 13: Aplicações sanitárias e em saúde pública. Sabemos que a variância populacional é
expressa por
N N
2
Xi 2
P P
(Xi − µ)
i=1 i=1
σ2 = = − µ2
N N
N
P
Xi
i=1
Como µ = N , podemos reescrever como
N
N 2
2
P P
Xi Xi
i=1 i=1
σ2 = − .
N N2
Substituindo os valores jé conhecidos no enunciado temos que
140 302
− 2. 5=
N N
Portanto, trata-se de uma equação do segundo grau, cuja solução tem duas raı́zes: N = 18 ou N = 10. Desta
forma há dois possı́veis números de restaurantes auditados em Barreiras, N = 18 ou N = 10 restaurantes.
n
P 12
P
Xi Xi
i=1 30
i=1
X = = = = 2, 5.
n 12 12
X = 2, 5 filhos por famı́lia.
98 30 12 × 2, 52
S2 = − 2 × 2, 5 × +
12 − 1 12 − 1 12 − 1
S2 = 2, 0909.
91 21 6 × 3, 52
S2 = − 2 × 3, 5 × +
6−1 6−1 6−1
S2 = 3, 5.
Portanto, o valor da variância amostral é exatamente igual ao valor da média amostral, ou seja, S 2 = 3, 5. O
desvio-padrão amostral, por sua vez, é a raı́z quadrada da variância amostral S 2 :
√ p
S = S 2 = 3, 5 = 1, 87.
O coeficiente de variação é expresso pelo quociente percentual entre o desvio-padrão e a média, isto é,
s 1, 87
CV = × 100% = × 100% = 53, 43%.
X 3, 5
CV = 53, 43%.
n
1
P
Exercı́cio 16. Por definição temos que a média da variável Y é dada por Y = n Yi . Como Yi = Xi X,
i=1
i = 1, 2, ..., n, segue imediatamente que:
n n n
1X 1X XX 2
Y = Yi = Xi X = Xi = X × X = X .
n i=1 n i=1 n i=1
2
Y = X .
n
1
P Xi
Exercı́cio 17. Por definição temos que a média da variável Y é dada por Y = n Yi . Como Yi = X
,
i=1
i = 1, 2, ..., n, segue imediatamente que:
n n n
1X 1 X Xi 1 X X
Y = Yi = = Xi = = 1.
n i=1 n i=1 X nX i=1 X
Y = 1.
Exercı́cio 18. Sabemos que se Yi > Xi , então Yi − Xi = bi > 0, i = 1, 2, ..., n, o que implica em Yi = Xi + bi ,
i = 1, 2, ..., n. Portanto temos
n n n n
1X 1X 1X 1X
Y = Yi = (Xi + bi ) = Yi + bi = X + b.
n i=1 n i=1 n i=1 n i=1
Y = X + b.
Como bi > 0, i = 1, 2, ..., n, então a média b > 0. Logo, a média da variável Y é maior que a média da variável
X, isto é, Y > X.
n
X n
X n
X
a< Xi < b
i=1 i=1 i=1
n
P n
P n
P
a Xi b
i=1 i=1 i=1
⇒ < <
n n n
na nb
⇒ <X<
n b
⇒ a < X < b.
Logo, a média da variável X também está entre as constantes a e b, isto é, a < X < b.
N
X N
X N
X N
X N
X
(Xi − µ) = Xi − µ= Xi − N × µ = Xi − N × µ
i=1 i=1 i=1 i=1 i=1
N N N N
X 1 X X X
= Xi − N × Xi = Xi − Xi = 0.
i=1
N i=1 i=1 i=1
N
X
(Xi − µ) = 0.
i=1
Logo, a soma de todos os desvios de um conjunto quantitativo de dados é sempre nula, isto é, mostre que
N
P
(Xi − µ) = 0.
i=1
N
1
P
Exercı́cio 21. Por definição temos que a média populacional da variável Z é dada por µZ = N Zi . Como
i=1
Zi = Xiσ−µ
X
X
, para i = 1, 2, ..., N , então segue imediatamente que:
N N N
1 X 1 X Xi − µX 1 X
µZ = Zi = = (Xi − µX ) .
N i=1 N i=1 σX N σX i=1
Conforme vimos na questão anterior, a soma de todos os desvios de um conjunto de dados quantitativos é
N
P
sempre nula, isto é, (Xi − µX ) = 0. Dessa forma temos que:
i=1
1
µZ = × 0 = 0.
N σX
N
2 1 X 2
σZ = (Zi − µZ ) .
N i=1
Xi −µX
Como Zi = σX , para i = 1, 2, ..., N , e µZ = 0, então segue imediatamente que:
N N 2 N 2
2 1 X 2 1 X Xi − µX 1 X Xi − µX
σZ = (Zi − µZ ) = −0 =
N i=1 N i=1 σX N i=1 σX
N 2 N 2
1 X (Xi − µX ) 1 X (Xi − µX ) 1 2
= 2 = 2 = 2 × σX = 1.
N i=1 σX σX i=1 N σX
2
σZ = 1.
2
Logo, a variância populacional da variável Z vale um, isto é, σZ = 1.
N
2 1 X 2
σ = (Xi − µ)
N i=1
N
1 X
Xi2 − 2Xi µ + µ2
=
N i=1
N N N
Xi2 µ2
P P P
2Xi µ
i=1 i=1 i=1
= − +
N N N
N N
Xi2
P P
Xi
i=1 i=1 N µ2
= − 2µ +
N N N
N
Xi2
P
i=1
= − 2µ2 + µ2
N
N
Xi2
P
i=1
σ2 = − µ2 .
N
Exercı́cio 23. Se Zi = Xi +Yi , i = 1, 2, ..., n, então pelas propriedades da média sabemos que µZ = µX +µY .
Por definição a variância populacional de Z é expressa por
N
2 1 X 2
σZ = (Zi − µz )
N i=1
N
1 X 2
= [(Xi + Yi ) − (µX + µY )]
N i=1
N
2 1 X 2
Xi + 2Xi Yi + Yi2 − 2Xi µX − 2Xi µY − 2Yi µX − 2Yi µY + µ2X + 2µX µY + µ2Y
σZ =
N i=1
N
1 X 2 2 2 2
= Xi − 2Xi µX + µX + Yi − 2Yi µY + µY + 2Xi Yi − 2Xi µY − 2Yi µX + 2µX µY
N |
i=1
{z } | {z }
(Xi −µX )2 (Xi −µY )2
N
1 Xh 2 2
i
= (Xi − µX ) + (Xi − µY ) + 2 (Xi Yi − Xi µY − Yi µX + µX µY )
N i=1
N N N N N N
2 1 X 2 1 X 2 2 X 2µY X 2µX X 2 X
σZ = (Xi − µX ) + (Xi − µY ) + (Xi Yi ) − Xi − Yi + µX µY
N i=1 N i=1 N i=1 N i=1 N i=1 N i=1
| {z } | {z }
N
2 2 X
= σX + σY2 + (Xi Yi ) − 2µY µX − 2µX µY + 2µX µY
N i=1
" N
#
2 1 X
= σX + σY2 + 2 (Xi Yi ) − µY µX
N i=1
n
1X
Y = Yi
n i=1
n n n n
1X 1X 1X na bX
Y = (a + bXi ) = a+ bXi = + Xi = a + bX
n i=1 n i=1 n i=1 n n i=1
Y = a + bX.
Exercı́cio 1.
Exercı́cio 2.
Exercı́cio 3.
Exercı́cio 4.
Exercı́cio 5.
Exercı́cio 6.
Exercı́cio 7.
Exercı́cio 8.
Exercı́cio 9.
Exercı́cio 10.
Exercı́cio 11.
Exercı́cio 1.
a.) A ∪ B = {1, 2, 3, 4, 5, 6} b.) A − B = {1, 2}
c.) A ∩ B = {3, 4} d.) AC = {5, 6, 7, ...}
Exercı́cio 2. Todos são iguais, a ordem dos elementos não muda o conjunto.
Exercı́cio 3.
Exercı́cio 4.
Exercı́cio 9.
a.) Dos 500 alunos do colégio, 126 ficaram de recuperação.
b.) 42 alunos fizeram recuperação apenas de Fı́sica.
c.) 106 alunos ficaram de recuperação em apenas uma matéria.
Exercı́cio 14.
a.) AC = {5, 6, 7, 8, 9} b.) A ∩ C = {3, 4}
C
c.) (A ∩ C) = {1, 2, 5, 6, 7, 8, 9} d.) A ∪ B = {1, 2, 3, 4, 6, 8}
e.) B − C = {2, 8}
37 21
Exercı́cio 10. a.) 124 b.) 124
80 98 58 64
Exercı́cio 14. a.) 300 b.) 300 c.) 138 d.) 300
1
Exercı́cio 15. 6.
2
Exercı́cio 16. 3.
Exercı́cio 17. 0, 3 ≤ P (A ∩ B) ≤ 0, 6.
7
Exercı́cio 19. 10 .
1−p
Exercı́cio 22. np+1−p .
Exercı́cio 23. P (A ∩ B) = p2 .
Exercı́cio 25. a.) 0, 3480 b.) 0, 0480 c.) 0, 6520 d.) 0, 1667
Exercı́cio 1.
Item a. A função distribuição é dada por:
a2 + a
F (a) = P (X ≤ a) = , a = 1, 2, ..., 10.
110
Note que 0 ≤ F (a) ≤ 1.
Exercı́cio 3: Aplicações em ecologia. (1, 5 pontos) O valor da constante c é 1/465. O valor da esperança
matemática é E (X) = 10, 67 ovos. O valor da esperança do segundo momento é E X 2 = 165, 33 e, portanto, o
valor da variância é V ar (X) = 51, 56 ovos2 e do desvio-padrão é σ (X) = 7, 18 ovos. A função distribuição avaliada
no ponto a, (a ≤ 30) é F (a) = P (X ≤ a) = 30+29+...+a
465 .
N +1 N 2 −1 c
a) E(W ) = 2 b) V AR(W ) = 12 c) P (W ≤ c) = N, c ≤ N.
Exercı́cio 6: Aplicações gerais. Temos que E (X) = 3, E X 2 = 11 e, por consequência, temos V ar (X) =
2.
2 2N +1 N 2 +N −2
a. c= N (N +1) b. E (X) = 3 c. V AR (X) = 18
a. A cargo do aluno.
P (X=k+1) k+1
P (X=k+1)
b. P (X=k) = k q. Portanto, lim = q.
k→∞ P (X=k)
2
c. P (X ≥ 2) = 1 − (1 − q) .
1+q
d. E (X) = 1−q . Portanto, lim E (X) = 1.
q→0
Exercı́cio 1.
a. Para que f (x) seja de fato uma f.d.p temos a = 1.
b. P (X ≤ 1/3) = F (1/3) = 5/9.
Exercı́cio 2.
a. A cargo do aluno.
θ2
b. E (X) = 23 θ e V ar (X) = 18 .
x2 √θ .
c. F (x) = θ2 , 0 ≤ x ≤ θ. A mediana de X é M e = 2
Exercı́cio 3.
a. A cargo do aluno.
b. P (X ≤ 1/2) = F (1/2) = 15/28.
c. P (X ≥ 1/3) = 40/63.
d. P (1/4 ≤ X ≤ 3/4) = 1/2.
2
e. F (x) = 8x−x
7 .
f. F (7/8) = P (X ≤ 7/8) = 57/64.
Exercı́cio 4.
a. A cargo do aluno. b. P (X ≤ 1/2) = 1/4.
Exercı́cio 5.
a. A cargo do aluno. b. P (X ≥ 10) ∼
= 0.
Exercı́cio 6.
a. c = 3/256.
b. P (0 ≤ X ≤ 1) = 53/512.
c. F (2) = P (X ≤ 2) = 148/512.
d. F (3) = P (X ≤ 3) = 297/512.
3 2
e. F (x) = 2x +15x
512
+36x
.
f. P (X ≥ 7/2) = 791/1024.
Exercı́cio 7.
a. P (−a/2 < X < a/2) = 1/8. b. E (X) = 0 c. V ar (X) = 53 a2 .
Exercı́cio 8.
a. a cargo do aluno.
b. P (X < 1) = 1/125 e P (X > 3) = 98/125.
c. E (X) = 3, 75 e V ar (X) = 0, 9375.
d. M e = 3, 97.
e. F (x) = P (X ≤ x) = x3 /125.
Exercı́cio 9.
a. a cargo do aluno.
b. a cargo do aluno.
c. V ar (X) = 15 e σ (X) = 3, 8730.
Exercı́cio 11: Aplicações em engenharia. O valor da constante c afim de que f (x) seja, de fato, uma
f.d.p é c = 1/48. O valor numérico da esperança matemática é E (X) = 4, 36 minutos. O valor numérico do tempo
mediano é de M e = 4, 30 minutos. O valor numérico do tempo modal é de M o = 3 minutos.
Exercı́cio 1: Aplicações na garantia de produtos. O fabricante espera trocar 20 baterias por mês.
T ∼ N (165, 225)
A probabilidade de um automóvel qualquer ter um tempo total de montagem entre 170 minutos e 200 minutos
é de 0, 3608 ou 36, 08%. Sabendo que esta empresa monta 5.000 automóveis por ano, então cerca de 1804 automóveis
tem um tempo total de montagem entre 170 minutos e 200 minutos.
Dessa maneira, a probabilidade do tempo total de montagem do equipamento eletro eletrônico ser maior do
que 20 minutos é P (T > 20) = 0, 3557 ou 35, 57%.
Exercı́cio 1.
a. k = 6 amostras em um processo sem reposição.
b. A cargo do aluno.
c. µ = 2, 50 e X = 2, 50.
Exercı́cio 2.
a. k = 10 amostras em um processo sem reposição.
b. A cargo do aluno.
c. µ = 24 e X = 24.
Podemos observar que a média das médias mostrais X coincide com a média populacional µ e que a dispersão
da população é maior que a dispersão das médias amostrais.
Exercı́cio 3.
a. k = 3.160 amostras possı́veis b. k = 82.160 amostras possı́veis
c. k = 1.581.580 amostras possı́veis d. k = 24.040.016 amostras possı́veis
e. k = 6.400 amostras possı́veis f. k = 512.000 amostras possı́veis
g. k = 40.960.000 amostras possı́veis h. k = 3.276.800.000 amostras possı́veis
Exercı́cio 4.
a. k = 12.650 amostras possı́veis b. k = 53.130 amostras possı́veis
c. k = 390.625 amostras possı́veis d. k = 9.765.625 amostras possı́veis
Exercı́cio 5.
a. k = 10 amostras possı́veis b. k = 45 amostras possı́veis
c. k = 120 amostras possı́veis d. k = 210 amostras possı́veis
e. k = 252 amostras possı́veis f. k = 210 amostras possı́veis
g. k = 120 amostras possı́veis h. k = 45 amostras possı́veis
i. k = 10 amostras possı́veis j. k = 1 amostras possı́veis
Exercı́cio 1.
b ∼ N 32 µ, 45 σ 2 .
a. µ
b. O estimador µ µ) 6= µ.
b é viciado para o parâmetro µ, pois E (b
Exercı́cio 2.
a. Ambos estimadores são não-viciados pois E λ b1 = E λ b2 = λ.
b. Para n > 2 o estimador λ b1 é mais eficiente que λ
b2 .
2
Exercı́cio 3. Ambos os estimadores são não-viciados. Temos que V ar (b µ1 ) = σ10 < V AR (b
µ2 ) = 1, 5σ 2 .
Então µ
b1 é o estimador mais eficiente para µ pois possui a menor variância dentre os estimadores propostos.
Exercı́cio 4.
a. µ
b1 = 65, µb2 = 65, µ b3 = 65, µ
b4 = 66, 5, µb5 = 65, 33, µ
b6 = 63.
b. Temos que µ b1 é o melhor estimador para a média populacional µ pois é não-viciado e de variância mı́nima.
Note que µb1 é a média amostral e, portanto, sempreterá a menor variância.
θ+1 θ+1
Exercı́cio
5. Temos queE (X) = 2 e E X = 2 .
a. E θb1 = θ + 1, E θb2 = θ e E θb3 = θ. Logo, θb2 e θb3 são estimadores não-viciados para o parâmetro θ.
2
2
−1 −1
b. V ar θb1 = θ12n , V ar θb2 = θ12n 7
e V ar θb3 = 24 θ2 − 1 . Logo, θb2 é um estimador mais eficiente
para o parâmetro θ, pois dentre os estimadores não-viciados θb2 é o que possui a menor variância.
Exercı́cio 6.
a. Ambos os estimadores são não-viciados, pois E λ b1 = E λ b2 = λ.
b. Temos que V ar λ b1 = λ < V AR λ b2 = 3λ . Então temos que λ b1 é o estimador mais eficiente para λ,
4 10
pois possui a menor variância.
Exercı́cio 7. Temos que
E θb1 = θ ; E θb2 = θ ; E θb3 = θ.
Verificamos que os três estimadores são não-viciados para o parâmetro θ. Quanto a variância temos que
V ar θb1 = 0, 018σ 2 ; V ar θb2 = 1, 49σ 2 ; V ar θb3 = 0, 0211σ 2 .
Logo, o estimador mais eficiente ou mais preciso é o estimador θb1 pois possui a menor variância.
Exercı́cio 1.
a. Temos µ = 81 ± 1, 97 e, portanto, o IC (90%) para o parâmetro µ é [79, 03; 82, 97]. Interpretação: Temos
90% de confiança de que o intervalo [79, 03; 82, 97] contenha o parâmetro populacional µ.
b. Temos µ = 81 ± 2, 35 e, portanto, o IC (95%) para o parâmetro µ é [78, 65; 83, 35]. Interpretação: Temos
95% de confiança de que o intervalo [78, 65; 83, 35] contenha o parâmetro populacional µ.
c. Temos µ = 81 ± 3, 09 e, portanto, o IC (99%) para o parâmetro µ é [77, 91; 84, 09]. Interpretação: Temos
99% de confiança de que o intervalo [77, 91; 84, 09] contenha o verdadeiro parâmetro populacional µ.
Exercı́cio 2. n = 1537.
Exercı́cio 3. n = 96.
Exercı́cio 4.
a. Não, pois temos o IC(95%) para µ: [1, 18 anos ; 1, 42 anos]. Interpretação: Temos 95% de confiança
de que o intervalo [1, 18 anos ; 1, 42 anos] contenha o tempo de vida útil médio populacional µ, em anos.
b. Sim, pois temos o IC(95%) para µ: [1, 48 anos ; 1, 72 anos]. Interpretação: Temos 95% de confiança
de que o intervalo [1, 48 anos ; 1, 72 anos] contenha o tempo de vida útil médio populacional µ, em anos.
Exercı́cio 5. Temos que µb = X = 27.350 horas e o IC (99%) para µ é [25.355, 41 horas ; 29.344, 59 horas].
Interpretação: Temos 99% de confiança de que o intervalo µ é [25.355, 41 horas ; 29.344, 59 horas] contenha o
tempo médio populacional µ de vida dos discos rı́gidos.
Exercı́cio 6. O IC (95%) para µ é [136, 08 mm ; 143, 92 mm]. Interpretação: Temos 95% de confiança
de que o intervalo [136, 08 mm ; 143, 92 mm] contenha o verdadeiro comprimento médio populacional µ das peças
produzidas por essa máquina.
a. O IC (95%) para a altura média µX dos alunos é: [168, 92 cm ; 179, 08 cm]. Interpretação: Temos 95%
de confiança de que o intervalo [168, 92 cm ; 179, 08 cm] contém a altura média µX dos alunos.
b. O IC (95%) para a altura média µY das alunas é: [159, 54 cm ; 166, 46 cm]. Interpretação: Temos 95%
de confiança de que o intervalo [159, 54 cm ; 166, 46 cm] contém a altura média µY das alunas.
c. A distribuição de probabilidades da diferença amostral X − Y é dada por:
σ2 σ2
X − Y ∼ N µX − µY ; X + Y
m n
r
2
σX σ2
+ Y,
X − Y ± Zα/2
m n
Ou seja,
11 cm ± 6, 15cm.
Logo, o IC (95%) para a diferença populacional µX − µY é: [4, 85 cm ; 17, 15 cm]. Numa situação hipotética
em que o valor numérico zero estivesse dentro do IC, então significa que não há diferença entre a altura média dos
alunos e a altura média das alunas.
a. Para um nı́vel de confiança de 90% em uma amostra de tamanho n = 26 temos o valor de tα/2 = 1, 7081.
Portanto, o intervalo de confiança IC (90%) para o nı́vel médio µ de contaminação do rio por mercúrio é dado por:
Interpretação: Temos 90% de confiança de que o intervalo [114, 57 mmHg/l ; 133, 13 mmHg/l] contém
o nı́vel médio µ de contaminação do rio por mercúrio.
Para um nı́vel de confiança de 95% em uma amostra de tamanho n = 26 temos o valor de tα/2 = 2, 0595. O
intervalo de confiança IC (95%) para o nı́vel médio µ de contaminação do rio por mercúrio é dado por:
Interpretação: Temos 95% de confiança de que o intervalo [112, 66 mmHg/l ; 135, 04 mmHg/l] contém
o nı́vel médio µ de contaminação do rio por mercúrio.
Para um nı́vel de confiança de 99% em uma amostra de tamanho n = 26 temos o valor de tα/2 = 2, 7874. O
intervalo de confiança IC (99%) para o nı́vel médio µ de contaminação do rio por mercúrio é dado por:
Item a. Temos os seguintes dados amostrais: n = 9, X = 1759 dias e s = 545, 40 dias. Com um nı́vel de
confiança de 98% temos tα/2 = 2, 8965. Desta forma, o IC (98%) para o tempo médio µ de vida desse componente
eletrônico é [1232, 42 dias ; 2285, 58 dias].
Interpretação: Temos 98% de confiança de que o intervalo [1232, 42 dias ; 2285, 58 dias] contém o tempo
médio populacional µ de vida desse componente eletrônico.
Item b. Considerando o mesmo nı́vel de confiança e um erro de estimativa de 100 dias, o tamanho da
amostra deveria ser:
2 2
tα/2 × S
2, 8965 × 545, 40
n= = = 249, 56 ∼
= 250 dias.
e 100
Item c. Considerando um erro de estimativa de 550 temos:
2 2
tα/2 × S
2, 8965 × 545, 40
n= = = 8, 25 ∼
= 9 dias.
e 550
a. Com tα/2 = 2, 1604 temos R$914, 64 ± R$179, 31, isto é, o IC (95%) para µ é
[R$735, 33 ; R$1093, 95].
Interpretação: Temos 95% de confiança de que o intervalo [R$735, 33 ; R$1093, 95] contenha o verdadeiro
saldo médio populacional das contas corrente desse banco.
b. Com tα/2 = 2, 6503 temos R$914, 64 ± R$219, 97, isto é, o IC (98%) para µ é
[R$694, 67 ; R$1134, 61].
interpretação: Temos 98% de confiança de que o intervalo [R$694, 67 ; R$1134, 61] contenha o verdadeiro
saldo médio populacional µ das contas corrente desse banco.
c. Considerando um nı́vel de confiança de 95%, o tamanho da amostra caso o gerente quisesse admitir um
erro de estimativa de no máximo 50 reais no saldo médio é de n = 180.
d. Admitindo um erro de estimativa de no máximo 300 reais temos que n = 5, isto é, a amostra retirada foi
suficiente para a estimação.
a. Com tα/2 = 2, 0301 temos µ = 28, 35 ± 2, 54, isto é, o IC (95%) para µ é [25, 81 ; 30, 89].
Interpretação: Temos 95% de confiança de que o intervalo [25, 81 ; 30, 89] contenha o verdadeiro parâmetro
populacional µ.
b. Com tα/2 = 1, 6896 temos µ = 28, 35 ± 2, 11, isto é, o IC (90%) para µ é [26, 24 ; 30, 46].
Interpretação: Temos 95% de confiança de que o intervalo [26, 24 ; 30, 46] contenha o verdadeiro parâmetro
populacional µ.
a. Temos µ = 1400 ± 95, 95, isto é, o IC (95%) para µ é [1304, 05 ; 1495, 95].
Interpretação: Temos 95% de confiança de que o intervalo [1304, 05 ; 1495, 95] contenha o verdadeiro saldo
médio populacional µ.
b. Temos µ = 1400 ± 128, 45, isto é, o IC (99%) para µ é [1271, 55 ; 1528, 45].
Interpretação: Temos 99% de confiança de que o intervalo [1271, 55 ; 1528, 45] contenha o verdadeiro saldo
médio populacional µ.
Exercı́cio 8: Aplicações em pesquisas antropométricas. Temos µ b = X = 70, 65kg, isto é, o IC (95%)
para µ é [67, 99 kg ; 73, 31 kg].
Interpretação: Temos 95% de confiança de que o intervalo [67, 99 kg ; 73, 31 kg] contenha o verdadeiro
peso médio populacional µ dos funcionários dessa grande empresa multinacional.
Utilizando a expressão para determinar o tamanho da amostra considerando um erro de estimativa e = 25 ppm
temos
tα/2 × S 2
2
2, 5835 × 89, 37
n = = = 85, 29
e 25
⇒ n = 85 pontos de sondagem
a. O intervalo de confiança IC (95%) para a proporção p de clientes insatisfeitos com o prazo de entrega do
imóvel é [0, 3962 ; 0, 5150]. Interpretação: Temos 95% de confiança de que o intervalo [0, 3962 ; 0, 5150] contém
a proporção p de clientes insatisfeitos com o prazo de entrega do imóvel.
b. Considerando 95% de confiança o tamanho da amostra, considerando um erro de estimativa de 3%, deveria
ser n = 1059 clientes. Supondo que ainda não foi consultado nenhum cliente, o tamanho da amostra, para esse
nı́vel de confiança, considerando um erro de estimativa de 3% deveria ser n = 1067 clientes.
Exercı́cio 2.
26
Item a. Temos que pb = 192 = 0, 1354.
Para 90% de confiança, temos que Zα/2 = 1, 645 e o IC (90%) para a proporção de produtos defeituosos p é
[0, 0948; 0, 1760].
Interpretação: Temos 90% de confiança de que o intervalo [0, 0948; 0, 1760] contém a verdadeira proporção de
produtos defeituosos p.
Para 95% de confiança, temos que Zα/2 = 1, 96 e o IC (95%) para a proporção de produtos defeituosos p é
[0, 0870; 0, 1838].
Interpretação: Temos 95% de confiança de que o intervalo [0, 0870; 0, 1838] contém a verdadeira proporção de
produtos defeituosos p.
Para 99% de confiança, temos que Zα/2 = 2, 575 e o IC (99%) para a proporção de produtos defeituosos p é
[0, 0718; 0, 1990].
Interpretação: Temos 99% de confiança de que o intervalo [0, 0718; 0, 1990] contém a verdadeira proporção de
produtos defeituosos p.
Item b. Se ainda não foi colhida nenhuma amostra temos que o tamanho da amostra deve ser:
Para um erro de estimativa de 2, 5% temos n = 1.537.
Para um erro de estimativa de 6% temos n = 267.
Para um erro de estimativa de 12% temos n = 67.
Exercı́cio 3.
a. Temos que pb = 0, 5850 e o IC (95%) para p é [0, 5545 ; 0, 6155]. Interpretação: Temos 95% de confiança
de que o intervalo [0, 5545 ; 0, 6155] contem a verdadeira proporção populacional p de habitantes insatisfeitos com
a administração estadual.
b. n = 1492.
c. Redirecionar o plano, pois o IC mostra que este valor é superior a 50%.
Exercı́cio 4.
a. Temos que o IC (95%) para p é [0, 2800 ; 0, 3867]. Interpretação: Temos 95% de confiança de que o
intervalo [0, 2800 ; 0, 3867] contem a verdadeira proporção populacional p de pessoas que consomem o produto.
b. Não, pois n = 2358.
c. Sim, pois o IC mostra que 40% está dentro do IC (99%). O IC (99%) para p é [0, 2632 ; 0, 4034].
Interpretação: Temos 99% de confiança de que o intervalo [0, 2632 ; 0, 4034] contem a verdadeira proporção
populacional p de pessoas que consomem o produto.
Exercı́cio 5.
a. pb = 0, 2901.
b. O IC (95%) para p é [0, 2763 ; 0, 3036]. Interpretação: Temos 95% de confiança de que o intervalo
[0, 2763 ; 0, 3036] contem a verdadeira proporção populacional p de pinheiros afetados pela doença.
Exercı́cio 6. Temos que pb = 0, 6406 e o IC (95%) para p é [0, 5230 ; 0, 7582]. Interpretação: Temos 95%
de confiança de que o intervalo [0, 5230 ; 0, 7582] contem a verdadeira proporção populacional p de pacientes que
sofrem desta sı́ndrome neurológica que são curados. Na continuação do exercı́cio temos que n = 354 doentes teriam
que ser observados.
Exercı́cio 7.
a. n = 787 grávidas. b. n = 2401 grávidas.
Exercı́cio 8.
a. n = 43. b. n = 96. c. n = 384.
Exercı́cio 9.
a. n = 30. b. n = 68. c. n = 271.
Exercı́cio 10.
a. O IC (95%) para p é [68, 16%; 75, 84%]. Interpretação: Temos 95% de confiança de que o intervalo
[68, 16%; 75, 84%] contem a verdadeira proporção populacional p de indivı́duos obesos com hipertensão arterial.
b. O IC (99%) para p é [66, 95%; 77, 05%]. Interpretação: Temos 99% de confiança de que o intervalo
[66, 95%; 77, 05%] contem a verdadeira proporção populacional p de indivı́duos obesos com hipertensão arterial.
c. n = 310.
d. n = 861.
e. n = 4.268.
Exercı́cio 11.
a. O IC (95%) para p é [54, 93%; 70, 41%]. Sim, o diretor da TV por assinatura tem razão em afirmar que
mais de 50% dos assinantes estão satisfeitos com o conteúdo do canal A, pois temos 95% de confiança de que o
intervalo [54, 93%; 70, 41%] contem a verdadeira proporção populacional p de assinantes satisfeitos com o conteúdo
do canal A.
b. O IC (95%) para p é [45, 78%; 70, 35%]. Sim, o diretor da TV por assinatura tem razão em afirmar que
metade das assinantes do sexo feminino estão insatisfeitas com o conteúdo do canal A, pois temos 95% de confiança
de que o intervalo [45, 78%; 70, 35%] contem a verdadeira proporção populacional p de assinantes do sexo feminino
que estão insatisfeitos com o conteúdo do canal A.
c. O IC (95%) para p é [68, 52%; 86, 03%]. Interpretação: Temos 95% de confiança de que o intervalo
[68, 52%; 86, 03%] contem a verdadeira proporção populacional p de assinantes do sexo masculino que estão satis-
feitos com o conteúdo do canal A.
d. O IC (95%) para p é [29, 62%; 54, 22%]. Interpretação: Temos 95% de confiança de que o intervalo
[29, 62%; 54, 22%] contem a verdadeira proporção populacional p de assinantes do sexo feminino que estão satisfeitos
com o conteúdo do canal A.
e. Podemos observar que, a partir dos intervalos de confiança obtidos em c e d, a proporção de homens
satisfeitos para o conteúdo do canal A é maior que a proporção de mulheres satisfeitas.
f. Sim, a amostra é suficiente, pois, para um erro de no máximo 10% bastaria n = 90 assinantes.
Item a. O intervalo de confiança IC (95%) para a proporção p de clientes insatisfeitos com o prazo de entrega
do imóvel é [0, 4949 ; 0, 6145] ou [49, 49% ; 61, 45%].
Interpretação: Temos 95% de confiança de que o intervalo [0, 4949 ; 0, 6145] contem a proporção p de clientes
insatisfeitos com o prazo de entrega do imóvel.
Item b. Considerando um erro de estimativa de 5% o tamanho da amostra deveria ser n = 380 clientes.
Supondo que ainda não foi consultado nenhum cliente, e considerando o mesmo erro de estimativa de 5% o tamanho
da amostra deveria ser n = 384 clientes.
v Exercı́cio 4. Trata-se de um teste unilateral a esquerda. Dados amostrais: X = 0, 997 litros e o desvio
padrão populacional é conhecido, σ = 0, 005 litros. Desta forma devemos usar a distribuição normal padrão Z.
Considerando um nı́vel de significância de 5%, verificamos na tabela Z que o valor do Z crı́tico é Zc = 1, 645. O
valor da estatı́stica observada é Zo = −2, 4. Portanto temos:
Método da estatı́stica: |Zo | = |−2, 4| > |Zc | = |1, 645|.
Método do intervalo de confiança:
O IC (95%) para µ é [0, 995 litros; 0, 999 litros].
Método do p-value: p − value = 0, 0164 < α = 0, 05.
Conclusão: Rejeita-se H0 , isto é, há evidências de que o volume médio µ de todos os pacotes de leite seja
menor que 1 litro, considerando um nı́vel de confiança de 95%.
Exercı́cio 5. Trata-se de um teste bilateral. Dados amostrais: X = 510 gramas e o desvio padrão populacional
é conhecido, σ = 10 gramas. Desta forma devemos usar a distribuição normal padrão Z. Considerando um nı́vel de
significância de 5%, verificamos na tabela Z que o valor do Z crı́tico é Zc = 1, 96. O valor da estatı́stica observada
é Zo = 3. Portanto temos:
Método da estatı́stica teste: |Zo | > |Zc |.
Método do intervalo de confiança:
Como o teste é bilateral, temos que o IC (95%) para µ é [503, 47 gramas ; 516, 53 gramas].
Conclusão: Rejeita-se H0 , isto é, existe evidências estatı́sticas de que o peso médio µ do saco de café não seja
de 500 gramas, considerando um nı́vel de significância de 5%. Em outras palavras, a máquina não está corretamente
regulada.
Exercı́cio 1.
Considerando α = 0, 05:
Método da estatı́stica: |Zo | = |2, 8005| > |Zc | = |1, 645|
Método do IC: O IC (95%) para p é [0, 8108; 0, 8892].
Método do p-value: p − value = 0, 0062 < α = 0, 05.
Rejeita-se a hipótese nula H0 , isto é, a empresa deve optar pelo lançamento do serviço, a um nı́vel de confiança
de 95%.
Considerando α = 0, 01:
Método da estatı́stica: |Zo | = |2, 5| > |Zc | = |2, 33|.
Método do IC: O IC (95%) para p é [0, 8034; 0, 8966].
Método do p-value: p − value = 0, 0062 < α = 0, 01.
Rejeita-se a hipótese nula H0 , isto é, a empresa deve optar pelo lançamento do serviço, a um nı́vel de confiança
de 99%.
Exercı́cio 2.
Considerando α = 0, 01:
Método da estatı́stica: |Zo | = |3, 79| > |Zc | = |2, 575|
Método do IC: O IC (95%) para p é [0, 2964; 0, 7036].
Método do p-value: p − value = 0, 0001 < α = 0, 01.
Rejeita-se a hipótese nula H0 , isto é, A associação entre a digoxina e os outros medicamentos fizeram variar o
número de reações adversas, a um nı́vel de confiança de 95%.
Considerando α = 0, 05:
Método da estatı́stica: |Zo | = |3, 79| > |Zc | = |1, 96|
Método do IC: O IC (95%) para p é [0, 3450; 0, 6550].
Método do p-value: p − value = 0, 0001 < α = 0, 05.
Rejeita-se a hipótese nula H0 , isto é, a associação entre a digoxina e os outros medicamentos fizeram variar o
número de reações adversas, considerando um nı́vel de confiança de 95%.
Exercı́cio 3.
Considerando α = 0, 05:
Método da estatı́stica: |Zo | = |−1, 47| < |Zc | = |1, 645|
Método do IC: O IC (95%) para p é [0, 4378; 0, 6956].
Método do p-value: p − value = 0, 0445 < α = 0, 05.
Aceita-se a hipótese nula H0 , isto é, não há razões para afirmar a eficácia do método a um nı́vel de confiança
de 95%.
Exercı́cio 4.
Rejeita-se H0 , isto é, não é compatı́vel com a pretensão do produtor de que é 90% eficaz a um nı́vel de confiança
de 95%.
b.) Método da estatı́stica: |Zo | = |−4, 20| > |Zc | = |1, 645|
Método do IC: O IC (95%) para p é [0, 7497; 0, 8343].
Método do p-value: p − value ∼ = 0 < α = 0, 05.
Rejeita-se H0 , isto é, a eficácia do chá para curar dores de cabeça é menor que 90% a um nı́vel de confiança de
95%. Exercı́cio 5.
Aceita-se H0 , isto é, os resultados da estação agronômica são compatı́veis com as leis de Mendel a um nı́vel de
confiança de 99%.
Aceita-se H0 , isto é, os resultados da estação agronômica são compatı́veis com as leis de Mendel a um nı́vel de
confiança de 99%.
Aceita-se H0 , isto é, os resultados da estação agronômica são compatı́veis com as leis de Mendel a um nı́vel de
confiança de 99%.
d.) Testando ervilhas verdes de casca dura:
Método da estatı́stica: |Zo | = |0, 38| < |Zc | = |2, 575|
Método do IC: O IC (99%) para p é [0, 0392; 0, 0938].
Método do p-value: p − value = 0, 7059 > α = 0, 01.
Aceita-se H0 , isto é, os resultados da estação agronômica são compatı́veis com as leis de Mendel a um nı́vel de
confiança de 99%.
Exercı́cio 6.
Considerando α = 0, 05:
Método da estatı́stica: |Zo | = |−1, 16| < |Zc | = |1, 96|
Método do IC: O IC (95%) para p é [0, 7066; 0, 9734].
Método do p-value: p − value = 0, 1234 > α = 0, 05.
Rejeita-se H0 , isto é, há evidências de que o percentual de cura em adultos no caso de pneumonia é de 90% a
um nı́vel de confiança de 95%.
Exercı́cio 7.
Considerando α = 0, 05:
Método da estatı́stica: |Zo | = |1, 80| < |Zc | = |1, 96|
Método do IC: O IC (95%) para p é [0, 0788; 0, 1878].
Método do p-value: p − value = 0, 0721 > α = 0, 05.
Aceita-se a hipótese nula, isto é, os dados são não-viciados a um nı́vel de confiança de 95%.
Exercı́cio 8.
Considerando α = 0, 05:
Método da estatı́stica: |Zo | = |−3, 53| > |Zc | = |1, 645|
Método do IC: O IC (95%) para p é [0, 7534; 0, 8466].
Método do p-value: p − value = 0, 0002 < α = 0, 05.
Rejeita-se a hipótese nula, isto é, o novo medicamento não tem sua eficácia em 90% dos casos a um nı́vel de
confiança de 95%.
Considerando α = 0, 01:
Método da estatı́stica: |Zo | = |−3, 53| > |Zc | = |2, 33|
Método do IC: O IC (99%) para p é [0, 7341; 0, 8659].
Método do p-value: p − value = 0, 0002 < α = 0, 05.
Rejeita-se a hipótese nula, isto é, o novo medicamento não tem sua eficácia em 90% dos casos a um nı́vel de
confiança de 99%.
Exercı́cio 9.
Considerando α = 0, 05:
Método da estatı́stica: |Zo | = |1, 76| < |Zc | = |1, 96|
Método do IC: O IC (95%) para (pA − pB ) é [−0, 0092; 0, 1692].
Método do p-value: p − value = 0, 0787 > α = 0, 05.
Aceita-se a hipótese nula, isto é, não há diferenças significativas entre a intenção de voto dos eleitores do distrito
A e B a um nı́vel de confiança de 95%.
Exercı́cio 10.
a.) O IC (95%) para p é [0, 5353; 0, 6647].
b.) n = 881.
c.) Método da estatı́stica: |Zo | = |3, 03| > |Zc | = |1, 645|
Portanto, rejeita-se a hipótese nula H0 = 0, 5, isto é, mais da metade das viram o programa, a um nı́vel de
confiança de 95%.
Exercı́cio 1.)
(n−1)s2
σ2 = 6, 252, considerando α = 0, 05 temos 0, 8312 < 6, 252 < 12, 833.
E o IC (95%) para σ 2 é [121.795, 37; 1.880.413, 86]
Conclusão: Aceitamos a hipótese nula de que σ 2 = 250.000.
Exercı́cio 2.)
(n−1)s2
σ2 = 78, 125, considerando α = 0, 05 temos 78, 125 ∈/ [32, 357; 71, 420].
E o IC (95%) para σ 2 é [70, 01; 154, 53]
Conclusão: Rejeitamos a hipótese nula de que σ 2 = 64.
(n−1)s2
σ2 = 78, 125, considerando α = 0, 01 temos 78, 125 ∈ [27, 991; 79, 490].
E o IC (99%) para σ 2 é [62, 90; 178, 63]
Conclusão: Aceitamos a hipótese nula de que σ 2 = 64.
Exercı́cio 3.)
a.) Temos σ c2 = s2 = 0, 0231 e o IC (95%) para σ 2 é [0, 0124; 0, 0575].
b.) Considerando α = 0, 05 rejeitamos H0 , isto é σ 2 6= 0, 01.
O IC (99%) para σ 2 é [0, 0103; 0, 0794].
Considerando α = 0, 01 rejeitamos H0 , isto é σ 2 6= 0, 01.
Exercı́cio 4.)
2 2
a.) Considerando α = 0, 05 rejeitamos H0 , isto é σA 6= σB .
Fo = 5, 32 > Fc = 4, 95 e p − value = 0, 0434 < α = 0, 05.
2 2
b.) Considerando α = 0, 01 aceitamos H0 , isto é σA = σB .
Fo = 5, 32 < Fc = 10, 67 e p − value = 0, 0434 > α = 0, 01.
Exercı́cio 1. Temos que os dados amostrais são: X = 50, 87, SX = 9, 46, Y = 56, 75 e SY = 6, 36.
Item a. Teste de hipótese bilateral para µX :
H0 : µX = 50
H1 : µX 6= 50
Exercı́cio 2.
2
Trata-se de um teste de hipótese bilateral. Temos que X = 7, 3, SX = 2, 6, Y = 7, 1, SY = 3, 1 e S = 8, 125.
Como tO = 0, 1569 e tC = 2, 1009, temos a seguinte conclusão:
Conclusão: Aceita-se H0 , isto é, não há evidências estatı́sticas de que o rendimento médio dos alunos de
economia seja diferente do rendimento médio dos alunos de administração, considerando 5% de significância.
Exercı́cio 3.
Trata-se de um teste de hipótese unilateral à esquerda. Temos que X = 3, 2, SX = 0, 80, Y = 3, 7, SY = 0, 9 e
2
S = 0, 725.
Como tO = −2, 5039 e tC = −2, 4233, temos a seguinte conclusão:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que o tempo médio de adaptação dos homens é
menor do que o tempo médio de adaptação das mulheres, considerando 1% de significância.
Exercı́cio 4.
Trata-se de um teste de hipótese unilateral à direita. Temos que X = 227, 58, SX = 13, 84, Y = 247, 92,
2
SY = 21, 59 e S = 328, 84.
Como tO = −2, 6305 e tC = 2, 5083, temos a seguinte conclusão:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que incentivos por meio de comissões gerem
uma venda média maior, considerando 1% de significância.
Exercı́cio 5.
Trata-se de um teste de hipótese bilateral. Temos que X = 1180, SX = 120, Y = 1160, SY = 40.
Como ZO = 1, 5811 e ZC = 1, 96, temos a seguinte conclusão:
Conclusão: Aceita-se H0 , isto é, há evidências estatı́sticas de que as marcas das pilhas têm a mesma duração
média, considerando 5% de significância.
Exercı́cio 6.
Trata-se de um teste de hipótese unilateral à esquerda. Temos que X = 47, 0, SX = 7, 8, Y = 53, 8, SY = 6, 1 e
2
S = 48, 12.
Como tO = −3, 1300 e tC = −1, 6849, temos a seguinte conclusão:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que os pacientes com depressão têm uma função
cortical abaixo do normal, considerando 5% de significância.
Exercı́cio 7.
2
Trata-se de um teste de hipótese bilateral. Temos que X = 1, 8, SX = 0, 40, Y = 0, 66, SY = 0, 20 e S = 0, 0930.
Como tO = 12, 4607 e tC = 2, 0167, temos a seguinte conclusão:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que a cirrose de fı́gado faz variar o ı́ndice de
atividade da colinesterase no soro, considerando 5% de significância.
Exercı́cio 8.
2
Trata-se de um teste de hipótese bilateral. Temos que X = 100, SX = 283, 33, Y = 60, SY2 = 207, 89 e
2
S = 232, 14.
Como tO = 6, 7786 e tC = 2, 0484, temos a seguinte conclusão:
Conclusão: Rejeita-se H0 , isto é, não há evidências estatı́sticas de que a venda média da região sul é igual a
venda média da região norte, considerando 5% de significância.
Exercı́cio 1. Trata-se de um teste de hipótese unilateral à esquerda para µd (dados pareados). Como tO =
−2, 4024 e tC = 1, 8331 temos a seguinte conclusão:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que a ração engorda os animais, considerando
1% de significância.
Exercı́cio 2. Trata-se de um teste de hipótese unilateral à direita para µd (dados pareados). Temos que
d = 0, 12 e Sd = 0, 4050
Método da estatı́stica teste: tO = 0, 9370 e tC = 1, 3830.
Método do p-value: p − value = 0, 3742.
Método do IC: O intervalo de confiança para µd é [−0, 1697 ; 0, 4097].
Conclusão: Aceita-se H0 , isto é, não há evidências de que o curso contribuiu para a economia de combustı́vel,
considerando 10% de significância.
Exercı́cio 3. Trata-se de um teste de hipótese unilateral à direita para µd (dados pareados). Temos que d = 5
e Sd = 1, 8708
Método da estatı́stica teste: tO = 5, 9761 e tC = 2, 1318.
Método do p-value: p − value = 0, 00394.
Método do IC: O intervalo de confiança para µd é [2, 6771 ; 7, 3229].
Conclusão: Rejeita-se H0 , isto é, há evidências de que a máquina B é mais rápida que a máquina A, conside-
rando 5% de significância.
Exercı́cio 4. Trata-se de um teste de hipótese unilateral à direita para µd (dados pareados). Temos que
d = 32, 6667 e Sd = 21, 8654
Método da estatı́stica teste: tO = 5, 7862 e tC = 1, 7613.
Método do p-value: p − value = 0, 00004716.
Método do IC: O intervalo de confiança para µd é [20, 5580 ; 44, 7753].
Conclusão: Rejeita-se H0 , isto é, há evidências de que o tratamento contribuiu para diminuir a pressão sistólica
dos indivı́duos hipertensos, considerando 5% de significância.
Exercı́cio 5. Trata-se de um teste de hipótese unilateral à direita para µd (dados pareados). Temos que d = 5
e Sd = 10, 0995
Método da estatı́stica teste: tO = 1, 5656 e tC = 1, 8331.
Método do p-value: p − value = 0, 1519.
Método do IC: O intervalo de confiança para µd é [−2, 2248 ; 12, 2248].
Conclusão: Aceita-se H0 , isto é, não há evidências de que a campanha antipoluição reduziu de fato a poluição,
considerando 5% de significância.
Exercı́cio 6. Trata-se de um teste de hipótese unilateral à direita para µd (dados pareados). Temos que d = 4
e Sd = 3, 6056
Método da estatı́stica teste: tO = 3, 6795 e tC = 1, 8125.
Método do p-value: p − value = 0, 00425.
Método do IC: O intervalo de confiança para µd é [1, 5778 ; 6, 4222].
Conclusão: Rejeita-se H0 , isto é, há evidências de que existe uma queda significativa da pressão sanguı́nea
sistólica após a ingestão de etanol, considerando 5% de significância.
Dessa forma, temos o valor da estatı́stica observada Fo = 4, 2235 e o valor crı́tico Fc = 3, 59. Como Fo > Fc ,
conclui-se:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que pelo menos um grupo tenha o valor médio
diferente dos demais grupos, considerando 5% de significância.
Tabela ANOVA
Fonte de Graus de Soma dos Média dos Valor F Valor F
Variabilidade Liberdade Quadrados Quadrados Observado Crı́tico
Variabilidade
Entre 2 2, 3409 1, 1704 4, 2235 3, 59
Variabilidade
Dentro 17 4, 7111 0, 2771
Variabilidade
Total 19 7, 0520
Dessa forma, temos o valor da estatı́stica observada Fo = 3, 5626 e o valor crı́tico Fc = 2, 95. Como Fo > Fc ,
conclui-se:
Conclusão: Rejeita-se H0 , isto é, há evidências estatı́sticas de que pelo menos um grupo tenha o valor médio
diferente dos demais grupos, considerando 5% de significância.
Tabela ANOVA
Fonte de Graus de Soma dos Média dos Valor F Valor F
Variabilidade Liberdade Quadrados Quadrados Observado Crı́tico
Variabilidade
Entre 3 29, 3438 9, 7813 3, 5626 2, 95
Variabilidade
Dentro 28 76, 8750 2, 7455
Variabilidade
Total 31 106, 2188
Dessa forma, temos o valor da estatı́stica observada Fo = 2, 6807 e o valor crı́tico Fc = 2, 76. Como Fo < Fc ,
conclui-se:
Conclusão: Aceita-se H0 , isto é, não há evidências estatı́sticas de que um grupo tenha o valor médio diferente
dos demais grupos, considerando 5% de significância.
Tabela ANOVA
Fonte de Graus de Soma dos Média dos Valor F Valor F
Variabilidade Liberdade Quadrados Quadrados Observado Crı́tico
Variabilidade
Entre 4 273108, 13 68277, 03 2, 6807 2, 76
Variabilidade
Dentro 25 636749, 33 25469, 97
Variabilidade
Total 29 909857, 47
Dessa forma, temos o valor da estatı́stica observada Fo = 0, 2288 e o valor crı́tico Fc = 3, 01. Como Fo < Fc ,
conclui-se:
Conclusão: Aceita-se H0 , isto é, não há evidências estatı́sticas de que um grupo tenha o valor médio diferente
dos demais grupos, considerando 5% de significância.
Tabela ANOVA
Fonte de Graus de Soma dos Média dos Valor F Valor F
Variabilidade Liberdade Quadrados Quadrados Observado Crı́tico
Variabilidade
Entre 3 329, 6028 109, 8676 0, 2288 3, 01
Variabilidade
Dentro 24 11523, 3972 480, 1416
Variabilidade
Total 27 11853, 0000
Exercı́cio 1.
a. rXY = 0, 9259. Interpretação de rXY : 92, 59% das observações de Y estão correlacionadas positivamente
com as observações de X.
b. Yb = −39, 15 + 66, 1X.
c. βb0 nesse caso não há interpretação prática, pois não há altura zero.
d. βb1 = 66, 1 : Para cada unidade de X aumentamos 66, 1 unidades em Y .
2
e. rXY = 0, 8573. Então 85, 73% das observações de Y são explicadas por X.
f. Se X = 1, 75m então Yb = 76, 5kg.
g. Se X = 1, 85m então Yb = 83, 1kg.
h. Se X = 1, 98m então Yb = 91, 7kg.
Exercı́cio 2.)
2
a.) Modelo linear: Yb = −3659, 4354 + 363, 2251X e rXY = 0, 4966
Modelo exponencial: Yb = 0, 0036 × 2, 3791X e 2
rXY = 0, 9006
Modelo potência: Yb = 2E − 09X 10,1189 e 2
rXY = 0, 9025
b.) Logo, o modelo potência é o melhor modelo ajustado.
c.) Se X = 20 então Yb = 29251, 8.
Exercı́cio 3.)
a.) rXY = 0, 9499
Interpretação: 94, 99% das observações de Y estão correlacionadas positivamente com as observações de X.
Exercı́cio 4.)
2
a.) Modelo linear: Yb = −5847, 6 + 254, 39X. e rXY = 0, 9023.
Modelo exponencial: Yb = 88, 87 × 1, 1049X e 2
rXY = 0, 9592.
3,2393 2
Modelo potência: Y = 0, 0294X
b e rXY = 0, 9489.
b.) Logo, o modelo exponencial é o melhor modelo ajustado.
c.) Se X = 38 então Yb = 3936 gramas.
Exercı́cio 5.)
a.) rXY = −0, 9334
Interpretação: 93, 34% das observações de Y estão correlacionadas negativamente com as observações de X.
Em outras palavras, quanto maior a renda familiar, menor o número de filhos por famı́lia.
Exercı́cio 6.)
2
Modelo linear: Yb = −137 + 46, 291X. e rXY = 0, 7064.
X 2
Modelo exponencial: Y = 1, 3406 × 1, 8268
b e rXY = 0, 9945.
Modelo potência: Yb = 0, 9760X 2,4043 e 2
rXY = 0, 9281.
Logo, o modelo exponencial é o melhor modelo ajustado.
Exercı́cio 7.)
2
Modelo linear: Yb = 58, 487 − 1, 5192X. e rXY = 0, 9037.
X 2
Modelo exponencial: Y = 81, 1906 × 0, 9446
b e rXY = 0, 9810.
Modelo potência: Yb = 657, 99X −1,1022 e 2
rXY = 0, 9852.
Logo, o modelo potência é o melhor modelo ajustado.
Exercı́cio 8.)
2
Modelo linear: Yb = −0, 5714 + 6, 1429X e rXY = 0, 9783.
Modelo exponencial: Yb = 5, 3947 × 1, 3844X e 2
rXY = 0, 8925.
Modelo potência: Yb = 5, 3308X 1,0781 e 2
rXY = 0, 9853.
Considerando o melhor modelo ajustado, que é o modelo potência, a altura esperada de um pé de feijão após
X = 8 semanas é de Yb = 50, 17.
Exercı́cio 9.)
2
Modelo linear: Yb = 61, 5804 + 1, 4169X e rXY = 0, 6480.
X 2
Modelo exponencial: Yb = 62, 3653 × 1, 0178 e rXY = 0, 6201.
0,1479 2
Modelo potência: Y = 56, 6682X
b e rXY = 0, 5397.
Considerando o melhor modelo ajustado, que é o modelo linear, o valor esperado para X = 18 é de Yb = 87, 08.
Exercı́cio 10.)
2
Modelo linear: Yb = 55, 2633 + 7, 6901X e rXY = 0, 6699.
Modelo exponencial: Yb = 62, 2699 × 1, 0850X e 2
rXY = 0, 6619.
0,4181 2
Modelo potência: Y = 47, 8427X
b e rXY = 0, 6653.
2
O melhor modelo ajustado é o modelo linear, pois possui o maior rXY .
Exercı́cio 12.)
2
Modelo linear: Yb = 0, 2495 + 0, 9711X e rXY = 0, 6742.
Modelo exponencial: Yb = 13, 9336 × 1, 0248X e 2
rXY = 0, 6859.
Modelo potência: Yb = 1, 5715X 0,8656 e 2
rXY = 0, 64440.
2
O melhor modelo ajustado é o modelo potência, pois possui o maior rXY .
Exercı́cio 13.)
2
Modelo linear: Yb = 1, 2595 + 1, 4826X e rXY = 0, 9860.
Modelo exponencial: Yb = 1, 7245 × 1, 5411X e 2
rXY = 0, 9624.
0,5322 2
Modelo potência: Y = 2, 8948X
b e rXY = 0, 9537.
2
O melhor modelo ajustado é o modelo linear, pois possui o maior rXY .
Exercı́cio 14.)
2
a.) Modelo linear: Yb = 752, 98 − 27, 46X. e rXY = 0, 9386.
X 2
Modelo exponencial: Y = 9050, 42 × 0, 8227
b e rXY = 0, 9990.
Modelo potência: Yb = 54128090X −4,2166 e 2
rXY = 0, 9974.
Logo, o modelo exponencial é o melhor modelo ajustado.
b.) Se X = 19 reais, então Yb = 222 pizzas.
c.) Se X = 16 reais, então Yb = 399 pizzas.
0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
3.1 0.4990 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.4993
3.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995
3.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.4997
3.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998
3.5 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998
3.6 0.4998 0.4998 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.7 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.8 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.9 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
4.0 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
Referências
[1] ANDERSON, D.R., SWEENEY, D.J., WILLIAMS, T.A. Estatı́stica Aplicada à Administração e Economia.
3ªed. São Paulo: Pioneira Thomson Learning, 2013.
[2] BUSSAB, Wilton O., MORETTIN, Pedro A. Estatı́stica Básica. São Paulo: Editora Saraiva, 8ªed, 2013.
[3] CORDEIRO, G. M. Modelos Lineares Generalizados. VII Simpósio Brasileiro de Probabilidade e Estatı́stica.
UNICAMP. Campinas, São Paulo, 1986.
[4] DEMÉTRIO, C. G. B. Modelos Lineares Generalizados em Experimentação Agronômica. 46 Reunião Anual
da Região Brasileira da Sociedade Internacional de Biometria (RBRAS) e 9 Simpósio de Estatı́stica Aplicada
à Experimentação Agronômica (SEAGRO), ESALQ/USP. Piracicaba, São Paulo, 2001.
[5] DEVORE, J. L. Probabilidade e estatı́stica para engenharia e ciências. Editora: Thompson, 8ªed, 2014.
[6] DOBSON, A.J.; BARNETT, A.G. Introduction to Generalized Linear Models. 3rd ed, Boca Raton, FL: Chap-
man and Hall CRC, 2008.
[7] FREUND John E. SIMON, Gary A. Estatı́stica Aplicada. 9. ed. Porto Alegre: Bookman, 11 ed, 2006.
[8] HOSMER, D. W., LEMESHOW, S. Applied Logistic Regression. John Wiley, New York, 2005.
[9] JAMES, B. Probabilidade: um curso em nı́vel intermediário. IMPA, 3 ed, 2006.
[10] KLEINBAUM, D. G., KLEIN, M. Logistic Regression: a self-learning text. New York: Springer-Verlac, 3 ed,
2010.
[11] LAPPONI, J. C. Estatı́stica usando Excel. Elsevier, Editora Campus, 4 ed, 2005.
[12] McCULLAGH, P., NELDER, J.A. Generalized Linear Models. Chapman and Hall: London, 2 ed, 1989.
[13] MEYER, P.L. Probabilidade, aplicações a estatı́stica. Editora: LTC, 2 ed, 1984.
[14] MONTGOMERY, D. C. Introduction to Statistical Quality Control. John Wiley & Sons, New York, 17 ed,
2018.
[15] MORETTIN, L. G. Estatı́stica Básica: Inferência - Volume 2 – Makron Books ,2000.
[16] MORETTIN, P. A. TOLOI, C. M. Análise de Séries Temporais. Edgard Blucher, 2 ed, 2006.
[17] MURRAY, R. S. Probabilidade e estatı́stica. Editora: Makron Books, 1993.
[18] MURTEIRA, B. J. F. Probabilidade e Estatı́stica. Vol. I, McGraw-Hill de Portugal, 1980.
[19] NELDER, J. A.; WEDDERBURN, R. W. M. Generalized Linear Models. Journal of the Royal Statistical
Society A, 135, 3, p.370 − 84, 1972.
[20] PAULA, G. A. Modelos de Regressão com Apoio Computacional. São Paulo: IME/USP. 2002.
[21] RONCHETTI, E., HERITIER, S., MORABIA, A. Robust Binary Regression with Continuous Outcomes.
Genève: Cahiers du Département d’Econométrie, Université de Genève, 21p, 1997.
[22] SCHULTZ, Duane P.; SCHULTZ, Sydney Ellen. História da psicologia moderna. 16. ed. São Paulo: Cultrix,
439 p. 1992.
[23] SPIEGEL, M. R. Estatı́stica. São Paulo, Makron Books, 3 ed, 1999.
[24] SIDNEY S. Estatı́stica não-paramétrica para ciências do comportamento. Editora: Artmed, 2006.
[25] STEVENSON, W.J. Estatı́stica aplicada à administração. Tradução de Alfredo Alves de Farias. Harbra, SP,
2001.
[26] THOMPSON, R., BAKER, R. J. Composite link functions in generalized linear models. Applied Statistics,
30, 125 − 131. 1981.
[27] TOLEDO, Geraldo Luciano, OVALLE, Ivo Izidoro. Estatı́stica Básica. São Paulo: Editora Atlas, 2 ed, 1994.
[28] TRIOLA, M. F. Introdução e estatı́stica. Editora LTC, 10 ed, 2008.
[29] VIEIRA, S., HOFFMANN, R. Análise de Regressão. Editora: Hucitec, 1998.