Escolar Documentos
Profissional Documentos
Cultura Documentos
BASICA
Curso: Biotecnologia
1 SOMATORIO
1.2.1 Exemplo
Considere a variavel X = {1, 0, 1, 2, 1}, cada valor (ou elemento) de X corresponde,
respectivamente, a x1 , x2 , x3 , x4 , x5 , quer dizer que x1 = 1, x2 = 0, x3 = 1, x4 = 2, x5 = 1. Alguns
somatorios podem ser calculados:
X5
a) xi = x1 + x2 + x3 + x4 + x5 = 1 + 0 + (1) + 2 + 1 = 3
i=1
5
!2
X 2 2
b) xi = (x1 + x2 + x3 + x4 + x5 ) = (1 + 0 + (1) + 2 + 1) = (3)2 = 9
i=1
5
X
c) x2i = x21 + x22 + x23 + x24 + x25 = (1)2 + (0)2 + (1)2 + (2)2 + (1)2 = 7
i=1
X3
d) xi = x1 + x2 + x3 = 1 + 0 + (1) = 0
i=1
X5
e) xi = x3 + x4 + x5 = 1 + 2 + 1 = 2
i=3
X5
f) xi = x1 + x2 + x5 = 1 + 0 + 1 = 2
i=1
i6=3, 4
1.3 Propriedades
Sejam: a, b e k constantes; X e Y variaveis e xi e yi os valores que as variaveis X e Y assumem,
entao:
(P1) Somatorio de uma constante vezes uma variavel e igual a constante vezes o somatorio da variavel:
Xn X n
axi = ax1 + ax2 + ax3 + ... + axn = a xi
i=1 i=1
(P4) Somatorios de um produto de variaveis e igual ao produto dos somatorios destas variaveis:
X n Xm n
X m
X
xi yj = xi yj
i=1 j=1 i=1 j=1
n
X
ii. Soma de quadrados: x2i = x21 + x22 + ... + x2n
i=1
n
!2
X 2
iii. Quadrado da soma: xi = (x1 + x2 + ... + xn )
i=1
n
X
iv. Soma de produtos: xi yi = x1 y1 + x2 y2 + ... + xn yn
i=1
n
X n
X
v. Produto da soma: xi yi = (x1 + x2 + ... + xn ) (y1 + y2 + ... + yn )
i=1 i=1
Observacao: algumas vezes omite-se os limites do somatorio, quando isso acontecer deve-se
considerar a soma de todos os elementos, desde x1 ate xn :
X X n
x= xi
i=1
1.5 Exerccios
1. Indicar, por meio da notacao de somatorio, cada uma das expressoes seguintes:
a) x21 + x22 + x23 + ... + x210 d) (y12 1)2 + (y22 1)2 + . . . + (y12
2
1)2
b) (x1 + y1 ) + (x2 + y2 ) + ... + (x8 + y8 ) e) (x1 1) + (x2 2)2 + (x3 3)3 + . . . + (xn n)n
c) f1 x31 + f2 x32 + f3 x33 + ... + f20 x320
2. Desenvolver os termos de cada uma das seguintes somas:
X6 N
X 5
X
a) xi c) a e) fk xk
i=1 i=1 k=1
4 Xn 3
X X
b) (yi 3)2 d) b f) (xj a)
i=1 i=a j=1
3. As variaveis, X e Y , assumem os valores: x1 = 2; x2 = 4; x3 = 5; x4 = 8 e y1 = 3; y2 = 8;
y3 = 10; y4 = 6, respectivamente. Calcular:
d) P x2 g) P xy 2
P P P
a) P x
b) P y e) P y 2P h) (x + y)(x y)
c) xy f) x y
4. Dados os valores das variaveis: X = {2, 4, 4, 3, 2}, Y = {1, 2, 3, 6, 7}, obtenha:
X4 5
X X5
a) xi c) 4x2i e) (3xi + 2yi )
i=1 i=1 i=1
5
X X5 4
X 5
X
b) yi d) xi yi f) xi yi + yi2
i=1 i=1 i=2 i=1
constante que representa o numero de elementos (ou dados, ou observacoes) de um conjunto qualquer ou
de uma variavel. Considere os valores assumidos por uma variavel X qualquer: X = {2, 4, 5, 6, 1, 6};
calcule a media e a variancia.
Xn
6. a) Use os valores da variavel X do exerccio anterior para demonstrar que (xi x) = 0.
i=1
b) Use as propriedades de somatorio, lembre-se que x e uma constante, para demonstrar algebricamente
Xn
que (xi x) = 0.
i=1
2 INTRODUCAO
A Estatstica como ciencia somente se estruturou no seculo passado, sendo uma ferramenta
indispensavel na vida moderna. Hoje, cada vez mais pessoas encontram-se expostas a ela em maior ou
menor intensidade. E definida como a ciencia que se ocupa da coleta, da organizacao, da descricao, da
analise e da interpretacao de dados:
a) no plural (estatsticas), indica qualquer colecao consistente de dados numericos reunidos com a finali-
dade de fornecer informacoes acerca de uma atividade qualquer. Por exemplo, estatsticas demograficas
referem-se a dados numericos sobre nascimentos, falecimentos, matrimonios, desquites etc.
b) no singular (estatstica), indica um corpo de tecnicas, ou ainda uma metodologia desenvolvida para
a coleta, a classificacao, a apresentacao, a analise, a interpretacao de dados e a utilizacao desses dados
para a tomada de decisoes.
3 ALGUMAS DEFINICOES
3.1 Variavel
Em trabalho cientfico o pesquisador precisa definir o problema de seu estudo, por exemplo,
qual e a espectativa de vida do brasileiro?; quantos gols o Brasil sofreu por partida na copa de 2014?;
de dois medicamentos qual e aquele que mais auxilia no combate do deficit de atencao?. Para responder
as perguntas, o pesquisador precisa definir com que ferramenta ele ira trabalhar.
Na espectativa de vida do brasileiro, no numero de gols sofrido pela selecao, ou na decisao de
qual e o melhor medicamento no combate do deficit de atencao o pesquisador tera que estudar alguma
caracterstica que o levara a obter a resposta para o seu problema. Estas caractersticas que podem ser
pesquisadas ou registradas e denominada de variaveis. Por meio das variaveis e que se observa ou mede
em cada elemento pesquisado (seja por censo ou por amostragem, levantamento ou experimento), em um
dado momento, um resultado (acontecimento) possvel.
Para responder qual e a espectativa de vida do brasileiro o pesquisador ira definir a variavel
a ser estudada, no caso, idade do obito de um grupo de indivduos. Para mensurar quantos gols o
Brasil sofreu por partida na copa de 2014, a variavel pode ser: numero de gols sofridos pela selecao
brasileira na copa de 2014 por partida. Ja para verificar qual de dois medicamentos aquele que mais
auxilia no combate do deficit de atencao a variavel estudada corresponde ao numero de indivduos que
apresentaram melhoras em relacao ao deficit de atencao ao se testar cada medicamento.
As variaveis sao as caractersticas pesquisadas ou registradas. E por meio das variaveis que se
torna possvel descrever o fenomeno. As variaveis sao caractersticas que podem ser observadas ou medidas
em cada elemento pesquisado (seja por censo ou por amostragem, levantamento ou experimento), sob as
mesmas condicoes. Para cada variavel, para cada elemento pesquisado, em um dado momento, ha apenas
um resultado possvel.
As variaveis podem ser basicamente classificadas de acordo com o seu nvel de mensuracao (o
quanto de informacao cada variavel apresenta) e seu nvel de manipulacao (como uma variavel relaciona-se
com as outras no estudo). Esquematicamente a classificacao das variaveis segundo o nvel de mensuracao
pode ser visualizada na Figura 1.
As variaveis independentes sao aquelas que podem influenciar os valores das variaveis depen-
dentes. Somente a realizacao do estudo vai permitir verificar se ha realmente tal influencia e, somente,
poderemos afirmar que a variavel independente e a causa da variavel dependente assumir determinado
resultado se o estudo for um experimento (pesquisa experimental).
Os termos variavel dependente e independente aplicam-se principalmente a pesquisa experimen-
tal, onde algumas variaveis sao manipuladas, e neste sentido sao independentes dos padroes de reacao
inicial, intencoes e caractersticas das unidades experimentais. Espera-se que outras variaveis sejam de-
pendentes da manipulacao ou das condicoes experimentais. Ou seja, elas dependem do que as unidades
experimentais farao em resposta.
Quando voce vai ao restaurante o valor a ser pago e dependente da quantidade de comida. Voce
pode controlar a quantidade de comida no prato, mas o valor dependera desta quantidade. Ao se estudar
o numero de suicdios ocorridos durante os anos 2007 a 2012 numa determinada cidade, voce manipula a
variavel ano (2007 a 2012), mas o numero de suicdios sera registrado conforme o ano.
3.2 Dados
Sao os valores ou fenomenos obtidos na mensuracao ou observacao de alguma variavel em estudo.
Logo, os dados podem ser qualitativos (nominais ou ordinais) ou quantitativos (discretos ou contnuos)
e independentes ou dependentes. Por exemplo, se a variavel estudada for sexo de indivduos que visitam
um santuario, os dados sao, masculino, masculino, feminino, feminino etc.
Considerando que a variavel estudada seja numero de filhos de um grupo de 20 casais, as
respostas obtidas, 0, 2, 3, 1, 2, 0, ... sao os dados, e neste caso, os dados sao discretos. Ao se estudar
a altura dos estudantes de uma sala de aula, os dados obtidos sao denominados contnuos, pois alguns
valores podem ser: 1,59m, 1,75m, 1,80m etc.
3.3 Populacao
Os dados sao coletados para estudar uma ou mais caractersticas de uma populacao de inte-
resse. Populacao e o conjunto de medidas da(s) caracterstica(s) de interesse em todos os elementos
que a(s) apresenta(m). Se, por exemplo, estamos avaliando as opinioes de eleitores sobre os candidatos a
presidente, a populacao da pesquisa seria constituda pelas opinioes declaradas pelos eleitores em questao.
3.4 Amostra
Uma amostra da populacao e um subconjunto finito e representativo da populacao. Por exem-
plo, se a populacao da pesquisa for constituda pelas opinioes declaradas pelos eleitores, uma amostra
seria parte dessas declaracoes. Quer dizer que e necessario amostrar um grupo de eleitores e a partir deles
constituir uma amostra das declaracoes das suas opinioes.
3.5 Parametro
E uma constante que caracteriza uma populacao. Sao exemplos de parametros:
: media populacional
2 : variancia populacional
p: proporcao populacional
etc.
3.6 Estimador
E uma expressao algebrica (formula) utilizada para obter um valor aproximado de um parame-
tro. Sao exemplos de estimadores:
n
X
xi
i=1
x = : media amostral
n
n
!2
X
n xi
2 1 X 2 i=1
s = x : variancia amostral
n 1 i=1 i n
s= s2 : desvio padrao amostral
y
p = : proporcao amostral, sendo y o numero de sucessos observados em uma amostra de tamanho n
n
etc.
3.7 Estimativa
3.8 Exemplo
3.9 Exerccios
1. A altura (em cm) e a naturalidade de estudan- 2. Logo ao nascer, os filhotes sao pesados e medi-
tes sao as variaveis estudadas por um pesquisador. dos, para saber se estao dentro da faixa ideal para
Estas duas variaveis sao: a especie. Estas duas variaveis sao:
a) ambas contnuas a) qualitativas
b) ambas discretas b) ambas discretas
c) quantitativas contnuas c) contnua e discreta, respectivamente
d) qualitativas nominais d) discreta e contnua respectivamente
e) quantitativa e qualitativa, respectivamente e) ambas contnuas
4 AMOSTRAGEM
Uma das principais subdivisoes da Esta- a obtencao de uma amostra inadequadamente pode
tstica e a Amostragem, que reune os metodos ne- induzir a um vies de interpretacao, como, por exem-
cessarios para coletar adequadamente amostras re- plo, nao mexer a sopa antes de tirar uma colher para
presentativas e suficientes para que os resultados verificar a temperatura do prato todo.
obtidos possam ser generalizados para a populacao
de interesse. Amostras representativas sao aquelas
que guardam ou reproduzem as mesmas caracters-
ticas da populacao.
Diariamente voce tem algum tipo de con-
tato com a amostragem. Quando voce verifica o
tempero de um prato, nao sera necessario comer
tudo o que tem na panela. Quando voce verifica
a temperatura do seu corpo, nao precisa colocar o
termometro em todas as suas partes. Ao verificar a
calibragem do pneu do seu carro, voce se baseia em
apenas um ponto. Ao realizar um exame de san-
gue, por exemplo, o laboratorio retira 40 mL, pois e
suficiente para os exames de rotina (FIGURA1 3).
Veja que em todas as situacoes apresenta-
das o trabalho com amostras foi necessario. Porem Figura 3 Nao seria melhor uma amostra?
Para se realizar a coleta de uma amostra (ou varias amostras), primeiramente deve-se definir
a populacao a ser estudada2 , depois, por meio de tecnicas de amostragem, obtem-se uma amostra (ou
varias amostras) e consequentemente, calcula-se as estatsticas de interesse para a realizacao de inferencias
1 Fonte: http://rogeriocarpi.wordpress.com/2010/02/10/6-respostas-persuasivas-para-quem-nao-acredita-em-amostragem/.
Acesso em: 06 nov. 2014 2 Veja a definicao de populacao na Secao 3.3, pagina 5.
Caso em que a populacao e pequena, como uma turma de 40 alunos de uma sala de aula. Nesta
situacao, a populacao e tao pequena que o custo e o tempo para realizar um censo nao sao muito
maiores do que para uma amostragem.
Quando o tamanho da amostra e grande em relacao a populacao. Isto acontece nos casos em que a
populacao apresenta uma variabilidade tao grande que para se obter uma amostra representativa e
necessario que o tamanho da amostra seja tambem grande. Mesmo que haja algum esforco adicional
despendido com o censo em relacao a amostragem, ele e mais viavel pelo fato de nao se ter que lidar
com o erro amostral (diferenca entre a estimativa da amostra e o parametro da populacao).
Se e necessaria uma precisao completa nas informacoes da populacao. Embora uma amostra seja
representativa da populacao, nela sempre havera uma incerteza envolvida, pois nunca se sabe qual
e o verdadeiro valor do parametro populacional. Por outro lado, o censo dara a informacao de-
sejada, entretando erros na coleta dos dados e outros tipos de vieses podem afetar a precisao do
resultado, motivo pelo qual a coleta de dados devera ser muito cuidadosa e criteriosa. O dono do
supermercado nao faria uma amostragem para saber (estimar) quanto dinheiro ha nos caixas, ele
faz um levantamento (censo) em todos os caixas, isto nao evitaria erros nas quantias obtidas em
cada caixa devido ao erro em trocos, mas evitara problemas ao dizer que um determinado caixa
representa todos.
Ha casos, como um banco de dados com informacoes de alunos de uma determinada turma, em que
ja se dispoe de informacao completa, logo, nao justificaria a necessidade de se trabalhar com uma
amostra.
Quando a populacao e infinita o censo e impossvel de ser executado. Por exemplo, amostra de agua
de curso de agua, amostra de algum produto de producao em serie, amostra de planta da Floresta
Amazonica, etc, sao situacoes em que os indivduos da populacao nunca terminam.
Se e necessaria uma informacao rapida, a amostragem e mais aplicavel do que o censo. Isto porque
a limitacao de tempo e/ou acesso a todos os indivduos da populacao pode inviabilizar o censo.
Numa pesquisa eleitoral para presidencia os indivduos sao muito numerosos e muito dispersos, um
censo de todas as intencoes de votos alem de consumir muito tempo para ser executado, poderia
perder a utilidade, a populacao modifica com o tempo.
Caso em que o tipo de estudo tem um carater destrutivo. Ha certos tipos de estudos em que o
elemento amostrado e destrudo apos a observacao. Desta forma a realizacao de um censo nao traria
vantagem alguma pelo fato de que a populacao nao existiria mais apos o estudo. Um experimento em
que se testa o poder destrutivo de uma municao; apos o disparo, a municao nao existe mais. Outros
itens como lampadas, laminas, agulhas frequentemente sao destrudos como parte do processo de
teste.
Por razoes economicas, isto e, quando ha limitacao de recursos ou quando o custo do censo e alto.
O censo realizado pelo IBGE no Brasil tem um custo muito alto, por isto e realizado a cada 10
anos. A contagem de primatas em uma floresta e quase impossvel porque a populacao e tao grande
e movel que problemas de mensuracao, como contar um primata somente uma vez e tao difcil que
exclui a viabilidade de realizar um censo.
A precisao das informacoes a serem obtidas pode ser relevante na escolha da amostragem, isto porque
a amostragem quando bem feita podera apresentar uma precisao nas informacoes levantandas por
envolver menos coletores de dados, enquanto no censo, com o grande numero de agentes, ha menor
coordenacao e controle o que podera aumentar a chance de erros. Considerando tambem que a
populacao fosse homogenea, para levantar as informacoes sobre a populacao, bastaria uma amostra
a qual forneceria dados suficientes para dispensarmos um censo que pouco ou nada acrescentaria
ao objetivo da pesquisa.
4.2.1 Exemplo
Numa populacao3 de tamanho N = 300 indivduos, precisa-se obter uma amostra de tamanho
n = 10. Como devera ser realizada a selecao destes 10 indivduos? E quais serao sorteados?
Resolucao:
+ Primeiramente deve-se enumerar os indivduos identificando-os por numeros de 0 a 299.
+ Utilizando, por exemplo a calculadora4 , deve-se inserir 300RAN# e pressionar o botao =.
- Considerando que o numero obtido foi 72,3, entao o indivduo selecionado foi o iden-
tificado pelo numero 72.
- Pressionando o botao = mais 9 vezes, obteve-se os numeros: 53, 217, 93, 297, 95, 294,
57, 131 e 50. As vezes um numero pode sair repetidas vezes, o que se faz e despreza-lo e sortear outro ou
adota-lo quando a amostragem for com reposicao.
+ Portanto, os n = 10 indivduos que comporao a amostra serao em ordem crescente: 50, 53,
57, 72, 93, 95, 131, 217, 294 e 297.
3 N sera sempre usado para representar o tamanho da populacao e n sempre se referira ao tamanho da amostra. 4 ob-
viamente os numeros gerados pela sua calculadora nao serao iguais aos gerados neste exemplo, isto porque os numeros sao
gerados aleatoriamente.
Os tipos de amostragem nao probabilstica mais comuns sao: a amostragem a esmo, a amos-
tragem intencional e a amostragem por cotas.
4.3.1.1.1 Exemplo
a) Num lote com 20.000 ampolas de certo medicamento, selecionar aleatoriamente 100 ampolas seria
muito trabalhoso, entao, simplesmente seleciona-se algumas a esmo.
b) Numa fabrica em que se produz um certo produto em serie, nao e possvel enumerar todos os indivduos
e nem ter acesso a todos, entao, neste caso, seleciona-se os que estao sendo produzidos no momento.
c) Estudo sobre a qualidade do ar, estudo sobre a qualidade da agua, estudo sobre a qualidade do solo,
estudo sobre nvel de glicose no sangue etc, sao exemplos em que a populacao alvo e formada por
material contnuo.
4.3.1.2.1 Exemplo
Ao experimentar os efeitos de uma nova droga para o tratamento da AIDS o pesquisador escolhe
n = 20 pacientes terminais entre todos os pacientes com a doenca.
4.3.2.1.1 Exemplo
Suponha uma populacao composta por tres indivduos: A, B e C, da qual se deseja obter uma
amostra de tamanho dois. Tem-se, entao, N = 3 e n = 2. Portanto, se amostragem for com reposicao
e possvel obter N n = 32 = 9 amostras diferentes: AA, AB, AC, BA, BB, BC, CA, CB ou CC. Se a
amostragem for sem reposicao e possvel formar CN, n = C3, 2 = 3 amostras diferentes: AB, AC ou BC.
Para realizar uma amostragem simples ao acaso (ASA), deve-se:
Enumerar todos indivduos da populacao;
Realizar o sorteio;
Coletar as informacoes dos indivduos amostrados.
4.3.2.1.2 Exemplo
Uma sala de aula possui 30 alunos. Pretende-se conhecer a idade media da turma. Suponha
que os alunos e as suas respectivas idades em anos sejam: Joao(25), Artur(20), Catia(35), Ana(21),
Bruna(22), Breno(24), Julio(25), Lucas(30), Paula(38), Paulo(24), Bruno(20), Raquel(20), Pedro(25),
Renata(20), Amanda(19), Juliano(25), Bruno(23), Camila(24), Ana(28), Lucia(24), Paula(24), Joao(22),
Lucas(28), Tas(26), Camila(23), Joao(25), Renata(22), Julia(27), Brenda(25), Maria(23). Extraia uma
amostra aleatoria simples de tamanho n = 10 desta populacao.
Solucao;
Primeiramente enumera-se os indivduos. Os numeros entre parenteses indentificam os alunos, assim:
Joao(01) , Artur(02) , Catia(03) , Ana(04) , Bruna(05) , Breno(06) , Julio(07) , Lucas(08) , Paula(09) , Paulo(10) ,
Bruno(11) , Raquel(12) , Pedro(13) , Renata(14) , Amanda(15) , Juliano(16) , Bruno(17) , Camila(18) , Ana(19) ,
Lucia(20) , Paula(21) , Joao(22) , Lucas(23) , Tas(24) , Camila(25) , Joao(26) , Renata(27) , Julia(28) , Brenda(29) ,
Maria(30) .
Em seguida, realiza-se o sorteio. Usando a funcao random da calculadora os n = 10 numeros obtidos
foram: 11o , 10o , 5o , 23o , 25o , 10o , 4o , 2o , 1o , 28o , correspondendo aos alunos: Bruno, Paulo, Bruna,
Lucas, Camila, Paulo, Ana, Artur, Joao, Julia. Destes alunos sorteados, obtem-se, respectivamente, as
seguintes idades: 20, 24, 22, 28, 23, 24, 21, 20, 25, 27. Portanto a idade media e igual a 23,4 anos.
Sendo:
k: o intervalo de amplitude (e um numero inteiro, quando necessario, deve-se arredondar);
N : o tamanho da populacao (numero de indivduos) e
n: o tamanho da amostra.
Usar um dispositivo aleatorio para sortear um numero entre 1 e k. Este numero e denominado de
incio casual i e representa o primeiro e o unico elemento sorteado da populacao.
Determinar os demais elementos (indivduos) utilizando-se o incio casual i e o passo de amostragem
k conforme o esquema a seguir:
i + k, i + 2k, i + 3k, . . . , i + (n 1)k;
Sendo i + k o segundo elemento, i + 2k o terceiro elemento e assim ate o i + (n 1)k o n-esimo
elemento. Logo, os elementos que fazem parte da amostra sao:
i, i + k, i + 2k, i + 3k, . . . , i + (n 1)k;
Coletar as informacoes dos indivduos amostrados.
4.3.2.2.1 Exemplo
Suponha que em um hospital ha 80 criancas diagnosticadas com cancer e que por algum motivo
deseja-se uma amostra de tamanho7 n = 10 para tracar o perfil dessas criancas (??). Quais criancas
serao selecionadas?
Solucao: Considerando que as criancas estejam ordenadas de alguma forma, como por exemplo, por
ordem alfabetica agrupadas em pastas, como a Figura 5.
N 80
k= = =8
n 10
Sorteia-se um numero entre 1 e k = 8 para determinar o incio casual. Suponha que foi sorteado
o numero 1, entao as criancas amostradas serao as identificadas pelos numeros:
i=1 i + 5k = 1 + 5 8 = 41
i+k =1+8=9 i + 6k = 1 + 6 8 = 49
i + 2k = 1 + 2 8 = 17 i + 7k = 1 + 7 8 = 57
i + 3k = 1 + 3 8 = 25 i + 8k = 1 + 8 8 = 65
i + 4k = 1 + 4 8 = 33 i + 9k = 1 + 9 8 = 73
Se, por acaso, o numero sorteado entre 1 e k = 8 fosse igual a 3, teria i = 3 e as criancas
amostradas seriam as identificadas por:
3, 11, 19, 27, 35, 43, 51, 59, 67, 75.
4.3.2.3 Amostragem por conglomerado (AC)
E usada quando a populacao pode ser agrupada em subconjuntos ou conglomerados heteroge-
neos que possui a caracterstica da populacao em estudo. Esses agrupamentos normalmente consistem de
unidades como regioes, cidades, partes do censo, de onde e selecionada uma amostra simples ao acaso. O
objetivo principal e facilitar a coleta de informacao dos elementos da amostra.
Para realizar uma amostragem por conglomerado e necessario:
7 Este tamanho de amostra nao foi determinado, portanto nao e possvel a generalizacao dos resultados para a populacao
de criancas, serve apenas para ilustracao
Uma amostragem por conglomerado e indicada quando: nao se possui uma lista contendo todos
os nomes dos elementos da populacao; existe grande heterogeneidade entre os elementos da populacao; e
preciso fazer entrevistas ou observacoes em grandes areas geograficas e o custo para a obtencao dos dados
cresce com o aumento da distancia entre os elementos.
4.3.2.3.1 Exemplo
Um pesquisador quer identificar os principais fatores causadores de estresse no transito em
adultos das cidades de Minas Gerais com mais de 100.000 habitantes.
Populacao: N adultos das cidades de Minas Gerais com mais de 100.000 habitantes;
Conglomerados: M cidades com mais de 100.000 habitantes;
Amostra de conglomerados: m cidades selecionadas;
Amostra de elementos: n adultos das m cidades da amostra de conglomerados.
De acordo com as caractersticas dos estratos, a amostragem estratificada pode ser: uniforme,
proporcional e otima.
4.3.2.4.2 Exemplo
No hospital HS estao em observacao 500 pessoas de 0 a 40 anos. Por algum motivo dividiu-se a
populacao em k = 5 estratos, ou seja, 5 categorias de idades. Posteriormente, contou-se quantas pessoas
faziam parte de cada estrato (idade). Foi definido9 que o tamanho da amostra n a ser obtida e igual a
50. A divisao dos estratos e o numero de pessoas por estrato e apresentado na Tabela 1.
Deve-se observar que a soma dos tamanhos de cada estrato e igual ao tamanho da populacao
em estudo e que a soma das amostras obtidas de cada estrato e igual ao tamanho da amostra de interesse.
4.3.2.4.4 Exemplo
Em um hospital estao em observacao 1000 pessoas de 0 a 40 anos. Por algum motivo dividiu-se
a populacao em k = 5 estratos, ou seja, 5 categorias de idades. Posteriormente, contou-se quantas pessoas
faziam parte de cada estrato (idade). Foi definido que o tamanho da amostra n a ser obtida e igual a 50.
A divisao dos estratos e o numero de pessoas por estrato podem ser observados na Tabela 3.
Determine o tamanho das amostras a serem obtidas em cada estrato da populacao em estudo.
Solucao:
Para obter o tamanho das amostras a serem retiradas de cada estrato deve-se calcular:
N1 500 N4 50
Para o estrato 1: n1 = n= 50 = 25 Para o estrato 4: n4 = n= 50 = 2,5
N 1000 N 1000
N2 320
Para o estrato 2: n2 = n= 50 = 16
N 1000
N3 100 N5 30
Para o estrato 3: n3 = n= 50 = 5 Para o estrato 5: n5 = n= 50 = 1,5
N 1000 N 1000
Organizando os resultados obtidos na Tabela 4, observa-se que foi arredondado para cima o
tamanho da amostra do estrato 4 e que foi truncado o valor obtido para o tamanho da amostra do estrato
5. Tal operacao foi realizada a fim de que a soma dos tamanhos das amostras retiradas dos estratos fosse
igual a n = 50.
Novamente, nota-se que a soma dos tamanhos de cada estrato e igual ao tamanho da populacao
e que a soma dos tamanhos das amostras obtidas dos estratos e igual ao tamanho da amostra a ser
estudada.
Sendo:
ni : e o tamanho da amostra a ser obtida no estrato i
Ni : e o tamanho do estrato i;
n: e o tamanho da amostra;
k: e o numero de estratos;
i : e o desvio padrao populacional do estrato i.
Crtica:
Necessidade de conhecer o desvio padrao populacional em cada estrato para a variavel estratificadora, o
que em geral nao possvel. Usa-se, entao, estima-lo por meio de uma amostra piloto encontrando, assim,
o desvio padrao amostral10 que e usado para estimar o desvio padrao populacional.
Quando a variavel em estudo e qualitativa nao existe o desvio padrao populacional, sao casos em os
estratos correspondem a sexo, origem, raca, etc.
4.3.2.4.6 Exemplo
Em um hospital estao em observacao 1000 pessoas de 0 a 40 anos, a variavel estudada e uma
variavel quantitativa. Por algum motivo dividiu-se a populacao em k = 5 estratos, ou seja, 5 categorias
de idades. Posteriormente, contou-se quantas pessoas faziam parte de cada estrato (idade) e por meio
de uma amostra piloto, determinou-se o desvio padrao11 de cada estrato. Foi definido que o tamanho da
amostra n a ser obtida e igual a 50. A divisao dos estratos e o numero de pessoas por estrato podem ser
observados na Tabela 5.
10 O calculo do desvio padrao amostral sera visto na Secao 5.2.5.5. 11 O desvio padrao da amostra piloto de cada estrato
sera identificado por i , futuramente, na Secao 5.2.5.5, sera identificado por s.
Determine o tamanho das amostras a serem obtidas em cada estrato da populacao em estudo.
Solucao:
Para obter o tamanho das amostras a serem retiradas de cada estrato deve-se calcular:
X5
Ni i = 500 2,8 + 320 3,5 + 100 4,3 + 50 5,2 + 30 7,5 = 3.435
i=1
N1 1 n 500 2,8 50
Para o estrato 1: n1 = 5
= = 20,3785
P 3.435
Ni i
i=1
N2 2 n 320 3,5 50
Para o estrato 2: n2 = 5
= = 16,3028
P 3.435
Ni i
i=1
N3 3 n 100 4,3 50
Para o estrato 3: n3 = 5
= = 6,2591
P 3.435
Ni i
i=1
N4 4 n 50 5,2 50
Para o estrato 4: n4 = 5
= = 3,7846
P 3.435
Ni i
i=1
N5 5 n 30 7,5 50
Para o estrato 5: n5 = 5
= = 3,2751
P 3.435
Ni i
i=1
Organizando os resultados obtidos na Tabela 6, observa-se que em alguns casos houve trunca-
mento e que o tamanho da amostra do estrato 5 passou de 3,2751 para 4. Isto foi adotado porque este
estrato era o que tinha maior variabilidade e para que o tamanho da amostra atingisse o valor n = 50.
Nota-se que a soma dos tamanhos de cada estrato e igual ao tamanho da populacao e que a
soma dos tamanhos das amostras obtidas dos estratos e igual ao tamanho da amostra a ser estudada.
4.4 Exerccios
1. Devido ao aumento de casos de febre amarela, um cientista pretente coletar amostras de sangue
de 10 primatas em uma reserva ecologica em que sao monitorados 67 primatas. Esses primatas foram
identificados pela sequencia de numeros 00, 01, 02, 03, . . ., 66. O cientista solicitou a um estatstico
uma sequencia de numero aleatorios, entretanto nao especificou que era para se usar em uma populacao
de 67 indivduos. Da, o estatstico apresentou-se uma sequencia de numeros aleatorios gerada por um
programa de computador:
5. Uma universidade tem 7.232 eleitores, repartidos nas seguintes categorias, para votarem em tres
candidatos a reitor:
Categorias No de eleitores
Alunos 5.847
Professores 239
Tecnicos administrativos 1.146
12 Fonte (modificada): Disponvel em: <http://lucelebolzan.pbworks.com/w/page/19447296/Minha%20sala%20de%20aula>.
Acesso em: 14 de ago. 2017.
Deseja-se selecionar uma amostra de tamanho n = 50 desta populacao de votos. Qual o tipo de amos-
tragem e recomendado para esta situacao? Justifique e apresente todos os passos para selecionar os 50
eleitores.
6. Uma industria de cosmesticos possui 100 funcionarios dos quais 70 trabalham exclusivamente dentro
da fabrica e 30 sao do setor de transporte. As idades dos 100 funcionarios sao apresentadas na ordem de
como foram coletadas (le-se segundo as linhas, tal como se le um livro) de modo que as setenta primeiras
idades sao dos funcionarios que trabalham exclusivamente dentro da industria e as trinta ultimas daqueles
que trabalham no setor de transporte.
33 38 34 34 34 31 36 35 32 37
35 34 30 37 36 33 34 34 32 39
35 33 33 34 31 32 36 33 29 36
34 35 34 33 31 35 35 35 37 32
34 34 36 35 34 33 32 38 34 33
33 32 34 35 37 35 35 30 35 34
36 36 33 34 33 32 31 37 35 34
39 40 40 42 39 38 40 40 40 40
40 41 45 41 40 39 41 41 40 42
39 40 41 40 40 42 39 39 38 40
a) Qual e a populacao em estudo?
b) Qual e a variavel em estudo e sua classificacao?
c) Uma amostra, de dez indivduos foi retirada da populacao de cem, com auxlio dos numeros aleatorios.
A seguir, foi calculada a idade media da amostra das dez idades. Que valor voce acha que foi obtido para
essa media?
d) Suponha agora que se pensasse em fazer amostragem estratificada. Em sua opiniao, seria razoavel, no
caso? Caso afirmativo, indique como voce procederia, ainda utilizando os numeros aleatorios. Suponha
que o tamanho da amostra continue sendo igual a dez.
e) Suponha agora que tivesse sido utilizada amostragem estratificada uniforme, num total ainda de dez
idades, e que tivessem sido obtidos, no primeiro e no segundo estratos, respectivamente, x1 = 33,8 e
x2 = 40,2. Em quanto voce estimaria a idade media da populacao de cem idades?
7. A Reitoria da UNIFAL-MG quer aplicar um questionario a comunidade academica (alunos, professores
e servidores) para avaliar a opiniao sobre a modificacao do calendario academico durante a Copa. Dispoe
de um cadastro com 1525 alunos, 48 professores e 107 servidores,. Deseja-se amostrar 100 pessoas. Qual
o tipo de amostragem voce utilizaria e quantos indivduos de cada categoria seriam avaliados?
8. Deseja-se selecionar uma amostra de domiclios da cidade de Alfenas, pertencentes as ruas paralelas a
UNIFAL-MG. Um total de 12 ruas com caractersticas proximas comporao as subdivisoes da populacao
em estudo. No quadro abaixo, A1 representa o primeiro domiclio da Rua A, A2 o segundo, e assim por
diante.
Ruas Domiclios
A A1 A2 A3 A4 . . . A56
B B1 B2 B3 B4 . . . B85
C C1 C2 C3 C4 . . . C48
D D1 D2 D3 D4 . . . D108
E E1 E2 E3 E4 . . . E209
F F1 F2 F3 F4 . . . F105
G G1 G2 G3 G4 . . . G38
H H1 H2 H3 H4 . . . H75
Realizou-se um sorteio das ruas, ao qual as ruas B, D e H foram selecionadas. Nestas ruas selecionadas,
em todos os domiclios foram coletados os dados. Identifique o tipo de amostragem realizada.
5 ESTATISTICA DESCRITIVA
A estatstica descritiva e a area da estatstica que aplica varias tecnicas para a organizacao, a
apresentacao e a descricao de um conjunto de dados. Nesta parte da estatstica nao se tem por objetivo
usar os dados para aprender algo sobre a populacao, apenas utilizar tabelas, graficos e metodos numericos
para apresentar informacoes.
Algumas ferramentas serao apresentadas neste material, como alguns tipos de tabelas e de
graficos que poderao representar, objetivamente, as informacoes levantadas e, posteriormente, os meto-
dos numericos que podem descrever os dados: medidas de posicao, medidas separatrizes e medidas de
variabilidade.
5.1.1.1.1 Exemplo
Considere um estudo cujo objetivo e identificar o numero de notificacoes de obitos ao SIM, por
doencas endocrinas nutricionais e metabolicas, durante o perodo de 2007 a 2011 realizado no Brasil. Sao
necessarias duas variaveis para descrever o estudo, quais sejam: o ano da coleta (variavel independente) e o
numero de obitos (variavel dependente). E uma serie temporal porque a variavel independente representa
a epoca em que foram coletados os dados.
Tabela 8 Numero de notificacoes de obitos ao SIM, por doencas
endocrinas nutricionais e metabolicas. Brasil, 2007 a 2011
Ano Numero de obitos
2007 61.860
2008 64.631
2009 66.984
2010 70.276
2011 73.929
Fonte: SIM-CGIAE/SVS/MS. Disponvel em: http://www.datasus.gov.br
Observe que nesta tabela foi necessario o uso do rodape para identificar a origem dos dados.
Isto porque os dados nao sao meus, foram obtidos em outro lugar cuja fonte esta apresentada no rodape.
5.1.1.2.1 Exemplo
Um estudo tinha como objetivo identificar o numero de internacoes por acidente de transito
segundo as regioes brasileiras no mes de novembro de 2013. Foram necessarias duas variaveis: a indepen-
dente identifica as regioes e a independente representa o numero de internacoes no perodo estudado. A
serie representada a seguir consiste em uma serie geografica porque a variavel independente representa o
local onde foram obtidos os dados.
Tabela 9 Internacoes por acidente de transito segundo a Unidade
de Federacao, faixa etaria de 25 a 29 anos, nov-2013
Regiao Numero de internacoes
Sudeste 144
Nordeste 94
Centro-Oeste 10
Sul 9
Norte 4
Fonte: Ministerio da Saude. Disponvel em: http://www.datasus.gov.br
Toda vez que em seu trabalho for necessario usar dados de outros autores, e necessario inserir
estas informacoes no rodape da tabela, como exemplificado nesta situacao.
5.1.1.3.1 Exemplo
Para obter informacoes sobre o tipo de obitos notificados ao SIM, no ano de 2011, foram
coletadas no stio eletronico do datasus os dados apresentados na tabela a seguir. Observe que foram
necessarias duas variaveis de modo que a variavel independente identifica a causa do obito e a variavel
dependente representa o numero de obitos conforme a causa. Tal serie e uma serie especfica pelo fato da
variavel independente representar outra informacao que nao e nem uma epoca e nem um local.
Tabela 10 Notificacoes de obitos ao SIM. Brasil, 2011*
Causa Numero de obitos
Algumas doencas infecciosas e parasitarias 49.175
Neoplasias (tumores) 184.384
Doencas do sangue 6.344
Doencas endocrinas nutricionais e metabolicas 73.929
Transtornos mentais e comportamentais 13.725
Doencas do sistema nervoso 26.948
Doencas do olho e anexos 23
Doencas do ouvido e da apofise mastoide 150
Fonte: SIM-CGIAE/SVS/MS. Disponvel em: http://www.datasus.gov.br
* Informacoes parciais, faltam outras doencas
Nesta serie o rodape foi utilizada para exibir a origem dos dados e tambem para complementar
que e necessario se atentar pelas informacoes apresentadas.
5.1.1.4.1 Exemplo
Considere um estudo cujo objetivo e o de levantar informacoes sobre o numero de notificacoes
de obitos ao SIM, no Brasil no perodo de 2007 a 2011, segundo a causa do obito. Observe que para
representar os dados deste estudo serao necessarias tres variaveis a saber: duas variaveis independentes
(perodo do estudo e a causa do obito) e uma variavel dependente (o numero de obitos registrados).
Este de tipo de tabela tambem recebe o nome de tabela de dupla entrada. E muito empre-
gada porque consegue representar muitas informacoes em pouco espaco, note que neste caso estao sendo
representados os dados das Tabelas 8 e 10.
5.1.2.1.1 Exemplo
O Congresso de Homeopatia, realizado na cidade de Alfenas-MG em 2014, usou um questionario
para perguntar aos participantes como eles avaliam a organizacao, a recepcao, os temas das palestras, o
coffee break, os minicursos e os anais. Cada item do estudo foi avaliado de acordo com notas categori-
zadas em excelente (E), otimo (O), bom (B), medio (M) e fraco (F). Um grupo de 30 participantes do
congresso avaliou o item organizacao, as informacoes obtidas do primeiro ao trigesimo participante estao
apresentadas no banco de dados a seguir:
B B O E M M F F O B
O F B O E O M M B B
E F B M F B M O E B
Organizando as notas dadas pelos participantes, confeccionou-se a Tabela 12, na qual estao
representados o que esta sendo estudado, onde aconteceu e quando aconteceu, alem de definir quais
variaveis estao sendo estudadas e as informacoes obtidas. Neste caso nao se usou o rodape por nao haver
necessidade. A variavel nota atribuda (independente) foi dividida nas categorias excelente ate fraco e a
variavel dependente (quantidade de participantes) quantifica o numero de vezes que cada nota aparece
no estudo.
5.1.2.2.1 Exemplo
Numa fila de um PSF da cidade Iota foram entrevistados 50 casais durante os meses abril a
maio de 2010 (dados fictcios). O objetivo da pesquisa era descobrir o numero de filhos por casal. O
resultado da pesquisa esta apresentado abaixo, sendo os dados dispostos conforme foram coletados (dados
brutos), da esquerda para a direira, seguindo-se pelas linhas como se le um texto.
2 3 0 2 1 1 1 3 2 5
6 1 1 4 0 1 5 6 0 2
1 4 1 3 1 7 6 2 0 1
3 1 3 5 7 1 3 1 1 0
3 0 4 1 2 2 1 2 3 2
Os dados como sao apresentados anteriormente sao denominados de dados brutos, pois nao
foram organizados. Quando se ordena ou classifica segundo algum criterio, os dados sao chamados de
rol. Assim, para os dados anteriores, tem-se:
0 0 0 0 0 0 1 1 1 1
1 1 1 1 1 1 1 1 1 1
1 1 2 2 2 2 2 2 2 2
2 3 3 3 3 3 3 3 3 4
4 4 5 5 5 6 6 6 7 7
Embora apos organizar os dados ja permita se ter alguma ideia sobre o seu comportamento, e
necessario organiza-los mais e apresenta-los com mais formalidade, como esta na Tabela 13. Note que o
ttulo especifica o que esta sendo estudado, onde e quando aconteceu o estudo; a tabela ainda contem
as variaveis estudadas e as informacoes que foram obtidas no estudo. No rodape e apresentada uma
informacao sobre os dados. As categorias da variavel independente e apresentada em uma sequencia
numerica, sem interrupcoes, de 0 a 7.
Determinar
o numero de classes k:
k = n quando n 100
ou k = 5 log n quando n > 100
Sendo:
k: o numero de classes;
n: o numero de dados.
LS1 = LI1 + c
Determinar os demais limites inferiores e superiores das outras classes ate a classe k:
LI2 = LS1 LS2 = LI2 + c
LI3 = LS2 LS3 = LI3 + c
LI4 = LS3 LS4 = LI4 + c
.. ..
. .
LIk = LSk1 LSk = LIk + c
As frequencias representam os valores contidos nos intervalos determinados pelos limites infe-
riores e superiores de cada classe de modo que sejam LIi e < LSi . Nesse material as classes serao
definidas por LIi ` LSi .
Importante: para fins de analises matematicas todas as observacoes contidas num intervalo
de classe serao consideradas iguais ao ponto medio da classe. Essa hipotese e a hipotese tabular basica
(HTB). O ponto medio da classe i e dado por:
LIi + LSi
Xi =
2
Em que:
Xi : e o ponto medio da classe i;
LIi e LSi : sao, respectivamente, o limite inferior e superior da classe i.
5.1.2.3.2 Exemplo
Considere um estudo cujo objetivo e quantificar o numero de pacientes atendidos na Clnica RX
de segunda a sexta, entre os meses de janeiro e maio de 2010 (94 dias). Os dados colhidos representam o
numero de pacientes atendidos a partir do primeiro dia de observacao do mes de janeiro ate o ultimo dia
de observacao do mes de maio. A variavel estudada e uma variavel discreta, porem contem valores muito
diversos, por isto sera montada uma tabela em que a coluna das classes seja formada por intervalos de
valores.
14 E tambem para a quantitativa discreta quando apresentar muitos valores ou valores dispersos
8 24 46 13 38 54 44 20 17 14
18 15 30 24 20 8 24 18 9 10
38 79 15 62 23 13 62 18 8 22
11 17 9 35 23 22 37 36 8 13
10 6 92 16 15 23 37 36 8 13
44 17 9 30 26 18 37 43 14 9
28 41 42 35 35 42 71 50 52 17
19 7 28 23 29 29 58 77 72 34
12 40 25 7 32 34 22 7 44 15
9 16 31 30
O primeiro passo para a construcao das classes e a ordenacao dos dados (rol), neste caso,
ordenou-os em ordem crescente:
6 6 7 7 7 8 8 8 8 9
9 9 9 9 10 10 11 12 13 13
13 13 14 14 14 15 15 15 15 16
16 17 17 17 17 18 18 18 18 19
20 20 22 22 22 23 23 23 23 24
24 24 25 26 28 28 29 29 30 30
30 31 32 34 34 34 35 35 35 36
37 37 38 38 40 41 42 42 43 44
44 44 46 50 52 54 58 62 62 71
72 77 79 92
Agora, calcula-se o numero de classes:
k = 94 = 9,69 10
Como k representa o numero de classes, tem que ser um valor inteiro, assim sera adotado k = 10,
mas poderia ser k = 9. Trabalhando com k = 10, sabe-se que a tabela de distribuicao de frequencias tera
10 classes, ou seja, 10 intervalos de valores.
O tamanho de cada intervalo, amplitiude da classe, e dado por c, assim:
A 92 6
c= = = 9,56
k1 10 1
Como os valores (dados) sao numeros inteiros nao justifica trabalhar com casas decimais, po-
dendo ser adotado c = 10 desde de que ao final da construcao da tabela se observe que todos os valores
foram agrupados nas k = 10 classes.
O proximo calculo e a determinacao dos limites de cada classe. O limite inferior da primeira
classe LI1 e determinado por:
c
LI1 = menor observacao
2
Logo,
10
LI1 = 6 =1
2
O limite superior da primeira classe LS1 e calculado por:
LS1 = LI1 + c
LS1 = 1 + 10 = 11
Os demais limites ate a 10a classe, sao:
Em que:
f ri : frequencia simples relativa da classe i, i = 1, . . . , k;
fi : frequencia simples absoluta da classe i, i = 1, . . . , k;
n: numero de observacoes.
5.1.3.1.1 Exemplo
Com os dados obtidos na Tabela 15 monta-se a seguinte tabela de distribuicao de frequencias
relativas:
Em muitas situacoes expressa-se os resultados em termos percentuais, para obter estes percen-
tuais multiplica-se o quociente obtido por 100:
f pi = f ri 100%
5.1.4 Exerccios
1. No Pronto Socorro Santa Casa (2012), foi contabilizado o numero de pessoas que foram atendidas na
emergencia por acidente de carro em 20 grupos de 100 pessoas cada. Os dados obtidos foram: 9, 10, 10, 8,
12, 11, 8, 11, 7, 9, 10, 10, 9, 11, 9, 10, 10, 10, 9, 10. Construa uma tabela de distribuicao de frequencias.
2. Dez alunos da UNIFAL-MG/Alfenas (2014/1) foram selecionados e se submeteram a um exame de
sangue apresentando os seguintes valores de glicemia em mg/dL: 80, 60, 68, 79, 62, 76, 70, 78, 78, 77.
Monte uma tabela de distribuicao de frequencias.
3. Foi realizada uma pesquisa a qual tinha por objetivo identificar a altura dos estudantes do sexo
masculino (em metros) da Faculdade X, 2010. Uma amostra de 18 alunos forneceu os dados abaixo:
1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78
1,79 1,80 1,80 1,83 1,85 1,85 1,85 1,86 1,87
a) Monte uma tabela com a distribuicao de frequencias absolutas, relativas e percentuais.
b) Monte uma tabela em que a primeira coluna contenha os numeros 1,67; 1,73; 1,79; 1,85; 1,91. Agora,
indique na outra coluna o numero de alunos que ficaram acima de cada uma dessas alturas.
c) Monte uma tabela em que a primeira coluna contenha os numeros 1,67; 1,73; 1,79; 1,85; 1,91. Agora,
indique na outra coluna o numero de alunos que ficaram abaixo de cada uma dessas alturas.
4. Durante a aplicacao de uma prova de Estatstica Basica, o professor da disciplina mediu o tempo
gasto por cada aluno para entregar a prova. Os tempos em horas que cada aluno gastou esta apresentado
abaixo:
0,77 0,91 1,06 1,08 1,13 1,18 1,23 1,31 1,37 1,45 1,50 1,56 1,63 1,79 1,90
0,82 0,94 1,07 1,10 1,14 1,19 1,25 1,31 1,40 1,46 1,53 1,58 1,64 1,80 1,92
5.1.5 Graficos
A representacao grafica e outro recurso estatstico bastante usado para representar algum feno-
meno. Tem por objetivo dar uma ideia, a mais imediata possvel, do comportamento dos dados, proporci-
onando maior facilidade na compreensao, para chegar a conclusoes sobre o comportamento do fenomeno
em estudo.
Um grafico deve ser claro, simples e verdico. Isto porque ele deve possibilitar a leitura e a
interpretacao correta dos valores do fenomeno; devera permitir uma analise rapida do fenomeno observado,
de modo a evitar que o observador se perca com particularidades sem importancia; e, por fim, o grafico
devera representar corretamente a realidade dos dados.
Os graficos devem conter ttulo e serem autoexplicativos. As legendas so deverao ser usadas
quando for realmente necessario.
Quanto a forma os graficos podem ser classificados como diagramas, cartogramas, estereogra-
mas e pictogramas. Os diagramas sao graficos geometricos dispostos em duas dimensoes (apenas eixo-x
e eixo-y), muito empregados na representacao de series estatsticas. Os cartogramas sao graficos que
representam uma carta geografica (mapa), sendo muito empregados na Geografia, Historia e Demografia.
Os estereogramas representam volumes, sao graficos em tres dimensoes. E os pictogramas sao graficos
em que sao usadas figuras representativas do fenomeno com o objetivo de despertar a atencao do publico.
Serao apresentados neste material somente alguns tipos de diagramas por serem mais comuns
na representacao de series estatsticas, tais como o grafico em linha, o grafico em colunas, o grafico em
barras, o grafico em colunas compostas, o grafico em setores, o histograma e o polgono de frequencias.
vertical insira uma escala de valores que contemple os valores da variavel dependente. Posteriormente,
marque os pontos obtidos pelos valores da variavel independente e da variavel dependente e em seguida,
una-os por meio de um segmento de reta, formando uma poligonal.
5.1.5.1.1 Exemplo
Considere os dados apresentados na Tabela 8, pagina 20, graficamente eles podem ser represen-
tados segundo a Figura 8:
80000
75000
Nmero de bitos
70000
65000
60000
55000
50000
2005 2006 2007 2008 2009 2010 2011
Anos
Figura 8 Numero de notificacoes de obitos ao SIM, por doencas endocrinas nutricionais e metabolicas. Brasil,
2005 a 2011
5.1.5.2.1 Exemplo
De posse dos dados apresentados na Tabela 9, pagina 21, da-se para construir o grafico em
colunas apresentado na Figura 9:
160
140
Nmero de internaes
120
100
80
60
40
20
0
Sudeste Nordeste Centro-Oeste Sul Norte
Regies
Figura 9 Internacoes por acidente de transito segundo a Unidade de Federacao, faixa etaria de 25 a 29 anos,
nov-2013
5.1.5.3.1 Exemplo
Adotando-se os dados tabulados na Tabela 10, pagina 10, graficamente eles poderao ser repre-
sentados por meio de um grafico em barras, como o que pode ser visualizado na Figura 10:
Neoplasias (tumores)
Doenas do sangue
5.1.5.4.1 Exemplo
Considere os dados apresentados na Tabela 11, pagina 22, um grafico que se podera construir e o
apresentado na Figura 11, em que a variavel independente que esta no eixo horizontal representa o perodo
em que foram observadas as notificacoes e as colunas com cores diferentes representam a outra variavel
independente, variando apenas a altura que e definida pelo valor da variavel dependente. Observe que a
cor definida em uma coluna que representa, por exemplo, Algumas doencas infecciosas e parasitarias, e a
mesma nas outras catogorias da variavel perodo.
160000
120000
80000
40000
0
2007 2008 2009 2010 2011
area do crculo sera estao dividida em setores proporcionais aos valores da serie. Essa divisao se faz por
meio de uma regra de tres simples. Com o auxlio de um transferidor, efetua-se a marcacao dos angulos
correspondentes a cada divisao.
E utilizado quando se pretende comparar cada valor da serie com o total. O grafico em setores
representa valores absolutos ou porcentagens complementares. As series geograficas, especficas e as
categorias em nvel nominal sao mais representadas em graficos de setores, desde que nao apresentem
muitas parcelas (no maximo sete). As legendas podem ou nao aparecer, dependera da forma de como
voce montou o grafico.
5.1.5.5.1 Exemplo
Ao representar (FIGURA 12) os dados disponveis na Tabela 9, pagina 21, por meio de um
grafico de setores, obtem-se:
9; 3% 4; 2%
10; 4%
94; 36%
Sudeste Nordeste
Centro-Oeste Sul
Norte
144; 55%
Figura 12 Internacoes por acidente de transito segundo a Unidade de Federacao, faixa etaria de 25 a 29 anos,
nov-2013
5.1.5.6 Histograma
Sao graficos de superfcies utilizados para representar distribuicoes de frequencias das variaveis
quantitativas contnuas (classes formadas por intervalos). O histograma e composto por retangulos em
que cada um deles representa o intervalo das classes. A largura da base de cada retangulo deve ser
proporcional a amplitude do intervalo da classe que ela representa e a altura deve ser proporcional a
frequencia da classe. Diferentemente do grafico em colunas, o histograma apresenta suas colunas unidas,
isto representa a continuidade dos dados.
5.1.5.6.1 Exemplo
Com os dados tabulados na Tabela 15, pagina 26, o respectivo histograma e exibido na Fi-
gura 13.
Figura 13 Numero de pacientes atendidos na Clnica RX de segunda a sexta, durante 94 dias, jan-mai, 2010
5.1.5.7.1 Exemplo
Utilizando-se dos dados apresentados na Tabela 15, pagina 26, primeiramente calculou-se os
pontos medios de cada classe.
1 + 11 51 + 61
X1 = =6 X6 = = 56
2 2
11 + 21 61 + 71
X2 = = 16 X7 = = 66
2 2
21 + 31 71 + 81
X3 = = 26 X8 = = 76
2 2
31 + 41 81 + 91
X4 = = 36 X9 = = 86
2 2
41 + 51 91 + 101
X5 = = 46 X10 = = 96
2 2
A Tabela 15 com os respectivos pontos medios das classes (PM) e a apresentada a seguir:
O polgono de frequencias apresentado na Figura 14, foi construdo sobre o histograma apenas
para mostrar que isto e permitido:
Figura 14 Numero de pacientes atendidos na Clnica RX de segunda a sexta, durante 94 dias, jan-mai, 2010
a b1 b2 c1
c2 d e f
a) Curvas de frequencia simetrica ou em forma de sino: caracterizam-se pelo fato das observacoes equi-
distantes do ponto central maximo ter a mesma frequencia. Um exemplo importante e a curva normal,
Figura 15a.
b) Curvas assimetricas: nestas a cauda da curva de um lado da ordenada maxima e mais longa do que
do outro. Se o ramo mais alongado fica a direita, a curva e dita assimetrica a direita, ou assimetrica
positiva, exemplo a Figura 15b1. Enquanto que, se ocorre o inverso, diz-se que a curva e assimetrica a
esquerda, ou assimetrica negativa, Figura 15b2.
c) Curva em forma de J, ou em J invertido: o ponto de ordenada maxima ocorre em uma das extremida-
des, Figuras 15c1 e c2, respectivamente.
d) Curva em forma de U: a curva possui ordenadas maximas em ambas as extremidades: Figura 15d.
e) Curva de frequencia bimodal: nesta curva ha dois maximos (duas modas), Figura 15e.
f) Curva de frequencia multimodal: tem mais de dois maximos, Figura 15f.
5.1.6 Exerccios
1. Considere os dados tabulados a seguir:
3. Foi realizada uma pesquisa a qual tinha por objetivo identificar a altura dos estudantes do sexo
masculino (em metros) da Faculdade X, 2010. Uma amostra de 18 alunos forneceu os dados abaixo:
1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78
1,79 1,80 1,80 1,83 1,85 1,85 1,85 1,86 1,87
4. Construa para os dados de consumo de frutas em uma residencia: laranjas (18), bananas (17), macas
(11), goiabas (4), limoes (2), os graficos:
a) colunas;
b) barras;
c) setores.
5. Construa para os dados de cotacao do dolar (media mensal)15 durante os seis primeiros meses do ano
de 2014 e 2015 um grafico de linhas (uma linha para cada ano no mesmo grafico): 2,382(jan), 2,384(fev),
2,326(mar), 2,233(abr), 2,221(mai), 2,236(jun) em 2014 e 2,638(jan), 2,817(fev), 3,140(mar), 3,044(abr),
3,064(mai), 3,111(jun) em 2015.
6. Represente os dados abaixo de duas maneiras usando o grafico em colunas compostas, uma em que a
Estatstica esteja no eixo-x e a outra em que a Estatstica esteja representada nas colunas.
5.2.1.1.1 Exemplo
Dados os pesos, em quilos, de 6 recem-nascidos: 3,3; 3,1; 2,8; 2,7; 2,9; 3,2 o peso medio sera:
3,3 + 3,1 + 2,8 + 2,7 + 2,9 + 3,2 18
x = = = 3,0 kg
6 6
5.2.1.2 Media aritmetica ponderada e media para dados agrupados
Em algumas situacoes, cada dado podera apresentar graus de importancia diferentes (tambem
denominado de pesos), ou os dados podem estar agrupados (numa tabela de distribuicao de frequencias).
Nestes casos, os graus de importancia diferentes e/ou frequencias diferentes sao considerados na hora de
calcular a media.
A media ponderada dos numeros x1 , x2 , . . . , xn , com pesos (ou frequencias) diferentes f1 , f2 , ..., fn ,
representada por xp , e definida como:
15 Fonte: http://economia.acspservicos.com.br/indicadores_iegv/iegv_dolar.html
n
X
fi xi
i=1 f1 x1 + f2 x2 + f3 x3 + f4 x4 + . . . + fn xn
xp = n =
P f1 + f2 + f3 + f4 + . . . + fn
fi
i=1
A media aritmetica pode ser considerada como uma media ponderada em que os pesos (ou
frequencias) sao todos iguais.
5.2.1.2.1 Exemplo
Considere 5 provas aplicadas as quais possuem os seguintes pesos, respectivamente: 1, 2, 3, 4 e
5. Um determinado aluno conseguiu as seguintes notas ordenadas: 40, 50, 80, 90 e 20. A sua nota media
e calculada por:
5
P
fi xi
f1 x1 + f2 x2 + f3 x3 + f4 x4 + f5 x5 1 40 + 2 50 + 3 80 + 4 90 + 5 20
xp = i=15 = = = 56 pontos
P f1 + f2 + f3 + f4 + f5 1+2+3+4+5
fi
i=1
5.2.1.2.2 Exemplo
A nota final do sistema academico e calculada por meio de uma media ponderada dada por:
n
X N otai
P esoi
i=1
M axi
Mf inal = n 10
X
P esoi
i=1
Em que:
Mf inal : e a media final do aluno na disciplina;
N otai : e a nota atribuda para cada avaliacao i da disciplina;
M axi : e o valor maximo da avaliacao i;
P esoi : e a ponderacao (peso) da nota da avaliacao i.
Considere um professor de certa disciplina, ele aplica 3 provas de valores 30, 40 e 40, cujos pesos
sao 1, 2 e 2, respectivamente. Um aluno obteve 12 (em 30), 19 (em 40) e 37 (em 40). Qual e a media
final calculada pelo sistema academico?
Resolucao:
3
X N otai
P esoi 12 19 37
M axi 1+ 2+ 2
Mf inal = i=1
10 = 30 40 40 10
3
X 1+2+2
P esoi
i=1
2 19 37 8 + 19 + 37 64 16
+ +
Mf inal = 5 20 20 10 = 20 10 = 20 10 = 5 10 = 0,64 10 = 6,4
5 5 5 5
5.2.1.2.3 Exemplo
Considere os dados apresentados na Tabela 13, pagina 23, qual e o numero medio de filhos por
casal?
Resolucao:
Considerando x1 = 0, x2 = 1, x3 = 2, x4 = 3, x5 = 4, x6 = 5, x7 = 6, x8 = 7 e suas respectivas
frequencias: f1 = 6, f2 = 16, f3 = 9, f4 = 8, f5 = 3, f6 = 3, f7 = 3, f8 = 2, a media ponderada (media
para dados agrupados) e obtida por:
8
P
fi xi
i=1 6 0 + 16 1 + 9 2 + 8 3 + 3 4 + 3 5 + 3 6 + 2 7
xp = 8
= = 2,34 filhos
P 6 + 16 + 9 + 8 + 3 + 3 + 3 + 2
fi
i=1
5.2.1.2.4 Exemplo
Se o interesse for o de calcular a media para dados agrupados em um tabela de distribuicao
de frequencias em que as classes sao formadas por intervalos, e necessario que encontrar todos os pontos
medios, Xi s, das classes (veja a pagina 24) para representar os valores contidos em cada intervalo de cada
classe. Estes pontos medios funcionam como os valores que a variavel assume (hipotese tabular basica) e
as frequencias representam os pesos.
Considere os dados a seguir:
Para calcular a media dos valores de glicemia e necessario encontrar os pontos medios das
LIi + LSi
classes, Xi = . Assim,
2
LI1 + LS1 55 + 65 LI2 + LS2 65 + 75 LI3 + LS3 75 + 85
X1 = = = 60; X2 = = = 70; X3 = = = 80
2 2 2 2 2 2
Inserindo estes valores na tabela, tem-se:
2 60 + 2 70 + 6 80
x = = 74 mg/dL
2+2+6
A soma algebrica dos quadrados dos desvios de um conjunto de valores em relacao a media aritmetica
e mnima: Xn
2
D= (xi x)
i=1
5.2.1.3.1 Exemplo
Calcule a moda dos seguintes conjuntos de dados:
a) 1; 2; 3
mo = @ (nao tem moda)
b) 1; 1; 2; 3
mo = 1
c) 1, 1, 2, 2, 3
mo = 1 e mo = 2
d) 1, 1, 2, 2, 3, 3
mo = @ (nao tem moda)
5.2.1.4.1 Exemplo
Na Tabela 12, pagina 22, a moda e Bom e na Tabela 13, pagina 23, a moda e 1 filho.
5.2.1.4.2 Exemplo
Para o caso dos valores tabulados a seguir, deve-se encontrar os pontos medios, observar qual
e a classe com maior frequencia e o ponto medio desta classe representa a moda.
5.2.1.5 Mediana
Sejam x1 x2 . . . xn os n valores ordenados de uma variavel qualquer. A mediana
e o valor que centra a distribuicao do conjunto de valores, ou seja, que divide este conjunto de valores
ordenados em duas partes de quantidades iguais.
Apos ordenados os dados, para encontrar a mediana, primeiro determina a sua posicao, depois
busca-se o valor correspondente. Entretanto, para o calculo da mediana e necessario notar se o numero
de dados e mpar ou par. Quando o numero de dados e mpar, a mediana esta no centro dos valores,
quando o numero de dados e par, a mediana e representada pela media aritmetica dos valores centrais,
isto e:
Numero mpar de dados : x( n+1 )
2
md = x n + x( n +1)
Numero par de dados : ( 2 )
2
2
Em que:
x( n+1 ) : e o elemento (valor) que ocupa a n+12 -esima posicao no conjunto ordenado dos dados;
2
n
x( n ) : e o elemento (valor) que ocupa a 2 -esima posicao no conjunto ordenado dos dados;
2
x( n +1) : e o elemento (valor) que ocupa a n2 + 1 -esima posicao no conjunto ordenado dos dados.
2
5.2.1.5.1 Exemplo
Calcule a mediana dos seguintes conjuntos de dados:
a) 39; 52; 40; 45; 46; 55; 48; 40; 43; 47; 44
Resolucao:
1o ) Ordene crescentemente os dados: 39; 40; 40; 43; 44; 45; 46; 47; 48; 52; 55
2o ) Como ha numero mpar de dados, n = 11, a mediana corresponde ao valor:
x( n+1 ) = x( 11+1 ) = x(6)
2 2
Encontre as frequencias acumuladas de cada classe, f ac. A f ac e calculada em cada classe acumulando-
se as frequencias anteriores ate chegar a ultima classe;
P P
Compara-se o valor de (md) com o valor de f ac ate f ac (med), quando isto acontecer, esta
sera a classe que contem a mediana, se a classe for um intervalo, a mediana sera o ponto medio.
5.2.1.6.1 Exemplo
Na Tabela 13, pagina 13, a mediana e igual a 2 filhos, pois:
P (md) =
n 50
100
=
50 50
100
= 25;
5.2.1.6.2 Exemplo
Para os dados de glicemia apresentados abaixo, a mediana sera igual a 80 mg/dL, pois:
P (md) =
n 50
100
=
10 50
100
= 5;
Se X = Y k, entao:
menos provavel de ocorrer. Indica que os seus dados possuem dois subgrupos distintos que diferem na
caracterstica medida; nessa situacao seria melhor adotar as duas modas ou tratar os dois subgrupos
separadamente. Exemplo: Figura 15e.
Se nao sao simetricos: a mediana, frequentemente, e a melhor medida de tendencia central
(Figuras 16b e 16c).
a b c
5.2.2 Exerccios
1. O desvio em relacao a media e dado pela diferenca da observacao i e a media aritmetica das observacoes.
E calculado por: di = xi x. Ele indica o quanto o valor esta afastado da media dos dados.
Considere o peso em kg de 6 pessoas obesas: 184; 193; 204; 204; 196; 207.
a) Calcule a media.
b) Qual foi o desvio da 2a pessoa em relacao a media?
Pn
c) Mostre que a soma dos desvios em relacao a media e nula, ou seja, (xi x) = 0.
i=1
d) Transforme os dados em libras (1 kg = 2,2 lb). Encontre a media em libras, qual e a relacao com a
media do item a?
e) Adicione 20 kg a cada dado e encontre a media. Qual e a relacao com a media do item a?
2. Por engano, um professor omitiu uma nota no conjunto de cinco notas de um aluno. Se as quatro
notas restantes sao 48, 71, 79, 95 e a media das 5 notas e 72, qual o valor da nota omitida?
3. Determine a moda dos seguintes conjuntos de dados:
a) 5 5 5 3 1 5 1 4 3 5
b) 1 2 2 2 3 4 5 6 6 6 7 9
c) 1 2 3 6 7 8 9 10
d) 5 5 6 6 9 9 10 10
4. Calcule a mediana dos dados ja ordenados:
8,13 8,80 9,12 9,78 9,90 10,11 10,16 10,33 10,50 11,46
8,23 8,97 9,30 9,80 9,95 10,13 10,23 10,40 11,14 12,05
8,60 9,05 9,35 9,86 10,00 10,15 10,31 10,46 11,29 12,14
5. Considere os dados abaixo:
No de filhos 0 1 2 3 4 5 6
No de casais 4 4 2 0 5 3 5
Calcule a media, a moda e a mediana.
6. Um professor mediu o tempo (em minutos) gasto
pelos estudantes de sua disciplina para conclurem
um trabalho no laboratorio. Com os dados obtidos
construiu-se o histograma ao lado:
a) Calcule a media, a moda e a mediana do tempo
gasto no laboratorio?
b) Represente no grafico as medidas: media, moda
e mediana.
7. Considere os conjuntos de dados a seguir. Calcule as medidas de tendencia central e indique justificando
qual e a mais apropriada.
a) 1; 23; 25; 26; 27; 23; 29; 30
b) 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 2; 2; 2; 2; 2; 3; 3; 4; 50
c) 1; 1; 2; 3; 4; 1; 2; 6; 5; 8; 3; 4; 5; 6; 7
d) 1; 101; 104; 106; 111; 108; 109; 200
8. A Figura 17 representa o polgono de frequencias das frequencias relativas dos nveis sericos de
colesterol para dois grupos de homens de: 25-34 anos e 55-64 anos. Observe e responda:
Figura 17 Nveis de colesterol de homens dos EUA, divididos em dois grupos de 2 294 homens, 1976-1980
P(Pr ) = n100 r
P
em que: (Pr ) e a posicao do r-esimo percentil de interesse, n o numero de dados e r e o percentil
em numero decimal. Porem:
P
Se (Pr ) =
nr
100
e um inteiro, o r-esimo percentil dos dados e a media dos valores que ocupam
nr nr
a -esima e ( + 1)-esima posicoes;
100 100
P
Se (Pr ) =
nr
100
nao for inteiro, o r-esimo percentil sera o valor que ocupa a (j + 1)-esima
nr
posicao, no qual j e o maior inteiro menor que o quociente .
100
5.2.3.1.1 Exemplo
Considere os n = 13 dados a seguir, calcule a mediana, o 1o e o 3o quartis:
3,38; 2,25; 2,30; 2,60; 2,68; 4,05; 2,15; 2,75; 2,85; 3,00; 3,50; 4,02; 2,82
Resolucao:
Os dados ordenados sao:
2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02; 4,05
A mediana corresponde ao 50o percentil, isto e med = P50 , assim, a posicao em que se localiza a mediana
e:
P
(Pr ) =
nr
100
P
= (P50 ) =
13 50
100
= 6,5
Como o resultado nao e inteiro, a mediana e o valor que se localiza na posicao (6 + 1) = 7, isto e
med = 2,82. Conclui-se que 7 das observacoes sao menores ou iguais a 2,82 e 7 sao maiores ou iguais a
2,82.
O 1o quartil corresponde ao 25o percentil, isto e Q1 = P25 , a posicao em que se localiza e:
Como o resultado nao e inteiro, o 1o quartil sera o valor que esta na posicao (3 + 1) = 4, sendo Q1 = 2,60.
Portanto, ha 25% dos valores menores ou iguais a Q1 e 75% dos valores sao maiores ou iguais a Q1 .
O 3o quartil corresponde ao 75o percentil, isto e Q3 = P75 , a posicao em que se localiza e:
O resultado da operacao nao e inteiro, assim, o 3o quartil sera o valor que ocupa a posicao (9 + 1) = 10,
sendo Q3 = 3,38. Desta forma, pode-se dizer que ha 75% dos valores menores ou iguais a Q3 e 25% dos
valores sao maiores ou iguais a Q3 .
No conjunto de dados os valores em destaque representam as medidas calculadas anteriormente:
2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02; 4,05
5.2.3.1.2 Exemplo
Considerando os n = 12 dados abaixo, calcule a mediana, o 1o e 3o quartis:
3,50; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 2,15; 4,02
Resolucao:
Os dados ordenados sao:
2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02
A mediana corresponde ao 50o percentil, isto e med = P50 , assim, a posicao em que se localiza a mediana
e:
P
(Pr ) =
nr
100
P
= (P50 ) =
12 50
100
=6
O resultado e um numero inteiro, portanto a mediana sera a media aritmetica dos valores que ocupam
nr 12 50 12 50
as posicoes = =6e( + 1) = 6 + 1 = 7, sendo os numeros 2,75 e 2,82, logo a mediana
100 100 100
2,75 + 2,82
e med = = 2,785.
2
O 1 quartil corresponde ao 25o percentil, isto e Q1 = P25 , a posicao em que se localiza e:
o
O resultado e um numero inteiro, portanto o 1o quartil sera a media aritmetica dos valores que ocupam
nr 12 25 12 25
as posicoes = =3e( + 1) = 3 + 1 = 4, sendo os numeros 2,30 e 2,60, logo o 1o quartil
100 100 100
2,30 + 2,60
e Q1 = = 2,45.
2
O 3o quartil corresponde ao 75o percentil, isto e Q3 = P75 , a posicao em que se localiza e:
Como o resultado e um numero inteiro, o 3o quartil sera a media dos valores que ocupam as posicoes
12 75 12 75 3,00 + 3,38
=9e + 1 = 10, sendo os numeros 3,00 e 3,38, sendo Q3 = = 3,19.
100 o
10o o
2
Os 1 , 2 e 3 quartis dos dados estao entre os valores destacados:
2,15; 2,25; 2,30; | 2,60; 2,68; 2,75; | 2,82; 2,85; 3,00; | 3,38; 3,50; 4,02
5.2.4 Exerccios
1. Para os dados abaixo, encontre a mediana, o 1o quartil, o 3o quartil, o 10o percentil e o 95o percentil
a) 5 5 5 3 1 5 1 4 3 5
b) 1 2 2 2 3 4 5 6 6 6 7 8 9
c) 1 2 3 6 7 8 9 10 5 5 6 6 9 9 10
d) 8,13 8,23 8,60 8,80 8,97 9,05 9,12 9,30 9,35 9,78 9,80 9,86 9,90 9,95 10,00 10,11 10,13
10,15 10,16 10,23 10,31 10,33 10,40 10,46 10,50 11,14 11,29 11,46 12,05 12,14
Uma menina aos 3 anos de idade tinha altura de 85 centmetros e aos 4 anos e 4 meses sua altura chegou
a um valor que corresponde a um ponto exatamente sobre a curva p50.
a) Qual percentil ela se encontrava aos 3 anos?
b) E aos 4 anos e 4 meses qual altura tinha a crianca?
c) Qual foi o aumento percentual da altura dessa menina, descrito com uma casa decimal, no perodo
considerado?
5.2.5.1.1 Exemplo
Sejam os dois conjuntos de dados: X = {0, 1, 1, 1, 2} e Y = {1, 1, 1, 1, 1}. Calcule as amplitudes
total dos dois conjuntos.
Resolucao:
A amplitude e calculada por: A = maior valor menor valor.
A amplitude do conjunto X e:
A=20=2
A amplitude do conjunto Y e:
A=11=0
IQR = Q3 Q1
Em que:
IQR: e o intervalo interquartil;
Q3 : e o 3o quartil;
Q1 : e o 1o quartil.
Na maioria das situacoes o IQR e apresentado em um grafico denominado diagrama de caixa e
bigodes (Box and Whisker Plot) ou, simplesmente Boxplot. Alem do IQR outras cinco estatsticas compoe
o grafico: mnimo (menor valor), quartil inferior (1o quartil), mediana, quartil superior (3o quartil),
maximo (maior valor). A funcao deste grafico e permitir visualizar informacoes sobre a distribuicao dos
dados como: posicao, dispersao, assimetria, caudas e valores discrepantes (outliers).
A posicao central dos valores e dada pela mediana e a dispersao pela amplitude interquartlica.
As posicoes relativas da mediana e dos quartis e o formato dos bigodes dao uma nocao da simetria e do
tamanho das caudas da distribuicao. Ha dois bigodes e eles correspondem a maior observacao menor
que Q3 + 1,5 IQR e a menor observacao maior que Q1 1,5 IQR. Dependendo da dispersao dos dados,
neste grafico, podem aparecer observacoes (valores discrepantes) que estao acima de Q3 + 1,5 IQR ou
abaixo Q1 1,5 IQR, denominadas de pontos extremos (outliers).
Um Boxplot com as descricoes e as localizacoes de cada item que o compoe e apresentado na
Figura 22. Na pratica pode-se encontrar variacoes por causa da natureza dos dados.
5.2.5.2.1 Exemplo
Duas amostras A e B foram obtidas de uma populacao cuja variavel de interesse e: numero de
filhos por casal. A amostra A forneceu os seguintes valores: 0, 0, 1, 1, 2, 3, 3, 3, 4, 7, 9. A amostra B:
0, 0, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 7, 9. Algumas estatsticas das duas amostras foram obtidas e o Boxplot e
apresentado na Figura 23 :
Estatsticas Amostra A Amostra B
Tamanho da amostra n 11 casais 14 casais
Media x 3 filhos 3 filhos
Mediana md 3 filhos 3 filhos
Moda mo 3 filhos 3 filhos
Mnimo min 0 filho 0 filho
Maximo max 9 filhos 9 filhos
Amplitude Total A 9 filhos 9 filhos
Primeiro Quartil Q1 1 filho 2 filhos
Terceiro Quartil Q3 4 filhos 3 filhos
Intervalo Interquartlico IQR 3 filhos 1 filho
Embora as medidas de tendencia central das duas amostras sejam iguais e a amplitude tambem,
pode-se visualizar que os dados obtidos nas duas amostras apresentam dispersao, assimetria, caudas e
valores discrepantes diferentes.
Muitas calculadoras tem funcoes prontas para o calculo de variancias, e por isso e raro ter que
realizar todos os calculos manualmente.
5.2.5.3.1 Exemplo
O nvel de colesterol (HDL em mg/dL) de cinco alunos foram: 36, 42, 30, 30, 39. Calcule a
variancia do nvel de colesterol destes alunos.
Resolucao: n 2
P
n xi
1 X
s2 = x2i i=1
n 1 i=1 n
Em que:
Xk
fi = n
i=1
fi : e o peso ou a frequencia da classe i = 1, 2, , k;
xi : e o valor do dado i.
5.2.5.4.1 Exemplo
Considere 5 provas aplicadas as quais possuem os seguintes pesos, respectivamente: 1, 2, 3, 4
e 5. Um determinado aluno conseguiu as seguintes notas ordenadas: 40, 50, 80, 90 e 20. A variancia da
nota do aluno e calculada por:
k
!2
X
k fi xi
2 1 X
2 i=1
s = k fi xi
k
i=1
X X
f 1
i f
i
i=1 i=1
5.2.5.4.2 Exemplo
Considere os dados apresentados na Tabela 13, pagina 23, qual e a variancia dos dados?
Resolucao:
Considerando x1 = 0, x2 = 1, x3 = 2, x4 = 3, x5 = 4, x6 = 5, x7 = 6, x8 = 7 e suas respectivas
frequencias: f1 = 6, f2 = 16, f3 = 9, f4 = 8, f5 = 3, f6 = 3, f7 = 3, f8 = 2, a variancia e:
5.2.5.4.3 Exemplo
Quando for necessario calcular a variancia para dados agrupados em um tabela de distribuicao
de frequencias em que as classes sao formadas por intervalos, e necessario que encontrar todos os pontos
medios, Xi s, das classes (veja a pagina 24) para representar os valores contidos em cada intervalo de cada
classe. Estes pontos medios funcionam como os valores que a variavel assume (hipotese tabular basica) e
as frequencias representam os pesos.
Considere os dados a seguir:
Para calcular a variancia dos valores de glicemia e necessario encontrar os pontos medios das
LIi + LSi
classes, Xi = :
2
LI1 + LS1 55 + 65 LI2 + LS2 65 + 75 LI3 + LS3 75 + 85
X1 = = = 60; X2 = = = 70; X3 = = = 80
2 2 2 2 2 2
k
X k
X k
X
Realizar outros calculos como: fi ; fi Xi2 e fi Xi , oportunamente includos na tabela
i=1 i=1 i=1
a seguir:
k
!2
X
k fi Xi
1 X
i=1
s2 = k fi Xi2
k
i=1
X X
fi 1 fi
i=1 i=1
Em que:
Xk
fi = n
i=1
fi : e o peso ou a frequencia da classe i = 1, 2, , k;
Xi : e o ponto medio da classe i, equivale a xi .
7402
1 1 547.600 1
s2 = 55.400 = 55.400 = [640] = 71,1111
10 1 10 9 10 9
A variancia e igual a s2 = 71,1111 (mg/dL)2 .
5.2.5.5.1 Exemplo
Dadas as variancias a seguir, calcule o desvio padrao:
a) s2 = 28,8 (mg/dL)2 Resolucao:
b) s2 = 940 pontos2 a) s = s2 = 28,8 = 5,3666 mg/dL
c) s2 = 3,6576 filhos2 b) s = s2 = 940 = 30,6594 pontos
d) s2 = 75,1111 (mg/dL)2 c) s = s2 = 3,6576 = 1,9125 filho
d) s = s2 = 71,1111 = 8,4327 mg/dL
5.2.5.6.1 Exemplo
Calcule o coeficiente de variacao, dados:
a) x = 35,4 mg/dL e s2 = 28,8 (mg/dL)2 Resolucao:
b) x = 35,4 pontos e s2 = 940 pontos2 s 5,3666
a) cv = 100% = 100% = 15,16%
c) x = 35,4 pontos e s2 = 3,6576 filhos2 x 35,4
d) x = 35,4 mg/dL e s2 = 71,1111 (mg/dL)2 s 30,6594
b) cv = 100% = 100% = 54,75%
x 56
s 1,9125
c) cv = 100% = 100% = 81,73%
x 2,34
s 8,4327
d) cv = 100% = 100% = 11,40%
x 74
Se X = Y k, entao:
V (X) = V (Y ) DP (X) = DP (Y )
Se X = Y k, entao:
V (X) = V (Y ) k 2 DP (X) = DP (Y ) k
5.2.6 Exerccios
1. Os dados apresentados a seguir sao dos pesos corporais (em kg) de uma amostra de 10 alunos:
18,77 17,76 17,44 17,19 18,47 19,17 17,90 17,51 18,62 16,99
Calcule a variancia, o desvio padrao e coeficiente de variacao.
2. Um pesquisador mediu, durante 10 dias, as 9:00, a temperatura em graus Celsius do freezer de seu
laboratorio encontrando os seguintes valores: 10, 2, 0, 1, 3, 2, 0, 3, 1 e 1. Calcule a media, a
variancia e o desvio padrao, apresentando a unidade de medida.
3. A tabela abaixo mostra o numero anual de dias de licenca medica (DL) usados por enfermeiras em
um grande hospital urbano em 2003. As enfermeiras sao listadas por anos de servico (AS), isto e, a
enfermeira numero 1 tem menos tempo de casa, enquanto a enfermeira numero 21 tem o maior tempo de
casa.
AS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
DL 2 9 1 0 5 4 6 7 8 8 3 6 7 8 9 2 8 9 6 8 5
6. Foram obtidos dados da concentracao de calcio (g/mL de leite) no leite materno de 55 maes no
Hospital Maternidade Santa Maria, em Florzina, ano 2008. As maes foram divididas em dois grupos
segundo o perodo de lactacao: colostro e leite maduro.
a) Grupo 1 b) Grupo 2
6 PROBABILIDADE
Anteriormente foi estudado como as estatsticas descritivas podem ser usadas para organizar,
descrever e apresentar um conjunto de dados. Entretanto, pode-se querer investigar como a informacao
contida na amostra pode ser usada para inferir sobre alguma caracterstica da populacao da qual foi
obtida. Antes de se fazer isto, e necessario a exposicao de alguns conceitos basicos e o estudo sobre
probabilidades.
6.1 Definicoes
6.1.1 Experimento
E qualquer processo que permite ao pesquisador fazer observacoes. Pode ser determinstico e
aleatorio (probabilstico).
6.1.4.1 Exemplo
Um experimento consiste em lancar uma moeda e observar a face voltada para cima
Considerando K para o resultado cara e C para coroa, entao:
1 = {K, C} = n (1 ) = 2
6.1.4.2 Exemplo
Seja um experimento em que e lancado um dado comum. Considerando cada face: 1, 2, 3, 4, 5
e 6 como um possvel resultado, entao:
2 = {1, 2, 3, 4, 5, 6} = n (2 ) = 6
6.1.4.3 Exemplo
Uma pessoa deseja sortear uma bola de uma urna que contem 10 bolas enumeradas, entao:
3 = {b1 , b2 , . . . , b10 } = n (3 ) = 10
6.1.4.4 Exemplo
Ao lancar dois dados simultaneamente, considerando o par ordenado (a, b) sendo a e b as faces
do 1o e 2o dado, respectivamente, o espaco amostral e:
(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 = = n (4 ) = 36
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
6.1.4.5 Exemplo
Uma moeda e lancada ate que o resultado cara (K) ocorra pela primeira vez. Observa-se em
qual lancamento este fato ocorre.
5 = {1, 2, 3, 4, . . .} = n (5 ) =?
6.1.4.6 Exemplo
Lancar uma moeda duas vezes e observar o numero de caras.
6 = {0, 1, 2} = n (6 ) = 4
6.1.4.7 Exemplo
Escolher um numero no conjunto N.
Observacao: Um espaco amostral e finito se n () = n N .
6.1.5 Evento
Qualquer subconjunto de um espaco amostral representa um evento. A formacao de um evento
esta ligada ao experimento e consequentemente ao espaco amostral.
Os eventos serao representados pelas letras maiusculas do nosso alfabeto e se A for um evento,
o numero de elementos de A sera simbolizado por n(A).
6.1.5.1 Exemplo
Considere um experimento que consiste em jogar um dado e observar a face voltada para cima.
O espaco amostral ja foi definido em 2 . Alguns eventos Ai podem ser obtidos:
Observacao: Note que se n() = n, entao tera 2n subconjuntos (tambem denominado de conjunto
das partes) e, portanto, 2n eventos. Entre eles estao o (evento impossvel) e o proprio (evento certo).
6.1.5.2.1 Exemplo
Considere um experimento aleatorio em que uma moeda e lancada duas vezes e as faces voltadas
para cima sao observadas. O espaco amostral e:
Considere os eventos:
A: ocorrencia de cara no primeiro lancamento e coroa no segundo: A = {(K,C)};
B: ocorrencia de duas caras: B = {(K,K)}. Entao:
A interseccao de A e B e a ocorrencia de duas caras e a ocorrencia de cara no primeiro lance e coroa no
segundo.
AB =
A uniao de A e B e a ocorrencia de duas caras ou a ocorrencia de cara no primeiro lance e coroa no
segundo.
A B = {(K,K) , (K,C)}
6.2 Probabilidade
E um valor associado a cada resultado (evento) possvel. Pode ser uma probabilidade a priori
ou a posteriori.
n(A)
P (A) =
n()
6.2.1.1 Exemplo
Considere um experimento que consiste em lancar um dado. Calcule as probabilidades para
cada evento apresentado:
Solucao:
Considerando as faces do dado, o espaco amostral e = {1, 2, 3, 4, 5, 6} e tem 6 elementos, ou seja,
n () = 6.
a) Seja o evento A1 ocorrer o numero 5, entao: A1 = {5} = n (A1 ) = 1. Logo, a probabilidade de A1 e:
n(A1 ) 1
P (A1 ) = =
n() 6
n(A3 ) 6
P (A3 ) = = =1
n() 6
6.2.2.1 Exemplo
Considere a Tabela 30 em que e mostrado o numero de pessoas diabeticas no perodo de janeiro
a junho de 2009 em Minas Gerais.
Tabela 30 Pacientes com diabetes em Minas Gerais, segundo o sexo, no perodo de janeiro a junho de
2009
Sexo Numero de pacientes
Masculino 2.878
Feminino 4.970
Total 7.848
Fonte: http://hiperdia.datasus.gov.br/
Se uma pessoa com diabetes foi escolhida ao acaso, qual a probabilidade de que ela seja do sexo
masculino? Seja A o evento a pessoa com diabetes e do sexo masculino, entao:
ni 2.878
P (A) = fi = = = 0,3667 = 36,67%
N 7.848
6.2.3 Importante saber!
1. Se A e um evento de (ou seja, A )= P (A) 0.
2. P () = 1;
Observacao: se = {a1 , a2 , a3 , . . . , an } e cada evento elementar {ai } esta associado a uma proba-
n
X
bilidade pi . Entao, pi = p1 + p2 + . . . + pn = 1.
i=1
3. P () = 0
4. Se AC e o evento complementar de A, entao P AC = 1 P (A).
5. Se A1 , A2 , . . . , An sao eventos
! disjuntos pertencentes a , isto e, tem intersecao nula, Ai Aj = ,
[n n
X
com i 6= j, entao P Ai = P (Ai ) = P (A1 ) + P (A2 ) + . . . + P (An ).
i=1 i=1
6. Se A e B sao dois eventos de um espaco amostral e nao sao eventos disjuntos, ou seja, a intersecao
nao e o conjunto vazio, A B 6= , entao, ao se calcular a probabilidade da uniao e necessario
considerar a intersecao, ou seja, P (A B) = P (A) + P (B) P (A B).
7. 0 P (A) 1, a probabilidade de ocorrer o evento A e um numero entre 0 e 1.
6.3.1 Exemplo
Um grupo de mocas e classificado de acordo com a cor dos olhos e dos cabelos de cada moca,
segundo a tabela a seguir:
P (A B) n(A B) 4 2
P (A|B) = = = =
P (B) n(B) 6 3
6.3.2 Exemplo
Considere o espaco amostral e os eventos A e B:
= {1, 2, 3, . . . , 20}
A = {5, 10, 15, 20}
B = {9, 10, 11, . . . ,20}
Observe que a probabilidade de A dado B e igual a:
P (A B) 3/20 1
P (A|B) = = = .
P (B) 12/20 4
P (A B) 3/20 3
P (B|A) = = = .
P (A) 4/20 4
6.4 Exerccios
1. Use D para identificar os experimentos determinsticos e P para identificar os experimentos probabi-
lsticos.
( ) Soltar uma pedra do alto de um edifcio e observa-la cair em direcao ao solo.
( ) E todo aquele cujos resultados nao podem ser previstos antes da execucao do mesmo.
( ) Observar o movimento de um veculo e determinar a distancia percorrida.
( ) Injetar um medicamento experimental em ratos e observar a reacao dos mesmos.
( ) Lancar duas moedas e observar o numero de caras obtido.
2. Ha uma gaveta com meias das seguintes cores: 1 branca, 2 amarelas e 3 rosas. Duas meias sao
retiradas.
P (A B)
P (A|B) = = P (A B) = P (B) P (A|B)
P (B)
ou
P (A B)
P (B|A) = = P (A B) = P (A) P (B|A)
P (A)
Ou seja, a probabilidade da ocorrencia simultanea dos eventos A e B e dada pelo produto da
probabilidade de um deles pela probabilidade condicional do segundo dado o primeiro.
Em algumas situacoes podem ocorrer:
P (A|B) = P (A)
Consequentemente,
P (B|A) = P (B)
Quando isto acontece os eventos A e B sao independentes. Dois ou mais eventos sao indepen-
dentes se a ocorrencia de um deles nao afeta a probabilidade do outro. Se dois ou mais eventos nao sao
independentes, diz-se dependentes.
6.5.1 Exemplo
Considere o lancamento de uma moeda e de um dado simultaneamente; o resultado obtido no
lancamento da moeda nao afeta o do dado; portanto considerando cada lancamento ou da moeda ou
do dado como um evento, estes podem ser considerados como eventos independentes. Por outro lado,
considerando, uma urna contendo cinco bolas vermelhas e duas azuis, em que sao retiradas duas bolas,
sem reposicao, o resultado obtido na segunda extracao dependera do resultado observado na primeira
extracao; adotando cada extracao como um evento, nota-se que os eventos sao dependentes.
6.5.2 Exemplo
Uma firma produz um lote de 50 agulhas, das quais 6 sao defeituosas. Escolheram-se aleatoria-
mente e testaram-se duas agulhas do lote. Determine a probabilidade de ambas serem boas, se as agulhas
foram selecionadas: a) com reposicao e b) sem reposicao.
Solucao:
Como neste experimento ha repeticao, pois retira-se uma agulha e em seguida outra pode-se considerar
que cada retirada representa um evento. Assim, seja A o evento sair uma agulha boa na primeira retirada
e seja B o evento sair uma agulha boa na segunda retirada.
a) Considerando um experimento em que uma agulha e selecionada e recolocada antes de fazer a segunda
selecao, tem-se um experimento com reposicao. Neste caso a probabilidade de que ambas as agulhas
sejam boas pode ser calculada por:
44 44
P (A B) = P (A) P (B) = = 0,774
50 50
Pois os eventos sao independentes, uma vez que os eventos A e B ocorrem de forma independente.
b) Considerando um experimento em que uma agulha e selecionada e nao e recolocada antes de fazer
a segunda selecao, tem-se um experimento sem reposicao. Neste caso a probabilidade de que ambas as
agulhas sejam boas pode ser calculada por:
44 43
P (A B) = P (A) P (B|A) = = 0,772
50 49
Pois os eventos sao dependentes, uma vez que o evento B depende do acontecimento de A.
6.5.3 Exemplo
Considere um baralho com 52 cartas. Um experimento consiste em retirar duas cartas ao acaso
e sem reposicao. Qual e a probabilidade:
a) das duas cartas extradas serem ouros?
Solucao: O baralho comum possui 52 cartas, as quais sao divididas em 4 naipes com 13 cartas. Ou seja,
, , , (ouros, copas, paus, espadas, respectivamente) que possuem as cartas: A, 2, 3, 4, 5, 6, 7, 8,
9, 10, J, Q, K.
Portanto, considerando cada retirada com um evento, tem-se:
A = {sair uma carta de ouros na primeira retirada}
B = {sair uma carta de ouros na segunda retirada}
Portanto, a probabilidade de qua as duas cartas sejam de ouros e dada por:
13 12 1
P (A B) = P (A) P (B|A) = =
52 51 17
b) de uma ser dama e a outra ser rei, nesta ordem?
Considerando os eventos:
A = {sair uma dama na primeira retirada}
B = {sair um rei na segunda retirada}
Tem-se:
4 4 4
P (A B) = P (A) P (B|A) = =
52 51 663
Para tres ou mais eventos independentes a probabilidade da ocorrencia deles e, tambem, igual
ao produto de suas probabilidades individuais. Portanto,
Genericamente, !
n
\ n
Y
P Ai = P (Ai ) = P (A1 ) P (A2 ) . . . P (An )
i=1 i=1
6.6.1 Exemplo
Considere o lancamento de uma moeda 5 vezes. Qual e a probabilidade de ocorrer nos tres
primeiros lances a face cara e nos dois ultimos a face coroa?
Solucao:
Considerando cada lancamento como um evento, temos A1 , A2 , A3 , A4 , A5 cinco eventos correspondendo,
respectivamente, ao resultado cara nos tres primeiros lancamentos e os dois resultados coroa.
Assim,
5
! 5
\ Y 1 1 1 1 1 1
P Ai = P (Ai ) =P (A1 ) P (A2 ) P (A3 ) P (A4 ) P (A5 ) = =
i=1 i=1
2 2 2 2 2 32
6.7.1 Exemplo
Uma moeda e lancada 5 vezes. Cada lancamento (repeticao independente) e um ensaio, em que
dois resultados podem ocorrer: cara ou coroa. Pode-se chamar de sucesso o resultado cara e de fracasso
1 1
o resultado coroa. Em cada ensaio, p = e q = .
2 2
6.7.2 Exemplo
Uma urna contem 4 bolas vermelhas e 6 brancas. Uma bola e extrada, observada sua cor e
reposta na urna; este procedimento e repetido 8 vezes. Cada extracao (repeticao independente) e um
ensaio, em que dois resultados podem ocorrer: bola vermelha ou bola branca (nao vermelha). O sucesso
corresponde ao resultado bola vermelha e fracasso o resultado bola branca (complementar). Em cada
4 2 6 3
caso p = = eq= = .
10 5 10 5
6.7.3 Exemplo
Uma urna contem 4 bolas vermelhas, 6 brancas e 2 azuis. Uma bola e extrada, observada sua
cor e reposta na urna; este procedimento e repetido 10 vezes. Cada extracao e um ensaio, em que dois
resultados podem ocorrer, se relacionar o sucesso ao resultado bola vermelha, o fracasso sera o resultado
4 1 8 2
nao bola vermelha. Em cada caso p = = eq= = .
12 3 12 3
6.7.4 Exemplo
Um dado e lancado 100 vezes. Considere os dois resultados: sair o numero 5 ou sair um
numero diferente de 5. Considerando o sucesso o resultado sair o 5, entao o fracasso sera o resultado
1 5
nao sair o 5. Em cada ensaio p = e q = .
6 6
H I H
Considere os eventos do experimento citado no exemplo 1 em que uma moeda e lancada 5 vezes:
1
A1 : ocorre cara no 1o lancamento, P (A1 ) = ;
2
1
A2 : ocorre cara no 2o lancamento, P (A2 ) = ;
2
1
A3 : ocorre cara no 3o lancamento, P (A3 ) = ;
2
1
A4 : ocorre cara no 4o lancamento, P (A4 ) = ;
2
1
A5 : ocorre cara no 5o lancamento, P (A5 ) = .
2
Entao o evento A1 A2 . . . A5 corresponde ao evento sair cara nos 5 lancamentos. Como os eventos
sao independentes,
5
1 1 1 1 1 1 1
P (A1 A2 A3 A4 A5 ) = p p p p p = p5 q 0 = = = .
2 2 2 2 2 2 32
Se o interesse e calcular a probabilidade de obterem duas caras e em seguida tres coroas (nesta
ordem), entao o evento de interesse corresponde a: A1 A2 AC C C C
3 A4 A5 . Sendo que Ai corresponde
ao evento complementar de Ai . Logo, a probabilidade de ocorrer este evento e:
P A1 A2 AC C C
= p p q q q = p2 q 3
3 A4 A5
1 1 1 1 1
=
2 2 2 2 2
2 3
1 1 1
= = .
2 2 32
1
Neste experimento em qualquer quntupla ordenada a probabilidade sempre sera .
32
H I H
Agora, supondo que o interesse seja o de calcular a probabilidade de obter duas caras nos 5
lancamentos, ha 10 diferentes maneiras de acontecer este resultado, pois o sucesso e obter duas caras
nestes 5 lancamentos, nao importando em qual momento ocorrera. Portanto, as maneiras de acontecerem
duas caras em cinco lancamentos e apresentada a seguir, considerando que Ai , com i = 1, 2, 3, 4, 5, o
evento sair cara no lancamento i e AC
i o seu complementar:
A 1 A 2 AC C C
3 A4 A5 ; AC C C
1 A 2 A3 A 4 A5 ;
A 1 AC C C
2 A 3 A4 A5 ; AC C C
1 A 2 A3 A4 A 5 ;
A 1 AC C C
2 A3 A 4 A5 ; AC C C
1 A2 A3 A4 A5 ;
A 1 AC C C
2 A3 A4 A 5 ; AC C C
1 A2 A 3 A4 A 5 ;
AC C C
1 A 2 A 3 A4 A5 ; AC C C
1 A2 A3 A 4 A 5 .
1
Sabe-se que cada evento (quntupla ordenada) a probabilidade relacionada e igual a e sendo
32
10 quntuplas (eventos distintos) a probabilidade e:
1 10 5
10 = =
32 32 16
Com conhecimento basico em analise combinatoria nao e necessario discriminar as maneiras de
ocorrer os sucessos, ou seja, descrever todas as diferentes formas como feito anteriormente, pois o que se
interessa e calcular o numero de maneiras que ocorre duas caras nos 5 lancamentos. Para esta situacao
tem-se 5 lancamentos em que ha 2 sucessos e 3 fracassos, ou seja 5 elementos dos quais ha 1 elemento
que repete 2 vezes e 1 um elemento que repete 3 vezes e a melhor forma de calcular isto e por meio da
permutacao de 5 elementos em que 1 elemento repete 2 vezes e outro repete 3 vezes:
5!
P52,3 = = 10
2! 3!
Como pode se deduzir dos exemplos anterios a probabilidade de cada enupla ordenada de x
sucessos e n x fracassos e:
p p . . . p q q . . . q = px q nx
| {z } | {z }
x vezes (nx) vezes
pois, qualquer enupla ordenada deste tipo e a intersecao de x sucesso(s) e de n x fracasso(s), ou seja,
P (A1 A2 . . . Ax AC C x
x+1 . . . An ) = p q
nx
.
Portanto, se o interesse e calcular a probabilidade de ocorrer(em) x sucesso(s) em n tentativas
de uma enupla ordenada basta realizar o calculo:
P (x) = Cn,x px q nx
Em que:
x: representa o numero de sucessos de interesse;
n: representa o numero de repeticoes do experimento;
p: representa a probabilidade de ocorrer um sucesso (ou seja, o evento);
q: representa a probabilidade de ocorrer um fracasso ou q = 1 p (nao ocorrer o evento).
6.8 Exerccios
1. Considere um baralho com 52 cartas numeradas, 13 para cada um dos naipes (ouros, copas, espadas
e paus). Seja o experimento em que se retira uma carta aleatoriamente, observando seu naipe, numero
e/ou cor (vermelha ou preta). Considere os seguintes eventos e calcule o que se pede:
A = {a carta retirada e as};
V = {a carta retirada e vermelha} e
E = {a carta retirada e de espada}.
a) P (A), P (V ) e P (E).
b) P (A), P (V ) e P (E).
c) P (A V ), P (A E) e P (V E).
c) P (A V ), P (A E) e P (V E).
d) P (A|V ) . Os eventos A e V sao independentes?
e) P (V |E). Os eventos V e E sao independentes?
2. Suponha que estamos interessados em determinar a probabilidade de uma mulher que engravidou ter
um menino. Em um pas foram registrados 4.065.014 nascimentos, dos quais 2.081.287 foram meninos e
1.983.727 foram meninas. Se desta populacao escolhermos 3 mulheres e supormos que haja independencia
entre o sexo das criancas nascidas, qual e a probabilidade de que as tres criancas sejam meninas?
3. Suponha que voce retire de um baralho, aleatoriamente, duas cartas do seguinte modo: retira uma,
observa seu naipe, numero e cor, e a coloca de volta. Em seguida, retira a segunda carta, observa seu
naipe, numero e cor, e a coloca de volta. Sejam os eventos:
A1 = {a primeira carta retirada e um as} e A2 = {a segunda carta retirada e um as}.
a) Sem fazer calculos, voce acha que os eventos A1 e A2 sao independentes? Ou seja, voce acha que o
fato da primeira carta retirada ter sido um as altera a probabilidade de que a segunda carta seja um as?
b) Entao, qual e o valor de P (A2 |A1 )?
c) Qual e a probabilidade das duas cartas retiradas serem ases? Ou seja, calcule P (A1 A2 ).
4. Numa determinada cidade a probabilidade de nascer um menino, P (M ), e igual a duas vezes a
probabilidade de nascer uma menina, P (F ). Considerando cinco maes gravidas nesta cidade, determinar
a probabilidade:
a) de que nao nasca menina.
b) de que nascam 1, 2 ou 3 meninas.
c) de que nascam mais de duas meninas.
5. Suponha que foram selecionados cinco indivduos da populacao de pacientes picados com agulha
infectada com hepatite B. Sabendo que a probabilidade de que um indivduo desenvolva a doenca e 30%,
calcule:
Cor
Germinacao Total
Amarela Verde
Sim 25 40 65
Nao 225 210 435
Total 250 250 500
Sejam os eventos: A: a ervilha plantada germina; B: a ervilha e amarela e C: a ervilha e verde.
Pede-se descrever e determinar as probabilidades:
a) P (A) e) P (A C)
b) P (B) f) P (A|B)
c) P (C) g) P (C|A)
d) P (A B) h) P (C|B)
10. Uma experiencia consiste em retirar, sucessivamente, 3 cartas de um baralho comum bem embara-
lhado. Sejam A a ocorrencia de um rei na primeira retirada; B a ocorrencia de um rei na segunda e
C a de um rei na terceira. Exponha em palavras, o significado de cada um dos seguintes smbolos:
a) P (A B); d) P C|(A B) ;
b) P (A B); e) A, B e C;
c) A + B; f) P (A B B C).
11. Um dado sera lancado 5 vezes.
a) Qual a probabilidade que saia a face 1 nos 5 lancamentos?
b) Qual a probabilidade que a mesma face (qualquer uma) apareca nos 5 lancamentos?
12. No cruzamento de ervilhas amarelas homozigotas (AA) com ervilhas verdes homozigotas (aa) ocorrem
ervilhas amarelas heterozigotas (Aa). Se estas ervilhas forem cruzadas entre si, ocorrem ervilhas amarelas
e verdes, na proporcao de tres para uma. Suponha que foram pegas, ao acaso, tres ervilhas resultantes
do cruzamento de ervilhas amarelas heterozigotas. Qual a probabilidade de as tres serem verdes?
13. No cruzamento de pais hemoflicos (aa) com pais nao hemoflicos (AA) ocorrem filhos nao hemoflicos
(Aa). Se estes filhos forem cruzados com outros filhos (Aa), ocorrem netos hemoflicos e nao hemoflicos.
Suponha que foram pegos, ao acaso, tres netos resultantes destes cruzamentos. Qual a probabilidade de:
(nota: os hemoflicos sao do tipo aa)
a) os tres serem hemoflicos
b) os tres serem nao hemoflicos
c) o primeiro ser hemoflico e os outros dois nao
d) nenhum ser hemoflico.
1
14. A probabilidade de que um certo aluno resolva um problema e P (A) = a de que outro aluno resolva
2
1 1
e P (B) = e de que um terceiro resolva e P (C) = . Supondo independencia, qual e a probabilidade
3 4
de que:
a) os tres resolvam o problema;
b) ao menos um resolva o problema;
c) o primeiro aluno resolva e os demais nao.
15. Um produtor de sementes vende pacotes com 20 sementes cada. Os pacotes que apresentarem mais
de uma semente sem germinar sao indenizados. A probabilidade de uma semente germinar e 0,98.
a) Qual e a probabilidade de que um pacote nao seja indenizado?
b) Se o produtor vender 1.000 pacotes, em quantos pacotes se espera indenizar?
7 DISTRIBUICAO DE PROBABILIDADE
7.1.1 Exemplo
Considere um experimento que consiste em extrair duas bolas sem reposicao de uma urna que
contem 2 bolas brancas e 3 vermelhas. O espaco amostral16 relacionado a este experimento e:
7.1.2 Exemplo
Um pesquisador selecionou tres maes. Um experimento consiste em observar o sexo do bebe.
Utilizando f para representar o sexo feminino e m para representar o sexo masculino, tem-se o espaco
amostral:
= {(m, m, m), (f, m, m), (m, f, m), (m, m, f ), (f, f, m), (f, m, f ), (m, f, f ), (f, f, f )}
Considerando a variavel Y : numero de bebes do sexo feminino, entao Y = {0, 1, 2, 3}, sendo
que os valores entre chaves representam o domnio da variavel Y . Tais valores significam que podem
nascer 0, 1, 2 ou 3 bebes do sexo feminino, ou seja:
0 bebe do sexo feminino - (m, m, m);
1 bebe do sexo feminino - (f, m, m) ou (m, f, m) ou (m, m, f );
2 bebes do sexo feminino - (f, f, m) ou (f, m, f ) ou (m, f, f );
3 bebes do sexo feminino - (f, f, f ).
f (x) = P (X = x) = P (X = xi ) = p(xi ) = pi , i = 1, 2, 3, . . . ,
16 Este espaco amostral nao e equiprovavel, isto e, pelo menos um evento apresenta probabilidade diferente de um outro
qualquer.
X x1 x2 x3 ...
P (X = x) P (X = x1 ) P (X = x2 ) P (X = x3 ) ...
7.2.1 Propriedades
1. P (X = xi ) 0;
n
X
2. P (X = xi ) = 1
i=1
n
X 2
xi P (X = xi ) 2X .
2
2. Variancia de uma v. a. discreta X: X =
i=1
7.2.2.1 Exemplo
Tem-se como variavel aleatoria X: numero de bolas vermelhas obtidas na duas extracoes, sem
reposicao, portanto, X = {0, 1, 2} representa o numero de bolas vermelhas que podem ser observadas nas
duas extracoes. As probabilidades de ocorrencia dos eventos podem ser calculadas pela regra do produto,
da:
2 1 1 3 2 3
P (B, B) = = ; P (V, B) = = ;
5 4 10 5 4 10
2 3 3 3 2 3
P (B, V ) = = ; P (V, V ) = = .
5 4 10 5 4 10
1
P (X = 0) = ;
10
3 3 6 3
P (X = 1) = + = = ;
10 10 10 5
3
P (X = 2) = .
10
A distribuicao de probabilidade da variavel X e apresentada a seguir:
X 0 1 2
1 3 3
P (X = x)
10 5 10
7.2.2.2 Exemplo
Considerando a variavel Y : numero de bebes do sexo feminino, observa-se que Y = {0, 1, 2, 3}.
1
Para cada evento a probabilidade de ocorrencia era igual a . E necessario observar que para Y = 0
8
ha um evento, para Y = 1 ha tres eventos, para Y = 2 ha tres eventos e para Y = 3 ha um evento.
Considerando isto, a distribuicao de probabilidade da variavel aleatoria Y e:
Y 0 1 2 3
1 3 3 1
P (Y = y)
8 8 8 8
7.2.2.3 Exemplo
Calcular a media e a variancia da variavel aleatoria Y : numero de bebes do sexo feminino.
Solucao:
n
X
Y = yi P (Y = yi ) = y1 P (Y = y1 ) + y2 P (Y = y2 ) + y3 P (Y = y3 )
i=1
= 0 1/8 + 1 3/8 + 2 3/8 + 3 1/8 = 3/2 = 1,5 bebe do sexo feminino
Xn
Y2
2
yi P (Y = yi ) 2Y
=
i=1
2
y1 P (Y = y1 ) + y22 P (Y = y2 ) + y32 P (Y = y3 ) 2Y
=
= 02 1/8 + 12 3/8 + 22 3/8 + 32 1/8 (1,5)2 = 3/4 = 0,75 (bebe do sexo feminino)2
Por se tratar de uma distribuicao de probabilidade teorica pode-se representa-la por meio de
uma tabela e, o mais comum, por meio de uma formula denominada funcao de probabilidade:
P (X = x) = Cn,x px q nx
Em que:
x = 0, 1, . . . , n;
n!
Cn,x = ;
x!(n x)!
media: X = n p;
2
variancia: X = n p q.
7.2.3.1 Exemplo
Considere a variavel X: numero de meninas nascidas em 3 nascimentos. Sabendo que X
apresenta distribuicao binomial com n = 3 e p = 1/2, isto e, X Bin(n = 3, p = 1/2), calcule a
probabilidade de nascer, pelo menos 1 menina.
Solucao:
P (X 1) = P (X = 1) + P (X = 2) + P (X = 3)
Por outro lado,
P (X 1) = 1 P (X = 0)
P (X 1) = 1 C3,0 0,50 (0,5)3
P (X 1) = 1 1/8 = 7/8 = 0,875.
7.2.3.2 Exemplo
Sabendo que a probabilidade de um estudante obter aprovacao em certo teste de estatstica e
igual a 0,80, considerando um grupo de 5 estudantes, determine a probabilidade de que:
a) Nenhum seja aprovado.
b) Apenas um seja aprovado.
c) Ao menos um seja aprovado.
d) No maximo dois sejam aprovados.
e) O numero medio e a variancia dos aprovados.
Solucao:
Considerando a variavel X: numero de estudantes aprovados em certo teste de estatstica, pode-se escrever
como X Bin(n = 5, p = 0,80). Assim,
a) P (X = 0) = C5,0 0,800 (0,20)5 = 0,00032 = 0,032%
b) P (X = 1) = C5,1 0,801 (0,20)4 = 0,0064 = 0,64%
c) P (X 1) = 1 P (X < 1)
= 1 P (X = 0)
= 1 0,00032 = 0,9997 = 99,97%
d) P (X 2) = P (X = 0) + P (X = 1) + P (X = 2)
= P (X = 0) + P (X = 1) + P (X = 2)
= 0,00032 + 0,0064 + 0,0512 = 0,0579 = 5,79%
7.2.4.1 Exemplo
Em um determinado pas, o numero medio mensal de suicdios e 2,75. Assumindo que o numero
de suicdios segue uma distribuicao de Poisson, determine:
a) Qual e a probabilidade de que nenhum suicdio seja registrado durante determinado mes?
b) Qual e a probabilidade de que no maximo quatro suicdios sejam registrados?
c) Qual e a probabilidade de que seis ou mais suicdios sejam registrados?
Solucao:
Considerando a variavel X: numero de suicdios em um determinado pas, entao, X P oisson( = 2,75).
Assim:
2,750 e2,75
a) P (X = 0) = = 0,0639
0!
4
X 2,75x e2,75
b) P (X 4) =
x=0
x!
2,75
0
2,75 e 2,751 e2,75 2,752 e2,75 2,753 e2,75 2,754 e2,75
P (X 4) = + + + +
0! 1! 2! 3! 4!
P (X 4) = 00639 + 0,1758 + 0,2417 + 0,2216 + 0,1523 = 0,8554
5
X 2,75x e2,75
c) P (X 6) = 1
x=0
x!
P (X 6) = 1 [P (X 4) + P (X = 5)]
2,755 e2,75
P (X 6) = 1 0,8554 +
5!
P (X 6) = 1 [0,8554 + 0,0838] = 1 0,9392 = 0,0608
7.2.4.2 Exemplo
Seja X uma variavel aleatoria que representa o numero de bebes em um grupo de 2.000 que
morre antes de atingir o primeiro aniversario. Nos EUA, esta probabilidade e 0,0085.
a) Qual e o numero medio de bebes que morre em um grupo desse tamanho?
b) Qual a probabilidade de que no maximo cinco bebes dentre 2.000 morram em seus primeiros anos de
vida?
Solucao:
a) O numero medio e representado por = = n p = 2.000 0,0085 = 17
5
X 17x e17
b) P (X 5) =
x=0
x!
17
0
17 e 171 e17 172 e17 173 e17 174 e17 175 e17
P (X 5) = + + + + +
0! 1! 2! 3! 4! 5!
P (X 5) = 4,1 1008 + 7,0 1007 + 5,9 1006 + 3,3 1005 + 0,0001 + 0,0004 = 0,0006
7.3 Exerccios
1) Determine para cada experimento a variavel de interesse e os valores que a variavel pode assumir:
a) Uma urna contem 12 bolas, sendo 3 vermelhas, 4 brancas e 5 azuis. Retira-se duas bolas aleatoriamente
desta urna sem reposicao.
Solucao: Uma variavel de interesse pode ser X: numero de bolas vermelhas extradas sem reposicao de
uma urna contendo 12 bolas
Os valores que a variavel X assume: 0, 1, 2, ou seja, X = {0, 1, 2}.
b) Uma urna contem 12 bolas, sendo 3 vermelhas, 4 brancas e 5 azuis. Retira-se tres bolas aleatoriamente
desta urna sem reposicao.
c) Uma urna contem 12 bolas, sendo 3 vermelhas, 4 brancas e 5 azuis. Retira-se duas bolas aleatoriamente
desta urna com reposicao.
d) Em uma maternidade ha 4 maes em trabalho de parto e observa-se o sexo dos nascidos.
2) Considerando tres maes em trabalho de parto e que um pesquisador nao conhece o sexo dos bebes,
determinar:
a) A distribuicao de probabilidades do numero X de meninos nascidos.
b) P (1 X 3).
c) P (X > 2).
Xn
d) Mostre que P (X = x) = 1.
x=0
3) Numa determinada cidade a probabilidade de nascer um menino, P (M ), e igual a duas vezes a
probabilidade de nascer uma menina, P (F ). Considerando cinco maes gravidas nesta cidade, determinar:
a) A distribuicao de probabilidades do numero X de meninas nascidas.
b) P (1 X 3).
c) P (X > 2).
X n
d) Mostre que P (X = x) = 1.
x=0
4) Suponha que haja em media 2 suicdios por ano numa populacao de 50 000. Em uma cidade de 100.000
habitantes, encontre a probabilidade de que em um dado ano tenha havido: a) 0; b) 1; c) 2; d) 2 ou mais
suicdios. (R: a)0,0183; b)0,0732; c)0,1464; d)0,9085.)
5) O numero de casos de tetano registrado nos Estados Unidos durante um unico mes, em 1989, tem
uma distribuicao de Poisson com parametro = 4,5.
a) Qual e a probabilidade de que exatamente um caso de tetano seja registrado durante um determinado
mes?
b) Qual o numero medio de casos de tetano registrado no perodo de um mes? Qual e o desvio padrao?
6) Seja X uma variavel aleatoria que representa o numero de bebes em um grupo de 2000 que morre
antes de atingir o primeiro aniversario. Nos Estados Unidos, a probabilidade de que uma crianca morra
durante o primeiro ano de vida e 0,0085.
a) Qual e o numero medio de bebes que morre em um grupo desse tamanho?
b) Qual a probabilidade de que no maximo cinco bebes dentre 2000 morram em seus primeiros anos de
vida?
c) Qual a probabilidade de que entre 15 e 20 bebes morram em seus primeiros anos de vida?
7) A sndrome de Aspen afeta 1 em cada 1.000 indivduos. Numa populacao de 2.500 indivduos, deter-
mine a probabilidade de encontrar:
a) menos de 2 indivduos com a sndrome.
b) mais de um indivduo com a sndrome.
8) Verifique se as seguintes distribuicoes sao distribuicoes de probabilidade. Apresente os calculos e jus-
tifique a sua resposta:
x 0 1 2 3 x 0 1 2 3
a) b)
P (X = x) 0,28 0,21 0,43 0,15 P (X = x) 1/2 1/4 5/4 1
6) A probabilidade de Joaozinho ganhar um jogo de xadrez contra Mariazinha e 1/3. Qual a probabilidade
de Joaozinho ganhar ao menos 1 jogo em um total de 3 jogos?
7) Quais sao as probabilidades de obterem-se 9 pontos, em seis lances de um par de dados: a) duas vezes;
b) pelo menos 2 vezes. (R: a)61.440/531.441; b)72.689/531.441.)
Na secao sobre probabilidade pode-se notar que os experimentos estudados estao relacionados
a variaveis qualitativas e variaveis quantitativas discretas. Por exemplo, no lancamento de um dado os
valores observados sao discretos; no lancamento de uma moeda os resultados observados sao qualitativos
nominais (cara ou coroa); na extracao de bolas de uma urna, a variavel e qualitativa nominal e assim por
diante.
Nas situacoes anteriores bastava associar o numero de elementos de interesse com o numero de
elementos do espaco amostral para encontrar a probabilidade procurada. Por outro lado, quando a carac-
terstica a ser observada (evento de interesse) se tratar de uma variavel contnua (dados antropometricos,
por exemplo) para calcular as probabilidades desejadas e necessario adotar um modelo matematico para
estimar as solucoes.
Uma funcao densidade de probabilidade e uma funcao que associa um intervalo de valores de
uma variavel aleatoria contnua a probabilidade de ocorrencia deste intervalo. Quando a variavel aleatoria
e contnua nao e possvel associar diretamente uma probabilidade de ocorrencia a cada valor da variavel
devido a propria natureza dela, pois sao infinitos valores.
O calculo das probabilidades e realizado obtendo-se a area compreendida sob a curva entre o
intervalo de valores definidos. A area corresponde a probabilidade e a altura a densidade de probabilidade.
Pelo calculo diferencial e integral a area sob uma curva limitada por dois valores a e b, sendo
a < b, de X e determinada pela integral definida por estes valores:
Z b
f (x) dx
a
Por se tratar de areas, nao ha sentido calcular a area formada por f (a), ou seja x = a, pois
neste ponto forma-se apenas uma semirreta de x = a ate f (x), por definicao uma semirreta nao tem
espessura, so comprimento, logo P (X = a) = 0.
Considerando a e b, sendo a < b , valores de uma variavel X, tem-se:
Z b
P (a X b) = P (a < X < b) = P (a X < b) = P (a < X b) = f (x) dx representa a
a
probabilidade de x ser um valor entre a e b, ou a area sob a curva limitada por a e b;
Z +
P (X a) = P (X > a) = f (x) dx representa a probabilidade de x ser um valor maior do que
a
a, ou a area sob a curva limitada por a e +;
Z a
P (X a) = P (x < a) = f (x) dx representa a probabilidade de x ser um valor menor do a,
ou a area sob a curva limitada por e a.
8.1 Condicoes para que uma funcao seja funcao densidade de probabilidade
1. f (x) 0, x, e uma funcao positiva definida;
Z +
2. f (x) dx = 1, a area sob a curva e igual a 1.
Na Figura 26 estao representadas curvas normais com diferentes valores de e nas quais
pode-se observar: (a) curvas normais com diferentes valores de e valores iguais de ; (b) curvas normais
com mesmo valor de e diferentes valores de e (c) diferentes e .
Figura 29 P (Z > 2)
Esta area, ou melhor, probabilidade, pode ser encontrada na tabela que relaciona os valores
da distribuicao Z, normal padronizada, com os respectivos valores das probabilidades Z > z, ou seja
P (Z > z). Diferentes tabelas para a distribuicao normal padronizada podem ser encontradas na literatura,
mas todas apresentam mesmos valores de probabilidades, diferindo somente na forma de encontrar uma
determinada probabilidade (area).
Utilizando uma tabela que apresenta P (Z > z), isto e, a probabilidade acumulada a direita de
Z = z, entao P (Z > 2) pode ser encontrada facilmente como ilustra a Figura 30:
Figura 30 Valor tabelado para P (Z > 2): area sob a curva para Z > 2
8.2.4.2 Exemplo
Adotando a mesma variavel X N (170,10), considerando um grupo de 80 alunos, obtenha
P (154 < X < 171) e calcule o numero de alunos que estao dentro desta faixa de altura.
Solucao:
Primeiramente e necessario padronizar os valores da variavel X:
154 170 171 170
z1 = = 1,6 e z2 = = 0,1
10 10
Logo,
P (154 < X < 171) = P (1,6 < Z < 0,1).
Portanto,
P (1,6 < Z < 0,1) = 0,5 P (Z < 1,6) + 0,5 P (Z >
0,1)
P (1,6 < Z < 0,1) = 1 [P (Z > 1,6) + P (Z > 0,1)]
P (1,6 < Z < 0,1) = 1 [0,0548 + 0,4602] Figura 31 P (1,6 < Z < 0,1)
P (1,6 < Z < 0,1) = 0,4850
O numero esperado de alunos com altura entre 154 cm e 171 cm e 80 0,4850 = 38,8 alunos.
8.2.4.3 Exemplo
Suponha que o consumo diario de cachaca pelos alcoolatras de certa cidade seja normalmente
distribudo com media 320 mL e desvio padrao 50 mL. Selecionando ao acaso um alcoolatra desta cidade,
determine a probabilidade de que ele tenha consumo diario: a) maior que 330 mL: P (X > 330).
Solucao: tem-se X: consumo diario de cachaca pelos alcoolatras de certa cidade, X N (320; 50).
330 320
Assim, z = = 0,2
50
Logo,
P (X > 330) = P (Z > 0,2) Portanto, P (Z > 0,2) = 0,4207 ou 42,07%.
b) inferior a 370 mL: P (X < 370)
370 320
Solucao: z = = 1,0
50
Assim:
P (X < 370) = P (Z < 1,0)
Portanto, P (Z < 1,0) = 1 P (Z > 1) = 1 0,1587 = 0,8413 ou 84,13%
c) entre 240 e 330 mL: P (240 < X < 330).
240 320 330 320
Solucao: z1 = = 1,6 e z2 = = 0,2
50 50
Assim:
P (240 < X < 330) = P (1,6 < Z < 0,2)
P (1,6 < Z < 0,2) = 0,5 P (Z < 1,6) + 0,5 P (Z > 0,2)
P (1,6 < Z < 0,2) = 1 [P (Z > 1,6) + P (Z > 0,2)]
P (1,6 < Z < 0,2) = 1 [0,0548 + 0,4207] = 0,5245 ou 52,45%
d) entre 320 e 380 mL: P (320 < X < 380)
320 320 380 320
Solucao: z1 = = 0 e z2 = = 1,2
50 50
Assim:
P (320 < X < 380) = P (0 < Z < 1,2)
Logo, P (0 < Z < 1,2) = [P (Z > 0) P (Z > 1,2)]
P (0 < Z < 1,2) = [0,50 0,1151] = 0,3849 ou 38,49%
a) P (Z > 0,2) b) P (Z > 1,0) c) P (1,6 < Z < 0,2) d) P (0 < Z < 1,2)
8.3 Exerccios
1) Observando a variavel relacione assinalando com um X a sua classificacao.
Classificacao
Variavel Qualitativa Quantitativa
Nominal Ordinal Discreta Contnua
Cor da pele
Idade em anos
Grau de desnutricao
Peso de recem-nascidos
Numero de leitos no hospital
Classe social (A, B, C, ...)
Numero de homens com enfisema pulmonar
Tipagem sangunea
Nome de vacinas
Numero de partos num determinado municpio
Altura de um grupo de pessoas
Temperatura corporal
Distancia percorrida por um maratonista
Numero de bacterias numa placa de petri
Numero de caries
Circunferencia cefalica
2) Suponha que a va X seja distribuda normalmente, com uma media de 10 e um desvio padrao de 2.
Determine o seguinte:
a) P (X < 13)
b) P (X > 9)
c) P (6 < X < 14)
d) P (2 < X < 4)
3) Dentre as mulheres dos Estados Unidos de 18 a 74 anos, a pressao sangunea diastolica e normalmente
distribuda com media = 77 mm Hg e desvio padrao = 11,6 mm Hg.
a) Qual e a probabilidade de que uma mulher selecionada aleatoriamente tenha pressao sangunea dias-
tolica menor que 60 mm Hg?
b) Qual a probabilidade de que ela tenha pressao sangunea diastolica maior do que 90 mm Hg?
c) Qual a probabilidade de que ela tenha pressao sangunea diastolica entre 60 e 90 mm Hg?
4) A quantidade de agua destilada produzida por certa maquina tem distribuicao normal com valor
medio de 64 oncas e desvio padrao de 0,78 onca. Qual o volume x do recipiente que assegurara que ocorra
transbordamento em apenas 0,5% das vezes? Ou seja, qual o valor de x tal que P (X > x) = 0,005?
5) Determine o valor de z nas situacoes seguintes:
a) P (Z > z) = 0,004 b) P (Z > z) = 0,025 c) P (Z > z) = 0,03
d) P (Z > z) = 0,04 e) P (Z > z) = 0,05 f) P (Z > z) = 0,15
6) Determinar a area limitada pela curva normal em cada um dos casos.
a) Entre z = 0 e z = 1,2
b) Entre z = 0,68 e z = 0
c) Entre z = 0,46 e z = 2,21
d) Entre z = 0,81 e z = 1,94
e) A esquerda de z = 0,6
f) A direita de z = 1,28
g) A direita de z = 2,05 e a esquerda de z = 1,44
7) Determinar os valores de z, os quais se referem as areas limitadas pela curva normal, em cada um dos
casos: a) a area entre 0 e z e 0,3770; b) a area a esquerda de z e 0,8621; c) a area entre 1,5 e z e 0,0217.
(Resp: a)1,16; b)1,09; c)1,35)
9 TEORIA DA ESTIMACAO
9.1 Introducao
A finalidade da amostragem e a de obter uma indicacao do valor de um ou mais parametros de
uma populacao. Com as estatsticas das amostras, tais quais a media amostral, o desvio padrao amostral,
a proporcao amostral, entre outras, pode-se inferir a respeito dos respectivos parametros populacionais.
Isto e, a media amostral e usada para estimar a media populacional, o desvio padrao amostral e usado
para estimar o desvio padrao populacional e assim por diante.
E possvel notar que em diferentes amostras de uma mesma populacao sao obtidos diferentes
elementos e, portanto, estatsticas com valores diferentes.
9.1.1 Exemplo
Considere uma populacao composta por N = 6 indivduos: A, B, C, D, E e F cujos valores da
variavel de interesse X sao: 2, 3, 6, 8, 11 e 18, respectivamente. Suponha que serao realizadas 2 amostras
de tamanho n = 2 por diferentes pessoas. Uma pessoa podera amostrar os indivduos A e E, cujos valores
sao: 2 e 11. A segunda pessoa podera sortear C e E, com valores 6 e 11. A media obtida dos valores da
pessoa A e igual a 6,5, enquanto que a media obtida pela pessoa B e 8,5.
Os diferentes valores amostrados sao devidos ao acaso e esta variacao de elementos amostrados
e denominada de variabilidade amostral, por este motivo nunca se esta 100% certo de que o valor da
estatstica corresponde ao valor do parametro populacional.
Felizmente, conhecendo-se a distribuicao amostral de um estimador e usando a inferencia esta-
tstica pode-se obter conclusoes sobre o parametro populacional desconhecido.
9.1.3 Exemplo
Suponha que uma populacao composta por quatro indivduos A, B, C e D cuja medida da
variavel de interesse X seja representada pelos valores 2, 5, 8 e 11. Ao se retirar todas as amostras
possveis de tamanho n = 2 desta populacao obtem-se as seguintes amostras e respectivas medias.
Alem disso, ao se obter a media de todas as medias, o valor encontrado e igual a X = 6,5. Este
resultado corresponde a media populacional, o que nao e coincidencia. Veja, tambem, que na distribuicao
das medias o valor com maior probabilidade de ocorrencia e a media = 6,5.
Embora esta abordagem emprica das distribuicoes amostrais nao seja pratica, pois se tem
que conhecer todos os elementos da populacao e realizar a listagem de todos os resultados possveis de
amostras de mesmo tamanho, ao se considerar em pequena escala permite observar o que uma distribuicao
amostral realmente e. Na pratica, as distribuicoes amostrais ja estao disponveis em tabelas e em graficos
e as mais usadas sao a binomial, a normal, a t de Student, a 2 entre outras.
Com a condicao de que n seja suficientemente grande, a forma da distribuicao amostral e aproxi-
madamente normal.
Quando se confecciona a distribuicao amostral das proporcoes, desde que p nao seja muito
pequeno ou nao seja muito grande, observa-se que a media da distribuicao amostral das proporcoes, p , e
identica
r a proporcao populacional,
r p: p = p, alem disso o desvio padrao da distribuicao, p , corresponde
p(1 p) p(1 p)
a , isto e, p = .
n n
Essa situacao e conhecida como teorema do limite central e representa, talvez, o conceito mais
importante na inferencia estatstica.
9.2 Estimacao
A estimacao e o processo pelo qual se utiliza de dados amostrais para estimar os valores dos
parametros populacionais que sao desconhecidos. Assim, usa-se uma media amostral para estimar a media
populacional; uma proporcao amostral serve para estimar uma proporcao populacional; uma variancia
amostral e usada para estimar a variancia populacional, e assim por diante.
Duas formas de estimacao sao usadas: a estimacao pontual e a estimacao por intervalo.
z/2 e o valor de z que limita uma area de /2 na extremidade superior da distribuicao normal padrao e
z/2 e o valor de z que limita uma area de /2 na extremidade inferior da distribuicao18 .
Este intervalo significa que se forem retiradas muitas amostras de tamanho n de uma populacao,
1 intervalos de confianca irao incluir o valor do parametro . Basicamente seria observar 100 amostras
de tamanho n de modo que se 1 = 0,95 e para cada uma dessas 100 amostras fosse calculado o intervalo
de confianca, aproximadamente 95 intervalos incluirao .
9.2.2.1.1 Exemplo
As distribuicoes das pressoes sanguneas sistolicas e diastolicas para mulheres diabeticas en-
tre 30 e 34 anos tem medias desconhecidas. Entretanto, seus desvios padrao sao s = 11,8 mm Hg e
d = 9,1 mm Hg, respectivamente.
a) Uma amostra aleatoria de dez mulheres e selecionada dessa populacao. A pressao sangunea sistolica
media para a amostra e x = 130 mm Hg. Calcule um intervalo de confianca de 95% para s , a verdadeira
pressao sangunea sistolica media.
Resolucao:
IC1 () = x z/2 , x + z/2
n n
11,8 11,8
IC95% () = 130 1,96 , 130 + 1,96
10 10
IC95% () = [122,69, 137,31]
H I H
b) Interprete esse intervalo de confianca.
Resolucao:
Pode-se afirmar com 95% de confianca que a verdadeira media da pressao sangunea sistolica para mu-
lheres diabeticas entre 30 e 34 anos e um valor entre 122,69 e 137,31 mm Hg.
H I H
c) A pressao sangunea diastolica media para a amostra de tamanho 10 e x = 84 mm Hg. Encontre um
intervalo de confianca de 90% para d , a verdadeira pressao sangunea diastolica media da populacao.
Resolucao:
IC1 () = x z/2 , x + z/2
n n
9,1 9,1
IC90% () = 84 1,64 , 84 + 1,64
10 10
IC90% () = [79,28, 88,72]
H I H
d) Calcule um intervalo de confianca com 99% para d .
Resolucao:
IC1 () = x z/2 , x + z/2
n n
9,1 9,1
IC99% () = 84 2,57 , 84 + 2,57
10 10
IC99% () = [76,60, 91,40]
H I H
e) Como o intervalo de confianca de 99% se compara ao intervalo de 90%?
Resolucao:
18 z/2 corresponde a um valor de z de modo que P (Z > z/2 ) = /2 e z/2 corresponde a um valor de z tal que
P (Z < z/2 ) = /2. Dado /2 busca-se na tabela o valor de z, ou seja de z/2 .
Quanto maior o nvel de confianca com que o intervalo inclui a verdadeira media populacional, maior e o
valor do escore z, maior e a margem de erro e mais amplo e o intervalo de confianca.
H I H
Em que:
1 e o nvel de confianca ou grau de confianca ou coeficiente de confianca;
e o nvel de significancia;
t(/2, n1) e o valor que limita uma area de /2 na extremidade superior da distribuicao t de Student e
t(/2, n1) e o valor que limita uma area de /2 na extremidade inferior da distribuicao;
(n 1) representa os graus de liberdade da distribuicao t.
A distribuicao t de Student mencionada acima e uma distribuicao de probabilidade semelhante
a normal padronizada, pois e unimodal, simetrica em zero, tem a forma de sino e area sob a curva e
igual a 1. A distribuicao t tem uma propriedade denominada graus de liberdade que medem o volume
de informacao disponvel nos dados que podem ser usados para estimar 2 , por este motivo medem a
confiabilidade de s2 como um estimador de 2 . De modo que quando n e grande, s2 se aproxima de 2 ,
fazendo com que uma variavel T se aproxime da variavel Z, por outro lado, quando n e pequeno, isso
nao ocorre. A variavel T e uma variavel que se distribui segundo uma distribuicao t de Student com
nvel de significancia e graus de liberdade iguais n 1. Consequentemente, para cada valor de graus
de liberdade ha uma diferente distribuicao t.
Portanto, se n for pequeno, se a populacao se distribui normalmente e com desvio padrao
desconhecido, o intervalo de confianca para a media populacional devera ser calculado considerando-se a
distribuicao t.
9.2.2.2.1 Exemplo
Dados e n 1 obtenha os quantis, t(, n1) , abaixo da distribuicao de probabilidades t de
Student, veja a Tabela 35, pagina 109:
Resolucao:
9.2.2.2.2 Exemplo
As distribuicoes das pressoes sanguneas sistolicas e diastolicas para mulheres diabeticas entre
30 e 34 anos tem medias desconhecidas.
a) Uma amostra aleatoria de dez mulheres e selecionada dessa populacao. A pressao sangunea sistolica
media para a amostra e x = 130 mmg Hg com desvio padrao s = 11,8 mmg Hg. Calcule um intervalo de
confianca de 95% para s , a verdadeira pressao sangunea sistolica media.
Resolucao:
s s
IC1 () = x t(/2, n1) , x + t(/2, n1)
n n
11,8 11,8
IC95% () = 130 2,262 , 130 + 2,262
10 10
IC95% () = [121,56, 138,44]
H I H
b) Interprete esse intervalo de confianca.
Resolucao:
Pode-se afirmar com 95% de confianca que a verdadeira media da pressao sangunea sistolica para mu-
lheres diabeticas entre 30 e 34 anos e um valor entre 121,56 e 138,44 mmg Hg.
H I H
H I H
H I H
H I H
Em que:
y
p = : e a proporcao amostrada sendo y o numero de sucessos observados numa amostra de tamanho n.
n
9.2.2.3.1 Exemplo
Deseja-se avaliar a aceitacao de um novo produto no mercado. Efetuou-se uma amostragem
com n = 664 pessoas e 200 pessoas afirmaram que passariam a usar regularmente o produto. Construa
um intervalo de 99% de confianca para p: a proporcao de futuros consumidores desse produto. Interprete
o resultado.
Resolucao:
Pelos dados informados, tem-se:
y 200
p = = = 0,3012; z/2 = z0,005 = 2,57
n 664
" r r #
p(1 p) p(1 p)
IC1 (p) = p z/2 ; p + z/2
n n
" r r #
0,3012(1 0,3012) 0,3012(1 0,3012)
IC99% (p) = 0,3012 2,57 ; 0,3012 + 2,57
664 664
De acordo com a Figura 34 pode-se verificar que os respectivos erros de estimacao sao:
E = z/2 - para media quando a variancia populacional e conhecida;
n
s
E = t( , n1) - para media quando a variancia populacional e desconhecida;
2 n
20 Ha varias maneiras para calcular o tamanho de uma amostra.
r
p(1 p)
E = z/2 - para proporcao.
n
A partir de operacoes matematicas simples obtem-se uma formula para calcular n para cada
situacao:
2
z/2 2
n= - quando o objetivo e determinar o tamanho da amostra para calcular o intervalo de
E2
confianca para media quando a variancia populacional e conhecida;
t2(/2; n0 1) s20
n= - quando o objetivo e determinar o tamanho da amostra para calcular o intervalo
E2
de confianca para media quando a variancia populacional e desconhecida;
2
z/2 p(1 p)
n= - quando o objetivo e determinar o tamanho da amostra para calcular o intervalo
E2
de confianca para proporcao. Neste caso se tem a ideia de p obtida por meio de uma amostra piloto
ou observada em uma pesquisa similar. Quando nao se tem conhecimento de p adota-se p = 0,5
que fornece n maximo, pois p(1 p) 0,25.
Em que:
E: erro desejado definido pelo pesquisador; z/2 : valor tabelado da normal; 2 : variancia populacional;
s20 : variancia da amostra piloto; n0 1: graus de liberdade da amostra piloto e p: proporcao amostral.
Pode-se ver que E e inversamente proporcional a n. Logo, quanto maior o tamanho da amostra
menor sera o valor de E (largura menor) e, portanto, maior sera a precisao na estimacao. E importante
destacar que precisao e diferente de confianca.
9.2.2.4.1 Exemplo
De uma pesquisa passada sabe-se que o desvio padrao da altura de criancas da 5a serie (6o
ano) e de 5 cm. Que tamanho deve ter uma amostra para que o intervalo 150 0,98 cm tenha 95% de
confianca?
Resolucao:
Tem-se: E = 0,98 e z/2 = z0,025 = 1,96, assim:
2
z/2 2 1,962 52
n= 2
= = 100 criancas.
E 0,982 H I H
9.2.2.4.2 Exemplo
Em um estudo para a determinacao do perfil dos veteranos de um colegio a caracterstica de
maior interesse tem s0 = 0,3, obtida em uma amostra piloto de tamanho n0 = 20. Qual deve ser o
tamanho da amostra para que se tenha 95% de confianca de que o erro E = x da estimativa de
correspondente a essa caracterstica nao supere 0,05?
Resolucao:
Tem-se: n = 20; t(/2, n1) = t(0,025; 19) = 2,093; s = 0,3, assim:
t2( ;) s20 2,0932 0,32
n= 2 2 = = 157,7 158 estudantes.
E 0,052 H I H
9.2.2.4.3 Exemplo
Numa pesquisa epidemiologica deseja-se estimar, com 90% de confianca, o parametro populaci-
onal: p = proporcao de pessoas infectadas, com erro amostral maximo de 1%. Qual deve ser o tamanho
de uma amostra aleatoria simples supondo que, na populacao em estudo, nao existam mais que 20% de
indivduos infectados?
Resolucao:
y
Tem-se p = = 20% = 0,20; z/2 = z0,05 = 1,64.
n
2
z/2 p(1 p) 1,642 0,2(1 0,2)
n= = = 4303,6 4304 pessoas.
E2 0,012 H I H
9.2.2.4.4 Exemplo
Com o objetivo de avaliar a preferencia do eleitor na vespera de uma eleicao para a prefeitura
de um municpio, planeja-se um levantamento por amostragem aleatoria simples. Considere que seja
admissvel um erro amostral de ate 2%, com 95% de confianca, para as estimativas dos percentuais dos
varios candidatos. Quantos eleitores devem ser consultados?
Resolucao:
Tem-se: p =?, portanto p = 0,5; z/2 = z0,025 = 1,96
2
z/2 p(1 p) 1,962 0,5(1 0,5)
n= 2
= = 2401 eleitores.
E 0,022 H I H
9.3 Exerccios
N
!2
X
N
xi
1 X
i=1
Nos exerccios a seguir use 2 = x2i para obter a variancia populacional.
N N
i=1
1) Considere uma populacao em que p = 0,10. Se extrarem amostras de tamanhos n = 5 e n = 50, qual
e o erro padrao de p para as duas distribuicoes amostrais?
2) Considere uma populacao de respostas de tres indivduos a respeito de uma pesquisa do tipo dicotomica,
cujos valores sao 0, 1 e 0. Apresente todas as amostras de tamanho n = 2 que podemrser obtidas com
p(1 p)
reposicao, determine o estimador p de cada amostra. Verifique que p = p e que p = .
n
3) Considere uma populacao composta por 3 indivduos: A, B, C, cuja medida da variavel de interesse
X apresenta os seguintes valores: 2, 4, 6.
a) Determine e 2 .
b) Apresente todas as amostras de tamanho n = 2 que podem ser obtidas com reposicao, determine a
media de cada valor da variavel de cada amostra.
c) Verifique que X = e X = para (b).
n
4. Uma amostra aleatoria de 8 barras de cereais da marca PAF apresentou os seguintes conteudos de
gordura saturada, em gramas:
0,6 0,7 0,7 0,3 0,4 0,5 0,4 0,2
Sabe-se que essa variavel e normalmente distribuda com desvio padrao = 0,15 gramas.
a) Construa e interprete os ICs a 95% e a 99% para o teor medio verdadeiro de gordura saturada.
b) Quais os comprimentos dos dois intervalos? Qual e maior? Isso era esperado?
c) Suponha que no item (a) o desvio padrao nao e conhecido. Como voce construiria o IC a 95% de
confianca para ? Qual e este intervalo?
5. Os resultados abaixo referem-se a tensao de ruptura de uma amostra de n = 10 implantes mamarios
fabricados com gel de silicone.
Tensao media amostral de ruptura = 70,58 MPa
Desvio padrao amostral = 5,59 MPa
a) Obtenha um intervalo de confianca a 99% para media populacional da tensao de ruptura desses
implantes.
b) Obtenha o IC para a media supondo que o valor da media amostral foi obtido com base em 20 implantes
e o interprete.
c) O que ocorre com o comprimento do IC quando o tamanho amostral aumenta, mantendo-se o nvel de
confianca constante?
d) Qual foi o erro de estimacao do IC obtido na letra (b)?
6. Um pesquisador esta estudando a resistencia de um determinado material sob determinadas condicoes.
Ele sabe que essa variavel e normalmente distribuda com desvio padrao de duas unidades. Utilizando os
valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,0; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine:
(a) o intervalo de confianca para a resistencia media com um coeficiente de confianca de 90% e 95%; (b)
qual o tamanho da amostra necessario para que o erro cometido, ao estimarmos a resistencia media, nao
seja superior a 0,01 unidade com confianca 90%?
7. Um pesquisador esta estudando a resistencia de um determinado material sob determinadas condicoes.
Ele sabe que essa variavel e normalmente distribuda. Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8;
7,0; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine o intervalo de confianca para a
resistencia media com um coeficiente de confianca de 90%. Qual devera ser o tamanho da amostra com
1 = 95% para que se tenha um erro menor do 0,5 unidade?
8. Um centro de pesquisas de opiniao realizou uma pesquisa para avaliar a intencao de votos dos eleitores
de uma determinada cidade. Foram entrevistados 380 eleitores, selecionados aleatoriamente e constatou-
se que 180 pretendem votar num determinado candidato.
a) Determine um intervalo de confianca de 90% para p: proporcao de eleitores votantes no determinado
candidato e interprete o resultado.
b) Determine um intervalo de confianca de 95% para p: proporcao de eleitores votantes no determinado
candidato e interprete o resultado.
c) Qual intervalo e maior? Por que?
9. Uma reporter da revista Byte deseja fazer uma pesquisa para estimar a verdadeira proporcao de todos
os universitarios que tem computador pessoal, e quer ter 95% de confianca de que seus resultados tenham
uma margem de erro de 4%. Quantos universitarios devem ser pesquisados quando:
a) Ha uma estimativa de p, obtida em estudo anterior, que revele uma porcentagem de 27%.
b) Nao ha informacoes anteriores sobre o valor de p.
10 TEORIA DA DECISAO
10.1 Introducao
Sobre a teoria de estimacao o assunto abordado fora o de encontrar uma estimativa para um
parametro em estudo. Tal estimativa permitia fazer uma afirmacao sobre o parametro desconhecido
considerando um determinado nvel de confianca.
Entretanto, na maioria das situacoes o pesquisador nao tem por objetivo estimar um parametro,
mas decidir entre duas alegacoes contraditorias sobre o parametro. A estas duas afirmacoes contraditorias
da-se o nome de hipotese nula (H0 ) e hipotese alternativa (H1 ).
O objetivo de um teste de hipoteses e basicamente a escolha entre estas duas afirmacoes, que
sao concorrentes, mutuamente exclusivas e que podem considerar um ou mais parametros da populacao
ou, ainda, sobre a forma de uma distribuicao de probabilidade. O teste de hipoteses nada mais e que um
metodo para tomada de decisao (????).
A hipotese nula (H0 ) e a alegacao inicialmente assumida como verdadeira. Sempre sera definida
como uma expressao de igualdade. Considere, por exemplo, como um parametro de interesse, a hipotese
nula tera a forma H0 : = 0 , em que 0 e um valor especificado do parametro.
O parametro e uma caracterstica da populacao, assim, poderia ser:
: media populacional e por exemplo 0 = 0 = 25mg o valor especificado;
p: proporcao populacional e por exemplo 0 = p0 = 25% o valor especificado;
2 : variancia populacional e por exemplo 0 = 02 = 500g2 o valor especificado;
entre outros.
Por outro lado, a hipotese alternativa (H1 ) e a afirmacao contraditoria de H0 . Estabelecer H0
e H1 depende exclusivamente da natureza do problema em estudo. Por convencao, os smbolos =, e
estao associados a H0 e os smbolos 6=, < e >, estao associados a H1 .
Ao se realizar um teste de hipoteses, a hipotese nula sera rejeitada em favor da hipotese al-
ternativa somente se a evidencia da amostra sugerir que H0 seja falsa atraves do valor da estatstica de
teste que assumira um valor na regiao crtica. Caso contrario, ou seja, se a amostra nao contradisser
fortemente H0 , continua-se a acreditar na verdade da hipotese nula; neste caso o valor da estatstica de
teste nao assumira um valor na regiao crtica.
Pode-se achar que sendo a hipotese alternativa rejeitada, aceita-se a hipotese nula. Nao, nao e
assim que funciona. Em um teste de hipoteses a logica e estabelecer o nulo como condicao que precisa
ser invalidada. Portanto, a conclusao a qual se chega quando a estatstica de teste nao esta na regiao
crtica e que o nulo nao foi invalidado. Assim, pela linguagem formal do teste de hipoteses, a conclusao e:
rejeita-se a hipotese nula ou nao se rejeita a hipotese nula. Alternativamente, pode-se declarar que o
teste foi estatisticamente significativo ou nao foi estatisticamente significativo.
A regiao crtica e uma regiao definida na cauda da curva da distribuicao de probabilidade
inerente ao teste de hipotese, a sua posicao e o tamanho da regiao nao sao arbitrarios. O tamanho
dessa regiao e simbolizado por (le-se: alfa), geralmente sao usados 0,05 ou 0,01, mas podendo ser
definido outros valores, se desejado.
10.4 Teste de hipoteses para uma media de uma populacao normal quando a variancia
populacional for desconhecida
Neste teste de hipoteses sera considerado o caso em que seja igual a um determinado valor
0 (media hipotetica da populacao), sendo a variancia populacional 2 desconhecida.
Conforme descrito na secao 10.3 para a execucao de um teste de hipoteses e necessario seguir 4
passos.
Oprimeiro e a formulacao
das hipoteses asquais podem ter tres formas, , conforme o problema
H0 : = 0 H0 : = 0 H0 : = 0
em estudo: , e .
H1 : 6= 0 H1 : > 0 H1 : < 0
O segundo passo e a especificacao de , geralmente apresentado nos enunciados.
x 0
O terceiro passo e a obtencao do valor da estatstica tc = s usando os valores obtidos da
n
amostra e 0 , considerando tc t com = n 1 graus de liberdade (gl) sob H0 .
O quarto e ultimo passo e a conclusao de acordo com o(s) valor(es) da regiao(oes) crtica(s). Se
o valor da estatstica pertencer a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso
contrario, nao se rejeita H0 .
Sendo que o ttab quando H1 : 6= 0 deve ser consultado na tabela da distribuicao t conside-
rando ttab = t( 2 ; n1) e ttab = t( 2 ; n1) .
Enquanto que para H1 : > 0 e H1 : < 0 , ttab sera t(; n1) e t(; n1) , respectivamente.
10.4.1 Exemplo
Doze frascos de medicamento de certa marca acusam os seguintes conteudos medios em decili-
tros:
10,2 9,7 10,1 10,3 10,1 9,8 9,9 10,4 10,3 9,8 10,4 10,2
O fabricante afirma que o conteudo medio dos frascos e de 10 dL. Admitindo normalidade na distribuicao
dos conteudos, teste a hipotese de que a afirmacao do fabricante esta correta utilizando um nvel de 5%
de significancia.
Solucao:
Dados:
0 = 10 s = 0,2449
12
n = 12
X
xi = 0,05 = = 0,025
1 10,2 + . . . + 10,2 2
x = = = 10,1 ttab = t( 2 ; n1) = t0,025; 11) = 2,201 e ttab =
12 12
12
!2 t(0,025; 11) = 2,201
X
12
xi
1 X
i=1
s2 = x2i = 0,06
12 1 i=1 12
1
- Formulacao das hipoteses:
H0 : = 10
H1 : 6= 10
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:
x 0 10,1 10
tc = s = = 1,4145
0,2449
n 12
4 - Conclusao:
10.4.2 Exemplo
Considerando a situacao acima, quando e que ocorrera um erro tipo I ou um erro tipo II? Qual
e o mais serio?
Solucao:
H0 : = 10
As hipoteses em teste sao:
H1 : 6= 10
Um erro tipo I ocorrera se o real valor do conteudo dos frascos for 10 mL, mas voce decide
rejeitar H0 . Um erro tipo II ocorrera se o real valor do conteudo dos frascos for diferente de 10 mL, mas
voce nao rejeita H0 . Com um erro tipo I voce podera fazer com que o fabricante fiscalize toda a linha
de producao com o objetivo de encontrar alguma falha na producao. Com um erro tipo II voce podera
causar prejuzo financeiro se a quantidade informada for mais do que 10 mL e um ganho indevido (ate
mesmo uma possvel multa) quando a quantidade for menor do que 10 mL.
10.5 Exerccios
1. Um fabricante de termometro garante que a vida util media de certo tipo de termometro e de no
mnimo 10 anos.
a) Determine a hipotese nula e a alternativa.
b) Determine quando um erro tipo I ou II ocorre para um teste de hipotese da afirmacao.
c) Determine se o teste de hipotese e unicaudal a esquerda, a direita ou bicaudal. Explique.
d) Como voce deve interpretar uma decisao que rejeita a hipotese nula?
e) Como voce deve interpretar uma decisao que nao rejeita a hipotese nula?
2. Um fabricante de sucos de caixinha afirma que a quantidade media de sodio em seus produtos e
menor do que 9,0 mg.
a) Determine a hipotese nula e a alternativa.
b) Determine quando um erro tipo I ou II ocorre para um teste de hipotese da afirmacao.
c) Determine se o teste de hipotese e unicaudal a esquerda, a direita ou bicaudal. Explique.
d) Como voce deve interpretar uma decisao que rejeita a hipotese nula?
e) Como voce deve interpretar uma decisao que nao rejeita a hipotese nula?
3. Uma fabrica anuncia que o ndice de nicotina dos cigarros da marca Charuto apresenta-se abaixo de
26 mg por cigarro. Um laboratorio realiza 10 analises do ndice obtendo: 26, 24, 23, 22, 28, 25, 27, 26, 28,
24. Sabe-se que o ndice de nicotina dos cigarros desta marca se distribui normalmente. Pode-se aceitar
a afirmacao do fabricante, ao nvel de 5%?
4. Um certo tipo de rato apresenta, nos tres primeiros meses de vida, um ganho medio de peso de 58 g.
Uma amostra de 10 ratos foi alimentada desde o nascimento ate a idade de 3 meses com uma racao
especial, e o ganho de peso de cada rato foi: 55, 58, 60, 62, 65, 67, 54, 64, 62 e 68. Ha razoes para
crer, ao nvel de 5%, que a racao especial aumenta o peso nos 3 primeiros meses de vida?
5. Suponha que um estudo em determinada regiao mostra que a ingestao diaria media de calorias em
adultos e de 2.400 kcal. Considere que um grupo de 25 adultos desta populacao apresentou um consumo
medio de 3.000 kcal, com um desvio padrao de 1.250 kcal. Para testar se o consumo calorico deste grupo
e diferente do padrao de consumo da populacao, use = 5% e conclua.
Em alguns casos o interesse e testar uma proporcao populacional p igual a uma proporcao p0 .
Os passos a serem seguidos para a realizacao deste teste de hipoteses sao:
Primeiro passo:
Formular as hipoteses
segundo a natureza do problema. Elas podem ser do
H0 : p = p0 H0 : p = p0 H0 : p = p0
tipo: , e
H1 : p 6= p0 H1 : p > p0 H1 : p < p0
Sendo que ztab quando H1 : p 6= p0 dever ser consultado na tabela da distribuicao normal
padronizada Z considerando ztab = z/2 e ztab = z/2 .
Para as outras hipoteses, H1 : p > p0 e H1 : p < p0 , os valores de ztab sao respectivamente, z
e z .
10.6.1 Exemplo
Um comprador, ao receber de um fornecedor um grande lote de pecas, decidiu inspecionar 200
delas. Decidiu, tambem, que o lote sera rejeitado se ficar convencido, ao nvel de 5% de significancia, de
que a proporcao de pecas defeituosas no lote for superior a 4%. Qual sera sua decisao (rejeitar ou nao o
lote) se na amostra foram encontradas onze pecas defeituosas?
Solucao:
Dados:
p0 = 4% = 0,04 n = 200
y 11 = 0,05
p = = = 0,055
n 200 ztab = z = z0,05 = 1,65
1
- Formulacao das hipoteses:
H0 : p = 0,04
H1 : p > 0,04
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:
p p0 0,055 0,04
zc = r =r = 1,0825
p0 (1 p0 ) 0,04 (1 0,04)
n 200
4 - Conclusao:
10.6.2 Exemplo
Quando e que o comprador poderia cometer um erro tipo I ou um erro tipo II? Qual deles causa
mais danos ao comprador?
Solucao:
H0 : p = 0,04
H1 : p > 0,04
Um erro tipo I ocorrera se a real proporcao de pecas defeituosas for menor ou igual a 4%, mas
voce decide rejeitar H0 . Um erro tipo II ocorrera se a real proporcao de pecas defeituosas for superior
a 4%, mas voce nao rejeita H0 . Com um erro tipo I voce podera causar um mal estar entre comprador
e vendedor pois o lote de pecas sera devolvido. Por outro lado, um erro tipo II voce permitira comprar
lotes cuja proporcao de pecas defeituosas esteja acima do aceitavel, gerando um prejuzo financeiro ao
comprador.
10.7 Exerccios
1. Suponha que um alergista deseja testar a hipotese de que pelo menos 30% das pessoas sao alergicas a
medicamentos a base de sulfa. Explique como o alergista poderia cometer:
a) Determine a hipotese nula e a alternativa.
b) Determine quando um erro tipo I ou II ocorre para um teste de hipotese da afirmacao.
c) Determine se o teste de hipotese e unicaudal a esquerda, a direita ou bicaudal. Explique.
d) Como voce deve interpretar uma decisao que rejeita a hipotese nula?
e) Como voce deve interpretar uma decisao que nao rejeita a hipotese nula?
2. A reitoria de uma universidade acredita que a proporcao de alunos que ocasional ou frequentemente
chegam atrasados as aulas e de 55%.
a) Determine a hipotese nula e a alternativa.
b) Determine quando um erro tipo I ou II ocorre para um teste de hipotese da afirmacao.
c) Determine se o teste de hipotese e unicaudal a esquerda, a direita ou bicaudal. Explique.
d) Como voce deve interpretar uma decisao que rejeita a hipotese nula?
e) Como voce deve interpretar uma decisao que nao rejeita a hipotese nula?
3. Sabe-se por experiencia que 5% da producao de um determinado artigo e defeituosa. Um novo
empregado e contratado. Ele produz 600 pecas do artigo com 82 defeituosas. Ao nvel de 15%, verificar
se o novo empregado produz pecas com maior ndice de defeitos que o existente.
4. Em uma experiencia sobre percepcao extrassensorial (PES), um indivduo A, em uma sala isolada,
e solicitado a declarar a cor vermelha ou preta (em numeros iguais) de cartas tiradas ao acaso de um
baralho de 50 cartas, por outro indivduo B, posicionado em outra sala. Se A identifica corretamente 32
cartas, esse resultado e significativo ao nvel de 5% para indicar que A tem PES?
5. Um fabricante de droga medicinal afirma que ela e 90% eficaz na cura de uma alergia, em determinado
perodo. Em uma amostra de 200 pacientes, a droga curou 150 pessoas. Testar ao nvel de 1% se a
pretensao do fabricante e legtima.
6. Um levantamento efetuado em um bairro de uma cidade mostrou que 25 indivduos adultos de um
total de 80 eram tabagistas habituais. Considerando que a prevalencia de tabagismo na populacao adulta
seja de 20%, teste a hipotese de que a prevalencia de tabagismo neste bairro seja diferente da prevalencia
da populacao em geral, a um nvel de 5%.
10.8 Teste de hipoteses para duas medias de populacoes normais com variancias popula-
cionais desconhecidas
Este teste de hipotese tem por objetivo comparar duas medias de populacoes normais, ou seja,
o interesse deste teste e verificar 1 2 considerando x1 x2 . Existem duas situacoes que devem ser
consideradas: as variancias populacionais sao ou nao sao homogeneas.
Onde os valores ttab e ttab devem ser consultados na tabela da distribuicao t, sendo conside-
rados ttab = t(/2; n1 +n2 2) e ttab = t(/2; n1 +n2 2) .
10.8.1.1 Exemplo
Considere um experimento em que dois grupos de ratos (femeas) foram alimentados com dietas
apresentando alto e baixo conteudos de protena. Os dados abaixo apresentam os dois grupos, dando o
peso em gramas para cada rato entre o 28o e o 84o dia de vida.
Teste ao nvel de 5% de significancia se os dois grupos tratados apresentam medias iguais nos pesos.
Solucao:
Dados:
Adotando o ndice 1 para os ratos que foram alimentados com alto conteudo de protena e 2 para os ratos
com baixo conteudo de protena, tem-se:
1
- Formulacao das hipoteses:
H0 : 1 2 = 0
H1 : 1 2 6= 0
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:
x1 x2 0 120 101 0
tc = s =s = 1,891
1 1 1 1
s2p + 446,1176 +
n1 n2 12 7
4 - Conclusao:
Conforme o desenho, nota-se que o valor
da estatstica tc = 1,891 pertence a regiao de nao
rejeicao de H0 .
Conclui-se que nao se rejeita H0 ao nvel
de 5% de significancia ou seja, as medias nao sao
estatisticamente diferentes.
Onde os valores ttab e ttab devem ser consultados na tabela da distribuicao t, sendo conside-
rados ttab = t(/2; ) e ttab = t(/2; ) .
10.8.2.1 Exemplo
Os dados abaixo se referem aos pesos, em gramas, de ratos machos da raca Wistar com 15 dias
de idade, segundo a condicao normal e submetidos a extirpacao do timo (timectomizacao) aos 4 dias de
idade. Verificar se nas duas situacoes o ganho medio de peso destes animais e igual, usando = 5% (ha
heterocedasticidade).
Solucao:
Dados:
Adotando o ndice 1 para os ratos que estao na condicao normal e 2 para os ratos que foram timectomi-
zados, tem-se:
2 2
s21 s2
n1 = 5 21,412 1,077
+ 2 +
x1 = 36,98 n1 n2 5 5
s21 = 21,412 = 2 2 2 = 2 2
2 21,412 1,077
s1 s2
n2 = 5
n1 n2 5 5
x2 = 21,98 + +
s22 = 1,077 n1 1 n2 1 51 51
= 4,40 4 gl
= 0,05 ttab = t(/2; ) = t(0,025; 4)
t(0,025; 4)=2,776
t(0,025; 4)=2,776
1
- Formulacao das hipoteses:
H0 : 1 2 = 0
H1 : 1 2 6= 0
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:
x1 x2 0 36,98 21,98 0
tc = s = s = 7,073
2 2 21,412 1,077
s1 s2
+ +
n1 n2 5 5
4 - Conclusao:
Conforme o desenho, nota-se que o valor dos apresentando maior media de peso o primeiro
da estatstica tc = 7,073 pertence a regiao de rejei- grupo.
cao de H0 .
Conclui-se que rejeita-se H0 ao nvel de
5% de significancia ou seja, as medias sao esta-
tisticamente diferentes. Assim, o peso medios dos
ratos em condicao normal difere dos timectomiza-
10.8.3 Exerccios
1. Em um teste de hipotese de que mulheres sorriem para outras mais do que os homens o fazem entre
si, mulheres e homens foram filmados enquanto conversavam, anotando-se o numero de sorrisos de cada
sexo. Com os seguintes numeros de sorrisos em cinco minutos de conversa, teste a hipotese nula de que
nao ha diferenca entre os sexos quanto ao numero de sorrisos ( = 0,05). Considere que as variancias dos
grupos sao iguais.
Homens Mulheres
8 15
11 19
13 13
4 11
2 18
3. De duas populacoes Xnormais X1 e X X 2 foram retiradas amostras e os dados sao os apresentados a seguir:
Populacao 1: n1 = 6; xi = 36,3; x2i = 223,55
X X
Populacao 2: n2 = 9; xi = 76,9; x2i = 665,81
Testar ao nvel de 2,0% de significancia que a media da primeira populacao e igual a segunda. Considere
que as variancias dos grupos sao iguais.
4. Para verificar a eficencia de um cartaz na estimulacao a compra de determinado produto, 7 pares de
lojas foram formados, cada par tendo as mesmas caractersticas quanto a localizacao, ao tamanho e ao
volume geral das vendas. Isso feito, o cartaz foi colocado numa das lojas do par, nao o sendo em sua
correspondente, tendo o processo sido repetido para os 7 pares. Abaixo aparecem as vendas semanais do
produto durante a experimentacao, expressas em media de observacao conduzida por dois meses. Analise
os dados e conclua, a 5%, sobre o potencial do cartaz na inducao a compra do produto. Considere que
as variancias dos grupos sao diferentes.
Par 1 2 3 4 5 6 7
Com cartaz 16 24 18 14 26 17 29
Sem cartaz 13 18 14 16 19 12 18
11 TESTES QUI-QUADRADO
Os tres testes que envolvem a distribuicao Qui-quadrado que serao estudados neste material
sao:
Teste de aderencia
Teste de independencia
Teste de homogeneidade
Em todos os testes Qui-quadrado o que muda e so a hipotese envolvida no problema, basica-
mente, para os tres tipos de testes de hipoteses, a estatstica e:
n
X (Oi Ei )2
2c =
i=1
Ei
Sendo:
sob H0 , 2c em que sao os graus de liberdade da distribuicao de probabilidade Qui-quadrado;
Oi : representa as frequencias observadas;
Ei : representa as frequencias esperadas;
n: representa o numero de celulas na tabela excetuando-se os totais.
Observacao: Todos estes testes podem ser realizados desde que o numero de observacoes em
cada casela (celula) da tabela seja maior ou igual a 5 e a frequencia esperada tambem. Caso nao seja
atendida esta condicao, em cada classe deve ser utilizada a correcao de Yates.
k
X (Oi Ei )2
2c =
i=1
Ei
Sendo considerado sob H0 que 2c 2(k1 gl) .
Em que:
Oi : representa as frequencias observadas;
Ei : representa as frequencias esperadas;
Ei = n pi , onde n e o tamanho da amostra e pi e a probabilidade afirmada da i-esima categoria;
k: representa o numero de categorias ou resultados diferentes.
E, por ultimo, decidir de acordo com o valor da regiao crtica. Se o valor da estatstica pertencer
a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario, nao se rejeita H0 .
Conforme as hipoteses formuladas obtem-se a seguinte regiao crtica:
11.1.1 Exemplo
A maravilha e uma planta que apresenta flores de cor vermelha, branca e rosa. As plantas que
produzem flores cor-de-rosa sao heterozigotas, enquanto os outros dois fenotipos sao devidos a condicao
homozigota. Considere que o gene V determina a cor vermelha e o gene B a cor branca. Entao a geracao
F 1 do cruzamento entre uma planta com flor de cor vermelha com uma planta de flor de cor branca
gerara flores 100% da cor-de-rosa. Cruzando duas plantas heterozigotas, segunda geracao ou F 2, (flores
cor-de-rosa) e obtido 1/4 de plantas com flores vermelhas, 1/2 de plantas com flores cor-de-rosa e 1/4
de plantas com flores brancas, pela lei mendeliana. Um pesquisador realizou um experimento em 530
plantas heterozigotas e o pesquisador encontrou:
Cor da flor Vermelha Rosa Branca Total
Numero flores 140 290 100 530
Os dados obtidos pelo pesquisador sao compatveis com a teoria mendeliana? Use = 5%.
Solucao:
As frequencias esperadas podem ser calculadas por Ei = n pi :
E1 = 530 1/4 = 132,5
E2 = 530 1/2 = 265,0
E3 = 530 1/4 = 132,5
Tem-se, entao:
Cor da flor Vermelha Rosa Branca Total
Numero flores observadas (Oi ) 140,0 290,0 100,0 530,0
Numero flores esperadas (Ei ) 132,5 265,0 132,5 530,0
rc
X (Oi Ei )2
2c =
i=1
Ei
11.2.1 Exemplo
Os dados a seguir representam os resultados em pontos obtidos por estudantes em Estatstica e
Calculo I. Testar a hipotese de que os resultados em Estatstica sao independentes dos resultados obtidos
em Calculo, ao nvel de 2,5% de significancia.
Estatstica
Calculo I Total
0n<5 5 n < 7 7 n 10
0n<5 75 35 13 123
5n<7 29 120 32 181
7 n 10 15 70 46 131
Total 119 225 91 435
Solucao:
Inicialmente, calcula-se as frequencias esperadas, sendo:
(Soma da linha r) (Soma da coluna c)
Er,c =
Tamanho da amostra
(123) (119) (181) (91)
E1,1 = = 33,6483 E2,3 = = 37,8644
435 435
(123) (225) (131) (119)
E1,2 = = 63,6207 E3,1 = = 35,8368
435 435
(123) (91) (131) (225)
E1,3 = = 25,7310 E3,2 = = 67,7586
435 435
(181) (119) (131) (91)
E2,1 = = 49,5149 E3,3 = = 27,4046
435 435
(181) (225)
E2,2 = = 93,6207
435
Assim, considerando que os valores entre parenteses representam as frequencias esperadas, tem-se:
Estatstica
Calculo I Total
0n<5 5n<7 7 n 10
0n<5 75(33,6483) 35(63,6207) 13(25,7310) 123
5n<7 29(49,5149) 120(93,6207) 32(37,8644) 181
7 n 10 15(35,8368) 70(67,7586) 46(27,4046) 131
Total 119 225 91 435
A estatstica do teste e:
rc 2 9
X (O i Ei )
X (Oi Ei )2
2c = =
i=1
Ei i=1
Ei
Este teste e usado pada determinar se varias proporcoes sao iguais quando amostras sao tiradas
de populacoes diferentes. Embora o teste seja semelhante ao teste de independencia, aqui o interesse
e o de verificar as proporcoes, ou seja, se o comportamento de cada celula e o mesmo. Nao se esta
verificando as variaveis (teste de independencia) e sim as proporcoes (valores das celulas).
Conforme anteriormente descrito, as etapas para a realizacao do teste e semelhante as demais:
As
hipoteses em teste sao:
H0 : As proporcoes sao iguais
.
H1 : No mnimo uma das proporcoes e diferente das outras
Especificar .
Obter a estatstica do teste e:
rc
X (Oi Ei )2
2c =
i=1
Ei
11.3.1 Exemplo
(Fonte (modificado): Fischl et al. (1987) citado por (??)) Um experimento realizado cuidado-
samente obedecendo-se todos os criterios cientficos foi realizado para verificar a eficacia de zidovudina
(AZT) para prolongar a vida de pacientes com AIDS. Foram levados em consideracao outros estudos
neste experimento antes da decisao de se liberar ou nao o uso. Entretanto, o objetivo deste exemplo e
estudar os dados oriundos das variaveis tipo de medicamento e situacao do indivduo soro positivo. O
numero de sobrevientes tratados com AZT ou placebo sao apresentados na tabela a seguir:
Situacao do indivduo
Tipo de medicamento Total
Vivo Morto
AZT 144 1 145
Placebo 121 16 137
Total 265 17 282
Assim, considerando que os valores entre parenteses representam as frequencias esperadas, tem-se:
Situacao do indivduo
Tipo de medicamento Total
Vivo Morto
AZT 144(136,26) 1(8,74) 145
Placebo 121(128,74) 16(8,26) 137
Total 265 17 282
A estatstica do teste e:
rc 2 4
X (O i Ei )
X (Oi Ei )2
2c = =
i=1
Ei i=1
Ei
11.4 Exerccios
1. Um pesquisador conseguiu uma serie de dados dos ultimos 120 anos com o registro do numero de
ocorrencia de uma doenca rara. Os dados obtidos foram:
Ano
Dirigia enquanto bebia Total
1983 1987
Sim 1.250 991 2.241
Nao 1.387 1.666 3.053
Total 2.637 2.657 5.294
Os dados sugerem que a chance do amadurecimento da fruta e afetada pelo numero de folhas removidas?
Enuncie e teste as hipoteses apropriadas no nvel de 0,01.
4. Um estudo de acidentes de automovel e motoristas que usam telefone celular selecionados aleatoria-
mente acusou os seguintes dados amostrais. Com o nvel de 0,05 de significancia, teste a afirmacao de que
a ocorrencia de acidentes e independente do uso de telefone celular. Com base nesses resultados, parece
que a utilizacao de celulares afeta a seguranca da direcao?
12.1.1 Exemplo
Com base no diagrama de dispersao acima apresentado, pode-se observar que conforme o com-
primento da petala aumenta, a largura tende a aumentar.
Este grafico e importante tambem para se observar o comportamento das variaveis X e Y , por
exemplo, se existe ou nao um comportamento aproximadamente linear, quadratico, cubico, exponencial,
logstico etc.
As Figuras 43a e 43b mostram que as variaveis apresentam uma correlacao positiva, isto significa
que valores altos de uma variavel estao associados a valores altos da outra variavel. Ja nas Figuras 43c
e 43d as variaveis apresentam correlacao negativa indicando que valores altos de uma variavel estao
associados a valores baixos da outra variavel.
O penultimo e o ultimo grafico (Figuras 43e e 43f) exemplificam casos em que a correlacao
linear e nula. O ultimo grafico ilustra uma dispersao na qual X e Y estao intimamente ligados, mas a
relacao nao e linear. Isto acontece porque o coeficiente de correlacao so e uma medida util da forca da
relacao entre duas variaveis quando elas estao relacionadas linearmente.
O fato de que duas variaveis estejam correlacionadas nao implica uma relacao de causalidade
(causa e efeito) entre as variaveis, quer dizer, que a variavel X cause Y ou vice-versa. Por outro lado,
21 http://en.wikipedia.org/wiki/Iris flower data set. Acesso em: 24 jul. 2014
o fato da correlacao ser igual a zero nao implica que as variaveis nao estao correlacionadas, elas podem
nao possuir um comportamento linear, como a Figura 43f.
Observar um diagrama de dispersao para interpretar a correlacao entre variaveis e importante,
porem e necessario medir por meio de algum metodo numerico. O coeficiente de correlacao linear e uma
tecnica estatstica empregada para medir a associacao (relacao, correlacao) entre duas variaveis. Ele
quantifica o grau de associacao entre duas variaveis aleatorias, desde que a relacao seja linear, em uma
escala absoluta variando no intervalo [1, 1]. A utilizacao do coeficiente de correlacao como medida da
relacao ente variaveis apresenta algumas vantagens, entre as quais se destaca o fato de este coeficiente
ser adimensional, isto e, nao depende da unidade de medida das variaveis aleatorias.
O coeficiente de correlacao linear e obtido pela Formula 1:
n
X n
X
n
xi yi
X i=1 i=1
xi yi
i=1
n
r = v !2 !2 (1)
n n
u
u X X
u
u n xi n yi
uX 2 X
i=1 i=1
xi yi2
u
n n
u
u i=1
t i=1
Conforme o valor obtido no intervalo [1, 1], a correlacao r e classificada como (??):
fraca quando 0 |r| 0,5;
forte se 0,8 |r| 1;
moderada, caso contrario.
Enquanto que para (??), a intensidade do relacionamento de coeficientes de correlacao positivos
e negativos pode ser categorizada da seguinte forma:
Perfeita 1 +1
0,9 +0,9
Forte 0,8 +0,8
0,7 +0,7
0,6 +0,6
Moderada 0,5 +0,5
0,4 +0,4
0,3 +0,3
Fraca 0,2 +0,2
0,1 +0,1
Zero (nula) 0
Este coeficiente de correlacao e tambem conhecido como r de Pearson e o seu nome completo
e coeficiente de correlacao momento produto. E um teste parametrico, portanto para o seu calculo
e necessario que os dados sejam provenientes de uma populacao normalmente distribuda. Se houver
motivos para crer que essa condicao nao fora atendida deve-se usar o equivalente nao parametrico do r
de Pearson, chamado de de Spearman (??).
12.2.1 Exemplo
Em um estudo conduzido na Italia, 10 pacientes com hipertrigliceridemia foram colocados sob
dieta de baixas gorduras e altos carboidratos. Antes de iniciar os estudo, as medidas do Nvel de Colesterol
(em mmol/L) e do Nvel de Triglicerdeos (em mmol/L) foram registradas foram mensuradas em cada
indivduo e estao apresentadas a seguir:
Paciente 1 2 3 4 5 6 7 8 9 10
N. Colest. 5,12 6,18 6,77 6,65 6,36 5,90 5,48 6,02 10,34 8,51
N. Trigl. 2,30 2,54 2,95 3,77 4,18 5,31 5,53 8,83 9,48 14,20
a) Construa um grafico de dispersao para esses dados.
b) Ha alguma evidencia de uma relacao linear entre os nveis de colesterol e de triglicerdeos antes da
dieta?
c) Calcule o coeficiente de correlacao r.
Solucao:
a)
n
X n
X
xi yi
n
i=1 i=1
X
xi yi 76,33 59,09
n 432,7552
r = v
i=1 10
n
!2 n
!2 = v 2
! ! = 0,6497
(59,09)2
u u
t 475,3283 76,33
u X X u
u xi yi 480,3857
u n Xn 10 10
i=1 i=1
uX 2 2
xi yi
u
u
ui=1 n n
t i=1
12.3 Exerccios
1. O numero de horas que 12 estudantes passam on-line durante o fim de semana e a nota de cada
estudante na prova de estatstica na segunda-feira seguinte sao:
Faca o diagrama de dispersao, calcule o coeficiente de correlacao e decida sobre o tipo de correlacao e o
que isto significa na pratica.
2. Uma pesquisa tinha por objetivo relacionar os salarios mensais (em milhares de R$) recebidos por
executivos homens e mulheres que exerciam a mesma funcao. Observou-se os seguintes dados:
que estabelecem uma relacao entre valores correspondentes das variaveis. Dois fenomenos podem ser
distinguidos: os fenomenos determinsticos, em que cada valor de X determina um valor de Y , e os
fenomenos probabilsticos, em que nao e determinado de maneira unica o valor de Y associado a um
valor especfico de X. Por exemplo, se Y e a quantidade de alongamento que uma forca X provoca em
uma mola, entao cada valor de X determina um unico Y e, portanto, constitui um modelo determinstico.
Por outro lado, se Y e o peso de uma pessoa cuja altura e X, entao Y nao esta determinado de maneira
unica por X, ja que pessoas com mesma altura podem ter pesos diferentes. Mas, mesmo assim, existe
uma relacao entre peso e altura, que faz com seja mais provavel que uma pessoa alta pese mais, portanto,
isso e um fenomeno probabilstico.
Em um modelo determinstico, a variavel Y e uma funcao da variavel X, e o objetivo e encon-
trar uma formula y = f (x) que melhor descreva os dados. Uma maneira de modelar um conjunto de
dados determinsticos e procurar uma funcao f , denominada funcao funcao interpoladora, cujo gra-
fico passe por todos os pontos de dados. Embora as funcoes interpoladoras sejam apropriadas em certas
situacoes, elas nao dao conta de maneira adequada dos erros de medicao. Por exemplo, suponha que
foram levantados os seguintes dados referentes as variaveis X e Y e confeccionado o grafico apresentado
na Figura 45(a). Em tais dados pode ser ajustado um polinomio de grau dez cujo grafico passa por todos
os pares de pontos como mostra a Figura 45(b). Contudo um modelo polinomial nao consegue transmitir
a relacao de linearidade subjacente aos dados. Uma abordagem melhor e procurar uma equacao linear
y = ax + b cujo grafico descreve melhor a relacao linear dos dados, mesmo que esse grafico nao passe por
todos ou por qualquer um dos pontos de dados como esta representado na Figura 45(c).
A obtencao do grafico da Figura 45(c) e feita por meio de tecnicas estatsticas chamada de
analise de regressao. A analise de regressao consiste na realizacao de calculos que permitem determi-
nar a existencia de uma relacao funcional entre uma variavel dependente com uma ou mais variaveis
independentes. Ou seja, consiste na obtencao de uma equacao que tenta explicar a variacao da variavel
dependente pela variacao dos nveis da(s) variavel(is) independente(s). A variavel dependente e a variavel
independente sao classificadas como quantitativas.
Ao se escolher um modelo para descrever o comportamento de variaveis, ele deve ser coerente
com o que acontece na pratica. Para isso, deve-se considerar no momento de se escolher o modelo:
O modelo selecionado esta condizente tanto no grau como no aspecto da curva para representar em
termos praticos o fenomeno em estudo?
O modelo contem apenas as variaveis que sao relevantes para explicar o fenomeno?
O Metodo dos Mnimos Quadrados e utilizado para a obtencao de um modelo matematico
(equacao) que melhor se ajuste aos dados, ou seja, que determine a melhor relacao funcional entre as
variaveis. Este metodo se baseia na obtencao de uma equacao estimada de tal forma que as distancias
entre os pontos do diagrama e os pontos da curva do modelo matematico, em geral, sejam as menores
possveis. Resumindo: com este metodo a soma de quadrados das distancias entre os pontos do diagrama
e dos respectivos pontos na curva da equacao estimada e minimizada, obtendo-se, desta forma, uma
relacao funcional entre X e Y , para o modelo escolhido, com um mnimo de erro possvel.
No grafico pode-se observar que a equacao plotada, geralmente, nao passa por cima dos valores
observados. A diferenca entre um valor observado yi e o valor estimado yi e denominado de resduo,
isto e, ei = yi yi . O valor estimado, yi , e obtido quando se atribui algum valor para xi na equacao
encontrada.
O erro (tambem denominado resduo) ei corresponde a diferenca entre um valor observado yi
e o valor estimado yi obtido a partir da equacao estimada: ei = yi yi . Para uma melhor compreensao
observe a Figura 46.
Note que para cada ponto observado existe um ponto estimado, portanto ha tanto erros quanto
pares de pontos.
Embora existam diversos modelos, este material apenas abordara o modelo (3) que e conhecido
como modelo de regressao linear simples:
yi = 0 + 1 xi + ei (3)
Em que:
yi : e o valor observado para a variavel dependente Y no i-esimo nvel da variavel independente X;
0 : e a constante de regressao. Representa o intercepto da reta com o eixo-y;
1 : coeficiente de regressao. Representa a variacao de Y em funcao da variacao de uma unidade da
variavel X;
xi : e o i-esimo nvel da variavel independente, i = 1,2,3, ,n;
ei : e o erro associado a distancia entre o valor observado yi e o correspondente ponto na curva do
modelo proposto para o mesmo nvel i de X.
Este modelo e denominado modelo estatstico por considerar um erro associado a cada obser-
vacao, diferentemente do modelo matematico.
A regressao linear simples tem por objetivo encontrar valores (estimativas 0 e 1 ) dos para-
metros do Modelo (3) os quais minimizam a distancia entre os pontos (valores observados) do diagrama
de dispersao e a curva a ser ajustada. Por meio do metodo dos mnimos quadrados, as estimativas dos
parametros do modelo linear e obtido por:
0 = y 1 x (4)
n
n
P P
n
xi yi
P i=1 i=1
yi xi
i=1 n SP Dxy
1 = 2 = (5)
SQDx
n
P
n
xi
i=1
x2i
P
i=1 n
12.5.1 Exemplo
Sejam os dados a seguir:
x 4 7 10 12 17
y 10 16 20 24 30
5
P 5
P
5
xi yi
P i=1 i=1
xi yi
i=1 n 150 100 50
1 = 2 = = 1,5306 0 = y 1 x = 1,5306 = 4,6940
98 5 5
5
P
5
xi
i=1
x2i
P
i=1 n
Assim, a equacao obtida e: yi = 4,6940 + 1,5306xi
O grafico e o apresentado a seguir:
12.5.2 Exemplo
Uma empresa que fabrica medicamentos realizou um levantamento do custo total de um seus
produtos (Y ), expresso em R$ 1.000,00, em funcao do numero total de medicamentos (X) produzidos,
expresso em unidades, durante cinco meses, com o objetivo de montar uma regressao linear simples entre
essas variaveis, obteve-se os somatorios:
X X X X X
x = 440 y = 120 xy = 12.300 x2 = 49.450 y 2 = 3.200
12.5.3 Exemplo
Nos 11 anos anteriores a aprovacao do Ato Federal de Seguranca e Saude das Minas de Carvao
de 1969, as taxas de fatalidade para os mineiros no subsolo pouco variavam. Depois da sua implementacao,
no entanto, as taxas de fatalidade diminuram rapidamente ate 1979. As taxas para os anos de 1970 ate
1981 sao fornecidas a seguir; para fins computacionais, os anos foram convertidos para uma escala que se
inicia em 1.
Solucao:
Os graficos referentes a cada situacao se encontram na Figura 48. Em: (a) nao se observa tendencia
linear; (b) o modelo ajustado e y = 1,8056 0,1017x; (d) o modelo ajustado e y = 2,1352 0,5946x , em
que x = ln(x); (e) O coeficiente de determinacao para o modelo da letra (b) e 55,90% e para o modelo
(d) e 59,64%, logo o ultimo modelo e o mais indicado. O valor do seu r2 significa que 59,64% da variacao
da variavel dependente (Ano) consegue ser explicada pelo modelo ajustado.
12.6 Exerccios
1. Ajustar a equacao de regressao linear aos dados amostrais apresentados abaixo e confeccionar o
diagrama de dispersao com grafico da equacao ajustada.
Temperatura (C ) 10 15 20 25 30
Comprimento (mm) 1003 1005 1010 1011 1014
2. Para o seguinte conjunto de valores de x e y obtenha a equacao de regressao estimada.
x 2 4 6 8 10 12 14 16 18 20
y 10,3 18,2 25,1 35,6 43,0 50,0 59,1 67,8 75,2 85,0
3. Frutos de pepino sao utilizados para a producao de pickles e estes sao preservados em uma solucao
salina com 2 a 3% de sodio. Os dados abaixo mostram a reducao na firmeza (variavel Y medida em
libras) de pickles estocados por um perodo de 0 a 52 semanas (X) em solucao salina.
Semanas (X) 0 4 14 32 52
Firmeza (Y ) 19,8 16,5 12,8 8,1 7,5
5. Por que o diagrama de dispersao e importante? Veja estes quatro conjuntos de dados, criados estatstico
F. J. Anscombe22 e os quatro diagramas de dispersao ao lado.
c) Grafico 3 d) Grafico 4
b) Calcule para cada conjunto de dados, utilizando no maximo 3 casas decimais, a media e a variancia
de cada X e Y , as correlacoes e as equacoes de regressao linear dos 4 conjuntos.
c) O que estes resultados tem em comum?
22 https://pt.wikipedia.org/wiki/Quarteto de Anscombe