Ementa
Descrio
Objetivos
Conceitos Bsicos
Tipos de Amostragem
Distribuies Amostrais da Mdia e da Proporo
Estimao de Parmetros
Intervalos de Confiana para a Mdia Populacional
Determinao do Tamanho da Amostra para estimar mdias
Intervalo de Confiana para uma Proporo Populacional
Determinao do Tamanho da Amostra para estimar Propores
Testes de Hipteses
Conceitos Fundamentais
Definio da Regra de Deciso, Erros e Nvel de Significncia
Testes de Hipteses para a Mdia Populacional
Testes de Hipteses para uma Proporo Populacional
Correlao: Conceitos
Coeficiente de Correlao: Definio e Teste de Hipteses
Regresso: Conceitos
Regresso Linear Simples: Estimao dos Parmetros
2
Unidade I: Os Anlise de Dados Estatsticos
1. Situando a Temtica
A Estatstica considerada por alguns autores como Cincia no sentido do estudo de uma populao.
considerada como mtodo quando utilizada como instrumento por outra Cincia.
A palavra estatstica frequentemente est associada imagem de aglomerao de nmeros, dispostos
em uma imensa variedade de tabelas e grficos, representando informaes to diversas quanto nascimentos,
mortes, taxas, populaes, rendimentos, dbitos, crditos, etc. Isto devido ao uso comum da palavra
estatstica como sinnimo de dados, como, por exemplo, quando falamos das estatsticas de uma eleio,
estatsticas da sade, estatsticas de acidente de trnsito ou as estatsticas de acidentes de trabalho.
No sentido moderno da palavra, estatstica lida com o desenvolvimento e aplicao de mtodos para
coletar, organizar, analisar e interpretar dados de tal modo que a segurana das concluses baseada nos dados
pode ser avaliada objetivamente por meio de proposies probabilsticas.
O propsito da estatstica no exclusivo de qualquer cincia isolada. Ao contrrio, a estatstica
fornece um conjunto de mtodos teis em toda rea cientfica onde haja a necessidade de se coletar,
organizar, analisar e interpretar dados. Estes mtodos podem ser usados to eficazmente em farmacologia
como em engenharia, em cincias sociais ou em fsica.
2. Problematizando a Temtica
3. Conhecendo a Temtica
A estatstica teve acelerado seu desenvolvimento a partir do sculo XVII, atravs dos estudos de
BERNOULLI, FERMAT, PASCAL, LAPLACE, GAUSS, GALTON, PEARSON, FISHER, POISSON e
outros que estabeleceram suas caractersticas essenciais.
A Estatstica tem como OBJETIVO o estudo dos fenmenos coletivos.
Objetivando o estudo quantitativo e qualitativo dos dados (ou informaes), obtidos nos vrios campos
da atividade cientfica, a Estatstica manipula dois conjuntos de dados fundamentais: a "populao" e a
"amostra".
3
das vezes no conveniente, ou mesmo possvel, realizar o levantamento dos dados referentes a todos os
elementos de uma populao. Portanto, analisamos parte da populao, isto , uma amostra.
Amostra
um subconjunto no vazio ou parte da populao. Duas consideraes devem ser feitas sobre o
estudo amostral dos fenmenos. Uma diz respeito aos cuidados que se deve tomar para assegurar que a
amostra seja representativa da populao. Para atender a essa exigncia, deve-se selecionar os elementos de
forma aleatria, de modo que todo e qualquer elemento da populao tenha a mesma chance de participar da
amostra, a outra diz respeito preciso dos dados coletados, buscando minimizar os erros que poderiam
induzir a concluses equivocadas. O nmero de elementos de uma amostra chamado o tamanho da
amostra, e denotado por n.
Exemplo 1.1:
No fenmeno coletivo eleio para reitor da UFPB, a populao o conjunto de todos os eleitores
habilitados na Universidade. Um parmetro a proporo de votos do candidato A. Uma amostra pode ser
um grupo de 300 eleitores selecionados em toda a UFPB. Um estimador a proporo de votos do
candidato A obtida na amostra. O valor resultante do estimador, a proporo amostral, a estimativa.
Dados Estatsticos
Normalmente, no trabalho estatstico, o pesquisador se v obrigado a lidar com grande quantidade de
valores numricos resultantes de um censo ou de uma amostragem. Estes valores numricos so chamados
dados estatsticos.
No sentido da disciplina, a Estatstica ensina mtodos racionais para a obteno de informaes a
respeito de um fenmeno coletivo, alm de obter concluses vlidas para o fenmeno e tambm permitir
tomada de decises, atravs dos dados estatsticos observados. Desta forma, a estatstica pode ser dividida
em duas reas: Estatstica Descritiva e Estatstica Inferencial.
Estatstica Descritiva
a parte da Estatstica que tem por objetivo descrever os dados observados. A Estatstica Descritiva,
na sua funo de descrio dos dados, tem as seguintes atribuies:
A obteno dos dados estatsticos;
A organizao dos dados;
A reduo dos dados;
A representao dos dados e
A obteno de algumas informaes que auxiliam a descrio do fenmeno observado.
4
A obteno ou coleta dos dados normalmente feita atravs de um questionrio ou de observao direta de
uma populao ou amostra. A organizao dos dados consiste na ordenao e crtica quanto correo dos
valores observados, falhas humanas, omisses, abandono de dados duvidosos, etc. A reduo dos dados
envolve o entendimento e a compreenso de grande quantidade de dados atravs de simples leitura de seus
valores individuais uma tarefa extremamente rdua e difcil mesmo para o mais experimentado
pesquisador. A representao dos dados compreende de tcnicas para uma melhor visualizao dos dados
estatsticos, facilitando sua compreenso. Por exemplo, os grficos, quando bem representativos, tornam-se
importantes instrumentos de trabalho. ainda atributo da Estatstica Descritiva a obteno de algumas
informaes que sumarizam os dados, facilitando a descrio dos fenmenos observados.
Em geral, uma mesma populao pode ser caracterizada por mais de um tipo de varivel. Assim, os inscritos
num vestibular, por exemplo, podem ser contados, medidos ou pesados, podem ser agrupados segundo o
sexo ou rea de estudo e podem ainda ser classificados segundo as notas obtidas nas provas prestadas.
3.2.1 Planejamento
5
A organizao do plano geral implica em obter respostas para uma srie tradicional de perguntas,
antes mesmo do exame das informaes disponveis sobre o assunto, perguntas que procuram justificar a
necessidade efetiva da pesquisa, a saber:
- "quem", "o que", "sempre", "por que", "para que", "para quando".
Imaginemos, por exemplo, que o Governo do Estado tenha necessidade de obter informaes acerca
do desempenho em Matemtica dos estudantes matriculados na rede pblica de ensino.
O primeiro trabalho da equipe encarregada da pesquisa, ser evidentemente, o de obter respostas para
aquelas perguntas. Seriam ento:
1. Por via direta - quando feita sobre elementos informativos de registro obrigatrio (p. ex.: fichas no
servio de ambulatrio, nascimentos, casamentos, bitos, matrculas de alunos etc.) ou, ainda, quando os
dados so coletados pelo prprio pesquisador atravs de entrevistas ou questionrios. A coleta direta de
dados, com relao ao fator tempo, pode ser classificada em:
1.1. Contnua - tambm denominada registro, feita continuamente, tal como a de nascimentos e
bitos, etc. Tambm so do tipo contnuo o registro de certas doenas, como cncer, hansenase,
tuberculose e tambm algumas doenas infecciosas agudas com finalidade de controle.
1.2. Peridica - quando feita em intervalos constantes de tempo, como os censos(de 10 em 10 anos), os
balanos de uma farmcia, etc.;
1.3. Ocasional - quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma
emergncia, como no caso de epidemias que assolam ou dizimam seres humanos
6
2. Por via indireta - quando inferida de elementos conhecidos (coleta direta) e/ou conhecimento de
outros fenmenos relacionados com o fenmeno estudado. Como exemplo, podemos citar a pesquisa
sobre a mortalidade infantil, que feita atravs de dados colhidos via coleta direta.
Os dados colhidos por qualquer via ou forma e no previamente organizados so chamados de dados
brutos. Esses dados brutos, antes de serem submetidos ao processamento estatstico propriamente dito,
devem ser "criticados", visando eliminar valores imprprios e erros grosseiros que possam interferir nos
resultados finais do estudo.
A crtica externa quando visa s causas dos erros por parte do informante, por distrao ou m
interpretao das perguntas que lhe foram feitas; interna quando se observa o material constitudo pelos
dados coletados. o caso, por exemplo, da verificao de somas de valores anotados.
Uma vez assegurado que os dados brutos so consistentes, devemos submet-los ao processamento
adequado aos fins pretendidos. A apurao ou processamento dos dados pode ser manual, eletromecnica
ou eletrnica. Os processos e mtodos estatsticos a que um conjunto de dados pode ser submetido sero
nosso objeto de estudo nas sees seguintes.
Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob
forma adequada (tabelas ou grficos), tornando mais fcil o exame daquilo que est sendo objeto de
tratamento estatstico.
No caso particular da estatstica descritiva, o objetivo do estudo se limita, na maioria dos casos,
simples apresentao dos dados, assim entendida a exposio organizada e resumida das informaes
coletadas atravs de tabelas ou quadros, bem como dos grficos resultantes.
A Estatstica Descritiva a parte da estatstica que se ocupa com a coleta, crtica, ordenao e
apresentao das informaes fundamentais caracterizao e descrio do fenmeno que se deseja estudar e
interpretar. Aqui se trabalhar com alguma caracterstica notvel do objeto de estudo, a qual ter de ser
coletada de alguma forma e em algum lugar. Na coleta das informaes deve-se considerar,
preferencialmente, toda a populao; caso a obteno de dados sobre toda a populao (censo) seja difcil ou
at mesmo impossvel (dado o grande nmero de elementos ou a sua disperso no tempo ou no espao), o
estudo poder ser feito com base numa amostra representativa.
7
Distribuio de Frequncias por Intervalos ou Classes (varivel quantitativa): Constroem-
se classes de valores, levando em considerao o nmero de valores que pertencem a cada
classe e quando a variabilidade dos dados grande. A construo de tabelas de frequncias
para variveis contnuas necessita de certos cuidados.
Exemplo 1.1 - A tabela 01 apresenta a distribuio de frequncia da varivel PROCEDNCIA, a partir dos
dados do Quadro 1
Quadro 1- Informaes sobre sexo, curso, idade (anos), procedncia, renda familiar, nmero de disciplinas
matriculado(a), peso (kg) e altura (cm) de 46 alunos matriculados na disciplina CLCULO
DAS PROBABILIDADE E ESTATSTICA (CPE) - perodo 97.1 turma 01
O
ID SEXO CURSO IDADE PROCEDNCIA RENDA N . DISCIP. PESO ALTURA
(Anos) FAMILIAR MATRIC. (kg) (cm)
8
26 Masc Matem. 19 Outra Regio Mdia 6 61 160
27 Masc Matem. 17 Interior No Info. 6 68 169
28 Masc Matem. 21 Interior Mdia 5 75 178
29 Fem Matem. 18 Interior Mdia 5 58 154
30 Masc Matem. 21 Outra Regio Mdia 6 65 165
31 Masc Matem. 21 Capital Mdia 6 67 178
32 Fem Matem. 18 Capital Alta 6 47 167
33 Masc Matem. 21 Capital Mdia 5 69 179
34 Fem Matem. 19 Outra Regio Mdia 6 68 170
35 Masc Matem. 18 Capital Mdia 6 53 166
36 Fem Matem. 17 Capital Mdia 6 51 153
37 Fem Matem. 19 Capital Mdia 6 63 168
38 Masc Matem. 19 Capital Mdia 6 60 166
39 Masc Matem. 18 Capital Mdia 6 72 174
40 Masc Matem. 21 Interior Mdia 5 54 163
41 Masc Matem. 18 Interior Baixa 6 60 165
42 Masc Matem. 19 Interior Mdia 6 75 181
43 Fem Matem. 18 Capital Mdia 6 52 160
44 Masc Matem. 18 Outra Regio Mdia 6 100 175
45 Masc Matem. 22 Interior Mdia 6 80 179
46 Masc Matem. 21 Interior Mdia 6 50 166
FONTE: Questionrio aplicado - aula 24/03/97
0
Tabela 02 - Frequncias e Percentuais do N de Disciplinas Matriculadas
dos 46 Estudantes de CPE Turma 01- Perodo: 97.1.
o O
N DISC. MATRIC. N Estudantes Percentual
(Xi) ( Fi ) ( fi %)
3 1 2,2
5 5 10,9
6 39 84,8
7 1 2,2
Total ou 46 100,0
FONTE: Quadro 1
Regras Bsicas para Elaborao de uma Distribuio de Frequncias por Classes ou Intervalos
(Dados Agrupados em Intervalos)
1. Colete n dados referentes varivel cuja distribuio ser analisada. aconselhvel que n seja
superior a 50 para que possa ser obtido um padro representativo da distribuio.
2. Efetua-se um ROL ESTATSTICO (ordenao crescente ou decrescente de grandeza) nos Dados
Brutos (aqueles ainda no organizados numericamente).
3. Identifique o menor valor ( X min ) e o maior valor ( X max ) da amostra.
4. Calcule a AMPLITUDE TOTAL dos dados ( AT ) :
AT = X max X min
9
5. Escolhe-se convenientemente o nmero de classes k (inteiro); 5 k 15 , onde podemos tomar:
k n ou k 1 + 3,3 log(n ) , se n 50
6. Calcule o comprimento de cada classe dos dados (h ) :
AT
h=
k
aconselhvel construir classes de mesma amplitude.
7. Efetua-se o AGRUPAMENTO EM CLASSES, calculando os limites de cada classe:
1 Classe:
Limite Inferior: LI 1 = X min Limite Superior: LS1 = LI 1 + h
2 Classe:
Limite Inferior: LI 2 = LS1 Limite Superior: LS 2 = LI 2 + h
M
i-sima Classe:
Limite Inferior: LI i = LS i 1 Limite Superior: LS i = LI i + h
Continue estes clculos at que seja obtido um intervalo que contenha o maior valor da amostra
( X max ) entre seus limites.
8. Construa a tabela de distribuio de frequncias.
Uma tabela de distribuio de frequncias (por classes ou valores), dever conter as seguintes colunas:
Nmero de ordem de cada classe (i) ou valor;
Limites de cada classe (no caso da distribuio de frequncias por classes)
o As classes so fechadas esquerda e abertas direita.
o As observaes iguais ao limite superior da classe i-1, o qual igual ao limite inferior da
classe i, pertencem classe i. NOTAO: |------.
LI i + LS i
Ponto Mdio pmi da i-sima classe denotado por: pmi =
2
Tabulao: contagem dos dados pertencentes a cada classe ou a quantidade de vezes que o valor se
repete.
Frequncia simples ou absoluta (Fi ) da i-sima classe ou do i-simo valor
Fi = nmero de observaes da i-sima classe (ou do i-simo valor)
k
Observe que: F
i =1
i =n
f
i =1
i = 1 . Multiplicando cada f i por 100 obtm-se o percentual da classe (ou
10
Normas Tcnicas para Apresentao Tabular
De um modo geral tem-se a destacar em uma tabela (disposio escrita que se obtm referindo-se a
uma coleo de dados numricos a uma determinada ordem de classificao) os seguintes elementos
essenciais (obrigatrios) e complementares (no-obrigatrios):
Elementos essenciais:
Ttulo: Indicao que precede a tabela e que contm a designao do fato observado, o local e a
poca em que foi registrado.
Cabealho: Parte superior da tabela que especifica o contedo das colunas.
Coluna Indicadora: Parte da tabela que especifica o contedo das linhas.
Corpo da tabela: Conjunto de colunas e linhas que contm as informaes sobre a varivel em
estudo.
Fonte: Entidade responsvel pela informao.
Elementos complementares:
o Notas: Informaes de natureza geral destinadas a conceituar ou esclarecer o contedo das
tabelas ou a indicar a metodologia adotada no levantamento ou na elaborao dos dados.
o Chamadas: Informaes de natureza especfica sobre determinada parte da tabela, destinada a
conceituar ou a esclarecer dados.
o Sinais Convencionais:Nenhuma casa da tabela deve ficar em branco, apresentando sempre um
smbolo, a saber:
(hfen): quando o valor numrico nulo;
K (reticncia): quando no se dispe de dado;
? (ponto de interrogao): quando h dvidas quanto exatido do valor numrico;
0,0: quando o valor numrico muito pequeno para ser expresso pela unidade utilizada. Se
os valores so expressos em nmeros decimais, acrescenta-se o mesmo nmero de casas
decimais ao valor zero;
x (letra x): quando o dado for omitido a fim de evitar individualizao da informao.
Exemplo 1.3 Elabore uma tabela de distribuio de frequncias (dados agrupados em intervalos) da
varivel ALTURA (em cm), dos 46 estudantes de CPE, turma 01 Perodo 07.1, usando-se os dados do
Quadro 1.
Soluo:
Passo 1: Estabelecer o nmero de classes: k 46 7
Passo 2: Amplitude Total: AT = 183 153 = 30
AT 30
Passo 3: Amplitude das Classes: h= = 4,3
k 7
Passo 4: Construo da Tabela de Distribuio de Frequncias
11
Exemplo 1.4 - Elabore uma tabela de distribuio de frequncias (dados agrupados em intervalos) da
varivel IDADE (em anos) de 33 estudantes de CPE, conforme Dados Brutos abaixo:
Soluo:
Passo 1: Estabelecer o nmero de classes: k 33 6
Passo 2: Amplitude Total: AT = 36 20 = 16
AT 16
Passo 3: Amplitude das Classes: h= = 2,7
k 6
Passo 4: Construo da Tabela de Distribuio de Frequncias
A Tabela 5, a seguir, um exemplo de como calcular os outros tipos de frequncias a partir da Tabela 3
Exemplo 1.5
Soluo:
O grfico estatstico uma forma de apresentao dos dados estatsticos, cujo objetivo produzir,
no investigador ou no pblico em geral, uma impresso rpida e viva do fenmeno em estudo..
Para tornarmos possvel uma representao grfica, estabelecemos uma correspondncia entre os
termos da srie (Tabela) e determinada figura geomtrica, de tal modo que cada elemento da srie seja
representado por uma figura proporcional.
12
Requisitos
A representao grfica de um fenmeno deve obedecer aos seguintes requisitos primordiais:
Simplicidade - indispensvel devido necessidade de levar a uma rpida apreenso do
sentido geral do fenmeno apresentado a fim de no nos perdermos na observao de
mincias de importncia secundria;
Clareza - o grfico deve possibilitar uma correta interpretao dos valores representativos do
fenmeno em estudo;
Veracidade - indispensvel qualquer comentrio, posto que, se no representa uma
realidade, perde o grfico sua finalidade.
Variveis Qualitativas:
Para representarmos as variveis qualitativas graficamente usamos os grficos de Barras, Colunas,
Setores ou Linha.
s 20
e
t
n
a 15
d
tu
sE
. 10
m
u
N
5
0
Capital Interior Outra Regio
Procedncia
FONTE: Quadro 1
Outra Regio
22% Capital
43%
Interior
35%
FONTE: Quadro 1
13
Variveis Quantitativas
Discretas:para representarmos as variveis quantitativas discretas graficamente usamos grficos em
Barras ou Colunas;
Contnuas: para representarmos as variveis quantitativas contnuas graficamente usamos o
Histograma ou o Polgono de Frequncias.
Histograma
a representao grfica de uma distribuio de frequncias de varivel quantitativa contnua
(dados agrupados em intervalos) por meio de retngulos justapostos, centrados nos pontos mdios das
classes e cujas reas so proporcionais s frequncias das classes.
at 10
lu
o
s 8
b
A
iac 6
n
e
u 4
q
re
F 2
0
155.15 159.45 163.75 168.05 172.35 176.65 180.95
Altura (cm)
FONTE: Quadro 1
Polgono de Frequncia
a representao grfica de uma distribuio de frequncias de varivel quantitativa contnua
(dados agrupados em intervalos) por meio de uma linha poligonal fechada ou polgono, cuja rea total
igual do histograma.
10
8
Frequencia Absoluta
0
150.85 155.15 159.45 163.75 168.05 172.35 176.65 180.95 185.25
Altura (cm)
FONTE: Quadro 1
14
3.4 Medidas Estatsticas
Vimos anteriormente a sintetizao dos dados sob a forma de tabelas, grficos e distribuies de
frequncias. Aqui, vamos aprender o clculo de medidas que possibilitem representar um conjunto de dados
(valores de uma varivel quantitativa, isto , informaes numricas), relativos observao de determinado
fenmeno de forma reduzida.
Estes ndices estatsticos so as MEDIDAS DE POSIO e, dentre as mais importantes, citamos as
Medidas de Tendncia Central, que recebem tal denominao pelo fato dos dados observados tenderem,
em geral, a se concentrar em torno de valores centrais. Dentre as medidas de tendncia central, destacamos:
Mdia aritmtica ou Mdia;
Moda;
Mediana.
As outras medidas de posio so as SEPARATRIZES, que englobam:
a mediana;
os quartis;
os percentis.
x
i =1
i Fi x
i =1
i Fi
X = k
ou, simplesmente, X =
n
Fi
i =1
onde:
xi o i-simo valor da varivel de interesse;
Fi a frequncia absoluta do i-simo valor;
n o tamanho da amostra.
Logo, X =
X i
=
3 + 7 + 8 + 10 + 11
= 7,8
n 5
15
4
x i Fi
90
4
n = Fi = 20
X= i =1
4
= X = 4,5 e
20 i =1
Fi =1
i
pmi Fi
i =1
pm
i =1
i Fi
X = k
ou, simplesmente, X =
n
F
i =1
i
onde:
pmi o ponto mdio da i-sima classe;
Fi a frequncia absoluta da i-sima classe;
n o tamanho da amostra
uma medida de tendncia central que, por uniformizar os valores de um conjunto de dados, no
representa bem os conjuntos que revelam tendncias extremas. Ou seja, grandemente influenciada pelos
valores extremos (grandes) do conjunto. Alm disso, no pode ser calculada para distribuies de
frequncias com limites indeterminados (indefinidos).
Propriedades:
n
1. A soma dos desvios tomados em relao mdia nula, isto , ( X
i =1
i )
X = 0.
2. Somando-se ou subtraindo-se uma constante c a todos os valores de uma varivel, a mdia do
conjunto fica aumentada ou diminuda dessa constante, isto , Yi = X i c Y = X c .
3. Multiplicando-se ou dividindo-se todos os valores de uma varivel por uma constante c, a mdia
do conjunto fica multiplicada ou dividida por essa constante, isto , Yi = X i c Y = X c ou
Xi X
Yi = Y = , para c 0 .
c c
Exemplo 1.13: Utilizando os dados apresentados na Tabela 5, determine a ALTURA MDIA dos 33
estudantes de Estatstica Vital - 97.1 turma 06
pm
i =1
i Fi
7747,50
Ento: X = = = 168,42 cm
k
46
F
i =1
i
16
Moda
Notao: Mo
Dado um conjunto ordenado de valores. A moda (so) o(s) valor(es) que ocorre(m) com maior
frequncia no conjunto de dados, ou seja (so) o(s) valor(es) mais frequente(s) do conjunto de dados.
Observao:
i) A moda de um conjunto de dados pode no existir (figura 1 (a) )
ii) A moda de um conjunto de dados pode no ser nica (figura 1 (c) )
Exemplo 1.15: Utilizando os dados apresentados na Tabela 5, apresentamos o clculo determine a ALTURA
MODAL (Moda) para dados agrupados em intervalos, a partir da frmula de Czuber apresentada na Figura
2.
Soluo:
17
A Classe modal ser o intervalo com maior frequencia absoluta (Fi). Neste caso a classe modal (4a) ser
165,9 |----- 170,2 Lmo = 165,9 , hmo = 4,3 , 1 = Fmod al Fanterior = 10 7 = 3 e
2 = Fmod al F posterior = 10 3 = 7 .
3
Da, Mo = Lmo + 1
hmo = 165,9 + 4,3 = 167,19 cm.
1 + 2 3+ 7
Mediana
Notao: Me
Considere um conjunto de dados ordenado constitudo de n valores. A mediana o valor que divide
o conjunto em duas partes iguais (isto , em duas partes de 50% cada).
1 Caso: n mpar
Para a srie de valores ordenados em ordem crescente de grandeza (isto , um rol), a mediana o
valor central, isto ,
n +1
Me = elemento que est na posio .
2
2 Caso: n par
Para a srie de valores ordenados em ordem crescente de grandeza (isto , um rol), a mediana a
mdia aritmtica dos valores centrais, isto ,
n n
Me = mdia aritmtica entre os elementos das posies e + 1.
2 2
3o Caso: Clculo da Medida em uma Distribuio de Frequncias por Classes
No caso de dados agrupados, relembramos que uma distribuio de frequncias pode ser
representada por meio de um Histograma. Dizemos ento que a mediana ser o valor de X (abscissa) cuja
ordenada divide a rea total do Histograma em duas partes iguais.
Em uma distribuio de frequncias com dados agrupados em classes, denominamos classe mediana
n
a classe que contm o elemento que est na posio e, consequentemente, ser esta a classe que conter a
2
mediana.
18
Assim, para dados agrupados em intervalos, a mediana obtida atravs de interpolao de acordo com
a frmula dada na figura 3.
Propriedades da Mediana
1. A mediana no influenciada por valores extremos (grandes) de uma srie ou conjunto de dados;
2. A mediana de uma srie de dados agrupados de classes extremas indefinidas pode ser calculada.
Exemplo 1.16: Determinar a ALTURA MEDIANA dos 46 estudantes da turma de CPE, - Perodo: 97.1,
conforme os dados agrupados na tabela 5.
Classe mediana a classe que contm o elemento que est na posio n , ou seja, a classe mediana
2
a classe que contm o elemento que est na 23 posio. Logo, a classe mediana ser a 4: 165,9 |----- 170,2
(Classe mediana: primeira classe que ultrapassar 50% (n/2) ou mais das observaes)
Conjunto A ====> 7, 7, 7, 7, 7
Conjunto B ====> 5, 6, 7, 8, 9
Conjunto C ====> 4, 5, 7, 9, 10
Conjunto D ====> 0, 5, 10, 10, 10
Para representarmos cada conjunto, podemos calcular a sua respectiva mdia aritmtica, encontrando
X A = XB = XC = XD = 7 .
Vemos assim que, apesar de constitudos de valores diferentes, os grupos revelam uma mesma mdia
aritmtica. Observando-os mais detalhadamente, notamos que em cada grupo, isto , conjunto de dados, os
valores se distribuem diferentemente em relao mdia. Necessitamos assim de uma medida estatstica
complementar para melhor caracterizar cada conjunto apresentado.
As medidas estatsticas responsveis pela variao ou disperso dos valores de um conjunto de dados
so as medidas de disperso ou de variabilidade, onde se destacam a amplitude total, a varincia, o desvio
padro e o coeficiente de variao. Em princpio, diremos que entre dois ou mais conjuntos de dados, o mais
disperso (ou menos homogneo ) aquele que tem a maior medida de disperso.
Amplitude Total
Notao: AT
19
Varincia
Notao: S 2 a varincia da amostra ou varincia amostral
2 a varincia da populao ou varincia populacional
(x
2
i X ) Fi
S2 = i =1
n 1
onde:
xi o i-simo valor da varivel de interesse;
Fi a frequncia absoluta do i-simo valor;
X a mdia da amostra;
n o tamanho da amostra.
Observao: A equao acima utilizada quando nosso interesse no se restringe descrio dos dados
mas, partindo da amostra, visamos tirar inferncias vlidas para uma respectiva populao.
( pm
2
i X ) Fi
S2 = i =1
n 1
onde:
pmi o ponto mdio da i-sima classe;
Fi a frequncia absoluta da i-sima classe;
X a mdia da amostra;
n o tamanho da amostra.
Desvio-Padro
Notao: S o desvio-padro da amostra ou desvio-padro amostral
o desvio-padro da populao ou desvio-padro populacional
uma outra medida de disperso mais comumente empregada do que a varincia, por ser expressa
na mesma unidade do conjunto de dados. Mede a "DISPERSO ABSOLUTA" de um conjunto de valores e
obtida a partir da varincia.
Desvio Padro = Varincia (Raiz quadrada da Varincia ).
Assim,
S = S2
Coeficiente de Variao
20
S
CV = 100% , sendo que X 0 .
X
Note que importante expressar a variabilidade em termos relativos porque, por exemplo, um
desvio-padro igual a 1 pode ser muito pequeno se a magnitude dos dados da ordem de 1.000, mas pode ser
considerado muito elevado se esta magnitude for da ordem de 10.
Observe tambm que o coeficiente de variao adimensional e por este motivo permite a
comparao das variabilidades de diferentes conjuntos de dados.
5 14 47 61 122 620
21
2
k
pmi Fi
( pmi X )2 Fi pmi2 Fi i =1
k k
n
A expresso S 2 = i =1 = i =1 . Assim,
n 1 n 1
2
k
pmi Fi 2
k
i =1 (7747,5)
i ipm 2
F
n
1308075,10
46 3210,83
S 2 = i =1 = = = 71,35 cm 2 .
n 1 46 1 45
Logo,
S 8,44 cm
S = S 2 = 71,35 cm 2 = 8,44 cm e CV = 100% = 100% = 5,01%
X 168,42 cm
Exemplo 1.18: Uma fbrica classifica operrios de acordo com os graus obtidos em testes de aptido. Os
dados so apresentados na distribuio de frequncia abaixo:
Soluo:
5
___ pm F
i =1
i i
300
a) O grau mdio dado por: X = = = 5,172414
n 58
b) A varincia para os dados agrupados dada pela frmula:
5 __
( pm i X ) 2 Fi
306,276
S2 = i =1
= = 5,373 .
n 1 57
Logo o desvio padro S = 2,318,
___
Desta forma X + 2 S = 9,808, portanto qualquer operrio com nota maior que 9,808 receber o premio.
c) A nota acima da qual esto 50% dos operrios chamada nota mediana, a qual calculada para dados
agrupados em intervalos por:
n 58
( Fac ant ) ( 16)
26
M d = LMd + 2 hMd = 4 + 2 2 = 4 + = 4 + 1,13 = 5,13 .
FMd 23 23
22
4. Avaliando o que foi construdo
Nesta unidade aprendemos a explorar dados estatsticos, onde estudamos desde a organizao dos
dados em tabelas e grficos at o clculo de medidas estatsticas importantes que sero utilizadas nas
unidades subseqentes e convidamos vocs a resolverem a lista de exerccio anexa a este material, tentando
descobrir no seu dia a dia a utilidade para o contedo aqui abordado. Este foi o inicio da convivncia com a
Estatstica. Esperamos que tenha sido prazeroso. Procure seus tutores, use e abuse deste material.
23
Unidade II Probabilidade
1. Situando a Temtica
A teoria das probabilidades o fundamento para a inferncia estatstica. O objetivo desta parte que
o aluno compreenda os conceitos mais importantes da probabilidade.
O conceito de probabilidade faz parte do dia-a-dia dos trabalhadores das rea das cincias exatas,
cincias biolgicas, engenharia, etc., uma vez que seu conceito frequentemente usado na comunicao
diria. Por exemplo, podemos dizer que um aluno tem chance de 70% de ser aprovado em uma determinada
disciplina. Um professor est 90% seguro de que um novo mtodo de ensino proporcione uma melhor
compreenso pelos alunos. Um engenheiro de produo afirma que uma nova mquina reduz em 20% o
tempo de produo de um bem. Tal como mostram os exemplos, as pessoas expressam a probabilidade em
porcentagem. Trabalhando com a probabilidade matemtica mais conveniente express-la como frao (as
porcentagens resultam da multiplicao das fraes por 100).
2. Problematizando a Temtica
3. Conhecendo a Temtica
Experimento Aleatrio
o processo da coleta dos dados relativo a um fenmeno que acusa variabilidade em seus resultados.
Um experimento caracteriza-se como aleatrio, em funo de poder ser repetido indefinidamente sob
condies, essencialmente inalteradas, e embora no sejamos capazes de afirmar que resultado particular
ocorrer, seremos sempre capazes de descrever o conjunto de todos os possveis resultados do mesmo.
Combinaes de Eventos
24
Evento Interseo A B (l-se: A interseo B): o evento interseo de A e B equivale
ocorrncia de A e de B, simultaneamente. Contm os elementos do espao amostral que esto em A e em
B.
UNIO INTERSEO
Definio 2.1: Uma funo P : R dita uma probabilidade se satisfaz os seguintes axiomas:
i) P() = 1 ;
ii) 0 P( A) 1 ;
iii) Sejam A e B eventos em um mesmo espao amostral. Se A e B forem mutuamente exclusivos,
ento P( AU B) = P( A) + P( B ) .
25
3.2.2 Probabilidade em Espaos Amostrais Finitos
Exemplo 2.1: Em uma seleo para uma vaga de engenheiro mecnico de uma grande empresa verificou-se
que dos 100 candidatos 40 tinham experincia anterior e 30 possuam curso de especializao. Vinte dos
candidatos possuam tanto experincia profissional como tambm algum curso de especializao.
Escolhendo um candidato ao acaso, qual a probabilidade de que:
a) Ele tenha experincia ou algum curso de especializao?
b) Ele no tenha experincia anterior nem curso de especializao?
Soluo
Vamos definir os seguintes eventos:
A = {O candidato possui experincia anterior}
B = {O candidato possui especializao}
Dados: p(A) = 0,4, p(B) = 0,3 p(AB) = 0,2 pede-se as seguintes probabilidades:
Dados dois eventos A e B contidos num espao amostral , muitas das vezes, estamos interessados
na ocorrncia de A dado que o evento B tenha ocorrido.
Para dar consistncia ideia de uma probabilidade condicional, suponhamos que uma organizao
de pesquisa junto a consumidores tenha estudado os servios prestados dentro da garantia por 200
comerciantes de pneus em uma grande cidade, obtendo os resultados resumidos na tabela seguinte:
Dentro da Garantia
Vendedores de Pneus Total
Bom Servio Servio Deficiente
Com marca 64 16 80
Sem marca 42 78 120
Total 106 94 200
Selecionado aleatoriamente um desses vendedores de pneus (isto , cada vendedor tem probabilidade de ser
selecionado), constatamos que as probabilidades de se escolher um vendedor de determinada marca (M), um
vendedor que presta bons servios dentro da garantia (Bs), ou um vendedor de marca determinada e que
presta bons servios dentro da garantia (MBs) so:
80 106 64
P( M ) = = 0,40 , P( Bs) = = 0,53 e P( M Bs) = = 0,32 .
200 200 200
Todas essas probabilidades foram calculadas por meio da definio clssica de probabilidade. Como a
segunda dessas probabilidades P(Bs) prxima a 0,50 (50%), vejamos o que acontece se limitamos a escolha
26
a vendedores de uma marca determinada. Isto reduz o espao amostral s 80 escolhas, correspondentes 1a
linha da tabela. Temos ento, que a probabilidade de se escolher um vendedor que presta bons servios (Bs),
64
sabendo (ou dado) que a marca de pneu vendido pelo mesmo determinada ser de P( Bs | M ) = = 0,80 ,
80
tendo-se uma melhora em relao a P(Bs) = 0,53 . Note que a probabilidade condicional que obtivemos aqui,
P ( Bs | M ) = 0,80 pode escrever-se como:
64
200 P( M Bs)
P( Bs | M ) = =
80
200 P( M )
Probabilidade Condicional
Teorema da Multiplicao
O resultado a seguir, obtido a partir da definio de probabilidade condicional, fornece a
probabilidade da ocorrncia conjunta de dois eventos A e B, isto , a probabilidade P(AB):
P( A B) = P( A) P(B | A) ou P( A B) = P(B) P( A | B)
Independncia de Eventos
Exemplo 2.2: Uma caixa contm 4 lmpadas boas e 2 queimadas. Retiram-se, ao acaso, 3 lmpadas sem
reposio. Calcule a probabilidade dessas 3 lmpadas serem boas.
4 3 2 1
P(A1 A2 A3) = P (A1) P(A2 | A1) P(A3 | A1 A2) = =
6 5 4 5
Exemplo 2.3: Sejam A e B dois eventos tais que P(A) = 0,4 e P(AB) = 0,7. Seja P(B) = p. Para que valor
de p, A e B sero mutuamente exclusivos? Para que valor de p A e B sero independentes?
Soluo:
27
3.2.4 Teorema de Bayes
k
Sejam B1, B2, ..., Bk uma partio do espao amostral , onde Bi Bj = i j e UB
i =1
i = , ou
seja, os eventos eventos B1, B2, ..., Bk so mutuamente exclusivos. Seja A um evento qualquer associado a ,
ento:
P( Bi A) P( A | Bi ).P( Bi )
P( Bi | A) = = , i = 1,K , k .
P( A) P ( A | B1 ).P ( B1 ) + K + P ( A | Bk ).P ( Bk )
A
B2
B3
S
Exemplo 2.3: Numa certa turma, 1% dos homens e 4% das mulheres tem menos que 1,60m de altura. Alm
disso, 60% dos estudantes so homens. Considere que um estudante, selecionado aleatoriamente, tem menos
que 1,60m de altura. Qual a probabilidade do estudante ser homem?
Note que os eventos M e H so mutuamente excludentes e representam uma partio do espao amostral ,
ou seja, M H = e M H = . Alm disso, sabemos que o evento A ocorreu, visto que dito que o
estudante possui menos que 1,60m de altura.
Nesta unidade aprendemos lidar com um conceito muito importante da estatstica e que est presente
quase diariamente nas nossas vidas, a probabilidade. Aprendemos nesta unidade que uma maneira de
responder a pergunta qual a probabilidade de chover hoje seria observar, em um passado recente de dias, o
nmero de dias que choveu e dividi-lo pelo total de dias. Aprendemos tambm os conceitos de probabilidade
condicional, independncia de eventos e teorema de Bayes. Com isso, estamos nos preparando cada vez
mais para as etapas futuras que so as mais significantes deste curso. Para voc que est conosco, Parabns.
28
Unidade III Variveis Aleatrias e Distribuies de Probabilidade
1. Situando a Temtica
Na unidade anterior estudamos alguns fenmenos probabilsticos por meio de espaos amostrais mais
simples. No entanto, em situaes prticas mais gerais, necessrio ampliar esses conceitos para que
tenhamos modelos probabilsticos que atendam as necessidades do problema. A definio do conceito de
varivel aleatria possibilitar uma maior flexibilidade e aplicabilidade dos conceitos de probabilidade em
problemas diversos.
2. Problematizando a Temtica
Ao estudarmos fenmenos aleatrios tais como, a renda de uma populao, o desempenho escolar de
um grupo de alunos, o impacto de uma dieta no peso de animais, etc., desejamos saber como controlar esses
experimentos e tentar extrair concluses sobre as respostas obtidas. Neste caso, usaremos uma ferramenta
valiosa que so as variveis aleatrias.
3. Conhecendo a Temtica
Definio 3.1: Seja E um experimento e um espao amostral associado a E. Um funo X, que associe a
cada elemento um nmero real, X(), denominada varivel aleatria.
Observao:
1. Cada elemento de corresponder a exatamente um valor;
2. Diferentes valores , podem levar a um mesmo valor de X;
3. Nenhum elemento poder ficar sem valor de X.
Definio 3.2: Seja E um experimento e seu espao amostral. Seja X uma varivel aleatria definida em
e seja Rx seu contradomnio. Seja B um evento definido em relao a Rx, isto , B Rx. Ento, define-se o
evento A como
A = { | X ( ) B} = X 1 ( B) .
Assim, o evento A ser constitudo por todos os resultados em para os quais X() B.
Exemplo 3.1: Suponha 2 moedas lanadas e observada a sequncia de caras e coroas obtidas. Considere o
espao amostral associado a este experimento:
29
= {(Ca,Co), (Ca,Ca), (Co,Ca), (Co,Co)}
Agora, defina uma varivel aleatria X = nmero de caras obtidas no lanamento de 2 moedas. Assim, temos
que X = {0, 1, 2}, visto que X(Co,Co) = 0; X(Ca,Co) = X(Co,Ca) = 1 e X(Ca,Ca) = 2.
Definio 3.2: (Funo de Probabilidade) - Seja X uma varivel aleatria discreta. A cada possvel
resultado xi de X est associado um nmero pi = P(X = xi), denominado probabilidade da varivel aleatria
X assumir o valor xi, satisfazendo as seguintes condies:
a) pi 0 para todo xi RX
b) p i = p 1 + p 2 + ... + p n + ... = 1 (a soma das probabilidades igual a 1).
Definio 3.3: (Funo de Distribuio de Probabilidade) - Dada uma varivel aleatria discreta X,
definimos F(x) a funo de distribuio acumulada ou, simplesmente, funo de distribuio (f.d) de X,
dada por:
n
F ( xi ) = P ( X xi ) F ( xi ) = P ( X = xi )
i =1
Exemplo 3.2: Considerando o exemplo 3.1, denote a funo de probabilidade e a funo de distribuio da
varivel aleatria X.
Soluo:
Seja X = nmero de caras obtidas no lanamento de 2 moedas, temos que a varivel aleatria X assume os
seguintes valores, X = {0, 1, 2}.
Temos que,
P(Co,Co) = P(X = 0) = ;
P(Ca,Co) = P(Co,Ca) = P(X = 1) = ;
P(Ca,Ca) = P(X = 2) = .
xi 0 1 2
P(X = xi) 1/4 1/2 1/4
xi 0 1 2
F(xi) = P(X xi) 1/4 3/4 1
Exemplo 3.3: Um par de dados lanado. Seja X a varivel aleatria que associa a cada ponto (d1, d2) de
a soma desses nmeros, isto , X(d1, d2) = d1 + d2. Determine a funo de probabilidade de X.
Soluo:
Ento, a varivel aleatria X = d1 + d2 assume os seguintes valores X = {2, 3, 4, ..., 12}. Por conseguinte, a
funo de probabilidade de X obtida, calculando-se:
30
..
P (X = 12) = P(d1=6,d2=6) = 1/36
xi 2 3 4 5 6 7 8 9 10 11 12
P(X = xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
Uma varivel aleatria dita contnua se o seu contradomnio for um intervalo ou uma unio de sub-
intervalos.
Definio 3.4: Uma varivel aleatria X contnua se existir uma funo f, denominada funo densidade
de probabilidade (fdp) de X, que satisfaa as seguintes condies:
1. f ( x) 0, x R X ;
+
2. f ( x)dx = 1 ;
b
3. Sejam a e b quaisquer no intervalo < a < b < + , temos que P (a X b) = f ( x)dx .
a
Observaes
P (a X b) representa a rea sob a curva da funo densidade de probabilidade f(x).
x0
Para qualquer valor especfico de X, digamos x0, P(X = x0) = 0, pois P ( X = x 0 ) = f ( x)dx = 0 .
x0
Definio 3.5: A definio de funo de distribuio para o caso contnuo dada por
x
F ( x) = P ( X x) = f ( x)dx .
Observao: Seja F(x) a funo de distribuio acumulada de uma varivel aleatria contnua X, com fdp
dF ( x)
f(x). Ento, f ( x ) = = F ' ( x) , para todo x no qual F(x) seja derivvel.
dx
Exemplo 3.4: Suponha que X uma varivel aleatria contnua com a seguinte fdp:
2 x , 0 < x <1
f ( x) = .
0, caso contrario
Soluo:
+ 1 1
a) Para que f(x) seja uma fdp basta verificar que f ( x)dx = 2 xdx = x 2 = 1.
0 0
1/ 2 1
1/ 2 1/ 2
b) P ( X 1 / 2) = f ( x)dx =
= . 2 xdx = x 2
0 0 4
c) Aplicando diretamente o conceito de probabilidade condicional, teremos
31
1/ 2
P ( X 1 / 2 | 1 / 3 X 2 / 3) =
P (1 / 3 X 1 / 2)
=
1/ 3
2 xdx
=
5 / 36 5
= .
2/3
P (1 / 3 X 2 / 3) 1 / 3 12
1/ 3
2 xdx
Exemplo 3.5: Seja a varivel aleatria X com f(x) definida no exemplo 3.4, calcule sua funo de
distribuio acumulada.
Soluo:
0, x<0
x x
F ( x) = f ( s )ds = f ( s )ds = x 2 ,0 x < 1
0
1, x 1
Nos modelos probabilsticos que temos considerado, parmetros podem ser empregados para caracterizar
sua distribuio de probabilidade. Dada uma distribuio de probabilidade, possvel associar certos
parmetros, os quais fornecem informaes valiosas sobre tal distribuio.
Um dos parmetros mais importantes o valor esperado (esperana ou mdia) de uma varivel aleatria
X, denotado por E(X) ou .
Definio 3.6: (Valor Esperado ou Mdia): Seja X uma varivel aleatria discreta com possveis valores
x1, x2, . . . ,xn , ... . Seja p(xi) = P (X = xi ), i = 1, 2, ..., n, ... Ento, o valor esperado ou mdia da varivel
aleatria X definido por:
= E ( X ) = xi p( xi ) ,
i =1
se a srie
i =1
xi p( xi ) convergir, ou seja, xi
i =1
p( xi ) < .
Seja X uma varivel aleatria contnua com fdp f(x). O valor esperado de X ser definido por
+
= E ( X ) = xf ( x)dx .
Exemplo 3.6: Considere a varivel aleatria definida no exemplo 3.2. Obtemos a E(X) por
3
1 1 1
E ( X ) = x i p ( x i ) = 0 + 1 + 2 = 1
i =1 4 2 4
Isto representa que, ao lanarmos a moeda 2 vezes esperamos que, em mdia, em um dos lanamentos
aparea Cara.
Exemplo 3.7: Considere a varivel aleatria contnua definida no exemplo 3.4. Obtemos a E(X) por
1 1 2
E ( X ) = x(2 x) dx = 2 x 2 dx =
0 0 3
Um outro parmetro importante que caracteriza uma varivel aleatria a varincia, denotada V(X)
2
ou . A varincia de uma varivel aleatria uma medida que d a idia de disperso dos valores da
varivel, em relao ao seu valor esperado (mdia).
Definio 3.7: (Varincia): Seja uma varivel aleatria X (discreta ou contnua) sua varincia, denotada
V(X) ou 2, definida por:
32
2 = V ( X ) = E [( X ) 2 ] ,
onde = E(X) a mdia de X.
Observaes:
V(X) 0 e mede a variabilidade ou disperso de X em torno da sua mdia ;
V(X) expressa em unidades quadradas (o que torna difcil a sua interpretao);
O Desvio Padro X = V ( X ) mede a disperso absoluta de X, sendo expressa na mesma unidade da
varivel aleatria X.
A definio de varincia de uma varivel aleatria (v.a.) X, pode ser re-escrita por
2 = V ( X ) = E ( X 2 ) [E ( X )]2 ,
onde: E ( X 2 ) = xi2 p ( xi ) .
i =1
2. Multiplicando-se uma constante por uma varivel aleatria X, sua mdia fica multiplicada por esta
constante:
E(c.X) = c. E(X)
3. Somando ou subtraindo uma constante de uma varivel aleatria X, sua mdia fica somada ou
subtrada desta constante:
E(X c) = E(X) c
2. Multiplicando-se uma constante por uma varivel aleatria X, sua varincia fica multiplicada pelo
quadrado da constante:
V(c.X) = c2. V(X)
33
Temos que, V ( X ) = E ( X 2 ) [E ( X )]2 . Assim,
b
1
b 1 x2 (b 2 a 2 ) ( a + b)( a b) ( a + b)
E( X ) = x dx = = = =
a ba ba 2 a
2 (b a ) 2(b a ) 2
Alm disso,
b 1 (b 3 a 3 ) (b a )(b 2 + a 2 + 2ab) (b 2 + a 2 + 2ab )
E( X 2 ) =
a
x2
ba
dx =
3(b a )
=
3(b a )
=
3
Logo,
2 (b 2 + a 2 + 2ab) ( a + b) 2 (b a ) 2
Var ( X ) = E ( X 2 ) [E ( X ) ] = =
3 4 12
Para utilizar a teoria das probabilidades no estudo de um fenmeno concreto, devemos encontrar um
modelo probabilstico adequado a tal fenmeno. Endentemos por modelo probabilstico para uma v.a. X,
uma forma especfica de funo de distribuio de probabilidade que reflita o comportamento de X. As
propriedades bsicas de um modelo probabilstico devem ser:
Adequao: O modelo deve refletir adequadamente o mecanismo aleatrio que ocasiona variao
nas observaes;
Simplicidade: Utilizao, sempre que possvel, de hipteses simplificadoras, de modo que o modelo
se preste anlise estatstica, sem sacrifcio de adequao;
Parcimnia de Parmetros: Um nmero excessivo de parmetros prejudicaria a anlise estatstica.
Entre 2 modelos que constituam aproximao adequada de um fenmeno, devemos preferir aquele
que apresente o menor nmero de parmetros.
Distribuio de Bernoulli
Suponha que realizamos um experimento E, cujo resultado pode ser observado e classificado
como sucesso ou fracasso, caso o evento que nos interessa ocorra ou no, respectivamente. Associe
p, a probabilidade de sucesso, ao evento que nos interessa e 1 p = q, a probabilidade de fracasso.
Definimos, ento, a seguinte varivel aleatria discreta:
0, se ocorrer fracasso
X = .
1, se ocorrer sucesso
xi 0 1
P(X = xi) 1p p
Verifica-se facilmente que E(X) = p e V(X) = p(1 p), que so as principais caractersticas da v.a.
X.
Experimentos Binomiais
34
3. A probabilidade de um sucesso denotada por p, e no se modifica de ensaio para ensaio. (O mesmo se
aplica probabilidade de fracasso q = 1 p );
4. Os ensaios so independentes;
5. Defina uma varivel aleatria Y como sendo o nmero de sucessos nos n ensaios.
Definio 3.8: Dizemos que uma varivel aleatria discreta Y = X1 + X2 + ... + Xn, onde cada Xi um ensaio
de Bernoulli, apresenta distribuio binomial com n provas (ensaios ou tentativas) e probabilidade p de
sucesso, sendo sua funo de probabilidade definida por:
n
P( X = k ) = p k (1 p ) n k , k = 0,1,K n ,
k
pois, para X = k teremos observado k sucessos, cada um com probabilidade p e consequentemente (n-k)
fracassos, cada um com probabilidade q = 1 p.
Notao: X ~ B (n, p ) , equivalente a dizer que X tem distribuio Binomial com parmetros n e p.
Propriedades
E(X) = np
V(X) = npq
Exemplo 3.9: Dois times de futebol, A e B, jogam entre si 6 vezes. Suponha que as probabilidades de A
ganhar, perder ou empatar sejam as mesmas e permaneam constantes durante as 6 partidas. Encontre a
probabilidade do time A ganhar 4 vezes e calcule a esperana e a varincia.
Soluo
Seja X = {nmero de vezes que o time A ganha}
Note que p = 1/3 (vencer) e que q = 2/3 (perder ou empatar). Alm disso, n = 6.
6 20
Logo, P( X = 4) = (1 / 3) 4 (1 1 / 3) 6 4 = 15 (1 / 3) 4 ( 2 / 3) 2 = 0,08 .
4 243
1
Temos tambm que a esperana (mdia) de vitrias ser E ( X ) = np = 6 =2 e a
3
1 2 4
varincia V ( X ) = npq = 6 = .
3 3 3
Uma distribuio normal caracteriza-se por uma funo real f(x) denominada de funo densidade de
probabilidade (f.d.p) da v.a X, dado pelo modelo probabilstico abaixo e grfico correspondente:
1 (x )2 2
f ( x) = exp 2 , - < x < +, - < < +, > 0.
2 2
2
35
Propriedades da Curva Normal
1. unimodal, isto , f(x) tem um ponto de mximo cuja abscissa x = . Esse ponto, situado no meio
da distribuio, aquele em que coincidem os valores da mdia, moda e mediana;
2. f(x) simtrica em relao mdia ;
3. f(x) tem dois pontos de inflexo, cujas abscissas so x = e x = + ;
4. O desvio-padro dado por ( a raiz quadrada positiva da varincia 2);
5. A rea total sob a curva normal e acima do eixo horizontal equivale a 1 (o eixo das abscissas o eixo
dos valores de v.a. X;
6. f(x) tem uma assntota. A partir do topo, a curva cai gradativamente at formar as caudas que se
estendem indefinidamente, aproximando-se cada vez mais da linha base sem, entretanto, jamais toc-la.
7. Fixando-se a mdia, verifica-se que o achatamento da curva est diretamente ligado ao valor do desvio
padro , ou seja, quanto maior for o desvio padro mais achatada a curva, como pode ser vista na
figura abaixo.
Notao: X N ( , 2), ou seja, X tem distribuio normal com mdia e varincia 2. Ou ainda, X
N ( , ) , isto , X tem distribuio normal com mdia e desvio padro .
X
Z=
Esta nova varivel chama-se varivel normal padronizada, ou reduzida, sendo sua mdia igual a
zero ( = 0) e o seu desvio padro igual um ( = 1).
36
X E( X )
E(Z ) = E = = =0
2
X V (X ) 0
V (Z ) = V = = =1
2 2
A curva normal padro conserva as mesmas propriedades listadas anteriormente. Mediante tal
transformao, basta construirmos uma nica tabela, a da normal reduzida e, atravs dela, obtermos as
probabilidades associadas a todas as distribuies N (, ).
A utilidade notvel da tabulao pela varivel normal padronizada devida ao fato de que, se X
tiver qualquer distribuio normal N(, ), a tabela da distribuio N(0; 1) pode ser empregada para calcular
probabilidades associadas a X, simplesmente aplicando a transformada para a varivel Z.
Consequentemente, temos que
a b b a
P( a X b) = P Z = ,
Exemplo 3.9: Os salrios mdios dirio dos operrios de uma indstria so distribudos segundo uma
distribuio normal com mdia de R$ 50,00 e desvio padro de R$ 4,00. Encontre a probabilidade de um
operrio ter um salrio dirio abaixo de R$ 52,00.
Soluo
Seja X = o salrio dirio do operrios, estamos interessados em encontrar P (X < 52). Assim,
52 52 50
P( X < 52) = P Z < = P Z < = P( Z < 0,50) = (0,50) .
4
Atravs da tabela da distribuio normal padro, obtemos a probabilidade de interesse (0,50) = 0,6915 .
Logo, pode-se afirmar que a probabilidade de um operrio apresentar um salrio inferior a R$ 52,00 de
69,15%.
Dica
Trs importantes informaes que iro facilitar o clculo de probabilidades envolvendo a
distribuio normal padro, a partir da tabela que voc baixou na plataforma MOODLE: (i) a
tabela que voc est utilizando apresenta as probabilidades de P(Z z0) = F(z0), ou seja, a funo
de distribuio acumulada. No entanto, esta tabela considera apenas valores positivos para Z. (ii) a
rea total sob a curva equivale a 1. Logo, a metade da curva representa probabilidade igual a 0,5;
(iii) a curva da normal simtrica. Essa propriedade ser bastante til no clculo de
probabilidades onde os valores de Z so negativos, ou seja, P(X x0) = 1 P(X + x0);.
Exerccios
3.1 Cinco por cento dos motoristas de nibus da cidade HH so mulheres. Suponha que 20 motoristas de
nibus so selecionados aleatoriamente para serem entrevistados sobre as condies de trabalho. Qual a
37
probabilidade de que nenhum motorista selecionado seja mulher? Qual a probabilidade de que pelo menos 3
motoristas selecionados sejam mulheres?
3.2 O departamento de Recursos Humanos da empresa FF recebe 25 currculos para diversos cargos, e espera
que a probabilidade de no ocorrer candidatos experientes no grupo seja de 80%. Determine a probabilidade
de no mximo 8 currculos recebidos apresentarem candidatos experientes.
3.3 Uma confeco de roupa masculina suspeita que 35% de sua produo apresenta algum defeito. Se tal
suspeita correta, determine a probabilidade de que, numa amostra de seis peas, sejam encontradas: duas
peas defeituosas; no mnimo trs peas defeituosas; menos que trs peas defeituosas.
3.4 A probabilidade de um atirador acertar o alvo 2/3. Se ele atirar 5 vezes, qual a probabilidade de acertar
exatamente 2 tiros ?
3.5 Suponhamos que a presso sangnea sistlica normal de indivduos com idade entre 15 e 25 anos uma
varivel aleatria com distribuio normal de mdia 120mmHg e desvio padro 8mmHg. Nestas condies,
calcule a probabilidade de um indivduo dessa faixa etria, com presso sangnea sistlica normal
apresentar presso:
a) Inferior a 120mmHg; (R: 0,5)
b) Entre 100 e 110mmHg; (R: 0,0994)
c) Acima de 106mmHg; (R: 0,9599)
d) Abaixo de 136mmHg; (R: 0,9772)
e) Para os 20% dos indivduos que tm as maiores presses sangneas sistlicas, determinar a menor
presso sangnea sistlica. (R: 126,72 mmHg)
f) Para os 18% dos indivduos que tm as menores presso sangneas sistlicas, determinar a maior
presso sangnea sistlica. (R: 112,64 mmHg)
3.6 Acredita-se que as vendas aproximadas do creme dental MM sejam normalmente distribudas, com uma
mdia de 20.000 tubos por semana e um desvio padro de 3.000 tubos por semana. Calcule a probabilidade
de que mais de 22.000 tubos sejam vendidos em qualquer dada semana;
3.7- Os mergulhadores que so membros do Sindicato dos Mergulhadores Profissionais ganham em mdia
U$ 17 por mergulho de alta profundidade. Considere que os dados disponveis indicam que o pagamento seja
distribudo normalmente com desvio padro de U$ 2,25.
a) Qual a probabilidade de que os salrios estejam entre U$15,00 e U$20,00 por mergulho;
b) Qual a probabilidade de que os salrios sejam menores que U$12,00 por mergulho;
38
Unidade IV Teoria Elementar da Amostragem
1. Situando a Temtica
Amostragem uma rea da Estatstica que estuda tcnicas de planejamento de pesquisa para
possibilitar inferncias sobre uma populao a partir do estudo de uma pequena parte de seus componentes,
uma amostra.
2. Problematizando a Temtica
Ao fazermos uma jarra de suco e adicionamos acar desejamos saber se a quantidade de acar foi
satisfatria. Para isto, no precisamos tomar toda a jarra de suco, uma colher basta. Da mesma forma, ao
estudarmos um fenmeno probabilstico em uma populao no precisamos investigar toda a populao, e
sim uma amostra dela. No entanto, algumas questes podem surgir: como obter essa amostra? qual deve ser
o tamanho dessa amostra? Esta unidade tem como objetivo responder esta e mais algumas questes
correlatas.
3. Desenvolvendo a Temtica
Muitas vezes faz-se necessria a coleta de dados diretamente na origem. Entretanto, quando
impossvel se observar toda a populao recorremos s tcnicas de amostragem, onde nos limitamos a uma
amostra da populao em estudo. Basicamente, nosso objetivo coletar uma pequena frao da populao de
modo que as informaes observadas na amostra possam ser generalizadas para a populao. Para que esta
generalizao seja possvel, os integrantes da amostra devem ser escolhidos adequadamente.
De acordo com a definio de amostragem probabilstica, existe a suposio de um sorteio com regras bem
determinadas, cuja realizao s ser possvel se a populao for finita e totalmente acessvel. Esse tipo de
amostragem a melhor garantia para se obter uma representatividade da populao pela amostra. Os
principais planos de amostragem probabilstica so:
1. Amostragem Aleatria (ou Casual) Simples: Neste tipo de plano, supe-se que todos os elementos
da populao tem igual probabilidade de pertencer amostra, ou alternativamente, se todas as
possveis amostras, de mesmo tamanho, tm a mesma probabilidade de serem selecionadas.
Normalmente, consideramos esse tipo de plano amostral quando a populao homognea. Esse
processo de amostragem pode ser feito com ou sem reposio do elemento amostrado. Uma tcnica
que garante esta igual probabilidade a seleo aleatria de elementos, por exemplo, atravs de
sorteio.
39
2. Amostragem Sistemtica: Inicia com uma escolha aleatria de um elemento da populao e, a
partir deste, usa-se um sistema de seleo para compor o restante da amostra. Por exemplo, numa
listagem de elementos da populao, sorteamos um entre os dez primeiros da lista o 5o elemento. A
partir do elemento sorteado, selecionamos um a cada quinze elementos (o 20o, o 35o e assim por
diante). Este mtodo de amostragem pode ser utilizado quando se quer planejar um perodo de tempo
para execuo da coleta de dados ou quando se deseja cobrir um determinado perodo de tempo com
a amostra estudada. Tambm consideramos esse tipo de plano amostral quando a populao
homognea.
3. Amostragem Estratificada: Na amostragem estratificada a populao dividida em grupos
internamente homogneos (estratos) e em seguida selecionada uma amostra aleatria de cada
estrato. Este tipo de amostragem usado quando o evento estudado numa populao tem
caractersticas distintas para diferentes categorias que dividem esta populao, ou seja, dentro de
cada estrato os elementos so bastantes semelhantes entre si e, entre os estratos eles so
heterogneos. Assim, a estratificao apropriada para agrupar os elementos por sexo, faixa etria,
religio, escolaridade ou em populaes heterogneas como rendas, produes agrcolas, produes
industriais, etc.
4. Amostragem por Conglomerados: A populao dividida em pequenas subpopulaes, com
elementos internamente heterogneos, chamadas conglomerados (clusters). Seleciona-se uma
amostra aleatria simples desses conglomerados, e deles selecionam-se aleatoriamente os elementos
que iro compor a amostra. Assim, numa pesquisa scio econmica pode-se dividir a cidade em
bairros (conglomerados), em seguida obter uma amostra aleatria de bairros e, ento efetuar o
levantamento estatstico nas residncias dos bairros selecionados. Observe que, no caso da
estratificao, indivduos sero selecionados em cada estrato, enquanto no caso da diviso da
populao em conglomerados, selecionamos apenas parte dos conglomerados.
5. Amostragem por Estgios Mltiplos: Esta estratgia de amostragem pode ser vista como uma
combinao de dois ou mais planos amostrais. Considere por exemplo uma populao estratificada
onde o nmero de estratos muito grande. Ao invs de obter uma amostra aleatria de cada estrato,
o que poderia ser invivel devido quantidade de estratos, o pesquisador poderia optar por
selecionar aleatoriamente alguns estratos e em seguida selecionar uma amostra de cada estrato
selecionado. Neste caso, teramos uma amostragem em dois estgios usando, nas duas vezes, a
amostragem aleatria simples, sendo que no primeiro estgio as unidades amostrais so os estratos e
no segundo so as componentes da populao.
importante ressaltar que certos cuidados dever ser tomados no processo de obteno de uma
amostra, ou seja, no processo de amostragem, pois muitas vezes erros grosseiros e concluses falsas
ocorrem devido a falhas nesse processo.
Observe que a distribuio acima tem mdia (valor esperado) e varincia dados por:
1+ 3+ 5 2
(1 3) 2 + ( 3 3) 2 + (5 3) 2 8
E(X) = = =3 e V(X) = = = .
3 3 3
40
Se retirarmos todas as amostras aleatrias de tamanho n = 2, com reposio, dessa populao
obtemos um total de Nn = 32 = 9 amostras com os seguintes resultados:
xi 1 2 3 4 5
P( X = xi ) 1/9 2/9 3/9 2/9 1/9
a sua varincia igual varincia da populao dividida pelo tamanho da amostra. Temos que:
[ 2
]
V ( X ) = E( X 2 ) E( X ) .
1 2 3 2 1 93
Logo, E ( X 2 ) = 12 + 2 2 + 3 2 + 4 2 + 5 2 = .
9 9 9 9 9 9
8
93 93 93 81 12 4 2
[ ] = = = 3=
2
Assim, V ( X ) = E ( X 2 ) E ( X ) = 32 = 9= . Tais relaes
9 9 9 9 3 2 n
entre e X , e 2 e X2 , observadas no exemplo acima, podem ser generalizadas.
Usando a teoria das probabilidades possvel mostrar que os seguintes resultados gerais so vlidos
com relao distribuio amostral da mdia. Seja X uma varivel aleatria com valor esperado E(X) = e
varincia V(X) = 2 finita, isto , 0< 2 < . Seja X a mdia desta varivel aleatria, obtida de amostra
aleatria de tamanho n, selecionada com reposio. Ento, temos que:
E( X ) = X = ;
2
V( X ) = X2 = .
n
Alm disso, tem-se o resultado conhecido como Teorema Central do Limite: Seja X uma varivel aleatria
com valor esperado E(X) = e varincia V(X) = 2. Para n suficientemente grande,
1 n
X = Xi
n i =1
2
apresenta, aproximadamente, uma distribuio normal com mdia e varincia , Logo,
n
2 X
X N , e Z = N (0,1) .
n
n
Observaes
1) O desvio padro de X , denotado por X = , chamado erro padro da mdia e descreve a
n
variabilidade das mdias amostrais em torno da verdadeira mdia populacional . Assim, quanto maior o
41
erro padro da mdia, maior ser a diferena entre parmetro e sua estimativa X , calculada a partir da
2
amostra . Quando n grande decresce, significando que a mdia amostral fornecer uma estimativa
n
mais segura para em grandes amostras.
3) Para valores grandes de n ( n 30) a aproximao da distribuio amostral da mdia X pela distribuio
Normal considerada satisfatria.
Exemplo 4.1 - Os registros de uma agncia de turismo mostram que um turista gastou, durante o ltimo ano,
em mdia = US$800,00, sendo o desvio padro dos gastos igual a = US$80,00. Ache a probabilidade de
que uma amostra de 64 turistas apresente um gasto mdio entre US$770,00 e US$825,00.
Soluo: Considere a varivel X = gastos (em US$). Embora a distribuio de X no seja conhecida, como o
tamanho da amostra n = 64 bastante grande, podemos admitir que a mdia amostral de X segue a
distribuio Normal com parmetros
80
X = = X = 800 e X = = = 10 .
n 64
Assim temos que
770 800 X 825 800
P(770 X 825) = P = P(3,0 Z 2,5) =
10 10
n
Se considerarmos um grande nmero de amostras, cada uma com 64 turistas, em aproximadamente 99,25%
delas o gasto mdio estaria entre US$770,00 e US$825,00.
Se o parmetro de interesse p representa uma proporo (ou percentagem) de elementos com certa
caracterstica (atributo) na populao, ento chamamos a estatstica correspondente na amostra de proporo
amostral, denotando-a por
x o
p = , onde x = n de elementos da amostra que possuem a caracterstica de interesse.
n
No caso de uma populao finita de tamanho N e uma amostra sem reposio, recomenda-se o uso do fator
de correo populacional no clculo da varincia de p , sendo expressa por:
p.q N n
V( p ) = .
n N 1
42
Exemplo 4.2 Suponha que de um grande lote de produo, 10% dos itens produzidos apresentam algum tipo
de defeito. Em uma amostra aleatria de tamanho 60, obtida do lote para inspeo de qualidade, calcule a
probabilidade de ter mais de 15% dos itens defeituosos.
Soluo:
p p 0,15 0,10
P( p > 0,15) = P > = P( Z > 1,29) = 1 0,9015 = 0,0985 .
p.q 0,1 0,9
n 60
Se considerarmos um grande nmero de amostras, cada uma contendo 60 itens, em aproximadamente 9,85%
das amostras a proporo de itens defeituosos seria superior a 15%.
Exerccios
4.1 Admita que a aceitao de um grande lote de peas ocorra apenas se o comprimento mdio de 10
peas, retiradas aleatoriamente do lote, estiver entre 5 cm e 10 cm. Sabe-se que o comprimento das peas
uma varivel aleatria com distribuio Normal com mdia = 7,5cm e varincia 2 = 20 cm2. Calcule a
probabilidade do lote ser aceito. (R.: 0,9232)
4.2 Seja X1, X2, ... , Xn uma amostra aleatria de tamanho n obtida de X ~ N( , 2). Qual a
probabilidade da mdia amostral, X , estar compreendida em cada um dos intervalos seguintes?
a) X ;
b) 2 X ;
c) 3 X ;
onde =
X
. Dica: (a) Calcule P( - X + ).
X X
n
R.: (a) 0,6826; (b) 0,9544; (c) 0,9974.
4.3 Considere que o consumo mensal de gua por residncia em um certo bairro tem distribuio Normal,
com mdia = 10 e desvio padro = 2 (em m3). Para uma amostra aleatria de 25 dessas residncias, qual
a probabilidade da mdia amostral, X , no se afastar da mdia verdadeira, , por mais de 1 m3? R.:
P( X 1) = 0,9876.
4.4 - O departamento de compras de uma companhia rejeita rotineiramente remessa de peas se uma amostra
aleatria de tamanho 100, extrada de um grande lote de peas, acusa 10 ou mais defeituosas. Determinar a
probabilidade de um lote ser rejeitado se tem uma percentagem p de peas defeituosas de: a) 5%; b) 18%.
R.: a) 0,011; b) 0,9812.
4.5 - Em um processo de produo, 10% das unidades produzidas so defeituosas. Em uma amostra aleatria
de 100 unidades, ache a probabilidade da proporo amostral de unidades produzidas com defeito ser: a)
inferior a 13%; b) entre 7% e 16%; c) maior que 8%. R.: a) 0,8413; b) 0,8185; c) 0,7486
4.6 Suponha que a proporo de itens defeituosos em um grande lote de peas seja 0,1. Qual o tamanho
mnimo de uma amostra aleatria de itens a ser retirado do lote para que, com probabilidade de 0,983, a
proporo de itens defeituosos na amostra seja no mximo 0,13? Dica: Use P( p 0,13) = 0,983. R.: n
450
4.7 Desejamos coletar uma amostra aleatria de uma varivel aleatria X com distribuio Normal com
mdia desconhecida, , e varincia 2 = 40. Qual deve ser o tamanho da amostra, n, para que, com
probabilidade 0,92, a mdia amostral, X , no se afaste da mdia da populao, , por mais de 2 unidades?
Dica: Use P( X 2) = 0,92 onde X - = erro amostral da mdia. R.: n 31
43
4.8 - Uma empresa compra canetas esferogrficas, em grande quantidade, de um certo distribuidor. Antes de
aceitar os lotes remetidos, a empresa faz testes para verificar a sua qualidade. Se uma certa remessa
apresentar 5% de canetas defeituosas, a remessa ser devolvida ao fabricante. Calcule a probabilidade de
que em uma amostra aleatria de 50 canetas, mais do que 7% apresentem defeitos? R.: 0,2578
Nesta unidade aprendemos como coletar e determinar o tamanho de uma amostra. Agora j
temos conhecimentos bsicos para estudarmos alguns conceitos sobre de estimao de parmetros.
Portanto, programe-se. Planeje seus estudos. J h muito o que estudar sobre distribuies
amostrais.
44
Unidade V Intervalos de Confiana e Teste de Hiptese
1. Situando a Temtica
2. Problematizando a Temtica
Qual a altura mdia do povo brasileiro? Qual a proporo de pessoas com nvel superior em Joo
Pessoa? A resposta para essas perguntas no so to fceis, mas para respond-las com exatido teramos que
medir todos os cidados brasileiros ou verificar quantos habitantes em Joo Pessoa possuem nvel superior, o
que impossvel. No entanto se coletarmos uma amostra e calcularmos a mdia e a proporo,
respectivamente, ser que essas estimativas esto prximas dos verdadeiros valores populacionais
(parmetros)? Uma outra pergunta seria a seguinte: Se a quantidade mdia de gua ingerida por um ser
humano de 10 litros por semana, os brasileiros bebem muito ou pouca gua? Como responderamos a esta
questo? A resposta para essas questes veremos nessa unidade.
3. Conhecendo a Temtica
H inmeras situaes reais em que se procura determinar valores para quantidades desconhecidas
como mdias e propores. Certamente, de interesse para muitos empresrios saber a quantia mdia gasta
por um turista em sua cidade; um produtor de televiso procura sempre saber qual o ndice de audincia de
determinados programas; um engenheiro de controle de qualidade procura determinar a proporo de itens
produzidos com defeito em uma linha de produo.
A estimao consiste em determinar um valor amostral que substitua o respectivo valor real do
parmetro populacional desconhecido.
Para uma melhor compreenso dos temas mais importantes desta unidade, vamos definir alguns
conceitos fundamentais dentro da inferncia estatstica:
Estimador - uma funo matemtica que leva em considerao os dados amostrais. Como tal
funo calculada baseada em uma amostra, considerada uma varivel aleatria, caracterizada por
1 n
uma distribuio de probabilidade. Assim, X = xi , onde x1, x2, ... , xn so n valores amostrais,
n i =1
um estimador que representa a mdia populacional (parmetro).
Estimativa - um valor particular do estimador para uma dada amostra coletada. Assim, por
exemplo, para uma dada amostram, X = 3,9kg pode ser uma estimativa para o verdadeiro peso
mdio, desconhecido, de recm-nascidos do sexo feminino em certa localidade.
Estimao por ponto ou Estimao Pontual chamamos de estimao pontual quando, a partir de
uma amostra, um nico valor usado para estimar um parmetro desconhecido. Um estimador
pontual para um parmetro populacional , geralmente representado por . Assim, X , S2, S e p
so estimadores pontuais para os parmetros , 2, e p respectivamente, isto , = X , 2 =S2,
x
=S e p = p = , onde x = no de elementos da amostra que possuem certa caracterstica de
n
interesse.
45
Quando achamos uma estimativa pontual, ela raramente coincide com o valor real do parmetro.
Uma desvantagem do uso de estimadores pontuais que, se nenhuma informao adicional for dada, no h
maneira de decidir o quo boa a estimativa, pois no temos nenhuma ideia da sua preciso. Um
procedimento mais desejvel para estimao , ento, calcular um intervalo que tenh uma probabilidade
pr-estabelecida de conter o parmetro desconhecido.
Um intervalo de confiana para uma mdia especifica um intervalo de valores dentro do qual o
parmetro populacional desconhecido, neste caso a mdia, pode estar. Estes intervalos podem ser usados, por
exemplo, por um fabricante que deseja estimar sua produo mdia diria ou um pesquisador que deseja
estimar o tempo de resposta mdia, por paciente, a uma nova droga.
Suponha que temos uma amostra aleatria de tamanho n, X1, X2, ... , Xn, de uma populao cuja
distribuio normal com mdia e varincia 2. Ento
1 n 2
X =
n i =1
xi apresenta distribuio X N , e Z = X N (0,1) .
n
n
Sejam 1- um nvel de confiana qualquer, 0 < 1- < 1. Temos que,
P( 0 < X < + 0 ) = 1
0 +0
P( <Z< ) = 1 f(z)
/ n / n
0 0 /2 /2
P( <Z< ) = 1
/ n / n
P ( z / 2 < Z < + z / 2 ) = 1
0 0 -z/2 z/2
onde: z / 2 = e z / 2 = .
/ n / n
46
Logo,
0 = z / 2 .
n
Assim, note que a partir da expresso acima podemos tambm estimar, por exemplo, o tamanho da amostra
(n) quando 0, z e so conhecidos
2
n = z / 2 .
0
Exemplo 5.1: Para estimar gasto mdio semanal no supermercado A, coletou-se uma amostra aleatria de
16 consumidores, obtendo-se um gasto mdio amostral de X = US$30,00. Supondo uma distribuio
normal para a populao, com desvio padro = US$2,60, obtido de outros estudos similares, calcule um
intervalo de 95% de confiana para estimar o gasto mdio semanal populacional no supermercado A.
1% 5% 10%
z/2 2,57 1,96 1,64
(x i x )2
S2 = i =1
.
n 1
Agora, a estatstica
X
T= ~ t ( n1) ,
S/ n
ter distribuio t-Student com n-1 graus de liberdade, e no mais a distribuio normal padro. No
entanto, podemos re-escrever a estatstica T como funo da distribuio normal padro (Z), da seguinte
forma:
47
X X
T= = =Z .
S S S
n n
Logo,
S
t ( n1, / 2 ) = z / 2 z / 2 = t ( n 1, / 2 ) .
S
S
Substituindo z / 2 = t ( n 1, / 2 ) no intervalo de confiana do caso 1 teremos, quando a varincia
populacional 2 desconhecida, o intervalo de confiana que contm o verdadeiro valor da mdia
populacional com probabilidade 1-, expresso por
S S
[ X t ( n 1, / 2 ) ; X + t ( n 1, / 2 ) ].
n n
Logo,
S
0 = t( n 1, / 2 ) .
n
Assim, a partir da expresso acima podemos tambm estimar, por exemplo, o tamanho da amostra (n)
quando 0, z e S so conhecidos.
Exemplo 5.2: Um fiscal de produtos alimentcios seleciona uma amostra aleatria de 16 pacotes de lanche
marca M nas prateleiras de um supermercado. Pesa o contedo de cada pacote, encontrando um peso
mdio X = 170g e um desvio padro S = 5g. O peso lquido indicado em cada pacote 180g. Verifique se
um intervalo com 90% de confiana para o peso mdio lquido verdadeiro abrange o peso lquido
especificado na embalagem. Suponha distribuio normal para a populao.
Soluo: Dados: n = 16, X = 170g e S = 5g. Para = 10% e n = 16 t n 1, / 2 = t n1, 2 = t15;0,05 =1,753,
obtido da tabela da distribuio t-Student, pois a informao que dispomos no problema diz respeito ao
desvio padro amostral.
Logo, o intervalo de confiana para o peso mdio populacional ser denotado por: IC(,90%) =
5
170 1,753 = [170 2,19] ou [167,81; 172,19]. Note que o IC no abrange o peso lquido indicado na
16
embalagem de 180g.
Soluo: Seja X = quilmetros percorridos com 1 litro de gasolina. Temos que n = 9, X = 16km/l e S =
1,581 km/l. Para = 1% e n = 9 t n1, 2 = t8; 0,005= 3,355, obtido da tabela da distribuio t-Student.
1,581
Logo, o intervalo de confiana ser denotado por: IC(,99%) = 16 3,355 = [16 1,77] ou [14,23;
9
17,77] km/l de gasolina.
Assim, podemos afirmar que com 99% de confiana, o intervalo [14,23 km/l; 17,77km/l] contm o
verdadeiro valor para a distncia percorrida pelo novo motor (em quilmetros) com um litro de gasolina.
48
Exemplo 5.4: Se um pesquisador sabe que uma populao tem distribuio normal com desvio padro =
12. Considerando um nvel de confiana de 95%, encontre o tamanho de amostra necessrio para que a
mdia amostral no se afaste em mais de 2 unidades do verdadeiro valor da mdia populacional.
Soluo: Em nosso problema, observamos que o desvio padro populacional conhecido. Neste caso,
usamos a seguinte expresso para o clculo do tamanho de amostra
2
n = z / 2 .
0
Estes intervalos podem ser usados para, por exemplo, informar sobre a proporo de alunos evadidos
na UFPB, a proporo de itens defeituosos em uma linha de produo ou a proporo de uma populao que
imune a certa enfermidade.
Seja X a varivel aleatria representando o no de sucessos em n repeties independentes de um
experimento com dois possveis resultados (sucesso e fracasso), onde P(sucesso) = p e a P(fracasso) = q =1 -
p, constantes. Ento X B(n,p), onde X = E(X) = np e 2 = Var(X) = np(1-p). Para p no muito prximo
de 0 ou 1 e se n suficientemente grande (um critrio usado na prtica, usar a aproximao quando np e
n(1-p) forem maiores do que 5) temos, segundo o Teorema Central do Limite, que
X ~ N (np , np (1 p ) ) .
p (1 p ) p (1 p )
[ p z / 2 ; p + z / 2 ]
n n
Exemplo 5.5: Para se avaliar a taxa de desemprego em uma cidade, coletou-se uma amostra aleatria de
1000 habitantes em idade de trabalho e observou-se que 87 eram desempregados. Estimar a percentagem de
desempregados em toda a cidade (populao) atravs de um intervalo de 95% de confiana.
49
Soluo: Temos que n = 1000 e que a proporo amostral de desempregados p = 87 = 0,087 . Logo, q$ =
1000
1 p = 0,913. Para = 5% Z/2 = 1,96.
Exemplo 5.6: Numa pesquisa de mercado, 57 das 150 pessoas entrevistadas preliminarmente afirmaram que
seriam compradoras de certo produto a ser lanado. Essa amostra suficiente para estimar a proporo real
de futuros compradores, com um erro de 4% e confiana de 95%?
Soluo: p = 57 = 0,38 e q$ = 1 p = 0,62; 0 = 0,04; Z/2 = 1,96.
150
2 2
z 1,96
Logo, n = / 2 p (1 p ) = 0,38(0,62) 566 .
0 0,04
Como apenas 150 pessoas foram entrevistadas preliminarmente, a amostra no foi suficiente. Sendo
necessrio entrevistar mais 566 - 150 = 416 pessoas.
Hiptese Nula (H0) - uma afirmao sobre o parmetro, supostamente verdadeira, que vai ser posta
prova e na qual o teste montado. Em geral, formula-se H0 com o objetivo de rejeit-la, isto , formulamos
H0 contrria ao que suspeitamos que seja verdade. Por exemplo, se um cientista acha que uma nova droga
eficaz para certo tipo de paciente, ento, por contradio, formulamos a hiptese H0 de que a nova droga no
eficaz. Portanto, para provar que o cientista est certo, H0 teria de ser rejeitada. Dessa forma, podemos
pensar que o que estamos interessados deve ser alocado em H1 (Hiptese Alternativa).
Uma possvel representao : H0: = 0 , onde qualquer parmetro.
Hiptese Alternativa (H1) - Hiptese que vai ser comparada hiptese nula, isto , uma afirmao
sobre o parmetro que afirma A hiptese nula H0 falsa.
Se usamos H0: = 0 para representar a hiptese nula, ento podemos usar as seguintes
representaes para as possveis hipteses alternativas:
H1: 0;
H1: < 0;
H1: > 0
50
3.3.2 Definio da Regra de Deciso, Erros e Nvel de Significncia
Quando testamos hiptese estatsticas, qualquer que seja a deciso tomada, estamos sujeitos a
cometer dois possveis tipos de erros:
Erro do Tipo I: quando se rejeita a hiptese nula H0 e a mesma verdadeira. Denotamos por a
probabilidade de cometer este erro, isto , = P(erro tipo I) = P(rejeitar H0 | H0 verdadeira). O
erro tipo I () tambm conhecido como nvel de significncia de um teste de hipteses.
Erro do Tipo II: no se rejeita a hiptese nula H0, quando a mesma falsa. Denotamos por a
probabilidade de cometer este erro, isto , = P(erro tipo II) = P(no rejeitar H0 | H0 falsa).
O quadro abaixo resume as possibilidades das decises envolvidas em um teste de hiptese, com as
probabilidades de ocorrncias dos erros tipo I () e II ().
Devido as dificuldades de se conseguir minimizar os dois tipos de erros ao mesmo tempo, em geral,
nos preocupamos mais na possibilidade de rejeitar uma hiptese sendo ela verdadeira. Dessa forma, teremos
uma maior ateno no controle do erro do tipo I. Por exemplo, se definimos as hipteses
A aceitao de H0, sendo esta hiptese falsa, possibilita a busca de outros meios de tratamentos, enquanto
que a rejeio de H0, sendo esta verdadeira, exclui a possibilidade de se prosseguir com outras opes para os
pacientes. Logo, desejvel exercer um controle sobre e mant-lo pequeno. Dessa forma, os testes de
hiptese podem ser montados de maneira que, fixado o erro do tipo I, o erro do tipo II seja minimizado
aumentando-se o tamanho da amostra.
Observao: O significado de usado nos Testes de Hipteses totalmente diferente de seu significado na
Estimao por Intervalos. Nos Testes de Hiptese, representa a probabilidade de rejeitar uma hiptese nula
suposta verdadeira, enquanto que na Estimao por Intervalos representa a probabilidade de que os limites
de confiana construdos no contenham o verdadeiro valor do parmetro.
Estatstica do Teste
A deciso de rejeitar ou no a hiptese nula (H0) baseada nos dados amostrais, que so usados para
calcular o valor da Estatstica de Teste e que servir de referncia para a tomada da deciso. Para isso,
divide-se a curva da distribuio amostral da estatstica em duas regies, uma chamada Regio Crtica (ou
Regio de Rejeio de H0), e a outra Regio de No Rejeio de H0. Temos, ento, a seguinte Regra de
Deciso do teste: se o valor calculado da estatstica do teste pertencer regio crtica, rejeita-se H0 em
favor da hiptese alternativa; caso contrrio, H0 no ser rejeitada em relao hiptese alternativa.
Regio Crtica do Teste - a regio de rejeio de H0, isto , o conjunto de valores de uma
estatstica que determina a rejeio de H0. Rejeitamos a hiptese nula se a estatstica de teste est
na regio crtica, porque isto indica uma discrepncia significativa entre a hiptese nula e os
dados amostrais.
Valor Crtico do Teste: o valor, ou valores, que separa(m) a regio crtica (que levam a
estatstica do teste a rejeitar a hiptese nula) da regio de no rejeio de H0.
51
Teste Unilateral: quando a regio crtica do teste localizada completamente em uma das
extremidades da curva da distribuio amostral da estatstica do teste.
o Teste Unilateral Esquerda: a regio crtica (sombreada) localiza-se no extremo
esquerdo da distribuio.
Hipteses: H0: = 0 vs H1: < 0
o Teste Unilateral Direita: a regio crtica (sombreada) localiza-se no extremo direito da
distribuio.
Hipteses: H0: = 0 vs H1: >
Teste Bilateral: a regio crtica (sombreada) localiza-se nas duas extremidades da distribuio.
Hipteses: H0: = 0 vs H1: 0
A escolha entre usar um teste unilateral e um teste bilateral determinada pelos objetivos do problema, no
qual se deseja verificar uma afirmao a cerca do parmetro populacional.
2 - Decidir qual estatstica de teste ser usada para julgar a hiptese nula;
6 - Se o valor citado na fase anterior pertencer regio crtica, rejeitar H0. Caso
contrrio, no rejeitar H0.
O primeiro passo num Teste de Hipteses consiste em formular a hiptese a ser testada. No quadro 1,
podemos observar que para cada possvel hiptese existe uma regio crtica e regra de deciso associada. No
caso do teste de hipteses para mdia populacional, supondo a varincia populacional conhecida, utilizamos
a seguinte estatstica do teste:
X 0
ZC = .
n
Note que a estatstica calculada com base nas informaes contidas na amostra.
O prximo passo consiste em fixar o nvel de significncia do teste (). A seguir, apresentamos os valores
mais usados para Z e Z/2.
1% 5% 10%
Z 2,33 1,64 1,28
Z/2 2,57 1,96 1,64
52
Quadro 2: Resumo das Hipteses, Regies Crticas e Regras de Deciso para a Mdia Populacional,
considerando 2 conhecido.
Hiptese Regio Crtica Regra de Deciso
(sombreada) (Rejeitar H0)
H0: = 0
H1: 0 Zc -Z/2 ou Zc Z/2
H0: = 0 (*)
H1: < 0 Zc -Z
H0: = 0 (**)
H1: > 0 Zc Z
(*) Por simplicidade, excluiu-se a possibilidade 0 na hiptese nula H0 , com base no conhecimento de que tal fato
levaria mesma deciso que a aceitao simples de H0: = 0.
(**) Por simplicidade, excluiu-se a possibilidade 0 na hiptese nula H0 , com base no conhecimento de que tal fato
levaria mesma deciso que a aceitao simples de H0: = 0.
Exemplo 5.7: O gerente de uma indstria de carnes enlatadas tem estabelecido a seguinte especificao: um
novilho com 12 meses de vida resulta numa mdia de 250kg de carne. A experincia passada indica que,
mesmo com uma mudana na mdia, o desvio padro permanece ligeiramente constante, em = 18kg. Para
determinar se a especificao est sendo observada, o gerente seleciona uma amostra aleatria com 100
novilhos e obteve uma mdia X =253kg de carne. Realize um teste de hiptese para verificar se houve
mudana na especificao, a um nvel de significncia de 5%.
Soluo:
H0: = 250kg
H1: 250kg (a especificao no est sendo observada)
Deciso: Como Z/2 < Zc < Z/2 No existem evidncias para rejeitar H0. Logo, com base nos dados
amostrais e com 5% de significncia no podemos rejeitar a hiptese H0, ou seja, no existem evidncia para
afirmar que a especificao est sendo violada.
Quando a varincia populacional (2) desconhecida, precisamos estim-la a partir das informaes
contidas na amostra, atravs da expresso
53
n
2
(x
i =1
i x)
S = .
n 1
Dessa forma, a estatstica do teste para mdia populacional quando 2 desconhecida ser expressa por
X 0
TC = ,
S n
que segue uma distribuio t-Student com n-1 graus de liberdade.
O prximo passo consiste em fixar o nvel de significncia do teste (). A seguir, apresentamos as
regies crticas e regras de deciso para as respectivas hipteses.
Quadro 3: Resumo das Hipteses, Regies Crticas e Regras de Deciso para a Mdia Populacional,
considerando 2 desconhecido.
Hiptese Regio Crtica Regra de Deciso
(sombreada) (Rejeitar H0)
H0: = 0
Tc -t(n-1,/2) ou
H1: 0
Tc t(n-1,/2)
H0: = 0 (*)
H1: < 0 Tc -t(n-1,)
H0: = 0 (**)
H1: > 0 Tc t(n-1,)
(*) Por simplicidade, excluiu-se a possibilidade 0 na hiptese nula H0 , com base no conhecimento de que tal fato
levaria mesma deciso que a aceitao simples de H0: = 0.
(**) Por simplicidade, excluiu-se a possibilidade 0 na hiptese nula H0 , com base no conhecimento de que tal fato
levaria mesma deciso que a aceitao simples de H0: = 0.
Exemplo 5.8: O tempo mdio necessrio para completar uma tarefa era de 15 minutos. Obtm-se uma
amostra aleatria de nove indivduos e, durante o perodo de teste, seus tempos (X) para concluir a tarefa
foram 11, 12, 15, 10, 12, 14, 15, 13 e 15. Assumindo que estes dados vm de uma distribuio normal, teste
a hiptese de que houve alterao no tempo mdio para completar a tarefa. Use um nvel de 5% de
significncia.
Soluo:
H0: = 15min
H1: 15min (houve alterao no tempo mdio)
Com base nas informaes amostrais, temos que n = 9; X = 13min e S = 1,871 min.
54
13 15
Dessa forma, a estatstica do teste ser Tc = = 3,207. Como o teste bilateral , o valor crtico ao
1,871
9
nvel = 5%, sendo n = 9, ser tn-1;/2 = t8;0,025 = 2,306 (obtido da tabela da distribuio t-Student).
Deciso: Como Tc < tn-1;/2, existem evidncias para rejeitar H0. Logo, com base nos dados amostrais e com
5% de significncia podemos rejeitar a hiptese H0, ou seja, existem evidncias para afirmar que os
indivduos apresentaram um tempo mdio para executar a tarefa diferente do que era observado
anteriormente.
Ao se fazer inferncias sobre uma proporo populacional, p, tomamos nossas com base nas
evidncias sobre seu valor amostral, p , de elementos com a caracterstica de interesse.
Pelo Teorema Central do Limite, sabe-se que, para n suficientemente grande, a proporo amostral,
p (1 p ) .
p = segue, aproximadamente, uma distribuio p ~ N p,
x
n n
Dessa forma, sob a hiptese H0: p = p0, a estatstica do teste para a proporo populacional p ser
expressa por
p p0
ZC = ~ N (0,1) ,
p0 (1 p0 )
n
que segue uma distribuio normal padro.
Aps fixar o nvel de significncia do teste (), apresentamos a seguir as regies crticas e regras de deciso
para as respectivas hipteses.
Quadro 3: Resumo das Hipteses, Regies Crticas e Regras de Deciso para a Proporo
Populacional p.
Hiptese Regio Crtica Regra de Deciso
(sombreada) (Rejeitar H0)
H0: p = p0
H1: p p0 Zc -Z/2 ou Zc Z/2
H0: p = p0 (*)
H1: p < p0 Zc -Z
H0: p = p0 (**)
H1: p > p0 Zc Z
(*) Por simplicidade, excluiu-se a possibilidade p p0 na hiptese nula H0 , com base no conhecimento de que tal fato
levaria mesma deciso que a aceitao simples de H0: p = p0.
55
(**) Por simplicidade, excluiu-se a possibilidade p p0 na hiptese nula H0 , com base no conhecimento de que tal fato
levaria mesma deciso que a aceitao simples de H0: p = p0.
Exemplo 5.9: Afirma-se que em um alqueire de mas, 10% esto estragadas. De uma amostra aleatria de
150 mas examinadas, 30 estavam estragadas. O que voc conclui sobre a proporo de mas estragadas
em um alqueire a um nvel de 5% de significncia?
Soluo:
H0: p = 0,1
H1: p 0,1
Com base nas informaes amostrais, temos que n = 150 e p = 30/150 = 0,2.
0,2 0,1
Dessa forma, a estatstica do teste ser ZC = = 4,08. Como o teste bilateral, o valor crtico ao
( 0,1).( 0,9 )
150
nvel de significncia de = 5% ser Z/2 = 1,96.
Deciso: Como ZC > Z/2 Existem evidncias para rejeitar H0. Logo, com base nos dados amostrais e ao
nvel de 5% de significncia, podemos concluir que a porcentagem de mas estragadas diferente de 10%.
Exemplo 5.10: De registros de vendas passadas sabe-se que 30% dos consumidores compram a pasta dental
C. Uma nova propaganda desse produto feita e, para testar sua eficcia, de uma amostra aleatria de 1000
consumidores que viram a propaganda, 334 responderam que compram a pasta dental C. Isso indica que a
nova propaganda foi bem sucedida? Use um nvel de 5% de significncia para testar se a nova propaganda
aumentou a proporo de consumidores da pasta dental C.
Soluo:
H0: p= 0,3
H1: p > 0,3 (a nova propaganda aumentou as vendas da pasta C)
Com base nas informaes amostrais, temos que n = 1000 e p = 334/1000 = 0,334.
0,334 0,300
Dessa forma, a estatstica do teste ser ZC = = 2,35. De acordo com a hipteses H1, temos
( 0,3).( 0,7 )
1000
que o teste ser unilateral e, portanto, o valor crtico ao nvel = 5% ser Z = 1,64.
Deciso: Como ZC > Z Existem evidncias para rejeitar H0. Logo, com base nos dados amostrais e ao
nvel de 5% de significncia, podemos concluir a nova propaganda aumentou a proporo de consumidores
que compram a pasta dental C.
Ao final desta unidade aprendemos duas importantes tcnicas inferenciais: intervalos de confiana e
testes de hipteses. Ambas podem ser aplicadas no processo de tomada de deciso em inmeros problemas
prticos. Pratique tais conceitos resolvendo os exerccios propostos no MOODLE. Estamos bem perto de
finalizar essa viagem pelos Mtodos Estatsticos.
56
Unidade VI Correlao e Regresso
1. Situando a Temtica
Correlao e Regresso so duas tcnicas estritamente relacionadas que envolvem uma forma de
estimao. A diferena entre essas duas tcnicas e o tipo de estimao estudados anteriormente que as
tcnicas anteriores foram utilizadas para estimar um nico parmetro, enquanto que as tcnicas que sero
estudadas nesta unidade se referem estimao de uma relao que possa existir na populao.
2. Problematizando a Temtica
A correlao e regresso permite-nos investigar uma relao entre duas variveis. O estudo de tal
relao pode ser a resposta a perguntas, tais como: Qual o preo de venda para uma casa com 200m2 ? ou
Pais mais altos tendem a ter filhos mais altos? ou, ainda, De cada unidade adicional de renda quanto, em
mdia, gasto com despesas adicionais com vesturio?. A noo de casualidade est implcita nestas
questes. Por exemplo, o tamanho de uma casa determina, ou contribui, para a definio do preo de venda,
mas no o contrrio. Ao estudar a correlao entre variveis, a determinao da direo da casualidade entre
tais variveis deve ser o primeiro passo ao se analisar dados para o uso dessas tcnicas inferenciais, que sero
melhor discutidas a seguir.
3. Conhecendo a Temtica
3.1. Correlao
Diagrama de Disperso
57
Correlao
Uma medida do grau e do sinal da correlao linear entre duas variveis (X,Y) dado pelo
Coeficiente de Correlao Linear de Pearson, definido por:
Cov ( X , Y )
r= ,
S X SY
(x
i =1
i x )( yi y )
Cov ( X , Y ) = .
n 1
Portanto, aps alguma lgebra, possvel denotar o coeficiente de correlao linear pela expresso
abaixo: n n n
n xi y i xi y i
i =1 i =1 i =1
r=
2 2
n
n n
n
n x i xi n y i yi
2 2
i =1 i =1 i =1 i =1
o Este coeficiente adimensional, logo no afetado pelas unidades de medidas das variveis X e Y;
o O sinal positivo indica que as variveis so diretamente proporcionais, enquanto que o sinal
negativo indica que a relao entre as variveis inversamente proporcional;
o O valor de r estar sempre no intervalo de -1 a 1. Teremos r = +1 se os pontos estiverem
exatamente sobre uma reta ascendente (correlao positiva perfeita). Por outro lado, teremos r = -1
se os pontos estiverem sobre uma reta descendente (correlao negativa perfeita)
-1 0 1
ausncia
Sentido: negativa negativa ne gativa positiva positiva positiva
Fora: forte m oderada fraca fraca moderada forte
Como o valor de r calculado com base nos n elementos de uma amostra, este representa uma
estimativa do verdadeiro valor para o coeficiente de correlao populacional (). Logo, faz-se necessrio
alguma ferramenta de inferncia estatstica que permita saber se o valor de r, combinado com o respectivo
tamanho de amostra n, a um dado nvel de significncia , suficiente para afirmarmos que existe uma
correlao linear entre duas variveis.
Dessa forma, sob a hiptese H0: = 0, a estatstica do teste para correlao linear populacional ser
expressa por
n2
TC = r ~ t ( n 2), / 2 ,
1 r 2
Aps fixar o nvel de significncia do teste (), apresentamos a seguir a regio crtica e a regra de deciso
para o teste bilateral.
58
Quadro 4: Hipteses, Regio Crtica e Regra de Deciso para a Correlao Linear Populacional
Hiptese Regio Crtica Regra de Deciso
(sombreada) (Rejeitar H0)
H0: = 0
Tc -t(n-2,/2) ou
H1: 0
Tc t(n-2,/2)
Exemplo 6.1: A tabela abaixo apresenta os preos mdios das aes e ttulos divulgados pela Bolsa de Nova
York entre 1950 e 1959. Calcule o coeficiente de correlao de Pearson, interprete o resultado e verifique sua
significncia a nvel de 5%.
Soluo:
Para o clculo do coeficiente de correlao r, necessitamos de alguns clculos preliminares a partir da tabela
acima:
i =1 i =1 i =1 i =1
59
Conclumos que existe uma correlao negativa entre os preos mdios das aes e de ttulos, ou seja, existe
uma tendncia de baixa nos preos das aes quando se verifica alta nos preos dos ttulos e vice-versa,
embora tal relao no seja acentuada.
Para testar a significncia da correlao, devemos realizar um teste de hipteses para correlao
populacional. As hipteses H0 e H1 so definidas por:
H0: = 0
H1: 0
Com base nas informaes amostrais, temos que n = 9 e r = -0,4561. Dessa forma, a estatstica do teste ser
n2
TC = r = 1,4496 . De acordo com a hipteses H1, temos que o teste ser bilateral e, portanto, o
1 r2
valor crtico ao nvel = 5% ser t(n-2,/2) = t(7,0.025) = 2,37.
Deciso: Como t(n-2,/2) < TC < t(n-2,/2) No existem evidncias para rejeitar H0. Logo, com base nos
dados amostrais e ao nvel de 5% de significncia, no podemos afirmar que exista uma correlao entre os
preos mdios das aes e dos ttulos entre 1950 e 1959.
3.2. Regresso
Quando analisamos dados que sugerem a existncia de uma relao funcional entre duas variveis,
surge ento o problema de se determinar uma funo matemtica que exprima esse relacionamento, ou seja,
uma equao de regresso.
Portanto, ao imaginar uma relao funcional entre duas variveis, digamos X e Y, estamos
interessados numa funo que explique grande parte da variao de Y por X. Entretanto, uma parcela da
variabilidade de Y no explicada por X ser atribuda ao acaso, ou seja, ao erro aleatrio.
Admitimos que a varivel X seja coletada sem erro, isto , X no ser aleatrio. Enquanto que a
varivel Y apresenta uma variao na qual, acreditamos, que possa ser explicada por X. Essa situao admite
a formulao do problema de modo que uma varivel Y, chamada de varivel resposta ou dependente, seja
apresentada em funo de uma varivel X, denominada de varivel explicativa ou independente.
Formalmente, a anlise de regresso parte de um conjunto de observaes pareadas (x1, y1), (x2, y2),
..., (xn, yn), relativas s variveis X e Y e considera que podemos escrever a relao entre as duas variveis,
da seguinte maneira:
yi = + xi + i,
onde:
o yi a varivel resposta associada i-sima observao de Y;
o xi a i-sima observao do valor fixado para a varivel independente (e no aleatria) X;
o i o erro aleatrio para a i-sima observao, isto , o efeito de fatores que esto afetando a
observao de Y de forma aleatria. Por suposio, consideramos que i ~ N(0,2);
o e so parmetros que precisam ser estimados.
O nosso objetivo ser estimar valores para e atravs dos dados fornecidos pela amostra. Alm
disso, queremos encontrar a reta que passe o mais prximo possvel dos pontos observados segundo um
critrio pr-estabelecido.
60
O mtodo de mnimos quadrados usado para estimar os parmetros do modelo ( e ), segundo um
critrio, e consiste em fazer com que a soma dos erros quadrticos seja menor possvel, ou seja, este mtodo
consiste em obter os valores de e que minimizam a expresso:
SQE = i2 = (y i x i ) 2 = f ( , ). .
n x i yi x i yi y i b x i
b= a= .
n x i2 ( x i )
2
n
y = a + b x ,
e para cada valor xi (i = 1, ..., n) temos, pela equao de regresso, o valor predito:
y i = a + b x i .
A diferena entre os valores observados e os preditos ser chamada de resduo do modelo de regresso,
sendo denotado por:
ei = yi yi .
O resduo relativo i-sima observao (ei) pode ser considerado uma estimativa do erro aleatrio (i), como
ilustrado abaixo.
61
O Coeficiente de Determinao (R2)
R2 = 2
(y i y ) variao total
onde y =
y i
.
n
Note que o coeficiente representa a inclinao da reta de regresso. Dessa forma, um teste de
hipteses sobre este parmetro pode ser usado como uma maneira de verificar se a equao de regresso
ajustada com base em dados amostrais estatisticamente significante. Para tanto, vamos definir as hipteses
nula e alternativa por:
H0: = 0
H1: 0.
(y i y i ) 2
onde: S b2 = i =1
n
e TC segue uma distribuio t-Student com n-2 graus de liberdade.
(n 2) ( xi x ) 2
i =1
Aps fixar o nvel de significncia do teste (), apresentamos a seguir a regio crtica e a regra de deciso
para o teste bilateral.
Quadro 5: Hipteses, Regio Crtica e Regra de Deciso para a Correlao Linear Populacional
Hiptese Regio Crtica Regra de Deciso
(sombreada) (Rejeitar H0)
H0: = 0
Tc -t(n-2,/2) ou
H1: 0
Tc t(n-2,/2)
62
Exemplo 6.2: A tabela abaixo apresenta os respectivos pesos X e Y de uma amostra de 12 pais e de seus
filhos mais velhos. Determine a reta de regresso e realize um teste de hipteses ao nvel de 5% de
significncia para o coeficiente angular
Soluo:
Para o clculo dos coeficientes de um modelo de regresso, necessitamos de alguns clculos preliminares a
partir da tabela acima:
Obtemos os as estimativas dos parmetros do modelo de regresso linear atravs dos coeficientes
a=
y i b x i
=
811 (0,4767)800
= 35,82 .
n 12
Assim, a equao de regresso que relaciona os pesos dos pais e de seus filhos, pode ser denotada por
y = 35,82 + 0,4764 x .
63
n
(y i y i ) 2
onde: S b2 = i =1
n
. Assim, temos que
(n 2) ( xi x ) 2
i =1
n
(y i y i ) 2
(68 66.8) 2 + L + (70 69.6) 2
S b2 = i =1
= = 0,027934 .
n
(n 2) ( xi x ) 2
[
(12 2) (65 66.7) 2 + L + (70 66.7) 2 ]
i =1
Dessa forma, a estatstica do teste ser TC = | 0,4764 | = 2,85 . De acordo com a hipteses H1, temos que o
0,027934
teste ser bilateral e, portanto, o valor crtico ao nvel = 5% ser t(n-2,/2) = t(10,0.025) = 2,23.
Deciso: Como TC > t(n-2,/2) Existem evidncias para rejeitar H0. Logo, com base nos dados amostrais
e ao nvel de 5% de significncia, podemos afirmar que existe uma relao funcional entre os pesos dos pais
e de seus filhos mais velhos.
Por ltimo, o coeficiente de correlao mltiplo pode ser calculado a partir dos dados observados (y) e de
seus respectivos valores preditos ( y ). A tabela abaixo apesenta os clculos necessrios para obter o R2.
R2 =
(y i
2
y)
=
19,22
= 0,4938 = 49,38% .
(y i
2
y) 38,92
Isso significa que apenas 49,38% da variao dos pesos dos filhos pode ser explicada pela variao de peso
nos pais.
Ao final desta unidade aprendemos dois importantes conceitos dentro da Estatstica: correlao e
regresso. Ambos os mtodos podem ser aplicadas no processo de tomada de deciso em inmeros
problemas reais. Pratique tais conceitos resolvendo os exerccios propostos no MOODLE. Espero que essa
viagem pelos Mtodos Estatsticos tenha sido bem explorada.
64
5. Referncias Bibliogrficas
FONSECA, J.S., MARTINS, G.A. & TOLEDO, G.L., Estatstica Aplicada, So Paulo, Editora Atlas, 2
ed., 1985.
TRIOLA, M.F, Introduo Estatstica, Livros Tcnicos e Cientficos, 7 ed,, Rio de Janeiro, 1999.
MEYER, P.L., Probabilidade: Aplicaes Estatstica, Livros Tcnicos e Cientficos, Editora AS, Rio de
Janeiro, 1983.
65