Você está na página 1de 245

Mtodos Quantitativos

Estatsticos
Paulo Ricardo Bittencourt Guimares

1. edio

2007 IESDE Brasil S.A. proibida a reproduo, mesmo parcial, por qualquer processo, sem autorizao por
escrito dos autores e do detentor dos direitos autorais.

XXX

Guimares, Paulo Ricardo Bittencourt.

Mtodos Quantitativos Estatsticos./Guimares, Paulo Ricardo


Bittencourt. Curitiba: IESDE Brasil S.A., 2008.
245 p.
ISBN: XXX-XX-XXXX-XXX-X
1. Mtodos Estatsticos 2. Probabilidade e Estatstica 3. Inferncia Estatstica 4. Anlise de Regresso 5. Anlise de Dados I. Ttulo
CDD XXX.XXXX

Todos os direitos reservados.

IESDE Brasil S.A

Al. Dr. Carlos de Carvalho, 1 482. CEP: 80730-200


Batel Curitiba PR
0800 708 88 88 www.iesde.com.br

Paulo Ricardo Bittencourt Guimares


Doutorando em Engenharia Florestal com concentrao em Economia e Poltica Florestal pela
Universidade Federal do Paran (UFPR). Mestre
em Estatstica pela Universidade Estadual de
Campinas (Unicamp). Bacharel em Estatstica
pela Universidade Federal do Paran (UFPR).
Professor do Departamento de Estatstica da
Universidade Federal do Paran (UFPR). Especialista em avaliao do Programa Nacional de Incluso de Jovens (Projovem) da Secretaria Geral
da Presidncia da Repblica. Consultor em Bioestatstica e Pesquisa de Mercado.

sumrio
sumrio

Conceitos e Aplicaes

15

15 | Introduo
16 | Conceitos bsicos
19 | Tcnicas de Amostragem
23 | Tipos de variveis

Anlise Exploratria de Dados

29

29 | Introduo
30 | Tabelas
35 | Grficos

Medidas de Posio e Variabilidade

49

49 | Introduo
49 | Medidas de Posio ou de Tendncia Central
55 | Medidas de Disperso

Introduo Probabilidade

69

69 | Introduo
69 | Conceitos iniciais de Probabilidade
73 | Definies de Probabilidades e Propriedades
78 | Varivel Aleatria Unidimensional (v. a.)

Distribuio Binomial, Distribuio 89


Poisson e Distribuio Normal
89 | Introduo
90 | Distribuio de Probabilidade Binomial
93 | Distribuio de Probabilidade Poisson
96 | Distribuio de Probabilidade Normal

Estimao de Parmetros

111

111 | Introduo
112 | Estimadores Pontuais (ou por ponto)
116 | Intervalos de Confiana (I.C.)
123 | Erro de Estimao e Tamanho das amostras

Testes de Hipteses: Conceitos

131

131 | Introduo
133 | Conceitos fundamentais
138 | Testes de hipteses no-paramtricos
141 | Principais planos experimentais

Testes de Hipteses

149

149 | Introduo
149 | Comparao de duas amostras independentes
155 | Comparao de duas amostras relacionadas
159 | Comparao de 3 ou mais amostras independentes
164 | Testes de aderncia

sumrio
sumrio

Anlise de Correlao e medidas de associao


171 | Introduo
172 | Diagramas de Disperso
172 | A Covarincia e o Coeficiente de Correlao de Pearson
180 | Medidas de Associao

Anlise de Regresso

189

189 | Introduo
189 | Regresso linear simples
194 | Mtodo dos mnimos quadrados ordinrios (MQO)
197 | Anlise de Varincia da Regresso
199 | Erro padro de estimao e intervalos de predio
200 | Anlise de Resduos

Referncia

242

171

Apresentao

Mtodos Quantitativos Estatsticos

Como se sabe, as portas do mercado de trabalho esto muito mais abertas aos profissionais
que, por exemplo, tem habilidades em lnguas
estrangeiras. Da mesma forma, profissionais
que tem uma cultura bsica em Estatstica esto
cada vez mais valorizados, exatamente pelo seu
preparo para auxiliar o processo de tomada de
deciso. Mas o que significa isso? Desenvolver
uma cultura estatstica significa desenvolver a
habilidade de planejar um estudo, controlando
todos os aspectos que possam causar variaes
na resposta de interesse e, com base em metodologias cientficas, analisar as informaes
coletadas para subsidiar com mais segurana a
difcil tarefa de tomada de deciso.
A cincia Estatstica aplicvel a qualquer ramo
do conhecimento em que se manipulem dados
experimentais. Assim, a Engenharia, a Economia, a Administrao, a Medicina, a Biologia,
as Cincias Agronmicas etc, tendem cada vez
mais a servir-se dos mtodos estatsticos como
ferramenta de trabalho, da sua grande e crescente importncia.
O objetivo deste livro apresentar os principais
e mais freqentes conceitos utilizados em Estatstica e as tcnicas bsicas de anlise de dados.
O aluno deve estar, ao final da disciplina, apto
a realizar um bom planejamento de um estudo
estatstico e realizar anlises estatsticas bsicas
dos dados resultantes desse estudo. Deve estar
preparado, tambm, a realizar interpretaes de
resultados estatsticos de relatrios analticos.
Para habilitar o estudante no uso de aplicativos
de Estatstica em suas anlises de dados, alguns
exerccios sero resolvidos fazendo uso da planilha eletrnica Excel.

Conceitos e Aplicaes

Introduo
Geralmente, as pessoas imaginam que Estatstica uma simples coleo
de nmeros, ou tem a ver com grficos e Censo Demogrfico. Pretendemos
mostrar que, na verdade, muito mais do que isso e o seu uso surge com
bastante freqncia em nossas vidas.
Estatstica um conjunto de tcnicas de anlise de dados, cientificamente formuladas, aplicveis a quase todas as reas do conhecimento que nos
auxiliam no processo de tomada de deciso. a Cincia que estuda os processos de coleta, organizao, anlise e interpretao de dados relevantes e
referentes a uma rea particular de investigao.
A origem da palavra Estatstica tem a ver com uma coleo de informaes populacionais e econmicas de interesse do Estado. O termo estatstica
surge da expresso em latim statisticum collegium palestra sobre os assuntos
do Estado, da qual surgiu a palavra em lngua italiana statista, que significa
homem de estado, ou poltico, e a palavra alem Statistik, designando a
anlise de dados sobre o Estado. A palavra foi proposta pela primeira vez
no sculo XVII, em latim, por Schmeitzel na Universidade de Lena e adotada
pelo acadmico alemo Godofredo Achenwall. Aparece como vocabulrio
na Enciclopdia Britnica em 1797, e adquiriu um significado de coleta e
classificao de dados, no incio do sculo 19.
Alguns exemplos de aplicao de tcnicas estatsticas so: pesquisa eleitoral, pesquisa de mercado, controle de qualidade, ndices econmicos,
desenvolvimento de novos medicamentos, novas tcnicas cirrgicas e de
tratamento mdico, sementes mais eficientes, previses meteorolgicas,
previses de comportamento do mercado de aes etc., ou seja, tudo que
se diz comprovado cientificamente, em algum momento, passa por procedimentos estatsticos.
Curiosamente, apesar de a Estatstica estar enquadrada entre as cincias
exatas, seus resultados esto sempre associados a uma pequena incerteza,
exatamente por estarem baseados em uma amostra. O profissional de esta-

Mtodos Quantitativos Estatsticos

tstica deve ter a habilidade de controlar esta incerteza por meio de procedimentos de Amostragem. A incerteza conseqncia da variabilidade de um
fenmeno e dificulta a tomada de decises.
Considere um simples exemplo da vida cotidiana: a ida de uma pessoa
a uma agncia bancria. Em torno desse fenmeno h uma srie de incertezas, por exemplo: a quantidade de pessoas na fila, o nmero de atendentes, o tempo de atendimento, as condies do tempo, a cotao da moeda
etc.
Mesmo que um indivduo procure informaes prvias sobre todos esses
elementos, sob os quais paira a incerteza, ainda assim no ser possvel predizer o desfecho. Podemos, por exemplo, analisar as condies do tempo,
obter informaes sobre o trfego, ligar para a agncia bancria e, ainda
assim, no conseguiremos precisar o horrio em que se receber o desejado
atendimento bancrio.

Conceitos bsicos
Em seguida so apresentados os principais conceitos estatsticos, os quais
so diversas vezes citados ao longo do livro. importante, nesse momento,
o leitor se familiarizar com esses novos termos, o que facilita a compreenso
das tcnicas estatsticas apresentadas na seqncia.

Estatstica Descritiva
O objetivo da Estatstica Descritiva resumir as principais caractersticas
de um conjunto de dados por meio de tabelas, grficos e resumos numricos. Descrever os dados pode ser comparado ao ato de tirar uma fotografia
da realidade. Caso a cmera fotogrfica no seja adequada ou esteja sem
foco, o resultado pode sair distorcido. Portanto, a anlise estatstica deve
ser extremamente cuidadosa ao escolher a forma adequada de resumir os
dados.

Inferncia Estatstica
Usualmente, impraticvel observar toda uma populao, seja pelo
custo alto, seja por dificuldades operacionais. Examina-se ento uma amostra, de preferncia bastante representativa, para que os resultados obtidos
12

Conceitos e Aplicaes

possam ser generalizados para toda a populao. Toda concluso tirada por
amostragem, quando generalizada para a populao, apresenta um grau de
incerteza. Ao conjunto de tcnicas e procedimentos que permitem dar ao
pesquisador um grau de confiabilidade nas afirmaes que faz para a populao, baseadas nos resultados das amostras, damos o nome de Inferncia
Estatstica.
Dessa forma, poderamos resumir os passos necessrios para se atingir
bons resultados ao realizar um experimento:
Planejar o processo amostral e experimental.
Obter inferncias sobre a populao.
Estabelecer nveis de incerteza envolvidos nessas inferncias.

Populao
a totalidade de elementos que esto sob discusso e das quais se deseja
informao, se deseja investigar uma ou mais caractersticas. A populao
pode ser formada por pessoas, domiclios, peas de produo, cobaias, ou
qualquer outro elemento a ser investigado.
Para que haja uma clara definio das unidades que formam a populao, necessria a especificao de trs elementos: uma caracterstica em
comum, localizao temporal e localizao geogrfica.
Exemplos:
Estudo da inadimplncia dos clientes do banco X no Brasil
Caracterstica comum

Clientes do banco X

Tempo

Cadastro atualizado em agosto de 2007

Localizao geogrfica

Agncias de todo o Brasil

Estudo de salrios dos profissionais da rea de seguros no estado de


So Paulo
Caracterstica comum

Profissionais da rea de seguros

Tempo

Salrios pagos em julho de 2007

Localizao geogrfica

Seguradoras de todo o estado de So Paulo

13

Mtodos Quantitativos Estatsticos

Amostra aleatria
Quando queremos obter informaes a respeito de uma populao, observamos alguns elementos, os quais so obtidos de forma aleatria o que
chamaremos de amostra aleatria.
Uma amostra uma parcela da populao utilizada para uma posterior
anlise de dados. Em vez de utilizar toda a populao, que resulta em maior
custo, tempo e por muitas vezes ser invivel, o processo de amostragem utiliza uma pequena poro representativa da populao. A amostra fornece
informaes que podem ser utilizadas para estimar caractersticas de toda
a populao.
preciso garantir que a amostra ou as amostras usadas sejam obtidas por
processos adequados. Se erros forem cometidos no momento de selecionar
os elementos da amostra, o trabalho todo fica comprometido e os resultados
finais sero provavelmente bastante viesados. Devemos, portanto, tomar especial cuidado quanto aos critrios que usados na seleo da amostra.
O que necessrio garantir, em suma, que a amostra seja representativa
da populao. Isso significa que, com exceo de pequenas discrepncias
inerentes aleatoriedade sempre presente, em maior ou menor grau, no
processo de amostragem, a amostra deve possuir as mesmas caractersticas bsicas da populao, no que diz respeito (s) varivel(is) que desejamos
pesquisar.
Os problemas de amostragem podem ser mais ou menos complexos, dependendo das populaes e das variveis que se deseja estudar. Na indstria, para efeito de controle de qualidade, as amostras so freqentemente
retiradas dos produtos e materiais. Nela os problemas de amostragem so
mais simples de resolver. Por outro lado, em pesquisas sociais, econmicas ou
de opinio, a complexidade dos problemas de amostragem normalmente
bastante grande. Em tais casos, deve-se ter extremo cuidado quanto
caracterizao da populao e ao processo usado para selecionar a amostra,
a fim de evitar que os elementos constituam um conjunto com caractersticas
fundamentalmente distintas das da populao.
Em resumo, a obteno de solues adequadas para o problema de amostragem exige, em geral, muito bom senso e experincia. Alm disso, muitas
vezes conveniente que o trabalho de elaborao do plano de amostragem
seja baseado em informaes de um especialista do assunto em questo.
14

Conceitos e Aplicaes

Cuidado especial deve ser tomado nas concluses em situaes em que


a amostra coletada no seja extrada exatamente da populao de interesse
(populao alvo) e sim de uma populao mais acessvel, conveniente, nesse
caso chamada de populao amostrada.
Veja os exemplos:
1) Suponha que um socilogo deseja entender os hbitos religiosos dos
homens com 20 anos de idade em certo pas. Ele extrai uma amostra
de homens com 20 anos de uma grande cidade para estudar. Neste
caso, tem-se:
Populao alvo homens com 20 anos do pas;
Populao amostrada homens com 20 anos da cidade grande
amostrada.
Ento, ele pode fazer concluses vlidas apenas para os elementos da
grande cidade (populao amostrada), mas pode usar o seu julgamento pessoal para extrapolar os resultados obtidos para a populao alvo, com muita
cautela e certas reservas.
2) Um pesquisador agrcola est estudando a produo de certa variedade de trigo em determinado estado. Ele tem a sua disposio 5
fazendas espalhadas pelo estado, nas quais ele pode plantar trigo e
observar a produo. A populao amostrada, neste caso, consiste das
produes de trigo nas 5 fazendas, enquanto a populao alvo consiste das produes de trigo em todas as fazendas do estado.

Tcnicas de Amostragem
Existem dois tipos de amostragem: probabilstica e no-probabilstica.
A amostragem ser probabilstica se todos os elementos da populao
tiverem probabilidade conhecida, e diferente de zero, de pertencer amostra. Caso contrrio, a amostragem ser no-probabilstica. Uma amostragem
no-probabilstica obtida quando o acesso a informaes no to simples ou os recursos forem limitados, assim o pesquisador faz uso de dados
que esto mais a seu alcance, a chamada amostragem por convenincia.
Por exemplo, podemos realizar um estudo para avaliar a qualidade do
servio prestado por uma operadora de telefonia celular. Caso tenhamos re15

Mtodos Quantitativos Estatsticos

cursos suficientes, podemos realizar um plano amostral bastante abrangente de toda a populao de usurios do servio. Isso caracteriza uma amostra
probabilstica. Mas se por restries oramentrias ou de outra ordem no
for possvel obter uma amostra to numerosa ou ela seja de difcil acesso,
podemos restringir nossa amostra a uma pequena regio delimitada de fcil
acesso e de custo reduzido, usurios de uma cidade, por exemplo. Essa
uma amostragem no-probabilstica.
Segundo essa definio, a amostragem probabilstica implica sorteio com
regras bem determinadas, cuja realizao s ser possvel se a populao for
finita e totalmente acessvel.
A utilizao de uma amostragem probabilstica a melhor recomendao que se deve fazer no sentido de garantir a representatividade da amostra, pois o acaso o nico responsvel por eventuais discrepncias entre
populao e amostra. No caso em que a nica possibilidade o uso de uma
amostragem no-probabilstica, deve-se ter a conscincia de que as concluses apresentam alguma limitao.
A seguir, apresentamos algumas das principais tcnicas de amostragem
probabilstica.

Amostragem aleatria simples


Esse tipo de amostragem, tambm chamada simples ao acaso, casual, elementar, randmica etc., equivalente a um sorteio lotrico. Nela, todos os
elementos da populao tm igual probabilidade de pertencer amostra e
todas as possveis amostras tm igual probabilidade de ocorrer.
Sendo N o nmero de elementos da populao e n o nmero de elementos da amostra, cada elemento da populao tem probabilidade n N
de pertencer amostra. A essa relao n N denomina-se frao de amostragem. Por outro lado, sendo a amostragem feita sem reposio, supoN
mos, em geral, que existem possveis amostras, todas igualmente
n
provveis.
Na prtica, a amostragem simples ao acaso pode ser realizada numerando-se a populao de 1 a N, sorteando-se, a seguir, por meio de um dispositivo aleatrio qualquer, n nmeros dessa seqncia, os quais correspondem
aos elementos sorteados para a amostra.
16

Conceitos e Aplicaes

Amostragem sistemtica
Quando os elementos da populao se apresentam ordenados e a retirada dos elementos da amostra feita periodicamente, temos uma amostragem sistemtica.
Assim, por exemplo, em uma linha de produo, podemos, a cada
dez itens produzidos, retirar um para pertencer a uma amostra da produo diria. Assim, teremos uma produo total de N itens e extrairemos uma amostra de tamanho n, selecionando as unidades a cada dez
itens. Para seleo do primeiro item, um nmero entre 1 e 10 sorteado
aleatoriamente e os demais subseqentes so obtidos sistematicamente. Por exemplo, as unidades sorteadas podero ser 8, 18, 28, 38, 48, e
assim por diante, repetindo-se o procedimento at o N-simo item. Denomina-se k = N/n como a razo de amostragem. No exemplo, portanto,
k = 10.
A principal vantagem da amostragem sistemtica est na grande
facilidade na determinao dos elementos da amostra. O perigo em
adot-la est na possibilidade da existncia de ciclos de variao da
varivel de interesse, especialmente se o perodo desses ciclos coincidir
com o perodo de retirada dos elementos da amostra. Por outro lado,
se a ordem dos elementos na populao no tiver qualquer relacionamento com a varivel de interesse, ento a amostragem sistemtica tem
efeitos equivalentes amostragem casual simples, podendo ser utilizada sem restries.

Amostragem estratificada
Muitas vezes, a populao se divide em subpopulaes ou estratos, sendo
razovel supor que, de estrato para estrato, a varivel de interesse apresente
um comportamento substancialmente diverso, tendo, entretanto, comportamento razoavelmente homogneo dentro de cada estrato. Em tais casos,
se o sorteio dos elementos da amostra for realizado sem se levar em considerao a existncia dos estratos, pode acontecer que os diversos estratos
no sejam convenientemente representados na amostra, a qual seria mais
influenciada pelas caractersticas da varivel nos estratos mais favorecidos
pelo sorteio. Evidentemente, a tendncia ocorrncia de tal fato ser tanto
maior quanto menor o tamanho da amostra. Para evitar isso, pode-se adotar
uma amostragem estratificada.
17

Mtodos Quantitativos Estatsticos

Constituem exemplos em que uma amostragem estratificada parece


ser recomendvel, a estratificao de uma cidade em bairros, quando se
deseja investigar alguma varivel relacionada renda familiar; a estratificao de uma populao humana em homens e mulheres, ou por faixas
etrias; a estratificao de uma populao de estudantes conforme suas
especificaes etc.

Amostragem por conglomerados


Neste mtodo, em vez da seleo de unidades da populao, so selecionados conglomerados dessas unidades. Essa uma alternativa para quando
no existe o cadastro das unidades amostrais. Se a unidade de interesse, por
exemplo, for um aluno, pode ser que no exista um cadastro de alunos, mas
sim de escolas. Portanto, podem ser selecionadas escolas e nelas investigar
todos os alunos. Esse tipo de amostragem induz indiretamente aleatoriedade na seleo das unidades que formam a amostra e tem a grande vantagem
de facilitar a coleta de dados.

Amostragem de convenincia (no-probabilstica)


A amostra de convenincia formada por elementos que o pesquisador
reuniu simplesmente porque dispunha deles. Ento, se o professor tomar os
alunos de sua classe como amostra de toda a escola, est usando uma amostra de convenincia.
Os estatsticos tm muitas restries ao uso de amostras de convenincia.
Mesmo assim, as amostras de convenincia so comuns na rea de sade,
em que se fazem pesquisas com pacientes de uma s clnica ou de um s
hospital. Mais ainda, as amostras de convenincia constituem, muitas vezes,
a nica maneira de estudar determinado problema.
De qualquer forma, o pesquisador que utiliza amostras de convenincia
precisa de muito senso crtico. Os dados podem ser tendenciosos. Por exemplo, para estimar a probabilidade de morte por desidratao no se deve
recorrer aos dados de um hospital. Como s so internados os casos graves,
possvel que a mortalidade entre pacientes internados seja maior do que
entre pacientes no-internados. Conseqentemente, a amostra de convenincia constituda, nesse exemplo, por pacientes internados no hospital, seria
tendenciosa.
18

Conceitos e Aplicaes

Finalmente, o pesquisador que trabalha com amostras sempre pretende


fazer inferncia, isto , estender os resultados da amostra para toda a populao. Ento muito importante caracterizar bem a amostra e estender os
resultados obtidos na amostra apenas para a populao da qual a amostra
proveio.
Exemplos de planos amostrais:
Exemplo 1: Uma agncia de seguros tem N = 100 clientes comerciantes. Seu
proprietrio pretende entrevistar uma amostra de 10 clientes para levantar
possibilidades de melhora no atendimento. Escolha uma amostra aleatria
simples de tamanho n = 10.
Primeiro passo atribuir a cada cliente um nmero entre 1 e 100.
Segundo passo recorrer a um gerador de nmeros aleatrios de uma
planilha eletrnica para selecionar aleatoriamente 10 nmeros de 1 a
100. Os clientes identificados pelos nmeros selecionados compem
a amostra.
Exemplo 2: Uma operadora de celular tem um arquivo com N = 5 000
fichas de usurios de um servio e selecionada, sistematicamente, uma
amostra de n = 1 000 usurios. Nesse caso, a frao de amostragem igual
a n/N = 1 000/5 000 e assim podemos definir k = 5 (N/n = 5 000/1 000 = 5),
ou seja, teremos 5 elementos na populao para cada elemento selecionado na amostra. Na amostragem sistemtica, somente o ponto de partida sorteado dentre as 5 primeiras fichas do arquivo. Admitamos que foi
sorteado o nmero 3, ento a amostra ser formada pelas fichas 3 , 8, 13 ,
18, . . . , 4993 , 4998.

Tipos de variveis
A caracterstica de interesse de estudo (varivel) pode ser dividida em
duas categorias: qualitativas e quantitativas.
As variveis qualitativas apresentam como possveis realizaes uma qualidade (ou atributo) do indivduo pesquisado. Dentre as variveis qualitativas, ainda podemos fazer uma distino entre dois tipos: varivel qualitativa
categrica ou nominal, para a qual no existe nenhuma ordenao nas possveis realizaes, e varivel qualitativa ordinal, para a qual existe certa ordem
nos possveis resultados.
19

Mtodos Quantitativos Estatsticos

Exemplo 1: (varivel qualitativa nominal)


Populao: moradores de uma cidade.
Varivel: cor dos olhos (pretos, castanhos, azuis e verdes).
Exemplo 2: (varivel qualitativa ordinal)
Populao: moradores de um condomnio.
Varivel: grau de instruo (fundamental, mdio e superior).
As variveis quantitativas apresentam, como possveis realizaes,
nmeros resultantes de uma contagem ou mensurao. Dentre as variveis quantitativas, ainda podemos fazer uma distino entre dois tipos:
variveis quantitativas discretas, cujos possveis valores formam um conjunto finito ou enumervel de nmeros e que resultam, freqentemente,
de uma contagem; e variveis quantitativas contnuas, cujos possveis valores formam um intervalo de nmeros reais e que resultam, normalmente, de uma mensurao.
Exemplo 3: (varivel quantitativa discreta)
Populao: hospitais de uma determinada cidade.
Varivel: nmero de leitos (0, 1, 2, ...).
Exemplo 4: (varivel quantitativa contnua)
Populao: moradores de uma determinada cidade.
Varivel: estatura dos indivduos.

Ampliando seus conhecimentos


(MATTAR, 2001)

Pesquisa de mercado
Em qualquer pesquisa, principalmente naquelas em que o nmero investigado muito grande, torna-se quase impossvel ou invivel pesquisar todos
20

Conceitos e Aplicaes

os elementos da populao. necessrio retirar uma amostra representativa


para ser analisada.
A amostra em pesquisa de mercado um fator bsico para validar ou no
um procedimento adotado. Vale dizer que esse item bastante complexo
porque, dependendo do universo a ser analisado e dos objetivos do estudo,
teremos que usar um critrio amostral.
Uma vez definida a populao a ser investigada, precisamos fazer a seleo do mtodo de escolha da amostra e definio do tamanho da amostra. Esse mtodo vai depender do conhecimento da delimitao do universo a ser pesquisado, de suas caractersticas e ordenamento, pois nem toda
amostra permite que os resultados sejam inferidos para o universo como
um todo.

Etapas de uma pesquisa


Abaixo apresentado um esquema contendo as etapas para realizao de
uma pesquisa.
Etapas

Fases

1. Reconhecimento e formulao Formulao, determinao ou constatao de um prodo problema de pesquisa


blema de pesquisa
2. Planejamento da pesquisa

a) Definio dos objetivos


b) Estabelecimento das questes de pesquisa.
c) Estabelecimento das necessidades de dados e definio das variveis e de seus indicadores
d) Determinao das fontes de dados
e) Determinao da metodologia
f ) Planejamento da organizao, cronograma e oramento
g) Redao do projeto de pesquisa e/ou de proposta
de pesquisa

3. Execuo da pesquisa

a) Preparao de campo
b) Campo
c) Processamento e anlise

4. Comunicao dos resultados

a) Elaborao e entrega dos relatrios de pesquisa


b) Preparao e apresentao oral dos resultados

21

Mtodos Quantitativos Estatsticos

Reconhecimento e formulao do problema de pesquisa: consiste na correta identificao do problema de pesquisa que se pretenda resolver e que
possa efetivamente receber contribuies valiosas da pesquisa de marketing
em sua soluo.
Planejamento da pesquisa: compreende a definio dos objetivos da pesquisa
e de toda sua operacionalizao. Fontes de dados, mtodo de pesquisa, forma
de coleta, construo e teste do instrumento de coleta, plano amostral, procedimentos de campo, plano de processamento e anlise, definio dos recursos
necessrios, definio de cronograma das etapas.
Execuo da pesquisa: coleta de dados e processamento, anlise e interpretao.
Comunicao dos resultados: compreende a apresentao escrita e oral
das principais descobertas da pesquisa, com sugestes e recomendaes.

Atividades de aplicao
Abaixo seguem alguns exemplos de aplicao da estatstica. Em cada um
deles so definidas algumas estratgias. Verifique se cada uma das estratgias adequada para se atingir maior confiabilidade nos resultados atingidos. Em seguida, justifique sua resposta, apontando os motivos que levaro
ou no a uma confiabilidade nos resultados.
1. Uma firma que est se preparando para lanar um novo produto precisa conhecer as preferncias dos consumidores no mercado de interesse. Para isso, o que se deve fazer:
a) Uma pesquisa de mercado realizando entrevistas a domiclio com
uma amostra de pessoas escolhidas aleatoriamente que se adaptam ao perfil da populao de interesse.
b) Realizar entrevistas com todos os potenciais consumidores do referido
produto nos estabelecimentos comerciais em que este ser vendido.
c) Promover uma discusso em grupo sobre o novo produto, moderada por um especialista, com cerca de 20 donas de casa em que
ser feita uma degustao e posteriormente uma avaliao.
22

Conceitos e Aplicaes

2. Antes de lanar um novo remdio no mercado, necessrio fazer vrias experincias para garantir que o produto seguro e eficiente. Para
isso, o que se deve fazer:
a) Tomar dois grupos de pacientes to semelhantes quanto possvel,
e dar o remdio a um grupo, mas no ao outro, e verificar se os
resultados no grupo tratado so melhores.
b) Deve-se realizar um perodo de testes do novo medicamento, disponibilizando algumas amostras grtis em farmcias para serem
avaliadas pela populao durante certo perodo de tempo.
c) Tomar um grupo de pacientes de determinado hospital e sem que
sejam informados, administrar a nova droga, comparando-se os
resultados obtidos com os resultados anteriores, obtidos com a
droga antiga.
3. Se estamos recebendo um grande lote de mercadorias de um fornecedor, teremos de certificar-nos de que o produto realmente satisfaz os
requisitos de qualidade acordados. Para isso devemos:
a) Fazer avaliaes da qualidade de todo o lote mediante inspeo
de alguns itens escolhidos aleatoriamente, em quantidade que
seja representativa da populao.
b) Liberar uma parte do lote para comrcio. Caso exista algum problema constatado pelos consumidores, deve-se devolver o lote
inteiro ao fornecedor.
c) Avaliar a qualidade de aproximadamente 10% dos itens do lote.
Caso no sejam encontrados itens defeituosos, liberar o lote todo
ao comrcio.

23

Anlise Exploratria de Dados

Introduo
As tcnicas estatsticas clssicas foram concebidas para serem as melhores possveis, desde que se assuma um conjunto de pressupostos rgidos.
Sabe-se que essas tcnicas se comportam deficientemente medida que
este conjunto de pressupostos no satisfeito.
As tcnicas de Anlise Exploratria de Dados contribuem para aumentar
a eficcia da anlise estatstica, de forma fcil e rpida. Geralmente, devem
ser aplicadas antes da formulao das hipteses estatsticas para identificar
padres e caractersticas dos dados.
Uma amostra um subconjunto de uma populao, necessariamente
finito, pois todos os seus elementos so examinados para efeito da realizao do estudo estatstico desejado.
intuitivo que, quanto maior a amostra, mais precisas e confiveis devem
ser as indues realizadas sobre a populao. Levando esse raciocnio ao extremo, concluiramos que os resultados mais perfeitos seriam obtidos pelo
exame completo de toda a populao, ao qual costuma-se denominar Censo
ou Recenseamento. Mas essa concluso, na prtica, muitas vezes no se verifica. O emprego de amostras pode ser feito de tal modo que se obtenham
resultados confiveis.
Ocorre, em realidade, que diversas razes levam, em geral, necessidade
de recorrer-se apenas aos elementos de uma amostra. Entre ela, podemos
citar o custo do levantamento de dados e o tempo necessrio para realiz-lo,
especialmente se a populao for muito grande.
O objetivo da Estatstica Descritiva resumir as principais caractersticas
de um conjunto de dados por meio de tabelas, grficos e resumos numricos. A anlise estatstica deve ser extremamente cuidadosa ao escolher a
forma adequada de resumir os dados. Apresentamos na tabela a seguir um
resumo dos procedimentos da Estatstica Descritiva.

Mtodos Quantitativos Estatsticos

Tabela 1: Principais tcnicas de estatstica descritiva

Tabelas de Freqncia

Apropriada para resumir um grande conjunto de dados, agrupando informaes em categorias. As classes que compem a
tabela podem ser categorias pontuais ou por intervalos.

Grficos

Possibilita uma visualizao das principais caractersticas da


amostra. Alguns exemplos de grficos so: diagrama de barras, diagrama em setores, histograma, box-plot, ramo-e-folhas,
diagrama de disperso.

Medidas Descritivas

Por meio de medidas ou resumos numricos podemos levantar importantes informaes sobre o conjunto de dados, tais
como: a tendncia central, variabilidade, simetria, valores extremos, valores discrepantes, etc.

Um dos objetivos da Estatstica sintetizar os valores que uma ou mais


variveis podem assumir, para que tenhamos uma viso global da variao
dessa ou dessas variveis. Isso se consegue, inicialmente, apresentando esses
valores em tabelas e grficos, que fornecem rpidas e seguras informaes a
respeito das variveis.

Tabelas
Uma tabela resume os dados por meio do uso de linhas e colunas, nas
quais so inseridos os nmeros. Uma tabela compe-se de:
Corpo conjunto de linhas e colunas que contm informaes sobre
a varivel em estudo.
Cabealho parte superior da tabela que especifica o contedo das
colunas.
Coluna Indicadora parte da tabela que especifica o contedo das
linhas.
Linhas retas imaginrias que facilitam a leitura, no sentido horizontal, de dados que se inscrevem nos seus cruzamentos com as colunas.
Casas ou Clulas espao destinado a um s nmero.
Ttulo conjunto de informaes (as mais completas possveis) localizado no topo da tabela.
Existem ainda, elementos complementares que so: a fonte, as notas e
as chamadas, os quais devem ser colocados no rodap da tabela.
26

Anlise Exploratria de Dados

As notas devem esclarecer aspectos relevantes do levantamento dos


dados ou da apurao. As chamadas do esclarecimentos sobre os dados.
Devem ser feitas de algarismos arbicos escritos entre parnteses, e colocados direita da coluna.
Exemplo:
Tabela 2: Populao brasileira residente, com 15 anos e mais, segundo o estado
conjugal, de acordo com o censo demogrfico de 1980.

Fonte: IBGE, 1988.

Estado conjugal

Freqncia

Percentual

solteiros1

25 146 484

34,18

casados2

41 974 865

57,06

separados

1 816 046

2,47

vivos

3 616 046

4,92

sem declarao

1 005 234

1,37

Esto computados, como


separados, os desquitados e
os divorciados.
1
Exclusive as pessoas solteiras, vivendo em unio consensual estvel.
2
Inclusive 4 939 528 pessoas
vivendo em unio consensual estvel.

Observao:
Nas casas ou clulas devemos colocar:
um trao horizontal ( __ ) quando o valor zero, no s quanto a natureza das coisas, como quanto ao resultado do inqurito;
trs pontos ( ... ) quando no temos dados;
ponto de interrogao ( ? ) quando temos dvida quanto a exatido de
um valor;
zero ( 0 ) quando o valor muito pequeno para ser expresso pela unidade utilizada.

Tabelas de contingncia
Muitas vezes, os elementos da amostra ou da populao so classificados
de acordo com dois fatores. Os dados devem ser apresentados em tabelas de
contingncia, isto , em tabelas de dupla entrada, cada entrada relativa a um
dos fatores.
Vejamos um exemplo de uma tabela que apresenta o nmero de nascidos vivos registrados. Note que eles esto classificados segundo dois fatores:
o ano do registro e o sexo.
27

Mtodos Quantitativos Estatsticos

Tabela 3: Nascidos vivos registrados segundo o ano de registro e o sexo

Fonte: IBGE, 1988.

Ano de
registro

Sexo

Total

Masculino

Feminino

1984

1 307 758

1 251 280

2 559 038

1985

1 339 059

1 280 545

2 619 604

1986

1 418 050

1 361 203

2 779 253

Tabelas de distribuio de freqncias


As tabelas com grande nmero de dados so cansativas e no do ao
pesquisador viso rpida e global do fenmeno. Para isso, preciso que os
dados estejam organizados em uma tabela de distribuio de freqncias.
As distribuies de freqncias so representaes nas quais os valores da
varivel se apresentam em correspondncia com suas repeties, evitando assim, que eles apaream mais de uma vez na tabela, poupando, deste
modo, espao, tempo e, muitas vezes, dinheiro.
Como exemplo, considere os dados da tabela abaixo:
Tabela 4: Rendimento mensal de fundos de investimento

28

2,522

3,200

1,900

4,100

4,600

3,400

2,720

3,720

3,600

2,400

1,720

3,400

3,125

2,800

3,200

2,700

2,750

1,570

2,250

2,900

3,300

2,450

4,200

3,800

3,220

2,950

2,900

3,400

2,100

2,700

3,000

2,480

2,500

2,400

4,450

2,900

3,725

3,800

3,600

3,120

2,900

3,700

2,890

2,500

2,500

3,400

2,920

2,120

3,110

3,550

2,300

3,200

2,720

3,150

3,520

3,000

2,950

2,700

2,900

2,400

3,100

4,100

3,000

3,150

2,000

3,450

3,200

3,200

3,750

2,800

2,720

3,120

2,780

3,450

3,150

2,700

2,480

2,120

3,155

3,100

3,200

3,300

3,900

2,450

2,150

3,150

2,500

3,200

2,500

2,700

3,300

2,800

2,900

3,200

2,480

3,250

2,900

3,200

2,800

2,450

Anlise Exploratria de Dados

A partir desses dados desorganizados, chamados de dados brutos (dados


tal como foram coletados, sem nenhum tipo de organizao), difcil chegar
a alguma concluso a respeito da varivel em estudo (rendimento mensal de
fundos de investimento). Obteramos alguma informao a mais se arranjssemos os dados segundo uma certa organizao como na sua ordem de magnitude, ou seja, se arrumssemos os dados na forma de um rol (lista em que os
valores so dispostos em uma determinada ordem, crescente ou decrescente).
Mas isso somente indicaria a amplitude de variao dos dados (isto , o menor
e o maior valor observado) e a ordem que os itens individuais ocupariam na
ordenao.
Para se ter uma idia geral sobre o rendimento mensal dos fundos de investimento, o pesquisador no apresenta os rendimentos observados, mas o
nmero de observaes por faixas de rendimento. O procedimento mais satisfatrio arranjar os dados em uma distribuio de freqncias, de modo a mostrar a freqncia com que ocorrem certas faixas de rendimento especificados.
O primeiro passo definir o nmero de faixas de rendimento que recebem, tecnicamente, o nome de classes. Embora existam frmulas apropriadas para esse fim, em geral, no se conhecem regras precisas que levem a
uma deciso final, a qual depende, em parte, de um julgamento pessoal. Se
o nmero de classes for muito pequeno, comum acontecer que caractersticas importantes da varivel fiquem ocultas. Por outro lado, um nmero
elevado de classes fornece maior nmero de detalhes, mas resume de forma
menos precisa os dados. Em geral, convm estabelecer de 5 a 20 classes.
Uma das frmulas usadas a seguinte:
k = 1 + 3,3. log(n),
em que n o nmero total de dados. O nmero de classes um inteiro prximo de k.
importante deixar claro, aqui, que o resultado obtido por essa frmula pode ser usado como referncia, mas cabe ao pesquisador determinar o
nmero de classes que pretende organizar.
Para entender como se aplica a frmula, considere os dados da tabela de
dados anterior. Como n = 100, tem-se que
k = 1 + 3,3. log(100) m k = 1+3,3.2 m k = 7,6
ou seja, para aqueles dados, deve-se construir 7 ou 8 classes.
29

Mtodos Quantitativos Estatsticos

Definido o nmero de classes a ser utilizado, deve-se determinar o intervalo de


classe (hi), ou seja, a amplitude de cada classe. Um caminho para isso dado por:
hi = AT ,
k
em que AT a amplitude total dos dados, isto , a diferena entre o maior e
o menor valor observado.
importante deixar claro que o resultado obtido por essa frmula ser
usado como referncia, mas cabe ao pesquisador determinar o intervalo de
classe exato.
Nos dados da tabela anterior, pode-se observar que o menor valor 1,570
e o maior 4,600, tem-se assim, AT = 3,03. Considerando k = 7, tem-se que
hi = 0,43. Dessa forma, podem ento ser definidas classes de 1,5 a 2,0, de 2,0 a 2,5,
e assim por diante. Logo, cada classe cobre um intervalo de 0,5, ou seja, cada intervalo de classe de 0,5. mais fcil trabalhar com intervalos de classe iguais.
A distribuio de freqncias para os dados da tabela apresenta-se dessa
forma:
classe

freqncia

1,5 | 2,0

2,0 | 2,5

16

2,5 | 3,0

31

3,0 | 3,5

34

3,5 | 4,0

11

4,0 | 4,5

4,5 | 5,0

Denomina-se limites de classe os extremos dos intervalos de cada classe.


O menor nmero o limite inferior (li) e o maior o limite superior (Li).
Em uma distribuio de freqncia tambm podem ser apresentados os
pontos mdios de classe (Pmi). O ponto mdio dado pela soma dos limites
de classe, dividida por 2. Desse modo, uma tabela tpica de distribuio de
freqncias tem trs colunas, dadas por:
Classe
(i)

30

Ponto Mdio
(Pmi)

Freqncia
(fi)

Freqncia
relativa (fri)

Freqncia
acumulada (Fi)

1,5 | 2,0

1,75

0,03

2,0 | 2,5

2,25

16

0,16

19

2,5 | 3,0

2,75

31

0,31

50

Anlise Exploratria de Dados

Classe
(i)

Ponto Mdio
(Pmi)

Freqncia
(fi)

Freqncia
relativa (fri)

Freqncia
acumulada (Fi)

3,0 | 3,5

3,25

34

0,34

84

3,5 | 4,0

3,75

11

0,11

95

4,0 | 4,5

4,25

0,04

99

4,5 | 5,0

4,75

0,01

100

As tabelas de distribuio de freqncias mostram a distribuio da varivel, mas perdem em exatido. Isso porque todos os dados passam a ser
representados pelo ponto mdio da classe a que pertencem. Por exemplo, a
tabela acima mostra que 16 fundos de investimento apresentam rendimento com ponto mdio igual a 2,25, mas no d informao exata sobre o rendimento de cada um deles.
Em uma tabela de distribuio de freqncias, pode-se ter, ainda, outros
dois tipos de freqncias: freqncia relativa e freqncia acumulada. A freqncia relativa obtida dividindo-se a freqncia simples pelo nmero
total de observaes e a freqncia acumulada obtida somando-se as freqncias simples das classes anteriores.

Grficos
A representao grfica dos dados tem por finalidade representar os resultados obtidos, permitindo chegar-se a concluses sobre a evoluo do
fenmeno ou sobre como se relacionam seus valores. A escolha do grfico
mais apropriado fica a critrio do analista. Contudo, os elementos simplicidade, clareza e veracidade devem ser considerados quando da elaborao
de um grfico.
Os principais tipos de grficos usados na representao estatstica so:
Histograma e grfico de barras apresentam os resultados por meio
do desenho de diversas barras, em que cada categoria da varivel em
estudo associada uma barra e o comprimento da barra diz respeito
ao resultado indicado para a categoria. Pode ser usada tambm em
representaes envolvendo diversas variveis, acompanhadas em diversos momentos de tempo.
Grficos de linha til quando se deseja representar a evoluo de
diversas variveis ao longo de vrios momentos de tempo. um gr31

Mtodos Quantitativos Estatsticos

fico de duas dimenses formado por dois eixos perpendiculares, em


que o tempo representado no eixo horizontal X e os resultados das
variveis no eixo vertical Y.
Grfico em setores (pizza) composto de um crculo repartido
em n fatias, com tamanhos proporcionais ocorrncia da varivel
nos resultados da pesquisa, representando um certo instante no
tempo. Sugere-se que seja aplicado em variveis com no mximo
8 categorias.

Descrio grfica das variveis qualitativas


No caso das variveis qualitativas, a representao grfica bem simples,
basta computar as freqncias ou freqncias relativas das diversas classificaes existentes e elaborar a seguir um grfico conveniente. Esse grfico
pode ser um grfico de barras, um grfico de setores, ou outro qualquer tipo
de grfico equivalente.
Exemplo: Este exemplo foi extrado do Anurio da Bolsa de Valores de So
Paulo, edio 1970. Nessa publicao, na parte Fundos Decreto Lei 157,
existe uma tabela que fornece a distribuio dos fundos relativos a cada
regio econmica do Brasil. Essa tabela reproduzida aqui.
Tabela 5: Distribuio de fundos relativos s regies do Brasil

Estado

Nmero de estabelecimentos
Unidades

So Paulo

38

28,1

Rio de Janeiro

30

22,2

Rio Grande do Sul

35

25,9

Minas Gerais

15

11,1

Demais Estados

17

12,7

135

100

Total

As duas colunas referentes ao nmero de estabelecimentos contm, respectivamente, as freqncias e as freqncias relativas, dadas em porcentagem, com que os fundos existem nos estados considerados. A varivel qualitativa considerada no presente exemplo dada pelas regies consideradas.
Esses dados podem ser representados de diversas formas, conforme podemos notar a partir das figuras a seguir:
32

Anlise Exploratria de Dados

Figura 1: Grfico de barras

Figura 2: Grfico de setores

Descrio grfica das variveis quantitativas discretas


No caso das variveis quantitativas discretas, a representao grfica ,
normalmente, feita por meio de um grfico de barras. A diferena para com
o caso anterior est na varivel quantitativa e seus valores numricos podem
ser representados num eixo de abscissas, o que facilita a representao. Note
que, aqui, existe uma enumerao natural dos valores da varivel, o que no
havia no caso das variveis qualitativas.
Exemplo: Vamos representar graficamente o conjunto dado a seguir, constitudo hipoteticamente por vinte valores da varivel nmero de defeitos por
unidade, obtidos a partir de aparelhos retirados de uma linha de montagem.
33

Mtodos Quantitativos Estatsticos

Sejam os seguintes valores obtidos:


2

Usando a letra x para designar os diferentes valores da varivel, podemos


construir a distribuio de freqncias dada a seguir, a partir da qual elaboramos o grfico de barras correspondentes.
Distribuio de freqncias
xi

fi

fri

0,20

0,35

0,25

0,10

0,05

0,05

20

Figura 3: Grfico de barras

Descrio grfica das variveis quantitativas


contnuas classes de freqncias
No caso das variveis quantitativas contnuas, o procedimento at a obteno da tabela de freqncias pode ser anlogo ao visto no caso anterior.
34

Anlise Exploratria de Dados

Entretanto o diagrama de barras no mais se presta correta representao da distribuio de freqncias, devido natureza contnua da
varivel.
Os grficos apropriados para representar esse tipo de varivel so: o histograma, o polgono de freqncias e a Ogiva de Galton.
Histograma Para construir um histograma, primeiro se traa o sistema de eixos cartesianos. Depois, se os intervalos de classe so iguais,
traam-se barras retangulares com bases iguais, correspondentes aos
intervalos de classe, e com alturas determinadas pelas respectivas freqncias.

Figura 4: Histograma

Polgono de freqncias Para se construir um polgono de freqncias, primeiro se traa o sistema de eixos cartesianos. Depois, se
os intervalos de classes so iguais, marcam-se pontos com abscissas
iguais aos pontos mdios de classe e ordenadas iguais s respectivas
freqncias. Se os intervalos de classe so diferentes, marcam-se pontos com abscissas iguais aos pontos mdios de classe e ordenadas
iguais s respectivas densidades de freqncia relativa. Para fechar o
polgono, unem-se os extremos da figura com o eixo horizontal, nos
pontos de abscissas iguais aos pontos mdios de uma classe imediatamente inferior primeira, e de uma classe imediatamente superior
ltima.

35

Mtodos Quantitativos Estatsticos

Figura 5: Polgono de freqtncias

Ogiva de Galton Esse um grfico representativo de uma distribuio de freqncias acumuladas, seja ela crescente ou decrescente.
Consta de uma poligonal ascendente. No eixo horizontal, colocamse as extremidades de cada classe e no eixo vertical as freqncias
acumuladas. Ao contrrio do polgono de freqncias, a ogiva utiliza
os pontos extremos das classes, e no os pontos mdios.

Figura 6: Ogiva de Galton Crescente

36

Anlise Exploratria de Dados

Figura 7: Grfico de linhas

Ramo-e-folhas
Este tipo de grfico um modo simples de organizar os dados e que
pode facilitar a construo de tabelas de freqncias. Podem ser usados para
dados quantitativos (numricos), mas no qualitativos (por exemplo, dados
nominais ou por categorias).
Veja o seguinte exemplo: considere que se tenha anotado 20 valores relativos ao tempo de uma atividade, e que se deseja organiz-los em um diagrama de ramos e folhas. Os valores so os seguintes:
23 - 31 - 42 - 45 - 51 - 52 - 57 - 61 - 61 - 64 - 68 - 69 - 73 - 75 - 75 - 82 - 89 - 94 118 - 120
1o. passo: determina-se o menor e o maior valor; neste exemplo, 23 minutos
o menor valor e 120 minutos o maior.
2o. passo: constroem-se categorias nas quais se deseja agrupar os dados a
partir da menor dezena at a maior. Nas colunas, o 2 representa a dezena
dos 20 minutos e o 12 representa a dezena dos 120 minutos.

37

Mtodos Quantitativos Estatsticos

Figura 8. Passo inicial da construo de um grfico de ramos e folhas


Dezenas de minutos
2|
3|
4|
5|
6|
7|
8|
9|
10|
11|
12|

3o. passo: retorna-se aos dados originais e simplesmente coloca-se as unidades referentes s dezenas em cada uma das linhas, ordenadamente. Por
exemplo, o nmero 23 representado por um 3 colocado na linha 2, e 118
pode ser representado na linha 11 por um 8. Uma vez feito para todos os
valores, o diagrama fica com o aspecto da Figura 9.
Figura 9. Diagrama de ramos e folhas
Dezenas de minutos

Minutos

2|

3|

4|

25

5|

127

6|

11489

7|

355

8|

29

9|

10|
11|

12|

Analisando a figura acima podemos observar que o tempo de atividade


mais freqente est na faixa dos 60 minutos, apresentando-se em seguida,
as faixas de 50 e 70 minutos. Se analisssemos a figura acima como se fosse
um histograma poderamos considerar que a figura apresenta certa simetria,
observa-se as maiores freqncias ao redor da mdia.
38

Anlise Exploratria de Dados

Ampliando seus conhecimentos


(HOAGLIN. D. C.; MOSTELLER. F. & TUKEY.J. W., 1983)

Uma tcnica de anlise exploratria de dados: o box-plot


O Box-Whisker-Plot, mais conhecido por Box-Plot, uma representao grfica de valores, conhecidos como resumo de 5 nmeros. Essa tcnica nos revela
uma boa parte da estrutura dos dados, por meio da visualizao de caractersticas como:
tendncia central;
variabilidade;
assimetria;
outliers (valores discrepantes).
O chamado resumo de cinco nmeros constitudo pelo: mnimo (menor
valor), primeiro quartil (Q1), a Mediana (Md), o terceiro quartil (Q3) e o mximo
(maior valor).

Figura 1: Box-plot

39

Mtodos Quantitativos Estatsticos

A parte central do grfico composta de uma caixa com o nvel superior


dado por Q3 e o nvel inferior por Q1. O tamanho da caixa uma medida de
disperso chamada amplitude interquartllica (AIQ = Q3 - Q1).
A mediana, medida de tendncia central, representada por um trao no
interior da caixa e segmentos de reta so colocados da caixa at os valores
mximo e mnimo.
Detalharemos agora o procedimento para construo de um Box-plot para
um conjunto de dados, por meio de um exemplo relacionado com o Censo
dos EUA de 1960:
Tabela 6: Censo dos EUA (1960) Populao das principais capitais

Cidade

Populao
(1 000 hab)

Cidade

Populao
(1 000 hab)

New York

778

Washington

76

Chicago

355

St. Louis

75

Los Angeles

248

Milwaukee

74

Filadlfia

184

San Francisco

74

Detroit

167

Boston

70

Baltimore

94

Dallas

68

Houston

94

New Orleans

63

Cleveland

88

Para a construo do box-plot necessrio que sejam calculadas as medidas que compem o resumo de 5 nmeros:
A Mediana (88) neste exemplo, a varivel em estudo tem n mpar; a mediana ser o valor da varivel que ocupa o posto de ordem n +1 , ou seja, o oitavo valor.
2
n
Os Quartis Q1 e Q3 (74 e 184) devemos contar valores para se
4
3
n
para determinar Q3.
achar Q1 e
4
Os valores Mnimo e o Mximo (63 e 778)
1

Outliers so elementos ou
valores que distorcem a mdia
da distribuio pois encontram-se distantes dos demais
valores da distribuio.
2
O outlier mnimo 74 1,5 .110
= -91. O outlier mximo 184
+1,5.110 = 349

as barreiras de outliers1 so obtidas por meio do clculo:


3
3
2
dF (1)
e Q3 + dF (2)2
2
2
em que dF = Q3 Q1
Q1

40

Anlise Exploratria de Dados

Isso significa que os valores inferiores a (1) ou superiores a (2) so considerados outliers ou valores discrepantes. O Box-plot nos apresenta a localizao
(mediana), a disperso (comprimento da caixa), a assimetria (pela distncia
dos quartis mediana) e os outliers (Chicago e Nova Iorque):

Figura 2: Box-plot Populao das principais capitais (1960)

Observe que a barreira inferior de outliers 91. Entretanto, na representao grfica, substituiremos esse valor pelo mnimo observado (63). As expresses utilizadas para as barreiras de outliers so de certo modo arbitrrias,
mas a experincia dos autores dessa tcnica indicou que esta definio serve
perfeitamente para a identificao de valores que requerem uma ateno
especial.

Atividades de aplicao
Resolva as questes abaixo utilizando as definies vistas neste captulo.
1. Uma firma de consultoria investiga as instituies financeiras que mais
lucraram durante a gesto do governo atual. Do cadastro de instituies selecionou-se uma amostra aleatria de 20 para realizao de
uma auditoria completa. Coletou-se ento o lucro de cada uma no perodo especificado. Os dados seguem abaixo (em US$ milhes):
58

62

55

80

74

51

60

79

50

65

68

72

54

81

65

119

82

75

86

61

Voc como analista da empresa de consultoria deve elaborar um relatrio sucinto, realizando uma descrio do conjunto de dados acima.
41

Mtodos Quantitativos Estatsticos

2. A tabela de dados brutos abaixo apresenta os pesos ( kg ) relativos de


uma turma de alunos:
96

72

56

59

57

52

50

75

85

64

68

51

66

64

56

59

76

49

54

64

58

80

61

74

55

72

78

78

69

52

63

50

75

53

52

70

53

80

67

48

90

76

94

52

51

82

61

64

78

76

Utilizando os dados complete a tabela de distribuio de freqncia


abaixo:
i

Pesos (kg) Tabulao

48 | 53

53 | 58

58 | 63

63 | 68

68 | 73

73 | 78

78 | 83

83 | 88

88 | 93

10

93 | 98

TOTAL

fi

Pmi

fri

De posse da tabela de distribuio de freqncia completa, determine:


a) O limite superior da 2a. classe.
b) O limite inferior da 5a. classe.
c) A amplitude do intervalo da 3a. classe.
d) A amplitude total.
e) O ponto mdio da 4a. classe.
f) A freqncia da 1a. classe.
g) O nmero de alunos com peso abaixo de 68kg.
h) O nmero de alunos com peso igual ou acima de 73kg.
42

Anlise Exploratria de Dados

i) O nmero de alunos com peso maior ou igual a 58 e menor que 78.


j) A freqncia percentual da ltima classe.
k) A percentagem de alunos com peso inferior a 58kg.
l) A percentagem de alunos com peso superior ou igual a 78kg.
3. Faa no mesmo grfico um esboo das trs distribuies descritas
abaixo:
a) Distribuio das alturas dos brasileiros adultos.
b) Distribuio das alturas dos suecos adultos.
c) Distribuio das alturas dos japoneses adultos.
4. Para estudar o desempenho de duas companhias corretoras de aes,
selecionou-se de cada uma delas amostras aleatrias das aes negociadas. Para cada ao selecionada, computou-se a porcentagem de
lucro apresentada durante um perodo fixado de tempo. Os dados esto a seguir, representados pelos diagramas de ramos-e-folhas:
Corretora A

Corretora B

3|8

5 | 0012234

4 | 588

5 | 5556677788999

5 | 44555569

6|1

6 | 00245
7|0

Que tipo de informao revelam esses dados ?

43

Medidas de Posio e Variabilidade

Introduo
Para melhor compreender o comportamento do conjunto de dados,
importante que conceituemos o que chamamos de medidas descritivas. Existem duas categorias de medidas descritivas:
Medidas de posio ou tendncia central servem para dar uma
idia acerca dos valores mdios da varivel em estudo.
Medidas de disperso servem para dar uma idia acerca da maior
ou menor concentrao dos valores da varivel em estudo.
Observao: Quando as medidas de tendncia central e as de disperso so
calculadas sobre a populao, elas so chamadas de parmetros. Por outro
lado, quando essas medidas so obtidas considerando-se uma amostra retirada de uma populao, elas so chamadas de estatsticas.

Medidas de Posio ou de Tendncia Central


Como o prprio nome indica, a medida de tendncia central visa determinar o centro da distribuio dos dados observados. Essa determinao depende, portanto, da definio de centro da distribuio.
Todavia, o centro de um conjunto de valores no est definido e pode ser interpretado de vrias maneiras, cada uma das quais descreve uma propriedade
da distribuio, que pode ser razoavelmente chamada de tendncia central.
As principais medidas de tendncia central so:
mdia aritmtica;
mediana;
moda.

Mdia Aritmtica (X)


Dada uma distribuio de freqncias, chama-se de mdia aritmtica
desta distribuio, e representa-se por X, a soma de todos os valores da
varivel, dividida pela freqncia total (nmero total de observaes).

Mtodos Quantitativos Estatsticos

Por exemplo, considerando-se os dados da tabela abaixo, tem-se:


Tabela 1: Pacientes com hipertenso, segundo a idade em anos completos.

Idade
Nmero de
em anos
indivduos
completos (freqncia - fi)

Idade
Nmero de
em anos
indivduos
completos (freqncia - fi)

xi . fi

22

22

47

27

27

48

48

30

30

50

100

31

31

53

159

34

34

56

56

35

105

58

58

36

180

59

118

40

40

60

60

42

42

61

61

43

43

63

63

44

88

65

195

45

45

67

134

46

92
Total

X=

xi . fi

40

47

1 878

22+27+30+31++65+65+65+67+67
40
22.1+ 27.1+ 30.1+ 31.1++65.3+ 67.2

1878
= 46, 95 anos = 46 anos
40
40
e 11 meses, ou seja, a idade mdia dos hipertensos igual a 46 anos e 11 meses.
X=

De maneira geral, ao se ter a seguinte distribuio de freqncias:


Valores xi da varivel X

Freqncia (fi)

Produto (xi . fi)

x1

f1

x1 . f1

x2

f2

x2 . f2

fk

xk
Total

a mdia aritmtica ser:


46

fi

i=1

xk . fk
k

x i .fi

i=1

Medidas de Posio e Variabilidade


k

xi . fi

xi . fi

X = i=1k
= i=1
n
fi
i=1

Se os dados da tabela anterior estivessem agrupados em classes, como


mostra a tabela a seguir, seria preciso, antes de calcular X, determinar os
pontos mdios das classes.
Tabela 2. Pacientes com hipertenso, segundo a idade em anos completos.
Classes

Ponto Mdio (Pmi)

Nmero de
pacientes (fi)

20 | 30

25

50

30 | 40

35

11

385

Produto Pmi . fi

40 | 50

45

10

450

50 | 60

55

495

60 | 70

65

520

40

1 900

Total

X=

1 900
40

= 47,5 anos = 47 anos e 6 meses ou 47 anos (completos).

De maneira geral, ao se ter uma distribuio de freqncias por classes, a


mdia aritmtica ser:
k

PMi . fi

X = i=1

fi

PMi . fi

i=1

i=1

Observao: a idade mdia calculada a partir dos dados da tabela 2 no


coincide com a idade mdia verdadeira dos 40 hipertensos, calculada a partir
dos dados da Tabela 1. Isso se deve ao fato de ter sido suposto, para o clculo
da mdia aritmtica com os dados da Tabela 2, que todos os indivduos de
uma determinada classe tinham a idade dada pelo ponto mdio da classe, o
que, em geral, no corresponde realidade.
Da prpria definio segue que a mdia aritmtica de uma distribuio
de freqncias:
da natureza da varivel considerada;
sempre existe, e quando calculada admite um nico valor;
no pode ser calculada quando os dados estiverem agrupados em
classes e a primeira ou ltima classe tiverem extremos indefinidos;
sofre muito a influncia de valores aberrantes.
47

Mtodos Quantitativos Estatsticos

Mediana (Md)
A mediana uma quantidade que, como a mdia, tambm procura caracterizar o centro da distribuio de freqncias, porm, de acordo com
um critrio diferente. Ela calculada com base na ordem dos valores que
formam o conjunto de dados.
A mediana a realizao que ocupa a posio central da srie de observaes quando estas esto ordenadas segundo suas grandezas (crescente
ou decrescente).
Dada uma distribuio de freqncias e supondo-se os valores da varivel dispostos em ordem crescente ou decrescente de magnitude, h dois
casos a considerar:
1o. A varivel em estudo tem n mpar. Neste caso a mediana ser o valor da
n+1
varivel que ocupa o posto de ordem
.
2
Exemplo: Admita-se que o nmero de demisses em certa empresa nos
meses de janeiro dos ltimos 7 anos, ordenando, fosse:
24, 37, 41, 52, 65, 68 e 82.
A mediana neste caso vale: Md = 52 demisses, valor que ocupa o posto
7 +1
= 4o.
2
2o. A varivel tem n par. Neste caso, no existe na graduatria um valor que
ocupe o seu centro, isto , a mediana indeterminada, pois qualquer
n n+ 2
valor compreendido entre os valores que ocupam os postos e
2
2
pode ser considerado o centro da graduatria.
O problema resolvido por uma conveno que consiste em tomar como
mediana da graduatria a mdia aritmtica dos valores que ocupam os
n n+ 2
.
postos e
2
2
Exemplo: Considerando o nmero de demisses de certa empresa nos meses
de janeiro dos 6 ltimos anos e ordenando-se os valores, tem-se:
24, 37, 41, 65, 68 e 82
A mediana ser, por conveno:
41+ 65
= 53 demisses,
2
48

Medidas de Posio e Variabilidade

ou seja, a mdia aritmtica dos valores que ocupam os postos 6 = 3o. e 6 + 2 = 4o. .
2
2
A mediana tem interpretao muito simples quando as observaes
so diferentes umas das outras, pois ela tal que o nmero de observaes com valores maiores a ela igual ao nmero de observaes com
valores menores do que ela. Todavia, quando h valores repetidos, a sua
interpretao no to simples. Assim, admitindo, como resultado da
aplicao de um teste a um conjunto de alunos, as seguintes notas:
2, 2, 5, 5, 5, 5, 7, 7, 8, 8,
a mediana seria a nota 5 e, no entanto, s existem 2 notas menores e 4 maiores do que 5. Essa desvantagem, unida ao fato da inadequacidade da sua
expresso para o manejo matemtico, faz com que, em anlises estatsticas,
a mediana seja menos utilizada do que a mdia aritmtica. No entanto, existem casos nos quais o emprego da mediana faz-se necessrio; assim:
Nos casos em que existem valores aberrantes, pois tm influncia muito menor sobre a mediana do que sobre a mdia aritmtica.
Exemplo: Se na graduatria
24, 37, 41, 52, 65, 68, 82
em lugar de 82 houvesse 1000 casos, isto ,
24, 37, 41, 52, 65, 68, 1000,
o valor da mediana manter-se-ia o mesmo 52 demisses, ao contrrio do que
acontece com a mdia aritmtica, que passaria de 52,7 demisses a 183,85
demisses.
Nos casos em que na distribuio em estudo a primeira ou ltima classe (ou ambas) tenham, respectivamente, o extremo inferior e o extremo superior indefinidos e o centro da distribuio no esteja contido
em nenhuma delas. Nessas condies possvel determinar a mediana, o que no acontece com a mdia aritmtica.
Observao: Alm da mediana que, por definio, divide um conjunto ordenado de valores em duas partes iguais, existem outras medidas que dividem
o conjunto de valores em 4, 10 e 100 partes iguais. Conquanto essas medidas
no sejam de tendncia central, elas podem ser consideradas medidas de
posio, uma vez que fornecem pontos esquerda ou direita, dos quais
49

Mtodos Quantitativos Estatsticos

so encontradas fraes da freqncia total. Estas medidas so os quartis, os


decis e os percentis.
Os trs quartis so definidos como os valores que dividem o conjunto ordenado de valores em 4 partes iguais; 25% dos valores so menores do que
o primeiro quartil, que denotado por Q1; 50% dos valores caem abaixo do
segundo quartil, Q2 (mediana), e 75% dos valores so menores que o terceiro
quartil, Q3. O clculo de um quartil se faz de maneira anloga ao clculo de
n
uma mediana, com a diferena de que necessrio contar valores para se
4
3n
achar Q1 e
para determinar Q3.
4
Os decis so valores que dividem o conjunto ordenado de valores em 10
partes iguais, isto , 10% das observaes caem abaixo do primeiro decil,
denotado por D1 etc.
Os percentis so valores que dividem o conjunto ordenado de valores em
100 partes iguais, isto , 1% das observaes caem abaixo do primeiro percentil, denotado por C1 etc.

Moda (Mo)
Dada uma distribuio de freqncias, a moda o valor da varivel que
corresponde freqncia mxima, isto , o valor mais freqente.
Conquanto o seu resultado seja o mais simples possvel, a moda nem
sempre existe e nem sempre nica. Quando numa distribuio existem
poucos valores da varivel, muito freqentemente no h valores repetidos,
com o que nenhum deles satisfaz condio de moda.
Exemplo: Se os pesos (em quilos) correspondentes a 8 adultos so:
82, 65, 59, 74, 60, 67, 71 e 73,
essas 8 medidas no definem uma moda.
Por outro lado, a distribuio dos pesos de 13 adultos:
63, 67, 70, 69, 81, 57, 63, 73, 68, 71, 71, 71, 83,
possui duas modas, a saber: Mo = 63 quilos e Mo = 71 quilos. Nesse caso, a
distribuio chamada de bimodal. Ser unimodal no caso de apresentar
uma s moda e multimodal se apresentar vrias modas.
50

Medidas de Posio e Variabilidade

Observao: interessante notar que a moda pode ser usada como uma
medida de tendncia central tambm no caso de a varivel considerada ser
de natureza qualitativa. De fato, quando se diz que as faltas ao trabalho constituram a causa principal de demisso em certo ano, isso quer dizer que na
distribuio das demisses, segundo a causa, a falta ao trabalho correspondeu a um maior nmero de demisses, isto , a rubrica falta ao trabalho a
moda da distribuio.
Em se tratando de distribuies de classes de valores, a moda pertence
classe de maior freqncia. Resta, todavia, saber qual o valor da classe deve
ser escolhido para representar a moda. Relativamente simples, o clculo da
moda, neste caso, dado por:
Mo = L + t .

f1
f1 + f2

onde L o extremo inferior da classe em que est a moda, t a amplitude


desta classe, f1 e f2 so, respectivamente, as freqncias das classes adjacentes classe da moda.
Exemplo: Na tabela 2, a moda est na classe 30 | 40, logo,
L = 30
t = 10
f1 = 2
f2 = 10
e, portanto,
Mo = 30 + 10.

2
10
= 31,667
= 30 +
2 +10
6

= 31 anos e 8 meses = 31 anos completos.


Observao: o valor da moda, em se tratando de classes, fortemente afetado pela maneira como as classes so construdas.

Medidas de Disperso
Sejam A e B duas localidades com mesma renda mdia por habitante.
Esse simples fato de igualdade das duas mdias permite concluir que a situao econmica das duas localidades a mesma? Evidentemente que no,
pois essa igualdade poderia existir mesmo que A fosse perfeitamente esta51

Mtodos Quantitativos Estatsticos

bilizada no sentido de que todos os seus habitantes tivessem praticamente


a mesma renda (igual renda mdia por habitante) e B tivesse uns poucos
indivduos com rendas extraordinariamente altas e a maioria com rendas
baixas. Esse simples exemplo basta para mostrar que o conhecimento da
intensidade dos valores assumidos por uma grandeza, isto , da posio de
uma distribuio, no suficiente para a sua completa caracterizao.
O fato de em A todos os indivduos terem a mesma renda pode ser traduzido
dizendo que em A as rendas no variam de indivduo para indivduo, ou ainda
que a distribuio das rendas no apresenta variabilidade. Analogamente, o
fato de em B alguns indivduos terem rendas muito elevadas em detrimento
da grande maioria, que tem rendas muito baixas, pode ser expresso dizendose que em B as rendas variam ou que a distribuio das rendas apresentam
variabilidade.
Nesse sentido, vrias medidas foram propostas para indicar o quanto os
dados se apresentam dispersos em torno da regio central. Caracterizam,
portanto, o grau de variao (variabilidade) existente no conjunto de dados.

Amplitude de Variao (R)


Uma das medidas mais elementares a amplitude, a qual definida como
sendo a diferena entre o maior e o menor valor do conjunto de dados:
R = xmax xmin
Evidentemente que essa medida muito precria, pois a amplitude no
d informe algum a respeito da maneira pela qual os valores se distribuem
entre os valores extremos.
Por exemplo, nos dois conjuntos de valores:
4, 6, 6, 6, 8
4, 5, 6, 7, 8
a amplitude de variao a mesma e igual a 4 (8 4 = 4) e, no entanto, as disperses desses dois conjuntos so diferentes. Alm disso, os valores mnimo
e mximo, estando muito sujeitos s flutuaes de amostras, fazem com que
a amplitude da distribuio fique igualmente sujeita a tais flutuaes. Assim,
por exemplo, se existir uma srie de indivduos cujos pesos oscilam entre 50

52

Medidas de Posio e Variabilidade

e 80 quilos, o aparecimento de um nico indivduo que pese 110 quilos far


a amplitude passar de 30 a 60.

Amplitude Semiquartil ou Desvio Quartil


Esta medida, que se baseia na posio ocupada pelos 50% centrais da
distribuio, definida por:
Q = Q3 Q1 ,
2
onde Q1 e Q3 so o primeiro e o terceiro quartis.
Essa medida, conquanto se baseia tambm em apenas dois valores, apresenta sobre a anterior a vantagem de no estar to sujeita s flutuaes
amostrais quanto os valores extremos.
A disperso poderia ser medida pela amplitude quartil, ou seja, Q3 Q1;
todavia, a diviso por 2 d a distncia mdia pela qual os quartis se desviam
da mediana.

Desvio Padro e Varincia


Para medir a disperso de uma distribuio faz-se uso da diferena entre
cada valor e a mdia aritmtica da distribuio.
As medidas que se baseiam na diferena entre cada valor e a mdia aritmtica da distribuio partem do fato de que a mdia aritmtica o valor
que todas as observaes teriam se fossem iguais entre si. Uma vez introduzida a noo de variabilidade, essa propriedade poderia ser expressa dizendo-se que a mdia aritmtica o valor que todas as observaes teriam
se no houvesse variabilidade. Da resulta que o desvio (diferena) de cada
observao para a mdia aritmtica representa o quanto as observaes
variam com relao mdia. Nada mais natural, portanto, que definir uma
medida de variabilidade baseada nesses desvios. A primeira idia foi calcular a mdia aritmtica desses desvios.
Se, por exemplo, as observaes tivessem os valores:
1, 2, 3, 4, 5
cuja mdia X = 3, calcular-se-iam as diferenas, como mostrado na tabela 3,

53

Mtodos Quantitativos Estatsticos

Tabela 3: Diferenas entre as observaes e a respectiva mdia

xi

(xi - X )

1 3 = 2

2 3 = 1

33=0

43=1

53=2

Total

3 (xi X ) = 0

0
obtendo-se para a medida de variabilidade = 0, a qual indica que na distri5
buio acima no existe variabilidade.
fcil ver que esta medida, que se apia num argumento lgico, leva
a uma informao errnea sobre a variabilidade. A explicao deste fato
reside na propriedade da mdia aritmtica, que diz que a soma de todos
os desvios das observaes para a mdia aritmtica nula. Por esta razo, a
simples mdia aritmtica dos desvios no pode ser usada como medida de
variabilidade.
Ao se atentar para o fato de que a soma dos desvios sempre igual a
zero, porque a cada desvio positivo corresponde um desvio igual, mas de
sinal contrrio, compreende-se que a situao pode ser contornada calculando-se a mdia dos mdulos dos desvios ou apenas dos quadrados dos
desvios.
No primeiro caso ter-se-ia:
xi

(xi X )

| xi X |

1 3 = 2

2 3 = 1

33=0

43=1

53=2

Total

3 (xi

X) = 0

e a medida de variabilidade seria


xi X
n
54

6
= 1,2
5

Medidas de Posio e Variabilidade

a qual recebe o nome de desvio mdio (DM), que por motivos de ordem terica, quase no usado.
No segundo caso, ter-se-ia:
xi

(xi X )

1 3 = 2

2 3 = 1

33=0

43=1

53=2

Total

3 (xi X ) = 0

10

(xi X )2

e a medida de variabilidade seria

xi X
n

2 = 10
5

=2

a qual recebe o nome de varincia (Var ou S2).


Entretanto, quando calculamos a varincia de um grupo de observaes, este grupo provm de um outro ainda maior, que inclui todos os
possveis valores da varivel X. Em geral, desejamos que a varincia do
nosso grupo seja uma estimativa da varincia de todas as observaes de
onde os nossos dados particulares foram retirados. Pode ser mostrado que,
quando a varincia do grupo maior definida como feito acima, a varincia
do grupo derivado deveria ser definida como
S = Var(X) =
2

xi X
n 1

com o objetivo de obter uma boa estimativa da varincia do grupo mais


amplo. Por isso usaremos n - 1 em lugar de n como divisor.
A unidade em que a varincia expressa ser a unidade original ao quadrado e, para comparar a unidade da nossa medida de variabilidade com a
dos dados originais, extramos a raiz quadrada,
S=

xi X
n 1

a qual recebe o nome de desvio-padro. O desvio-padro expresso nas


55

Mtodos Quantitativos Estatsticos

mesmas unidades dos dados originais. Tanto o desvio-padro (S) quanto a


varincia (S2 ou Var(X)), so usados como medidas de variabilidade. Conforme a finalidade, conveniente o uso de uma ou de outra.
De maneira geral, ao se ter uma distribuio de freqncias, utiliza-se
para o clculo da varincia a seguinte expresso:

xi X . fi
n 1
onde, os xis podem ser os valores individuais da varivel X ou os pontos
mdios das classes.
Como exemplo, tome a Tabela 2, lembrando-se que a mdia aritmtica foi
igual a 47,5 anos:
Valores xi de X
(anos)

Ponto mdio
da classe

fi

(xi X )

(xi X )2

(xi X )2 . fi

20 | 30

25

-22,5

506,25

1 012,50

30 | 40

35

11

-12,5

156,25

1 718,75

40 | 50

45

10

-2,5

6,25

62,50

50 | 60

55

7,5

56,25

506,25

60 | 70

65

17,5

306,25

2 450,00

Total

40

S =
2

xi X

S=

n 1

. fi =

5 750,00

5 750
39

= 147,44 anos

S2 = 147, 44 = 12,14 anos.

Consideraes finais sobre o desvio-padro:


O desvio-padro uma quantidade essencialmente positiva.
O desvio-padro s nulo se todos os valores da distribuio forem
iguais entre si, isto , se no houver variabilidade.
O desvio-padro da mesma natureza da varivel X e depende tambm de sua magnitude.

Coeficiente de Variao
Para comparar duas distribuies quanto variabilidade, deve-se usar
medidas de variabilidade relativa, tais como o coeficiente de variao de
56

Medidas de Posio e Variabilidade

Pearson (CV), o qual dado por: CV =


magnitude da varivel X.

S
o qual independe da natureza e
X

Esse resultado multiplicado por 100, para que o coeficiente de variao


seja dado em porcentagem.
Exemplo: Para duas emisses de aes ordinrias da indstria eletrnica, o
preo mdio dirio, no fechamento dos negcios, durante um perodo de
um ms, para as aes A, foi de R$ 150,00 com um desvio padro de R$ 5,00.
Para as aes B, o preo mdio foi de R$ 50,00 com um desvio padro de
R$ 3,00. Em termos de comparao absoluta, a variabilidade do preo das
aes A foi maior, devido ao desvio padro maior. Mas em relao ao nvel de
preo, devem ser comparados os respectivos coeficientes de variao:
CV(A) =

SA
5
=
= 0, 033 ou 3,3%
X A 150

CV(B) =

SB
3
=
= 0, 060 ou 6%
XB 50

Portanto, relativamente ao nvel mdio de preos das aes, podemos


concluir que o preo da ao B quase duas vezes mais varivel que o preo
da ao A.

Ampliando seus conhecimentos


(MATTAR, 1996)

importante que um pesquisador que v realizar uma coleta de informaes tenha noes bsicas sobre os diferentes tipos e aplicaes de metodologias de pesquisa. Veremos aqui algumas definies que iro facilitar a diferenciao entre os diferentes tipos de pesquisa:
Projeto de Pesquisa: Cada planejamento de pesquisa realizado cientificamente tem um padro especfico para controlar a coleta de dados. Este
padro chama-se projeto de pesquisa. Sua funo assegurar que os dados
exigidos sejam coletados de maneira precisa e econmica.
Os projetos de pesquisa podem ser agrupados nas seguintes categorias:
exploratria, descritiva e experimental.
57

Mtodos Quantitativos Estatsticos

a) Pesquisa Exploratria Visa fornecer ao pesquisador um maior conhecimento do tema ou problema de interesse. apropriada para os primeiros estgios da investigao quando a familiaridade, o conhecimento e a
compreenso do fenmeno por parte do pesquisador so insuficientes.
O projeto formal est quase ausente nos estudos exploratrios. A imaginao do explorador o fator principal. Entretanto, h 4 linhas de ataque que
podem ajudar na descoberta de hipteses valiosas:
Levantamentos em fontes secundrias Levantamentos bibliogrficos, levantamentos documentais, levantamentos de estatsticas e levantamentos de pesquisas realizadas.
Levantamentos de experincias Muitas pessoas, em funo
da posio estratgica que ocupam numa empresa ou instituio, acumulam experincias e conhecimentos sobre um tema ou
problema em estudo. Informaes so levantadas a partir de entrevistas individuais ou em grupo, realizadas com especialistas ou
conhecedores do assunto.
Estudo de casos selecionados Exame de registros existentes,
observao da ocorrncia do fato, entrevistas etc. (cases). Casos
que reflitam mudanas, comportamentos ou desempenhos extremados, dificuldades superadas etc.
Observao informal A utilizao do processo de observao
do dia-a-dia em pesquisa exploratria deve ser informal e dirigida, ou seja, centrada unicamente em observar objetos, comportamentos e fatos de interesse para o problema em estudo.
b) Pesquisa Descritiva Destinam-se a descrever as caractersticas de determinada situao. Ao contrrio do que o ocorre nas pesquisas exploratrias, a elaborao das questes de pesquisa pressupe profundo
conhecimento do problema a ser estudado. Os estudos descritivos no
devem ser encarados como simples coletas de dados, embora infelizmente, muitos deles no so mais do que isso. Para ser valioso, o estudo descritivo precisa coletar dados com um objetivo definido e deve incluir uma
interpretao por um investigador. Pode ser dividido nos seguintes tipos:
Levantamentos de campo (mtodo estatstico) Procuram-se
dados representativos da populao de interesse, a amostra ge58

Medidas de Posio e Variabilidade

rada a partir de mtodos estatsticos, tem-se total controle sobre


a representatividade dos dados obtidos em relao populao.
Permite a gerao de tabelas sumarizadas por categorias e a generalizao dos resultados para toda a populao. No entanto no
permite aprofundar os tpicos da pesquisa pela prpria caracterstica de gerar sumrios estatsticos. dispendioso em termos de
tempo e isto requer grandes conhecimentos tcnicos.
Estudos de campo o mtodo de estudo intensivo de um nmero relativamente pequeno de casos. Por exemplo, um investigador
pode fazer um estudo detalhado entre alguns consumidores, alguns varejistas, alguns sistemas de controle de vendas, ou alguns
mercados de cidades pequenas. Deve ser considerado como um
estgio diferente no desenvolvimento de um mtodo cientfico
comum. Servem para gerao de hipteses em vez de teste de hipteses, recomendados quando h grande homogeneidade entre
os elementos da populao. Entretanto somente investigam aps
a ocorrncia do fato e geralmente no podem ser generalizados.
c) Pesquisa Experimental Este mtodo pode ser resumido na expresso: Se ocorrer isto, provavelmente ocorrer aquilo. Neste caso,
ocorre uma observao da relao de causalidade entre vrias possveis causas e o efeito pressuposto.
y = f (x, z, t, v, s,...)
onde y, a varivel dependente e as demais so independentes. Ganha-se maior confiabilidade nos resultados, medida que repetidas
experimentaes com as mesmas variveis independentes e dependente indicam sempre as mesmas concluses.

Atividades de aplicao
1. Em uma determinada empresa X, a mdia dos salrios 10 000 unidades monetrias e o 3o. quartil 5 000. Pergunta-se:
a) Se voc se apresentasse como candidato a esta empresa e se o seu
salrio fosse escolhido ao acaso entre todos os possveis salrios, o
que seria mais provvel: ganhar mais ou menos que 5 000 unidades monetrias? Justifique!
59

Mtodos Quantitativos Estatsticos

b) Suponha que na empresa Y a mdia dos salrios 7 000 unidades monetrias e a varincia praticamente zero, e l o seu salrio
tambm seria escolhido ao acaso. Em qual empresa voc se apresentaria para procurar emprego X ou Y? Justifique!
2. A mdia aritmtica a razo entre:
a) o nmero de valores e o somatrio deles.
b) o somatrio dos valores e o nmero deles.
c) os valores extremos.
d) os dois valores centrais.
e) nenhuma das alternativas anteriores.
3. Na srie 60, 90, 80, 60, 50 a moda :
a) 50
b) 60
c) 66
d) 90
e) nenhuma das anteriores.
4. A estatstica que possui o mesmo nmero de valores abaixo e acima
dela :
a) a moda.
b) a mdia.
c) a mediana.
d) o elemento mediano.
e) nenhuma das anteriores.
5. A soma dos desvios entre cada valor e a mdia sempre ser:
a) positiva.
b) negativa.

60

Medidas de Posio e Variabilidade

c) zero.
d) diferente de zero.
e) nenhuma das alternativas anteriores.
6. Considere a srie 6, 5, 7, 8, 9 o valor 7 ser:
a) a mdia e a moda.
b) a mdia e a mediana.
c) a mediana e a moda.
d) a mdia, a mediana e a moda.
e) nenhuma das alternativas anteriores.
7. Quando desejamos verificar a questo de uma prova que apresentou
maior nmero de erros, utilizamos:
a) moda.
b) mdia.
c) mediana.
d) qualquer das anteriores.
e) nenhuma das anteriores.
8. O coeficiente de variao uma estatstica denotada pela razo entre:
a) desvio padro e mdia.
b) mdia e desvio padro.
c) mediana e amplitude interquartlica.
d) desvio padro e moda.
e) nenhuma das alternativas anteriores.

61

Mtodos Quantitativos Estatsticos

9. Uma prova de estatstica foi aplicada para duas turmas. Os resultados


seguem abaixo
Turma 1: mdia = 5 e desvio padro = 2,5
Turma 2: mdia = 4 e desvio padro = 2,0
Com esses resultados podemos afirmar:
a) a turma 2 apresentou maior disperso absoluta.
b) a disperso relativa igual disperso absoluta.
c) tanto a disperso absoluta quanto a relativa so maiores para a
turma 2.
d) a disperso absoluta da turma 1 maior que a turma 2, mas em
termos relativos as duas turmas no diferem quanto ao grau de
disperso das notas.
e) nenhuma das alternativas anteriores.
10. Uma empresa possui dois serventes recebendo salrios de R$ 250,00
cada um, quatro auxiliares recebendo R$ 600,00 cada um, um chefe
com salrio de R$1.000,00 e trs tcnicos recebendo R$ 2.200,00 cada
um. O salrio mdio ser:
a) R$ 1.050,00
b) R$ 1.012,50
c) R$ 405,00
d) R$ 245,00
e) nenhuma das alternativas anteriores.
11. O clculo da varincia supe o conhecimento da:
a) mdia.
b) mediana.
c) moda.
d) ponto mdio.
e) desvio padro.
62

Medidas de Posio e Variabilidade

12. Em uma determinada distribuio de valores iguais, o desvio padro :


a) negativo.
b) positivo.
c) a unidade.
d) zero.
e) nenhuma das alternativas anteriores.
13. Dados os conjuntos de nmeros X = {2, 1, 0, 1, 2} e Y = {220, 225, 230,
235, 240}, podemos afirmar, de acordo com as propriedades do desvio
padro, que o desvio padro de Y ser igual:
a) ao desvio padro de X.
b) ao desvio padro de X, multiplicado pela constante 5.
c) ao desvio padro de X, multiplicado pela constante 5, e esse
resultado somado a 230.
d) ao desvio padro de A mais a constante 230.
e) nenhuma das alternativas anteriores.

63

Introduo Probabilidade

Introduo
O termo probabilidade usado de modo muito amplo, em nosso cotidiano para sugerir um certo grau de incerteza sobre o que ocorreu no passado,
o que ocorrer no futuro ou o que est ocorrendo no presente.
A idia de probabilidade desempenha papel importante em muitas situaes que envolvem uma tomada de deciso. Suponhamos que um empresrio deseja lanar um novo produto no mercado. Ele precisar de informaes
sobre a probabilidade de sucesso para seu novo produto. Os modelos probabilsticos podem ser teis em diversas reas do conhecimento humano,
tais como: Administrao de empresas, Economia, Psicologia, Biologia e
outros ramos da cincia.
Probabilidade uma coleo ampla de conceitos que trata dos estudos
de experimentos aleatrios ou no-determinsticos. Probabilidade pode significar tambm, um nmero num intervalo de 0 a 1, o qual fornece um significado ao avaliar a ocorrncia de um resultado num experimento.
Em resumo, probabilidade responsvel pelos estudos do comportamento dos fenmenos aleatrios.

Conceitos iniciais de probabilidade


Experimento Aleatrio (E)
Define-se por experimento qualquer processo de observao. Um experimento dito aleatrio quando seus resultados esto sujeitos unicamente
ao acaso. Quando o experimento executado repetidas vezes, os resultados
surgiro seguindo uma configurao definida ou regularidade. essa regularidade que torna possvel construir um modelo matemtico preciso com o
qual se analisar o processo.

Mtodos Quantitativos Estatsticos

Exemplos:
E1 : Em uma linha de produo, fabrique peas em srie e conte o nmero
de peas defeituosas produzidas em um perodo de 24 horas.
E2 : Uma asa de avio fixada por um grande nmero de rebites. Conte o
nmero de rebites defeituosos.
E3 : Uma lmpada fabricada. Em seguida ensaiada quanto durao
da vida, pela colocao em um soquete e anotao do tempo decorrido (em
horas) at queimar.
E4 : A resistncia trao de uma barra metlica medida.
O que os experimentos acima tm em comum? Os seguintes traos so
pertinentes caracterizao de um experimento aleatrio:
cada experimento poder ser repetido indefinidamente sob condies essencialmente inalteradas;
muito embora no sejamos capazes de afirmar que um resultado particular ocorrer, seremos capazes de descrever o conjunto de todos os
possveis resultados do experimento;
quando o experimento for repetido um grande nmero de vezes, uma
configurao definida ou regularidade surgir.

Espao Amostral (S)


Para cada experimento aleatrio E, define-se o espao amostral como o conjunto formado por todos os resultados possveis do experimento aleatrio E.
Exemplos:
Vamos considerar cada um dos experimentos acima e descrever um espao
amostral para cada um deles. O espao amostral Si se referir ao experimento Ei.
S1 = { 0, 1, 2, ..., N }, onde N o nmero mximo que pode ser produzido
em 24 horas.
S2 = { 0, 1, 2, ..., M }, onde M o nmero de rebites empregados.
S3 = { t / t r0 }
S4 = { T / T r 0 }
66

Introduo probabilidade

Observao: Os elementos de S so chamados de pontos amostrais e, so


denotados por w1, w2, ... S.

Evento Aleatrio
Evento aleatrio (relativo a um particular espao amostral S, associado a
um experimento E) simplesmente um conjunto (combinaes) de resultados possveis.
Na terminologia dos conjuntos, um evento um subconjunto do espao
amostral S.
Dizemos que um determinado evento A ocorre se ocorrer um de seus
resultados.
Exemplo: Novamente, referimo-nos aos experimentos relacionados anteriormente: Ai se referir ao evento associado ao experimento Ei.
A1: todas a peas so perfeitas, isto , { 0 }
A2: mais do que dois rebites eram defeituosos, isto , { 3, 4, 5, ..., M}
A3: a lmpada queima em menos de 3 horas, isto , {t / t < 3}

Operaes com eventos


Estas operaes podem ser graficamente representadas pelo diagrama
de Venn por meio da definio da regio sombreada.
Como evento um conjunto, poderemos realizar com elas as operaes
costumeiras de unio e interseo de conjuntos. Assim:

S
A

S
B

B
A

S
A

67

Mtodos Quantitativos Estatsticos

1o. diagrama: Unio: A B


A B o evento que ocorre se A ocorrer ou B ocorrer ou ambos ocorrerem. a unio de todos os elementos que pertencem a A, pertencem a B ou
a ambos os conjuntos.
2o. diagrama: Interseo: A B
A B o evento que ocorre se A e B ocorrerem. A B corresponde
rea escura do 2o diagrama de Venn, ou seja, um novo conjunto formado
por todos os elementos que pertencem a A e pertencem a B.
3o. diagrama: Excluso: A B =
Eventos mutuamente exclusivos: Dois eventos A e B so denominados mutuamente exclusivos se eles no puderem ocorrer simultaneamente, isto , A interseo B = conjunto vazio. A e B so mutuamente exclusivos, pois a ocorrncia
de A impede a ocorrncia de B e vice-versa: A B = ( evento impossvel).
4o. diagrama: Negao ou evento complementar
A negao do evento A, denotada por Ac ou A (l-se A complementar
ou A trao) o evento que ocorre se A no ocorrer. Corresponde rea em
branco do 4o. diagrama.
Exemplo:
1) Seja E o experimento sortear um carto dentre dez cartes numerados de 1 a 10. Sejam os eventos A = {sair o nmero 7} e B = {sair um
nmero par}, ento, se S = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, teremos: A = {7}
e B = { 2, 4, 6, 8, 10}.
A B = {7, 2, 4, 6, 8, 10};

A B = ( evento impossvel)

O complementar de A ser: A = {1, 2, 3, 4, 5, 6, 8, 9, 10};


O complementar de B ser: B = { 1, 3, 5, 7, 9}
A A = S;

A A = ; B B = S ; B B = .

Eventos independentes
Dois eventos so considerados independentes quando a ocorrncia de
um deles no depende ou no est vinculada com a ocorrncia do outro, isto
, P(A/B) = P(A) e P(B/A) = P(B).
68

Introduo probabilidade

Logo, a regra do produto para dois eventos independentes dada por:


P (A B) = P(A) . P(B)
Exemplo: Aplicao da regra do produto.
1) Retira-se, com reposio, duas cartas de um baralho com 52 cartas.
Qual a probabilidade de que ambas sejam de paus?
Soluo: Sejam os eventos:
A = {a primeira carta de paus}
B = {a segunda carta de paus}
Como A e B so independentes, a ocorrncia de um deles no est vinculada ocorrncia do outro.
Observem que, como o processo com reposio, o espao amostral no
alterado para o clculo da probabilidade do outro evento. Assim:
P (A B) = P(A). P(B) = 13/52 . 13/52 = 1/16 = 0,0625 6,25%

Definies de Probabilidades e Propriedades


Definio frequentista
Repetindo-se n vezes o experimento aleatrio E, o evento A ocorrer um
m
certo nmero m de vezes; m a freqncia com que o evento A ocorre e
n
a freqncia relativa de ocorrncia de A.
Chama-se de probabilidade de ocorrncia do evento A, e denota-se por
P(A), o valor limite da freqncia relativa para uma seqncia muito grande
de realizaes do experimento (n), ou seja,
m
P(A) = lim
nm d n
Suponha, como exemplo, que uma locadora de automveis queira estimar a probabilidade de ocorrerem acidentes com a sua frota de veculos.
Para isso, verifica quantos acidentes ocorreram em determinadas vezes que
os automveis da frota foram locados. Pode ser que se n (nmero de locaes) for igual a 10, a probabilidade de ocorrerem acidentes no represente
69

Mtodos Quantitativos Estatsticos

fielmente a realidade. No entanto, se for observado um nmero maior de


locaes (1 000, por exemplo), aos poucos surge uma estimativa da probabilidade de ocorrerem acidentes cada vez mais prxima da realidade.

Definio clssica
Seja E um experimento aleatrio e S o espao amostral associado a E. Suponha que S seja finito e que todos os resultados de S sejam igualmente
provveis.
Considere, ainda, o evento A S . Se nS e nA so respectivamente o nmero
de elementos de S e de A, a probabilidade de ocorrncia do evento A um
nmero real definido por:
P(A) =

nA
nS

Definio Axiomtica
Seja E um experimento e S um espao amostral associado a E. A cada
evento A associaremos um nmero real representado por P(A) e denominado Probabilidade de A, que satisfaa as seguintes propriedades:
(1) 0 P(A) 1
(2) P(S) = 1
(3) Se A e B forem eventos mutuamente exclusivos, P(A B) = P(A) + P(B)
(4) Se A1, A2, ..., An, ... forem, dois a dois, eventos mutuamente exclusivos, ento,
d
Ai ) = P( A1 ) + P( A2 ) + L + ( An ) +
P(Ui=1

Observao: Caso A e B sejam dois eventos quaisquer, ento


P(A B) = P(A) + P(B) P(A B)
Na verdade, a utilizao da definio de Probabilidade e das operaes
com eventos servem para organizar o raciocnio do Clculo de Probabilidades, mais ou menos como feito com um fluxograma.
Agora aproveitaremos as operaes de conjuntos descritas anteriormente
para o clculo de probabilidades que envolvem eventos de nosso interesse.
Tentemos responder intuitivamente a questo abaixo para depois formalizar
o procedimento de clculo:
70

Introduo probabilidade

a) Para ter a certeza do nascimento de pelo menos um menino, um


casal planeja ter 5 bebs. Qual a chance de sucesso?
Respondendo de forma intuitiva, a probabilidade do casal ter pelo
menos 1 menino ser igual a probabilidade de ter 1, 2, 3, 4 ou 5
meninos que equivalente ao complementar da probabilidade de
no ter nenhum menino, ou seja, 1 P(5 meninas) = 1 (1/2)5 =
0,96875 ou 96,875% se presumirmos que a probabilidade de nascimento de meninos e meninas igual.
b) Peas que saem de uma linha de produo so marcadas defeituosas (D) ou no defeituosas (N). As peas so inspecionadas e sua
condio registrada. Isto feito at que duas peas defeituosas
consecutivas sejam fabricadas ou que todas as quatro peas do
lote tenham sido inspecionadas, aquilo que ocorrer em primeiro
lugar. Calcule a probabilidade do experimento ser interrompido
antes do lote inteiro ter sido inspecionado.
Para que o experimento seja interrompido antes do lote inteiro
ser inspecionado, devemos observar duas peas defeituosas entre as 3 primeiras peas inspecionadas. Isto pode ocorrer quando
as duas primeiras peas inspecionadas forem defeituosas e a ento o experimento finalizado. Pode ocorrer tambm que se a 2.
pea defeituosa ocorrer na 3. pea inspecionada, ento entre as
duas primeiras inspees, haver certamente 1 pea defeituosa.
Sendo assim, a probabilidade solicitada seria a soma da probabilidade de 3 situaes: P(1. pea defeituosa e 2. pea defeituosa) +
P(1. pea defeituosa, 2. pea perfeita e 3. pea defeituosa) + P(1.
pea perfeita, 2. pea defeituosa e 3. pea defeituosa).
Como se pode observar, das resolues acima, existe a necessidade de se
estruturar, de forma organizada, o raciocnio de clculo. Para isso, devemos
seguir alguns passos:
1. Descrever o espao amostral e o seu tamanho (n);
2. Definir o evento de interesse no problema (A);
3. Verificar o nmero de eventos que so favorveis ao evento de interesse (nA);
4. Calcular P(A) =

nA
n
71

Mtodos Quantitativos Estatsticos

Mas ateno: Isto s vale se todos os resultados do espao amostral forem


equiprovveis!
Caso os eventos A e B no sejam equiprovveis use:
P(A B) = P(A) + P(B) P(A B)
Outros procedimentos de organizao so utilizados como: regras de
Multiplicao, regras de Adio, Permutaes e Arranjos, e Combinaes.
So os chamados Mtodos de Enumerao.

Probabilidade Condicionada
Se A e B so eventos de um espao amostral S, com P(B) diferente de zero,
ento a probabilidade condicional do evento A, tendo ocorrido o evento B,
indicada por P(A/B) e definida pela relao:
P A/B =

P A B
PB

Para o clculo da probabilidade condicional de A em relao a B, P(A/B),


basta contarmos o nmero de casos favorveis ao evento A B e dividirmos
pelo nmero de casos favorveis do evento B:
P A/B =

N.C.F.a A B
N. C.F. a B

Observao: N.C.F. nmero de casos favorveis


Exemplo: Aplicao da regra do produto.
1. Retira-se, sem reposio, duas peas de um lote de 10 peas, onde 4
so boas. Qual a probabilidade de que ambas sejam defeituosas ?
Soluo: Sejam os eventos:
A = {a primeira pea ser defeituosa};
B = {a segunda pea ser defeituosa}.
Precisamos, ento, avaliar P(A B).
P(A B) = P(A). P(B/A) m P(A B) = 6/10 . 5/9 = 1/3 = 0,3333... m 33,33 %
Observe que P(B/A) a probabilidade de a segunda pea ser defeituosa,
dado que a primeira foi defeituosa.
72

Introduo probabilidade

2. Uma urna contm 5 bolas brancas e 3 pretas. Duas bolas so retiradas


sem reposio. Qual a probabilidade de que:
a) 1. seja branca e a 2. seja preta?
P(B1 P2) = P(B1).P(P2/B1) = 5/8 . 3/7 = 15/56 = 26,79%
b) as duas sejam brancas?
P(B1 B2) = P(B1).P(B2/B1) = 5/8 . 4/7 = 20/56 = 35,71%
c) as duas sejam pretas?
P(P1 P2) = P(P1).P(P2/P1) = 3/8 . 2/7 = 6/56 = 10,71%
d) sejam uma de cada cor?
P(P1 B2) + P(B1 P2) = (3/8 . 5/7) + (5/8 . 3/7) = 30/56 = 53,57%
e) sejam ambas da mesma cor?
P(P1 P2) + P(B1 B2) = (3/8 . 2/7) + (5/8 . 4/7) = 26/56 = 46,43%

Regra de Bayes
Sejam A 1, A 2, A 3, ..., A n, n eventos mutuamente exclusivos tais que
A 1 A 2 A 3 ... A n = S. Sejam P( A i ) as probabilidades conhecidas de todos os eventos A i e B um evento qualquer de S tal que conhecemos todas as probabilidades condicionais P( B/A i ). Ento para
cada i teremos:
PAi /B =

PAi .PB/Ai
PA1 .PB/A1 + PA 2 .PB/A 2 + ... + PAn . PB/An

O resultado acima bastante importante, pois, como vimos, relaciona


probabilidades a priori: P( Ai ) com probabilidades a posteriori: P( Ai/B ), probabilidade de ocorrer Ai depois que ocorrer B.
Suponhamos a seguinte configurao:
Cor

Urna 1

Urna 2

Urna 3

Total

Preta

Branca

Vermelha

10

Total

26
73

Mtodos Quantitativos Estatsticos

Escolheu-se uma urna ao acaso e dela extraiu-se uma bola ao acaso, verificando-se que a bola branca. Qual a probabilidade de a bola ter vindo da
urna 2?
Soluo:
Probabilidades a priori: P( U1 ) = 1/3;

P( U2 ) = 1/3;

P( U3 ) = 1/3;

Probabilidades a posteriori: P( br/U1 ) = 1/9; P( br/U2 ) = 1/3; P( br/U3 ) = 3/8;

P(U2/br) =

PU2 .Pbr/U2
=
PU1 .Pbr/U1 + PU2 .Pbr/U2 +PU3 .Pbr/U3
1/3.1/3
= 0,4067
1/3.1/9 + 1/3.1/3+1/3.3/8

Varivel Aleatria Unidimensional (v. a.)


Na maioria dos experimentos dados at agora, ao descrevermos o espao
aleatrio, no especificamos que um resultado individual, necessariamente,
seja um nmero. Por exemplo: ao descrever uma pea manufaturada, podemos usar apenas as categorias defeituosas e no defeituosas. Contudo, em
muitas situaes experimentais, estaremos interessados na mensurao de
alguma coisa e no seu registro como um nmero. Mesmo no exemplo mencionado, poderemos atribuir um nmero a cada resultado no numrico do
experimento. Por exemplo: podemos atribuir o valor 1 s peas no defeituosas e 0 s peas defeituosas.
Exemplo: Em uma linha de montagem de engrenagens, inspecionam-se
4 peas da produo diria para se controlar a produo de engrenagens
defeituosas.
Representando por:
d: engrenagem com defeito e
b: engrenagem perfeita.
Temos o seguinte espao amostral S para esse experimento:
S = {dddd, dddb, ddbd, dbdd, bddd, ddbb, dbbd, dbdb, bddb, bdbd,
bbdd, dbbb, bdbb, bbdb, bbbd, bbbb}
74

Introduo probabilidade

Seja X uma varivel aleatria que conta o nmero de engrenagens com


defeito dentre as 4 inspecionadas. Temos ento:

X = 0, 1, 2, 3, 4

Varivel Aleatria Discreta e sua funo de probabilidade


Uma varivel aleatria ser discreta se o nmero de resultados possveis
que ela pode assumir for finito ou infinito enumervel.
Exemplo: Contagem da ocorrncia de um fenmeno em um certo nmero
de repeties ou em um certo espao de tempo.
Seja X uma varivel aleatria discreta. A cada possvel resultado xi associaremos um nmero real p(xi) = P(X = xi), denominado de probabilidade de xi. A
funo p denominada de funo de probabilidade da varivel aleatria discreta
X. Sendo p uma funo de probabilidade, devemos ter satisfeitas as condies:
(i) p(xi) 0 , para todo i
(ii) i p(xi) = 1
O conjunto de pares [xi, p(xi)] denominado distribuio de probabilidade
da varivel aleatria X.

Varivel Aleatria Contnua e sua funo densidade de


probabilidade
Uma varivel aleatria ser contnua se o nmero de resultados possveis
que ela poder assumir for infinito no-enumervel, ou seja, se o conjunto de
valores que ela pode assumir for um intervalo ou uma reunio de intervalos
Exemplo: Seja X a durao da vida (em horas) de um certo dispositivo eletrnico. Ento, o conjunto dos valores que X pode assumir poder ser representado
da seguinte forma: {x R/ x 0}, onde R o conjunto dos nmeros reais.
Seja X uma varivel aleatria contnua. Define-se funo densidade
de probabilidade (f.d.p.) como sendo a funo f que satisfaz s seguintes
condies:
(i) f(x) 0 para todo x R
(ii) f(x) dx = 1
Rx

75

Mtodos Quantitativos Estatsticos

A propriedade (ii) indica que a rea total limitada pela curva que representa a funo f(x) e o eixo das abscissas igual a 1.
Seja o intervalo [a, b) x Rx. Ento, a probabilidade de um certo valor X
pertencer a esse intervalo dada por:
b

Pr(a X b) = f(x)dx ,
a

que representa a rea sob a curva no grfico da funo densidade de probabilidade, entre x = a e x = b. Para isso se usa o recurso da integrao.
Algumas variveis que podem ser consideradas contnuas: salrios
(em R$), espessura de vigas metlicas (em mm), taxa de colesterol no
sangue (em mg/dl). Dessa forma, podemos estar interessados em saber,
por exemplo, a probabilidade de algum receber um salrio superior a R$
10.000,00 ou a probabilidade da espessura da viga estar dentro das especificaes ou ainda, a probabilidade da taxa do colesterol estar dentro
da normalidade.

Esperana Matemtica, Mdia ou Valor Esperado


bastante til descrever uma distribuio de probabilidade em termos
de sua mdia e de sua varincia. A mdia, denotada por E(X), chamada
valor esperado da distribuio de probabilidade. Considere X uma varivel
aleatria. A esperana matemtica, mdia ou valor esperado de X a mdia
ponderada de todos os possveis valores da varivel com os respectivos valores de probabilidade tomados como pesos.
Exemplo no caso discreto:
Considere a seguinte varivel discreta e sua respectiva funo de probabilidade.
x

p(x)

Assim, teremos a esperana E(X) = (0.1/2) + (1.1/4) + (2.1/4) = 3/4

Varincia
A varincia de uma varivel aleatria X, denotada por V(X), calculada
como uma medida de disperso dos dados em relao mdia E(X). Pode ser
calculada fazendo-se
2= Var(X) = E[X E(X)]2
76

Introduo probabilidade

ou ainda,
Var(X) = E(X2) [E(X)]2
Considerando os mesmos exemplos vistos acima, teremos:
Varivel discreta: E(X) = 3/4 e E(X2) =(02.1/2) + (12.1/4) + (22.1/4) = 5/4
Var(X) = 5/4 (3/4)2 = 11/16

Ampliando seus conhecimentos


Risco e Probabilidade
(Wikipdia)

O que Risco?
o resultado objetivo da combinao entre a probabilidade de ocorrncia
de um determinado evento e o impacto resultante.
O simples fato de existir uma atividade, abre a possibilidade da ocorrncia
de eventos ou situaes cujas conseqncias constituem oportunidades para
obter vantagens (lado positivo) ou ento ameaas ao sucesso (lado negativo).
O risco pode ser definido como a combinao da probabilidade de um
acontecimento e das suas conseqncias.
O que Anlise de Riscos?
Processo pelo qual so relacionados os eventos, os impactos e avaliadas as
probabilidades destes se tornarem reais.
Geralmente, se executa uma anlise de riscos dentro de organizaes que
esto planejando ou desenvolvendo projetos especficos ou para negcios (finanas, compra e venda etc). Sendo a abordagem de negcios a mais utilizada.
Como orientao da confeco de uma anlise de riscos, temos os seguintes passos e cuidados:
a) Construir a Matriz de Impacto
Esta matriz envolve um conjunto de itens que influenciam no
dimensionamento do impacto no caso de ocorrncia de uma
determinada ameaa, sendo, ento, relacionados abaixo:
77

Mtodos Quantitativos Estatsticos

Determinar os elementos crticos do negcio que podero


ser afetados por falhas e erros no processo;
Levantar as ameaas/eventos decorrentes da execuo dos
passos do processo de negcio, que podem afetar ou causar
um determinado impacto sobre algum elemento crtico do
negcio relacionado;
Definir o impacto para o negcio no caso de ocorrncia das
ameaas/eventos relacionadas.
b) Construir a Matriz de Probabilidade
Esta matriz envolve alguns aspectos que influenciam na probabilidade de ocorrncia de uma determinada ameaa/evento, sendo, ento, relacionados abaixo:
Levantar os controles ou protees existentes que poderiam
prevenir ou minimizar a ocorrncia das ameaas/eventos relacionadas;
Definir as fraquezas ou fragilidades que possam existir nos
controles relacionados, de forma a obter uma avaliao da
sua efetividade;
Definir qual a probabilidade da ameaa/evento vir a se realizar devido a falha do controle (ou este ser sobrepujado) e o
impacto previsto acontecer.
c) Definir os Riscos
Esta etapa envolve a sumarizao dos impactos relacionados e
as suas respectivas probabilidades, de forma a que seja calculado o risco real de um determinado evento (e o seu impacto)
vir a ocorrer.

78

Introduo probabilidade

Atividades de aplicao
1. Defina o espao amostral de cada um dos seguintes experimentos:
a) lanamento simultneo de trs moedas;
b) distribuio de sexo de uma famlia com trs filhos;
c) lanamento simultneo de dois dados (no viciados);
d) retirada de duas cartas de um baralho com 8 cartas, sendo 4 damas e 4 valetes;
e) retirada de duas bolas sucessivamente, de uma urna com cinco
bolas, sendo trs brancas e duas amarelas.
2. Dois dados so lanados. Pede-se:
a) enumere o evento A = {a soma dos pontos 9};
b) enumere o evento B = {a soma dos pontos 7};
c) calcule a probabilidade do evento A;
d) calcule a probabilidade do evento B;
e) calcule a probabilidade de ocorrer A ou B;
f) calcule a probabilidade de ocorrer A e B;
3. So dadas duas urnas:
Urna A

Urna B

Total

Preta

Cor

Branca

12

17

Vermelha
Total

10

20

30

a) Calcular a probabilidade de retirar uma bola branca da urna A;


b) Determine a probabilidade de retirarmos uma bola branca ou vermelha da urna A;
79

Mtodos Quantitativos Estatsticos

c) Determine a probabilidade de retirarmos uma bola branca da urna


A e uma bola vermelha da urna B;
d) Qual a probabilidade de serem retiradas duas bolas vermelhas da
urna A, com reposio?;
e) Qual a probabilidade de serem retiradas duas bolas pretas da urna
B? (sem reposio);
4. A probabilidade de o aluno X resolver este problema de 3/5, e de o
aluno Y de 4/7.
Qual a probabilidade de que o problema seja resolvido por eles?
5. Um grupo de 100 pessoas apresenta, de acordo com o sexo e qualificao a seguinte composio:
Sexo

Especializados

No especializados

Total

Homens

21

39

60

Mulheres

14

26

40

Total

35

65

100

Calcular:
a) A probabilidade de um escolhido ser homem.
b) A probabilidade de um escolhido ser mulher e no especializada.
c) Qual a porcentagem dos no especializados?
d) Qual a porcentagem dos homens no especializados?
e) Se o sorteado especializado, qual a probabilidade de ser mulher?
f) Se o sorteado for homem, qual a probabilidade de ser no especializado?
6. Uma urna contm quatro bolas brancas, cinco azuis e seis pretas em
uma outra temos cinco bolas brancas, seis azuis e duas pretas. Extraise uma bola de cada urna, na seqncia estabelecida anteriormente,
qual a probabilidade:
a) de que ambas sejam da mesma cor?
b) da primeira ser azul e a segunda ser preta?
80

Introduo probabilidade

c) de uma ser azul e a outra ser preta?


d) da primeira ser branca e a segunda no ser branca?
7. A probabilidade da classe A comprar um carro 3/4, da B 1/6 e da
C, 1/20.
A probabilidade de o indivduo da classe A comprar um carro da marca W 1/10; de B comprar da marca W 3/5 e de C 3/10. Em certa
loja um indivduo comprou um carro da marca W.
Qual a probabilidade de que o indivduo:
a) Da classe A o tenha comprado?
b) Da classe B o tenha comprado?
c) Da classe C o tenha comprado?
8. Trs mquinas M1, M2 e M3 produzem respectivamente 40%, 50% e
10% do total de peas de uma fbrica. A porcentagem de peas defeituosa nas respectivas mquinas 3%, 5% e 2%. Uma pea sorteada
ao acaso e verifica-se que defeituosa. Qual a probabilidade de que a
pea tenha vindo da mquina:
a) M1
b) M2
c) M3
9. A empresa de construo Tijolo S.A. vai apresentar uma proposta de
construo de um armazm do tipo A. Considere a varivel aleatria X,
que representa o nmero de dias para construir um armazm do tipo
A, e a respectiva funo de probabilidade:
X
P(x)

20
k/2

21
0,15

22
3k

23
0,1

24
0,05

a) Determine o valor da constante k, justificando.


b) Qual a probabilidade do tempo de construo demorar mais de 22
dias?
c) Qual a probabilidade do tempo de construo demorar entre 21 e
23 dias (inclusive)?
81

Mtodos Quantitativos Estatsticos

d) Quantos dias espera a empresa demorar para construir o referido


armazm?
e) Calcule o valor de Var (X).
f) Os custos de construo so os seguintes:
Materiais: 16.000 euros
Mo de obra: 750 euros por cada dia de construo
Os responsveis pela empresa pretendem obter um valor esperado do lucro de 2.500 euros. Atendendo aos custos que constam na tabela anterior, calcule o valor que deve ser apresentado
na proposta de construo.

82

Distribuio Binomial, Distribuio


Poisson e Distribuio Normal

Introduo
A distribuio de probabilidade uma funo que determina probabilidades para eventos ou proposies. Para qualquer conjunto de eventos
ou proposies, existem muitas maneiras de determinar probabilidades,
de forma que a escolha de uma ou outra distribuio equivalente a criar
diferentes hipteses sobre os eventos ou proposies em questo. A distribuio de probabilidade de uma varivel descreve como as probabilidades
esto distribudas sobre os valores da varivel aleatria.
H vrias formas equivalentes de se especificar uma distribuio de probabilidade. Uma distribuio chamada de distribuio discreta se for definida em um conjunto contvel e discreto, tal como o subconjunto dos nmeros inteiros; ou chamada de distribuio contnua se tiver uma funo
distribuio contnua, tal como uma funo polinomial ou exponencial.
A seguir, veremos as principais distribuies de probabilidade: Binomial e
Poisson para variveis aleatrias discretas e a distribuio Normal para uma
varivel aleatria contnua.
Analisemos a definio de varivel aleatria discreta: seja X uma varivel
aleatria discreta e xi um certo valor de X. A probabilidade de ocorrncia de
xi dada por P(X = xi) = p(xi), onde:
p(xi) 0
a soma de todos os p(xi) igual a 1.
Como as variveis aleatrias discretas X assumem valores inteiros (geralmente), as probabilidades associadas a esses valores (xi) so pontuais de
forma que a distribuio de probabilidade representada por quantidades
de massa localizadas nos pontos xi.

Mtodos Quantitativos Estatsticos

Figura 1: Esboo de uma funo de probabilidade discreta.

p(x)

10 11 12 13 14 15 16 17 18

Por outro lado, a probabilidade de ocorrncia de uma varivel aleatria contnua dentro de um determinado intervalo (a,b), dada por:
b

Pr (a X b) = f(x) dx
b

Onde a a notao que se usa para representar a integrao de uma determinada funo em um intervalo de a at b. Utilizada para clculo de reas
e aqui ser utilizada para clculo de probabilidades.
As variveis aleatrias contnuas X assumem valores dentro de um intervalo contnuo, e as probabilidades associadas a esses valores podem ser consideradas reas abaixo de uma curva.
Figura 2: Esboo de algumas funes densidades de probabilidade contnuas.

f(x)

(x)

Distribuio de probabilidade Binomial


Antes de introduzirmos a distribuio de probabilidade Binomial, vamos
definir outra distribuio, a distribuio Bernoulli, que d origem a ela. Na
distribuio Bernoulli:
86

Distribuio Binomial, Distribuio Poisson e Distribuio Normal

a) Cada experimento dito ser uma tentativa. Em cada tentativa, existem


dois resultados possveis: sucesso ou falha.
b) A probabilidade de sucesso igual a algum valor constante para todas
as tentativas.
c) Os resultados sucessivos so estatisticamente independentes. A probabilidade de sucesso na prxima tentativa no pode variar, no importando quantos sucessos ou falhas tenham sido obtidos.
O processo de Bernoulli comumente utilizado em aplicaes envolvendo
controle de qualidade. Cada novo item criado no processo de produo pode
ser considerado como uma tentativa resultando em uma unidade com ou sem
defeito. Esse processo no se limita a objetos; podendo ser usado em pesquisas
eleitorais e de preferncias dos consumidores por determinados produtos.
Consideremos agora n tentativas independentes de ensaios de Bernoulli. Cada tentativa admite apenas dois resultados complementares:
sucesso com probabilidade p ou fracasso com probabilidade q, de modo a
se ter p + q = 1. As probabilidades de sucesso e fracasso so as mesmas para
cada tentativa. A varivel aleatria X, que conta o nmero total de sucessos,
denominada Binomial.
Exemplo: suponha que peas saiam de uma linha de produo e sejam classificadas como defeituosas (D) ou como no-defeituosas (N). Admita que
3 dessas peas sejam escolhidas ao acaso. Se a probabilidade de que uma
pea seja defeituosa de 0,2, calcule a probabilidade de obtermos 0, 1, 2 ou
3 peas defeituosas.
Ento teremos: n = 3 (nmero de repeties do experimento); p = 0,2
(probabilidade de sucesso, ou de obter uma pea defeituosa).
Considere, agora, a seguinte definio:
Seja E um experimento e A um evento associado a E. Considere ainda
P(A) = p, denominada Probabilidade de ocorrncia de A, que satisfaa as
seguintes propriedades:
ocorrem n repeties independentes do experimento E;
a probabilidade p sempre constante para cada repetio;
a varivel aleatria X ser definida como sendo o nmero de vezes que
o evento A ocorre;
P(AC) = 1 P(A) = q
87

Mtodos Quantitativos Estatsticos

Ento,

n
P(X = k) = .pk .qn-k , k = 0, 1, 2, ..., n.
k
n
em que a combinao de n elementos divididos em k grupos. Pode
k
n!
n.(n 1).(n 2)(n k +1)
n
=
ser desenvolvida fazendo-se: =
k k!. n k !
k. k 1 .(k 2)1
Agora a resoluo da questo acima fica muito mais simples. Basta
definirmos:
n = 3
p = 0,2
3
3!
3 0 3
P(X = 0) = .p .q =
.1 . 0, 8 = 0, 512
0
0!3!
1
2
3!
3 1 2
P(X = 1) = .p .q =
. 0, 2 . 0, 8 = 0, 384
1
1!2!
2
1
3 2 1 3!
P(X = 2) = .p .q =
. 0, 2 . 0, 8 = 0, 096
2
2!1!
3
0
3!
3 3 0
P(X = 3) = .p .q =
. 0, 2 . 0, 8 = 0, 008
3
3!0!

Utilizando a planilha eletrnica Excel, podemos resolver o problema


acima de uma forma muito fcil, simplesmente utilizando as funes. Ento,
utilizaramos a funo DISTRBINOM considerando:
Num_s (nmero de tentativas bem-sucedidas) o valor que X assume, pode ser 0, 1, 2 ou 3, dependendo da probabilidade que se deseja
calcular;
Tentativas o tamanho da amostra, no caso n = 3;
Probabilidade_s a probabilidade de sucesso, no caso, p = 0,2;
Cumulativo a opo que fornece a probabilidade acumulada ou
a probabilidade individual. No caso, preencher o campo com FALSO
para considerar a probabilidade individual.
88

Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Notao: X ~ b(n; p)
Isto significa que a varivel aleatria X tem distribuio Binomial com parmetros n e p.
A esperana e a varincia para uma varivel aleatria com distribuio
Binomial so dadas por:
= E(X) = n.p
2 = Var(X) = n.p.(1 p)

Distribuio de Probabilidade Poisson


Na distribuio Binomial, a varivel aleatria X o nmero de sucessos
que ocorrem em n tentativas independentes do experimento. Podemos
considerar agora uma varivel aleatria X igual ao nmero de sucessos que
ocorrem num intervalo contnuo.
Por exemplo:
nmero de chamadas X que uma telefonista recebe no intervalo de
uma hora;
89

Mtodos Quantitativos Estatsticos

o nmero de falhas em 1 m2 de tecidos;


o nmero de vezes que um computador trava em um intervalo de 8
horas.
Uma varivel aleatria assim, assume valores inteiros, ou seja, X = 0, 1, 2,
3, 4, ...
Um fenmeno ou experimento de Poisson tem as seguintes caractersticas:
o nmero de sucessos que ocorrem num intervalo contnuo independente daqueles que ocorrem em qualquer outro intervalo disjunto;
em intervalos de mesmo comprimento a probabilidade de ocorrncia
de um mesmo nmero de sucessos igual;
em intervalos muito pequenos, a probabilidade de mais de um sucesso desprezvel.
Nessas condies, a varivel aleatria X = nmero de sucessos que ocorrem num determinado intervalo contnuo de tem distribuio de Poisson
com parmetro e funo de probabilidade dada por:
e L . L x
, para x = 0, 1, 2, ...
x!
em que a mdia de sucessos no intervalo considerado e e a constante
exponencial que igual a 2,718281828.
p(x) = Pr(X = x) =

Notao: X~ P()
Isso significa que a varivel aleatria X tem distribuio Poisson com parmetro .
A esperana e a varincia para uma varivel aleatria com distribuio de
Poisson so dadas por:
= E(X) =
2 = Var(X) =

90

Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Exemplo: Clientes em potencial chegam a um posto de gasolina de acordo


com um processo de Poisson com taxa de 20 carros por hora. Ento, a funo
de probabilidade associada dada por:
p(x) =

e -20 . 20 x
x!

, para x = 0,1, 2, ...

A probabilidade de chegarem em 1 hora:


a) Exatamente 10 carros:
P(X = 10)

e 20 . 2010

= 0, 0058 ou 0, 58%
10 !
b) 10 carros ou menos:
10

e 20 . 20 x

x=0

x!

P(X b 10)

= 0, 0108 ou 1, 08% = 0, 0108 ou 1, 08%

c) Mais de 20 carros:
d

e 20 . 20 x

x=21

x!

P(X > 20) =

20

e 20 . 20 x

x=0

x!

= 1

= 0, 441 ou 44,1%

d) Entre 11 e 20 carros:
20

P(11X20) = P(X20) P(X10) =


x=11
0,548 ou 54,8%

e 20 . 20 x
x!

= 0,559 0,0108 =

Utilizando o Excel, utilizaramos a funo POISSON considerando:


X (nmero de eventos) o valor que X assume, pode ser 0, 1, 2 etc,
at infinito dependendo da probabilidade que se deseja calcular.
Mdia o valor do parmetro .
Cumulativo a opo que fornece a probabilidade acumulada ou
a probabilidade individual. No caso, preencher o campo com VERDADEIRO para considerar a probabilidade acumulada.

91

Mtodos Quantitativos Estatsticos

Distribuio de Probabilidade Normal


A distribuio normal foi estudada inicialmente no sculo 18, quando
uma anlise de erros experimentais levou a uma curva em forma de sino.
Embora ela tenha aparecido pela primeira vez em 1733 por DeMoivre, a
distribuio normal recebe o nome de distribuio gaussiana, em homenagem ao cientista alemo Karl Friedrick Gauss, que foi o primeiro a utiliz-la
em 1809.
Nos sculos 18 e 19, matemticos e fsicos desenvolveram uma funo
densidade de probabilidade que descrevia bem os erros experimentais obtidos em medidas fsicas. Essa funo densidade de probabilidade resultou
na bem conhecida curva em forma de sino, chamada de distribuio normal
ou gaussiana. Essa distribuio fornece uma boa aproximao de curvas de
freqncia para medidas de dimenses e caractersticas humanas, como a
altura de uma populao.
A distribuio normal a mais importante das distribuies contnuas de
probabilidade, e tem sua origem associada aos erros de mensuraes. A distribuio normal desempenha papel preponderante na estatstica, e os processos de inferncia nela baseados tm larga aplicao.
92

Distribuio Binomial, Distribuio Poisson e Distribuio Normal

A distribuio normal tem sua funo densidade de probabilidade (f.d.p.)


dada por

f(x) =

1
S 2P

.e

x M 2
2 S2

em que:
a mdia da varivel X;
o desvio padro da varivel X;
uma constante numrica igual a 3,141593.
Notao: X ~ N(; 2)
Isso significa que a varivel aleatria X tem distribuio Normal com parmetros e 2.
So propriedades da distribuio normal:
1) A distribuio simtrica em relao a x = , ou seja, nesse ponto a
curva se divide em duas partes iguais.
2) A funo f(x) tem um ponto de mximo para x = .
3) As caudas da funo f(x) so chamadas assintticas, ou seja, s atingem o ponto f(x) = 0 quando x tende a + infinito ou infinito. Isso
quer dizer que a curva jamais cruza o eixo x.
4) A funo f(x) tem dois pontos de inflexo para x = + e x = .
Nestes pontos a funo acentua sua curvatura.
5) A funo de distribuio acumulada dada por
F(x) = P(X b x) =

1
S 2P

1 xM
.

2 S

dx

A funo F(x), dada acima, pode ser colocada numa forma mais simples,
considerando-se a transformao:
x=

que a varivel normal padronizada ou reduzida Z.


93

Mtodos Quantitativos Estatsticos

Figura 3: Curva da distribuio Normal padro.


0.4

f(x)

0.3

0.2

0.1

0.0
-4

-2

0
(x)

Notamos que a transformao utilizada consiste em adotarmos uma nova


distribuio normal de mdia = 0 e varincia 2 = 1 ou desvio padro = 1.
Portanto,
Z ~ N(0; 1).
Isso significa que a varivel aleatria Z assume uma distribuio Normal
com mdia zero e varincia 1.
Assim, a f.d.p. da varivel normal padronizada ser dada por
z2

g(z) =

1 . 2
e , dbz b d
2P

A distribuio normal padronizada pode ser tabulada utilizando-se mtodos de integrao numrica.
Exemplo: Uma indstria fabrica peas mecnicas cujas medidas dos dimetros externos so normalmente distribudas com mdia 40,0 mm e desvio
padro de 2,0 mm. Vamos calcular a percentagem de peas defeituosas
94

Distribuio Binomial, Distribuio Poisson e Distribuio Normal

fabricadas, sabendo-se que o setor de controle de qualidade dessa indstria


classifica como defeituosas aquelas peas cujos dimetros externos:
a) so inferiores a 37,0 mm.
P(X<37) = P(Z<(3740)/2) = P(Z<1,5) = 0,067 ou 6,7%.
0.4

f(x)

0.3

0.2

0.1

0.0
-4

-2

0
(x)

Consultando a tabela da distribuio normal padro (anexo 1), iremos


procurar a linha referente ao valor 1,5 e a coluna referente ao valor zero (1,5
+ 0,00 = 1,50). Cruzando esses dois valores, obteremos, no corpo da tabela,
0,4332. Esse valor, como a figura ilustra na tabela de valores crticos, nos d
o tamanho da rea entre o ponto zero e o ponto 1,5. Utilizando as propriedades de simetria da curva normal, teremos que P(Z<1,5) = 0,5 0,4332 =
0,067 que o tamanho da rea assinalada em cinza, na figura acima, pois o
valor de X nesse caso negativo.
Usando a planilha do Excel, utilizaramos a funo DIST.NORM:
X o valor cuja probabilidade se deseja calcular;
Mdia o valor do parmetro da distribuio;
95

Mtodos Quantitativos Estatsticos

Desv_padro o valor de ;
Cumulativo a opo que fornece a probabilidade acumulada ou
a probabilidade individual. No caso, sempre preencher o campo com
VERDADEIRO.

b) So superiores a 44,0 mm.


P(X>44) = P(Z>(4440)/2) = P(Z>2) = 0,023 ou 2,3%.
0.4

f(x)

0.3

0.2

0.1

0.0
-4
96

-2

0
(x)

Distribuio Binomial, Distribuio Poisson e Distribuio Normal

c) Desviam-se mais de 2,0 mm da mdia.


P(X<38) + P(X>42) = P(Z<(3840)/2) + P(Z>(4240)/2)
= P(Z<1) + P(Z>1) = 0,1586 + 0,1586 = 0,3164 ou 31,64%.
0.4

f(x)

0.3

0.2

0.1

0.0
-4

-2

0
x

Testes para a Distribuio Normal


Muitos testes usados em estatstica partem do princpio que os dados so
provenientes de uma populao normal. Ou seja, s podem ser utilizados se
for comprovada a suposio de normalidade dos dados. Dessa forma, testes
estatsticos devem ser feitos para verificar esse fato.
Existem os testes qualitativos e quantitativos. Dentre os testes qualitativos, existem trs representaes grficas que so comumente utilizadas: o
grfico de probabilidade normal (normal probability plot), o da probabilidade
normal positiva (half-normal probability plot) e o da probabilidade normal
sem tendncias (detrended normal probability plot).
As Figuras 4 a 6 apresentam esses grficos gerados pelo software Statistica, e selecionando-se a varivel Presso. Caso os pontos caiam prximos
linha reta, pode-se dizer que os dados seguem uma distribuio normal. No
caso da Figura 6, fica claro que no h qualquer tendncia caracterstica de
normalidade para o comportamento dos dados de presso.
97

Mtodos Quantitativos Estatsticos

Valor normal esperado

Figura 4: Grfico da Probabilidade Normal.

Valor normal esperado

Figura 5: Grfico da Probabilidade Normal Positiva.

Valor normal esperado

Figura 6: Grfico da Probabilidade Normal sem Tendncia.

98

Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Os testes quantitativos so mais eficientes, pois independem de qualquer


interpretao subjetiva. Eles consistem em calcular uma estatstica, caracterstica de cada teste, e verificar se o seu valor significativo, dependendo do
nvel de significncia escolhido. Caso seja, ento a hiptese de que os dados
seguem uma distribuio normal deve ser rejeitada. Os testes mais usados
para verificar normalidade so:
Kolmogorov-Smirnov usado quando a mdia e o desvio-padro da
distribuio normal so conhecidos e no estimados a partir dos dados. Entretanto, geralmente esses parmetros so calculados a partir
dos dados reais.
Lilliefors usado quando a mdia e o desvio-padro da populao
so desconhecidos e acabam sendo estimados a partir dos dados da
amostra.
Shapiro-Wilks (W) outra opo para verificao de normalidade, em
que se trabalha com os dados ordenados, geralmente quando se tem
menos de 50 observaes.
Caso seja verificado que a populao no seja normal, transformaes da
varivel podem ser feitas, a fim de torn-la normal. A transformao de BoxCox uma das transformaes mais utilizadas. Ela consiste em extrair a raiz
quadrada ou aplicar o logaritmo nos valores da varivel em estudo.
Outra alternativa, caso a suposio de normalidade no seja atingida,
realizar um teste estatstico que no necessita de comprovao de normalidade dos dados, os chamados testes no-paramtricos. Apresentaremos
a seguir o teste no-paramtrico de Lilliefors para testar a suposio de
normalidade.

Teste de Lilliefors
No caso em que se deseja testar normalidade e a mdia e a varincia no
so previamente especificadas, mas sim estimados por meio dos dados da
amostra. Deve-se utilizar o teste de Lilliefors. Esse teste tem procedimento
anlogo ao teste Kolmogorov-Smirnov, porm utiliza uma tabela de valores
crticos prpria e mais adequada a esse tipo de situao.
Esse teste de aderncia avalia a concordncia entre a distribuio observada da amostra e uma determinada distribuio terica. Para isso, utilizamos a
99

Mtodos Quantitativos Estatsticos

funo distribuio acumulada observada, compara-se com a terica, determina-se o ponto em que essas distribuies mais divergem, e testamos se essa
divergncia aleatria ou no.
Seja F0 (X) uma distribuio terica acumulada e Sn (X) uma distribuio
observada em uma amostra de n observaes (distribuio emprica).
Encontra-se a seguir o maior valor das diferenas entre F0 (X) e Sn (X) , ou
seja,
D = mx F0 X Sn X
Compara-se o valor observado com o valor crtico que se encontra na
tabela em anexo. Se o valor calculado for inferior ao valor tabelado, ento podemos considerar que os dados se ajustam bem a uma distribuio Normal.
Exemplo: As produes mdias (sacas) obtidas em um experimento envolvendo um novo adubo em plantaes de milho encontram-se tabuladas
abaixo:
Classes

fi

xi

F(xi)

S(xi)

|F(xi) - S(xi)|

2 700 | 3 000

13

2 850

0,045

0,113

0,068

3 000 | 3 300

18

3 150

0,155

0,269

0,114

3 300 | 3 600

24

3 450

0,371

0,478

0,107

3 600 | 3 900

32

3 750

0,639

0,756

0,117

3 900 | 4 200

17

4 050

0,851

0,904

0,053

4 200 | 4 500

11

4 350

0,958

1,000

0,042

115

Podemos admitir que a produo mdia segue uma distribuio normal?


A coluna S(x) apresenta as probabilidades acumuladas, por exemplo, o
primeiro valor, 0,113, foi obtido pela razo: 13/115 e os demais valores foram
obtidos sempre acumulando o valor das classes anteriores, at a ltima
classe em que S =1. Os valores de F(X) so as probabilidades acumuladas de
uma distribuio normal. Mas para esse clculo, precisamos dos valores dos

100

Distribuio Binomial, Distribuio Poisson e Distribuio Normal

parmetros da distribuio. Como esses valores no so conhecidos, devem


ser estimados. A estimativa do parmetro a mdia amostral e a estimativa do parmetro 2 a varincia amostral. Assim, teremos a estimativa de
= 3 593,5 sacas (para calcular a mdia, nesse caso, primeiro multiplica-se
o ponto mdio de cada classe, pela sua respectiva freqncia. A partir disso,
soma-se todos os resultados obtidos e divide-se pelo nmero de elementos 115) e a estimativa da varincia = 191 601,8 (obtida atravs da frmu x i X .fi
2

la da varincia:

n 1

). Assim, j possvel obtermos as probabilidades

acumuladas.
Dessa forma, as probabilidades acumuladas para as classes da tabela
acima so calculadas sempre em funo de seu ponto mdio (xi):
P(X 2 850) = P(Z 1,7) = 0,045
P(X 3 150) = P(Z 1,01) = 0,156
P(X 3 450) = P(Z 0,33) = 0,371
P(X 3 750) = P(Z 0,36) = 0,639
P(X 4 050) = P(Z 1,04) = 0,851
P(X 4 350) = P(Z 1,73) = 0,958
Agora, basta calcularmos as diferenas entre a distribuio acumulada observada pelos dados e a distribuio acumulada terica, calculada por meio
da distribuio Normal. Essas diferenas so apresentadas na ltima coluna.
A maior das diferenas encontrada foi 0,117. Assim, precisamos verificar se
essa diferena pode ou no ser considerada significativa. Consultando a
tabela de valores crticos, a um nvel de significncia de 5% precisaremos
informar o tamanho da amostra (n). Nesse caso, n = 115 e usamos a ltima
0,886
= 0,082. Como o valor calculado (0,117)
linha da tabela que aponta
n
superior ao valor crtico tabelado (0,082) rejeitamos a hiptese nula e temos
indcios suficientes para afirmar que a distribuio normal, nesse caso, no

101

Mtodos Quantitativos Estatsticos

se ajusta aos dados.

(Wikipdia)

Jakob Bernoulli, (1654 em Basilia - 1705 idem)


Foi professor de matemtica em Basilia,
tendo sido importantssima sua contribuio
geometria analtica, teoria das probabilidades e ao clculo de variaes.
Em 1713, depois de sua morte, foi publicado
seu grande tratado sobre a teoria das probabilidades Ars Conjectandi que ainda oferece interesse prtico na aplicao da teoria da probabilidade no seguro e na estatstica.

Simon Denis Poisson (Pithiviers em 1781 - Sceaux em 1840)


Engenheiro e matemtico francs, considerado o sucessor de Laplace no estudo da
mecnica celeste e da atrao de esferides.
Entrou para a cole Polytechnique (1798), em
Palaiseau, onde se formou, estudando com
professores como Joseph Louis Lagrange, Pierre
Simon Laplace e Jean Baptiste Fourier.
Em Recherches sur la probabilit des jugements (1837) apareceu a famosa distribuio
de Poisson de intensa aplicao em estatstica. Na teoria de probabilidades, descobriu a
forma limitada da distribuio Binomial que
posteriormente recebeu o seu nome e hoje
considerada uma das mais importantes distribuies na probabilidade.

102

Distribuio Binomial, Distribuio Poisson e Distribuio Normal

Abraham de Moivre (Vitry em 1667 Londres em 1754)


Matemtico francs que fez carreira profissional na Inglaterra, onde foi professor particular e tornou-se um destacado pesquisador com
grandes contribuies no campo da teoria das
probabilidades, porm sem se tornar professor
universitrio por causa de sua nacionalidade.
Pioneiro do desenvolvimento de Geometria
Analtica e a Teoria de Probabilidade, publicou o clebre Doctrine of Chances (1718),
sobre a Teoria do Acaso, onde exps a definio de independncia estatstica junto com
muitos problemas com dados e outros jogos.
Tambm pesquisou estatsticas de mortalidade e fundou a teoria de anuidades.
Johann Carl Friedrich Gauss (Braunschweig em 1777 Gttingen em 1855)
Trabalhou em diversos campos da Matemtica e da Fsica dentre eles a Teoria dos Nmeros, Geometria Diferencial, Magnetismo,
Astronomia e ptica. Seu trabalho influenciou
imensamente outras reas.
Em probabilidade e estatstica, ficou
famoso pelo desenvolvimento do mtodo dos
mnimos quadrados e pela descoberta da distribuio normal, agora tambm conhecida
como a Distribuio Gaussiniana, a conhecida
lei de probabilidade, definida graficamente
por meio da chamada Curva de Gauss.

103

Mtodos Quantitativos Estatsticos

Ampliando seus conhecimentos


Atividades de aplicao
1. Seja X uma varivel aleatria com distribuio Binomial, baseada em
10 repeties de um experimento. Se p = 0,3, calcule as seguintes probabilidades:
a) P(X8)
b) P(X=7)
c) P(X6)
2. Um jogador de basquetebol acerta um arremesso com probabilidade
0,9. Em cinco arremessos, a probabilidade de o jogador acertar todos :
a) 0,59
b) 0,9
c) 0,81
d) 0,9 x 5
e) 0,45
3. Suponha que 5% de todas as peas que saiam de uma linha de produo sejam defeituosas. Se 10 dessas peas forem escolhidas e inspecionadas, qual ser a probabilidade de que no mximo 2 defeituosas
sejam encontradas?
4. O nmero de navios petroleiros que chegam a determinada refinaria, a
cada dia, tem distribuio de Poisson, com parmetro = 2. As atuais instalaes do porto podem atender a trs petroleiros por dia. Se mais de 3
navios aportarem por dia, os excedentes devem seguir para outro porto.
a) Em um dia, qual a probabilidade de se ter de mandar petroleiros
para outro porto?
b) De quanto as atuais instalaes devem ser aumentadas para permitir
manobrar todos os petroleiros, em aproximadamente 90% dos dias?

104

Distribuio Binomial, Distribuio Poisson e Distribuio Normal

c) Qual o nmero esperado de petroleiros a chegar por dia?


d) Qual o nmero mais provvel de petroleiros a serem atendidos
diariamente?
e) Qual o nmero esperado de petroleiros a serem atendidos diariamente?
f) Qual o nmero esperado de petroleiros que voltaro a outros
portos diariamente?
5. O nmero de clientes que chegam a fila de um banco durante o intervalo de uma hora uma varivel aleatria com distribuio de Poisson
com mdia igual a 5. A probabilidade de no haver chegada de clientes durante esse intervalo :
a) e0
b) 0
c) 0,0067
d) 0,034
e) 1
6. Em uma curva Normal Padro, a rea entre -1,96 e 1,96 corresponde
a 0,95. Para uma varivel aleatria X normalmente distribuda com
mdia 10 e varincia 100, a rea correspondente a 95% centrais dessa
curva est situada entre:
a) 9,6 e 29,6
b) 8,6 e 10,6
c) 9,6 e 11,6
d) 18,6 e 20,6
e) 186 e 206
7. Suponha que a distribuio de salrios de uma empresa americana
segue uma distribuio normal, com mdia mensal de US$ 15.000,00
e desvio padro de US$ 2.000,00. Calcule a probabilidade de algum
ganhar menos de US$ 5.000,00.
8. A fora (em Newton) com que um tecido sinttico se parte representa105

da por uma distribuio normal, dada por: X~N(800,144). O comprador


requer que o tecido tenha no mnimo uma fora de ruptura igual a 772 N.
A amostra de tecido escolhida aleatoriamente. Calcule P(X 772N).

Estimao de parmetros

Introduo
muito comum, quando estudamos uma populao, conhecermos a
distribuio da caracterstica em estudo e no conhecermos os parmetros
dessa distribuio. Ento, com base numa amostra aleatria dessa populao, ns deveremos estimar um valor aproximado para os parmetros da
populao. Estimao o processo que consiste em utilizar dados amostrais
para estimar os valores de parmetros populacionais.
Lembremos que, parmetros so funes de valores populacionais, enquanto que estatsticas so funes de valores amostrais.
Inicialmente, vejamos a questo de estimao de um modo mais geral.
Consideremos uma amostra (X1, X2, ...,Xn) de uma varivel aleatria que
descreve uma caracterstica de interesse de uma populao. Seja Q um parmetro que desejamos estimar, como por exemplo a mdia M ou a varincia S2 .
Definio 1: Estimador e Estimativa
Um estimador do parmetro Q qualquer funo das observaes X1, X2,
...,Xn, isto , g(X1, X2, ...,Xn). O valor que g assume, isto , g(x1, x2, ..., xn), referido
= g(x , x , ..., x ).
como uma estimativa de Q e usualmente escrito assim: Q
1 2
n
Note que, segundo esta definio, um estimador qualquer estatstica
cujos valores so usados para estimar Q (ou uma funo de Q).
O problema da estimao , ento, determinar uma funo T = g(X1,
X2, ...,Xn) que seja prxima de Q, segundo algum critrio. Esses critrios so
vistos mais adiante.
Notao: Q : parmetro a ser estimado
T : um estimador de Q
: uma estimativa de Q
Q

Mtodos Quantitativos Estatsticos

Estimadores pontuais (ou por ponto)


A estimao pontual (por ponto) consiste simplesmente em, falta de
melhor informao, adotar a estimativa disponvel como sendo o valor do
parmetro. A idia , em sua essncia, extremamente simples, porm a qualidade dos resultados depende fundamentalmente da conveniente escolha
do estimador. Assim, dentre os vrios estimadores razoveis que poderemos
imaginar para um determinado parmetro, devemos ter a preocupao de
escolher aquele que melhor satisfaa s propriedades de um bom estimador.
Essas propriedades so dadas logo a seguir.
Definio 2: Estimador pontual
Seja X1, X2, ...,Xn uma amostra aleatria de uma varivel aleatria X que
descreve uma caracterstica de interesse de uma populao com uma
distribuio fx(x; Q). Ento, qualquer estatstica T = g(X1, X2, ...,Xn) um
estimador pontual de Q.
= T(x) = g(x , x , ..., x ) a estimativa pontual de .
Notao: Q
1
2
n

Propriedades dos estimadores pontuais


Estimador no-viesado (no-viciado)
O estimador T dito um estimador no-viesado de Q se, sua mdia (ou
esperana) for o prprio parmetro que se pretende estimar, isto ,
E(T) = Q.
Isso significa que os valores aleatrios de T ocorrem em torno do valor do
parmetro Q, o que , obviamente, desejvel.

Eficincia
Se T e T so dois estimadores no-viesados de um mesmo parmetro Q,
e ainda
Var(T) < Var(T),
ento, o estimador T dito mais eficiente do que o estimador T.
108

Estimao de parmetros

Erro mdio quadrtico (erro quadrtico mdio - EQM)


Chamaremos de
e=TQ
o erro amostral que cometemos ao estimar o parmetro Q da distribuio da
varivel aleatria X do estimador T = g(X1, X2, ...,Xn), baseado na amostra X1,
X2, ...,Xn.
Chama-se de erro quadrtico mdio (EQM) o valor
EQM(T) = E(e2) = E[(T Q)2].
Ou seja, EQM a esperana do quadrado dos resduos (a diferena entre
a estimativa e o verdadeiro valor do parmetro). Esta quantidade nos ajuda a
avaliar a qualidade do estimador utilizado para estimar Q.
Assim, chamando de preciso proximidade de cada observao de sua
prpria mdia enquanto que, a acurcia mede a proximidade de cada observao ao valor-alvo que se procura atingir; temos que, um estimador preciso
tem varincia pequena, mas pode ter EQM grande. Por outro lado, um estimador acurado no-viesado e tem varincia pequena, o que implica EQM
pequeno.

Mtodos para encontrar estimadores pontuais


Veremos agora alguns critrios propostos com a finalidade de resolver o
problema de como escolher os estimadores mais adequados. Dentre eles,
citaremos os mtodos (ou princpios) da mxima verossimilhana e dos
momentos.

Mtodo da mxima verossimilhana


Este mtodo desenvolvido por Ronald Fisher em 1920 bastante empregado e funciona de forma a encontrar aquele valor do parmetro Q que maximiza a probabilidade de obter a amostra observada, na ordem particular
em que os elementos da mesma aparecem.
Exemplo: Suponha que temos n provas de Bernoulli com Pr(sucesso) = p,
0 < p < 1 e X = nmero de sucessos. Devemos tomar como estimador aquele
valor de p que torna a amostra observada a mais provvel de ocorrer.
109

Mtodos Quantitativos Estatsticos

Suponha, por exemplo, que n = 3 e obtemos 2 sucessos e 1 fracasso. A


funo de verossimilhana
L(p) = Pr(2 sucessos e 1 fracasso) = p2(1 p).
Agora precisamos obter o mximo desta funo. Isto obtido atravs de
derivao:

up2 1 p
L(p) =
=2p(1 p) p2 p(2 3p) = 0
up
2
do que seguem p = 0 ou p = 2/3. fcil ver que o ponto de mximo p = ,
3
que o estimador de mxima verossimilhana (E.M.V.) de p.
Definio 3: Funo de verossimilhana e estimador de mxima
verossimilhana
Uma varivel aleatria X tem densidade f(x), e x1, x2, ..., xn os valores amostrais. Definimos a funo de verossimilhana, L, como
L = f(X1; Q). f(X2; Q). ... . f(Xn; Q)
Ou seja, o produto de cada uma das funes de probabilidade (ou funes
de densidade) das variveis X1, X2, ..., Xn.
O estimador de mxima verossimilhana de Q, baseado na amostra X1, X2,
de Q que maximiza L, considerada como uma funo de
...,Xn , o valor de Q
Q para uma dada amostra X1, X2, ...,Xn.
podemos recorrer s tcnicas de clculo diObservao: Para se encontrar Q,
ferencial integral ou fazermos por inspeo da funo L. Ao recorrermos s tcnicas de clculo, na maioria das vezes, torna-se mais fcil trabalhar com a transformao ln[L], e o valor que maximiza L o mesmo que maximiza o ln[L].
Exemplo: Considerando o exemplo anterior, de modo geral, o EMV do parX
metro p de uma binomial, com X sucessos em n provas p = .
n
Para se chegar nesse estimador, observe que a funo de verossimilhana
neste caso
L(p) = px (1 p)n x,
e que o mximo dessa funo ocorre no mesmo ponto que ln[L(p)]. Portanto,
ln[L(p)] = x . ln(p) + (n x) . ln(1 p),
110

Estimao de parmetros

e derivando
ln[L( p )] =
de onde obtemos p =

X
n

x
p

n x
n p

= 0,

Mtodo dos momentos


Este mtodo foi o primeiro a ser proposto e usado. Consiste em supor que
os momentos da distribuio da populao coincidem com os da amostra.
Expressando os parmetros populacionais a estimar em funo dos momentos de ordem menor, obtm-se um sistema de equaes cuja soluo fornece as estimativas desejadas. Esse mtodo produz, em geral, estimadores
consistentes, mas que, muitas vezes, no so os mais eficientes.
Ento basicamente o que se faz montar um sistema de equaes com
tantas equaes quantos forem os parmetros a estimar. Assim, temos Mr o
r-simo momento em torno de zero, isto ,
r

Mr = E(X ),
e Mj o j-simo momento amostral em torno de zero, isto ,
1.

j
Xi
n i
Podemos formar o conjunto de equaes:

Mj =

M1 = M1
M2 = M2
.
.
.
Mk = Mk ,
ou seja, Mr = Mr , com r = 1, 2, ..., k.
soluo desse sistema de equaes chamamos de estimador de Q
obtido pelo mtodo dos momentos.

111

Mtodos Quantitativos Estatsticos

Exemplo: Considere uma amostra aleatria X1, X2, ...,Xn de X ~ N(M; S2) (Leia:
X tem distribuio Normal com parmetros (M; S2)). Faa Q = (Q1, Q2) = (M; S2).
Estime M e S2 .
Soluo:
M1 = E(X1) = E(X) = M = Q1
M2 = E(X2) = S2 + M2 = Q2 + Q12
(I) M1 = M1 m

1.
X
Xi = M M
n i

(II) M2 = M2 m

1.

2
2 =
Xi = S2 + M2 m S
i

1
n

Xi X

Intervalos de Confiana (I.C.)


At agora, todos os estimadores apresentados foram estimadores pontuais,
isto , especificam um nico valor para o estimador. Este procedimento no
permite julgar qual a possvel magnitude do erro que estamos cometendo.
Da surge a idia de construir os intervalos de confiana em torno da estimativa
pontual, de modo que esse intervalo tenha uma probabilidade conhecida de
conter o verdadeiro valor do parmetro.
Ao intervalo que, com probabilidade conhecida, deve conter o valor
real do parmetro chamaremos intervalo de confiana para esse parmetro.
probabilidade, que designaremos por G = 1 A, de que um intervalo de
confiana contenha o valor do parmetro chamaremos nvel de confiana ou
grau de confiana do respectivo intervalo. Veremos que A a probabilidade
de erro na estimao por intervalo, isto , a probabilidade de errarmos ao afirmar que o valor do parmetro est contido no intervalo de confiana.
Exemplo: A estimativa pontual da mdia populacional M feita por um valor X.
Qualquer que seja a amostra, teremos um erro que ser X M. De acordo com
o Teorema do Limite Central, teremos

e= X M ~ N 0; S 2x
2
com S x =

. Daqui podemos determinar qual a probabilidade de conter


n
erros de determinada magnitude. Por exemplo,
Pr( |e| < 1,96 Sx ) = 0,95

112

Estimao de parmetros

ou
Pr( |X - M| < 1,96 Sx ) = 0,95
que equivalente a
Pr( M 1,96 Sx < X < M + 1,96 Sx ) = 0,95

(I)

Esta afirmao probabilstica pode ser escrita do seguinte modo:


Pr( X 1,96 Sx < M <X + 1,96 Sx) = 0,95

(II)

Convm lembrar que M no uma varivel aleatria mas um parmetro,


e a expresso (II) deve ser interpretada do seguinte modo: construdos todos
os intervalos da forma X 1, 96 S x , 95% deles contero o verdadeiro valor do
parmetro M.
Sorteada uma amostra e encontrada sua mdia X , e admitindo conhecido S x , podemos construir o intervalo
X p 1,96 S x .
Este intervalo pode ou no conter o parmetro M, mas pelo exposto acima
temos 95% de confiana, de que contenha.
Definio 4: Seja (X1, X2, ..., Xn) uma amostra aleatria de uma populao
e Q o parmetro de interesse. Se T um estimador de Q, e conhecida distribuio amostral de T, sempre possvel achar dois valores t1 e t2, tal que
Pr( t1 < Q < t2 ) = 1 A = G
sendo G um valor fixado e 0 < G < 1.
Para uma dada amostra, teremos dois valores fixos t1 e t2, e o intervalo de
confiana para Q com nvel de confiana G indicado do seguinte modo:
IC(Q: G) = [t1, t2] .

Intervalo de confiana para com 2 = 20 conhecido


O intervalo de confiana para M com 100G % de confiana dado por:

S
S
I.C.(M : G) = X z A . 0 ; X + z . 0 ,
A
2
n
n
2

com Pr(Z < z) = Pr(Z > z) =

A
2

.
113

Mtodos Quantitativos Estatsticos

Lembrando que z A o valor da distribuio Normal padro cuja rea


A

.
2
Exemplo: Um metalrgico fez quatro determinaes do ponto de fuso do
mangans resultando em (graus centgrados): 1 269, 1 271, 1 263 e 1 265. Vamos
construir o intervalo de confiana para a mdia M desta populao assumindo
que a amostra aleatria e que o ponto de fuso do mangans uma varivel
aleatria com distribuio normal (M,25), ou seja, a varincia conhecida e igual
a 25. Use A = 0,01.
direita igual a

Assim, basta substituirmos as informaes do problema em

S0
S
; X + z . 0 . Temos X = 1 267 e o valor de Z obtido igual
X zA 2 .
A
n
n
2

a 2,576 fazendo a consulta tabela da distribuio normal padro.


Este valor obtido atravs do valor A 2 = 0,005 que o tamanho da rea
direita (ou esquerda) da curva normal. Como a tabela solicita o tamanho
da rea sob a curva normal que vai do ponto central (zero) at o limite, devemos fazer 0,5 0,005 = 0,495 .
Assim,

. 5
. 5
1267 2,576 4 ; 1267 + 2,576 4 = ;1267 6, 44; 1267 + 6, 44 = 

= (1 260,56 ; 1 273,44) so os limites do intervalo de confiana.


Resolvendo o problema com a planilha Excel poderamos usar a funo
INT.CONFIANA fazendo:
Alfa, nvel de significncia empregado, neste caso igual a 0,01;
Desv_Padro, desvio padro conhecido, neste caso igual a 5;
Tamanho, tamanho da amostra, aqui temos n = 4 observaes.
S0
.
O resultado fornecido pela planilha o erro de estimativa ou seja, z A .
2
n

114

Estimao de parmetros

Intervalo de confiana para com 2 desconhecido


O intervalo de confiana para M com 100G % de confiana dado por:
S
S

I.C.(M G ) = X t .
; X + t.

n
n

com Pr(t(n1) < t) = Pr(t(n1) > t) =

.
2
Lembrando que tn1 o valor da distribuio t de Student com n1 graus
A
de liberdade cuja rea direita igual a .
2
Portanto, agora, com a varincia desconhecida usamos a tabela t de Student em vez da tabela Z.
Exemplo: suponhamos agora, usando o problema resolvido acima, que a varincia fosse na verdade desconhecida. Assim, teramos que obter uma estimativa com base na amostra. Assim, teramos S = 3,6514 (por meio da frmu  x i X . fi
2

) e o intervalo seria um pouco modificado pois


n 1
tn1 = 5,8408 consultando a tabela t de Student com nvel de significncia de
la de varincia:

1%. Ento o intervalo ser:


115

Mtodos Quantitativos Estatsticos

. 3, 6514 ;1 267 + 5, 8408. 3, 6514 = ( 1 267 10,66 ; 1 267 + 10,66) =


1 267 5, 8408
4
4

= (1256,34; 1277,66) . Observe que neste caso o erro de estimativa maior


que quando consideramos a varincia conhecida.
Na planilha Excel, uma forma de obter o intervalo acima utilizando a ferramenta de Anlise de dados (Estatstica Descritiva), que fornece uma srie
de resultados a respeito da amostra:

116

Estimao de parmetros

Intervalo de confiana para a razo de varincias 12/ 22


O intervalo de confiana para S12/ S22 com 100G % de confiana dado por:

S12 . 1

I.C.(S2 : G) =

S12 . 1

,
2
2
S2 F2 S2 F1

onde F1 e F2 so tais que, Pr(Fn

< F1) = Pr(Fn

1 1; n21

> F2) =

. Este interva2
lo muito til para verificarmos se duas populaes so homogneas. Para
1
A
encontrar F1, fazemos Pr(Fn 1; n 1 > ) = .
2
1
F1
2
1 1; n21

Lembrando que Fn 1; n 1 o valor da distribuio F com n11 e n21 graus


1
2
de liberdade.
Exemplo: Queremos verificar se duas mquinas produzem peas com a
mesma homogeneidade quanto resistncia tenso. Para isso, sorteamos duas amostras de 6 peas de cada mquina, e obtivemos as seguintes
resistncias:
Mquina A

145

127

136

142

141

137

Mquina B

143

128

132

138

142

132

Vamos obter o intervalo de confiana para a razo das varincias considerando um nvel de significncia de 10%. Primeiramente obtemos as varincias dos dados acima. S12 = 40 e S22 = 36,97. Consultando a tabela F em anexo
temos F1 = 0,198 e F2 = 5,05.
F2 foi obtido primeiro alimentando a tabela com n11=5 e n21= 5 graus de
liberdade e o valor fornecido foi 5,05. Para obter F1 fazemos

1
5, 05

= 0,198.

40 . 1
40 . 1
= ( 0,214 ; 5,46 ).
Assim, temos o intervalo
;
36, 97 5, 05 36, 97 0,198
Como o valor 1 est includo no intervalo, isto significa que os dois grupos
so homogneos ou seja, as varincias podem ser consideradas iguais.

117

Mtodos Quantitativos Estatsticos

Intervalo de confiana para proporo


Vamos agora obter um intervalo de confiana para p. Sabemos que
X = nmero de sucessos nas n provas de Bernoulli, ento X tem uma
distribuio aproximadamente normal, com mdia M = np e varincia
S 2 = n.p.(1-p). Conseqentemente,
Z=

X n.p
n.p.(1 p )

~ N(0; 1),

ou ainda,
Z=

X
p
n
p.(1 p )

=
n

p p
p.(1 p )

~ N(0; 1).
n

Assim, o intervalo para P ser

(1 p )
(1 p )
p.
p.
b p b p + z A .
p z A .
, (III)
2
2
n
n

onde z tal que Pr(Z < z) = Pr(Z > z) =

.
2
Exemplo: Suponha que em n = 400 provas, obtemos k = 80 sucessos. Vamos
obter um intervalo de confiana para p, com G = 0,90.
Neste caso, p = 80

= 1 0, 2 = 0, 8, ento, o intervalo de
= 0, 2 e (1 p)
400
confiana, utilizando a expresso (III), dado por:
0, 2 (1, 64).

(0, 2).(0, 8)
400

= 0, 20, 033,

ou seja,
IC(p: 90%) = [ 0,167; 0,233].
Note que o valor ZA/2 =1,64 foi obtido consultando a tabela Z (Normal
padro) para um nvel de significncia de 10% (1 G). Distribui-se, neste
caso, 5% de significncia para cada lado do intervalo de confiana. Assim, na
tabela, devemos procurar o valor 0,45 (0,5 0,05) que ir ser encontrado na
linha 1,6 e na coluna 0,04, ento ZA/2 = 1,64.
118

Estimao de parmetros

Erro de Estimao e Tamanho das amostras


Acabamos de ver como construir intervalos de confiana para os principais
parmetros populacionais. Em todos os casos, supusemos dado o nvel de confiana desses intervalos. Evidentemente, o nvel de confiana deve ser fixado
de acordo com a probabilidade de acerto que se deseja ter na estimao por
intervalo. Sendo conveniente, o nvel de confiana pode ser aumentado at
to prximo de 100% quanto se queira, mas isso resulta em intervalos de amplitude cada vez maiores, o que significa perda de preciso na estimao.
claro que seria desejvel termos intervalos com alto nvel de confiana
e pequena amplitude, o que corresponderia a estimarmos o parmetro em
questo com pequena probabilidade de erro e grande preciso. Isso, porm,
requer uma amostra suficientemente grande, pois, para n fixo, confiana e
preciso variam em sentido opostos.
Veremos a seguir como determinar o erro de estimao e o tamanho das
amostras necessrias nos casos de estimao da mdia ou de uma proporo populacional.
O erro num intervalo de estimao diz respeito diferena entre a mdia
amostral e a verdadeira mdia da populao. Como o intervalo tem centro
na mdia amostral, o erro mximo provvel igual metade da amplitude do
intervalo (semi-amplitude).
Vimos que o intervalo de confiana para a mdia M da populao normal
quando S conhecido tem semi-amplitude dada por:
e = zA

S
2

(IV)

Fixando e e n na expresso acima, podemos determinar A, o que equivale a determinar a confiana de um intervalo de amplitude conhecida. Podemos tambm, fixados A e e, determinar n, que o problema da determinao do tamanho da amostra necessria para se realizar a estimao por
intervalo com confiana e a preciso desejadas. Deste modo temos que,
2

zA . S
n = 2 . (A)
e
Est ser a expresso usada para a determinao do tamanho da amostra
necessria, se S for conhecido.
119

Mtodos Quantitativos Estatsticos

No conhecendo o desvio-padro da populao, deveramos substitu-lo


por sua estimativa S e usar a distribuio t de Student, ou seja, substituir S por S
e usar t de Student na expresso (IV). Ocorre, porm, que, no tendo ainda sido
retirada a amostra, no dispomos, em geral, do valor de S. Se no conhecemos
nem ao menos uma limitao superior para S, a nica soluo , ento, colher
uma amostra-piloto de tamanho n e, com base nela, obtermos uma estimativa
S, empregando, a seguir, a expresso
2

tn 1. S . (B)
n=
e
Se n b n, a amostra-piloto suficiente para a estimao. Caso contrrio,
deveremos retirar, ainda, da populao, os elementos necessrios complementao do tamanho mnimo da amostra.
Procedemos de forma anloga se desejamos estimar uma proporo populacional com determinada confiana e dada preciso. Da expresso (III)
podemos obter
2

zA
n = 2 . p. (1 p ) . (V)
e
O obstculo determinao do tamanho da amostra por meio da expresso (V) est em desconhecermos p e tampouco dispormos de sua estimativa
p, pois a amostra ainda no foi retirada. Essa dificuldade pode ser resolvida
por meio de uma amostra-piloto, analogamente ao caso descrito na estimao de M, ou analisando-se o comportamento do fator p.(1- p) para 0 b p b1.
Pode-se observar facilmente que p.(1- p) a expresso de uma parbola cujo
ponto mximo p = .
Desse modo, se substituirmos, na expresso (V), p.(1-p) por seu valor
mximo, , seguramente o tamanho de amostra obtido ser suficiente para
a estimao, qualquer que seja p. Isso equivale a considerar
2

zA 1 zA
n = 2 . = 2 . (VI)
e 4 2 e
Pelo mesmo raciocnio, se sabemos que seguramente p b p0 b ou
p r p0 r, podemos usar o limite p0 em vez de p, na expresso (VI), obtendo
um tamanho de amostra suficiente, pois teremos ento p.(1p) b p0.(1p0).
120

Estimao de parmetros

Evidentemente, usando-se a expresso (VI), corre-se o risco de dimensionar uma amostra bem maior do que a realmente necessria. Isso ocorrer se
p for, na realidade, prximo de 0 ou 1. Se o custo envolvido for elevado e proporcional ao tamanho da amostra, ser desejvel evitar que tal fato ocorra,
sendo mais prudente a tomada de uma amostra-piloto. Inversamente, em
muitos casos, prefervel, por simplificao, proceder conforme indicado,
com base em uma limitao superior para o fator p.(1-p).
Exemplo: Qual o tamanho de amostra necessria para se estimar a mdia de
uma populao infinita cujo desvio-padro igual a 4, com 98% de confiana e preciso de 0,5?
Ao definirmos a preciso da estimativa desejada, estamos estabelecendo
o erro mximo que desejamos cometer, com a confiana dada. Logo, essa
preciso equivale numericamente prpria semi-amplitude do intervalo de
confiana. Portanto, utilizando a expersso A dado que o desvio padro
conhecido, temos:
2

2
z A S
2,33. 4
2
n=
= 347,50.
=
0,5
e

O valor de ZA/2 =2,33 foi obtido consultando a tabela Z da distribuio


normal padro considerando A/2 = 0,01. Devemos encontrar, na tabela, portanto, o valor referente rea 0,50 0,01 = 0,49.
Logo, necessitamos de uma amostra de 348 elementos.
Exemplo: Qual o tamanho de amostra suficiente para estimarmos a proporo
de defeituosos fornecidos por uma mquina, com preciso de 0,02 e 95% de
confiana, sabendo que essa proporo seguramente no superior a 0,20?
Agora estamos estimando uma proporo e precisamos dimensionar uma
amostra com 95% de confiana e margem de erro de 2%.
Ento usando a expresso V, temos
2

2
zA
1, 960
2
n=
. 0, 20 . 0, 80=1 536, 64
.p0 .(1 p0 ) =
0, 02
e

O valor de ZA/2 = 1,96 foi encontrado na tabela da distribuio normal


padro a partir do valor 0,5 0,025 = 0,475. Somando a linha 1,90 mais a
coluna 0,06, obtemos 1,96 como sendo o valor crtico.
Logo, ser suficiente uma amostra de 1 537 elementos.
121

Mtodos Quantitativos Estatsticos

Ampliando seus conhecimentos


Tcnica Bootstrap
(BARROS, 2005)

O mtodo Bootstrap foi originalmente proposto por Bradley Efron em um


influente artigo publicado no Annals of Statistics, em 1979. Este mtodo de
simulao se baseia na construo de distribuies amostrais por reamostragem, e muito utilizado para estimar intervalos de confiana de parmetros,
em circunstncias em que outras tcnicas no so aplicveis, em particular
no caso em que o nmero de amostras reduzido. Esta tcnica foi extrapolada para a resoluo de muitos outros problemas de difcil resoluo por
meio de tcnicas de anlise estatstica tradicionais (baseadas na hiptese
de um elevado nmero de amostras). Pode ser utilizado, por exemplo, para
estimar o vis e a varincia de estimadores ou de testes de hipteses calibrados. O mtodo tem por base a idia de que o pesquisador pode tratar sua
amostra como se ela fosse a populao que deu origem aos dados e usar
amostragem com reposio da amostra original para gerar pseudoamostras.
A partir destas pseudo-amostras, possvel estimar caractersticas da populao, tais como mdia, varincia, percentis, etc. Vrios esquemas diferentes de simulao Bootstrap tm sido propostos na literatura e muitos deles
apresentam bom desempenho em uma ampla variedade de situaes.
Suponha disponvel um conjunto de observaes e o interesse em fazer
inferncias a respeito do parmetro . Sabe-se que o estimador no viciado
de a mdia amostral x cujo erro padro pode ser calculado por:

1 .n
2
Erro padro da mdia =
xi x
n.(n1) i =1

1/2

Por outro lado, suponha o interesse em fazer inferncia para algum outro
parmetro, como, por exemplo, o coeficiente de correlao, no h nenhuma
frmula analtica simples que permite calcular o seu erro padro. O mtodo
de Bootstrap foi projetado para fazer simulaes para este tipo de problema.
A idia bsica da simulao Bootstrap amostrar os dados originais com reposio, obtendo-se dados analticos, em que, destes dados, calcula-se a estatstica de interesse.
122

Estimao de parmetros

Repete-se este processo inmeras vezes at a obteno de B valores. Calcula-se o erro padro destes valores e ento, tem-se o erro padro da estatstica.
Dado o custo alto e a escassez conseqente de dados em muitas aplicaes,
combinadas com o custo reduzido e abundncia do poder da computao, o
mtodo de Bootstrap se torna uma tcnica muito atraente por extrair informaes de dados empricos.

Atividades de aplicao
1. Para encontrar o estimador de mxima verossimilhana de um parmetro, devemos maximizar a funo de verossimilhana atravs de
que procedimento?
a) Derivando a funo de verossimilhana.
b) Maximizando a probabilidade de sucesso.
c) Obtendo o valor da funo que minimiza o erro.
d) Encontrando um estimador que no tendencioso.
e) Aumentando o tamanho da amostra.
2. Foram sorteadas 15 famlias com filhos num certo bairro e observado
o nmero de crianas de cada famlia, matriculadas na escola. Os dados foram: 1, 1, 2, 0, 2, 0, 2, 3, 4, 1, 1, 2, 0, 0, e 2. Obtenha as estimativas
correspondentes aos seguintes estimadores da mdia de crianas na
escola nesse bairro:

M1 = (mnimo + mximo)/2
M2 = (X1 + X2)/2
M3 = X
Qual deles o melhor estimador da mdia e por qu?

3. Suponha que X tenha distribuio N(M,4). Uma amostra de tamanho


25 fornece mdia amostral X = 78,3. Determine um intervalo de confiana de 99% para M.

123

Mtodos Quantitativos Estatsticos

4. Registraram-se os valores 0,28; 0,30; 0,27; 0,33; 0,31 segundos, obtidos


em 5 medies de tempo de reao de um indivduo a um certo estmulo. Determine os limites de confiana de:
a) 95%;
b) 99% para o tempo mdio de reao.
5. O fabricante de uma droga medicinal declarou que ela era 90% eficaz
em curar uma alergia, em um perodo de 8 horas. Em uma amostra de
200 pessoas que tinham a alergia, a droga curou 160 pessoas. Determinar se a declarao do fabricante legtima. Considere A = 0,01.
6. O comprimento de certo tipo de eixo, produzido por uma indstria
automobilstica tem uma pequena variao de pea por pea. Sabe-se
que o desvio padro de 4 mm. Uma amostra aleatria de 100 desses
eixos forneceu um comprimento mdio de 4,52 mm.
a) Construa o intervalo de confiana 90%, para a mdia do comprimento desses eixos.
b) D a sua interpretao para o intervalo encontrado. Ser que podemos dizer que o intervalo encontrado tem probabilidade de
0,90 de conter a verdadeira mdia?
7. Interprete e comente as afirmaes abaixo:
a) A mdia de salrio inicial para recm formados em Administrao
est entre 8 e 10 salrios mnimos com 95% de confiana.
b) Quanto maior for o tamanho da amostra, maior a probabilidade
da mdia amostral estar prxima da verdadeira mdia.
8. Desejamos coletar uma amostra de uma varivel aleatria X com distribuio Normal de mdia desconhecida e varincia 30. Qual deve ser
o tamanho da amostra para que, com 0,92 de probabilidade, a mdia
amostral no difira da mdia da populao por mais de 3 unidades?
9. Numa pesquisa de mercado, desejamos estimar a proporo de pessoas que compram determinada marca de xampu.
a) Que tamanho de amostra deveremos ter para que, com probabilidade 0,90, a proporo amostral no se desvie do verdadeiro valor
por mais de 0,05?
b) Se tivermos a informao adicional de que a aceitao do xampu
no mnimo 0,8, qual deve ser ento o tamanho da amostra?
124

Testes de Hipteses: conceitos

Introduo
Os testes estatsticos so regras de decises, vinculadas a um fenmeno
da populao, que nos possibilitam avaliar, com o auxlio de uma amostra,
se determinadas hipteses (suposies, conjecturas, algo qualquer que um
pesquisador esteja estabelecendo) podem ser rejeitadas, ou no.
No campo da Inferncia Estatstica, a busca por respostas acerca de certas
caractersticas de uma populao estudada de fundamental impotncia.
Apenas com base nessas caractersticas que se devem estabelecer regras e
tomar decises sobre qualquer hiptese formulada no que se refere populao. Dessa forma, escolhida uma varivel X e colhida uma amostra aleatria
da populao, podemos estar interessados em inferir a respeito de alguns
de seus parmetros (mdia, varincia e proporo, por exemplo) e, tambm,
sobre o comportamento da varivel (a sua distribuio de probabilidade).
A realizao de testes de hipteses nos fornece meios para que possamos,
com determinado grau de certeza, concluir se os valores dos parmetros ou
mesmo a distribuio associados populao considerada, podem represent-la de forma satisfatria. Nesse contexto, temos os Testes Paramtricos,
vinculados estimao dos valores dos parmetros e os Testes de Aderncia, associados busca da distribuio de X. Na verdade, quando realizamos
Testes Paramtricos, esses esto intimamente ligados aos Testes de Aderncia, pois, para se obter a determinada certeza citada, necessrio que saibamos qual a distribuio de probabilidade que melhor se ajusta s estimativas
observadas por intermdio das amostras.
A maior parte das cincias se utiliza da tcnica estatstica denominada
Teste de Hipteses. Podemos citar algumas suposies: a roleta de certo cassino honesta; a propaganda de um produto veiculada na televiso surtiu o
efeito desejado; uma rao desenvolvida para certo animal proporcionou um
ganho maior de peso do que aquela j utilizada h anos; vale a pena trocar
as mquinas desta indstria por outras, mais modernas; qual medicamento
mais eficaz no tratamento de certa doena; a metodologia empregada na
educao infantil est associada ao aprendizado.

Mtodos Quantitativos Estatsticos

A teoria geral da construo e anlise de testes de hipteses um captulo muito importante da Estatstica. Seus fundamentos tericos foram desenvolvidos por Neyman e Pearson, e o mtodo usual de obteno de testes o
mtodo da razo de verossimilhana.
Vamos supor que exista uma hiptese, a qual considerada vlida at
prova em contrrio, referente a um dado parmetro da populao. Essa hiptese testada com base em resultados amostrais, sendo aceita ou rejeitada,
conforme veremos a seguir.
Sob diversos aspectos, o problema dos testes de hipteses o oposto
ao da estimao, mas h tambm vrios pontos que so comuns aos dois
casos. A estimao feita com base em uma varivel convenientemente
escolhida, funo dos elementos da amostra, denominada estimador. Nos
problemas de teste de hipteses, nossas concluses baseiam-se em variveis calculadas a partir da amostra ou amostras disponveis. Os mesmos
critrios para a escolha de bons estimadores, em problemas de estimao,
vo agora nos orientar na escolha da varivel de teste adequada. Por exemplo, vimos que a mdia amostral X o estimador da mdia populacional .
Ento, pelas mesmas razes, se desejarmos testar uma hiptese referente
ao verdadeiro valor da mdia da populao, a varivel de teste mais adequada ser X .
A seguir, introduzimos a idia de teste de hipteses por meio de um exemplo hipottico que, partindo de uma situao simples, ser gradualmente
ampliado para atender situao geral de teste de hipteses.
Exemplo: Suponha que uma indstria compre de certo fabricante parafusos
cuja carga mdia de ruptura por trao especificada em 50 kg e o desvio
padro das cargas de ruptura suposto igual a 4 kg e independente do valor
mdio.
O comprador deseja verificar se um grande lote de parafusos recebidos
deve ser considerado satisfatrio. Existe alguma razo para se temer que esse
lote possa ser formado por parafusos, cuja carga mdia de ruptura seja inferior a 50 kg, o que seria indesejvel. Por outro lado, o fato de a carga mdia de
ruptura ser eventualmente superior a 50 kg no preocupa o comprador, pois,
nesse caso, os parafusos seriam de qualidade superior especificada.
Ento, o comprador adota o seguinte critrio para decidir se concorda em
comprar o lote ou se prefere devolv-lo ao fabricante: tomar uma amostra
128

Testes de Hipteses: Conceitos

aleatria de 25 parafusos do lote e submet-los a ensaio de ruptura; se a


carga mdia de ruptura observada nessa amostra for maior ou igual a 48kg,
ele comprar o lote; caso contrrio, ele se recusar a comprar.
Esse comprador est testando a hiptese de que a carga mdia de ruptura dos parafusos do lote seja 50kg, contra a alternativa de que ela seja inferior a 50kg.
Suponha que, depois de realizado o teste, ns afirmssemos que a populao dos valores da carga de ruptura tem realmente = 50kg. Poderamos
estar errados nessa afirmao? A resposta sim, o que levaria o comprador
a aceitar um lote abaixo das especificaes exigidas. Ento, para melhor entendermos a regra de deciso adotada, interessante estudarmos os tipos
de erros que podemos cometer.
Podemos cometer dois tipos de erro:
Erro tipo I : rejeitar o lote de parafusos quando, na verdade, o lote era satisfatrio, isto , rejeitar quando realmente = 50 kg.
Erro tipo II : aceitar o lote de parafusos quando, na verdade, o lote no era
satisfatrio, isto , aceitar quando < 50 kg.
O erro tipo I, levaria o comprador a deixar de adquirir um lote perfeitamente satisfatrio e o erro tipo II, levaria o comprador a adquirir um lote
insatisfatrio, com prejuzo produo.

Conceitos Fundamentais
Consideremos uma amostra (X1, X2, ..., Xn) de uma varivel aleatria que
um estidescreve uma caracterstica de interesse de uma populao. Seja Q
mador (uma estatstica) de um parmetro Qdessa populao.

Hiptese nula e Hiptese alternativa


Uma hiptese estatstica, que denotaremos por H, qualquer afirmao
sobre a populao em estudo. Em geral, o que nos interessa so as afirmaes sobre os parmetros da populao.
Usualmente, vamos decidir entre duas hipteses, uma bastante especfica a respeito do valor do parmetro, chamada de hiptese nula e denotada
129

Mtodos Quantitativos Estatsticos

por H0; e a segunda fornecendo uma alternativa mais geral, chamada de


hiptese alternativa e denotada por H1.
Suponha, por exemplo, que desejamos testar a afirmao de que o parmetro Q da populao igual a um valor qualquer Q0. Neste caso, as hipteses
so definidas de acordo com o interesse da pesquisa e podemos estabelecer
testes especficos conforme o objetivo do pesquisador. Por exemplo:
a) Teste Bilateral (Bicaudal) : H0 : Q = Q0 vs H1 : Q x Q0
Note que o objetivo desse teste decidir se o parmetro populacional
no difere de Q0, no importando se Q maior ou menor do que Q0.
ou
b) Teste Unilateral Direita: H0 : Q = Q0 vs H1 : Q > Q0
Esse teste tem por finalidade verificar se, o parmetro no s difere de Q0,
mas tambm, se maior do que Q0. Objetivamente, poderamos citar uma
pesquisa que visa verificar se um determinado candidato a prefeito, conseguiu aumentar sua inteno de votos aps a realizao de um debate com
seu adversrio realizado pela televiso.
ou ainda
c) Teste Unilateral Esquerda H0 : Q = Q0 vs H1 : Q < Q0
Esse teste tem por finalidade verificar se o parmetro no s difere de
Q0, mas, tambm, se menor do que Q0. Nesse contexto, poderamos estabelecer uma Regra de Deciso para verificar, por exemplo, se o retorno de
investimento de determinado fundo menor do que Q0 . Pois, se for menor,
no recomendado continuarmos investindo nesse fundo.

Erros Tipo I e Tipo II


A hiptese nula, H0, pode ser falsa ou verdadeira. Entretanto, o processo de sua rejeio ou aceitao diferente daquele usado para provar uma
proposio matemtica que tambm falsa ou verdadeira. Em contraste,
h sempre um grau de incerteza na deciso tomada a respeito de uma hiptese estatstica. Esse o preo a ser pago por estarmos trabalhando em uma
situao em que a variabilidade inerente.
Erro tipo I: rejeitar H0 quando esta verdadeira.
130

Testes de Hipteses: Conceitos

Erro tipo II: no rejeitar H0 quando esta falsa.


A probabilidade de se cometer um erro tipo I depende dos valores dos parmetros da populao e designada por A. O valor de A, para H0 verdadeira,
chamado nvel de significncia do teste; isto , o nvel de significncia de um
teste a probabilidade com que desejamos correr o risco de um erro tipo I. O
resultado da amostra cada vez mais significante para rejeitar H0 quanto menor
for o nvel A. Usualmente, esses valores so fixados em 5%, 1% ou 0,1%.
A probabilidade de se cometer um erro tipo II designada por B. A determinao do valor B j mais difcil, pois, usualmente no se especificam valores fixos para o parmetro na situao alternativa. Podemos atribuir alguns
valores, escolhidos dentro do caso alternativo, e encontrar o valor correspondente de B.
O esquema a seguir mostra os erros que podemos cometer e suas
probabilidades.
Situao especfica na populao (realidade)
aceita H0
Deciso
rejeita H0

H0 verdadeira

H0 falsa

correto

erro tipo II

(1A)

(B)

erro tipo I

correto

(A)

(1B)

Deve-se notar que as probabilidades A e B so condicionadas realidade.


Fica claro, tambm, no esquema, que o erro tipo I s pode ser cometido se H0
for verdadeira, e o erro tipo II, se H0 for falsa. Da mesma forma, o erro tipo I s
pode ser cometido se H0 for rejeitada e o erro tipo II, se H0 for aceita.
O erro tipo I controlado pelo pesquisador, e ele que define a margem
de erro que est disposto a correr. Existem vrios fatores que influenciam na
escolha do nvel de significncia. Em pesquisas, como nas cincias exatas,
biolgicas, agronmicas, em que as variveis so mais fceis de mensurar, os
instrumentos de medida so confiveis, o controle de fatores intervenientes
razovel, o conhecimento da rea maior, a gravidade das conseqncias do
erro menor, entre outros, permitem um maior rigor e, portanto, pode-se ser
mais exigente, diminuindo o nvel de significncia. Contudo, em pesquisas,
nas cincias humanas, que lida com pessoas, com construtos polmicos, instrumentos ainda no testados, as conseqncias do erro no so to graves,
podendo ser mais flexvel. Via de regra, usa-se o nvel de 5%.
131

Mtodos Quantitativos Estatsticos

Regio Crtica
A faixa de valores da varivel de teste que leva rejeio de H0 denominada regio crtica (RC) do teste. A faixa restante constitui a regio de
aceitao.
Esta regio construda de modo que P(Q RC dado que Ho verdadeira)
seja igual a A, um nmero fixado.
Se o valor observado da estatstica pertene a RC, rejeitamos H0; caso contrrio, no rejeitamos H0.

Poder de um teste
Definida uma hiptese H0 sobre um parmetro Q = Q0, e determinada a
a funo poder do teste B(Q) indica a
regio crtica RC para sua estatstica Q,
probabilidade de uma deciso correta, segundo as diversas alternativas do
parmetro, e pode ser usada para se decidir entre dois testes, indicando qual
deles melhor para testar uma mesma hiptese.

Regra de Deciso
Vamos tomar o seguinte exemplo referente ao rendimento bruto de um
certo fundo de investimentos. Poderamos criar uma Regra de Deciso com
base em A = 0, 01 e H1: < 1,71% . Assim, poderamos estabelecer a seguinte
regra: caso coletarmos uma amostra cujo resultado observado for menor do
que 1,67%, decidiremos por rejeitar H0, pois a probabilidade disso ocorrer
menor do que A = 0,01. Ou seja, sob a referncia (A=0,01), a amostra coletada
dever ser vista como rara se a hiptese nula for verdadeira (H0 : = 1,71%).
Conseqentemente, seria mais conveniente optarmos por afirmar que
< 1,71%.
interessante refletir sobre a seguinte pergunta: o valor 1,67% menor
do que 1,71%? Obviamente que perguntando desta forma todos diriam que
sim. Porm, antes que saibamos como esses resultados foram obtidos, a
melhor resposta seria: depende. Considere, ento, as seguintes reflexes:
1. Se medssemos os rendimentos de dois fundos do tipo A e B, da mesma maneira e obtivssemos, respectivamente, 1,67% e 1,71%. Concluiramos que A , de fato, pior do que B;

132

Testes de Hipteses: Conceitos

2. Se o interesse for descobrir e comparar o rendimento mdio de dois


fundos (A e B), poderamos obter essas mdias de vrias maneiras. Vejamos dois casos:
a) com a coleta das duas populaes, as mdias obtidas seriam as mdias verdadeiras, ou seja, os valores paramtricos (A e B). Assim,
diramos novamente que 1,67% menor do que 1,71%.
b) coletando-se a populao de A e uma amostra de B, e obtidas as
mdias A = 1,67% e x B = 1,71%, no poderamos afirmar com absoluta certeza que 1,67% menor do que 1,71%. Pois, sabemos
que X uma varivel aleatria e apenas com base no comportamento de X A que poderamos decidir se, provavelmente, A < B.
Assim, se tanto no fundo A quanto no fundo B, ou nos dois, forem coletadas amostras, a resposta para a questo proposta sempre depender do comportamento das estimativas das possveis
amostras. Comportamento esse, representado por meio de uma
distribuio de probabilidades e, portanto, toda deciso a respeito
da questo vir acompanhada de um grau de incerteza. A Inferncia Estatstica, por intermdio do Teste de Hipteses, visa responder a essa questo.

Passos para a construo de um teste de hipteses


Daremos abaixo, uma seqncia que pode ser usada sistematicamente
para qualquer teste de hipteses sobre um parmetro populacional Q.
Passo 1: Definir qual a hiptese nula, H0, a ser testada e qual a hiptese
alternativa H1.
Passo 2: Escolher a estatstica de teste (estimador) adequada que ser
usada para julgar a hiptese nula H0.
Passo 3: Escolher o nvel de significncia A e estabelecer a regio crtica.
Passo 4: Calcular o valor da estatstica de teste com base em uma amostra de tamanho n extrada da populao.
Passo 5: Rejeitar H0 se o valor calculado da estatstica pertencer regio
crtica. No rejeitar H0 se o valor calculado da estatstica no pertencer regio crtica.

133

Mtodos Quantitativos Estatsticos

Valor p (p-valor)
a probabilidade de cometer o erro de tipo I (rejeitar H0 quando ela
verdadeira), com os dados de uma amostra especfica. Este valor calculado
pelo software estatstico, assim o comparamos com o nvel de significncia
escolhido e tomamos a deciso. Se o p-valor for menor que o nvel de significncia escolhido rejeitamos Ho, caso contrrio, no rejeitamos H0.

Testes de hipteses no-paramtricos


A Estatstica no-paramtrica pode ser definida como uma coleo de
mtodos estatsticos aplicada a conjuntos de dados em que as suposies
distribucionais necessrias para aplicao de uma tcnica clssica (Intervalo de Confiana, Teste de Hiptese) no so satisfatoriamente atendidas.
tambm bastante til no tratamento de dados nos quais o nvel de mensurao das observaes no dos melhores.
Tais procedimentos so usados h muitos anos, embora no com o nome
atual. O rei Nabucodonossor aplicou informalmente o teste da permutao,
600 anos a.C. Clculos da probabilidade binomial foram feitos em 1710 pelo
mdico ingls Arbuthnott.
O primeiro livro-texto denotado aos mtodos no-paramtricos foi escrito por Siegel (1956). No entanto, Savage designa o ano de 1936 como o
verdadeiro incio da Estatstica no-paramtrica, marcado pela publicao
do artigo de Hotelling e Pabst sobre correlao por postos.
O tema central em Estatstica a chamada Inferncia Estatstica que
aborda dois tipos de problemas fundamentais: a estimao de parmetros
de uma populao, e o teste de hipteses. Na Inferncia Estatstica procuramos tirar concluses sobre um grande nmero de eventos com base na
observao de apenas parte deles. Os testes relacionados a Inferncia Estatstica nos dizem qual a margem de diferena que deve ser encontrada na
amostra para que possamos afirmar que elas representam realmente diferenas nos tratamentos (grupos). Como nesses procedimentos, na verdade
so testadas hipteses a respeito dos parmetros populacionais, esses so
chamados de Paramtricos.
Algumas tcnicas no so to rigorosas na especificao de condies acerca dos parmetros da populao da qual a amostra foi obtida.
134

Testes de Hipteses: Conceitos

Conseqentemente, as concluses no so to poderosas quanto s obtidas por tcnicas paramtricas. Essas tcnicas so chamadas de distribuio livre ou no-paramtricas.

Vantagens e desvantagens
Vantagens
Dispensam normalidade dos dados.
O p-valor exato (no caso paramtrico o clculo do p-valor se baseia
numa distribuio de probabilidade terica).
So testes mais simples.
So teis quando difcil estabelecer uma escala de valores quantitativos para os dados.
So mais eficientes que os paramtricos quando no existe normalidade.

Desvantagens
Proporcionam um desperdcio de informaes, j que em geral no
consideram a magnitude dos dados.
Quando as suposies do modelo estatstico so atendidas so menos
eficientes que os paramtricos.
A utilizao das tabelas dos testes mais complicada.

Escolha do teste estatstico adequado


importante a definio de critrios que nos ajudem a decidir qual o
teste ideal para determinado problema.
Um desses critrios, sem dvida, o Poder do Teste 1 B . O teste que
apresenta uma maior probabilidade de rejeitar H0 quando H0 falsa, entre
todos os testes de nvel A, deve ser escolhido. Mas s isto no basta e nem
sempre simples de ser obtido, portanto precisamos de outras informaes
para escolher o teste mais adequado:
Como foi obtida a amostra, ou seja, o plano experimental.
135

Mtodos Quantitativos Estatsticos

Natureza da populao (pessoas, objetos, reas, animais, etc.).


Tipo de mensurao dos dados (escala de mensurao).
Quando se usa um teste paramtrico existe uma srie de pressupostos a
serem verificados, alm do nvel mnimo de mensurao exigido ser a escala
intervalar.
Quando essas suposies no so verificadas possvel que o teste nos
leve a resultados errneos.
No caso no-paramtrico, o primeiro critrio a ser verificado deve ser o
nvel de mensurao dos dados.

Nvel de Mensurao
a) Escala Nominal
o mais baixo nvel de mensurao. Utiliza smbolos ou nmeros simplesmente para distinguir elementos em diferentes categorias (como
um nome), no havendo entre eles, geralmente, possibilidade de comparao do tipo maior-menor, melhor-pior.
Exemplos:
Masculino (M), Feminino (F)
Perfeito (1), Defeituosa (0)
Europeu (1), Americano(2), Africano (3), Asitico(4)
b) Escala Ordinal
Utiliza nmeros apenas para classificar elementos numa ordem crescente ou decrescente. Existe assim algum tipo de relao entre as categorias embora a diferena entre elas seja de difcil quantificao.
Exemplos:
Classes scio-econmicas (A, B, C, D, E)
Patentes do Exrcito (soldado, cabo, sargento, etc)
Opinio de um determinado produto (Ruim, Regular, Bom, Muito
bom, Excelente)
136

Testes de Hipteses: Conceitos

c) Escala Intervalar (Intervalo de medida)


Ocorre quando a escala tem as caractersticas da escala ordinal e ainda
possvel quantificar a diferena entre dois nmeros desta escala.
Exemplo: Temperatura, Peso, Altura, Rendimentos
Observao: Alguns autores apontam ainda a existncia de outra escala: a Escala de Razo, equivalente a escala intervalar, porm o valor
zero o verdadeiro ponto de origem.

Principais planos experimentais


Existem algumas situaes que podem ser consideradas as mais freqentes no cotidiano de quem aplica tcnicas estatsticas para analisar dados
amostrais. So os planos experimentais que orientam o pesquisador conduo do seu estudo, seguindo os princpios da metodologia cientfica. Podemos considerar abaixo, os planos mais comuns:

Caso de uma amostra


Neste plano nosso interesse verificar se determinada amostra pode
provir de uma populao especificada. So usualmente conhecidos como
testes de aderncia ou bondade do ajuste. Neste caso, retira-se uma amostra
aleatria e compara-se a distribuio amostral com uma distribuio de interesse. Os principais testes utilizados nesse caso so:
Teste Z;
Teste t de Student;
Teste Qui-quadrado;
Teste de Kolmogorov-Smirnov;
Teste de Lilliefors.

Caso de duas amostras relacionadas


Muitas vezes estamos interessados na comparao de dois tratamentos. No entanto muito comum ocorrer uma grande disparidade entre os
elementos dos grupos. Para evitar que um grupo de indivduos seja natu137

Mtodos Quantitativos Estatsticos

ralmente superior ao outro, comum proceder algum tipo de pareamento


entre os indivduos. O tipo mais comum de pareamento utilizando cada indivduo como seu prprio controle, submetendo-o aos dois tratamentos em
ocasies diferentes. Outro tipo de pareamento tentar selecionar, para cada
par, indivduos que sejam to semelhantes quanto possvel. Por exemplo:
gmeos, rgos (ouvidos, braos, ps etc.). So tambm conhecidos como
testes do tipo antes-depois. Os principais testes so:
Teste t para amostras dependentes;
Teste de McNemar;
Teste de Wilcoxon.

Caso de duas amostras independentes


Estes testes se aplicam a planos amostrais em que se deseja comparar
dois grupos independentes. Esses grupos podem ter sido formados de duas
maneiras diferentes:
a) Extraiu-se uma amostra da populao A e outra amostra da populao B.
b) Indivduos da mesma populao foram alocados aleatoriamente a
um dos dois tratamentos em estudo.
Diferente do caso de dados pareados, no se exige que as amostras
tenham o mesmo tamanho. Os principais testes so:
Teste Z;
Teste t de Student para amostras independentes;
Teste Qui-quadrado;
Teste de Mann-Whitney.

Caso de k amostras relacionadas


Neste tipo de plano so comparados 3 ou mais grupos (tratamentos) relacionados entre si. Imagine que n indivduos sejam observados, cada um, em
3 ou mais momentos tendo sido registrada a sua respectiva evoluo. Ento
teremos a seguinte estrutura de dados:
138

Testes de Hipteses: Conceitos

Tratamentos
Indivduo

...

X11

X21

X31

...

Xk1

X12

X22

X32

...

Xk2

X13

X23

X33

...

Xk3

...

...

...

...

...

...

X1n

X2n

X3n

...

Xkn

Onde as unidades amostrais utilizadas no experimento foram avaliadas


sob as k condies de avaliao ou tratamentos (tempo, dietas, distncia
etc.). Os principais testes so:
Anlise de Dados Longitudinais;
Teste de Friedman.

Caso de k amostras independentes


Neste tipo de plano so comparados 3 ou mais grupos (tratamentos) independentes entre si, cada grupo pode ter um nmero diferente de observaes. Os principais testes so:
Anlise de Varincia (ANOVA);
Teste de Kruskal-Wallis.

Ampliando seus conhecimentos


Apresentao dos resultados dos testes
(CAMPOS. 2007)

Uma vez realizados os testes adequados, estes do o seu parecer, sob a


forma de um valor numrico, apresentado (conforme o teste) como valor de
F (anlise de varincia), de t (teste t, de Student), U (Mann-Whitney), Q (teste
de Cochran), C2 (letra grega qui, testes diversos, que usam o chamado quiquadrado), z (McNemar e Wilcoxon), H (Kruskal-Wallis), ou R (letra grega rho,
utilizada nos testes de correlao).
139

Mtodos Quantitativos Estatsticos

No-significncia estatstica (H0)


Em todos os casos, o valor numrico calculado pelo teste deve ser confrontado com valores crticos, que constam em tabelas apropriadas a cada teste.
Essas tabelas geralmente solicitam duas informaes, que permitem localizar
o valor crtico tabelado: nvel de significncia (usualmente 5 % ou 1 %), e o
nmero de graus de liberdade das amostras comparadas.
Valores menores que o tabelado indicam que ele no pode ser considerado diferente do que se obteria se as amostras comparadas fossem iguais.
Enfim, estaria configurado o que se chama de no-significncia estatstica, ou
de aceitao da hiptese nula (H0).

Significncia estatstica (H1)


Porm, se o valor calculado for igual ou maior que o tabelado, aceita-se
a chamada hiptese alternativa (H1), ou seja, a hiptese de que as amostras comparadas no podem ser consideradas iguais, pois o valor calculado
supera aquele que se deveria esperar, caso fossem iguais, lembrando sempre
que a igualdade, em Estatstica, no indica uma identidade. Isso quer dizer
que pode eventualmente haver alguma diferena, mas esta no deve ultrapassar determinados limites, dentro dos quais essa diferena decorre apenas
da variao natural do acaso, tpica da variao entre as repeties do ensaio.
No caso de o valor calculado ser maior do que o valor tabelado, diz-se que h
significncia estatstica, que pode ser ao nvel de 5 %, se o valor calculado for
maior que o valor tabelado para 5 %. Ou ao nvel de 1 %, caso o valor calculado seja igual ou maior que o valor tabelado para 1 %.
Abaixo segue uma tabela que resume as concluses que devem ser tomadas em relao a cada p-valor observado:
P 0,10

No existe evidncia contra H0

P < 0,10

Fraca evidncia contra H0

P < 0,05

Evidncia signficativa

P < 0,01

Evidncia altamente significativa

P < 0,001 Evidncia extremamente significativa

140

Testes de Hipteses: Conceitos

Atividades de aplicao
1. Nas situaes descritas abaixo, descreva qual a populao, a amostra, o parmetro de interesse e o tipo de teste que poderiam ser usados para estimar o parmetro de interesse:
a) Para avaliar a proporo de alunos do Curso X favorveis a eliminao da disciplina de Estatstica do currculo, selecionou-se aleatoriamente 80 alunos do curso.
b) Para avaliar a eficcia de um curso que orienta como fazer boa alimentao e exerccios fsicos, selecionou-se uma amostra aleatria
de 20 pessoas obesas de uma certa cidade.
c) Para avaliar uma campanha contra o fumo, conduzida pela prefeitura de uma cidade, acompanhou-se uma amostra aleatria de
100 fumantes.
2. Com o objetivo de avaliar se o desempenho de um certo candidato,
numa apresentao em pblico, foi positivo, selecionou-se uma amostra de uma grande platia, indagando a cada um, sua opinio sobre o
candidato, antes e depois da apresentao: se melhorou ou piorou.
a) Apresente as hipteses nula e alternativa.
b) Se, numa amostra de 11 pessoas, 8 passaram a ter uma opinio
mais favorvel, enquanto 3 passaram a ter opinio menos favorvel sobre o candidato, o que se pode afirmar com base somente
nessas informaes?
c) Se, numa amostra de 200 pessoas, 130 passaram a ter melhor impresso, enquanto 70 pioraram sua impresso sobre o candidato,
o que se pode afirmar?
d) Qual o tipo de teste mais adequado para analisar estes dados?
3. Para avaliar o efeito de um brinde nas vendas de determinado produto, planeja-se comparar as vendas em lojas que vendem o produto
com o brinde, com as vendas em lojas que no oferecem o brinde.
Para reduzir o efeito de variaes devidas a outros fatores, as lojas foram agrupadas em pares, de tal forma que as lojas de um mesmo par
so as mais similares possveis, em termos, por exemplo, do volume
141

Mtodos Quantitativos Estatsticos

de vendas, localidade, identidade de preos etc. Em cada par de lojas,


uma passou a oferecer o brinde e a outra no.
a) Apresente as hipteses nula e alternativa;
b) Os resultados das vendas, em quantidade de unidades vendidas,
foram os constantes na tabela a seguir. Com base nesses dados,
responda se os mesmos mostram alguma evidncia para se afirmar que a oferta do brinde aumentou as vendas.
Par de loja

Vendas sem brinde

Vendas com brinde

33

43

43

39

26

33

19

32

37

43

27

46

c) Qual o tipo de teste mais adequado para analisar estes dados?


4. Fez-se uma pesquisa junto a 83 diretores das maiores agncias de propaganda canadenses, a fim de se determinar a eficcia relativa de comerciais de 15 segundos em relao dos comerciais de 30 segundos.
Em uma escala de 5 pontos (1 = excelente e 5 = fraco), os entrevistados
avaliaram os comerciais de TV de 15 e 30 segundos quanto a conscientizao da marca, memorizao da idia principal, persuaso da capacidade de relatar uma histria emocional. Observe a tabela abaixo
com os resultados do estudo e responda as seguintes perguntas:
a) Qual a hiptese nula e a hiptese alternativa?
b) Que testes estatsticos poderiam ser aplicados nesse caso e qual o
nvel de significncia mais indicado?
c) O que se pode observar a respeito dos resultados obtidos?
Classificao mdia de comerciais de 15 e 30 segundos quanto s 4 variveis
de comunicao
Conscientizao
da marca

Memorizao
da idia bsica

Persuaso

Capacidade de
relatar uma histria
emocional

Comerciais

15 s

30 s

15 s

30 s

15 s

30 s

15 s

30 s

Escore mdio

2,5

1,9

2,7

2,0

3,7

2,1

4,3

1,9

142

Testes de Hipteses

Introduo
Apresentaremos, neste captulo, os testes de hipteses mais utilizados do
ponto de vista paramtrico e no-paramtrico. Os testes paramtricos exigem
que seja verificada a pressuposio de que os dados coletados sejam normalmente distribudos enquanto que os testes no-paramtricos no fazem essa
exigncia e por isso so considerados menos consistentes, sendo, porm, uma
alternativa a ser usada caso os pressupostos de normalidade no sejam observadas ou, ainda, quando o tamanho da amostra no suficientemente grande.
No caso paramtrico, como o nome j diz, o objetivo testar hipteses acerca
de parmetros, com base em dados amostrais. No caso no-paramtrico, as
hipteses no so formuladas em termos de parmetros, j que no h preocupao com a distribuio que os dados seguem. Para cada tipo de plano experimental existem testes especficos a serem utilizados. Nos preocuparemos
aqui com os seguintes planos: a) comparao de duas amostras independentes; b) comparao de duas amostras relacionadas; c) comparao de trs ou
mais amostras independentes; d) teste de aderncia.

Comparao de duas amostras independentes


Neste caso estamos interessados em comparar duas populaes, representadas cada uma por suas respectivas amostras. No necessariamente as
duas amostras tm o mesmo tamanho. Os principais testes so:
Teste t de Student para mdias;
Teste Z para propores;
Teste Mann-Whitney (no-paramtrico)

Teste t de Student para comparao de mdias


A mdia de uma populao uma de suas caractersticas mais importantes. muito comum desejarmos tomar decises a seu respeito, por exemplo,

Mtodos Quantitativos Estatsticos

quando so comparadas duas amostras ou dois tratamentos. Considere as


seguintes hipteses:
H0 : M1 = M2 vs H1 : M1 < M2
ou
H0 : M1 = M2 vs H1 : M1 > M2
ou ainda
H0 : M1 = M2 vs H1 : M1 x M2
As duas primeiras situaes definem os chamados testes unilaterais, por
que a regio de rejeio est somente em uma das caudas da distribuio.
A ltima situao define os testes bilaterais, no qual a regio de rejeio se
distribui igualmente em ambas as caudas da distribuio.
Assim, se estivermos interessados em mostrar que um parmetro significativamente superior ou inferior a um determinado valor, teremos que realizar um teste unilateral e teremos uma nica regio de rejeio, do tamanho
do nvel de significncia fixado. Mas se, no entanto, estivermos interessados
em mostrar que um determinado parmetro diferente de um determinado
valor (sem especificar se inferior ou superior) teremos que realizar um teste
bilateral e a regio de rejeio ser dividida em duas partes iguais, nas extremidades da curva do teste, em que cada regio de rejeio ter metade do
nvel de significncia.
Dessa forma, para realizao do teste, deveremos primeiramente estimar
a mdia e o desvio padro de cada uma das amostras envolvidas e calcular a
estatstica do teste:
t=

X

X2

S12
n1

S22

(1)

n2

a qual tem distribuio t de Student com n1 + n2 2 graus de liberdade. Nesse


caso, supe-se que as varincias amostrais so diferentes. Caso as varincias
no sejam diferentes, devemos usar:
t=

146

X1 X2
1 1
Sp .
+
n1 n2

(2)

Testes de hipteses

onde:
X1 e X 2 so as mdias amostrais do grupo 1 e 2 respectivamente;
S1e S2so os desvios padres do grupo 1 e 2 respectivamente;
n1 e n2 so os tamanhos de amostra do grupo 1 e 2 respectivamente;
Sp2 =

n1 1 .S12 + n2 1 .S22


n1+n2 2

A tabela abaixo resume o procedimento a ser seguido:


Tabela 1. Deciso nos testes de comparao de mdias

Hipteses

Deciso

H0 : M1 = M2 vs H1 : M1 < M2

rejeita H0 se, t < t(A n +n 2

H0 : M1 = M2 vs H1 : M1 > M2

rejeita H0 se, t >t(A n +n 2

H0 : M1 = M2 vs H1 : M1 x M2

rejeita H0 se, | t | > t(A/2 n +n 2

Exemplo: Um teste de resistncia a ruptura feito em seis cabos usualmente


utilizados acusou resistncia mdia de 3 530kg com varincia de 660kg. Um
novo cabo foi testado e verificou-se uma resistncia mdia de 3 560kg e
varincia de 600kg em uma amostra de tamanho 8. Compare as mdias dos
dois cabos, ao nvel de significncia A = 5%. E se a varincia do cabo novo
fosse 850kg?
Assim, queremos testar se H0 : M1 = M2 vs H1 : M1 M2. O teste bilateral pois
se deseja verificar se os dois cabos diferem em relao resistncia mdia,
sem especificar para que lado. Usaremos a expresso (2), pois vamos considerar as varincias iguais (ou seja, muito prximas). Rigorosamente, essa verificao deveria ser feita atravs da aplicao do teste F para razo de varincias.
Considerando vlida essa suposio de igualdade das varincias, teremos:
Sp2 =

6 1 .660+ 8 1 .600 = 625


6+8 2

e t=

3530 3560 = 2, 22.


25

1 1
+
6 8

O valor crtico t(A/2)n +n 2 para A = 5% dado por 2,179. Este valor en1

contrado na tabela t de Student consultando a coluna 0,025 (pois o teste


bilateral) e a linha 12 (n1 + n2 2). Assim, teremos 2 valores crticos, 2,179 e
147

Mtodos Quantitativos Estatsticos

+2,179. Como t < 2,179, rejeitamos a hiptese nula e afirmamos que existe
diferena significativa entre os dois tipos de cabo. Os dois cabos diferem significativamente em relao resistncia mdia.
2

Agora, considerando que S2 = 850kg teremos,usando a expresso (1):


t=

3530 3560 = 2,04


660 850
+
6
8

e, neste caso, a nossa deciso ser exatamente o contrrio do que obtivemos,


ou seja, como t > 2,179 no rejeitamos a hiptese nula e no observamos
diferena entre os cabos.

Teste Z para comparao de propores


Em alguns estudos, o interesse est em comparar duas propores provenientes de amostras distintas. Nesse caso, obtm-se n1 observaes da populao 1 e n2 observaes da populao 2. Verifica-se em cada uma das amostras o total x1 e x2, respectivamente, de sucessos e calculam-se as propores
x
x
amostrais p1 = 1 e p2 = 2 . As hipteses testadas so as seguintes:
n1
n2
H0 : P1 = P2 vs H1 : P1 < P2
ou
H0 : P1 = P2 vs H1 : P1 > P2
ou ainda
H0 : P1 = P2 vs H1 : P1 x P2
A estatstica do teste dada por:
Z=

p1 p2 (3)
Sp

Onde Sp = p.(1 p) + p.(1 p) (4)


n1
n2

p=

n1.p1 +n2 .p2


n1 +n2

(5)

Exemplo: Em uma cidade do interior realizou-se uma pesquisa eleitoral


com 200 eleitores, na qual o candidato a presidente X aparece com 35%
148

Testes de hipteses

das intenes de voto. A mesma pesquisa tambm foi realizada na cidade


vizinha, com 500 eleitores, e o mesmo candidato surge com 28% das intenes de voto. Podemos afirmar estatisticamente que na primeira cidade o
candidato X apresenta uma maior inteno de voto? (nvel de significncia
A = 0,05)
H0 : P1 = P2 vs H1 : P1 > P2
um teste unilateral pois est claramente verificado se na primeira pesquisa foi encontrada uma proporo maior do que na segunda cidade.

Pela expresso (5) temos p =


so (4)

Sp =

(200 . 0,35)+(500 . 0,28)


= 0,3 e pela expres200+500

0,3.(1 0,3) 0,3.(1 0,3)


+
= 0, 038 e finalmente:
200
500
Z=

0,35 0,28
= 1, 84
0,038

Ao nvel de significncia de 5% temos Z (A) = 1,64. Este valor crtico


obtido na tabela da distribuio normal padro, considerando uma rea
marcada em cinza de tamanho 0,45, ou seja, 0,5 0,05. Localizando o valor
0,45 no corpo da tabela (ou o valor mais prximo), veremos que ele se
localiza na linha 1,6 e na coluna 0,04. Ento, somamos os dois valores e
obtemos 1,64.
Como a estatstica Z calculada superior ao valor crtico, rejeitamos a hiptese nula. Existem evidncias para admitir que na primeira cidade o candidato
X apresenta uma proporo significativamente superior de inteno de voto.

Teste no-paramtrico de Mann-Whitney


Esse teste se aplica na comparao de dois grupos independentes, para
se verificar se pertencem ou no mesma populao. a alternativa a ser
usada quando as suposies de normalidade no so verificadas. Considere,
portanto, duas amostras de tamanho n1 e n2, respectivamente. O teste consiste basicamente na substituio dos dados originais pelos seus respectivos postos ordenados (ranks) e clculo da estatstica do teste. Alm disso, o
149

Mtodos Quantitativos Estatsticos

procedimento de teste depende do tamanho das amostras. Considere o


grupo 2 aquele com o maior nmero de observaes:
Quando 9 n2 20, calcula-se:
n1.(n1 +1)
R1, onde R1 a soma dos postos atribudos aos
2
valores do grupo 1.
U=n1.n2 +

n2 > 20
Utiliza-se nesse caso a aproximao normal dada por:

MU =

n1.n2
2

SU =

n1.n2 .(n1+n2 +1)


12

z=

U MU
SU

Os valores da estatstica calculada so comparados com os valores crticos


obtidos a partir de uma tabela (Mann Whitney). Caso a estatstica U calculada
seja inferior ao valor crtico deveremos rejeitar a hiptese nula.
Exemplo: Dois tipos de soluo qumica, A e B, foram ensaiadas para determinao de Ph. As anlises de amostras de cada soluo esto apresentadas
na tabela que segue. Verifique se h diferena entre elas.
A

Posto (A)

7,49

13

7,28

7,35

4,5

7,35

4,5

7,54

19

7,52

17,5

7,48

11

7,50

14,5

H0: PhA = PhB

7,48

11

7,38

Ha: PhA > PhB

7,37

7,48

11

7,51

16

7,31

7,50

14,5

7,22

7,52

17,5

7,41

7,45

RA = 112,5

U=(9.10) +
150

(9.10)
112,5 = 22,5
2

Posto (B)

RB =77,5

Testes de hipteses

O valor crtico para n1 = 9 e n2 = 10 em que A = 0,05 (teste unilateral) ser


Uc = 24. Como o valor calculado da estatstica inferior ao valor crtico ento
iremos rejeitar H0. Assim, temos evidncias suficientes para afirmar que a soluo qumica A apresenta Ph superior soluo qumica B.

Comparao de duas amostras relacionadas


Neste caso estamos interessados em comparar uma amostra extrada
em dois momentos distintos. Deseja-se verificar se a diferena observada
entre os dois momentos (efeito do tratamento) significativa. Os principais
testes so:
Teste t de Student para dados pareados;
Teste de Wilcoxon (no-paramtrico)

Teste t para dados pareados


Para observaes pareadas, o teste apropriado para a diferena entre as
mdias das duas amostras consiste em primeiro determinar a diferena d
entre cada par de valores e ento testar a hiptese nula de que a mdia das
diferenas na populao zero. Ento, do ponto de vista de clculo, o teste
aplicado a uma nica amostra de valores d.
d
A diferena mdia para um conjunto de observaes pareadas d =
n
e o desvio padro das diferenas das observaes pareadas dado por:
d2 nd2
n 1

Sd =

e a estatstica do teste ser: t=

d
Sd

(6)
n

Essa estatstica deve ser comparada com o valor crtico do teste t de Student para determinado nvel de significncia A e n1 graus de liberdade.
Exemplo: Considere o experimento realizado com 10 automveis de certa
fbrica. Os veculos foram avaliados com dois tipos de combustveis. Primeiramente, um combustvel sem aditivo e em seguida o mesmo combustvel
com aditivo. Deseja-se verificar se os automveis conseguem uma quilo151

Mtodos Quantitativos Estatsticos

metragem maior com a utilizao do combustvel com aditivo. Seguem os


dados abaixo:
Automvel

Quilometragem
sem aditivo (B)

Quilometragem
com aditivo (A)

d (AB)

26,2

26,7

0,5

25,2

25,8

0,6

22,3

21,9

-0,4

19,6

19,3

-0,3

18,1

18,4

0,3

15,8

15,7

-0,1

13,9

14,2

0,3

12,0

12,6

0,6

11,5

11,9

0,4

10

10,0

10,3

0,3

Total

174,6

176,8

2,2

H0: MA = MB vs Ha: MA < MB


Pelos dados da tabela temos d =0,22 e Sd = 0,361
0,22
= 1, 927 e comparando com o valor crtico t (0,05) com
0,361
10
9 graus de liberdade que 1,833, podemos concluir que o valor calculado
se encontra dentro da regio de rejeio, ou seja, existe diferena significativa entre as quilometragens obtidas com e sem aditivo. A quilometragem
obtida com aditivo significativamente superior.
Assim, t =

Note que o valor crtico 1,833 foi encontrado na tabela t de Student na


coluna 0,05 (pois o teste unilateral) e linha 9.
Com a planilha Excel, possvel realizar diversos testes de significncia estatstica, desde que se possuam os dados brutos. Para resolver esse exemplo,
usaramos a funo TESTET, considerando:
Matriz 1: conjunto de dados referente ao primeiro grupo;
Matriz 2: conjunto de dados referente ao segundo grupo;
Caudas: indica se o teste unilateral (1) ou bilateral (2). No caso, aqui o
teste unilateral;
Tipo: indica o tipo do teste, se pareado (1) ou de amostras independentes (2 ou 3). No caso, aqui o teste pareado.
152

Testes de hipteses

Observe que a planilha ir fornecer pvalor = 0,0432, que, comparado com o nvel de significncia de 0,05, indica a existncia de diferena
significativa.

Teste de Wilcoxon
Neste teste no-paramtrico, devemos considerar as diferenas dis, onde
di = Yi Xi. Devemos ordenar os dis, atribuindo postos do menor para o
maior, sem considerar o sinal da diferena (em mdulo). A continuao do
teste, a partir daqui, depende do tamanho da amostra:
n < 25
Considere T sendo a menor soma dos postos de mesmo sinal. Comparase ento o valor de T calculado com aqueles tabelados. O objetivo testar se
a mediana nula, ou seja,
H0 : Mediana = 0
Ha : Mediana > 0
Mediana < 0
Mediana 0
153

Mtodos Quantitativos Estatsticos

Iremos rejeitar a hiptese nula quando o valor calculado de T for inferior


ao valor crtico definido pelo nvel de significncia.
n 25
Nesse caso, T tem distribuio aproximadamente normal e podemos usar
a aproximao considerando:

MT =

N.N+1
4

Calcula-se assim a estatstica z =

N.(N+1).(2N+1)
24

ST =

T M T
e compara-se com os valores taST

belados da distribuio de Z (Normal Padro).


Podem ocorrer alguns empates. Nesse caso, deveremos considerar duas
situaes:
Quando Xi = Yi , ou seja, a informao pr equivale informao ps para
um mesmo indivduo, descarta-se esse par da anlise e redefinimos n
como sendo o nmero de pares, tais que Xi Yi para i = 1, 2, 3, ... , n.
Quando duas ou mais dis tem o mesmo valor, atribui-se como posto
a mdia dos postos que seriam atribudos a eles caso no ocorresse
empate.
Exemplo:

154

Di

|di|

Postos

-5

2*

2*

2*

10

10

-13

13

6,5**

13

13

6,5**

15

15

Clculo para Empates

1+2+3
3

6+7
= 6,5
2

Testes de hipteses

Exemplo: Numa pesquisa realizada em dois momentos distintos em 11 empresas operadoras de telefonia celular, investigou-se o % de clientes que
avaliaram positivamente cada uma delas:
% de avaliao positiva

|di|

1,0

1,0

9,6

9,0

9,0

8,0

16,0

8,0

8,0

12,9

13,4

0,5

0,5

10,9

9,6

1,3

1,3

13,4

13,0

0,4

0,4

11,9

23,7

11,8

11,8

11

14,3

6,2

8,1

8,1

20,0

9,6

10,4

10,4

10

10

14,4

13,8

0,6

0,6

11

6,6

15,1

8,5

8,5

Operadora

1 momento

2 momento

8,7

7,7

18,6

di

Aplicando o teste de Wilcoxon, testaremos as seguintes hipteses:


H0 : MT = 0 vs Ha : MT 0
Somando-se os postos associados a diferenas negativas, teremos T = 6 +
2 + 11 + 8 = 27. O valor crtico, consultando a linha n = 11 e A = 0,05 igual a
13 (na verdade, o nvel de significncia aqui acaba sendo um valor prximo de
0,05, mais precisamente, 0,0471). Assim, no podemos rejeitar H0, ou seja, a
porcentagem de avaliao positiva no se modificou nos dois momentos.

Comparao de 3 ou mais amostras independentes


Esse tipo de plano uma extenso do caso em que duas amostras independentes esto sendo comparadas, mas agora para o caso de 3 ou mais amostras. Se houver pelo menos um par de amostras diferentes, o teste ir apontar
diferena significativa. No caso paramtrico, a opo o teste F de Snedecor,
tambm chamado de Anlise de varincia ou Anova. Mais uma vez aqui no
h necessidade de os grupos que estaro sendo comparados terem tamanhos
de amostras iguais. Consideremos, ento, a seguinte estrutura de dados:

155

Mtodos Quantitativos Estatsticos

Tratamentos
1

...

X11

X21

X31

...

XK1

X12

X22

X32

...

XK2

X23

X33

...

XK3

..

...

...

...

...

X1n1

X2n2

X3n3

...

XKnK

13

Anlise de Varincia
Uma anlise de varincia permite que vrios grupos sejam comparados a
um s tempo, utilizando variveis contnuas. O teste paramtrico (a varivel de interesse deve ter distribuio normal) e os grupos tm que ser independentes. As hipteses testadas so as seguintes:
H0 : M1 = M2 = ...= Mk vs H1 : pelo menos um par Mi x Mj, para i x j
Os elementos que compem o clculo da Anova so sumarizados na
tabela abaixo:
Fonte de
variao

Soma dos
quadrados

Graus de
liberdade

Entre grupos

SQA

k1

QMA =

SQA

Erro amostral

SQE

Nk

QME =

SQE

Total

SQT

N1

SQA =

Quadrados
mdios

k 1

QMA

QME

N k

n k
T2
Tk2 T 2
(7) e SQT = X2
(8) e SQE = SQT SQA

N
i=1k=1
nK N

Tk a soma dos valores de um certo tratamento k;


nk o nmero de observaes no tratamento k;
T2 a soma de todos os valores amostrados elevada ao quadrado;
N o nmero total de observaes;
X cada observao amostrada.
156

Testes de hipteses

O valor calculado de F comparado com o valor crtico, definido pelo


nvel de significncia e pelos graus de liberdade k 1 e N k. Caso Fcal > Fcrit,
devemos rejeitar a hiptese nula.
Exemplo: Quinze pessoas que participaram de um programa de treinamento so colocadas, de forma aleatria, sob trs diferentes tipos de ensino. Os
graus obtidos no exame de concluso do treinamento so apresentados
abaixo. Teste a hiptese de que no existe diferena significativa entre os 3
mtodos de instruo, a um nvel de significncia de 5%.
Mtodos de instruo
A1

A2

A3

86

90

82

79

76

68

81

88

73

70

82

71

84

89

81

H0 : 1 = 2 = 3 vs H1 : pelo menos um par i j, para i j i, j = 1, 2, 3.


Analisando a tabela acima, obtemos as seguintes informaes:
n1 = n2 = n3 = 5
T1 = 400

T2 = 425

T3 = 375

T = 1 200

T12 = 160 000

T22 = 180 625

T32 = 140 625

T = 1 440 000

Calculando as expresses (7) e (8):


SQA =

Tk2 T 2 160 000 180 625 140 625 1 440 000



=
+
+
= 250

15
nK N
5
5
5

n k

SQT = X2
i=1k=1

T2
= 96 698 96 000 = 698
N

SQE = 698 250 = 448


A tabela da Anova fica ento:
Fonte de
variao

Soma dos
quadrados

Graus de
liberdade

Quadrados
mdios

Entre grupos

250

125

Erro amostral

448

12

37,33

Total

698

14

3,35

157

Mtodos Quantitativos Estatsticos

Comparando o valor de F calculado com o valor crtico de 3,89, que


obtido considerando-se A = 0,05 e cruzando a coluna n1 = 2 e linha n2 = 12
(graus de liberdade), podemos concluir que no h diferena significativa
entre os mtodos de instruo.
Com a planilha Excel, selecionamos FERRAMENTAS E ANLISE DE DADOS
e selecionamos a opo: Anova: fator nico.

A planilha nos fornecer o seguinte resultado:

158

Testes de hipteses

Teste de Kruskal-Wallis
Outro teste til na comparao de k tratamentos independentes o teste
de Kruskal-Wallis. Ele nos indica se h diferena entre pelo menos dois deles.
na verdade uma extenso do teste de Wilcoxon para duas amostras independentes e se utiliza dos postos atribudos aos valores observados.
Primeiramente, deve-se atribuir um posto a cada valor observado, sempre
atribuindo o menor posto ao menor valor e o maior posto ao maior valor. Aps
se efetuar a soma dos postos para cada tratamento (Rj) calcula-se a estatstica H:
2

H=

12 . k R j
3.(N +1)

N.(N+1) j=1 n j

onde nj o nmero de observaes do j-simo tratamento, N o total de


observaes e Rj a soma de postos do tratamento j.
Compara-se o valor calculado H com o valor crtico, que definido pelo
nvel de significncia e pelos tamanhos de amostra n1, n2, ..., nk. Caso o valor
de H calculado seja superior ao valor crtico, rejeita-se H0.
Exemplo: Numa pesquisa sobre qualidade de vinho, foram provados trs
tipos por cinco degustadores. Cada degustador provou 12 amostras (4 de
cada tipo) e atribuiu a cada uma delas uma nota de zero a dez. As mdias das
notas atribudas pelos 5 degustadores a cada uma das amostras foram:
Tipo 1

Posto

Tipo 2

Posto

Tipo 3

Posto

5,0

8,3

9,2

11

6,7

9,3

12

8,7

7,0

8,6

7,3

6,8

9,0

10

8,2

Vamos verificar se h preferncia dos degustadores por algum dos tipos


de vinho.
H0: no existe preferncia por algum tipo de vinho
H1: existe pelo menos uma diferena nas comparaes realizadas entre
os vinhos.
Calculando-se a estatstica do teste, considerando R1 = 10, R2 = 37 e R3 = 31
H=

12 .
607,5 3.(12+1) = 7,73
12.13
159

Mtodos Quantitativos Estatsticos

O valor crtico ao nvel de significncia de 5% 5,6923. Este valor obtido


na tabela fazendo n1 = 4, n2 = 4 e n3 = 4. O nvel de significncia precisamente 0,049. Desta forma, rejeitamos a hiptese nula. Certamente o vinho tipo 1
considerado inferior pelos degustadores.

Testes de aderncia
Estes testes so teis para verificar se determinada amostra pode provir
de uma populao ou distribuio de probabilidade especificada. So usualmente conhecidos como testes de aderncia ou bondade do ajuste. Nesse
caso, retira-se uma amostra aleatria e compara-se distribuio amostral
com a distribuio de interesse.

Teste Qui-quadrado
um teste amplamente utilizado em anlise de dados provenientes de
experimentos, em que o interesse est em observar freqncias em diversas
categorias (pelo menos duas).
uma prova de aderncia til para comprovar se a freqncia observada
difere significativamente da freqncia esperada. Est geralmente especificada por uma distribuio de probabilidade.
Para utilizar o teste, no devemos ter mais de 20% das freqncias esperadas abaixo de 5 e nenhuma freqncia esperada igual a zero. Para evitar
freqncias esperadas pequenas, devem-se combinar as categorias at que
as exigncias sejam atendidas.
Aps definirmos a hiptese nula, testamos se as freqncias observadas
diferem muito das freqncias esperadas da seguinte forma:

 oi e i

i=1

ei

X2 =

k = nmero de categorias (classes)

em que

oi = freqncia observada na categoria i


ei = freqncia esperada na categoria i

Quanto maior o valor de X2, maior ser a probabilidade de as freqncias


observadas estarem divergindo das freqncias esperadas.
A estatstica do teste X2 tem distribuio Qui-Quadrado com k 1 graus
de liberdade. Depois de calculada a estatstica do teste, deve-se compar-la
com o seu respectivo valor crtico, definido pelo nvel de significncia e graus
de liberdade.
160

Testes de hipteses

Exemplo: Deseja-se testar se a posio de largada de um cavalo (por dentro


ou por fora) influencia o resultado de uma corrida de cavalos.
Posio

Nmero
de Vitrias

29

19

18

25

17

10

15

11

18*

18*

18*

18*

18*

18*

18*

18*

* Resultado esperado pela hiptese nula

H0 : f1 = f2 = = f8
8

oi ei 2

k=1

ei

X2 =

29 18 2
18

Ha : f1 x f2 x x f8

versus
+

19 18 2
18

+ +

11 18 2
18

= 16,3

A tabela Qui-quadrado com 7 graus de liberdade indica que o valor 14,06


est associado a um nvel de significncia de 5%. Este valor obtido na
tabela, cruzando as informaes da coluna 0,05 e linha 7. Nota-se que o valor
calculado do qui-quadrado superior ao valor crtico, o que nos leva a rejeitar a hiptese nula. Portanto, temos evidncia de que a posio de largada
dos cavalos influencia no resultado da corrida.
Com a planilha Excel, usaramos a funo TESTE.QUI, considerando:
Intervalo_real: posio das freqncias observadas na planilha;
Intervalo_esperado: posio das freqncias esperadas na planilha;

161

Mtodos Quantitativos Estatsticos

Observe que a planilha ir fornecer o pvalor = 0,022 que sendo menor


que o nvel de significncia (0,05) nos leva rejeio da hiptese nula.

Ampliando seus conhecimentos


Minerao de dados
(GONALVES, 2001)

Minerao de dados, ou data mining, definida como uma etapa na descoberta do conhecimento em bancos de dados que consiste no processo de
analisar grandes volumes de dados sob diferentes perspectivas, a fim de descobrir informaes teis que normalmente no esto sendo visveis. Para isso
so utilizadas tcnicas que envolvem mtodos estatsticos que visam descobrir padres e regularidades entre os dados pesquisados.
Em um mundo globalizado, sem fronteiras geogrficas, onde as empresas
competem mundialmente, a informao torna-se um fator crucial na busca pela
competitividade. O fato de uma empresa dispor de certas informaes possibilita-lhe aumentar o valor agregado de seu produto ou reduzir seus custos em
relao quelas que no possuem o mesmo tipo de informao. As informaes
e o conhecimento compem um recurso estratgico essencial para o sucesso
da adaptao da empresa em um ambiente de concorrncia. Toda empresa
tem informaes que proporcionam sustentao para suas decises, entretanto apenas algumas conseguem otimizar o seu processo decisrio e aquelas que
esto nesse estgio evolutivo seguramente possuem vantagem empresarial.
As ferramentas de minerao de dados, por definio, devem trabalhar
com grandes bases de dados e retornar, como resultado, conhecimento novo
e relevante; porm devemos ser cticos quanto a essa afirmao, pois esse
tipo de ferramenta ir criar inmeras relaes e equaes, o que pode tornar
impossvel o processamento desses dados.
A grande promessa da minerao de dados resume-se na afirmao de
que ela vasculha grandes bases de dados em busca de padres escondidos,
que extrai informaes desconhecidas e relevantes e as utiliza para tomar decises crticas de negcios. Outra promessa em relao a essa tecnologia de
informao diz respeito forma como elas exploram as inter-relaes entre os
dados. As ferramentas de anlise disponveis dispem de um mtodo basea162

Testes de hipteses

do na verificao, isto , o usurio constri hipteses sobre inter-relaes especficas e ento verifica ou refuta essas hipteses por meio do sistema. Esse
modelo torna-se dependente da intuio e habilidade do analista em propor
hipteses interessantes, em manipular a complexidade do espao de atributos e em refinar a anlise, baseado nos resultados de consultas potencialmente complexas ao banco de dados. J o processo de minerao de dados, para
o autor, seria responsvel pela gerao de hipteses, garantindo mais rapidez,
acurcia e completude dos resultados.
A cada ano, companhias acumulam mais e mais dados em seus bancos de
dados. Esses dados muitas vezes so mantidos mesmo depois de esgotados
seus prazos legais de existncia, como no caso de notas fiscais. Com o passar
do tempo, esse volume de dados passa a armazenar internamente o histrico das atividades da organizao. Como conseqncia, esses bancos de dados
passam a conter verdadeiros tesouros de informao sobre vrios procedimentos dessas companhias. Toda essa informao pode ser usada para melhorar os
procedimentos da empresa, permitindo que ela detecte tendncias e caractersticas disfaradas e reaja rapidamente a um evento que ainda pode estar por vir.
No entanto, apesar do enorme valor desses dados, a maioria das organizaes
incapaz de aproveitar totalmente o que est armazenado em seus arquivos.
Essa informao est implcita, escondida sob uma montanha de dados, e
no pode ser descoberta utilizando-se sistemas de gerenciamento de banco de
dados convencionais. A quantidade de informao armazenada est explodindo
e ultrapassa a habilidade tcnica e a capacidade humana na sua interpretao.
Por isso, diversas ferramentas tm sido usadas para examinar os dados que
as empresas possuem, no entanto, a maioria dos analistas tem reconhecido que
existem padres, relacionamentos e regras escondidos nesses dados, os quais
no podem ser encontrados por meio da utilizao de mtodos tradicionais. A
resposta usar softwares de minerao de dados que utilizam algoritmos matemticos avanados para examinar grandes volumes de dados detalhados.
A necessidade de transformar a montanha de dados armazenados em informaes significativas bvia, entretanto, sua anlise ainda demorada,
dispendiosa, pouco automatizada e sujeita a erros, mal entendidos e falta de
preciso. A automatizao dos processos de anlise de dados, com a utilizao de softwares ligados diretamente massa de informaes, tornou-se uma
necessidade. Esse motivo deve ser o responsvel pelo crescimento do mercado de tecnologias de informao.
163

Mtodos Quantitativos Estatsticos

Atividades de aplicao
1. Um experimento foi realizado em 115 propriedades para verificar a
eficcia de um novo adubo para plantaes de milho. As produes
mdias das propriedades com o novo adubo encontram-se tabuladas
abaixo. Compare com as produes mdias garantidas pelo fabricante
nas especificaes tcnicas do produto. Considere = 0,05.
Classes
(sacas/hectare)

ei

2 700 | 3 000

13

12

3 000 | 3 300

18

20

3 300 | 3 600

24

25

3 600 | 3 900

32

25

3 900 | 4 200

17

20

4 200 | 4 500

11

13

Total

115

115

2. Em um exame a que se submeteram 117 estudantes de escolas pblicas, a nota mdia foi 74,5 e o desvio padro 8. Em uma escola
particular, em que 200 estudantes foram submetidos a esse mesmo
exame, a nota mdia foi de 75,9 com desvio padro 10. A escola
particular apresenta um melhor rendimento no exame? Considere
= 0,05.
3. Um mdico-cientista imagina ter inventado uma droga revolucionria
que baixa a febre em 1 minuto. Quinze voluntrios foram selecionados
(pacientes de uma clnica, com febre acima de 37oc) e os resultados
foram os seguintes (em graus Celsius):
Paciente

10

11

12

13

14

15

Diferena*

* diferena de temperatura: o quanto a temperatura baixou em 1 minuto.

A droga inventada pelo mdico verdadeiramente eficiente?


4. Um criador verificou em uma amostra do seu rebanho (500 cabeas)
50 animais com verminose. Em seguida, avaliou outras 100 cabeas de

164

Testes de hipteses

gado, mas antes solicitou ao veterinrio uma soluo para o problema. O veterinrio alterou a dieta dos animais e acredita que a doena
diminuiu de intensidade. Um exame nesse grupo de 100 cabeas do
rebanho, escolhidas ao acaso, indicou 4 delas com verminose. Ao nvel
de significncia de 1%, h indcios de que a proporo menor?
5. Queremos comparar trs hospitais, com relao satisfao demonstrada por pacientes quanto ao atendimento durante o perodo de internao. Para tanto, foram selecionados, aleatoriamente, pacientes
com grau de enfermidade semelhante. Cada paciente preencheu um
questionrio e as respostas geraram ndices variando de 0 a 100, indicando o grau de satisfao. Os resultados foram:
Hospital
Pacientes

93

60

70

86

58

75

85

47

77

90

62

72

91

58

78

82

61

78

88

63

70

86

64

71

87

68

68

10

85

58

73

11

57

74

12

67

80

13

61

68

14

56

15

58

Baseando-se nos dados apresentados, teste se as mdias populacionais


so iguais. Qual sua concluso? Use A = 0, 05.

165

Anlise de Correlao e Medidas


de Associao

Introduo
Muitas vezes, precisamos avaliar o grau de relacionamento entre duas ou
mais variveis. possvel descobrir, com preciso, o quanto uma varivel interfere no resultado de outra. As tcnicas associadas Anlise de Correlao
representam uma ferramenta fundamental de aplicao nas Cincias Sociais
e do comportamento, da Engenharia e das Cincias Naturais. A importncia
de se conhecer os diferentes mtodos e suas suposies de aplicao exatamente pelo cuidado que se deve ter para no se utilizar uma tcnica inadequada. Existem diversos critrios de avaliao dessa relao, alguns prprios
para variveis que seguem uma distribuio normal e outros para variveis
que no seguem uma distribuio terica conhecida. comum a utilizao
do Coeficiente de Correlao de Pearson. No entanto, existem situaes em
que o relacionamento entre duas variveis no linear, ou uma delas no
contnua ou as observaes no so selecionadas aleatoriamente. Nesses
casos, outras alternativas de coeficientes devem ser aplicadas. Entre as diversas alternativas, veremos aqui algumas das mais importantes: Coeficiente de
Spearman e Coeficiente de Contingncia.
Segundo o dicionrio Aurlio, correlao significa relao mtua entre dois
termos, qualidade de correlativo, correspondncia. Correlacionar, significa
estabelecer relao ou correlao entre; ter correlao. Enquanto que a palavra regresso significa ato ou efeito de regressar, de voltar, retorno, regresso;
dependncia funcional entre duas ou mais variveis aleatrias. A palavra regredir significa ir em marcha regressiva, retroceder.
Mas, onde e como surgiram os termos correlao e regresso? Foi Francis
Galton (1822-1911), primo de Charles Darwin, quem usou pela primeira vez
esses termos, cujo trabalho influenciou a Estatstica e a Psicologia. Galton
publicou o livro Gnio Hereditrio, em 1869, no qual aplicou conceitos estatsticos a problemas da hereditariedade. O primeiro relato em que Galton
usou o termo co-relaes foi em 1888.

Mtodos Quantitativos Estatsticos

Diagramas de Disperso
Um dos mtodos mais usados para a investigao de pares de dados a
utilizao de diagramas de disperso cartesianos (ou seja, os conhecidos diagramas x-y). Geometricamente, um diagrama de disperso simplesmente
uma coleo de pontos num plano cujas duas coordenadas cartesianas so
os valores de cada membro do par de dados. E para qu fazemos um diagrama de disperso? Este o melhor mtodo de examinar os dados no que se
refere ocorrncia de tendncias (lineares ou no), agrupamentos de uma
ou mais variveis, mudanas de espalhamento de uma varivel em relao
outra e verificar a ocorrncia dos valores discrepantes. Observe o exemplo
a seguir:

Podemos notar pela anlise da figura acima, a relao linear entre as duas
variveis. Os coeficientes apresentados a seguir nos auxiliam na quantificao do grau de relacionamento entre as variveis de interesse.

A Covarincia e o Coeficiente de Correlao de Pearson


Quando estudamos a relao entre duas variveis X e Y, devemos primeiramente compreender o conceito de covarincia. Se a varincia uma estatstica por meio da qual chegamos ao desvio padro que uma medida de
disperso, da mesma maneira a covarincia uma estatstica pela qual che168

Anlise de Correlao e Medidas de Associao

gamos ao coeficiente de correlao que mede o grau de associao linear


entre duas variveis aleatrias X e Y.
Observe o exemplo abaixo. Sejam X e Y duas variveis aleatrias quaisquer, que tomam os seguintes valores:
Tabela 1. Clculo do Coeficiente de Correlao de Pearson

DesvioX

DesvioY

DXDY

Desvio Y2

(Yi Y)

PRE_1
Y=a+bX

20,25

36,00

0,92727

14,00

12,25

16,00

2,05455

2,00

5,00

6,25

4,00

3,18182

1,50

1,00

1,50

2,25

1,00

4,30909

0,50

1,00

0,50

0,25

1,00

5,43636

0,50

2,00

1,00

0,25

4,00

6,56364

1,50

1,00

1,50

2,25

1,00

7,69091

2,50

1,00

2,50

6,25

1,00

8,81818

11

3,50

5,00

17,50

12,25

25,00

9,94545

10

11

4,50

5,00

22,50

20,25

25,00

11,07273

55

60

93,00

82,50

114,00

60,0000

4,50

6,00

27,00

3,50

4,00

2,50

(Xi X)

(Yi Y) (Xi X) . (Yi Y)

Desvio X2

(Xi X)

Na tabela anterior est uma ilustrao dos clculos dos componentes da


covarincia e correlao.
A figura a seguir mostra a relao entre as duas variveis X e Y, bem como
a linha ajustada a esses valores pelo mtodo de mnimos quadrados. Observe que a mdia de X 5,5 e a mdia de Y 6,0, e que elas esto formadas
pelas linhas paralelas ao eixo Y e ao eixo X respectivamente. Vejamos agora
o que significa os desvios de cada ponto em relao mdia. Observe que
cada ponto est formado pelo par ordenado (Xi,Yi), onde Xi indica o valor da
varivel X e Yi o valor da varivel Y naquele ponto.

169

Mtodos Quantitativos Estatsticos

DesvioX = (X 9 X)
(9 5, 5) = +3, 5

(X 9 , Y9 )

Y = 6, 0

X=5, 5

DesvioY = (Y9 Y)
(11 6, 0) = +5, 0

Tome, agora, por exemplo,


DesvioX = (X9 X ) = ( 9 5,5) = + 3,5 e DesvioY = (Y9 Y) = (11 6,0) = + 5,0
O produto dos desvios:
DesviosX . DesvioY = (X9 X ).(Y9 Y ) = (9 5,5).(11 6,0) = (+ 3,5).(+5,0) = 17,5
Se calcularmos esses produtos para todos os valores de X e Y e somarmos
temos o numerador da covarincia de X e Y:
C(X, Y) =

(Xi X).(Yi Y) 93
=
= 9,3
n
10

(1)

Logo, covarincia significa co-variao, como as duas variveis variam


de forma conjunta. Agora, vejamos o que acontece se os pontos estivessem no quadrante I. Neste caso, os desvios de X seriam todos
positivos, enquanto que os desvios de Y seriam todos negativos, logo,
os produtos tomam valores negativos. O mesmo vai acontecer com
os pontos do quadrante III, nele os desvios de X tomam valores negativos e os desvios de Y, valores positivos, logo, os produtos tomam valores negativos. Assim, se a maioria dos pontos caem nos quadrantes
I e III, a covarincia toma valores negativos, indicando que essas duas
170

Anlise de Correlao e Medidas de Associao

variveis se relacionam de forma negativa ou inversa, ou seja, quando


uma cresce a outra diminui e vice-versa.
Quando os pontos se distribuem nos quatro quadrantes, haver valores
positivos e negativos, logo a soma tende para zero, e nesse caso, afirmamos que no existe relao linear entre essas variveis. Observamos que
esta estatstica tende para zero, mesmo havendo uma relao que no
seja linear, por exemplo se os dados tivessem o formato de uma parbola, ou relao quadrtica.
Apesar de a covarincia ser uma estatstica adequada para medir relao
linear entre duas variveis, ela no adequada para comparar graus de
relao entre variveis, dado que ela est influenciada pelas unidades
de medida de cada varivel, que pode ser metros, quilmetro, quilogramas, centmetros etc. Para evitar a influncia da ordem de grandeza e
unidades de cada varivel, dividimos a covarincia pelo desvio padro
de X e de Y, dando origem ao coeficiente de correlao de Pearson:
Notao:
Coeficiente de correlao amostral: r
Coeficiente de correlao populacional: R
r=

r=

C(X,Y)
S Y .SX

(2)

9,3
= 0,95896
2,8723 . 3,3764

Onde: S2x= 82,5 / 10 = 8,25 Sx= 2,8723


Sy2 = 114,0 / 10 = 11,4 Sy = 3,3764
Como o coeficiente de correlao est isento de unidades e da ordem de
grandeza das variveis, este toma valores entre 1 e 1.
Relao positiva r tomar o valor 1 quando a relao perfeita.
Relao negativa r tomar o valor 1 quando a relao perfeita.
Relao difusa ou no linear r ser igual a 0.
No Excel, usando a opo Correlao em Anlise de dados, obtemos:
171

Mtodos Quantitativos Estatsticos

O coeficiente de Determinao
Outro coeficiente amplamente utilizado para mensurar o grau de correlao entre duas variveis o coeficiente de determinao. definido elevando
o valor do coeficiente de Pearson ao quadrado e denotado por r2. Pode ser
interpretado como a proporo da variao de Y que explicada pela varivel X (e vice versa).
Muito embora o coeficiente de determinao seja relativamente fcil de
interpretar, ele no pode ser testado estatisticamente. Contudo, a raiz quadrada do coeficiente de determinao, que o coeficiente de correlao (r),
pode ser testada estatisticamente, pois est associada a uma estatstica de
teste que distribuda segundo uma distribuio t de Student, quando a
correlao populacional R = 0.
O coeficiente de correlao para dados populacionais :
Populao: R = R2
O coeficiente de correlao para dados amostrais :
Amostra: r = r 2
172

Anlise de Correlao e Medidas de Associao

Significncia do coeficiente de correlao


Para comprovarmos se o coeficiente de correlao significativo, devemos realizar o seguinte teste de hipteses:
Hipteses:
H0 : R = 0
H1 : R x 0
A estatstica de teste t c =

r n 2
1 r 2

com n-2 graus de liberdade na tabela t de Student. Caso o valor de tc seja superior ao valor crtico de t, devemos rejeitar a hiptese nula. Se a hiptese nula,
ao nvel de significncia A , for rejeitada podemos concluir que efetivamente
existe uma relao significativa entre as variveis.
Exemplo 1: Para estudar a poluio de um rio, um cientista mediu a concentrao de um determinado composto orgnico (Y) e a precipitao pluviomtrica na semana anterior (X):
X

0,91

0,10

1,33

1,10

4,19

3,40

2,68

2,10

1,86

2,60

1,17

1,00

Existe alguma relao entre o nvel de poluio e a precipitao


pluviomtrica? Teste sua significncia, ao nvel de 5%.
Calculando a mdia de X e de Y temos X = 2,023 e Y = 1, 717.
Calculando a covarincia entre X e Y pela expresso (1),
C(X, Y) =

0,91 2,023 . 0,10 1,717 +1,33 2,023 . 1,10 1,717 +...+1,17 2,023 . 1,00 1,717
6

C(X,Y) = 1,0989
173

Mtodos Quantitativos Estatsticos

Calculando os desvios padres de X e Y temos: Sx = 1,125 e Sy = 1,10


E assim, pela expresso (2),
C(X,Y)
1,0989
r=
=
= 0, 888
S y .Sx
1,125.1,1
Testando a significncia do coeficiente,
tc =

r n 2
1 r

0,888 6 2
1 (0,888)2

= 3, 86

O valor crtico de t para n 2 = 4 graus de liberdade e 5% de nvel de significncia 2,78. Note que o teste de significncia do coeficiente ser sempre
bilateral.
Como o valor calculado de t superior ao valor crtico, podemos concluir
que existem evidncias suficientes para afirmar que o composto orgnico
(Y) e a precipitao pluviomtrica (X) estejam correlacionados.
Exemplo 2: Procurando quantificar os efeitos da escassez de sono sobre a
capacidade de resoluo de problemas simples, um agente tomou ao acaso
10 sujeitos e os submeteu a experimentao. Deixou-os sem dormir por diferentes nmeros de horas, aps o que solicitou que os mesmos resolvessem os itens contas de adicionar de um teste. Obteve, assim, os seguintes
dados:

174

N de erros - Y

Horas sem dormir - X

12

10

12

16

14

16

14

20

12

20

16

24

12

24

Anlise de Correlao e Medidas de Associao

Calcule o coeficiente de correlao linear de Pearson e teste a sua significncia ao nvel de 1%.
Calculando a mdia de X e de Y temos X = 16 e Y = 10, 6 .
Calculando a covarincia entre X e Y pela expresso (1),
C(X, Y) =

8 16 . 8 10,6 +8 16 . 6 10,6 +...+24 16 . 12 10,6 = 15, 2


10

Calculando os desvios padres de X e Y temos:


Sx = 5,656854 e Sy = 3,352611
E assim, pela expresso (2),
r=

C(X,Y)
15,2
=
= 0, 801467
S y .Sx
5,656854 .3,352611

Observao: procure sempre usar o maior nmero de casas decimais


possvel.
Usando a planilha Excel poderemos tambm obter uma matriz de covarincia, que nos fornece a covarincia entre X e Y alm da varincia de X e de Y.

175

Mtodos Quantitativos Estatsticos

Agora testando a significncia do coeficiente,


tc =

r n 2
1 r

0,801467 10 2
1 (0,801467)2

= 3, 79

O valor crtico de t para n2 = 8 graus de liberdade e 1% de nvel de


significncia 3,355 (bilateral).
Como o valor calculado de t superior ao valor crtico, podemos concluir que existem evidncias suficientes para afirmar que o nmero
de horas sem dormir (X) influencia significativamente o nmero de
erros (Y).

Medidas de Associao
Freqentemente, estamos interessados em verificar a existncia de associao entre dois conjuntos de escores e tambm o grau desta associao.
No caso paramtrico, a medida usual o coeficiente de correlao r de Pearson que exige mensurao dos escores no mnimo ao nvel intervalar. Ainda,
se estivermos interessados em comprovar a significncia de um valor observado de r de Pearson deveremos supor que os escores provenham de uma
distribuio normal. Quando estas suposies no so atendidas, podemos
utilizar um dos coeficientes de correlao no-paramtricos e suas respectivas provas de significncia.

Coeficiente de Contingncia C
Este coeficiente mede a associao entre dois conjuntos de atributos
quando um ou ambos os conjuntos so medidos em escala nominal.
Considere uma tabela de contingncia k x r, que representa as freqncias cruzadas dos escores A (divididos em k categorias) e escores B (divididos
em r categorias). O grau de associao entre dois conjuntos de atributos
calculado por:
C=

C
onde C2 a estatstica Qui-quadrado.
n+C 

O p-valor associado ao valor da estatstica Qui-quadrado com (r-1) x (k-1) graus


de liberdade a prova de significncia do coeficiente de contingncia C.
176

Anlise de Correlao e Medidas de Associao

O coeficiente C se caracteriza por assumir valor zero quando h inexistncia de associao porm nunca ser igual 1. O limite superior do coeficiente
k 1 (quando k = r). Note que para calcular o coeficiente C, a
k
tabela de contingncia deve satisfazer as restries do teste Qui-quadrado.

dado por

Exemplo: Estudantes de escolas particulares e de escolas pblicas selecionados aleatoriamente foram submetidos a testes padronizados de conhecimento, e produziram os resultados abaixo. Verifique o grau de associao
entre as variveis mensuradas e teste a significncia ao nvel de 5%.
Escores
Escola

0 275

276 350

351 425

426 500

Particular

14

17

Pblica

30

32

17

Queremos aqui verificar o grau de associao entre as variveis Escola e


Escore de conhecimento. A varivel Escola mensurada em nvel nominal,
o que inviabiliza a utilizao do coeficiente r de Pearson.
Obtendo ento o coeficiente de Contingncia, necessitamos inicialmente
2
calcular o valor da estatstica :
Freq.
Obs.

14

17

30

32

17

Freq.
Esp.

12,94

16,53

12,22

4,31

23,06

29,47

21,78

7,69

2
2
2
6 12,94 14 16,53
3 7,69


C =
+
+ ... +
2

12,94

16,53

7,69

= 17, 28

O coeficiente de contingncia :
C=

C2
17,28
=
= 0, 345
2
128+17,28
n+C

Para testar a significncia do coeficiente, precisamos verificar o valor cr2


tico de considerando =0,05 e (r1) x (k1) = 3 graus de liberdade. Esse
valor igual a 7,81. Comparando com o valor calculado de 17,28, podemos
admitir a existncia de associao significativa entre a escola e o escore de
177

Mtodos Quantitativos Estatsticos

conhecimento. Analisando atentamente, poderamos acrescentar que o fato


de um estudante pertencer a uma escola particular faz com que ele obtenha
um escore de conhecimento mais alto.

Coeficiente de correlao de Spearman


uma medida de associao que exige que ambas as variveis se apresentem em escala de mensurao pelo menos ordinal. Basicamente, equivale ao coeficiente de correlao de Pearson aplicado a dados ordenados.
Assim,
r=

xy
x2 . y2

= rs

ou seja, o coeficiente de correlao de Spearman se utiliza da expresso do


coeficiente de Pearson, porm calculado com postos. Esta expresso equivale
n

rs = 1

6 di2
i=1

n3 n

onde di = xi yi a diferena de postos dos escores X e Y.

Para verificar a significncia do valor observado de rs, podemos usar a expresso de t de Student
t = rs

n 2
onde t tem n2 graus de liberdade.
1 r 2s

Exemplo: As notas obtidas por 10 estudantes de Administrao e o seu QI


(quociente de inteligncia) so apresentadas no quadro abaixo:
Notas

9,5

10

9,1

6,5

9,5

5,2

9,1

9,3

QI

127

149

150

135

122

129

142

100

136

139

Utilize o coeficiente de Spearman para verificar se as variveis esto associadas e qual o seu grau de associao.
Inicialmente, ordenamos os valores originais, transformando-os em
postos. Aqui ento substitumos os valores originais pelos seus respectivos postos, ou seja, o menor valor da varivel em questo ser substitudo pelo valor 1 e assim por diante. Em seguida, calculamos as diferenas
de postos:
178

Anlise de Correlao e Medidas de Associao

Notas

8,5

10

5,5

8,5

5,5

QI

10

di

0,5

0,5

0,5

0,5

(di)2

0,25

0,25

0,25

0,25

Calculando o coeficiente:
n

rs = 1

6 di2
i=1
3

n n

=1

6. 02 + 0,252 ++02
3

10 10

=1 6. 0,25 = 0, 998
990

Verificando a significncia estatstica do coeficiente:


t = rs

n 2
8
8
= 0, 998
= 0, 998
= 44, 63
2
2
1 r s
0,004
1 0,998

O valor crtico da estatstica t de Student obtido definindo-se n2 = 8


graus de liberdade e o nvel de significncia, que admitiremos igual a 1%.
Este valor igual a 3,36. Mais uma vez temos aqui um teste bilateral pois
estamos verificando se o coeficiente diferente de zero.
Assim, podemos comprovar que o coeficiente de associao altamente
significativo, ou seja, existem fortes indcios que apontam para notas altas
obtidas por aqueles que possuem maiores quocientes de inteligncia.

Ampliando seus conhecimentos


Teste de Kappa
(LANDIS; KOCH, 1977)

O Teste de Kappa uma medida de concordncia interobservador e mede o


grau de concordncia, alm do que seria esperado to-somente pelo acaso.
Para descrevermos se h ou no concordncia entre dois ou mais avaliadores, ou entre dois mtodos de classificao, utilizamos a medida Kappa que
baseada no nmero de respostas concordantes, ou seja, no nmero de casos
cujo resultado o mesmo entre os avaliadores. Esta medida de concordncia
assume valor mximo igual a 1, que representa total concordncia ou, ainda,
179

Mtodos Quantitativos Estatsticos

pode assumir valores prximos e at abaixo de 0, os quais indicam nenhuma


concordncia.
O coeficiente Kappa calculado a partir da seguinte frmula:
Kappa =
onde P0=

P0 PE
1 PE

nmero de concordncias
nmero de concordncias + nmero de discordncias

e PE = pi1.pi2 sendo que:


i=1

n o nmero de categorias;
i o ndice da categoria (que vale de 1 a n);
pi1 a proporo de ocorrncia da categoria i para o avaliador 1;
pi2 a proporo de ocorrncia da categoria i para o avaliador 2.

Fonte: Landis JR, Koch


GG. The measurement of
observer agreement
for categorical data.
Biometrics 1977; 33:
159-174

Para avaliar se a concordncia razovel, Landis, JR e Koch, GG (1977) sugerem a seguinte interpretao:
Valores obtidos de Kappa
<0
0 0,19

Interpretao
Nenhuma concordncia
Concordncia pobre

0,20 0,39

Concordncia leve

0,40 0,59

Concordncia moderada

0,60 0,79

Concordncia substancial

0,80 1,00

Concordncia quase perfeita

Exemplo: Em certo rgo de financiamento, em cada edital aberto, se apresentam diversos pesquisadores que enviam projetos, solicitando recursos
para desenvolv-los. Estes projetos recebem uma avaliao, muitas vezes subjetiva, baseada na opinio de um consultor.
Considere a tabela a seguir, que resume as avaliaes feitas por dois avaliadores a 30 projetos que concorrem ao financiamento. O interesse deste
estudo saber qual a concordncia entre estes dois profissionais e se h
alguma classificao com concordncia maior do que as demais.

180

Anlise de Correlao e Medidas de Associao

AVALIADOR 2

AVALIADOR 1

Total

14 (0,47)

1 (0,03)

1 (0,03)

16 (0,53)

3 (0,10)

3 (0,10)

2 (0,07)

8 (0,27)

0 (0,00)

1 (0,03)

5 (0,17)

6 (0,20)

17 (0,57)

5 (0,16)

8 (0,27)

30 (1,00)

Total

* entre parnteses as propores


Calculando o coeficiente Kappa:
P0 =

14 +3+5 22
=
= 0,7333
30
30
n

PE = pi1.pi2 = (0,57 . 0,53) + (0,16 . 0,27) + (0,27 . 0,20) = 0,3021 + 0,0432


i=1

+ 0,054 = 0,3993
Kappa =

0,733 0,3993
= 0, 556
1 0,3993

Note que a concordncia geral pode ser considerada apenas moderada.


Avaliando cada uma das trs classificaes, notamos que a concordncia
alta quando os avaliadores atribuem o conceito A e o conceito C. No entanto,
para atribuir o conceito B, um conceito intermedirio, a concordncia j no
to satisfatria.

Atividades de aplicao
1. Foi tomada uma amostra aleatria de 10 carregamentos recentes feitos por caminho de uma companhia, anotada a distncia em quilmetros e o tempo de entrega. Os dados seguem abaixo:
Carregamento

10

Distncia em Km (X)

825

215

1 070

550

480

920

1 350

325

670

1 215

Tempo de entrega
em dias (Y)

3,5

1,0

4,0

2,0

1,0

3,0

4,5

1,5

3,0

5,0

a) Construa o diagrama de disperso.


b) Calcule o coeficiente de correlao de Pearson para os dados desta
amostra.
181

Mtodos Quantitativos Estatsticos

c) Calcule o coeficiente de determinao.


d) Verifique se o coeficiente de correlao significativo (=0,05).
2. Para uma amostra de n = 10 tomadores de emprstimos em uma companhia financeira, o coeficiente de correlao entre a renda familiar
mdia e dbitos a descoberto de curto prazo foi calculado r = 0,50.
Teste a hiptese de que no existe correlao entre as duas variveis,
usando um nvel de significncia de 5%.
3. Para avaliar a relao entre habilidade verbal e habilidade matemtica, escores de 8 estudantes foram obtidos, gerando a tabela abaixo:
Estudantes
Escore

Matemtica

80

50

36

58

72

60

56

68

Verbal

65

60

35

39

48

44

48

61

Calcule o coeficiente de correlao e teste sua significncia.


4. Em um estudo conduzido com 10 pacientes, estes foram colocados
sob uma dieta de baixas gorduras e altos carboidratos. Antes de iniciar
a dieta, as medidas de colesterol e de triglicerdeos foram registradas
para cada indivduo .
a) Construa um grfico de disperso para esses dados.
b) H alguma evidncia de relao linear entre os nveis de colesterol
e de triglicerdeos?
c) Calcule o coeficiente de correlao de Spearman e teste sua significncia.

182

Paciente

Colesterol (mmol/l)

Triglicerdeos (mmol/l)

5,12

2,30

6,18

2,54

6,77

2,95

6,65

3,77

6,36

4,18

5,90

5,31

5,48

5,53

6,02

8,83

10,34

9,48

10

8,51

14,20

Anlise de Regresso

Introduo
Os modelos de regresso so largamente utilizados em diversas reas do
conhecimento, tais como: computao, administrao, engenharias, biologia, agronomia, sade, sociologia etc. O principal objetivo desta tcnica
obter uma equao que explique satisfatoriamente a relao entre uma varivel resposta e uma ou mais variveis explicativas, possibilitando fazer predio de valores da varivel de interesse. Este relacionamento pode ser por
uma equao linear ou uma funo no-linear, conforme figura abaixo:
Figura 1: Formas lineares e no lineares de relao entre pares de variveis

Linear

No-linear

Regresso linear simples


Se uma relao linear vlida para sumarizar a dependncia observada
entre duas variveis quantitativas, ento a equao que descreve esta relao dada por:
Y = a + b.X
Esta relao linear entre X e Y determinstica, ou seja, ela afirma que
todos os pontos caem exatamente em cima da reta de regresso. No entanto
este fato raramente ocorre, ou seja, os valores observados no caem todos

Anlise de Regresso

exatamente sobre esta linha reta. Existe uma diferena entre o valor observado e o valor fornecido pela equao. Esta diferena, denominada erro e representada por , uma varivel aleatria que quantifica a falha do modelo
em ajustar-se aos dados exatamente. Tal erro pode ocorrer devido ao efeito,
dentre outros, de variveis no consideradas e de erros de medio. Incorporando esse erro equao acima temos:
Y = a + b.X +
que denominado modelo de regresso linear simples. a e b so os parmetros do modelo.
A varivel X, denominada varivel regressora, explicativa ou independente, considerada uma varivel controlada pelo pesquisador e medida
com erro desprezvel. J Y, denominada varivel resposta ou dependente,
considerada uma varivel aleatria, isto , existe uma distribuio de probabilidade para Y em cada valor possvel de X. muito freqente, na prtica,
encontrarmos situaes em que Y tenha distribuio normal. Este um dos
principais pressupostos para aplicao desta tcnica.
Exemplo 1: O preo de aluguel de automveis de uma agncia definido pela seguinte equao: Y = 8 + 0,15.X, onde Y = Taxa de aluguel (R$);
X = distncia percorrida (km).
Assim, a taxa de aluguel inicia com o preo de R$ 8,00 e vai aumentando
medida que a distncia percorrida aumenta. Assim, se fosse percorrida uma
distncia de 100 km, a taxa de aluguel seria de 8 + 0,15 x 100 = R$ 23,00. No
entanto, como essa equao foi obtida baseada em dados de automveis
de diversas marcas, certamente haver uma variao no preo, por causa de
diversos outros fatores. Assim, essa equao ter uma margem de erro, que
devida a esses inmeros fatores que no foram controlados.
Exemplo 2: Um psiclogo investigando a relao entre o tempo que um indivduo leva para reagir a um certo estmulo e sua idade obteve os seguintes
resultados:

186

Anlise de Regresso

Tabela 1: Idade (em anos) e tempo de reao um certo estmulo (em segundos)

Y - Tempo de reao (segundos)

X - Idade (em anos)

96

20

92

20

106

20

100

20

98

25

104

25

110

25

101

25

116

30

106

30

109

30

100

30

112

35

105

35

118

35

108

35

113

40

112

40

127

40

117

40

Figura 2: Diagrama de disperso entre a idade (X) e o tempo de reao (Y)

187

Anlise de Regresso

A partir da representao grfica desses dados, mostrada na figura 2,


possvel visualizar uma relao linear positiva entre a idade e o tempo de
reao. O coeficiente de correlao de Pearson para esses dados resultou
em r = 0,768, bem como seu respectivo teste de significncia em tcal = 5,09,
que comparado ao valor tabelado ttab,5% = 2,1 , fornece evidncias de relao
linear entre essas duas variveis, ou seja, h evidncias de considervel relao linear positiva entre idade e tempo de reao.
Podemos, ento, usar um modelo de regresso linear simples para descrever essa relao. Para isso, necessrio estimar, com base na amostra
observada, os parmetros desconhecidos a e b deste modelo. O mtodo de
estimao denominado Mnimos Quadrados Ordinrios (MQO) freqentemente utilizado em regresso linear, para esta finalidade, e ser apresentado
mais adiante.
Continuando a anlise dos dados do exemplo, possvel obter o seguinte
modelo de regresso linear simples ajustado:
Y = 80,5 + 0,9.X
Figura 3: Reta de regresso ajustada aos dados

Como a variao dos dados em X no inclui x = 0, no h interpretao


prtica do coeficiente a = 80,5. Por outro lado, b = 0,9 significa que a cada aumento de 1 ano na idade das pessoas, o tempo de reao mdio (esperado)
aumenta em 0,9 segundos.
Assim, se: X = 20 anos, teremos Y = 98,5 seg.
Para X = 21 anos, Y = 99,4 seg.
X = 22 anos, Y = 100,3 seg.
188

Anlise de Regresso

Dessa maneira, de ano para ano, o aumento no tempo de reao esperado de 0,9 segundos.
Exemplo 3: Uma certa pea manufaturada por uma companhia, uma vez
por ms, em lotes, que variam de tamanho de acordo com as flutuaes na
demanda. A tabela abaixo contm dados sobre tamanho do lote e nmero
de horas gastas na produo de 10 recentes lotes produzidos sob condies
similares. Estes dados so apresentados graficamente na Figura 4, tomando-se horas-homem como varivel dependente ou varivel resposta (Y) e o
tamanho do lote como varivel independente ou preditora (X).
Tabela 2: Tamanho de lote e nmero de horas gastas na produo de cada lote.

Lote (i)

Horas (Yi)

Tamanho do lote (Xi)

73

30

50

20

128

60

170

80

87

40

108

50

135

60

69

30

148

70

10

132

60

Figura 4: Relao estatstica entre Y e X, referente aos dados da Tabela 2.

189

Anlise de Regresso

A Figura 4 sugere claramente que h uma relao linear positiva entre o tamanho do lote e o nmero de horas, de modo que, maiores lotes tendem a corresponder a maiores nmeros de horas-homem consumidas. Porm, a relao no
perfeita, ou seja, h uma disperso de pontos sugerindo que alguma variao
no nmero de horas no dependente do tamanho do lote. Por exemplo, dois
lotes de 30 unidades (1 e 8) demandaram quantidades um pouco diferentes de
horas. Na Figura 4, foi traada uma linha (reta) de relacionamento descrevendo
a relao estatstica entre horas e tamanho do lote. Ela indica a tendncia geral
da variao em horas-homem quando h trocas no tamanho do lote.
Observa-se que grande parte dos pontos da figura no cai diretamente sobre
a linha de relacionamento estatstico. A disperso dos pontos em torno da linha
de relacionamento representa a variao em horas que no associada ao tamanho do lote, e que usualmente considerada aleatria. Relaes estatsticas
so geralmente teis, mesmo no tendo uma relao funcional exata.

Mtodo dos mnimos quadrados ordinrios (MQO)


Para estimar os parmetros do modelo, necessrio um mtodo de estimao. O mtodo estatstico utilizado e recomendado pela sua preciso o
mtodo dos mnimos quadrados que ajusta a melhor equao possvel aos
dados observados.
Com base nos n pares de observaes (y1 ,x1) , (y2,x2) ,... , ( yn, xn) , o mtodo
de estimao por MQO consiste em escolher a e b de modo que a soma dos
quadrados dos erros, i (i=10 ,..., n), seja mnima.
Para minimizar esta soma, que expressa por:
n

i=1

I-1

SQ= Ei2  .y i a b.xi


devemos, inicialmente, diferenciar a expresso com respeito a a e b e, em
seguida, igualar a zero as expresses resultantes. Feito isso, e aps algumas
operaes algbricas, os estimadores resultantes so:
b=

x i .y i n.y.x
2
2
x i n.x

a = y b.x
onde Y a mdia amostral dos yi s e x a mdia amostral dos xi s.
190

Anlise de Regresso

Logo, E(Y|x) = a + b.x o modelo de regresso linear simples ajustado, em


que E(Y|x), denotado tambm Y por simplicidade, o valor mdio predito
de Y para qualquer valor X = x que esteja na variao observada de X.
No exemplo 2, as estimativas dos parmetros resultaram em a = 80,5 e
b = 0,9. Veja como esses valores foram obtidos:
Xi = 2 150

Yi = 600

n = 20

X = 30

Y = 107, 5

2
Xi = 19 000

b=

x.i y i n.y.x
2
xi

n.x

65 400 20 .107,5.30
2

19 000 20 .(30)

Xi Yi = 65 400

900
1 000

= 0, 9

a = y b.x = 107, 5 0, 9 . 30 = 80, 5


No exemplo 3, as estimativas dos parmetros a e b so:

Xi = 500

Yi = 1100

X = 50

Y = 110

b=

x i .y i n.y.x
2
xi

n.x

Xi Yi = 61 800

n = 10

2
Xi = 28 400

61 800 10 .110 . 50
2

28 400 10 .(50)

6 800
3 400

=2

Assim, a equao de regresso linear entre X e Y ser dada por:


Y = 10 + 2.X +
Interpretando o modelo acima, poderemos observar que, aumentando o
tamanho do lote em uma unidade, o nmero de horas gastas na produo
ser aumentado em 2 horas.
Obtendo a reta de regresso com ajuda da planilha Excel, teremos
que selecionar a opo REGRESSO no mdulo de Anlise de dados (em
ferramentas):

191

Anlise de Regresso

A sada fornecida pela planilha a seguinte:

192

Anlise de Regresso

Observe que o Excel fornece, alm dos coeficientes de correlao, a Anova


da regresso para testar a sua significncia e os coeficientes estimados com
seus respectivos testes de significncia.

Anlise de Varincia da Regresso


Para verificar a adequao do modelo aos dados, algumas tcnicas podem
ser utilizadas. A anlise de varincia da Regresso uma das tcnicas mais
usadas. Assim, podemos analisar a adequao do modelo pela ANOVA da
regresso a qual geralmente apresentada como na tabela abaixo:
Fonte de Variao

g.l.

S.Q.

Q.M.

Regresso

p-1

SQreg

SQreg/p-1

Resduos

n-p

SQres

SQres/n-p

Total

n-1

SQtotal

Sqtotal/n-1

p-valor

QMreg/QMres

Onde:
SQreg = soma dos quadrados devido regresso:
n
SQreg = (Yi y)2
i=1

SQres = soma dos quadrados devido aos erros:


n

SQres = SQtotal Sqreg = (y i Yi )2


i=1

SQtotal = soma dos quadrados totais:


n

SQtotal = (y i y)2
i=1

p = nmero de variveis do modelo


n = numero de observaes.
Caso o p-valor seja inferior ao nvel de significncia estabelecido, ento
consideramos a regresso como significativa.
Uma maneira auxiliar de medir o ganho relativo introduzido pelo modelo
usar o coeficiente de determinao o qual definido por R2 que calculado
por SQreg/SQtotal.
193

Anlise de Regresso

Para os exemplos 2 e 3, a tabela da Anova seria construda de seguinte


forma:
Exemplo 2:
n
n
SQreg = (Yi y)2 = (80, 5 + 0, 9x i 107, 5)2 = 810
i=1

i=1

Para obter a soma de quadrados acima, deveremos substituir em Xi todos


os valores de idade da Tabela 1.
n

i=1

i=1

SQtotal = (y i y)2 = (y i 107, 5)2 = 1 373


Para obter a soma de quadrados acima, deveremos substituir em Yi todos
os valores de tempo de reao da Tabela 1.
SQres = 1 373 810 = 563
Fonte de Variao

g.l.

S.Q.

Q.M.

Regresso

810

810

Resduos

18

563

31,27

Total

1 373

72,26

p-valor

25,90

< 0,01

O que indica que a regresso entre X e Y significativa. O modelo


Y = 80,5 +0,9.X pode ser considerado adequado para realizar predies de Y.
O coeficiente r2 de determinao para esse modelo de 0,59 o que representa um poder apenas razovel de explicao dos valores de tempo de reao
pela idade. Muito provavelmente outras variveis estejam influenciando o
tempo de reao.
Exemplo 3:
n
n
SQreg = (Yi y)2 = (10 + 2x i 110)2 = 13 600
i=1

i=1

Para obter a soma de quadrados acima, deveremos substituir em Xi

todos os valores do tamanho do lote da Tabela 2.


n

i=1

i=1

2
2
SQtotal = (y i y) = (y i 107, 5) =13 660

Para obter a soma de quadrados acima, deveremos substituir em Yi

todos os valores de nmeros de horas gastas da Tabela 2.


194

Anlise de Regresso

SQres = 13 660 13 600 = 60


Fonte de Variao

g.l.

S.Q.

Q.M.

Regresso

13 600

13 600

Resduos

60

7,5

Total

13 660

1 517,78

p-valor

1 813,33

< 0,01

O que indica que a regresso entre X e Y significativa. O modelo Y = 10 + 2.X


pode ser considerado de boa qualidade para realizar predies de Y. O coeficiente r2 de determinao para esse modelo de 0,996.

Erro padro de estimao e intervalos de predio


O erro padro da estimao um desvio padro condicional, na medida
em que indica o desvio padro da varivel dependente Y, dado um valor especfico da varivel dependente X. O erro padro baseado em dados amostrais dado por:
S u =

2
(y Y)
n 2

Para fins de clculo, mais conveniente uma verso alternativa da


frmula:

S u = S2y . 1 r 2
2

onde S2 =
y

y y

i=1

O erro padro pode ser usado para estabelecer um intervalo de predio para a varivel dependente, dado um valor especfico da varivel
independente.
Uma vez que o erro padro de estimao est baseado em dados de
amostra, apropriado o uso da distribuio t de Student com n-2 graus de
liberdade. Assim, um intervalo de predio para a varivel dependente Y, em
anlise de regresso simples :
Y t

n 2 ; A / 2 . Su

195

Anlise de Regresso

Para os dados do exemplo 2, teramos o erro padro da estimao dado


por:
Dado que S2y = 68,65 e r2 = 0,59 ento

S u = S2y . 1 r 2 = 68, 65. 1 0, 59 = 5, 30

E o intervalo de predio, com 95% de confiana, para um valor de Y=112


seria:

u ] = [112 2,10 . 5, 30] = [ 100, 87 , 123,13 ]


[Y tn 2; A/2 .S
Ou seja, para uma pessoa com 35 anos, o tempo de reao predito estaria
entre 100,87 e 123,13 segundos, com 95% de confiana.
Para os dados do exemplo 3 teramos o erro padro da estimao dado
por:
Dado que S2y = 1 366 e r2 = 0,996 ento

S u = S2y . 1 r 2 = 1 366. 1 0, 996 = 2, 34


2

E o intervalo de predio, com 95% de confiana, para um valor predito


de Y = 110 seria:

u ] = [110 2,31.2,34] = ;104,59; 115,41=


[Y tn 2;A/2 . S
Ou seja, para um lote de tamanho 50, seriam necessrias de 104,59 a
115,41 horas, com 95% de confiana.

Anlise de Resduos
^

Os desvios ei = yi - yi ( i = 1, ..., n) so denominados resduos e so considerados uma amostra aleatria dos erros. Por este fato, uma anlise grfica dos
resduos , em geral, realizada para verificar as suposies assumidas para os
erros i.
Para verificao dos pressupostos necessrios para ajuste de um modelo
de regresso necessrio realizar uma Anlise de Resduos. Os 3 tipos de
resduos mais comumente utilizados so:
196

Anlise de Regresso

Resduos brutos;
Resduos padronizados;
Resduos estudentizados.

Ampliando seus conhecimentos


Anlise de Regresso Mltipla
A regresso mltipla envolve trs ou mais variveis, ou seja, uma nica varivel dependente, porm duas ou mais variveis independentes (explicativas).
A finalidade das variveis independentes adicionais melhorar a capacidade de predio em confronto com a regresso linear simples. Mesmo quando
estamos interessados no efeito de apenas uma das variveis, aconselhvel
incluir as outras capazes de afetar Y, efetuando uma anlise de regresso mltipla, por 2 razes:
a) Para reduzir os resduos. Reduzindo-se a varincia residual
(erro padro da estimativa), aumenta a fora dos testes de significncia;
b) Para eliminar a tendenciosidade que poderia resultar se simplesmente ignorssemos uma varivel que afeta Y substancialmente.
Uma estimativa tendenciosa quando, por exemplo, numa pesquisa em
que se deseja investigar a relao entre a aplicao de fertilizante e o volume
de safra, atribumos erroneamente ao fertilizante os efeitos do fertilizante,
mais a precipitao pluviomtrica.
O ideal obter o mais alto relacionamento explanatrio com o mnimo
de variveis independentes, sobretudo em virtude do custo na obteno de
dados para muitas variveis e tambm pela necessidade de observaes adicionais para compensar a perda de graus de liberdade decorrente da introduo de mais variveis independentes.
A equao da regresso mltipla tem a forma seguinte:
Y = a + b1x1 + b2x2 ++bk xk + ei , onde:
197

Anlise de Regresso

a = intercepto do eixo y;
bi = coeficiente angular da i-sima varivel;
k = nmero de variveis independentes.
Enquanto uma regresso simples de duas variveis resulta na equao de
uma reta, um problema de trs variveis resulta um plano, e um problema de
k variveis resulta um hiperplano.
Tambm na regresso mltipla, as estimativas dos mnimos quadrados so
obtidas pela escolha dos estimadores que minimizam a soma dos quadrados
dos desvios entre os valores observados Yi e os valores ajustados Y .
Na regresso simples:
b = aumento em Y, decorrente de um aumento unitrio em X.
Na regresso mltipla:
bi = aumento em Y se Xi for aumentado de 1 unidade, mantendo-se constantes todas as demais variveis Xj.

Atividades de aplicao
1. Os encargos dirios com o consumo de gs propano (Y) de uma empresa dependem da temperatura ambiente (X). A tabela seguinte apresenta o valor desses encargos em funo da temperatura exterior:
Temperatura (C)

10

15

20

25

Encargos (dlares)

20

17

13

11

Seja Y = 0 + 1X + o correspondente modelo de regresso linear.


a) Determine, usando o mtodo dos mnimos quadrados, a respectiva reta de regresso e represente-a no diagrama de disperso.
b) Quantifique a qualidade do ajuste obtido e interprete.
c) Determine um intervalo de confiana a 95% para os encargos mdios com gs propano num dia em que a temperatura ambiente
de 17oC.
198

Anlise de Regresso

2. Suponha que um analista toma uma amostra aleatria de 9 carregamentos feitos recentemente por caminhes de uma companhia. Para
cada carregamento, registra-se a distncia percorrida em km (X) e o
respectivo tempo de entrega (Y). Obteve-se:
2

x i = 6 405, y i = 23, 5, x i2  56 280 75, y i  74, 75, x i y i = 20 295.


a) Estime, usando o modelo de regresso linear, o tempo esperado
de entrega para uma distncia de 1 050km.
b) Comente a afirmao o tempo de entrega explicado em aproximadamente 94% pela distncia percorrida.
3. Seja Y o nmero de chamadas telefnicas atendidas num determinado
servio de atendimento a clientes decorridos X minutos aps as 8h30.
Em determinado dia da semana observaram-se os seguintes pares de
valores:
Tempo aps 8h30(min)

Nmero de chamadas atendidas

10

11

12

Seja Y = 0 + 1X + o correspondente modelo de regresso linear.


a) Estime 0 e 1 usando o mtodo dos mnimos quadrados e represente a correspondente reta de regresso no diagrama de
disperso.
b) Determine o correspondente coeficiente de determinao,
bem como o coeficiente de correlao; como voc interpreta
os valores obtidos?
c) Estime a varincia do erro.
d) Seja E [Y (2)] = E [Y | x = 2]. Estime E [Y (2)]; determine um intervalo de confiana para E [Y (2)] com 95% de confiana.

199

Gabaritos

Captulo 1 Conceitos e Aplicaes


1.
a) uma estratgia adequada. Se a amostra coletada for representativa da populao, os resultados sero bastante confiveis.
b) Tambm pode ser considerada uma estratgia adequada. A pesquisa atingir, nos locais de venda, o pblico-alvo do novo produto e apresentar resultados confiveis.
c) Esta uma estratgia mais qualitativa, denominada discusso em
grupo (grupo focal). Os resultados obtidos apresentam muitas informaes em profundidade, porm sem muita representatividade, pelo nmero reduzido da amostra.
2.
a) Esta uma estratgia adequada, pois compara dois grupos de pacientes homogneos e possibilita avaliar o efeito do novo medicamento. preciso, no entanto, garantir que o nmero de pacientes
escolhidos seja em nmero satisfatrio.
b) No uma estratgia adequada. No se devem disponibilizar
medicamentos novos no mercado sem que antes tenham sido
avaliados em laboratrio e outros experimentos controlados. E
nada garante que ser atingida a populao alvo de interesse do
estudo.
c) uma estratgia parcialmente adequada. Deve-se avaliar se os pacientes deste hospital representam de forma satisfatria a populao alvo ou se apenas uma escolha por convenincia. Pode ser
que os pacientes hospitalizados sejam pacientes em estado mais
grave, o que poder viesar os resultados do estudo.

Mtodos Quantitativos Estatsticos

3.
a) uma estratgia adequada. Escolhendo uma amostra representativa do lote conseguiremos, com uma boa margem de confiana,
avaliar a qualidade do lote.
b) No adequado. No devemos liberar mercadorias para o comrcio sem que antes a sua qualidade tenha sido avaliada.
c) No adequado. Avaliar 10% do lote pode ser exaustivo ou insuficiente, dependendo do tamanho do lote. Existem maneiras definidas de calcular o nmero de amostras que vo representar satisfatoriamente a populao.

Captulo 2 Anlise Exploratria de Dados


1. Construindo-se a tabela de freqncia dos dados considerando 5 classes:
k = 1 + 3,3.log(n)
k = 1 + 3,3.log(20)
k = 1 + 3,3 . 1,30103

AT
k
69
hi =
5
hi = 13,80

hi =

AT = 119 50
AT = 69

k = 5,29
Para facilitar a construo da tabela de freqncias, utilizaremos classe
igual a 5 e intervalo de classe igual a 15.
Classe

Freqncia

50 | 65

40

65 | 80

35

80 | 95

20

95 | 110

110 | 125

Podemos observar que a grande maioria das instituies (75%) apresentou lucro de at 80 milhes de dlares enquanto que uma delas apresentou um lucro muito superior s demais (119 milhes de dlares).
202

Gabaritos

2. Construindo a tabela com os dados do problema obteremos:


i

Pesos (kg)

fi

Pmi

fri

48 | 53

10

50,5

0,20

20

53 | 58

55,5

0,14

14

58 | 63

60,5

0,10

10

63 | 68

65,5

0,14

14

68 | 73

70,5

0,10

10

73 | 78

75,5

0,12

12

78 | 83

80,5

0,12

12

83 | 88

85,5

0,02

88 | 93

90,5

0,02

10

93 | 98

95,5

0,04

TOTAL

50

100

Fazendo a leitura da tabela:


a) 58

b) 68

c) 5

d) 50

e) 65,5

f) 10

g) 29

h) 16

i) 23

j) 4%

k) 34%

l ) 20%

3. Um possvel grfico para representar a distribuio de altura da populao dos 3 pases poderia ser um histograma:

203

Mtodos Quantitativos Estatsticos

4. Podemos observar, pela interpretao dos ramos-e-folhas, que as duas


corretoras apresentam porcentagens mdias de lucros semelhantes, por
volta de 5,0%. Por outro lado, a corretora B apresenta uma variabilidade
muito menor que a corretora A. A corretora B, portanto apresenta um desempenho muito mais homogneo que a corretora A.

Captulo 3 Medidas de Posio e Variabilidade


1. A. O mais provvel seria ganhar menos, pois se o terceiro quartil de
R$ 5.000,00, significa que 75% dos salrios so inferiores a este valor, a
despeito da mdia ser de R$ 10.000,00 muito provavelmente influenciada por salrios muito elevados dos altos cargos desta empresa.
B. Apresentaria-me na empresa Y, pois l praticamente certo que
meu salrio seria muito prximo da mdia de R$ 7.000,00 dado que
os salrios praticamente no apresentam variabilidade; quase todos
recebem o mesmo salrio.
2. B. O somatrio dos valores e o nmero deles.
3. B. 60.
4. C. a mediana.
5. C. zero.
6. B. a mdia e a mediana.
7. A. moda.
8. A. desvio padro e mdia.
9. D. A disperso absoluta da turma 1 maior que a turma 2, mas em termos relativos as duas turmas no diferem quanto ao grau de disperso
das notas.
10. A. R$ 1.050,00
11. A. mdia
12. D. zero
13. B. ao desvio padro de X, multiplicado pela constante 5

204

Gabaritos

X = 2 1+ 0 +1+ 2 = 0
x
5
XY=

220 + 225+ 230 + 235+ 240 1 150


= 230
=
5
5

Xx=0
xi

(xi X)

(xi X)2

(xi X)2 . fi

2
1

2
1

TOTAL

S2 =

10

10
S2 = 2,5
4

S = 2,5 S = 1,58
X Y = 230
xi

(xi X )

(xi X )2

(xi X )2 . fi

220

10
5

100

100

25

25

225
230

235

25

25

240

10

100

100

TOTAL

25

250
S2 = 62,5
4
S = 62,5 S = 7,905
S2 =

7, 905
= 5 (constante)
1,58

Captulo 4 Introduo Probabilidade


1.
a) S={KKK, KKC, KCK, CKK, KCC, CKC, CCK, CCC}
205

Mtodos Quantitativos Estatsticos

b) S={MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF}


c) S={(1,1), (1,2), , (1,6), (2,1), , (2,6), ...,(6,1), ..., (6,6)}
d) S={DD, DV, VD, VV}
e) S={BB, BA, AB, AA}
2.
a) A={(3,6), (4,5), (5,4), (6,3)}
b) B={(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)}
c) P(A) = 4/36
d) P(B) = 6/36
e) P(AB) = P(A) + P(B) P(AB) = 4/36 + 6/36 0 = 10/36
f) P(AB) = 0
3.
a) P(retirar uma bola branca da urna A) = 5/10
b) P(retirar uma bola branca ou uma vermelha da urna A) = 8/10
c) P(retirar uma bola branca e uma vermelha da urna A) = 0
d) P(retirar duas bolas vermelhas da urna A, com reposio) =
(3/10).(3/10) = 9/100
e) P(retirar duas bolas pretas da urna A, sem reposio) = (2/10).(1/10)
= 2/100
4.
P(XY) = P(X) + P(Y) P(XY) = 3/5 + 4/7 (3/5 . 4/7) = 29/35 = 82,86%
5.
a) P(H) = 60/100 = 0,6 ou 60%.
b) P(MNE) = 26/100 = 0,26 ou 26%.
c) P(NE) = 65/100 = 0,65 ou 65%
d) P(HNE) = 39/100 = 0,39 ou 39%.
206

Gabaritos

e) P(M/E) = 14/35 = 0,4 ou 40%


f) P(NE/H) = 39/60 = 0,65 ou 65%
6.
a) P((B1B2) (A1A2) (P1P2)) = (4/15 . 5/13) + (5/15 . 6/13) +
(6/15 . 2/13) = 62/195
b) P(A1P2) = 5/15 . 2/13 = 10/195
c) P((A1P2) (P1A2)) = (5/15 . 2/13) + (6/15 . 6/13) = 46/195
d) P(B1 C B2C) = 4/15 . 8/13 = 32/195
7.
P(W) = (1/10 . 3/4) + (3/5 . 1/6) + (3/10 . 1/20) = 3/40 + 3/30 + 3/200 = 0,19
a) P(A/W) = P(WA)/ P(W) = P(A) . P(W/A) / P(W) = (1/10 . 3/4)/0,19 =
0,3947
b) P(B/W) = P(WB)/ P(W) = P(B) . P(W/B) / P(W) = (3/5 . 1/6)/0,19 =
0,5263
c) P(C/W) = P(WC)/ P(W) = P(C) . P(W/C) / P(W) = (3/10 . 1/20)/0,19
= 0,0789
8.
P(D) = (0,4 . 0,03) + (0,5 . 0,05) + (0,1 . 0,02) = 0,012 + 0,025 + 0,002 = 0,039
a) P(M1/D) = P(M1D)/ P(D) = P(M1) . P(D/M1) / P(D) = (0,4 . 0,03)/0,039
= 0,3077
b) P(M2/D) = P(M2D)/ P(D) = P(M2) . P(D/M2) / P(D) = (0,5 . 0,05)/0,039
= 0,6410
c) P(M3/D) = P(M3D)/ P(D) = P(M3) . P(D/M3) / P(D) = (0,1 . 0,02)/0,039
= 0,0513
9.
a) Sabemos que 3i p(xi) = 1, assim: k/2 + 0,15 + 3k + 0,1 + 0,05 =1, ou
seja, 3,5k + 0,30 = 1 e isto implica que k = 0,2
b) P(X>22) = P(X=23) + P(X=24) = 0,15 ou 15%
207

Mtodos Quantitativos Estatsticos

c) P(20<X<24) = P(X=21) + P(X=22) + P(X=23) = 0,85 ou 85%


d) Pela definio de esperana de uma varivel aleatria discreta:
d

E(X) = xi .p.  xi .
i=1

Assim,
E(X) = (20 . 0,1) + (21 . 0,15) + (22 . 0,6) + (23 . 0,1) + (24 . 0,05) = 21,85 dias
e) Pela definio de varincia, temos que: Var(X) = E(X2) [E(X)]2
Temos que E(X2) = (202 . 0,1) + (212 . 0,15) + (222 . 0,6) + (232 . 0,1) +
(242 . 0,05) = 478,25 e assim Var(X) = 478,25 (21,852) = 0,8275
f) Custo da obra: 16.000 + (750 . 21,85) = 32.387,50 euros.
Custo da obra + lucro = 34.887,50 euros.

Captulo 5 Distribuio Binomial, Distribuio Poisson


e Distribuio Normal
1.
8 10
a) P(Xb8) = .0,3x .0,710 x = 0,999
x=0 x

10
b) P(X=7) = .0,37.0,73 = 0,009
7
10 10
c) P(X6)= .0,3x .0,710 x = 0,047
x=7 x

2.
a) 0,95 = 0,59
3. P(no mximo duas peas defeituosas) =
2 10
P(X=0) + P(X=1) + P(X=2) = .0, 05x .0, 9510 x = 0,9885 ou 98,85%
x=0 x
4. O nmero de navios petroleiros que chegam a determinada refinaria, a
cada dia, tem distribuio de Poisson, com parmetro L = 2. As atuais instalaes do porto podem atender a trs petroleiros por dia. Se mais de 3
navios aportarem por dia, os excedentes devem seguir para outro porto.
208

Gabaritos
L

e .L
= 1 0, 857 = 0,143
x!
x=0
3

a) P(X > 3) = 1

b) Se as instalaes forem ampliadas para permitir mais um petroleiro, teremos:


e L .L x
P(X b 4)=
=0,947
x!
x=0
4

c) E(X) = x
x=0

d
e L .L x
e 2 .2x
=x
=2
x!
x!
x=0

d) 1 ou 2 petroleiros. P(X=1) = P(X=2) = 0,2707


e) Qual o nmero esperado de petroleiros a serem atendidos diariamente?
Se chegarem 0, 1, 2 ou 3 petroleiros todos sero atendidos. Se vierem mais de 3 petroleiros, somente 3 sero atendidos. Dessa forma:
Nmero esperado:
0.P(X=0) + 1.P(X=1) + 2.P(X=2) + 3.P(X3) = 1,78
f) Se vierem 0,1, 2 ou 3 petroleiros nenhum precisar ir a outros portos. Caso mais de 3 petroleiros cheguem, apenas 3 podem ser recebidos. Assim:
Nmero esperado:
1.P(X=4) + 2.P(X=5) + 3.P(X=6) + 4.P(X=7)+ ... = 0,22
5.
c) P(X=0) =

e 5 .50
= 0, 0067
0!

6.
a) 9,6 e 29,6
Para obtermos o valor padronizado 1,96, faremos: X 10 = 1, 96
10
Assim, X = 29,6
X 10
Para obtermos o valor padronizado 1,96, faremos:
= 1, 96
10
Assim, X = 9,6
209

Mtodos Quantitativos Estatsticos

5 000 15 000
7. P X < 5 000 = P Z <
= P Z < 5 = 0,0000002871
2 000

8. P(Xr772N)

772 800

=PZ r
= P  Z r 2,33 =1 P(Z b 2,33) =1 0, 0098 = 0, 99

144

Captulo 6 Estimao de Parmetros


1.
a) derivando a funo de verossimilhana.
2. M1 = 2
M1 = 1

x 21
=
= 1, 4
n 15
M3 o melhor estimador porque leva em considerao todos os valores da
amostra, proporcionando um resumo de dados e por isso pode ser considerado mais confivel.
M3 = x =

3. Os limites do intervalo so obtidos a partir da seguinte expresso:

. S
. S
. 2
. 2
X ZA 2 n ; X+ZA 2 n = 78,3 2,58 25 ; 78,3+2,58 25 = ;77,27; 79,33=

210

Gabaritos

4.
a) 95%
S0
S0

.
.
;
X
+
z
X

z
A
A

2
2
n
n

0, 024
0, 024

= 0,298 2,78 .
; 0,298 + 2,78 .
= ; 0,268; 0,328 =
5
5

b) 99%
S0
S0

X z A 2 . n ; X + z A 2 . n =

0, 024
0, 024
= 0,298 4, 60 .
; 0,298 + 4, 60 .
= ; 0,248; 0,348 =

5
5
5.


p .(1 p)
p .(1 p)
b p b p + z A .
p z A 2 .
=
2
n
n

0, 80. 0,20
0, 80. 0,20
= 0, 80 2,58.
; 0, 80 2,58.

200
200

= (0,723 ; 0,873)
O valor 0,90 declarado pelo fabricante, no est includo no intervalo.
Portanto, no temos evidncias de que a declarao do fabricante seja
legtima, ao nvel de significncia de 1%.

6.
S
S

a) X z 0,05 . 0 ; X + z 0,05 . 0 =
n
n

4
4

4,52 1,64 . 100 ; 4,52+1,64. 100 = (3,864; 5,176)


b) Sim, a probabilidade do verdadeiro valor da mdia (valor populacional) estar includo nos limites do intervalo encontrado de
90%.
7.
a) O verdadeiro valor do salrio inicial mdio estar entre 8 e 10 salrios
mnimos com probabilidade de 95%.
211

Mtodos Quantitativos Estatsticos

b) Quanto maior o tamanho da amostra, menor o erro de estimativa e portanto a mdia amostral estar mais prxima da mdia
populacional. Veja, por exemplo em
S0
S0
S0

X z A 2 . n ; X + z A 2 . n o erro de estimativa z A 2 . n menor


a medida que se aumenta o valor de n.
8. Queremos obter uma amostra para estimar a mdia de uma distribuio normal que respeite a seguinte probabilidade:
S
S

P X z A . 0 ; X + z A . 0 = 0,92
2
2
n
n

O valor de Z na tabela ser obtido encontrando a rea 0,5 A/2 =


0,5 0,04 = 0,46. Este valor 1,75.

30
30
; X +1,75 .
Assim, P X 1,75 .
= 0,92
n
n

Como o erro de estimativa, segundo o enunciado, no deve ser superior a


3 unidades, ento:
30
1,75 .
= 3 . Isolando n, teremos que ele ser maior que 10,28.
n
9. Neste problema, o nvel de confiana fixado de 90% e conseqentemente, o nvel de significncia de 10%.
a) Como no temos uma estimativa prvia da proporo amostral,
consideramos p=0,05. Desta forma, teremos:
2

2
2
zA 1 zA
1,64
n= 2 . = 2 n=
=268,96
2.0,05
e 4 2e

b) Agora temos uma informao prvia sobre a proporo amostral


(0,8) e assim o clculo da amostra ser:
2

zA
1,64
n= 2 . p0 .(1 p 0 )=
. 0,20 . 0,80=172,13
0,05
e

212

Gabaritos

Captulo 7 Testes de Hipteses: conceitos


1.
a) A populao a totalidade de alunos do Curso X. A amostra composta pelos 80 alunos do Curso, selecionados aleatoriamente. O
parmetro de interesse a proporo de alunos favorveis a eliminao da disciplina de Estatstica do currculo. O teste adequado
seria para testar a proporo de uma amostra.
b) A populao a totalidade de pessoas obesas com certa idade. A
amostra composta pelas 20 pessoas obesas daquela faixa etria,
selecionadas aleatoriamente. O parmetro de interesse a mdia
de perda de peso, ou seja peso antes peso depois (do curso). O
teste adequado seria para comparar amostras relacionadas.
c) A populao a totalidade de moradores fumantes da cidade. A
amostra composta pelas 100 pessoas fumantes, selecionadas
aleatoriamente. Um dos parmetros de interesse pode ser a mdia
de cigarros consumidos. O teste adequado seria para testar a mdia de uma amostra.
2.
a) H0 = opinio antes = opinio depois
Ha = opinio antes x opinio depois
b) Embora a maioria das pessoas tenha se manifestado mais favorvel ao candidato, no seria prudente afirmarmos que este resultado possa ser considerado estatisticamente significativo.
c) Com este tamanho de amostra j possvel realizar um teste de
significncia. Muito provavelmente, iremos rejeitar a hiptese
nula, de igualdade das opinies. Poderemos, se o teste comprovar,
inferir os resultados para toda a populao e afirmar com um certo
nvel de confiana, que se passou a ter melhor impresso sobre o
candidato aps a apresentao.
d) Um teste para comparao da proporo de duas amostras relacionadas (antes e depois da apresentao).

213

Mtodos Quantitativos Estatsticos

3.
a) H0 = vendas sem brinde = vendas com brinde
Ha = vendas sem brinde x vendas com brinde
b) Com exceo de uma loja, todas as 5 demais apresentaram maiores ndices de venda ao oferecer o brinde. um forte indicativo de
maiores vendas com oferta do brinde, embora o nmero de lojas
participantes deste experimento possa ser considerado baixo.
c) O tipo de teste mais adequado seria um teste para comparao
de mdias de duas amostras independentes, embora pudesse ser
utilizado tambm um teste para comparao de mdias de duas
amostras relacionadas, desde que bem justificado o critrio de pareamento das unidades observadas.
4.
a) H0 = eficcia relativa comerciais de 15 segundos = eficcia relativa comerciais de 30 segundos
Ha = eficcia relativa comerciais de 15 segundos < eficcia relativa comerciais de 30 segundos
b) Caso o tamanho de amostra seja satisfatrio e a suposio de normalidade seja comprovada, pode ser aplicado um teste paramtrico para comparao de duas amostras independentes. Caso os
pressupostos para aplicao de um teste paramtrico no sejam
atendidos, podemos recorrer a um teste no paramtrico para
comparao de duas amostras independentes. O nvel de significncia mais indicado seria de 1% ou 5%.
c) Nas 4 variveis avaliadas podemos observar que os comerciais de
30 segundos apresentaram uma melhor avaliao em relao aos
comerciais de 15 segundos.

Captulo 8 Testes de Hipteses


1. As hipteses a serem testadas so:
H0: As produes mdias de milho esto de acordo com a especificao do fabricante;
214

Gabaritos

Ha: A produo mdia de milho no se ajusta distribuio especificada pelo fabricante.


Aplicando o teste Qui-quadrado para testar a aderncia dos dados
distribuio especificada pelo fabricante, temos:
k

X2 =

i=1

oi ei 2 = 13 12 2 + 18 20 2 + + 11 13 2 =


ei

12

20

13

3,04

Consultando a tabela de valores crticos, considerando k1 = 5 graus


de liberdade e A= 0,05, temos x2 = 11,1. Como o valor calculado inferior ao valor crtico, no rejeitamos a hiptese nula e podemos concluir
que os dados se ajustam satisfatoriamente distribuio especificada
pelo fabricante.
2. As hipteses a serem testadas so:
H0: a nota mdia dos estudantes de escola pblica no difere da nota
mdia dos estudantes da escola particular;
Ha: a nota mdia dos estudantes de escola pblica difere da nota mdia dos estudantes da escola particular.
Aplicando o teste t de Student para comparao de duas amostras
independentes, temos que verificar primeiramente se as varincias
podem ser consideradas iguais. Construindo o intervalo de confiana
para a razo de varincias temos:
S12 1 S12 1 64
. 1 ; 64 .1, 4833 = ( 0,43 ; 0,94 )
2. ; 2. =

S2 F2 S2 F1 100 1, 4833 100


Desta forma as varincias no so iguais.
t=

 x1 x 2
S12
n1

S22
n2

75, 9 74,5
64 100
+
117 200

= 1,3682

Consultando a tabela de valores crticos, considerando n1+ n22 = 315


graus de liberdade e A= 0,05, temos tc = 1,96. Como o valor calculado
inferior ao valor crtico, no rejeitamos a hiptese nula e podemos
concluir que as notas mdias das duas escolas no diferem.
215

Mtodos Quantitativos Estatsticos

3. As hipteses a serem testadas so:


H0: a nova droga no baixa a febre, ou seja, Diferena = 0;
Ha: a nova droga baixa a febre, ou seja, Diferena 0.
Aplicando o teste t de Student para comparao de duas amostras relacionadas, temos:

2
2
80 15. 1,866 2
d nd
=
=1,408 e a estatstica do teste
n 1
14

Sd =
ser:

t=

1,866
=5,131
1,408
15

Consultando a tabela de valores crticos, considerando n1 = 14 graus


de liberdade e A= 0,05 (bilateral), temos tc = 2,14. Como o valor calculado superior ao valor crtico, rejeitamos a hiptese nula e podemos
concluir que a nova droga baixa a febre significativamente.
4. As hipteses a serem testadas so:
H0: a proporo de animais com verminose igual nos dois grupos;
Ha: a proporo de animais com verminose inferior no grupo que
teve alterao da dieta.
O teste, portanto, unilateral e aplicando o teste Z para proporo,
temos:
n1.p1 + n2 .p2 500.0,10 + 100.0,04
= 0, 09
=
p=
600
n1 + n2
Sp =

Z=

p.(1 p) p.(1 p)
0, 09.0,91 0, 09.0,91
+
=
+
= 0, 031
n1
n2
500
100

p1 p2 0,10 0, 04
=
= 1, 93
Sp
0, 031

Consultando a tabela de valores crticos da distribuio normal padro, considerando A= 0,01, temos Zc = 2,33. Como o valor calculado inferior ao valor crtico, no rejeitamos a hiptese nula e podemos concluir que a doena no diminuiu significativamente de
intensidade.
216

Gabaritos

5. As hipteses a serem testadas so:


H0: no existe diferena de satisfao entre os 3 hospitais;
Ha: existe pelo menos uma diferena entre os hospitais, com relao
mdia de satisfao.
Realizando o Teste F, de Anlise de Varincias, temos:
Tk2 T 2 873 2 898 2 954 2 2725 2
=
+
+
=


nK N
10
15
13
38
= 76 212, 9 + 53 760,267 + 70 008, 92 195 411,1842 = 4 570, 9

SQA =

SQT = X2 T = 200 623 195 411,1842 = 5 211, 82


N
i=1k=1
n k

e SQE = SQT SQA = 5 211,82 4 570,9 = 640,92

Fonte de
variao
Entre grupos
Erro amostral
Total

Soma dos
quadrados
4 570,90

Graus de
liberdade

Quadrados
mdios

2 285,450

640,92

35

18,312

5 211,82

37

124,8

O valor crtico de F, definido pelo nvel de significncia (A = 0,05) e


pelos graus de liberdade 2 e 35 igual a 3,30. Como Fcal > Fcrit devemos
rejeitar a hiptese nula. Os hospitais diferem em relao satisfao
mdia.

217

Mtodos Quantitativos Estatsticos

Captulo 9 Anlise de Correlao e Medidas de


Associao
1.
a)

b) C(X ,Y )=
r=

(X X).(Y Y ) = 4 653 = 465,3


i

10

C(X, Y)
465,3
=
= 0, 9497
S Y . SX 360,26.1,36

c) r2 = (r)2 = (0,9497)2 = 0,9019


d) t c =

r n 2
1 r

0,9497 8
=8,576
1 0,9019

Comparando o valor calculado com o valor crtico, considerando 8


graus de liberdade e 5% de significncia temos tcrtico = 2,31. Assim, podemos considerar o coeficiente de correlao altamente significativo.
2. t c =

r n 2
1 r

0,50 8
=1,63
1 0,25

Comparando o valor calculado com o valor crtico, considerando 8


graus de liberdade e 5% de significncia temos tcrtico = 2,31. Assim,
no podemos considerar o coeficiente de correlao significativo. No
existe correlao entre a renda familiar e os dbitos a descoberto de
curto prazo.

218

Gabaritos

3. C(X ,Y )=
r=

(X X).(Y Y ) = 654 = 81,75


i

C(X ,Y )
81,75
=
= 0,626
S Y .SX 12,77.10,22

tc =

r n 2
1 r

0,626 6
= 1,967
1 0,392

Comparando o valor calculado com o valor crtico, considerando 6


graus de liberdade e 5% de significncia temos tcrtico = 2,45. Assim,
podemos considerar o coeficiente de correlao no significativo, ou
seja, no existem evidncias de correlao significativa entre habilidade verbal e habilidade matemtica.
4.
a)

b) baseado no diagrama acima, no est muito clara a existncia de


relao linear entre colesterol e triglicerdeos.
Paciente

Colesterol
(mmol/l)

Triglicerdeos
(mmol/l)

Postos
Colesterol

5,12

2,30

6,18

2,54

6,77

2,95

6,65

3,77

Postos
Triglicerdeos

di

d2i

25

9
219

Mtodos Quantitativos Estatsticos

Paciente

Colesterol
(mmol/l)

Triglicerdeos
(mmol/l)

Postos
Colesterol

6,36

4,18

5,90

5,31

5,48

5,53

6,02

9
10

di

d2i

25

8,83

16

10,34

9,48

10

8,51

14,20

10

Soma

Postos
Triglicerdeos

96
n

c) rs =1

6 di2
i=1
3

n n

=1

6.96
=0,418
1000 10

Para verificar a significncia do valor observado de rs podemos


usar a expresso de t de Student
t=rs .

n 2
8
=0,418.
=1,30
2
1 r s
1 0,1748

Comparando o valor calculado com o valor crtico, considerando 8


graus de liberdade e 5% de significncia temos tcrtico = 2,31. Assim,
podemos considerar o coeficiente de associao significativo, ou
seja, existem evidncias de correlao significativa entre colesterol
e triglicerdeos.

220

Gabaritos

Captulo 10 Anlise de Regresso


1. B 1 =

x .y n.y.x = 910 5.14.15 = 0,56


x n.x 1375 5.225
i

2
i

B 0 = y B 1.x = 14 ( 0,56).15 = 22,4


^

Ento Y = 22,4 0,56X.

b) Dado que y =

70
=14
5

n
n
2
2
SQreg = (Yi y) = (22,4 0,65xi 14) =78,4
i=1

i=1

SQres = (y i Yi )2 = (y i 22,4 0,65xi )2 = 1,6


n

i=1

i=1

SQtotal = 78,4 + 1,6 = 80


Fonte de
Variao

g.l.

S.Q.

Q.M.

p-valor

Regresso

78,4

78,4

147

< 0,001

Resduos

1,6

Total

80

0,53
20

221

Mtodos Quantitativos Estatsticos

A regresso pode ser considerada altamente significativa (p < 0,001).


O coeficiente de determinao calculado a partir dos dados da Anova, r2 = 78,4/80 = 0,98. Pode se considerar bastante satisfatria a
qualidade do ajuste.
n

c) S2y =

y y

i=1

80
=16
5

2
2
^
S = Sy . 1 r = 16. 1 0,98 =0,565
^

= 22,4 0,56 . 17 = 12,88

2.
a)

B 1 =

x .y n.y.x = 20 295 9.2,61.711,67 = 3 577,87 = 0,00334


x n.x 5 628 075 9. 711,66 106 993,4
i

2
i

Ento Y = 0,234 + 0,00334.X = 0,234 + 0,00334 . 1 050 = 3,741 dias


b) Isto significa que 94% da variao do tempo de entrega est associada distncia a ser percorrida e outras variveis como: regio
urbana ou rural, clima durante o percurso, treinamento do motorista etc, so responsveis pelos demais 6%. No entanto, essas variveis no foram observadas nesse estudo.
3.
a) B 1 =

x .y n.y.x = 184 5.8.3,8 = 32 =2,16


x n.x 87 5. 3,8 14,8
i

2
i

B 0 = y B 1.x=8 2,16.3,8= 0,21


^

Ento Y = 0,21 + 2,16.X

222

Gabaritos

n
n
b) SQreg = (Yi y)2 = ( 0,21 +2,16xi 8)2 = 69,05
i=1

i=1

n
n

SQres = (y i Yi )2 = (y i +0,21 2,16xi )2 = 4,8109


i=1

i=1

SQtotal = 69,05 + 4,8109 = 73,8609


Assim r2 =

SQres
69,05
=
=0,9349 e r =
SQtotal 73,86

r 2 = 0,9668

O coeficiente de determinao calculado nos indica que bastante


satisfatria a qualidade do ajuste. A relao entre as duas variveis
pode ser considerada bastante forte, pela anlise do coeficiente de
correlao.
2

u = (y Y) = 4,8109 = 1,266
c) S
n 2
3
d) E [Y (2)] = 0,21 + 2,16 . 2 = 4,11
^

u ] = [4,113,18.1,266] = [0,08; 8,13]


[ Y tn 2; A/2 .S

223

Anexo I

Z
0.0
0.1
0.2
0.3
0.4

0.00
0.0000
0.0398
0.0793
0.1179
0.1554

0.01
0.0040
0.0438
0.0832
0.1217
0.1591

Tabela de valores crticos Normal


0.02
0.03
0.04
0.05
0.06
0.0080 0.0120 0.0160 0.0199 0.0239
0.0478 0.0517 0.0557 0.0596 0.0636
0.0871 0.0910 0.0948 0.0987 0.1026
0.1255 0.1293 0.1331 0.1368 0.1406
0.1628 0.1664 0.1700 0.1736 0.1772

0.5
0.6
0.7
0.8
0.9

0.1915
0.2257
0.2580
0.2881
0.3159

0.1950
0.2291
0.2611
0.2910
0.3186

0.1985
0.2324
0.2642
0.2939
0.3112

0.2019
0.2357
0.2673
0.2967
0.3238

0.2054
0.2389
0.2704
0.2995
0.3264

0.2088
0.2422
0.2734
0.3023
0.3289

0.2123
0.2454
0.2764
0.3051
0.3315

0.2157
0.2486
0.2794
0.3078
0.3340

0.2190
0.2517
0.2823
0.3106
0.3365

0.2224
0.2549
0.2852
0.3133
0.3389

1.0
1.1
1.2
1.3
1.4

0.3413
0.3643
0.3849
0.4032
0.4192

0.3438
0.3665
0.3869
0.4049
0.4207

0.3461
0.3686
0.3888
0.4066
0.4222

0.3485
0.3708
0.3907
0.4082
0.4236

0.3508
0.3729
0.3925
0.4099
0.4251

0.3531
0.3749
0.3944
0.4115
0.4265

0.3554
0.3770
0.3962
0.4131
0.4279

0.3577
0.3790
0.3980
0.4147
0.4292

0.3599
0.3810
0.3997
0.4162
0.4306

0.3621
0.3830
0.4015
0.4177
0.4319

1.5
1.6
1.7
1.8
1.9

0.4332
0.4452
0.4554
0.4641
0.4713

0.4345
0.4463
0.4564
0.4649
0.4719

0.4357
0.4474
0.4573
0.4656
0.4726

0.4370
0.4484
0.4582
0.4664
0.4732

0.4382
0.4495
0.4591
0.4671
0.4738

0.4394
0.4505
0.4599
0.4678
0.4744

0.4406
0.4515
0.4608
0.4686
0.4750

0.4418
0.4525
0.4616
0.4693
0.4756

0.4429
0.4535
0.4625
0.4699
0.4761

0.4441
0.4545
0.4633
0.4706
0.4767

2.0
2.1
2.2
2.3
2.4

0.4772
0.4821
0.4861
0.4893
0.4918

0.4778
0.4826
0.4864
0.4896
0.4920

0.4783
0.4830
0.4868
0.4898
0.4922

0.4788
0.4834
0.4871
0.4901
0.4925

0.4793
0.4838
0.4875
0.4904
0.4927

0.4798
0.4842
0.4878
0.4906
0.4929

0.4803
0.4846
0.4881
0.4909
0.4931

0.4808
0.4850
0.4884
0.4911
0.4932

0.4812
0.4854
0.4887
0.4913
0.4934

0.4817
0.4857
0.4890
0.4916
0.4936

2.5
2.6
2.7
2.8
2.9

0.4938
0.4953
0.1965
0.4974
0.4981

0.4940
0.4955
0.4966
0.4975
0..4982

0.4941
0.4956
0.4967
0.4976
0.4982

0.4943
0.4957
0.4968
0.4977
0.4983

0.4945
0.4959
0.4969
0.4977
0.4983

0.4946
0.4960
0.4970
0.4978
0.4984

0.4948
0.4961
0.4971
0.4979
0.4985

0.4949
0.4962
0.4972
0.4979
0.4985

0.4951
0.4963
0.4973
0.4980
0.4986

0.4952
0.4964
0.4974
0.4981
0.4986

3.0
3.1

0.4987
0.49903

0.4987

0.4987 0.4988 0.4988 0.4988 0.4989 0.4989 0.4990 0.4990

0.07
0.0279
0.0675
0.1064
0.1443
0.1808

0.08
0.0319
0.0714
0.1103
0.1480
0.1844

0.09
0.0359
0.0753
0.1141
0.1517
0.1879

Anexo II

Tabela de valores crticos t de Student


df

0.05

0.025

0.01

0.005

1
2
3
4
5
6
7
8
9

6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833

12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262

31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821

63.657
9.925
5.841
4.604
4.032
3.707
3.499
.3.55
3.250

10
11
12
13
14
15
16
17
18
19

1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729

2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093

2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539

3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861

20
21
22
23
24
25
26
27
28
29

1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699

2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045

2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462

2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756

30
40
50

1.697
1.684
1.676

2.042
2.021
2.009

2.457
2.423
2.403

2.750
2.704
2.678

100

1.660

1.984

2.364

2.626

1.645

1.960

2.326

2.576

Anexo III

Tabela de valores crticos Qui-quadrado


df

0.05

0.025

0.01

0.005

1
2
3
4

3.84
5.99
7.82
9.49

5.02
7.38
9.35
11.14

6.63
9.21
11.35
13.28

7.88
10.60
12.84
14.86

5
6
7
8
9

11.07
12.59
14.07
15.51
16.92

12.83
14.45
16.01
17.54
19.02

15.09
16.81
18.48
20.09
21.66

16.75
18.55
20.28
21.96
23.59

10
11
12
13
14

18.31
19.68
21.03
22.36
23.69

20.48
21.92
23.34
24.74
26.12

23.21
24.72
26.21
27.69
29.14

25.19
26.75
28.30
29.82
31.31

15
16
17
18
19

25.00
26.30
27.59
28.87
30.14

27.49
28.85
30.19
31.53
32.85

30.58
32.00
33.41
34.81
36.19

32.80
34.27
35.72
37.15
38.58

20
21
22
23
24

31.41
32.67
33.93
35.17
36.42

34.17
35.48
36.78
38.08
39.37

37.56
38.93
40.29
41.64
42.98

40.00
41.40
42.80
44.18
45.56

25
26
27
28
29

37.65
38.89
40.11
41.34
42.56

40.65
41.92
43.20
44.46
45.72

44.32
45.64
46.96
48.28
49.59

46.93
48.29
49.64
50.99
52.34

30
40
50
100

43.77
55.75
67.50
124.34

46.98
59.34
71.42
129.56

50.89
63.71
76.17
135.82

53.67
66.80
79.52
140.19

Anexo IV

Degrees of Freedom for the F-Ratio denominator

1
2
3
4

Tabela de valores crticos F de Snedecor


Degrees of Freedom for the F-Ratio numerator
1
2
3
4
5
6
7
8
9
10
161.4 199.5 215.8 224.8 230.0 233.8 236.5 238.6 240.1 242.1
18.51 19.00 19.16 19.25 19.30 19.36 19.35 19.37 19.38 19.40
10.13
9.55 9.328
9.12
9.01
8.94
8.89
8.85
8.81
8.79
7.71
6.94
6.59
6.39
6.26
6.16
6.09
6.04
6.00
5.96

5
6
7
8
9

6.61
5.99
5.59
5.32
5.12

5.79
5.14
4.74
4.46
4.26

5.41
4.76
4.35
4.07
3.86

5.19
4.53
4.12
3.84
3.63

5.05
4.39
3.97
3.69
3.48

4.95
4.28
3.87
3.58
3.37

4.88
4.21
3.79
3.50
3.29

4.82
4.15
3.73
3.44
3.23

4.77
4.10
3.68
3.39
3.18

4.74
4.06
3.64
3.35
3.14

10
11
12
13
14

4.96
4.84
4.75
4.67
4.60

4.10
3.98
3.89
3.81
3.74

3.71
3.59
3.49
3.41
3.34

3.48
3.36
3.26
3.18
3.11

3.33
3.20
3.11
3.03
2.96

3.22
3.09
3.00
2.92
2.85

3.14
3.01
2.91
2.83
2.76

3.07
2.95
2.85
2.77
2.70

3.02
2.90
2.80
2.71
2.65

2.98
2.85
2.75
2.67
2.60

15
16
17
18
19

4.54
4.49
4.45
4.41
4.38

3.68
3.63
3.59
3.55
3.52

3.29
3.24
3.20
3.16
3.13

3.06
3.01
2.96
2.93
2.90

2.90
2.85
2.81
2.77
2.74

2.79
2.74
2.70
2.66
2.63

2.71
2.66
2.61
2.58
2.54

2.64
2.59
2.55
2.51
2.48

2.59
2.54
2.49
2.46
2.42

2.54
2.49
2.45
2.41
2.38

20
22
24
26
28

4.35
4.30
4.26
4.23
4.20

3.49
3.44
3.40
3.37
3.34

3.10
3.05
3.01
2.98
2.95

2.87
2.82
2.78
2.74
2.71

2.71
2.66
2.62
2.59
2.56

2.60
2.55
2.51
2.47
2.45

2.51
2.46
2.42
2.39
2.36

2.45
2.40
2.36
2.32
2.29

2.39
2.34
2.30
2.27
2.24

2.35
2.30
2.25
2.22
2.19

30
40
50
60

4.17
4.08
4.03
4.00

3.32
3.23
3.18
3.15

2.92
2.84
2.79
2.76

2.69
2.61
2.56
2.53

2.53
2.45
2.40
2.37

2.42
2.34
2.29
2.25

2.33
2.25
2.20
2.17

2.27
2.18
2.13
2.10

2.21
2.12
2.07
2.04

2.16
2.08
2.03
1.99

120

3.92

3.07

2.68

2.45

2.29

2.18

2.09

2.02

1.96

1.91

200

3.89

3.04

2.65

2.42

2.26

2.14

2.06

1.98

1.93

1.88

500
1000

3.86
3.85

3.01
3.01

2.62
2.61

2.39
2.38

2.23
2.22

2.12
2.11

2.03
2.02

1.96
1.95

1.90
1.89

1.85
1.84

Anexo V

Tabela de valores crticos Mann Whitney


1- tail test at A = 0.025 or 2- tail test at A = 0.05
N1
N2

10

11 12 13

14

15 16

17

18

19

20

1
2
3
4

10

11

11

12

13

13

11

12

13

14

15

17

18

19

20

10

11

13

14

16

17

19

21

22

24

25

27

10

12

14

16

18

20

22

24

26

28

30

32

34

10

13

15

17

19

22

24

26

29

21

34

36

38

41

10

12

15

17

20

23

26

28

31

34

37

39

42

45

48

10

11

14

17

20

23

26

29

33

36

39

42

45

48

52

55

11

13

16

19

23

26

30

33

37

40

44

47

51

55

58

62

12

11

14

18

22

26

29

33

37

41

45

49

53

57

61

65

69

13

12

16

20

24

28

33

37

41

45

50

54

59

63

67

72

76

14

13

17

22

26

31

36

40

45

50

55

59

64

67

74

78

83

15

10

14

19

24

29

34

39

44

49

54

59

64

70

75

80

85

90

16

11

15

21

26

31

37

42

47

53

59

64

70

75

81

86

92

98

17

11

17

22

28

34

39

45

51

57

63

67

75

81

87

93

99

105

18

12

18

24

30

36

42

48

55

61

67

74

80

86

93

99

106

112

19

13

19

25

32

38

45

52

58

65

72

78

95

92

99

106

113

119

20

13

20

27

34

41

48

55

62

69

76

83

90

98

105

112

119

127

Anexo V Continuao
1- tail test at A = 0.05 or 2- tail test at A = 0.10
N1
N2

10 11 12 13 14

15

16

17

18

19

20

1
2
3
4

10

11

10

11

12

14

15

16

17

18

11

12

13

15

16

18

19

20

22

23

25

10

12

14

16

17

19

21

23

25

26

28

30

32

11

13

15

17

19

21

24

26

28

30

33

35

37

39

10

13

15

18

20

23

26

28

31

33

36

39

41

44

47

12

15

18

21

24

27

30

33

36

39

42

45

48

51

54

10

11

14

17

20

24

27

31

34

37

41

44

48

51

55

58

62

11

12

16

19

23

27

31

34

38

42

46

50

54

57

61

65

69

12

13

17

21

26

30

34

38

42

47

51

55

60

64

68

72

77

13

10

15

19

24

28

33

37

42

47

51

56

61

65

70

75

80

84

14

11

16

21

26

31

36

41

46

51

56

61

66

71

77

82

87

92

15

12

18

23

28

33

39

44

50

55

61

66

72

77

83

88

94 100

16

14

19

25

30

36

42

48

54

60

65

71

77

83

89

95

101 107

17

15

20

26

33

39

45

51

57

64

70

77

83

89

96

102

109 115

18

16

22

28

35

41

48

55

61

68

75

82

88

95

102

109

116 123

19

10

17

23

30

37

44

51

58

65

72

80

87

94

101

109

116

123 130

20

11

18

25

32

39

47

54

62

69

77

84

92

100

107

115

123

130 138

N1 < N2

Anexo VI
Tabela de valores crticos Lilliefors
n

= 0,05

=0,01

0,337

0,405

10

0,258

0,294

15

0,220

0,257

20

0,190

0,231

25

0,173

0,200

30

0,161

0,187

>30

0,886/

1,031/

Anexo VII
Tabela de valores crticos Wilcoxon
Number
of pairs
N

.0313

.0625

.05

.025

.01

.005

.0469

.0156

.0781

.0313

.0391

.0234

.0547

.0391

.0156

.0391

.0195

.0078

.0039

.0547

.0273

.0117

.0078

.0078

.0488

.0195

.0098

.0039

.0645

.0273

.0137

.0059

10

10

.0420

.0244

.0098

.0049

11

.0527

.0322

.0137

.0068

11

13

.0415

10

.0210

.0093

.0049

14

.0508

11

.0269

.0122

.0068

17

.0461

13

.0212

.0081

.0046

18

.0549

14

.0261

10

.0105

.0061

21

.0471

17

.0239

12

.0085

.0040

22

.0549

18

.0287

13

.0107

10

.0052

25

.0453

21

.0247

15

.0083

12

.0043

26

.0520

22

.0290

16

.0101

13

.0054

30

.0473

25

.0240

19

.0090

15

.0042

31

.0535

26

.0277

20

.0108

16

.0051

35

.0467

29

.0222

23

.0091

19

.0046

36

.0523

30

.0253

24

.0107

20

.0055

41

.0492

34

.0224

27

.0087

23

.0047

42

.0544

35

.0253

28

.0101

24

.0055

47

.0494

40

.0241

32

.0091

27

.0045

48

.0542

41

.0269

33

.0104

28

.0052

53

.0478

46

.0247

37

.0090

32

.0047

54

.0521

47

.0273

38

.0102

33

.0054

60

.0487

52

.0242

43

.0096

37

.0047

61

.0527

53

.0266

44

.0107

38

.0053

12
13
14
15
16
17
18
19
20

Anexo VIII
Tabela de valores crticos Kruskal Wallis
n1
2
2

n2
1
2

n3
1
1

H
2,7000
3,6000
4,5714
3,7143
3,2000
4,2857
3,8571
5,3572
4,7143
4,5000
4,4643
5,1429
4,5714
4,0000
6,2500
5,3611
5,1389
4,5556
4,2500
7,2000
6,4889
5,6889
5,6000
5,0667
4,6222
3,5714
4,8214
4,5000
4,0179
6,0000
5,3333
5,1250
4,4583
4,1667
5,8333
5,2083
5,0000
4,0556
3,8889
6,4444
6,3000
5,4444
5,4000
4,5111
4,4444

P
0,500
0,200
0,067
0,200
0,300
0,100
0,133
0,029
0,148
0,067
0,105
0,043
0,100
0,129
0,011
0,032
0,061
0,100
0,012
0,004
0,011
0,029
0,050
0,086
0,100
0,200
0,057
0,076
0,114
0,014
0,033
0,052
0,100
0,105
0,021
0,050
0,057
0,093
0,129
0,008
0,011
0,046
0,051
0,098
0,102

n1

n2

n3

H
6,6667
6,1667
4,9667
4,8667
4,1667
4,0667
7,0364
6,8727
5,4545
5,2364
4,5545
4,4455
7,1439
7,1364
5,5985
5,5758
4,5455
4,4773
7,6538
7,5385
5,6923
5,6538
4,6539
4,5001
3,8571
5,2500
5,0000
4,4500
4,2000
4,0500
6,5333
6,1333
5,1600
5,0400
4,3733
4,2933
6,4000
4,9600
4,8711
4,0178
3,8400
6,9091
6,8218
5,2509
5,1055
4,6509
4,4945
7,0788
6,9818
5,6485

P
0,010
0,022
0,048
0,054
0,082
0,102
0,006
0,011
0,046
0,052
0,098
0,103
0,010
0,011
0,049
0,051
0,099
0,102
0,008
0,011
0,049
0,054
0,097
0,104
0,143
0,036
0,048
0,071
0,095
0,119
0,008
0,013
0,034
0,056
0,090
0,122
0,012
0,048
0,052
0,095
0,123
0,009
0,010
0,049
0,052
0,091
0,101
0,009
0,011
0,049

n1

n2

n3

H
6,9545
6,8400
4,9855
4,8600
3,9873
3,9600
7,2045
7,1182
5,2727
5,2682
4,5409
4,5182
7,4449
7,3949
5,6564
5,6308
4,5487
4,5231
7,7604
7,7440
5,6571
5,6176
4,6187
4,5527
7,3091
6,8364
5,1273
4,9091
4,1091
4,0364
7,3385
7,2692
5,3385
5,2462
4,6231
4,5077
7,5780
7,5429
5,7055
5,6264
4,5451
4,5363
7,8229
7,7914
5,6657
5,6429
4,5229
4,5200
8,0000
7,9800
5,7800

P
0,008
0,011
0,044
0,056
0,098
0,102
0,009
0,010
0,049
0,050
0,098
0,101
0,010
0,011
0,049
0,050
0,099
0,103
0,009
0,011
0,049
0,050
0,100
0,102
0,009
0,011
0,046
0,053
0,086
0,105
0,010
0,010
0,047
0,051
0,970
0,100
0,010
0,010
0,046
0,510
0,100
0,102
0,100
0,010
0,049
0,050
0,099
0,101
0,009
0,010
0,049

Referncias

BUSSAB, W. O.; MORETIN, P. A. Estatstica Bsica. 4. ed. So Paulo: Saraiva, 2003.


BARROS, Emilio. Aplicaes e Simulaes Monte Carlo e Bootstrap. Monografia
(Bacharelado em Estatstica) Universidade Estadual de Maring, Maring, 2005.
Disponvel em: <http://www.des.uem.br/graduacao/Monografias/Monografia_
Emilio.pdf.>. Acesso em: 23 nov. 2007.
CAMPOS, G. M. Estatstica Prtica para Docentes e Ps-Graduados. Disponvel
em: <http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap14.html>.
Acesso em: 23 nov. 2007.
COSTA NETO, P. L. de O. Estatstica Bsica. 2. ed. So Paulo: Edgard Blcher, 2002.
GONALVES, Lren Pinto Ferreira. Avaliao de Ferramentas de Minerao de
Dados como Fonte de Dados Relevantes para a Tomada de Deciso: aplicao na Rede Unido de Supermercados. Dissertao (Mestrado Interinstitucional em Administrao) Universidade da Regio da Campanha (Urcamp), So
Leopoldo, 2001. Disponvel em: <http://volpi.ea.ufrgs.br/teses_e_dissertacoes/
td/000410.pdf>
HOAGLIN, D. C.; MOSTELLER, F.; TUKEY, J. W. Anlise Exploratria de Dados
Tcnicas Robustas. Lisboa: Edies Salamandra, 1983.
HOEL, PORT & STONE. Introduo Teoria da Probabilidade. Rio de Janeiro: Editora Intercincia ,1981.
KAZMIER, L. J. Estatstica Aplicada Economia e Administrao. 4. ed. So
Paulo: Bookman 2007.
Landis JR, Koch GG. The measurement of observer agreement for categorical data.
Biometrics 1977.
LEVINE, D. M.; BERENSON, M. L.; STEPHAN, D. et al. Estatstica: Teoria e
Aplicaes Usando Microsoft Excel. 3. ed. Rio de Janeiro: LTC, 2005.
MATTAR, F. N. Pesquisa de Marketing. So Paulo: Atlas, 2001.
______. So Paulo: Atlas, 1996. (Edio compacta).

Referncias

MEYER, P. L. Probabilidade: Aplicaes Estatstica. 2. ed. Rio de Janeiro: LTC,


2000.
SIEGEL, S.; CASTELLAN JR., N. J. Estatstica No-Paramtrica para Cincias do
Comportamento. Porto Alegre: Artmed, 2006.
TRIOLA, M. F. Introduo Estatstica. 9. ed. Rio de Janeiro: LTC, 2005.
VIEIRA, S., WADA, R. O que Estatstica? 3. ed. So Paulo: Brasiliense, 1991.
WONNACOT, T. H. WONNACOTT, R. J. Estatstica Aplicada Economia e Administrao. Rio de Janeiro: LTC, 1981.

243